Инструменты датамайнинга.

Оперативные вопросы личного характера
bigBUG
Сообщения: 4385
Зарегистрирован: 20 апр 2010 21:52

Инструменты датамайнинга.

Сообщение bigBUG » 16 авг 2010 13:22

Живо интересует тема сбора информации по определенным тематикам. Например, что появилось в нете за последние сутки по такой-то тематике. +, конечно, некоторая фильтрация найденного тоже хотелась бы. Представляется мне, что задача распространенная, посему должен быть некий инструментарий для оного.
Подскажите, пож-ста, куда копать, что искать и т.д. Примите и проч.
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik

Аватара пользователя
dmi2130
Сообщения: 212
Зарегистрирован: 16 апр 2010 22:41
Откуда: Донецк

Re: Инструменты датамайнинга.

Сообщение dmi2130 » 16 авг 2010 19:29

искать агрегаторы... че за хз, понятия не имею )))
Генрих
skype - dmi2130

polartoad
Сообщения: 2374
Зарегистрирован: 19 апр 2010 20:14

Re: Инструменты датамайнинга.

Сообщение polartoad » 16 авг 2010 19:33

Если за последние сутки - то можно в крайнем случае воспользоваться расширенным поиском гугля. Хотя задача найти что-то по теме до определенной даты - тоже актуальна т.к. если надо посмотреть историю вопроса, по которому опубликована какая-то новость, то новостные сообщения последних суток все забивают.

bigBUG
Сообщения: 4385
Зарегистрирован: 20 апр 2010 21:52

Re: Инструменты датамайнинга.

Сообщение bigBUG » 16 авг 2010 20:22

Гугль, конечно, хорошо... но я себе представлял эту штуку в виде интернет бота... ну на худой конец серверного приложения, которое фильтрует новости нета на предмет интересных + нейрронная сеть на предмет обработки и вытягивания интересной инфы втупую фильтрами ведь такое не выловишь.... Типа вот такого хотя бы:
http://www.stikler.ru/solution/crawler/
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik

Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix » 16 авг 2010 21:24

bigBUG писал(а):Гугль, конечно, хорошо... но я себе представлял эту штуку в виде интернет бота... ну на худой конец серверного приложения, которое фильтрует новости нета на предмет интересных + нейрронная сеть на предмет обработки и вытягивания интересной инфы втупую фильтрами ведь такое не выловишь.... Типа вот такого хотя бы:
http://www.stikler.ru/solution/crawler/
а смысл в своих кравлерах, если гугл и рсс синдакаторы делают это за тебя, но на порядок более эффективном уровне? чтобы сравниться с покрытием гугла, нужны ооочень большие деньги. замечу, что ничто не мешает серверному приложению дергать гугл на предмет поиска и пропускать полученное через сети. более того, можно анализировать тренды поисковых запросов

свой бот годится разве что для обработки относительно небольшого числа сайтов (или для очень неспешной обработки большого числа)

bigBUG
Сообщения: 4385
Зарегистрирован: 20 апр 2010 21:52

Re: Инструменты датамайнинга.

Сообщение bigBUG » 16 авг 2010 22:13

trix писал(а):замечу, что ничто не мешает серверному приложению дергать гугл на предмет поиска и пропускать полученное через сети. более того, можно анализировать тренды поисковых запросов
Вотвотвот. Как-то так и надо - терзаем гугль и фильтруем найденное.
свой бот годится разве что для обработки относительно небольшого числа сайтов (или для очень неспешной обработки большого числа)
Ну свой-не принципиально, конечно, мало тематических сайтов можно и самому пролопатить.
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik

polartoad
Сообщения: 2374
Зарегистрирован: 19 апр 2010 20:14

Re: Инструменты датамайнинга.

Сообщение polartoad » 16 авг 2010 22:48

Упс, забыл что через настройки Гугля можно выставлять период поиска.
По теме тут: http://linkclub.ru/papers/search_meta.htm т.е. искать надо метапоисковые системы.
Кто может доступным языком рассказать какую качать с торрента или пользоваться он-лайн?

tanyguen
Сообщения: 179
Зарегистрирован: 25 апр 2010 19:17

Re: Инструменты датамайнинга.

Сообщение tanyguen » 07 сен 2010 17:20

Так того, этого, чем закончился поиск?

Кто и чем пользуется?

Всем нужны удобные инструменты.:)

bigBUG
Сообщения: 4385
Зарегистрирован: 20 апр 2010 21:52

Re: Инструменты датамайнинга.

Сообщение bigBUG » 07 сен 2010 21:21

Ничем не пользуюсь, вручную мониторю((.
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 18 янв 2012 08:54

Примерно по теме, поэтому не завожу новоую.
Каким средставами можно наладить работу по публикации данных в малом коллективе?
Пока только совмесно-используемая таблица Excel приходит в голову..

Benedict
Сообщения: 9763
Зарегистрирован: 15 апр 2010 05:17

Re: Инструменты датамайнинга.

Сообщение Benedict » 18 янв 2012 08:59

MS Outlook?
Fly, fly through a troubled sky
Up to a new world shining bright, oh, oh.

bigBUG
Сообщения: 4385
Зарегистрирован: 20 апр 2010 21:52

Re: Инструменты датамайнинга.

Сообщение bigBUG » 18 янв 2012 09:20

Google Docs?)
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 18 янв 2012 15:26

Так. Уточним постановку задачи.
Есть группа людей. скажем считающих ворон за окном. Им нужно каждый день (всем совместно) вести записи о том сколько ворон увидел каждый. Создается таблица Excel и каждый в ней получает строку, а дни это столбцы.
Но если файл открыт одним, то он закрыт на чтение для других и так далее. Механизма обработки транзакций нет.
Соттветственно постоянно возникают конфликты доступа.
Можно ли как-то наколеночными средствами проблему решить?

Аватара пользователя
al_mt
Сообщения: 12662
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt » 18 янв 2012 16:28

Хмм... Ну технологически решение стандартное. Ведётся непрерывный лог деятельности, который сводится отдельным механизмом.
В конце-концов эту задачу бухгалтера решали с того момента, как первый купец открыл вторую лавку :)
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 18 янв 2012 16:44

А Excel имет встроенные фичи протоколирования?

Аватара пользователя
al_mt
Сообщения: 12662
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt » 18 янв 2012 16:46

На сколько я понимаю Excel - инструмент категорическим образом не предназначенный для коллективной работы...
...хотя гугл утверждает обратное :)
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 18 янв 2012 17:49

Адназначно не предназначенный. Но с альтернативами худо.

Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix » 18 янв 2012 19:30

Чибрикин Илья писал(а):Адназначно не предназначенный. Но с альтернативами худо.
таблицы в гуглдокс позволяют одновременно редактировать, с отслеживаением полной истории изменений и встроенным чатом

если надо непременно на Excel, то можно открывать через некоторую обёртку, которая будет выставлять флаг-файл, и если такой файл уже есть, ждать пока он исчезнет. при закрытии документа флаг-файл удаляется, а документ после сохранения на диск, заливается в систему контроля версий (git/subversion)

Аватара пользователя
al_mt
Сообщения: 12662
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt » 19 янв 2012 08:29

Ну да. Гугл в помощь, если не боитесь утечки инфы.
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 19 янв 2012 08:56

Можно этот момент (с контролем версий) прояснить более подробно?

Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix » 19 янв 2012 10:06

Чибрикин Илья писал(а):Можно этот момент (с контролем версий) прояснить более подробно?
собсно, ваша цель - хранить каждое завершенное изменение в некой БД с возможностью отката на произвольную дату или версию.
к сожалению, автоматического сравнения между версиями документа Excel у вас не будет.

названные мной инструменты контроля версий как раз и позволяют создать небольшую базу для любых файлов и заливать их туда в любой момент, с сохранением и автоматической нумерацией старых версий. каждое действие с такой БД протоколируется и всегда можно узнать кто залил ту или иную версию.
возможно сравнение содержимого для чисто текстовых файлов, возможно извлечение версии по дате или по номеру версии и т.д.

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 19 янв 2012 14:35

И для этого есть инструмент git/subversion ?

Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix » 19 янв 2012 14:55

Чибрикин Илья писал(а):И для этого есть инструмент git/subversion ?
да, их можно использовать как чисто локально на одном компе, так и храня репозитории на своем сервере или используя бесплатные/платные интернет-сервисы

у git больше гибкости и возможностей, но хуже с поддержкой программ в windows, придется много чего делать в командной строке или использовать довольно громоздкий софт

subversion попроще, и для него виндовый софт лучше проработан, например http://tortoisesvn.net/

в целом, яндекс вам кучу статей для начинающих по теме выдаст

Аватара пользователя
al_mt
Сообщения: 12662
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt » 19 янв 2012 16:06

svn - да. Вестщ.
Но... Все эти штуковины предназначены для разработчиков.
И к примеру "свести две таблицы разных версий" они не могут в принципе. ИМХО функционально, ничего лучше GoogleOffice пока нет.
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix » 19 янв 2012 16:14

al_mt писал(а):svn - да. Вестщ.
Но... Все эти штуковины предназначены для разработчиков.
И к примеру "свести две таблицы разных версий" они не могут в принципе. ИМХО функционально, ничего лучше GoogleOffice пока нет.
Я так понял, что Илья против онлайн сервисов в данном вопросе.
Кстати, есть искоробочное решение от мелкософта: SharePoint 2010, с ним весь офис умеет интегрироваться и предоставлять version control с очень простым интерфейсом

Аватара пользователя
al_mt
Сообщения: 12662
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt » 19 янв 2012 17:22

Да. И тут я вынужден согласиться (насчёт онлайн).

Сто касается SharePoint то кажется Илья именно им и пользуется. Или его хотели заставить пользоваться. Но что-то такое было.
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 19 янв 2012 17:27

Оно и есть. Но у нас нет своих разработчиков под шарик а время не ждет. Поэтому есть крупное закупленнное решение которое некуда ставить и необходимость ваять что-то на коленке.

Аватара пользователя
al_mt
Сообщения: 12662
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt » 19 янв 2012 17:59

...как обычно :(
За время прошедшее с начала эпопеи можно было с нуля создать подразделение, всё написать и выставить продукт на продажу дабы самоокупиться.

А теперь... Частное решение, которое Вы уже пробовали - нанять специалиста. Другого и не сказать.
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 19 янв 2012 18:03

При наличии бюджета - да. Но газовые компании не вводят в штат программистов.

Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix » 19 янв 2012 18:55

Чибрикин Илья писал(а):При наличии бюджета - да. Но газовые компании не вводят в штат программистов.
Программисты в штате не нужны, для этого есть консультанты. Думаю Ваша проблема решается максимум за 16 часов работы. Обратитесь к любой сертифицированной фирме или найдите спеца чтобы оплатить вчерную

Аватара пользователя
ko4evnik
Сообщения: 14357
Зарегистрирован: 11 апр 2010 16:25

Re: Инструменты датамайнинга.

Сообщение ko4evnik » 19 янв 2012 19:01

Чибрикин Илья писал(а):И для этого есть инструмент git/subversion ?
вам возможно стоит посмотреть что такое Redmine (ака Красная Шахта, цвет революционно подходящий)
http://ru.wikipedia.org/wiki/Redmine
http://habrahabr.ru/blogs/pm/63724/
http://romanvbabenko.blogspot.com/2008/ ... antis.html

subversion + redmain друг в друга хорошо инкорпорируются...

Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix » 19 янв 2012 19:10

ko4evnik писал(а):
Чибрикин Илья писал(а):И для этого есть инструмент git/subversion ?
вам возможно стоит посмотреть что такое Redmine (ака Красная Шахта, цвет революционно подходящий)
думаю, у него там просто некому ставить редмайн.

вообще, программисты тут не при чем, настройка sharepoint - это задача для сисадмина.
уж сисадмин у газовой компании должен быть и не один :))
если вашим админам слабо доки прочесть и настроить -- тогда надо ставить вопрос о привлечении сторонних ресурсов, благо сформулировать проблему в виде желтого заголовка "ДЕНЬГИ ПОТРАЧЕНЫ! ВНЕДРИТЬ НЕКОМУ!" не составит труда.

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 24 янв 2012 10:39

Импетус, погуглите на слово "СеверЭнергия". Дабы не быть обвиненным в нагонянии тоски на некоторых :-(

bigbeast
Сообщения: 89
Зарегистрирован: 16 янв 2011 23:42

Re: Инструменты датамайнинга.

Сообщение bigbeast » 03 мар 2012 11:54

О хосспидя )) Если религия не позволяет использовать обычную СУБД типа МайЭскюеля, и хоцца непременно экселя, кто мешает сделать БД ACCESS?

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 05 июн 2012 17:07

Вопрос абсолютно идиотский.
Если есть програм на VBA то для ее запуска нужно поставить Visual Studio, так?

armadillo
Сообщения: 4741
Зарегистрирован: 15 апр 2010 17:09

Re: Инструменты датамайнинга.

Сообщение armadillo » 05 июн 2012 17:08

а просто офиса не хватит?

Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix » 05 июн 2012 17:27

Чибрикин Илья писал(а):Вопрос абсолютно идиотский.
Если есть програм на VBA то для ее запуска нужно поставить Visual Studio, так?
смотря подо что VBA написано.
если для офиса - надо офис, если для Outlook - соответственно Outlook.
если вообще само по себе -- надо VBA.DLL просто чтобы был в системе.

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 15 июн 2012 10:45

Так. СРОЧНО НУЖНА ПОМОЩЬ!
Есть такой зверь как технология OPC как интерфейс SCADA систем. Нам (геологическому отделу) нужно научиться дергать данные оттуда, причем нам дают только IP-адрес и облако тегов. Внимание вопрос - дальше что можно сделать?

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 15 июн 2012 22:36

Пока есть вариант за 200 баксей + доп деньги осенью

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 17 сен 2012 16:26

следующий вопрос.
Кто чего слышал про интеграцию MS SharePoint и MS Outlook?

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 11 июл 2014 17:20

Так, а я все о своем, девичьем. Кто нить когда нибудь писал/читал/видел регламенты по размещению файлов на файловых системах?

Дмитрий Одинец
Сообщения: 10558
Зарегистрирован: 15 апр 2010 23:33
Откуда: Донецк

Re: Инструменты датамайнинга.

Сообщение Дмитрий Одинец » 11 июл 2014 17:25

Файловая система и есть регламент размещения файлов. По определению.

Дмитрий Одинец
Сообщения: 10558
Зарегистрирован: 15 апр 2010 23:33
Откуда: Донецк

Re: Инструменты датамайнинга.

Сообщение Дмитрий Одинец » 11 июл 2014 22:23

Ну вообще я ждал от Ч. уточнения в духе "...не, файловая система это такая ребристая пластмассочка в железном шкафу со стеклянной дверцей".

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 11 июл 2014 23:56

Ну импетус может содрогаться сколько угодно а делать мне надо.

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 13 июл 2014 21:48

Нда... Иметус, уровень плинтус -1.

Аватара пользователя
Александр
Сообщения: 3128
Зарегистрирован: 11 апр 2010 20:18
Откуда: Новокузнецк
Контактная информация:

Re: Инструменты датамайнинга.

Сообщение Александр » 14 июл 2014 07:22

Impetus писал(а):
Русское сообщество Subversion рекомендует использовать вместо термина "репозиторий" термин "хранилище", поскольку он полностью соответствует как прямому переводу слова «repository», так и его понятию.
А сообщество git что говорит?

Аватара пользователя
al_mt
Сообщения: 12662
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt » 14 июл 2014 11:01

git будучи довольно толковым инструментом, при разработке небольшими коллективами, а особенно при обслуживании работяющегопрямосейчас проекта, порождает такую головную боль шопипец.
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Чибрикин Илья
Сообщения: 12151
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья » 14 июл 2014 21:23

Евгений, я просил ссылку на регламенты, если че. А не долгое рассуждение о ошибках в моих ДНК.

Дмитрий Одинец
Сообщения: 10558
Зарегистрирован: 15 апр 2010 23:33
Откуда: Донецк

Re: Инструменты датамайнинга.

Сообщение Дмитрий Одинец » 14 июл 2014 21:31

И тем не менее, зачем нужны "регламенты"-то? Начальство велело?

Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix » 15 июл 2014 11:25

al_mt писал(а):git будучи довольно толковым инструментом, при разработке небольшими коллективами, а особенно при обслуживании работяющегопрямосейчас проекта, порождает такую головную боль шопипец.
имеет значение умение работать с гитом этим коллективом, размер коллектива - лишь мультипликатор для фактора неумения.

замечу, что ничто не мешает использовать гит по-минимуму, в духе SVN.

Ответить

Вернуться в «А не подскажет ли кто...»