Инструменты датамайнинга.

Оперативные вопросы личного характера
bigBUG
Сообщения: 4389
Зарегистрирован: 20 апр 2010 21:52

Инструменты датамайнинга.

Сообщение bigBUG »

Живо интересует тема сбора информации по определенным тематикам. Например, что появилось в нете за последние сутки по такой-то тематике. +, конечно, некоторая фильтрация найденного тоже хотелась бы. Представляется мне, что задача распространенная, посему должен быть некий инструментарий для оного.
Подскажите, пож-ста, куда копать, что искать и т.д. Примите и проч.
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik
Аватара пользователя
dmi2130
Сообщения: 212
Зарегистрирован: 16 апр 2010 22:41
Откуда: Донецк

Re: Инструменты датамайнинга.

Сообщение dmi2130 »

искать агрегаторы... че за хз, понятия не имею )))
Генрих
skype - dmi2130
polartoad
Сообщения: 2374
Зарегистрирован: 19 апр 2010 20:14

Re: Инструменты датамайнинга.

Сообщение polartoad »

Если за последние сутки - то можно в крайнем случае воспользоваться расширенным поиском гугля. Хотя задача найти что-то по теме до определенной даты - тоже актуальна т.к. если надо посмотреть историю вопроса, по которому опубликована какая-то новость, то новостные сообщения последних суток все забивают.
bigBUG
Сообщения: 4389
Зарегистрирован: 20 апр 2010 21:52

Re: Инструменты датамайнинга.

Сообщение bigBUG »

Гугль, конечно, хорошо... но я себе представлял эту штуку в виде интернет бота... ну на худой конец серверного приложения, которое фильтрует новости нета на предмет интересных + нейрронная сеть на предмет обработки и вытягивания интересной инфы втупую фильтрами ведь такое не выловишь.... Типа вот такого хотя бы:
http://www.stikler.ru/solution/crawler/
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik
Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix »

bigBUG писал(а):Гугль, конечно, хорошо... но я себе представлял эту штуку в виде интернет бота... ну на худой конец серверного приложения, которое фильтрует новости нета на предмет интересных + нейрронная сеть на предмет обработки и вытягивания интересной инфы втупую фильтрами ведь такое не выловишь.... Типа вот такого хотя бы:
http://www.stikler.ru/solution/crawler/
а смысл в своих кравлерах, если гугл и рсс синдакаторы делают это за тебя, но на порядок более эффективном уровне? чтобы сравниться с покрытием гугла, нужны ооочень большие деньги. замечу, что ничто не мешает серверному приложению дергать гугл на предмет поиска и пропускать полученное через сети. более того, можно анализировать тренды поисковых запросов

свой бот годится разве что для обработки относительно небольшого числа сайтов (или для очень неспешной обработки большого числа)
bigBUG
Сообщения: 4389
Зарегистрирован: 20 апр 2010 21:52

Re: Инструменты датамайнинга.

Сообщение bigBUG »

trix писал(а):замечу, что ничто не мешает серверному приложению дергать гугл на предмет поиска и пропускать полученное через сети. более того, можно анализировать тренды поисковых запросов
Вотвотвот. Как-то так и надо - терзаем гугль и фильтруем найденное.
свой бот годится разве что для обработки относительно небольшого числа сайтов (или для очень неспешной обработки большого числа)
Ну свой-не принципиально, конечно, мало тематических сайтов можно и самому пролопатить.
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik
polartoad
Сообщения: 2374
Зарегистрирован: 19 апр 2010 20:14

Re: Инструменты датамайнинга.

Сообщение polartoad »

Упс, забыл что через настройки Гугля можно выставлять период поиска.
По теме тут: http://linkclub.ru/papers/search_meta.htm т.е. искать надо метапоисковые системы.
Кто может доступным языком рассказать какую качать с торрента или пользоваться он-лайн?
tanyguen
Сообщения: 179
Зарегистрирован: 25 апр 2010 19:17

Re: Инструменты датамайнинга.

Сообщение tanyguen »

Так того, этого, чем закончился поиск?

Кто и чем пользуется?

Всем нужны удобные инструменты.:)
bigBUG
Сообщения: 4389
Зарегистрирован: 20 апр 2010 21:52

Re: Инструменты датамайнинга.

Сообщение bigBUG »

Ничем не пользуюсь, вручную мониторю((.
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Примерно по теме, поэтому не завожу новоую.
Каким средставами можно наладить работу по публикации данных в малом коллективе?
Пока только совмесно-используемая таблица Excel приходит в голову..
Benedict
Сообщения: 11118
Зарегистрирован: 15 апр 2010 05:17

Re: Инструменты датамайнинга.

Сообщение Benedict »

MS Outlook?
Fly, fly through a troubled sky
Up to a new world shining bright, oh, oh.
bigBUG
Сообщения: 4389
Зарегистрирован: 20 апр 2010 21:52

Re: Инструменты датамайнинга.

Сообщение bigBUG »

Google Docs?)
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Так. Уточним постановку задачи.
Есть группа людей. скажем считающих ворон за окном. Им нужно каждый день (всем совместно) вести записи о том сколько ворон увидел каждый. Создается таблица Excel и каждый в ней получает строку, а дни это столбцы.
Но если файл открыт одним, то он закрыт на чтение для других и так далее. Механизма обработки транзакций нет.
Соттветственно постоянно возникают конфликты доступа.
Можно ли как-то наколеночными средствами проблему решить?
Аватара пользователя
al_mt
Сообщения: 13273
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt »

Хмм... Ну технологически решение стандартное. Ведётся непрерывный лог деятельности, который сводится отдельным механизмом.
В конце-концов эту задачу бухгалтера решали с того момента, как первый купец открыл вторую лавку :)
Нет идей...
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

А Excel имет встроенные фичи протоколирования?
Аватара пользователя
al_mt
Сообщения: 13273
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt »

На сколько я понимаю Excel - инструмент категорическим образом не предназначенный для коллективной работы...
...хотя гугл утверждает обратное :)
Нет идей...
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Адназначно не предназначенный. Но с альтернативами худо.
Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix »

Чибрикин Илья писал(а):Адназначно не предназначенный. Но с альтернативами худо.
таблицы в гуглдокс позволяют одновременно редактировать, с отслеживаением полной истории изменений и встроенным чатом

если надо непременно на Excel, то можно открывать через некоторую обёртку, которая будет выставлять флаг-файл, и если такой файл уже есть, ждать пока он исчезнет. при закрытии документа флаг-файл удаляется, а документ после сохранения на диск, заливается в систему контроля версий (git/subversion)
Аватара пользователя
al_mt
Сообщения: 13273
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt »

Ну да. Гугл в помощь, если не боитесь утечки инфы.
Нет идей...
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Можно этот момент (с контролем версий) прояснить более подробно?
Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix »

Чибрикин Илья писал(а):Можно этот момент (с контролем версий) прояснить более подробно?
собсно, ваша цель - хранить каждое завершенное изменение в некой БД с возможностью отката на произвольную дату или версию.
к сожалению, автоматического сравнения между версиями документа Excel у вас не будет.

названные мной инструменты контроля версий как раз и позволяют создать небольшую базу для любых файлов и заливать их туда в любой момент, с сохранением и автоматической нумерацией старых версий. каждое действие с такой БД протоколируется и всегда можно узнать кто залил ту или иную версию.
возможно сравнение содержимого для чисто текстовых файлов, возможно извлечение версии по дате или по номеру версии и т.д.
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

И для этого есть инструмент git/subversion ?
Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix »

Чибрикин Илья писал(а):И для этого есть инструмент git/subversion ?
да, их можно использовать как чисто локально на одном компе, так и храня репозитории на своем сервере или используя бесплатные/платные интернет-сервисы

у git больше гибкости и возможностей, но хуже с поддержкой программ в windows, придется много чего делать в командной строке или использовать довольно громоздкий софт

subversion попроще, и для него виндовый софт лучше проработан, например http://tortoisesvn.net/

в целом, яндекс вам кучу статей для начинающих по теме выдаст
Аватара пользователя
al_mt
Сообщения: 13273
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt »

svn - да. Вестщ.
Но... Все эти штуковины предназначены для разработчиков.
И к примеру "свести две таблицы разных версий" они не могут в принципе. ИМХО функционально, ничего лучше GoogleOffice пока нет.
Нет идей...
Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix »

al_mt писал(а):svn - да. Вестщ.
Но... Все эти штуковины предназначены для разработчиков.
И к примеру "свести две таблицы разных версий" они не могут в принципе. ИМХО функционально, ничего лучше GoogleOffice пока нет.
Я так понял, что Илья против онлайн сервисов в данном вопросе.
Кстати, есть искоробочное решение от мелкософта: SharePoint 2010, с ним весь офис умеет интегрироваться и предоставлять version control с очень простым интерфейсом
Аватара пользователя
al_mt
Сообщения: 13273
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt »

Да. И тут я вынужден согласиться (насчёт онлайн).

Сто касается SharePoint то кажется Илья именно им и пользуется. Или его хотели заставить пользоваться. Но что-то такое было.
Нет идей...
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Оно и есть. Но у нас нет своих разработчиков под шарик а время не ждет. Поэтому есть крупное закупленнное решение которое некуда ставить и необходимость ваять что-то на коленке.
Аватара пользователя
al_mt
Сообщения: 13273
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt »

...как обычно :(
За время прошедшее с начала эпопеи можно было с нуля создать подразделение, всё написать и выставить продукт на продажу дабы самоокупиться.

А теперь... Частное решение, которое Вы уже пробовали - нанять специалиста. Другого и не сказать.
Нет идей...
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

При наличии бюджета - да. Но газовые компании не вводят в штат программистов.
Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix »

Чибрикин Илья писал(а):При наличии бюджета - да. Но газовые компании не вводят в штат программистов.
Программисты в штате не нужны, для этого есть консультанты. Думаю Ваша проблема решается максимум за 16 часов работы. Обратитесь к любой сертифицированной фирме или найдите спеца чтобы оплатить вчерную
Аватара пользователя
ko4evnik
Сообщения: 14586
Зарегистрирован: 11 апр 2010 16:25

Re: Инструменты датамайнинга.

Сообщение ko4evnik »

Чибрикин Илья писал(а):И для этого есть инструмент git/subversion ?
вам возможно стоит посмотреть что такое Redmine (ака Красная Шахта, цвет революционно подходящий)
http://ru.wikipedia.org/wiki/Redmine
http://habrahabr.ru/blogs/pm/63724/
http://romanvbabenko.blogspot.com/2008/ ... antis.html

subversion + redmain друг в друга хорошо инкорпорируются...
Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix »

ko4evnik писал(а):
Чибрикин Илья писал(а):И для этого есть инструмент git/subversion ?
вам возможно стоит посмотреть что такое Redmine (ака Красная Шахта, цвет революционно подходящий)
думаю, у него там просто некому ставить редмайн.

вообще, программисты тут не при чем, настройка sharepoint - это задача для сисадмина.
уж сисадмин у газовой компании должен быть и не один :))
если вашим админам слабо доки прочесть и настроить -- тогда надо ставить вопрос о привлечении сторонних ресурсов, благо сформулировать проблему в виде желтого заголовка "ДЕНЬГИ ПОТРАЧЕНЫ! ВНЕДРИТЬ НЕКОМУ!" не составит труда.
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Импетус, погуглите на слово "СеверЭнергия". Дабы не быть обвиненным в нагонянии тоски на некоторых :-(
bigbeast
Сообщения: 89
Зарегистрирован: 16 янв 2011 23:42

Re: Инструменты датамайнинга.

Сообщение bigbeast »

О хосспидя )) Если религия не позволяет использовать обычную СУБД типа МайЭскюеля, и хоцца непременно экселя, кто мешает сделать БД ACCESS?
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Вопрос абсолютно идиотский.
Если есть програм на VBA то для ее запуска нужно поставить Visual Studio, так?
armadillo
Сообщения: 4741
Зарегистрирован: 15 апр 2010 17:09

Re: Инструменты датамайнинга.

Сообщение armadillo »

а просто офиса не хватит?
Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix »

Чибрикин Илья писал(а):Вопрос абсолютно идиотский.
Если есть програм на VBA то для ее запуска нужно поставить Visual Studio, так?
смотря подо что VBA написано.
если для офиса - надо офис, если для Outlook - соответственно Outlook.
если вообще само по себе -- надо VBA.DLL просто чтобы был в системе.
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Так. СРОЧНО НУЖНА ПОМОЩЬ!
Есть такой зверь как технология OPC как интерфейс SCADA систем. Нам (геологическому отделу) нужно научиться дергать данные оттуда, причем нам дают только IP-адрес и облако тегов. Внимание вопрос - дальше что можно сделать?
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Пока есть вариант за 200 баксей + доп деньги осенью
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

следующий вопрос.
Кто чего слышал про интеграцию MS SharePoint и MS Outlook?
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Так, а я все о своем, девичьем. Кто нить когда нибудь писал/читал/видел регламенты по размещению файлов на файловых системах?
Дмитрий Одинец
Сообщения: 10721
Зарегистрирован: 15 апр 2010 23:33
Откуда: Донецк

Re: Инструменты датамайнинга.

Сообщение Дмитрий Одинец »

Файловая система и есть регламент размещения файлов. По определению.
Дмитрий Одинец
Сообщения: 10721
Зарегистрирован: 15 апр 2010 23:33
Откуда: Донецк

Re: Инструменты датамайнинга.

Сообщение Дмитрий Одинец »

Ну вообще я ждал от Ч. уточнения в духе "...не, файловая система это такая ребристая пластмассочка в железном шкафу со стеклянной дверцей".
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Ну импетус может содрогаться сколько угодно а делать мне надо.
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Нда... Иметус, уровень плинтус -1.
Аватара пользователя
Александр
Сообщения: 3229
Зарегистрирован: 11 апр 2010 20:18
Откуда: Новокузнецк
Контактная информация:

Re: Инструменты датамайнинга.

Сообщение Александр »

Impetus писал(а):
Русское сообщество Subversion рекомендует использовать вместо термина "репозиторий" термин "хранилище", поскольку он полностью соответствует как прямому переводу слова «repository», так и его понятию.
А сообщество git что говорит?
Аватара пользователя
al_mt
Сообщения: 13273
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Инструменты датамайнинга.

Сообщение al_mt »

git будучи довольно толковым инструментом, при разработке небольшими коллективами, а особенно при обслуживании работяющегопрямосейчас проекта, порождает такую головную боль шопипец.
Нет идей...
Чибрикин Илья
Сообщения: 12659
Зарегистрирован: 14 апр 2010 08:36

Re: Инструменты датамайнинга.

Сообщение Чибрикин Илья »

Евгений, я просил ссылку на регламенты, если че. А не долгое рассуждение о ошибках в моих ДНК.
Дмитрий Одинец
Сообщения: 10721
Зарегистрирован: 15 апр 2010 23:33
Откуда: Донецк

Re: Инструменты датамайнинга.

Сообщение Дмитрий Одинец »

И тем не менее, зачем нужны "регламенты"-то? Начальство велело?
Аватара пользователя
trix
Сообщения: 289
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Инструменты датамайнинга.

Сообщение trix »

al_mt писал(а):git будучи довольно толковым инструментом, при разработке небольшими коллективами, а особенно при обслуживании работяющегопрямосейчас проекта, порождает такую головную боль шопипец.
имеет значение умение работать с гитом этим коллективом, размер коллектива - лишь мультипликатор для фактора неумения.

замечу, что ничто не мешает использовать гит по-минимуму, в духе SVN.
Ответить

Вернуться в «А не подскажет ли кто...»