Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
1) можно ли как-то выделять информацию, на которую можно и нужно реагировать (блоги, форумы, статьи с возможность комментариев)? Работа со статическим материалом (статьи) сводится в основном к необходимости опровержения/распространения информации. Работа с социальными ресурсами требует умения повернуть обсуждение в нужное русло и оперативность здесь решающий фактор.

Да, безусловно. В этом плане Мониторикс достаточно удобный инструмент для **********ного PR, и довольно часто благодаря нему нашим клиентам удавалось погасить конфликт в зародыше или же быстро ответить на информационный выпад в их сторону.

2) вопрос, вытекающий из первого - есть ли уведомления? Кроме парсинга RSS подручными средствами.

Не совсем понял вопрос - зачем парсить RSS? Можно установить на рабочем компьютере любой удобный RSS-агрегатор (например, Awasu) и новые сообщения сами будут всплывать на экране. Если же Вы о подписке - конечно, она есть.

3) есть ли статистика? При проведении РА приходится вести отчеты - кто где и в каком ключе упомянул
продаваемый продукт или бренд. Независимая статистика здесь не помешает.

Да, это вполне рабочий инструмент и для определения тональности. Оператор внутри панели Мониторикса может выставить сообщению нужную окраску (негатив, нейтрал, позитив), после чего получить данные в виде таблиц. Мы использовали Мониторикс для оценки деятельности полусотни предприятий, поэтому данная технология вполне отработана. Справедливости ради отмечу, что мы пытались разработать алгоритм автоматического определения тональности, но на сегодняшний день человеческие ресурсы дороже разработки программы подобного класса.

4) полнота выборки - что можете сказать о ней?

Здесь все зависит от заказчика. Если нужно качнуть и разобрать половину Интернета - мы это сделаем. Кстати, по украинским сайтам ежедневный поток сообщений в боевом режиме примерно 50-70 тыс. в день (со всеми региональными СМИ). Если же требуется глобальный мониторинг, то подключаются ресурсы всех доступных поисковых машин и собираются все ссылки, где встречаются заданные запросы, после чего робот отбирает то, что нужно заказчику, все остальное оседает в хранилище.

5) и все таки повторю то, о чем неявно спросил в начале темы. Инструмент позволяет в автоматическом режиме получать в удобном для экспорта виде большие объемы относительно релевантных между собой материалов. Весьма удобный инструмент для создания и наполнения сайтов сомнительного содержания. Не хотелось бы, чтобы благая идея в итоге стала еще одним ключиком в засирании сети

Это сложный вопрос - здесь вся ответственность лежит на заказчике, и он сам определяет, что делать с этой информацией. Однако у меня есть надежда, что в 2009-м году алгоритмы поисковиков достаточно развиты, чтобы определять, где оригинал, а где копипаст, поэтому заработать много на чужом контент вряд ли удастся.

А вот если использовать поступаемые материалы для рерайта или написания пресс-дайджестов (то есть создании собственного контента), то Мониториксу в этом плане почти нет равных. Наши аналитики создавали очень хороший дайджест из 15-20 страниц на основе материалов примерно 500-1000 новостей буквально за несколько часов.

Имелся в виду поиск по блогам,
В общем я не увидел ничего нового о Гугле, пролетевшего мимо моей подписки в Гугл ридере, но в вашем канале мусор таки начествует, немного правда, но достаточно для некомфортного ощущения.

Ну, с учетом того, что в качестве источника Мониторикс берет оригинальные HTML-ки страниц сайтов, а не уже готовый структурированный RSS-канал, который импортируют Яндекс-Новости или Google News и который обычно предоставляется сайтом-источником, то это уже успех. ;)

А что Вы скажете, если бы я сейчас подготовил такой канал на японском или китайском? Или сделал отдельный канал SEO под Google, который будет подобен тематическому ТВ-каналу, показывающему все только по выбранной теме?

Вообще те возможности, о которых я написал - базовые. Мониторикс предназначен для обработки всей доступной информации и реферировании каналов, собирая все сообщения по каждому событию внутри кластера и отображая лишь аннотацию в виде дайджеста.

Например, Вы ведете сайт по Google и Вы хотите узнавать только события, не читая все новости (их десятки тысяч в день). На самом деле информационных поводов обычно не более десятка, а то и меньше, то есть информационная перегруженность здесь превышает доступные человеку пределы, так как все прочитать практически невозможно.

Грубо говоря, человек, изучивший дайджест с инфоповодами знает почти все то же, что человек. прочитавший ВСЕ.

так 1 не интересен с технологической точки зрения, интересны много узкоспециализированных

Во-первых, у нас предусмотрен бесплатный тестовый период (1 неделя), в течение которого можно ознакомиться с системой и понять, насколько она вообще будет Вам полезна. А во-вторых, цены на сайте указаны для мониторинга всего Интернета, то есть это полные пакеты, к тому же, для участников Форума можем сделать скидку в зависимости от количества запросов. Если есть желание попробовать - обращайтесь.

Они оба в результатах поиска отдают RSS-запись целиком, если в ней содержится реферат или только начало со ссылкой на полную новость - то это даже лучше, копипастинг цветет и пахнет, а прокручивать все дубли одной и тойже инфы интереса мало...

Яндекс-Новости уже отдают RSS-ку? Наверное, я действительно отстал от жизни.

Тем не менее, отличие Мониторикса как раз состоит в том, что он самостоятельно обучается и "разбирает" любые сайты, новостные в том числе. В Яндекс-Новостях, насколько я знаю, чуть более 2 тыс. сайтов, у Мониторикса же это количество ничем не ограничено. Если нужно промониторить некий сайт - он заносится в список и спустя несколько минут уже доступен как во внутренней ленте, так и в RSS-фиде.

хорошо, но дорого

Не совсем понимаю - в стартовой версии подписка на один RSS по одному запросу стоит $1 в день, по трем запросам - $50 в месяц. Мне кажется, в три запроса можно уложить все нужные ключевые слова, чтобы описать Объект. :)

Подавлящее большинство информации в канале о Гугле доступна в видах блогов и новостных сайтам, а Гугол с Яндексом давно научились отдавать результаты поиска по новостям в виде RSS...

Внутри Мониторикса доступна вкладка Сайты, куда можно либо добавить интересующий сайт, либо импортировать группу из неограниченного количества сайтов, после чего робот начинает отслеживать на них нужную информацию.

Кроме того, покажите мне в Гугле или Яндексе RSS-фид с полными текстами новостей, как в фиде Мониторикса по Google :)

использоваться она будет не во благо

Михаил, специально для Вас я создал персональный RSS-канал.

В настоящий момент он отображает состояние, в котором робот кропотливо собирает все, что может найти в Вебе и анализирует любую информацию, которая поступает в Мониторикс. После того, как спайдер соберет все ссылки, в RSS-ридере можно будет читать только новую информацию, когда Вы (или о Вас) что-то напишут.

Это интеллектуальный персональный агент, он способен собирать любую информацию после того, как будет описан Объект поиска.

Использую данный инструмент для мониторинга новостей по автотематике.

Андрей, по твоим запросам уже готовы RSS-фиды на английском, немецком, литовском и латышском языках. Если нужно - обращайся, там все самые последние новости.

Vyacheslav Tikhonov, задумка хорошая, только боюсь что использоваться она будет не во благо

Михаил, Мониторикс разрабатывался как инструмент конкурентной разведки, все остальное - прикладные задачи, которые можно решать между делом. Поэтому проще всего сейчас отслеживать деятельность людей или компаний в Интернете, и оперативно получать все это в RSS.

Baer:
Вы собираете информацию только из RSS-каналов?

Вы не поняли. :) Мы собираем информацию напрямую из Интернета, HTML-страницы, как Google, Яндекс, Yahoo и прочие. RSS из материалов делает сам Мониторикс, распознавая контентную часть на каждом сайте.

Более того, Мониторикс идет по всем страницам подряд, будь-то новости, блоги или объявления и пытается сгенерировать более-менее человеческую аннотацию. Хорошо он извлекает и описания товаров с любых сайтов, и цены, показывая только их характеристики, а в блогах находит к каждому из них обзоры и отзывы.

Всего: 847