Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

Спустя почти год озвучиваю последние новости от Мониторикса.

Итак, мы научились очень качественно распознавать микроэлементы на любых страницах и автоматически определять типы носителей информации: новости, статьи, блоги, форумы, социальные сети и т.д.

Особой ценностью обладает способность агента отслеживать новые комментарии под публикациями - без RSS-экспорта такая возможность недоступна ни Яндексу, ни Google, ни кому бы-то ни было из малых и больших искалок. Ослеживать социальные медиа становится очень просто - достаточно настроить соответствующий канал и получать все в наших RSS-потоках.

В качестве демонстрации технологии можно посмотреть две real-time ленты (полнотекст):

Стартапы

Социальные сети

Глобальный мониторинг более-менее освоили и начали подключать крупные корпорации.

В планах - "автоматическая" аналитика.

Seredniy:
у Вас есть любые из перечисленных Вами?

Я немного разбираюсь, как они работают.

dr_dax:
Да можно. У нас прога под линукс, я сниму на видео с экрана и кратко расскажу о возможностях. Но где-то в начале января. Сейчас очень сильно загружен по основной работе, конец года.

dr_dax, уже середина января. Есть какой-то прогресс по демке или видео?

Robertomorreti:
Добрый день! Нужна вся возможная информация о проблематики создания поисковых систем,
тоесть почему создание поисковиков - это тяжелая задача?
Приветствуются ссылки на информацию по данной теме.

Просьба высказываться только тех, кто может предоставить нужную информацию по данной теме.

Вот здесь есть недавнее и очень хорошее обсуждение на тему создания и раскрутки поисковика. Создание поисковика - техническая задача, и ее вполне реально решить, однако для успешного старта нужна идея, которая не копирует существующие аналоги, а предложит что-то новое и полезное для пользователей.

Azam4ik:
Есть ли алгоритм работы всех поисковиков? Если у вас есть хотя бы 1 аглоритм пс, то выложите или просто укажите ссылку.Выкладываем, кто что знает!

Их много, этих алгоритмов. Вас какие интересуют - ранжирования или сбора информации?

Вопрос как лучше это сделать? Пока пользуюсь расширенным поиском и комбинацией различных команд из языка запросов в яндексе и google, еще смотрел нигму но не очень понравилось. В общем что-то получает найти, но много так и не находится.

Вообще задача нетривиальная, но имеет решение, которое я называю контекстным мониторингом (в специальной литературе может быть другое название). Суть его сводится к следующему - если нужно отследить все документы по теме, которая в текстах страниц может быть описана множеством различных слов и задана очень нечетко, можно воспользоваться так называемым "контекстом" - семантическим ядром ключевых фраз, которые могут встречаться на страницах.

Однако, не стоит путать "семантическое ядро" запросов и семантически связанные словосочетания (лексические цепочки) - это разные понятия, так как в текстах обычно пишут не так, как ищут люди. В этом, по сути, и состоит работа сеошника - добавить одному тексту множество вариантов запросов, по которым он должен искаться.

Если интересуют подробности, можете ознакомиться с контекстным мониторингом на PRweb'е. Там есть примеры, когда в одну RSS-ку загонялись все страницы из Интернета, удовлетворяющие определенному контексту.

а как можно распознавать навигационную разметку ? строить DOM ?

Кстати говоря. навигация обычно обрамлена ссылками, что может быть полезно для определения ключевых слов, относящихся к сайту в целом. В обычных текстах подобные вещи встречаются редко, разве что в названиях разделов на внутренней странице.

А чем отличается от этого?

Это поиск только по блогам, которые знают Яндекс-Блоги. Чтобы информация туда попала, надо либо пинговать, либо добавляться ручками, поэтому там есть далеко не все.

Анализируя тему, сделали интересное открытие, которое может кому-то пригодиться.

Оказывается, спустя некоторое время название алгоритма становится именем нарицательным и может упоминаться в Интернете без привязки к Яндексу-"родителю". Просто поиск по Анадырь или Арзамас дает сплошной мусор, так как названия уже подразумевают города, а не алгоритмы, поэтому в инфосреде идет сплошной белый шум.

Как лечить - для качественного мониторинга надо описывать контекст, к котором может упоминаться алгоритм. Например, анализируете контекст и составляете сложный запрос вида:

(анадырь|арзамас) (геотаргетинг|выдача|продвижение|seo|оптимизация|сателлит|яша|позиции|алгоритм|пессимизация|платные ссылки|апдейт)

При составлении тезауруса сильно помогут темы форума, где обсуждаются все проблемы. Мы же попробуем этот контекст ввести в RSS и дать наиболее полную информацию по теме.

Можно еще подумать и снять нужную информацию по алгоритмам Google с англоязычных сайтов, но здесь нужна очень хорошая система оценки качества контента, иначе RSS-ка будет обновляться с дикой скоростью и показывать в основном шум. Как вариант, можно посчитать context quality, но это длинный путь.

Хотя можно и промониторить все высказывания Мэтта Катца в контексте последних алгоритмов, конечно. Насколько это интересно?

Всего: 847