Спустя почти год озвучиваю последние новости от Мониторикса.
Итак, мы научились очень качественно распознавать микроэлементы на любых страницах и автоматически определять типы носителей информации: новости, статьи, блоги, форумы, социальные сети и т.д.
Особой ценностью обладает способность агента отслеживать новые комментарии под публикациями - без RSS-экспорта такая возможность недоступна ни Яндексу, ни Google, ни кому бы-то ни было из малых и больших искалок. Ослеживать социальные медиа становится очень просто - достаточно настроить соответствующий канал и получать все в наших RSS-потоках.
В качестве демонстрации технологии можно посмотреть две real-time ленты (полнотекст):
Стартапы
Социальные сети
Глобальный мониторинг более-менее освоили и начали подключать крупные корпорации.
В планах - "автоматическая" аналитика.
Я немного разбираюсь, как они работают.
dr_dax, уже середина января. Есть какой-то прогресс по демке или видео?
Вот здесь есть недавнее и очень хорошее обсуждение на тему создания и раскрутки поисковика. Создание поисковика - техническая задача, и ее вполне реально решить, однако для успешного старта нужна идея, которая не копирует существующие аналоги, а предложит что-то новое и полезное для пользователей.
Их много, этих алгоритмов. Вас какие интересуют - ранжирования или сбора информации?
Вообще задача нетривиальная, но имеет решение, которое я называю контекстным мониторингом (в специальной литературе может быть другое название). Суть его сводится к следующему - если нужно отследить все документы по теме, которая в текстах страниц может быть описана множеством различных слов и задана очень нечетко, можно воспользоваться так называемым "контекстом" - семантическим ядром ключевых фраз, которые могут встречаться на страницах.
Однако, не стоит путать "семантическое ядро" запросов и семантически связанные словосочетания (лексические цепочки) - это разные понятия, так как в текстах обычно пишут не так, как ищут люди. В этом, по сути, и состоит работа сеошника - добавить одному тексту множество вариантов запросов, по которым он должен искаться.
Если интересуют подробности, можете ознакомиться с контекстным мониторингом на PRweb'е. Там есть примеры, когда в одну RSS-ку загонялись все страницы из Интернета, удовлетворяющие определенному контексту.
Кстати говоря. навигация обычно обрамлена ссылками, что может быть полезно для определения ключевых слов, относящихся к сайту в целом. В обычных текстах подобные вещи встречаются редко, разве что в названиях разделов на внутренней странице.
Это поиск только по блогам, которые знают Яндекс-Блоги. Чтобы информация туда попала, надо либо пинговать, либо добавляться ручками, поэтому там есть далеко не все.
Анализируя тему, сделали интересное открытие, которое может кому-то пригодиться.
Оказывается, спустя некоторое время название алгоритма становится именем нарицательным и может упоминаться в Интернете без привязки к Яндексу-"родителю". Просто поиск по Анадырь или Арзамас дает сплошной мусор, так как названия уже подразумевают города, а не алгоритмы, поэтому в инфосреде идет сплошной белый шум.
Как лечить - для качественного мониторинга надо описывать контекст, к котором может упоминаться алгоритм. Например, анализируете контекст и составляете сложный запрос вида:
(анадырь|арзамас) (геотаргетинг|выдача|продвижение|seo|оптимизация|сателлит|яша|позиции|алгоритм|пессимизация|платные ссылки|апдейт)
При составлении тезауруса сильно помогут темы форума, где обсуждаются все проблемы. Мы же попробуем этот контекст ввести в RSS и дать наиболее полную информацию по теме.
Можно еще подумать и снять нужную информацию по алгоритмам Google с англоязычных сайтов, но здесь нужна очень хорошая система оценки качества контента, иначе RSS-ка будет обновляться с дикой скоростью и показывать в основном шум. Как вариант, можно посчитать context quality, но это длинный путь.
Хотя можно и промониторить все высказывания Мэтта Катца в контексте последних алгоритмов, конечно. Насколько это интересно?