Выложены RSS:
1. Алгоритмы Google
Примечание. Пока не все публикации попадают в контекст - попробуем решить с помощью тезауруса, чтобы исключить инфошум.
2. Сотрудники поисковых машин
Примечание. Возможно появление старых публикаций, так как идет поиск и загрузка подходящих страниц, однако в течение нескольких часов все устаканится и начнет показывать свежий контент.
Ну, ценность ленты в том, что все материалы будут падать в архив, а это можно также использовать в качестве закладок.
Можно также организовать в RSS Matt Cutts tracking, там точно лишней инфы будет минимум. Ну или взять цитаты Сегаловича или Садовского отдельным фидом.
Там сниппеты реализованы так, чтобы попадала наиболее репрезентативная выжимка и можно было понять смысл, даже не читая оригинальный текст. Это делается прямо из оригинальной HTML-ки страницы, то есть это не агрегатор RSS, а data mining tool.
Насколько нужна подобная RSS-ка по Google с выжимкой по алгоритмам?
Приветствую всех участников.
Мы доработали алгоритм формирования сниппетов - теперь робот пытается распознать наиболее важные блоки в тексте, и сформировать аннотацию из связанных по смыслу сообщений, наиболее точно передающих смысл текста. Пока вроде бы в бета-версии это работает достаточно неплохо. Пример уже давал, но все же - вот недавний алгоритм Яндекса.
Следующим этапом попытаемся извлекать тренды из неструктурированной HTML-среды, давая информационную картинку по любым запросам. Будет выглядеть примерно как кластеризация в старой Новотеке, передающая оригинальную информацию о развитии интересующего события.
По моим тестам пока попадает много "лишних" слов, за которые нельзя зацепить рекламу, плюс попадают непрезентативные слова из меню, верхней или нижней шапки.
Я бы согласился со списком, если бы ты на ходу определял тип страницы и давил лишние ключевые слова для страниц рубрик, например, так:
1) навигационные страницы - разделы, рубрики, теги на сайте
Не важен контент (аннотации документов), важны тексты ссылок разделов и элементы навигации
2) информационные страницы - полный текст страницы с информацией
Не важны элементы навигации, только уникальный текст
3) транзакционные страницы
Важны и элементы навигации, и уникальный текст
У тебя же есть поисковый индекс со взвешенными термами, почему не пробить его по коллекции документов и не взять ранк по каждому ключевому слову? И качать ничего не надо.
Андрей, ты бы для понимания работы сервиса выложил какую-то справочную информацию, что ли. Например, сформулировал задачу и написал, что именно в результате ты хочешь получить.
Пока видна попытка извлечения лексических цепочек (устойчивых словосочетаний), но без учета параметров коллекции других документов, взятых с того же сайта. То есть введенная страница как бы "висит" в воздухе, а лексикон ничего не дает при ранжировании слов, поэтому результаты какие-то непонятные.
Да, Вы можете мне написать по адресу 4tikhonov*собачка*gmail.com .
На самом деле аудитория проекта немного иная - здесь же, на форуме, представлена Технология сбора и обработки информации. Подобные услуги заказывают PR-агентства, маркетинговые отделы компаний и организации, которые хотят очень быстро получить нужную информацию по интересующей теме.
Частный случай, например - собрать в Интернете все, что возможно, по нужным ключевым словам. Если делать это руками, то уйдут месяцы, Мониторикс же часто справляется в течение одного дня.
Ну и RSS-канал ко всему Интернету, конечно, тоже дорогого стоит, да и обходится совсем недорого - $1 в день совершенно подъемная цена даже для частных лиц.
Андрей, а это не та же прога, которая сейчас работает в Мета.Контексте?
Пользователь определяет набор сайтов и описывает ключевыми запросами нужные объекты - например, объект SEO включает seo, поисковая оптимизация, поисковое продвижение, оптимизация сайтов и т.д.
После этого можно подключиться к выбранному каналу и получать по подписке или в RSS новую информацию, которая появляется на сайтах. Вот пример, как Мониторикс обрабатывает Интернет.