Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

Выложены RSS:

1. Алгоритмы Google

Примечание. Пока не все публикации попадают в контекст - попробуем решить с помощью тезауруса, чтобы исключить инфошум.

2. Сотрудники поисковых машин

Примечание. Возможно появление старых публикаций, так как идет поиск и загрузка подходящих страниц, однако в течение нескольких часов все устаканится и начнет показывать свежий контент.

Подпишусь. Хотя придётся выбирать среди всей этой кучи нормальные материалы. Блогеры как всегда будут ныть

Ну, ценность ленты в том, что все материалы будут падать в архив, а это можно также использовать в качестве закладок.

Пускай будет. Инфа лишней не бывает

Можно также организовать в RSS Matt Cutts tracking, там точно лишней инфы будет минимум. Ну или взять цитаты Сегаловича или Садовского отдельным фидом.

Там сниппеты реализованы так, чтобы попадала наиболее репрезентативная выжимка и можно было понять смысл, даже не читая оригинальный текст. Это делается прямо из оригинальной HTML-ки страницы, то есть это не агрегатор RSS, а data mining tool.

Насколько нужна подобная RSS-ка по Google с выжимкой по алгоритмам?

Приветствую всех участников.

Мы доработали алгоритм формирования сниппетов - теперь робот пытается распознать наиболее важные блоки в тексте, и сформировать аннотацию из связанных по смыслу сообщений, наиболее точно передающих смысл текста. Пока вроде бы в бета-версии это работает достаточно неплохо. Пример уже давал, но все же - вот недавний алгоритм Яндекса.

Следующим этапом попытаемся извлекать тренды из неструктурированной HTML-среды, давая информационную картинку по любым запросам. Будет выглядеть примерно как кластеризация в старой Новотеке, передающая оригинальную информацию о развитии интересующего события.

Первая секция - это выделенные из документа, наиболее значимые (по моему разумению) слова, описывающие его суть и актуальные, скажем, для показа рекламы или при поиске этого документа. Моя жена, к примеру, дёргает их в <meta name="keywords"...> страниц своего сайта и весьма довольна.

По моим тестам пока попадает много "лишних" слов, за которые нельзя зацепить рекламу, плюс попадают непрезентативные слова из меню, верхней или нижней шапки.

Я бы согласился со списком, если бы ты на ходу определял тип страницы и давил лишние ключевые слова для страниц рубрик, например, так:

1) навигационные страницы - разделы, рубрики, теги на сайте

Не важен контент (аннотации документов), важны тексты ссылок разделов и элементы навигации

2) информационные страницы - полный текст страницы с информацией

Не важны элементы навигации, только уникальный текст

3) транзакционные страницы

Важны и элементы навигации, и уникальный текст

В принципе, это можно сделать - для сайта, однако мне самому это, вроде как, сейчас не нужно, стимулов делать нету, в то время как трудозатраты достаточно велики - надо в приложение спайдер небольшой вкручивать, дёргать некоторое количество страниц, это ж и кодировать надо, и ответ не будет быстрым.

У тебя же есть поисковый индекс со взвешенными термами, почему не пробить его по коллекции документов и не взять ранк по каждому ключевому слову? И качать ничего не надо.

Андрей, ты бы для понимания работы сервиса выложил какую-то справочную информацию, что ли. Например, сформулировал задачу и написал, что именно в результате ты хочешь получить.

Пока видна попытка извлечения лексических цепочек (устойчивых словосочетаний), но без учета параметров коллекции других документов, взятых с того же сайта. То есть введенная страница как бы "висит" в воздухе, а лексикон ничего не дает при ранжировании слов, поэтому результаты какие-то непонятные.

Vyacheslav Tikhonov, можно ли с Вами как то связаться? по аське или ещё как то? (личка к сожалению не работает)

Да, Вы можете мне написать по адресу 4tikhonov*собачка*gmail.com .

Штука очень полезная, только по-моему на этапе запуска и открытия - рано ее платной делать. Подождали бы несколько месяцев, пока массовая регистрация не начнется и люди привыкли бы к всем удобствам...

На самом деле аудитория проекта немного иная - здесь же, на форуме, представлена Технология сбора и обработки информации. Подобные услуги заказывают PR-агентства, маркетинговые отделы компаний и организации, которые хотят очень быстро получить нужную информацию по интересующей теме.

Частный случай, например - собрать в Интернете все, что возможно, по нужным ключевым словам. Если делать это руками, то уйдут месяцы, Мониторикс же часто справляется в течение одного дня.

Ну и RSS-канал ко всему Интернету, конечно, тоже дорогого стоит, да и обходится совсем недорого - $1 в день совершенно подъемная цена даже для частных лиц.

Андрей, а это не та же прога, которая сейчас работает в Мета.Контексте?

Так.. не до конца понял. Конкретный пример: тематика "SEO". Как ваш софт будет собирать инфу с форумов и блогов? С каких?

Пользователь определяет набор сайтов и описывает ключевыми запросами нужные объекты - например, объект SEO включает seo, поисковая оптимизация, поисковое продвижение, оптимизация сайтов и т.д.

После этого можно подключиться к выбранному каналу и получать по подписке или в RSS новую информацию, которая появляется на сайтах. Вот пример, как Мониторикс обрабатывает Интернет.

Всего: 847