Поисковые системы и актуальность информации

VT
На сайте с 27.01.2001
Offline
130
2914

Достаточно часто бывает, что при поиске находится страница, формально соответствующая запросу (то есть содержащая нужные ключевые слова), но несущая устаревшую информацию. Однако за счет хорошей цитируемости рейтинг у нее больше, чем у нужной.

А что, если попытаться анализировать каждую страницу на наличие дат, представленных в разных форматах и наряду с остальными параметрами в при подсчете ее рейтинга добавлять еще и коэффициент актуальности?

Например, с этого же форума берем

Форматы представления дат могут быть такие:

23-07-2002

23.07.2002

23.07.02

23 июля 2002 г.

Наиболее поздняя дата здесь 27.07.2002 г., следовательно, можно считать ее и датой последнего обновления данной страницы.

Будет ли это работать?

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#1

Слава, представляешь, как можно будет заспамить такой анализ?

Уж лучше вариант Inktomi - когда за плату проводится периодическая переиндексация.

AA
На сайте с 16.04.2001
Offline
70
#2

Контрпримеров, конечно же масса, и довольно простых (например, рассказ о свежих событиях со ссылкой на старые с датой).

Однако, интуитивно кажется, что статистически ваши соображения должны работать. Значимая корреляция между датами в тексте и датой обновления информации имеется.

С уважением, Антонов Александр.
spark
На сайте с 24.01.2001
Offline
130
#3

На многих серверах текущие даты генерятся автоматически, нужно их как-то отсечь. Например, уже несколько месяцев мертвый нетоскоп исправно открывается с надписью "сегодня" и текущей датой.

Бывают и обратные примеры, когда указана дата создания документа, а обновления откуда-то экспортируются. И тоже можно проколоться.

По-моему, с этими оговорками должно работать.

Но тут проблема в том, что быстростареющие документы, новостные, например, поисковик не успевает обходить обычно. Для этого существуют партнерские программы. Либо специальный экспортный файл для поисковика готовят, либо письмом отсылают.

Из других типов документов, которые сильно на актуальность завязаны, только прайс-листы на ум пока пришли. Тоже, в принципе, можно с помощью партнерских программ решать.

Т.е. да, в смысле - можно, но зачем?

VT
На сайте с 27.01.2001
Offline
130
#4
Слава, представляешь, как можно будет заспамить такой анализ?

Неплохо представляю :) Появятся толпы желающих проставить дату попозднее. Отловить таких молодцев не так уж и сложно. Достаточно для сильно "обновляемых" сайтов пускать робота под другим ip-шником и сравнивать даты на страничках.

Контрпримеров, конечно же масса, и довольно простых (например, рассказ о свежих событиях со ссылкой на старые с датой).

Согласен, тут ничего не поделаешь.

На многих серверах текущие даты генерятся автоматически, нужно их как-то отсечь. Например, уже несколько месяцев мертвый нетоскоп исправно открывается с надписью "сегодня" и текущей датой.

Если при каждом заходе робота дата на странице совпадает с датой самого захода и при этом размер страницы не изменился, можно сделать соответствующие выводы.

Из других типов документов, которые сильно на актуальность завязаны, только прайс-листы на ум пока пришли. Тоже, в принципе, можно с помощью партнерских программ решать.
Т.е. да, в смысле - можно, но зачем?

А если поисковая система не инерционная, как все современные универсальные системы? Сейчас же выходит, что поиска по динамично изменяющимся ресурсам вроде досок объявлений и форумов вообще нет.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#5
Отловить таких молодцев не так уж и сложно.

Безумная затея.

Любой мало-мальски крупный сайт использует минимум SSI, если вообще не динамический. Думаю, что любителей перепахивать более 10-ти страниц вручную для смены дизайна или хотя бы кода БС мало.

Мой сервер в случае использования SSI дату не возвращает, и я очень сильно подозреваю, что единственное чего можно добится от моего хостера - так это утсановление этой даты на текущую, т.к. скорее всего обращения к дате документа с SSI не предусмотрено, да и на скорость сборки дакументов повлияет такое обращение не в лучшую сторону. Т.е. вся статическая часть моего сайта как и тысяч других будет считатся некошерной :(

F
На сайте с 15.11.2000
Offline
116
#6
Как писал Vyacheslav Tikhonov
А что, если попытаться анализировать каждую страницу на наличие дат, представленных в разных форматах и наряду с остальными параметрами в при подсчете ее рейтинга добавлять еще и коэффициент актуальности?

Более свежая страница не всегда важнее для пользователя, чем старая страница. Пример -- поиск любой информации, которая медленно меняется: законы физики, способы похудения, биография Путина, классические IR-технологии и т.д. В таких случаях "коэффициент актуальности" может даже навредить.

С уважением,

Александр Садовский.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий