Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Слава, представляешь, как можно будет заспамить такой анализ?

Неплохо представляю :) Появятся толпы желающих проставить дату попозднее. Отловить таких молодцев не так уж и сложно. Достаточно для сильно "обновляемых" сайтов пускать робота под другим ip-шником и сравнивать даты на страничках.

Контрпримеров, конечно же масса, и довольно простых (например, рассказ о свежих событиях со ссылкой на старые с датой).

Согласен, тут ничего не поделаешь.

На многих серверах текущие даты генерятся автоматически, нужно их как-то отсечь. Например, уже несколько месяцев мертвый нетоскоп исправно открывается с надписью "сегодня" и текущей датой.

Если при каждом заходе робота дата на странице совпадает с датой самого захода и при этом размер страницы не изменился, можно сделать соответствующие выводы.

Из других типов документов, которые сильно на актуальность завязаны, только прайс-листы на ум пока пришли. Тоже, в принципе, можно с помощью партнерских программ решать.
Т.е. да, в смысле - можно, но зачем?

А если поисковая система не инерционная, как все современные универсальные системы? Сейчас же выходит, что поиска по динамично изменяющимся ресурсам вроде досок объявлений и форумов вообще нет.

Да что там говорить, без всякого преувеличения Александру вполне можно присвоить и звание Человека, Который Знает Все обо Всех и обо Всем! :)

Причем восхищение вызывает невероятная многогранность его личности. Читая, к примеру, "Шутник на обочине" или "Энциклопедию пикапа", никогда не подумаешь, что написал это человек, который играючи расправляется с сложнейшими информационными технологиями.

Так держать! С днем рождения!

А почему я его не знаю? И наверно ни кто не знает.

Так уж получилось, что когда я в январе 2001 г. попал на этот форум, уже дней через 10 работал в TopPing'e :) Но в то время ситуация была совершенно иной, нежели сейчас, и Пингу поиск нужен был позарез, так как собственный на определенном объеме информации благополучно скончался. А у меня была готова собственная довольно рабочая версия поисковика, во многих отношениях достаточно неплохая, которую сразу же поставили и взяли за основу для дальнейших разработок.

Сейчас, после того, как начался всемирный кризис, все намного сложнее и денег никто уже ни на что просто так не дает и не даст, какие бы перспективы Вы не сулили. А для того, чтобы запустить еще одну даже не очень крупную искалку, потребуется огромное количество средств на одни только железо и трафик. Да и какой смысл неизвестно сколько работать работать себе в убыток, ведь никаких перспектив в инете сейчас вообще не видно.

При запросе из 3 и более слов практически всегда слишком большой вес придается одному из слов, в итоге результаты поиска совершенно нерелевантны. Например, в одном из документов содержатся все слова "коэффициент затухания результат работы PageRank", но результат поиска впечатляет -- ничего похожего.

Гм, странно. По идее для многословных запросов должны по координатному индексу быть просчитаны варианты начиная от "строгого соответствия". Черепаха же необоснованно дает больший приоритет наиболее частотным словам вроде "работа".

Для меня тема номера оказалось очень интересна. Не знаю Игорь, Вы может профессионал, но для меня как ламера в этом вопросе, было достаточно познавательно.

Кстати говоря, более подробно об этих самых идеях двадцатилетней давности можно почитать у Попова в "Общении с ЭВМ на естественном языке". Довольно неплохая книга 1982 года.

Но если например на сайтах будет происходит подготовка к подсчету релевантности(! только подготовка, очищение от мусора, нормализация слов и т.п.)... Т.е. предобработка сайта, а уже в черепахе будет подсчитываться релевантность. Я думаю, будет все как надо.

Да нет, речь здесь идет о подмене содержимого самих страниц сайта, от чего без модерирования никак не уберечься. Хотя можно заставить робота маскироваться под броузер, по праздникам подключаться к серверу через какой-нибудь анонимный прокси и сравнивать реальные страницы со страницами в индексе.

В момент, когда я инициировал опрос, процесс очистки был лишь запущен, дубликаты (в нашем смысле) были вычищены примерно на четверть.
Надеюсь сейчас уже получше.

http://ya.ru/yandsearch?text=%22notre+damme+de+paris%22&rpt=rad

Дубли 4, 5, 7, 9, 11, 12, 17, 20, 32.

Уважаемый iseg!
Вы бы прояснили все-таки, а? С дублями? Волшебное слово: Пожалуйста.

Так алгоритм вроде ж очень даже подробно описан на http://company.yandex.ru/articles/article7.html

Они рассматривают документ последовательностью слов, вернее лексем. После чего выбирают N лексем и создают характеристическое множество каждого документа, причем для каждого такого документа вычисляют вектор, где i-му элементу присваивается 1 в случае, если относительная частота i-го слова из характеристического множества больше какой-то пороговой (выбирают так, чтобы компоненты вектора были более-менее устойчивы к небольшим изменениям документа), и 0 если меньше. Этот бинарный вектор называют нечеткой цифровой подписью документа.

Потом проходят по всем документам и создают множество дублей. При этом учитывают два типа ошибок: альфа-ошибки, если алгоритм не определил дубли, и бета-ошибки, если выделение дубля ошибочно.

Собственно теперь им осталось подобрать оптимальные параметры, чтобы исключить эти альфа-ошибки, в частности указанные в данном топике.

Хороший алгоритм.

Что-то не то с этой статистикой. Как могли сюда попасть многословные запросы?

сникерс супер

из рук в руки

Вот пример:
чистая вода в водопроводе
чистая: 3114222, вода: 13589857, в: 583801901, водопроводе: 98937,
релевантных документов наверху достаточно.
удалим самые частотные "в", "вода"
остается чистый водопровод и релевантные документы практически исчезают.
Возможно, это связано с тем, что элементом языка являются не только слова, но и устойчивые словосочетания.

Не совсем так. Я полагаю, подобное ранжирование нужно применять только к существительным как к потенциальным ключевым словам. Поэтому в данном запросе слово водопровод (56088 документов) будет характеризовать именно контекст, в котором нужно искать остальные введенные в запросе слова. Ведь любой документ без слова "водопровод", но с чистой водой (109462 документов), уже нерелевантен, не так ли?

Что же касается словосочетания "чистая вода", его должны вытянуть алгоритмы, определяющие расстояние между словами, но с меньшим рейтингом, нежели для водопровода.

Другое соображение:
слово с опечаткой будет, естественно, самым низкочастотным словом в запросе (предположим, есть такие документы). Но нельзя же на него ориентироваться при ранжировании запроса.
Значит, правило изменения веса слов должно носить не вполне монотонный характер.

Не совсем согласен. Если пользователь вводит запрос с ошибками, то в любом случае, какого бы высокого качества не была система, вероятность найти нужную информацию минимальна. Следовательно, и данный алгоритм здесь ничего не сможет испортить.

Всего: 847