Неплохо представляю :) Появятся толпы желающих проставить дату попозднее. Отловить таких молодцев не так уж и сложно. Достаточно для сильно "обновляемых" сайтов пускать робота под другим ip-шником и сравнивать даты на страничках.
Согласен, тут ничего не поделаешь.
Если при каждом заходе робота дата на странице совпадает с датой самого захода и при этом размер страницы не изменился, можно сделать соответствующие выводы.
А если поисковая система не инерционная, как все современные универсальные системы? Сейчас же выходит, что поиска по динамично изменяющимся ресурсам вроде досок объявлений и форумов вообще нет.
Да что там говорить, без всякого преувеличения Александру вполне можно присвоить и звание Человека, Который Знает Все обо Всех и обо Всем! :)
Причем восхищение вызывает невероятная многогранность его личности. Читая, к примеру, "Шутник на обочине" или "Энциклопедию пикапа", никогда не подумаешь, что написал это человек, который играючи расправляется с сложнейшими информационными технологиями.
Так держать! С днем рождения!
Так уж получилось, что когда я в январе 2001 г. попал на этот форум, уже дней через 10 работал в TopPing'e :) Но в то время ситуация была совершенно иной, нежели сейчас, и Пингу поиск нужен был позарез, так как собственный на определенном объеме информации благополучно скончался. А у меня была готова собственная довольно рабочая версия поисковика, во многих отношениях достаточно неплохая, которую сразу же поставили и взяли за основу для дальнейших разработок.
Сейчас, после того, как начался всемирный кризис, все намного сложнее и денег никто уже ни на что просто так не дает и не даст, какие бы перспективы Вы не сулили. А для того, чтобы запустить еще одну даже не очень крупную искалку, потребуется огромное количество средств на одни только железо и трафик. Да и какой смысл неизвестно сколько работать работать себе в убыток, ведь никаких перспектив в инете сейчас вообще не видно.
Гм, странно. По идее для многословных запросов должны по координатному индексу быть просчитаны варианты начиная от "строгого соответствия". Черепаха же необоснованно дает больший приоритет наиболее частотным словам вроде "работа".
Кстати говоря, более подробно об этих самых идеях двадцатилетней давности можно почитать у Попова в "Общении с ЭВМ на естественном языке". Довольно неплохая книга 1982 года.
Да нет, речь здесь идет о подмене содержимого самих страниц сайта, от чего без модерирования никак не уберечься. Хотя можно заставить робота маскироваться под броузер, по праздникам подключаться к серверу через какой-нибудь анонимный прокси и сравнивать реальные страницы со страницами в индексе.
http://ya.ru/yandsearch?text=%22notre+damme+de+paris%22&rpt=rad
Дубли 4, 5, 7, 9, 11, 12, 17, 20, 32.
Так алгоритм вроде ж очень даже подробно описан на http://company.yandex.ru/articles/article7.html
Они рассматривают документ последовательностью слов, вернее лексем. После чего выбирают N лексем и создают характеристическое множество каждого документа, причем для каждого такого документа вычисляют вектор, где i-му элементу присваивается 1 в случае, если относительная частота i-го слова из характеристического множества больше какой-то пороговой (выбирают так, чтобы компоненты вектора были более-менее устойчивы к небольшим изменениям документа), и 0 если меньше. Этот бинарный вектор называют нечеткой цифровой подписью документа.
Потом проходят по всем документам и создают множество дублей. При этом учитывают два типа ошибок: альфа-ошибки, если алгоритм не определил дубли, и бета-ошибки, если выделение дубля ошибочно.
Собственно теперь им осталось подобрать оптимальные параметры, чтобы исключить эти альфа-ошибки, в частности указанные в данном топике.
Хороший алгоритм.
Что-то не то с этой статистикой. Как могли сюда попасть многословные запросы?
сникерс супер
из рук в руки
Не совсем так. Я полагаю, подобное ранжирование нужно применять только к существительным как к потенциальным ключевым словам. Поэтому в данном запросе слово водопровод (56088 документов) будет характеризовать именно контекст, в котором нужно искать остальные введенные в запросе слова. Ведь любой документ без слова "водопровод", но с чистой водой (109462 документов), уже нерелевантен, не так ли?
Что же касается словосочетания "чистая вода", его должны вытянуть алгоритмы, определяющие расстояние между словами, но с меньшим рейтингом, нежели для водопровода.
Не совсем согласен. Если пользователь вводит запрос с ошибками, то в любом случае, какого бы высокого качества не была система, вероятность найти нужную информацию минимальна. Следовательно, и данный алгоритм здесь ничего не сможет испортить.