А зачем охватывать все леммы? Достаточно взять 100-130 тысяч наиболее распространенных. Насколько я могу судить, все так и делают.
BUFO, устное замечание. Для подобных высказываний есть курилка.
Похоже, постоянно идет пересчет PageRank'а для сайтов с большим количеством страниц. Я даже по форуму вижу - у него PageRank тоже в течение дня прыгает от 0 до 5.
Наверное, решили уволить половину персонала после последнего апдейта :D
Используются так называемые шинглы (shingles) - непрерывные последовательности определенной длины, из которых строится сигнатура документов. Подробнее здесь.
Яндекс делает это так и так. ;)
Список литературы прилагается.
Сейчас никакими аналогами PageRank'а даже не пахнет. Потому-то оно все и вылезло.
Сайты вообще выдаются по уИЦ (убитый индекс цитирования), то есть в обратном порядке :)
Качество поиска ухудшено настолько, что в выдаче практически нет авторитетных сайтов и вылезли рефераты, форумы и т.д. Поэтому самые релевантные результаты по этим запросам сейчас - в Маркете.
Возражения?
svift, я немножко в курсе, что тИЦ влияет только на каталог, а взвешенный индекс цитирования в Яндексе есть аналог PageRank'а. (см. дату моей регистрации на форуме) :)
Вы выдачу по обеим запросам внимательно смотрели? Там же довольно все очевидно, на "яркие" ссылки не спихнешь ;)
Не хватить для lib.ru, у которого один только тИЦ больше 5000? А как же Google так лихо ее дает? ;)
К narod'у претензий не имею. За державу обидно. :)
Собственно говоря, здесь меня просто заинтересовало само место на странице, где находится релевантная (причем, с очень высокой вероятностью для большинства пользователей) информация.
Интересно, совпадение ли это.
Все остальное вполне понятно.
Скажем по-другому, не то, что ищешь, а то, что ожидаешь увидеть. :)
Представил. Я бы может и согласился, но как же лексика ссылок и цитируемость? Они-то в этом случае однозначно все определяют, при формальной релевантности для всех найденных сайтов.
Как же так? ;) Сейчас их нет?
В каталоге только 2 сайта из 5 на бесплатном хостинге, это ничего не объясняет.