Я подумал, что для новостных сайтов неплохо иметь несколько слепков урла за разное время, в 6 часов утра новости одни, а в 12 часов другие... Зачем утренние новости терять?
Я лично ничего не ищу, Яндекс ИЩЕТ. И как я вижу в его серпе, результаты для строчных и прописных первых букв очень сильно различаются и с кешем это не связано.
Что прямо противоположно тому, что написал здесь уважаемый Садовский :)
Уважаемый Садовский, простая проверка показывает, что Вы дезинформируете людей.
http://www.yandex.ru/yandsearch?rpt=rad&text=%E2%EE%F2+%D5%F0%E5%ED
http://www.yandex.ru/yandsearch?text=%E2%EE%F2+%F5%F0%E5%ED&stype=www
И переколдовка разная, число найденного разное и веса слов разные, само собой и результаты разные и с кешем, вроде, никак не связанные.
С уважением, ХренРедькин.
Потому что запрос link="hgffdfs" это ДОКУМЕНТИРОВАННАЯ штука Яндекса, а &Link ничем не документирована и ничто не гарантирует. Сегодня так, а завтра эдак...
Не задавайте глупых вопросов, а загляните в мой профиль... :)
Настрой ВАШЕГО ума может вызвать некоторые подозрительные ассоциации у людей традиционной ориентации (например, у меня) :)
При чем тут шинглы? Вы сами запутались. Я о шинглах здесь ни одного слова не написал и не имел их в виду! А писал о числе сравнений для определения дубликатов. Шинглы к этому вопросу перпендикулярно стоят. Быстроту сравнений они не повышают, так как здесь главное хранение данных по месту, определяемому хешкодом.
Или Вы шинглы собрались также хранить (в хеш таблице)? Это ОЧЕНЬ не экономно, так как число слов практически равно числу шинглов и тогда размер индекса возрастет на порядок. :)
Да и что Вам даст равенство друг другу одного шингла? Что по десять слов в текстах совпадают?
Вообще Вы интересный человек :)
Я у Вас совета не спрашивал, что мне читать или не читать. Поэтому прошу: воздержитесь от советов, когда я у Вас их не спрашиваю явно. Это похоже на совет почитать Онегина, которого я наизусть знаю... Мне нервы надо беречь :)
Hkey, представьте (мысленно) Яндекс прочитал документ и "индексирует" его. Документ он режет на предложения (по точкам и т.д.). Для каждого предложения считается хеш - целое число, которая определяет в какой позиции индекса Яндекса нужно хранить это предложение и информацию где это предложение проиндексировано (id документf и номер предложения).
Если предложение ранее не было в индексе, ячейка индекса (определяемая подсчитанным хешем) будет пусто, что означает: ДУБЛЕЙ предлжения НЕТ! Если ячейка занята, то это означает, что дубли есть и даются "координаты" дублей.
Не нравятся Вам "предложения" возьмите для индексации другие куски текста (всю страницу, например)...
И где Вы видите миллиард операций? Когда операция одна: подсчет хеша и проверка "ячейки индекса" с порядковым номером, равным подсчитанному хешу.
Можно предположить, что гипотезы не оспариваются :)
Может быть мы говорим о разных факторах одного и того же дела.
А=Б*В
wolf намекает, что А очень пропорционально Б.
Я намекаю, что А очень пропорционально В.
И никаких противоречий :)
Абсолютно правильно.
Это как в кораблестроении. Пока долбят лодки каменным топором, расчеты мало что дадут :) :) :)
blond, глюк не глюк, а ссылки с сайта следует смотреть так:
http://www.yandex.ru/yandsearch?rpt=rad&text=link%3D%22www.searchengines.ru%22
http://www.yandex.ru/yandsearch?text=link%3D%22www.searchengines.ru%22&pag=u&surl=1ps.ru&rd=0
А в Вашем примере задан пустой запрос (текста запроса нет).