Да я этот эффект не знал.
Но все равно клеяться не только новые страницы.
Есть идея про двойную проверку. Что некоторые документы проверяються намного более строго. Этому есть подтвержения в статьях Яндекса (если кто не верит могу процетировать) и здравый смысл, что например, если сайты связаны то их нужно проверить более шестко.
На меил ру пришло 684 письма. Спасибо, работа качественная.
Да преждняя, скоро измениться грядет АП базы! Апы для покупателей бесплатные.
Вроде бы нет хотя они почти все на одном движке. Можно мне в личку инфу?
Можно лого для рекламного агенства?
Нет супер шингл не такой большой. Это один или несколько шинглов взятых по какойто хитрой формуле, делающию его помехоустойчивым. Т.е. супершингл это не контрольная сумму шинглов, а хитрый индикатор документа.
PS Шинглы ситаються в захлест их 6400-9.
Да но там еще другие операции будут. И числа 12 байтные :-)
Пожалуйста прочитайте статьи Яндекса про шинглы, выборку шинглов и супер шинглы!
По предложениям осознал, что действительно на проверку супершинглов тратиться на порядки меньше времени. Но статьи Яши противоречевы в одной статье говориться о наличие одного супер шингла на документ в другом что их несколько. Мы не знаем алгоритм проверки на примерное соответствие супер шинглов - он может быть громоздким. Тем более для супер шингла нужно изменить 10-20% шиглов и он уже другой.
Есть предположение (в одной из статей написано "для веб документов используеться выборка 85 шинглов."), что некоторые документы перепроверяються более жестоко, даже, если супер шинглы разные! Как написано раньше.
"Не нравятся Вам "предложения" возьмите для индексации другие куски текста (всю страницу, например)..."
Хорошо сравниваю хеш 2 статей отличающающихся на один символ! Сравнил два получил два уникальных текста. Если бы Яндекс нахолил дубли так же... Дубли он находит и по шинглам и возможно еще по глобальным лексическим методам.
P.S. спасибо за конструктивную критику! Благодаря дискусии мы колективным разумом решаем поставленную задачу!
Речь идет о подщете выборки шинглов. Шингл и есть что то вроде Хеша.
Помойму n на корень из n. На 4ре порядка снизит затраты. Но учитывая 1000 000 операций сравнения в секунду, который я выбрал с условиями задержек в сети и всего прочего, все равно много проходит времени.
Еще Яща банит лучше когда много одинаковых текстов. Т.е. все он не сверяет однозначно. + задержки в слейки иногда 1.5 - 2 года.
Для этого нужно индексировать списочек и упорядовачивать. Может этим обьясняеться задержка в склейке.