А мы базу не переиндексируем мы просто читаем индекс. Я это и имел в виду, если вы про это.
Хеширования со сравнением кучу документов с кучей других не имеет ничего общего.
Яндекс может клеить страницы и через пол года и через год.
И тем более у Яндекса не хватит времени кспивать сравнивать все дубли. Я показал это на выкладке.
Хорошо добавилась к милиарду одна страница нужно ее сравнить с милиардом страниц. Вторая еще с милиардом. Третью тоже с милиардом.
Я не говорю, что Яндекс не запоминает, что он сверил, а что нет.
Страницы меняються чаще чем создаються. Т.е. некоторые страницы вы пару раз редактируете и Яндекс их пускает в допрогон?
Ради одной страницы никто не будет производить милион операций сравнения.
Яндекс никак не может сверить даже 1% комбинаций. И на терории и напрактике это подтверждает практика.
Чето я не знал такого. Что можно сравнить 2000 страниц и сделать вывод, что 100000000 между собой не связаны
Разве страницы склеиваються сразу после индексации?
N у меня количество шинглов в тексте.
В последней формуле подставьте вместо 30, l - колличество совпавших шинголов и результат поделите на 10^18. Там получиться << 0.
Считаються для Шинглов из выборки.
Если тексты абсолютно случайны (доры без нормальных слов), то N*N/16 в двадцать шестой степени.
16 в десятой видно из картинки Яши при подщете шинглов.
Если прикинуть, что из слова полностью не заполняют стек буквосечитаний. А заполняют скажем на 0.000001 процентов. (Словарь Ожигова/32^10.) То можно сказать, что N*N*10000000/16^26. Если учитывать принцип Паррето, что на 10% слов приходиться 90% их использований, то можно сказать, что N*N*100000000/16^26. Если учитывать принцип Паррето и для выражений N*N*10^8/16^26. Т.е. очень маленький. Хотя Яндекс для хранения может использовать меньшие длины контрольных сумм.
16^5~10^7
N*N*15^1/16^19
N~1000
Получаем примерно:
10^5/16^12
И еще одно но мы растмотрели только одну комбинацию из 1 000 000 000 000 000 000 000 :-)
10^23 к 1/16^12
100000000 к 256
Примерно 400000. Т.е. Яша склеит 800000 случайных страниц :-), если он будет руководствоваться супершинглами этой длины.
(10^5/16^12)^30 *10^18 страниц в среднем склеяться. Можно судить, что количество < 1.
Если для равенства нужно наличие 30 одинаковых шинглов
Но по обычным шинглам ничего не считают считают по их выборке.
Фриман ответил ли я на ваш второй вопрос?
Первый вопрос. Чтобы считать тИЦ и PR не нужно каждый сайт и кажый документ сравнивать с каждым. Достаточно просто увидев ссылку на одном сайте на другой записать ее в специальное место . Т.е. работы на много порядков меньше. На одной странице ссылок максимум 100, а не 1.000.000.000. Т.е. в десять милионов раз меньше.
P.S.
Кстати я угадал про милиард страниц :-)
http://www.company.yandex.ru/
веб-страниц: 1 188 863 499
Забыл сказать про замену слова и про процент вероятности изменения одного из шинглов.
Замена слова на другое меняет 19 шинглов. Вероятность изменения одного из шинглов выборки = n*19/N, вероятность изменения двух n*19/N* (n-1)*19/N …
В среднем меняется n*19/N+ 2* n*19/N* (n-1)*19/N … шинглов
n- к-во шинглов выборки
N - к-во шинглов в тексте.
ПРи маленьких текстах к-во шинглов в выборке имеет логарифмическую зависимость от размера текста. Т.е. может быть меньше <85.
Может заинтересует это.
/ru/forum/83523
Как с помощью шинглов находить плагиат. Типо научные или дипломные или курсовые содранные.
Не совсем в тему но может пригодиться
Но вопрос остаеться открытым для чего нужны супер шинглы.
В том топике я предположил для простой провекрки. Супер шингл немного устойчивее контрольной суммы и служит для проверки для материлов с низкой взаимосвязью мест (например на перелинкованых сайтах). Для его обмана нужны небольшие изменения. Либо изменения наиболее ярких мест в тексте. Т.е. наиболее необычных речевых оборотов и слов.
По моему предположению благодаря нему лишь документы ставяться на более тщательную проверку. Обьясню свое умозаключение.
Есть две крайности.
1. сделать его наиболее устойчивым к изменениям, но поскольку. Это одно число а не 85 как в выборке, то шанс, что два разных текста он примет за один большие. Т.е. его нельзя использовать как окончательный вердикт.
2. Уменьшить шансы неправильного нахождения дублей. Его можно использовать как окончательный вердикт. Но он будет не устойчивым к небольшим изменениям текста.
Т.е. Первый вариант, когда супершингл просто первичная препроверка некоторых документов наиболее адекватен.
---------------------------------------------------------
Зачем все это мне нужно? Яша задолбал клеить мои пресс-релизы. Большинству онлайн журналистов впадло переписывать новости и получаеться фигня, что хороший пресс -релиз дает пару беков из нескольких сотен возможных.
Еще нехорошо, когда мои тексты размещают на сайтах с ссылкой на меня а Яша их клеит.
Яша, таким образом, заставляет морды покупать или обмениваться ссылками чтобы ссылочное ранжирование увеличить?