Hkey

Hkey
Рейтинг
222
Регистрация
30.09.2006
Интересы
Java
NNemo:
Это уже другой вопрос.

ЗАДАЧА: выяснить нечеткие дубли после изменения части базы текстовых страниц

Для решения задачи не требуется переиндексация всей базы целиком (1 000 000 000 000 000 000 сравнений страниц) так как не все страницы меняются

А мы базу не переиндексируем мы просто читаем индекс. Я это и имел в виду, если вы про это.

Pavlo123:
У них свои алгоритмы и ни кто их вам не скажет,только горький опыт вам поможет.А так почитайте документации по основному способу работы поисковиков.Если понадобятся ссылки,стучите.

Хеширования со сравнением кучу документов с кучей других не имеет ничего общего.

NNemo:
Это уже другой вопрос.

ЗАДАЧА: выяснить нечеткие дубли после изменения части базы текстовых страниц

Для решения задачи не требуется переиндексация всей базы целиком (1 000 000 000 000 000 000 сравнений страниц) так как не все страницы меняются

Яндекс может клеить страницы и через пол года и через год.

И тем более у Яндекса не хватит времени кспивать сравнивать все дубли. Я показал это на выкладке.

Хорошо добавилась к милиарду одна страница нужно ее сравнить с милиардом страниц. Вторая еще с милиардом. Третью тоже с милиардом.

Я не говорю, что Яндекс не запоминает, что он сверил, а что нет.

Страницы меняються чаще чем создаються. Т.е. некоторые страницы вы пару раз редактируете и Яндекс их пускает в допрогон?

Ради одной страницы никто не будет производить милион операций сравнения.

Яндекс никак не может сверить даже 1% комбинаций. И на терории и напрактике это подтверждает практика.

ХренРедькиНеСлаще:
Очень верно замечено :)
Это называется тупой работой. Давно придумали метод хеширования. Так что миллиардами тут и не пахнет. Яндекс НА ЛЕТУ с дубликатами разбирается :)

Чето я не знал такого. Что можно сравнить 2000 страниц и сделать вывод, что 100000000 между собой не связаны

NNemo:
Да, в рунете страниц много, но сколько страниц регулярно изменяется? Разумеется не миллиард, а лишь небольшая его доля. Таким образом не требуется сравнить каждую с каждой, требуется сравнить лишь измененные страницы с каждой проиндексированной.

Разве страницы склеиваються сразу после индексации?

Фриман:
Сколько же тогда по-вашему PR пересчитывается?:) там не одна операция сравнения + он еще и итерационный.
P. S.
HKey вот если бы вы посчитали вероятность совпадения N шинглов в 2 случайных русских текстах это было бы гораздо интереснее...

N у меня количество шинглов в тексте.

В последней формуле подставьте вместо 30, l - колличество совпавших шинголов и результат поделите на 10^18. Там получиться << 0.

Считаються для Шинглов из выборки.

Фриман:
Сколько же тогда по-вашему PR пересчитывается?:) там не одна операция сравнения + он еще и итерационный.
P. S.
HKey вот если бы вы посчитали вероятность совпадения N шинглов в 2 случайных русских текстах это было бы гораздо интереснее...

Если тексты абсолютно случайны (доры без нормальных слов), то N*N/16 в двадцать шестой степени.

16 в десятой видно из картинки Яши при подщете шинглов.

Если прикинуть, что из слова полностью не заполняют стек буквосечитаний. А заполняют скажем на 0.000001 процентов. (Словарь Ожигова/32^10.) То можно сказать, что N*N*10000000/16^26. Если учитывать принцип Паррето, что на 10% слов приходиться 90% их использований, то можно сказать, что N*N*100000000/16^26. Если учитывать принцип Паррето и для выражений N*N*10^8/16^26. Т.е. очень маленький. Хотя Яндекс для хранения может использовать меньшие длины контрольных сумм.

16^5~10^7

N*N*15^1/16^19

N~1000

Получаем примерно:

10^5/16^12

И еще одно но мы растмотрели только одну комбинацию из 1 000 000 000 000 000 000 000 :-)

10^23 к 1/16^12

100000000 к 256

Примерно 400000. Т.е. Яша склеит 800000 случайных страниц :-), если он будет руководствоваться супершинглами этой длины.

(10^5/16^12)^30 *10^18 страниц в среднем склеяться. Можно судить, что количество < 1.

Если для равенства нужно наличие 30 одинаковых шинглов

Но по обычным шинглам ничего не считают считают по их выборке.

Фриман ответил ли я на ваш второй вопрос?

Первый вопрос. Чтобы считать тИЦ и PR не нужно каждый сайт и кажый документ сравнивать с каждым. Достаточно просто увидев ссылку на одном сайте на другой записать ее в специальное место . Т.е. работы на много порядков меньше. На одной странице ссылок максимум 100, а не 1.000.000.000. Т.е. в десять милионов раз меньше.

P.S.

Кстати я угадал про милиард страниц :-)

http://www.company.yandex.ru/

веб-страниц: 1 188 863 499

Забыл сказать про замену слова и про процент вероятности изменения одного из шинглов.

Замена слова на другое меняет 19 шинглов. Вероятность изменения одного из шинглов выборки = n*19/N, вероятность изменения двух n*19/N* (n-1)*19/N …

В среднем меняется n*19/N+ 2* n*19/N* (n-1)*19/N … шинглов

n- к-во шинглов выборки

N - к-во шинглов в тексте.

ПРи маленьких текстах к-во шинглов в выборке имеет логарифмическую зависимость от размера текста. Т.е. может быть меньше <85.

Может заинтересует это.

/ru/forum/83523

Как с помощью шинглов находить плагиат. Типо научные или дипломные или курсовые содранные.

Не совсем в тему но может пригодиться

Но вопрос остаеться открытым для чего нужны супер шинглы.

В том топике я предположил для простой провекрки. Супер шингл немного устойчивее контрольной суммы и служит для проверки для материлов с низкой взаимосвязью мест (например на перелинкованых сайтах). Для его обмана нужны небольшие изменения. Либо изменения наиболее ярких мест в тексте. Т.е. наиболее необычных речевых оборотов и слов.

По моему предположению благодаря нему лишь документы ставяться на более тщательную проверку. Обьясню свое умозаключение.

Есть две крайности.

1. сделать его наиболее устойчивым к изменениям, но поскольку. Это одно число а не 85 как в выборке, то шанс, что два разных текста он примет за один большие. Т.е. его нельзя использовать как окончательный вердикт.

2. Уменьшить шансы неправильного нахождения дублей. Его можно использовать как окончательный вердикт. Но он будет не устойчивым к небольшим изменениям текста.

Т.е. Первый вариант, когда супершингл просто первичная препроверка некоторых документов наиболее адекватен.

---------------------------------------------------------

Зачем все это мне нужно? Яша задолбал клеить мои пресс-релизы. Большинству онлайн журналистов впадло переписывать новости и получаеться фигня, что хороший пресс -релиз дает пару беков из нескольких сотен возможных.

Еще нехорошо, когда мои тексты размещают на сайтах с ссылкой на меня а Яша их клеит.

Яша, таким образом, заставляет морды покупать или обмениваться ссылками чтобы ссылочное ранжирование увеличить?

Всего: 2639