Как яндекс находит плагиат. И как бороться со склейкой.

123 4
Hkey
На сайте с 30.09.2006
Offline
222
#11
ХренРедькиНеСлаще:
Очень верно замечено :)
Это называется тупой работой. Давно придумали метод хеширования. Так что миллиардами тут и не пахнет. Яндекс НА ЛЕТУ с дубликатами разбирается :)

Чето я не знал такого. Что можно сравнить 2000 страниц и сделать вывод, что 100000000 между собой не связаны

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
Hkey
На сайте с 30.09.2006
Offline
222
#12
NNemo:
Это уже другой вопрос.

ЗАДАЧА: выяснить нечеткие дубли после изменения части базы текстовых страниц

Для решения задачи не требуется переиндексация всей базы целиком (1 000 000 000 000 000 000 сравнений страниц) так как не все страницы меняются

Яндекс может клеить страницы и через пол года и через год.

И тем более у Яндекса не хватит времени кспивать сравнивать все дубли. Я показал это на выкладке.

Хорошо добавилась к милиарду одна страница нужно ее сравнить с милиардом страниц. Вторая еще с милиардом. Третью тоже с милиардом.

Я не говорю, что Яндекс не запоминает, что он сверил, а что нет.

Страницы меняються чаще чем создаються. Т.е. некоторые страницы вы пару раз редактируете и Яндекс их пускает в допрогон?

Ради одной страницы никто не будет производить милион операций сравнения.

Яндекс никак не может сверить даже 1% комбинаций. И на терории и напрактике это подтверждает практика.

Hkey
На сайте с 30.09.2006
Offline
222
#13
Pavlo123:
У них свои алгоритмы и ни кто их вам не скажет,только горький опыт вам поможет.А так почитайте документации по основному способу работы поисковиков.Если понадобятся ссылки,стучите.

Хеширования со сравнением кучу документов с кучей других не имеет ничего общего.

Hkey
На сайте с 30.09.2006
Offline
222
#14
NNemo:
Это уже другой вопрос.

ЗАДАЧА: выяснить нечеткие дубли после изменения части базы текстовых страниц

Для решения задачи не требуется переиндексация всей базы целиком (1 000 000 000 000 000 000 сравнений страниц) так как не все страницы меняются

А мы базу не переиндексируем мы просто читаем индекс. Я это и имел в виду, если вы про это.

MA
На сайте с 06.05.2006
Offline
159
#15
Hkey:
Хеширования со сравнением кучу документов с кучей других не имеет ничего общего.

Еще как имеет. Может хешироваться часть документа и сравниваться с хешем другого документа. Сравнение хешей - потоковая операция и выполняется очень быстро.

Hkey
На сайте с 30.09.2006
Offline
222
#16
dimanaz:
Сравниваются не страницы а контрольные суммы. Сравниваются они очень быстро, имхо гораздо быстрее чем n*log(n).

Представьте библиотеку. Для нахождения конкретной книги, название и автор который вам известен, гораздо логичнее воспользоваться рубрикатором (или как оно там называется), чем переберать все книги друг за другом.

Помойму n на корень из n. На 4ре порядка снизит затраты. Но учитывая 1000 000 операций сравнения в секунду, который я выбрал с условиями задержек в сети и всего прочего, все равно много проходит времени.

Еще Яща банит лучше когда много одинаковых текстов. Т.е. все он не сверяет однозначно. + задержки в слейки иногда 1.5 - 2 года.

Для этого нужно индексировать списочек и упорядовачивать. Может этим обьясняеться задержка в склейке.

Hkey
На сайте с 30.09.2006
Offline
222
#17
mik-a-el:
Еще как имеет. Может хешироваться часть документа и сравниваться с хешем другого документа. Сравнение хешей - потоковая операция и выполняется очень быстро.

Речь идет о подщете выборки шинглов. Шингл и есть что то вроде Хеша.

MA
На сайте с 06.05.2006
Offline
159
#18
Hkey:
Помойму n на корень из n. На 4ре порядка снизит затраты. Но учитывая 1000 000 операций сравнения в секунду, который я выбрал с условиями задержек в сети и всего прочего, все равно много проходит времени.

Почему 1000 000 и причем здесь задержки сети? Операции идут в пределах кластера серверов.

К тому же операции сравнения чисел - самые быстрые из всех.

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#19

Hkey, представьте (мысленно) Яндекс прочитал документ и "индексирует" его. Документ он режет на предложения (по точкам и т.д.). Для каждого предложения считается хеш - целое число, которая определяет в какой позиции индекса Яндекса нужно хранить это предложение и информацию где это предложение проиндексировано (id документf и номер предложения).

Если предложение ранее не было в индексе, ячейка индекса (определяемая подсчитанным хешем) будет пусто, что означает: ДУБЛЕЙ предлжения НЕТ! Если ячейка занята, то это означает, что дубли есть и даются "координаты" дублей.

Не нравятся Вам "предложения" возьмите для индексации другие куски текста (всю страницу, например)...

И где Вы видите миллиард операций? Когда операция одна: подсчет хеша и проверка "ячейки индекса" с порядковым номером, равным подсчитанному хешу.

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
Hkey
На сайте с 30.09.2006
Offline
222
#20
ХренРедькиНеСлаще:
Hkey, представьте (мысленно) Яндекс прочитал документ и "индексирует" его. Документ он режет на предложения (по точкам и т.д.). Для каждого предложения считается хеш - целое число, которая определяет в какой позиции индекса Яндекса нужно хранить это предложение и информацию где это предложение проиндексировано (id документf и номер предложения).

Если предложение ранее не было в индексе, ячейка индекса (определяемая подсчитанным хешем) будет пусто, что означает: ДУБЛЕЙ предлжения НЕТ! Если ячейка занята, то это означает, что дубли есть и даются "координаты" дублей.

Не нравятся Вам "предложения" возьмите для индексации другие куски текста (всю страницу, например)...

И где Вы видите миллиард операций? Когда операция одна: подсчет хеша и проверка "ячейки индекса" с порядковым номером, равным подсчитанному хешу.

Пожалуйста прочитайте статьи Яндекса про шинглы, выборку шинглов и супер шинглы!

По предложениям осознал, что действительно на проверку супершинглов тратиться на порядки меньше времени. Но статьи Яши противоречевы в одной статье говориться о наличие одного супер шингла на документ в другом что их несколько. Мы не знаем алгоритм проверки на примерное соответствие супер шинглов - он может быть громоздким. Тем более для супер шингла нужно изменить 10-20% шиглов и он уже другой.

Есть предположение (в одной из статей написано "для веб документов используеться выборка 85 шинглов."), что некоторые документы перепроверяються более жестоко, даже, если супер шинглы разные! Как написано раньше.

"Не нравятся Вам "предложения" возьмите для индексации другие куски текста (всю страницу, например)..."

Хорошо сравниваю хеш 2 статей отличающающихся на один символ! Сравнил два получил два уникальных текста. Если бы Яндекс нахолил дубли так же... Дубли он находит и по шинглам и возможно еще по глобальным лексическим методам.

P.S. спасибо за конструктивную критику! Благодаря дискусии мы колективным разумом решаем поставленную задачу!

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий