Как яндекс находит плагиат. И как бороться со склейкой.

222

Hkey

14 октября 2006, 22:26

6151

Большая часть материала взята из рассуждений и может не совпадать с действительностью. Часть взята из статей Яндекса.

Если вы считаете, что написаные мной факты и заключения неправильны, то прошу высказаться.

Документов в интернете много. Думаю в рунете минимум один милиард страниц. Чтобы сверить между собой милиард каждую с каждой нужен 1.000.000.000.000.000.000 операций сравнивания страниц. Даже если в сравнивании страниц учавствует только одно число, то чтобы найти его в базе 1.000.000.000 конктрольных сумм нужно 30000 (корень из одного милиардк) операций сравнивания. Можно ускорить благодаря разбивки на 1024 баз данных. В 32 раза.

Итого нам понадобиться 1.000.000.000.000.000.000.000 операций сравнивания двух чисел. Учитывая что кроме операции сравнивания там еще переборы по циклам, запросы на другие кластеры, то одна машина может считать до 1000.000 операций (максимальное значение) сравнивания двух чисел в секунду.

1.000.000.000.000.000 секундо машин нужно. В году 315.360.000 секунд. Три машины эту работу сделают за один милион лет :-). Чтобы в обозимом будушем(в течении 10ти лет) решить эту задачу нужно 100.000 машин.

ВЫВОД: ЕСЛИ ДВА САЙТА НИКАК не связаны между собой Яндекс не склеит.

Значит Яндекс ищет связи сайтов. Если вы обмениваетесь статьями, то ставьте СВОЮ статью на СВОЕМ сайте в ноиндекс. Т.е. бот не должен находить на двух перелинкованых в одну или две стороны сайтах одну и туже статью, даже с очень большими с изменениями. Поскольку залинкованные сайты проверяються очень тщательно.

Если яндекс нашел 3,4,5..10 копию документа, то он начнет усердние искать еще копии.

В общем Яндекс не тупо перебирает каждый с каждым.

--------------------------------

Исходя из вышесказанного и статей Яндекса можно судить, о том, что существуют несколько уровней сравнения и строгости проверки.

Нахождение сайтов

Лексический анализ. Глобальный метод. Беруться самые малораспространенные слова и обороты из Статьи заносяться и ищаться либо по бекам сайта либо по сайтам на который он ссылаеться. В самом плохом случае по всему инету.

Метод ссылочных связей. Наприме, если статья несет ссылку на сайт то проверяться материалы сайта на который в статье есть ссылка.

Проверки:

В зависимости от типа найденой взаимосвязи между документами два текста сверяються. Разными методами.

Выборка шинглов. Строгий метод. Используеться когда большие подозрения на дубли.

Шингл - контрольная сумма взахлест 10ти слов. Количество шинглов = количеству слов -9.

Например: Шинглы для

"В зависимости от типа найденой взаимосвязи между документами два текста сверяються. Разными методами."

Есть 3 шингла

1."В зависимости от типа найденой взаимосвязи между документами два текста сверяються.

2."зависимости от типа найденой взаимосвязи между документами два текста сверяються. Разными"

3."от типа найденой взаимосвязи между документами два текста сверяються. Разными методами"

Из этих шинглов выбираються несколько десятков шинглов выборки, которые сверяються.

По словам яши это делаеться так: Из статей понятно, что на каждый документ находятиться выборка из 85 шинглов. Как она находиться:

S1...Si - шинглы

F1...F85 случайные функции расчета контрольных сумм выборок. Функции постоянные, но сгенерированы на шару. Т.е. для двух документов функции одинаковые.

V1...V85 - шинглы выборки

----------------

V1= MIN(F1(S1), ... F1(Si))

...............................

V85 = MIN(F85(S1), ... F85(Si)).

---------------------------

Метод сравнения сравнить все 85 шинглов выборки первого документа между соответсвующими шинглами второго документа. Максимум 85 операций.

Чтобы скеились документы ориентировочно нужно одинаковых 35 шинглов.

Супер шингл. Мягкий метод. Если тексты изменены на 10-15 % он их не найдет. Из всех шинглов расчитываеться один единственный шингл. (по другим данным несколько).

Если два супер шингла совпали, то скорее всего не склеят а проверят документ более тщательно. Алгоритм его выбора неизвестен. Скорее всего опираеться на лексические конструкции и на глобальные их частотные данные.

_________________________________________________________

Как избежать?

Замена слова на другое меняет 19 шинглов. Вероятность изменения одного из шинглов выборки = n*19/N, вероятность изменения двух n*19/N* (n-1)*19/N …

В среднем меняется n*19/N+ 2* n*19/N* (n-1)*19/N … шинглов

Обмен местами двух рядом стоящих шинглов меняет 20 шинглов.

Обмен местами на расстоянии больше 10ти слов стоящих слов меняет 19+19 =38 шинглов.

Обмен местами на расстоянии <10ти >0 слов стоящих слов меняет 20 + расстояние *2.

Обмен местами предложений > 10 слов или абзацев, если они удут рядом меняет 40 шинглов.

Обмен местами предложений > 10 слов или абзацев, если они удут рядом меняет 80 шинглов.

Добавление нового слова меняет 20 шинглов.

Добавление M подряд идущих слов меняет 20+M шинглов.

Видно что эфективнее всего добавлять много раз в разных местах по одному слову. Или менять рядом стоящие предложения местами.

Всего в тексте Шинглов на 9 меньше чем слов. Для супер шинглов, нужно поменять 20%шинглов. Но, возможно супер шингл учитывает только глаголы и существительные.

Если супер шингл считаеться по лексическому глобального методу, то в текст можно вставить в качестве примеров название Экзотических стран и городов, редкие ошибки, фамилии, речевые обороты и изменять это в каждом тексте.

Т.е. после прочтения статьи человеку кроме ее смысла запомниться что то необычное в ней, может, Супершингл запоминает что то в ней.

-------------------------------------------------

Если нашел и склеил статьи как это может сказаться на тИЦ и вИЦ. Это беспорно уменьшает эти показатели, но я думаю 2 склеяные статьи с сылками лучше чем одна статья. Ведь если вы пишете хорошие статьи и ваши статьи берут много сайтов почему бы не поставить вам побольше индексы?

Это доказывают новостные сайты и сайты видущие активный PR киевстар, МТС. У которых неплохие показатели тИЦ.

---------------------------------------------------

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))

222

Hkey

15 октября 2006, 00:03

#1

Забыл сказать про замену слова и про процент вероятности изменения одного из шинглов.

Замена слова на другое меняет 19 шинглов. Вероятность изменения одного из шинглов выборки = n*19/N, вероятность изменения двух n*19/N* (n-1)*19/N …

В среднем меняется n*19/N+ 2* n*19/N* (n-1)*19/N … шинглов

n- к-во шинглов выборки

N - к-во шинглов в тексте.

ПРи маленьких текстах к-во шинглов в выборке имеет логарифмическую зависимость от размера текста. Т.е. может быть меньше <85.

50

Фриман

15 октября 2006, 05:42

#2

Три машины эту работу сделают за один милион лет :-). Чтобы в обозимом будушем(в течении 10ти лет) решить эту задачу нужно 100.000 машин.

Сколько же тогда по-вашему PR пересчитывается?:) там не одна операция сравнения + он еще и итерационный.

P. S.

HKey вот если бы вы посчитали вероятность совпадения N шинглов в 2 случайных русских текстах это было бы гораздо интереснее...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

222

Hkey

15 октября 2006, 07:32

#3

Фриман:
Сколько же тогда по-вашему PR пересчитывается?:) там не одна операция сравнения + он еще и итерационный.
P. S.
HKey вот если бы вы посчитали вероятность совпадения N шинглов в 2 случайных русских текстах это было бы гораздо интереснее...

Если тексты абсолютно случайны (доры без нормальных слов), то N*N/16 в двадцать шестой степени.

16 в десятой видно из картинки Яши при подщете шинглов.

Если прикинуть, что из слова полностью не заполняют стек буквосечитаний. А заполняют скажем на 0.000001 процентов. (Словарь Ожигова/32^10.) То можно сказать, что N*N*10000000/16^26. Если учитывать принцип Паррето, что на 10% слов приходиться 90% их использований, то можно сказать, что N*N*100000000/16^26. Если учитывать принцип Паррето и для выражений N*N*10^8/16^26. Т.е. очень маленький. Хотя Яндекс для хранения может использовать меньшие длины контрольных сумм.

16^5~10^7

N*N*15^1/16^19

N~1000

Получаем примерно:

10^5/16^12

И еще одно но мы растмотрели только одну комбинацию из 1 000 000 000 000 000 000 000 :-)

10^23 к 1/16^12

100000000 к 256

Примерно 400000. Т.е. Яша склеит 800000 случайных страниц :-), если он будет руководствоваться супершинглами этой длины.

(10^5/16^12)^30 *10^18 страниц в среднем склеяться. Можно судить, что количество < 1.

Если для равенства нужно наличие 30 одинаковых шинглов

Но по обычным шинглам ничего не считают считают по их выборке.

Фриман ответил ли я на ваш второй вопрос?

Первый вопрос. Чтобы считать тИЦ и PR не нужно каждый сайт и кажый документ сравнивать с каждым. Достаточно просто увидев ссылку на одном сайте на другой записать ее в специальное место . Т.е. работы на много порядков меньше. На одной странице ссылок максимум 100, а не 1.000.000.000. Т.е. в десять милионов раз меньше.

P.S.

Кстати я угадал про милиард страниц :-)

http://www.company.yandex.ru/

веб-страниц: 1 188 863 499

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

222

Hkey

15 октября 2006, 07:36

#4

Фриман:
Сколько же тогда по-вашему PR пересчитывается?:) там не одна операция сравнения + он еще и итерационный.
P. S.
HKey вот если бы вы посчитали вероятность совпадения N шинглов в 2 случайных русских текстах это было бы гораздо интереснее...

N у меня количество шинглов в тексте.

В последней формуле подставьте вместо 30, l - колличество совпавших шинголов и результат поделите на 10^18. Там получиться << 0.

Считаються для Шинглов из выборки.

N

58

NNemo

15 октября 2006, 07:55

#5

Hkey:

Документов в интернете много. Думаю в рунете минимум один милиард страниц. Чтобы сверить между собой милиард каждую с каждой нужен 1.000.000.000.000.000.000 операций сравнивания страниц.

Да, в рунете страниц много, но сколько страниц регулярно изменяется? Разумеется не миллиард, а лишь небольшая его доля. Таким образом не требуется сравнить каждую с каждой, требуется сравнить лишь измененные страницы с каждой проиндексированной.

222

Hkey

15 октября 2006, 08:27

#6

NNemo:
Да, в рунете страниц много, но сколько страниц регулярно изменяется? Разумеется не миллиард, а лишь небольшая его доля. Таким образом не требуется сравнить каждую с каждой, требуется сравнить лишь измененные страницы с каждой проиндексированной.

Разве страницы склеиваються сразу после индексации?

N

58

NNemo

15 октября 2006, 09:15

#7

Hkey:
Разве страницы склеиваються сразу после индексации?

Это уже другой вопрос.

ЗАДАЧА: выяснить нечеткие дубли после изменения части базы текстовых страниц

Для решения задачи не требуется переиндексация всей базы целиком (1 000 000 000 000 000 000 сравнений страниц) так как не все страницы меняются

T

97

Turbo

15 октября 2006, 09:18

#8

Не обязательно сравнивать каждый с каждым. Если страницы отсортированы по некому ключу то можно искать со сложностью n*log(n) - а это для миллиарда не так много.

84

dimanaz

15 октября 2006, 11:13

#9

Сравниваются не страницы а контрольные суммы. Сравниваются они очень быстро, имхо гораздо быстрее чем n*log(n).

Представьте библиотеку. Для нахождения конкретной книги, название и автор который вам известен, гораздо логичнее воспользоваться рубрикатором (или как оно там называется), чем переберать все книги друг за другом.

gorko.ru (http://msk.gorko.ru) mywed.ru (http://mywed.ru) svadba-msk.ru (http://svadba-msk.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

57

ХренРедькиНеСлаще

15 октября 2006, 11:25

#10

Hkey:
Большая часть материала взята из рассуждений и может не совпадать с действительностью

Очень верно замечено :)

Hkey:
Документов в интернете много. Думаю в рунете минимум один милиард страниц. Чтобы сверить между собой милиард каждую с каждой нужен 1.000.000.000.000.000.000 операций сравнивания страниц.

Это называется тупой работой. Давно придумали метод хеширования. Так что миллиардами тут и не пахнет. Яндекс НА ЛЕТУ с дубликатами разбирается :)

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Все что нужно знать о DDоS-атаках грамотному менеджеру