Попробуйте провести экспирименты по алгоритму шинглов - Яндекс

Как яндекс находит плагиат. И как бороться со склейкой.

Hkey · 2006-10-14T22:26:06.0000000Z

Большая часть материала взята из рассуждений и может не совпадать с действительностью. Часть взята из статей Яндекса. Если вы считаете, что написаные мной факты и заключения неправильны, то прошу высказаться. Документов в интернете много. Думаю в рунете минимум один милиард страниц. Чтобы сверить между собой милиард каждую с каждой нужен 1.000.000.000.000.000.000 операций сравнивания страниц. Даже если в сравнивании страниц учавствует только одно число, то чтобы найти его в базе 1.000.000.000 конктрольных сумм нужно 30000 (корень из одного милиардк) операций сравнивания. Можно ускорить благодаря разбивки на 1024 баз данных. В 32 раза. Итого нам понадобиться 1.000.000.000.000.000.000.000 операций сравнивания двух чисел. Учитывая что кроме операции сравнивания там еще переборы по циклам, запросы на другие кластеры, то одна машина может считать до 1000.000 операций (максимальное значение) сравнивания двух чисел в секунду. 1.000.000.000.000.000 секундо машин нужно. В году 315.360.000 секунд. Три машины эту работу сделают за один милион лет :-). Чтобы в обозимом будушем(в течении 10ти лет) решить эту задачу нужно 100.000 машин. ВЫВОД: ЕСЛИ ДВА САЙТА НИКАК не связаны между собой Яндекс не склеит. Значит Яндекс ищет связи сайтов. Если вы обмениваетесь статьями, то ставьте СВОЮ статью на СВОЕМ сайте в ноиндекс. Т.е. бот не должен находить на двух перелинкованых в одну или две стороны сайтах одну и туже статью, даже с очень большими с изменениями. Поскольку залинкованные сайты проверяються очень тщательно. Если яндекс нашел 3,4,5..10 копию документа, то он начнет усердние искать еще копии. В общем Яндекс не тупо перебирает каждый с каждым. -------------------------------- Исходя из вышесказанного и статей Яндекса можно судить, о том, что существуют несколько уровней сравнения и строгости проверки. Нахождение сайтов Лексический анализ. Глобальный метод. Беруться самые малораспространенные слова и обороты из Статьи заносяться и ищаться либо по бекам сайта либо по сайтам на который он ссылаеться. В самом плохом случае по всему инету. Метод ссылочных связей. Наприме, если статья несет ссылку на сайт то проверяться материалы сайта на который в статье есть ссылка. Проверки: В зависимости от типа найденой взаимосвязи между документами два текста сверяються. Разными методами. Выборка шинглов. Строгий метод. Используеться когда большие подозрения на дубли. Шингл - контрольная сумма взахлест 10ти слов. Количество шинглов = количеству слов -9. Например: Шинглы для "В зависимости от типа найденой взаимосвязи между документами два текста сверяються. Разными методами." Есть 3 шингла 1."В зависимости от типа найденой взаимосвязи между документами два текста сверяються. 2."зависимости от типа найденой взаимосвязи между документами два текста сверяються. Разными" 3."от типа найденой взаимосвязи между документами два текста сверяються. Разными методами" Из этих шинглов выбираються несколько десятков шинглов выборки, которые сверяються. По словам яши это делаеться так: Из статей понятно, что на каждый документ находятиться выборка из 85 шинглов. Как она находиться: S1...Si - шинглы F1...F85 случайные функции расчета контрольных сумм выборок. Функции постоянные, но сгенерированы на шару. Т.е. для двух документов функции одинаковые. V1...V85 - шинглы выборки ---------------- V1= MIN(F1(S1), ... F1(Si)) ............................... V85 = MIN(F85(S1), ... F85(Si)). --------------------------- Метод сравнения сравнить все 85 шинглов выборки первого документа между соответсвующими шинглами второго документа. Максимум 85 операций. Чтобы скеились документы ориентировочно нужно одинаковых 35 шинглов. Супер шингл. Мягкий метод. Если тексты изменены на 10-15 % он их не найдет. Из всех шинглов расчитываеться один единственный шингл. (по другим данным несколько). Если два супер шингла совпали, то скорее всего не склеят а проверят документ более тщательно. Алгоритм его выбора неизвестен. Скорее всего опираеться на лексические конструкции и на глобальные их частотные данные. _________________________________________________________ Как избежать? Замена слова на другое меняет 19 шинглов. Вероятность изменения одного из шинглов выборки = n*19/N, вероятность изменения двух n*19/N* (n-1)*19/N В среднем меняется n*19/N+ 2* n*19/N* (n-1)*19/N шинглов Обмен местами двух рядом стоящих шинглов меняет 20 шинглов. Обмен местами на расстоянии больше 10ти слов стоящих слов меняет 19+19 =38 шинглов. Обмен местами на расстоянии <10ти >0 слов стоящих слов меняет 20 + расстояние *2. Обмен местами предложений > 10 слов или абзацев, если они удут рядом меняет 40 шинглов. Обмен местами предложений > 10 слов или абзацев, если они удут рядом меняет 80 шинглов. Добавление нового слова меняет 20 шинглов. Добавление M подряд идущих слов меняет 20+M шинглов. Видно что эфективнее всего добавлять много раз в разных местах по одному слову. Или менять рядом стоящие предложения местами. Всего в тексте Шинглов на 9 меньше чем слов. Для супер шинглов, нужно поменять 20%шинглов. Но, возможно супер шингл учитывает только глаголы и существительные. Если супер шингл считаеться по лексическому глобального методу, то в текст можно вставить в качестве примеров название Экзотических стран и городов, редкие ошибки, фамилии, речевые обороты и изменять это в каждом тексте. Т.е. после прочтения статьи человеку кроме ее смысла запомниться что то необычное в ней, может, Супершингл запоминает что то в ней. ------------------------------------------------- Если нашел и склеил статьи как это может сказаться на тИЦ и вИЦ. Это беспорно уменьшает эти показатели, но я думаю 2 склеяные статьи с сылками лучше чем одна статья. Ведь если вы пишете хорошие статьи и ваши статьи берут много сайтов почему бы не поставить вам побольше индексы? Это доказывают новостные сайты и сайты видущие активный PR киевстар, МТС. У которых неплохие показатели тИЦ. ---------------------------------------------------

222

Hkey

15 октября 2006, 17:09

#21

mik-a-el:
Почему 1000 000 и причем здесь задержки сети? Операции идут в пределах кластера серверов.
К тому же операции сравнения чисел - самые быстрые из всех.

Да но там еще другие операции будут. И числа 12 байтные :-)

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))

N

58

NNemo

15 октября 2006, 18:19

#22

ХренРедькиНеСлаще:

.....

Если предложение ранее не было в индексе, ячейка индекса (определяемая подсчитанным хешем) будет пусто, что означает: ДУБЛЕЙ предлжения НЕТ! Если ячейка занята, то это означает, что дубли есть и даются "координаты" дублей.

......

И где Вы видите миллиард операций? Когда операция одна: подсчет хеша и проверка "ячейки индекса" с порядковым номером, равным подсчитанному хешу.

Операция не одна, так база с ячейками будет очень большой, и ключ в такой базе тоже будет большой. Таким образом поиск по базе, ее сортировка, вставка нового значения - это и есть несколько действий.

По поводу ключа такой базы. В классической технологии шинглов (с длинной шингла в 10 слов) для документа в 100 кб потребуется 631 шингл (хеш 10 слов)

Количество контента = (100 * 1024) * 0.5 (0.5 - цифра с потолка, будем предпологать что контента ровно половина, остальное разметка)

Т.о количество контента = 51200

Средняя длинна слова с пробелом пусть будет 8 (опять цифра с потолка), тогда

Количество слов в таком документе будет 6400

Таким образом количество 10 словных шинглов будет (6400/10) - 9 = 631

Получается что ключ будет очень большой, а именно длинной в 631 шингл

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

222

Hkey

15 октября 2006, 19:32

#23

NNemo:
Операция не одна, так база с ячейками будет очень большой, и ключ в такой базе тоже будет большой. Таким образом поиск по базе, ее сортировка, вставка нового значения - это и есть несколько действий.

По поводу ключа такой базы. В классической технологии шинглов (с длинной шингла в 10 слов) для документа в 100 кб потребуется 631 шингл (хеш 10 слов)

Количество контента = (100 * 1024) * 0.5 (0.5 - цифра с потолка, будем предпологать что контента ровно половина, остальное разметка)

Т.о количество контента = 51200

Средняя длинна слова с пробелом пусть будет 8 (опять цифра с потолка), тогда
Количество слов в таком документе будет 6400

Таким образом количество 10 словных шинглов будет (6400/10) - 9 = 631

Получается что ключ будет очень большой, а именно длинной в 631 шингл

Нет супер шингл не такой большой. Это один или несколько шинглов взятых по какойто хитрой формуле, делающию его помехоустойчивым. Т.е. супершингл это не контрольная сумму шинглов, а хитрый индикатор документа.

PS Шинглы ситаються в захлест их 6400-9.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

57

ХренРедькиНеСлаще

15 октября 2006, 21:26

#24

Hkey:
Пожалуйста прочитайте статьи Яндекса про шинглы, выборку шинглов и супер шинглы!

При чем тут шинглы? Вы сами запутались. Я о шинглах здесь ни одного слова не написал и не имел их в виду! А писал о числе сравнений для определения дубликатов. Шинглы к этому вопросу перпендикулярно стоят. Быстроту сравнений они не повышают, так как здесь главное хранение данных по месту, определяемому хешкодом.

Или Вы шинглы собрались также хранить (в хеш таблице)? Это ОЧЕНЬ не экономно, так как число слов практически равно числу шинглов и тогда размер индекса возрастет на порядок. :)

Да и что Вам даст равенство друг другу одного шингла? Что по десять слов в текстах совпадают?

Вообще Вы интересный человек :)

Я у Вас совета не спрашивал, что мне читать или не читать. Поэтому прошу: воздержитесь от советов, когда я у Вас их не спрашиваю явно. Это похоже на совет почитать Онегина, которого я наизусть знаю... Мне нервы надо беречь :)

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

N

58

NNemo

15 октября 2006, 21:46

#25

Hkey:
PS Шинглы ситаються в захлест их 6400-9.

Точно, их 6400-9. Я говорил о классических шинглах

314

T.R.O.N

16 октября 2006, 10:49

#26

Hkey, По все видимости, вы провели хорошую работу по разбору алгоритма шинглов. Похвально. Но Выши рассуждения, имх - чистая математика. Т.с работа в лоб. Вы верно заметили, что основная работа по расчету дублей(нечетких дублей) ведется в пределах кластера, но есть меленькая неточность. Вы обращали внимание на то, что склеиваются, в основном, новые страницы, а вот страницы с большой разницей во времени, чаще всего, не склеины. (Возьмите любую известную тему по программированию, физике и т.д.) Там не много слеек.

Похоже, что действительно склейка идет в реальном времени на основе контрольных сумм.(аналогично спам-защите на почтовых серверах. Не раз говорилось что алгоритмы одинаковые). Если же дубль документа появляется через значительное время ппосле оригинала - то скорее всего склейки не будет.

PS Затрат времени и рессурса, при таком подходе, - куда меньше

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

222

Hkey

16 октября 2006, 22:09

#27

T.R.O.N:
Hkey, По все видимости, вы провели хорошую работу по разбору алгоритма шинглов. Похвально. Но Выши рассуждения, имх - чистая математика. Т.с работа в лоб. Вы верно заметили, что основная работа по расчету дублей(нечетких дублей) ведется в пределах кластера, но есть меленькая неточность. Вы обращали внимание на то, что склеиваются, в основном, новые страницы, а вот страницы с большой разницей во времени, чаще всего, не склеины. (Возьмите любую известную тему по программированию, физике и т.д.) Там не много слеек.
Похоже, что действительно склейка идет в реальном времени на основе контрольных сумм.(аналогично спам-защите на почтовых серверах. Не раз говорилось что алгоритмы одинаковые). Если же дубль документа появляется через значительное время ппосле оригинала - то скорее всего склейки не будет.
PS Затрат времени и рессурса, при таком подходе, - куда меньше

Да я этот эффект не знал.

Но все равно клеяться не только новые страницы.

Есть идея про двойную проверку. Что некоторые документы проверяються намного более строго. Этому есть подтвержения в статьях Яндекса (если кто не верит могу процетировать) и здравый смысл, что например, если сайты связаны то их нужно проверить более шестко.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

209

Socionics

16 октября 2006, 22:25

#28

Зачем сравнивать каждый с каждым? Хэш + выборка по ключу при новой индексации. Сравниваются только с теми записями, у которых тот же хэш.

В Яндексе скорее всего Oracle стоит, там и больше миллиарда записей бывает в базах данных. Их можно как-то разбить, еапример, для начала анализировать главные страницы сайтов, их явно не больше нескольких миллионов в Рунете (зона ru + русскоязычные в других зонах). А уж с миллионными табличками тот же Oracle спокойно справляется если индексы нормально сделать и запросы оптимизировать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

222

Hkey

19 октября 2006, 23:01

#29

Вы меня или вас не понимаем.

1. Выборки Шинглов и Супер шинглы для чего то нужны. Или что бы статьи яндекс про них писал.

2. Можно найти огромное к- во документов в которых совпадает один и тот же ключ.

3. Если тупо считать контрольную сумму, то малейшее изменение приводит к смене ключа.

По теме

------------------------------------------------------------

Может кто-то провести экспирименты.

Мне нужно 5-10 добровольцев. Если получиться, то вышлю прогу им бесплатно. Собираюсь написать такую программу "антишингл".

Первый - на сайте одновременно добавить две страницы.

Первая слова идут в нормальном порядке, вторая в обратном.

1. Мама мыла раму большой зеленой тряпкой. Я наблюдал за этим.

2. Этим за наблюдал Я. Тряпкой зеленой большой раму мыла мама.

Нужен, чтобы понять шинглы считаються с учетом расположения слов или без учета.

Еще один экспиримент:

Замена части букв на транслит.

Так спамеры поступают.

1. Электронным

2. Элеkтpонныm

Если получиться, то прогу легко написать.

И последний экспиримент:

1. Мама мыла раму большой зеленой тряпкой. Я наблюдал за этим.

2. Мамы мыли рамы большими зелеными тряпками. Я наблюдали за этими.

Хочу понять шинглы считаються тупо по словам или продвинуто по словоморфам.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

S

31

sumdex

20 октября 2006, 01:40

#30

Hkey

Идея не плохая.

Я даже со стула упал :)

Но вы не учли, сколько железа (серверов) нужно для такого алгоритма.

Я думаю все намного проще.

Тем более, как мной замечено, склейка у Яндекса далеко не идеальна, взять например партнерские программы...

Жить нужно креативно, но с умом...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Курс биткоина превысил $50 тысяч

Что такое Power BI и зачем это нужно бизнесу

Как яндекс находит плагиат. И как бороться со склейкой.