Если есть шингл А в обоих текстах, то процент сходства отображается не по равномерному распределению - Сервисы и программы для работы с SE

Прога расчета схожести текстов (дублей) - Бесплатно!

Hkey · 2026-07-01T11:07:36.0000000Z

Реализован метод шинглов. Со сравнением по выборке из мин-макс 100 случайных фиксированных функций. Алгоритм наиболее жесткой проверки дублей Яндекса. Отличия от алгоритма Яндекса: 1. Реализовано не 85, а 100 случайных функций (чтобы проценты реализовывать без дробной части) 2. Естественно фиксированные случайные функции разные, но как показывает практика в расхождения для текстов с размером > 2000 символов погрешность не более 10ти процентов. 3. Для хранения переменных используеться меньшее число байт. Для сравнения к-ва текстов меньше 10 000 штук, этот фактор не играет критической роли. Различает регистр, вырезает Тэги. Не учитывает словоформы, синонимы, стоп слова. А также замены русских букв на их аглийские аналоги. Если вы мне предоставите список стоп слов - он будет их игнорировать. http://bajron.od.ua/?p=31#more-31 270 кб текстовый файл содержит массив 100 на 10 параметров рандомных функций (многочлены первого порядка).

222

Hkey

6 июня 2007, 13:10

#11

MASe:
чего то я не понял... нажимаю на кнопку "compare" - и.... тишина....

Там должен процент сходства отображаться.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))

219

MASe

6 июня 2007, 16:38

#12

Hkey:
Там должен процент сходства отображаться.

это я понял... ступил в другом - просто 0% смутило... вот я и подумал, что не работает... потом вставил какую-то абракадабру и понял - работает...

а тестировал и сравнивал описания, которые я приготовил для одного из сайто для прогона по каталогам...

делаю вывод - хорошо подготовил, если 0% схожести то ;-), молодец я...

и еще по юзабилити...

у меня почему то текст из блокнота всталяется кракозябрами :-(

из ЭдитПлюс - нормально...

не очень удобно...

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

N

100

Newm

6 июня 2007, 19:14

#13

Навигатор:
Попробовал несколько размноженных статей с помощью своего скрипта - показывает максимум 8%. А чаще 3-4 %. Объективно, конечно, статьи более похожи.

Насколько я понимаю, должно быть 0%. 10% - это показатель, что яндекс (почти) наверняка посчитает текст дублем.

Но... Насколько я понял, зимой они поставили другой алгоритм отлова дублей, по сравнению с тем, что описывалось раньше. Я подозреваю, что толи они нашли красивое решение ... Толи они нашли некрасивое решение, выдвигая гипотезу, что на дубли надо сравнивать не весь веб, а только его выборку по определенным параметрам, например, коллекцию документов, сидящую на одном ИП, или на доменах, принадлежащих одному лицу, или какие-то комбинации этих факторов.

В Яндекс.Справочнике появился индекс Nigma посчитала объем Рунета Мастер отчетов 2.0 официально

222

Hkey

8 июня 2007, 10:55

#14

Newm:
Насколько я понимаю, должно быть 0%. 10% - это показатель, что яндекс (почти) наверняка посчитает текст дублем.

Но... Насколько я понял, зимой они поставили другой алгоритм отлова дублей, по сравнению с тем, что описывалось раньше. Я подозреваю, что толи они нашли красивое решение ... Толи они нашли некрасивое решение, выдвигая гипотезу, что на дубли надо сравнивать не весь веб, а только его выборку по определенным параметрам, например, коллекцию документов, сидящую на одном ИП, или на доменах, принадлежащих одному лицу, или какие-то комбинации этих факторов.

10% - может быть цитирование одного документа другим. 30-40% думаю допустимо. Я писал, что по шинглам сравнить весь рунет каждый с каждым нельзя. Шинглы - самя жесткая проверка на склейку.

N

100

Newm

8 июня 2007, 15:23

#15

Hkey:
10% - может быть цитирование одного документа другим. 30-40% думаю допустимо. Я писал, что по шинглам сравнить весь рунет каждый с каждым нельзя. Шинглы - самя жесткая проверка на склейку.

Что-то меня сомнения берут по этой фразе...

Точнее что-то меня сомнения стали брать, что вы понимаете, КАК это делает яндекс.

Насколько Я понимаю, он строит шинглы, а в базу пихает каждый 10-й из них. Как только в базу пытается добавиться шингл, который там есть, странички ставятся на "дополнительное обследоваение" (с января 2007, а может несколько раньше). А вот что такое "дополнительное обследование" - вот по поводу этого у меня и возникают вопросы. Какое решение в яндексе умудрились найти...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

222

Hkey

8 июня 2007, 22:57

#16

Newm:
Что-то меня сомнения берут по этой фразе...
Точнее что-то меня сомнения стали брать, что вы понимаете, КАК это делает яндекс.

Насколько Я понимаю, он строит шинглы, а в базу пихает каждый 10-й из них. Как только в базу пытается добавиться шингл, который там есть, странички ставятся на "дополнительное обследоваение" (с января 2007, а может несколько раньше). А вот что такое "дополнительное обследование" - вот по поводу этого у меня и возникают вопросы. Какое решение в яндексе умудрились найти...

Яша не скрывает Алгоритм - он был придуман не Яндексом.

Береться 85 случайных фиксированных функций и запоминаеться их максимум. Потом максимумы сравниваються. Всего 85 сравнений. Почитайте на сайте Яши статьи.

N

100

Newm

9 июня 2007, 06:51

#17

Hkey, только там нигде не говорится, что это актуальные статьи.

До осени прошлого года результаты моих экспериментов и то, что написано в этих статьях, практически совпадали. А вот свежак - это уже что-то новенькое. Или кардинально улучшенное старенькое. Или на порядок увеличенное число серверов для обработки (хотя что-то в это я мало верю).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

222

Hkey

9 июня 2007, 15:18

#18

Работал как то с примерно таким алгоритмом (для других но аналогичных целей). В нем для борьбы с синомайзингом можно сделать окно.

1 2 3 4 5 _ _ _ _ 10 11 12 13 14

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

222

Hkey

9 июня 2007, 16:59

#19

и еще даже если классические шинглы есть - то они ведут себя ни по равномерному распределению, а по нормальному. Т.е. если есть шингл_А есть в обоих текстах, то вероятность поподания его контрольной суммы в обе выборки по одной и той же фиксированной функции, намного выше 1/N1 * 1/N2.

Если не понятно почему могу обьяснить.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

222

Hkey

13 июня 2007, 23:28

#20

Навигатор:
Попробовал несколько размноженных статей с помощью своего скрипта - показывает максимум 8%. А чаще 3-4 %. Объективно, конечно, статьи более похожи.

Резюме: текущая версия - это меньше 1% работы, которую нужно проделать, чтоб стать эталонным измерителем уникальности текстов.
Пока нету синонимов и словоформ - грош цена программе.

А то, что вы так красиво и умно описывали в начале топика - не более чем пудра в глаза оптимизаторам. Все это легко напишет обычный студент за полдня.

З.Ы.: программа нужная и желаю вам успехов в разработке; поменьше пустословия и высокомерия - а то как депутат перед народом.

Ну процент изменений в основном зависит от колличества слов базы, а не от самого скрипта (самы простой скрипт пишеться за 20 минут). Главная фишка сочитание эфекта и качества конечного текста.

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Прога расчета схожести текстов (дублей) - Бесплатно!