Проверка текстов на схожесть. А какой программе доверяете Вы?

188

Light Phantom

23 апреля 2008, 22:39

6215

Всерьёз задумался над тем, какой же программе проверки текстов на схожесть доверять?

Провел тест. Опыт проводился на 3-х программах (пронумерую, чтобы потом каждый раз не писать название программы):

1. Hkey Shingle Text Compare,

2. встроенная проверялка текстов в программу Article Copy Master (она же отдельной программкой - Shingles Expert

3. и WSGU Rewriter

Вторая и третья программы - лицензионные, первая - бесплатная.

Бралось 2 текста (похожи, но есть отличия).

Результат:

1. 50% сходства

2. 60% сходства

3. 92,5% сходства

Сравниваю две другие статьи:

1. 28% сходства

2. 44% сходства

3. 85% сходства

В статьях голый текст, тегов при проверке не было.

И так со всеми статьями. Возникает вопрос: какой проге доверять больше? Да, хочу еще добавить, что если брать 2 абсолютно одинаковые статьи или две абсолютно разные, то результаты во всех трех программах одинаковые (+/- 1% погрешность), но если брать одинаковые статьи с изменениями в некоторых местах, то получается такая большая разбежка в результатах.

Если смотреть на глаз, то, на мой взгляд, лучший вариант - первый или второй (какой правильнее определяет даже не знаю, разбежка не большая - на глаз определить сложно), третий, как мне кажется, сильно завышает результат.

Поделитесь своими впечатлениями и мнениями об этих или других программах, пожалуйста. Какой из них Вы отдаете предпочтение и почему? Давайте вместе найдем лучший вариант :)

Какая программа на Ваш взгляд правильнее сравнивает тексты?

Hkey Shingle Text Compare

19% (4)

Shingles Expert

48% (10)

WSGU Rewriter

10% (2)

Другая (желательно указать название в теме)

24% (5)

Всего проголосовало: 21

222

Hkey

23 апреля 2008, 22:54

#1

Вопрос в длине шинглов у меня 10 слов.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))

188

Light Phantom

23 апреля 2008, 22:59

#2

Hkey:
Вопрос в длине шинглов у меня 10 слов.

А можно поподробнее, как это влияет на результат и в какую сторону?

Это статья разбивается на части по 10 слов и сравниваются эти части, я правильно понимаю?

194

banshee(oleg)

24 апреля 2008, 04:04

#3

И у меня (Article Copy Master/Shingles Expert) длина шингла 10. Но у меня + псевдонормализация, отбрасывание хтмл тегов, отбрасывание стопслов (без этого процент может быть чуть выше на 2-6%)

WU

178

WSGU

24 апреля 2008, 05:45

#4

Было бы правильно для сравнения результатов, отключать галочку в WSGU Rewriter. В этом случае будут использоваться шинглы длиной в 10 слов. Шинглы по своей природе очень чувствительны к перестановкам слов. Что бы снизить влияние перестановок можно использовать например Расстояние Левенштейна (также дистанция Левенштейна, функция Левенштейна, алгоритм Левенштейна или дистанция редактирования) в теории информации и компьютерной лингвистике — это мера разницы двух последовательностей символов (строк) относительно минимального количества операций вставки, удаления и замены, необходимых для перевода одной строки в другую.

222

Hkey

24 апреля 2008, 13:24

#5

Light Phantom:
А можно поподробнее, как это влияет на результат и в какую сторону?
Это статья разбивается на части по 10 слов и сравниваются эти части, я правильно понимаю?

Статья разбивается на части по 10 слов, но эти части пересекаются с друг-другом.

Если слова,

1 2 3 4 5 6 7 8 9 10 11 12

то Шинглы

1 2 3 4 5 6 7 8 9 10

2 3 4 5 6 7 8 9 10 11

3 4 5 6 7 8 9 10 12

У этих частей берется контрольная сумма и получаются числа. Эти числа и сравниваются с друг-другом.

Hkey добавил 24.04.2008 в 17:27

banshee(oleg):
И у меня (Article Copy Master/Shingles Expert) длина шингла 10. Но у меня + псевдонормализация, отбрасывание хтмл тегов, отбрасывание стопслов (без этого процент может быть чуть выше на 2-6%)

Это у меня тоже отбрасывается, а численно-буквенные последовательности у вас отбрасываются?

165

Vanich

24 апреля 2008, 18:22

#6

Hkey:
Вопрос в длине шинглов у меня 10 слов.

Тут рассуждать следует о методиках сверки текстов, а не об их практической реализации в виде той или иной программы.

Не забывайте, даже если тексты по методу шинглов разные на 99 % это не гарантирует, что по алгоритму того же яндекса спустя несколько лет они тоже будут разными😂.

Онлайн-консультант для юридических, медицинских, компьютерных, туристических сайтов. Удобно пользователю, прибыльно вебмастеру. (http://webmasters.leadia.ru/?ref=bIoqZIaath) MONKEYWRITE ТЕПЕРЬ БЕСПЛАТНО (https://yadi.sk/d/Hd9mbvyzeMMfp)

_S

150

__SPiRiT__

24 апреля 2008, 18:29

#7

не помню что за программа, но как то скачал в инете... вроде для преподов ВУЗов или что то такое.

так она проверяет текст и доказывает его неуникальность даже если

1) поменять абзаци местами

2) часть предложений заменить

3) часть оставшихся переписать

я был в шоке

Revolve - создание сайтов (http://www.revolving.ru/) icq 55-61-51

222

Hkey

25 апреля 2008, 00:44

#8

__SPiRiT__:
не помню что за программа, но как то скачал в инете... вроде для преподов ВУЗов или что то такое.
так она проверяет текст и доказывает его неуникальность даже если
1) поменять абзаци местами
2) часть предложений заменить
3) часть оставшихся переписать

я был в шоке

Думаю все программы. В этих случаях найдут схожесть.

-S

1356

-= Serafim =-

25 апреля 2008, 00:57

#9

__SPiRiT__:
не помню что за программа, но как то скачал в инете... вроде для преподов ВУЗов или что то такое.
так она проверяет текст и доказывает его неуникальность даже если
1) поменять абзаци местами
2) часть предложений заменить
3) часть оставшихся переписать

я был в шоке

__SPiRiT__, если бы такими методами можно было создать уникальность, то никто бы рерайтинг и копирайтинг бы не заказывал :)

Могу Вас огорчить, что даже если часть слов в тексте заменить на синонимы, то для Яндекса такой текст не будет уникальным. На таких говнотекстах далеко не уехать.

Как узнать копируют ли Утечка тысяч документов Google ChatGPT и его последствия

222

Hkey

25 апреля 2008, 02:06

#10

-= Serafim =-:
__SPiRiT__, если бы такими методами можно было создать уникальность, то никто бы рерайтинг и копирайтинг бы не заказывал :)

Могу Вас огорчить, что даже если часть слов в тексте заменить на синонимы, то для Яндекса такой текст не будет уникальным. На таких говнотекстах далеко не уехать.

Ребята помощью моего генератора даже Гуглу обманывают на английском ).

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Какая программа на Ваш взгляд правильнее сравнивает тексты?