Проверка текстов на схожесть. А какой программе доверяете Вы?

12
Light Phantom
На сайте с 17.03.2007
Offline
188
6148

Всерьёз задумался над тем, какой же программе проверки текстов на схожесть доверять?

Провел тест. Опыт проводился на 3-х программах (пронумерую, чтобы потом каждый раз не писать название программы):

1. Hkey Shingle Text Compare,

2. встроенная проверялка текстов в программу Article Copy Master (она же отдельной программкой - Shingles Expert

3. и WSGU Rewriter

Вторая и третья программы - лицензионные, первая - бесплатная.

Бралось 2 текста (похожи, но есть отличия).

Результат:

1. 50% сходства

2. 60% сходства

3. 92,5% сходства

Сравниваю две другие статьи:

1. 28% сходства

2. 44% сходства

3. 85% сходства

В статьях голый текст, тегов при проверке не было.

И так со всеми статьями. Возникает вопрос: какой проге доверять больше? Да, хочу еще добавить, что если брать 2 абсолютно одинаковые статьи или две абсолютно разные, то результаты во всех трех программах одинаковые (+/- 1% погрешность), но если брать одинаковые статьи с изменениями в некоторых местах, то получается такая большая разбежка в результатах.

Если смотреть на глаз, то, на мой взгляд, лучший вариант - первый или второй (какой правильнее определяет даже не знаю, разбежка не большая - на глаз определить сложно), третий, как мне кажется, сильно завышает результат.

Поделитесь своими впечатлениями и мнениями об этих или других программах, пожалуйста. Какой из них Вы отдаете предпочтение и почему? Давайте вместе найдем лучший вариант :)

Какая программа на Ваш взгляд правильнее сравнивает тексты?

Hkey Shingle Text Compare
19% (4)
Shingles Expert
48% (10)
WSGU Rewriter
10% (2)
Другая (желательно указать название в теме)
24% (5)
Всего проголосовало: 21
Hkey
На сайте с 30.09.2006
Offline
222
#1

Вопрос в длине шинглов у меня 10 слов.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
Light Phantom
На сайте с 17.03.2007
Offline
188
#2
Hkey:
Вопрос в длине шинглов у меня 10 слов.

А можно поподробнее, как это влияет на результат и в какую сторону?

Это статья разбивается на части по 10 слов и сравниваются эти части, я правильно понимаю?

banshee(oleg)
На сайте с 12.08.2007
Offline
140
#3

И у меня (Article Copy Master/Shingles Expert) длина шингла 10. Но у меня + псевдонормализация, отбрасывание хтмл тегов, отбрасывание стопслов (без этого процент может быть чуть выше на 2-6%)

WU
На сайте с 07.10.2007
Offline
157
#4

Было бы правильно для сравнения результатов, отключать галочку в WSGU Rewriter. В этом случае будут использоваться шинглы длиной в 10 слов. Шинглы по своей природе очень чувствительны к перестановкам слов. Что бы снизить влияние перестановок можно использовать например Расстояние Левенштейна (также дистанция Левенштейна, функция Левенштейна, алгоритм Левенштейна или дистанция редактирования) в теории информации и компьютерной лингвистике — это мера разницы двух последовательностей символов (строк) относительно минимального количества операций вставки, удаления и замены, необходимых для перевода одной строки в другую.

Hkey
На сайте с 30.09.2006
Offline
222
#5
Light Phantom:
А можно поподробнее, как это влияет на результат и в какую сторону?
Это статья разбивается на части по 10 слов и сравниваются эти части, я правильно понимаю?

Статья разбивается на части по 10 слов, но эти части пересекаются с друг-другом.

Если слова,

1 2 3 4 5 6 7 8 9 10 11 12

то Шинглы

1 2 3 4 5 6 7 8 9 10

2 3 4 5 6 7 8 9 10 11

3 4 5 6 7 8 9 10 12

У этих частей берется контрольная сумма и получаются числа. Эти числа и сравниваются с друг-другом.

Hkey добавил 24.04.2008 в 17:27

banshee(oleg):
И у меня (Article Copy Master/Shingles Expert) длина шингла 10. Но у меня + псевдонормализация, отбрасывание хтмл тегов, отбрасывание стопслов (без этого процент может быть чуть выше на 2-6%)

Это у меня тоже отбрасывается, а численно-буквенные последовательности у вас отбрасываются?

Vanich
На сайте с 10.07.2007
Offline
165
#6
Hkey:
Вопрос в длине шинглов у меня 10 слов.

Тут рассуждать следует о методиках сверки текстов, а не об их практической реализации в виде той или иной программы.

Не забывайте, даже если тексты по методу шинглов разные на 99 % это не гарантирует, что по алгоритму того же яндекса спустя несколько лет они тоже будут разными😂.

Онлайн-консультант для юридических, медицинских, компьютерных, туристических сайтов. Удобно пользователю, прибыльно вебмастеру. (http://webmasters.leadia.ru/?ref=bIoqZIaath) MONKEYWRITE ТЕПЕРЬ БЕСПЛАТНО (https://yadi.sk/d/Hd9mbvyzeMMfp)
_S
На сайте с 11.01.2006
Offline
150
#7

не помню что за программа, но как то скачал в инете... вроде для преподов ВУЗов или что то такое.

так она проверяет текст и доказывает его неуникальность даже если

1) поменять абзаци местами

2) часть предложений заменить

3) часть оставшихся переписать

я был в шоке

Revolve - создание сайтов (http://www.revolving.ru/) icq 55-61-51
Hkey
На сайте с 30.09.2006
Offline
222
#8
__SPiRiT__:
не помню что за программа, но как то скачал в инете... вроде для преподов ВУЗов или что то такое.
так она проверяет текст и доказывает его неуникальность даже если
1) поменять абзаци местами
2) часть предложений заменить
3) часть оставшихся переписать

я был в шоке

Думаю все программы. В этих случаях найдут схожесть.

-S
На сайте с 10.12.2006
Offline
Модератор1355
#9
__SPiRiT__:
не помню что за программа, но как то скачал в инете... вроде для преподов ВУЗов или что то такое.
так она проверяет текст и доказывает его неуникальность даже если
1) поменять абзаци местами
2) часть предложений заменить
3) часть оставшихся переписать

я был в шоке

__SPiRiT__, если бы такими методами можно было создать уникальность, то никто бы рерайтинг и копирайтинг бы не заказывал :)

Могу Вас огорчить, что даже если часть слов в тексте заменить на синонимы, то для Яндекса такой текст не будет уникальным. На таких говнотекстах далеко не уехать.

Hkey
На сайте с 30.09.2006
Offline
222
#10
-= Serafim =-:
__SPiRiT__, если бы такими методами можно было создать уникальность, то никто бы рерайтинг и копирайтинг бы не заказывал :)

Могу Вас огорчить, что даже если часть слов в тексте заменить на синонимы, то для Яндекса такой текст не будет уникальным. На таких говнотекстах далеко не уехать.

Ребята помощью моего генератора даже Гуглу обманывают на английском ).

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий