Форум Практика оптимизации Сервисы и программы для работы с SE

Сравнение 2-х текстов на схожесть.

Elbran

7 сентября 2012, 10:26

5022

Здраствуйте, форумчане.

Возникла необходимость проверит 2 текста на уникальность между собой.

Shingles Expert и Article Clone Easy используют один и тот же алгоритм (как я выяснил эксперементально).

Но отправляя тестовые задания на проверку, получаю бредовые результаты, которые у меня в голове не укладываюся. Пол дня просидел, пытаясь понять, как они проверяют уникальность текстов. Ну вообще невозможно понять.

Первое тестовое задание, сравнения двух текстов:

{1}

A1 B1 C1 D1 E1 F1 G1 H1

{2}

A1 B1 C1 D2 E1 F1 G1 H1

Результат: 40 % схожести текстов при шингле равным 4. Откуда эта цифра????

Нормальный алгоритм сравнения:

1. Выделяем шинглы в каждом из текстов:

[0] => a1 b1 c1 d1

[1] => b1 c1 d1 e1

[2] => c1 d1 e1 f1

[3] => d1 e1 f1 g1

[4] => e1 f1 g1 h1 *

[0] => a1 b1 c1 d2

[1] => b1 c1 d2 e1

[2] => c1 d2 e1 f1

[3] => d2 e1 f1 g1

[4] => e1 f1 g1 h1 *

2. Объединяем их, оставляя только уникальные:

[0] => a1 b1 c1 d1

[1] => b1 c1 d1 e1

[2] => c1 d1 e1 f1

[3] => d1 e1 f1 g1

[4] => e1 f1 g1 h1

[5] => a1 b1 c1 d2

[6] => b1 c1 d2 e1

[7] => c1 d2 e1 f1

[8] => d2 e1 f1 g1

9 уникальных шинглов в обоих текстах

3. Находим шинглы, которые присутсвуют в обоих текстах:

[0] => e1 f1 g1 h1 *

только 1 шинл из первого текста совпадает с шинглом из второго текста

4. Вычисляем схожесть текстов:

1/9=11%

эти тексты похожи на 11% а не 40%!!!

Второе тестовое задание, сравнения двух текстов:

{1}

A1 B1 C1 D1 E1 F1 G1 H1

{2}

A1 B1 C1 D2 E1 F1 G1 H2

Эти проги опять же выдают, схожесть тестов 40%!!!! Бред!!!! Схожесть 0%!

Нет вообще ни одного шингла из 1-го текста, который совпадал бы с шинглом из 2-го текста.

[0] => a1 b1 c1 d1

[1] => b1 c1 d1 e1

[2] => c1 d1 e1 f1

[3] => d1 e1 f1 g1

[4] => e1 f1 g1 h1

[0] => a1 b1 c1 d2

[1] => b1 c1 d2 e1

[2] => c1 d2 e1 f1

[3] => d2 e1 f1 g1

[4] => e1 f1 g1 h2

Я конечно понимаю, что ломать стереотипы дело не благодарное и что при отсутствии каких-либо аналогов проверки размноженных текстов, эти проги хоть что-то. Но, вывод такой – определение уникальности текстов в этих прогах явно страдает.

У меня вопросы:

1. На сколько Вы доверяете этим программам?

2. Если не нравиться «нормальный» алгоритм сравнения текстов, то чем?

P.S.

Хотел добавить, что "нормальный" алгоритм, придумал не я, но мне этот алгоритм кажется очень хорошим.

Я его реализовал для пакетного сравнения размноженых статей, потестить можно здесь:

http://backlinksmanager.ru/Utility/Proverka-unikalnosti-teksta.html

Домены по 95р (http://reg.ru-tbf.ru/), Сервис по проверке ссылок + генератор статей с уникальностью 95% (http://backlinksmanager.ru/) ICQ: 338-814-942

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Дзен реализовал для авторов возможность вывода денег через СПБ

Сравнение 2-х текстов на схожесть.