- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здраствуйте, форумчане.
Возникла необходимость проверит 2 текста на уникальность между собой.
Shingles Expert и Article Clone Easy используют один и тот же алгоритм (как я выяснил эксперементально).
Но отправляя тестовые задания на проверку, получаю бредовые результаты, которые у меня в голове не укладываюся. Пол дня просидел, пытаясь понять, как они проверяют уникальность текстов. Ну вообще невозможно понять.
Первое тестовое задание, сравнения двух текстов:
{1}
A1 B1 C1 D1 E1 F1 G1 H1
{2}
A1 B1 C1 D2 E1 F1 G1 H1
Результат: 40 % схожести текстов при шингле равным 4. Откуда эта цифра????
Нормальный алгоритм сравнения:
1. Выделяем шинглы в каждом из текстов:
[0] => a1 b1 c1 d1
[1] => b1 c1 d1 e1
[2] => c1 d1 e1 f1
[3] => d1 e1 f1 g1
[4] => e1 f1 g1 h1 *
[0] => a1 b1 c1 d2
[1] => b1 c1 d2 e1
[2] => c1 d2 e1 f1
[3] => d2 e1 f1 g1
[4] => e1 f1 g1 h1 *
2. Объединяем их, оставляя только уникальные:
[0] => a1 b1 c1 d1
[1] => b1 c1 d1 e1
[2] => c1 d1 e1 f1
[3] => d1 e1 f1 g1
[4] => e1 f1 g1 h1
[5] => a1 b1 c1 d2
[6] => b1 c1 d2 e1
[7] => c1 d2 e1 f1
[8] => d2 e1 f1 g1
9 уникальных шинглов в обоих текстах
3. Находим шинглы, которые присутсвуют в обоих текстах:
[0] => e1 f1 g1 h1 *
только 1 шинл из первого текста совпадает с шинглом из второго текста
4. Вычисляем схожесть текстов:
1/9=11%
эти тексты похожи на 11% а не 40%!!!
Второе тестовое задание, сравнения двух текстов:
{1}
A1 B1 C1 D1 E1 F1 G1 H1
{2}
A1 B1 C1 D2 E1 F1 G1 H2
Эти проги опять же выдают, схожесть тестов 40%!!!! Бред!!!! Схожесть 0%!
Нет вообще ни одного шингла из 1-го текста, который совпадал бы с шинглом из 2-го текста.
[0] => a1 b1 c1 d1
[1] => b1 c1 d1 e1
[2] => c1 d1 e1 f1
[3] => d1 e1 f1 g1
[4] => e1 f1 g1 h1
[0] => a1 b1 c1 d2
[1] => b1 c1 d2 e1
[2] => c1 d2 e1 f1
[3] => d2 e1 f1 g1
[4] => e1 f1 g1 h2
Я конечно понимаю, что ломать стереотипы дело не благодарное и что при отсутствии каких-либо аналогов проверки размноженных текстов, эти проги хоть что-то. Но, вывод такой – определение уникальности текстов в этих прогах явно страдает.
У меня вопросы:
1. На сколько Вы доверяете этим программам?
2. Если не нравиться «нормальный» алгоритм сравнения текстов, то чем?
P.S.
Хотел добавить, что "нормальный" алгоритм, придумал не я, но мне этот алгоритм кажется очень хорошим.
Я его реализовал для пакетного сравнения размноженых статей, потестить можно здесь:
http://backlinksmanager.ru/Utility/Proverka-unikalnosti-teksta.html