speedre13, вы слишком не дооцениваете поисковики. Имеются достаточно точные технологии поиска дублей, не так уж и много ресурсов требующие, эта тема уже обсуждалась
За единицу я взял слово
Добавил еще один показатель сходства текстов на основе расстояния Левенштейна - попарное сравнение и пакетное сравнение
По большому счету тексты отличаются один от другого составом слов и их расположением. Если считать, что положение слов в тексте не влияет на уникальность, то это будет другая концепция, отличная от концепции, основанной на шинглах. Конечное решение какой концепции доверять - дело каждого.
советую почитать здесь
это доказывает только, что у нас разные расчеты
Представляю сервис для пакетной оценки текстов на сходство между собой. Программа работает на основе шинглов. Это нужно для оценки работы рерайтеров. Можно приобрести тут себе данную программу без ограничений (но без нормализации) за $10.
Вот еще сервис для сравнения двух статей на схожесть на основе шинглов
И вот тут можно скачать себе (правда без нормализации, для работы нужет php и zend)