WSGU

Рейтинг
173
Регистрация
07.10.2007

speedre13, вы слишком не дооцениваете поисковики. Имеются достаточно точные технологии поиска дублей, не так уж и много ресурсов требующие, эта тема уже обсуждалась

ИМХО:
Хорошая идея! Даже если поисковики используют другие технологии, эта должна давать неплохое ориентировочное ощущение качества рерайта.

А вы в расстоянии Левенштейна за единицу изменяемой величины используете букву или слово? Потому что при сравнении полного текста, при учете возможной синонимизации логичнее было бы использовать слово в качестве неделимого элемента.

За единицу я взял слово

Добавил еще один показатель сходства текстов на основе расстояния Левенштейна - попарное сравнение и пакетное сравнение

Добавил еще один показатель сходства текстов на основе расстояния Левенштейна - попарное сравнение и пакетное сравнение

A_Liss:


Врядли от перестановки местами слов текст будет считаться уникальным.

По большому счету тексты отличаются один от другого составом слов и их расположением. Если считать, что положение слов в тексте не влияет на уникальность, то это будет другая концепция, отличная от концепции, основанной на шинглах. Конечное решение какой концепции доверять - дело каждого.

советую почитать здесь

это доказывает только, что у нас разные расчеты

Представляю сервис для пакетной оценки текстов на сходство между собой. Программа работает на основе шинглов. Это нужно для оценки работы рерайтеров. Можно приобрести тут себе данную программу без ограничений (но без нормализации) за $10.

Представляю сервис для пакетной оценки текстов на сходство между собой. Программа работает на основе шинглов. Это нужно для оценки работы рерайтеров. Можно приобрести тут себе данную программу без ограничений (но без нормализации) за $10.

Вот еще сервис для сравнения двух статей на схожесть на основе шинглов

И вот тут можно скачать себе (правда без нормализации, для работы нужет php и zend)

Всего: 866