Алгоритм поиска дублей статей

WU
На сайте с 07.10.2007
Offline
169
#51
ИМХО:
Хорошая идея! Даже если поисковики используют другие технологии, эта должна давать неплохое ориентировочное ощущение качества рерайта.

А вы в расстоянии Левенштейна за единицу изменяемой величины используете букву или слово? Потому что при сравнении полного текста, при учете возможной синонимизации логичнее было бы использовать слово в качестве неделимого элемента.

За единицу я взял слово

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий