Определение похожих текстов

Solmyr
На сайте с 10.09.2007
Offline
501
658

В общем стоит передо мной следующая задача. Имеются тексты объемом 200 - 20000 знаков. Требуется поставить в соответствие каждому тексту некий хэш, таким образом, чтобы если тексты отличаются несущественно, то есть количеством пробелов, запятыми, порядком нескольких слов или наличием нескольких слов, то хэш был бы одинаковым.

Как это можно сделать?

[Удален]
#1

попробуй с помощью http://www.php.net/similar_text

думаю что поможет, в свое время я имена пользователей при регистрации сверял, чтобы спам отбить )

Solmyr
На сайте с 10.09.2007
Offline
501
#2

Попарное сравнение делать нельзя. Слишком много текстов. Нужен именно хэш.

[Удален]
#3

Синглы юзай.

[Удален]
#4

удалено ога!

[Удален]
#5
[Удален]
#6

спасибо :)

Bor-ka
На сайте с 16.11.2004
Offline
201
#7

шинглами или супершинглом весьма просто, как сказал Miha Kuzmin (KMY)

у Яндекса на сайте есть хорошая информация - http://company.yandex.ru/articles/

Сервис полуавтоматического рерайта текста (http://topwriter.ru/)
Solmyr
На сайте с 10.09.2007
Offline
501
#8
Miha Kuzmin (KMY):
Где-нить тут: http://yandex.ru/yandsearch?text=%F8...2&yasoft=barff
Bor-ka:
шинглами или супершинглом весьма просто, как сказал Miha Kuzmin (KMY)
у Яндекса на сайте есть хорошая информация - http://company.yandex.ru/articles/

Большое спасибо!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий