Выявление "нечетких" дублей.

NL
На сайте с 29.01.2003
Offline
212
1707

Посоветуйте, пожалуйста, человеку, далекому от SE методик, литературу, которая бы проливала свет на вышеназванную проблему. Интересует решение, которое возможно дает не лучшие результаты, но предполагает относительно простую реализацию. Заинтересовался подобной задачей в связи с желанием написать антиспаммерский плагинчик для The Bat`а. Очень хочется различать такие вот текстА:

"Электрронная рекклама для Вас!"

и

"Электроннная рееклама для Вас!"

Буду благодарен за ссылки и мнения.

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#1

попробуй "вектора" сравнивать ...

NL
На сайте с 29.01.2003
Offline
212
#2

О каких "векторах" речь?

spark
На сайте с 24.01.2001
Offline
130
#3

Вот тут можно почитать вкратце

http://www.spamtest.ru/varticles.html?id=0032

VT
На сайте с 27.01.2001
Offline
130
#4
Интересует решение, которое возможно дает не лучшие результаты, но предполагает относительно простую реализацию.

Используются так называемые шинглы (shingles) - непрерывные последовательности определенной длины, из которых строится сигнатура документов. Подробнее здесь.

Буду благодарен за ссылки и мнения.

Яндекс делает это так и так. ;)

Список литературы прилагается.

NL
На сайте с 29.01.2003
Offline
212
#5

Большое спасибо за ссылки!

Прошел читать.

Pavlus
На сайте с 26.01.2004
Offline
121
#6

Такой плагинчик уже есть

NL
На сайте с 29.01.2003
Offline
212
#7

Таких плагинчиков уже много есть. Более того The Bat! CP API только для таких плагинчиков и для макросов и задумывались. :p

NL
На сайте с 29.01.2003
Offline
212
#8

spark, Vyacheslav Tikhonov, еще раз большое спасибо за ссылки! Плагинчик себе написал. На этой и на следующей неделе буду гонять его, пока вроде бы ловит что надо, а что не надо - не ловит.

Back Door Man
На сайте с 20.08.2003
Offline
151
#9

NULL, вы же сами в Курилке посоветовали отличный плагин к Бату.

Чем он вас теперь не устроил?

Дмитрий
NL
На сайте с 29.01.2003
Offline
212
#10

В курилке я писал:

... если Вы пользуетесь Мышкой, взгляните на антиспамерский плагинчик BayesIt!
Некоторым моим знакомым нравится, как он отсекает спам.

И это правда - у некоторых моих знакомых он отлично работает! Другое дело, что он у меня не заработал ...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий