bizhan

Рейтинг
0
Регистрация
02.02.2005
Должность
Студент
Как писал Ashmanov

Это характерный пример того, что сложная задача на первый взгляд кажется простой. Но это только кажется.

На самом деле алгоритм, Вами приведённый., работать не будет в принципе, так что и сравнивать с ним нет никакого смысла.

Удивительное рядом :)

Lucene, а вместе с ним и nutch, примерно так и делает.

И это работает. Similar

там внутри есть комментарии в самом начале, в которых и рассказан принцип.

Как писал Ashmanov


Синонимы, конечно, добавят ещё больше шума. Вы не сказали, откуда их брать, но это серьёзнейший вопрос - потому что традиционные словари синонимов не годятся.
У нас уже была дискуссия про синонимы и как они ухудшают поиск.

К слову, мы не только синонимы стараемся не использовать, но и морфологию. В очень редких случаях.

Как писал Ashmanov


В общем, поиск похожих - довольно тонкая задача.
И речь как раз нужно вести о том, чем предлагаемый Львом алгоритм поиска похожих КАРДИНАЛЬНО отличается от существующих в Яндексе и Рамблере, Гугле и прочих поисковиках.

Это и был вопрос к Лео.

Павел

Привет,

Как писал Leom

Так вам никто не мешает откачать EXE и протестить на своих примерах. В Trial версии которая там ограничение на 1 гиг индексируемых текстов и на поддержку форматов (там намерянно только html и txt )

Откачать, протетсить.

Лео, дай пожалуйста определние похожести документов с точки зрения твоей системы.

Вопрос два - чем ваша технология отличается от следующего:

- берем все слова исходного документа

- приводим их к нормальной форме (морфология)

- для слов из списка синонимов добавляем синонимов

- делаем из них запросв вида слово1 OR слово 2 и так далее

- выполняем его

Павел