bizhan

Рейтинг

Регистрация

02.02.2005

Должность

Студент

Новые технологии поиска документов похожих по содержанию на заданный

6 февраля 2005, 19:59

Как писал Ashmanov

Это характерный пример того, что сложная задача на первый взгляд кажется простой. Но это только кажется.

На самом деле алгоритм, Вами приведённый., работать не будет в принципе, так что и сравнивать с ним нет никакого смысла.

Удивительное рядом :)

Lucene, а вместе с ним и nutch, примерно так и делает.

И это работает. Similar

там внутри есть комментарии в самом начале, в которых и рассказан принцип.

Как писал Ashmanov

Синонимы, конечно, добавят ещё больше шума. Вы не сказали, откуда их брать, но это серьёзнейший вопрос - потому что традиционные словари синонимов не годятся.
У нас уже была дискуссия про синонимы и как они ухудшают поиск.

К слову, мы не только синонимы стараемся не использовать, но и морфологию. В очень редких случаях.

Как писал Ashmanov

В общем, поиск похожих - довольно тонкая задача.
И речь как раз нужно вести о том, чем предлагаемый Львом алгоритм поиска похожих КАРДИНАЛЬНО отличается от существующих в Яндексе и Рамблере, Гугле и прочих поисковиках.

Это и был вопрос к Лео.

Павел

Новые технологии поиска документов похожих по содержанию на заданный

5 февраля 2005, 04:53

Привет,

Как писал Leom

Так вам никто не мешает откачать EXE и протестить на своих примерах. В Trial версии которая там ограничение на 1 гиг индексируемых текстов и на поддержку форматов (там намерянно только html и txt )

Откачать, протетсить.

Лео, дай пожалуйста определние похожести документов с точки зрения твоей системы.

Вопрос два - чем ваша технология отличается от следующего:

- берем все слова исходного документа

- приводим их к нормальной форме (морфология)

- для слов из списка синонимов добавляем синонимов

- делаем из них запросв вида слово1 OR слово 2 и так далее

- выполняем его

Павел

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Все что нужно знать о DDоS-атаках грамотному менеджеру

bizhan