Удивительное рядом :)
Lucene, а вместе с ним и nutch, примерно так и делает.
И это работает. Similar
там внутри есть комментарии в самом начале, в которых и рассказан принцип.
К слову, мы не только синонимы стараемся не использовать, но и морфологию. В очень редких случаях.
Это и был вопрос к Лео.
Павел
Привет,
Откачать, протетсить.
Лео, дай пожалуйста определние похожести документов с точки зрения твоей системы.
Вопрос два - чем ваша технология отличается от следующего:
- берем все слова исходного документа
- приводим их к нормальной форме (морфология)
- для слов из списка синонимов добавляем синонимов
- делаем из них запросв вида слово1 OR слово 2 и так далее
- выполняем его