Вопрос по Lucene

spk6
На сайте с 19.09.2007
Offline
41
948

Здравствуйте.

Разрабатывается сайт и встала потребность в качественном поисковике, порылся в инете, перекопал море инфы - понял одно - лучше всего с поставленной задачей справится lucene и этот вариант более примлем, ибо есть кое какие заточки для этого движка во фреймвёрке, на котором пишется сайт.

Собственно сам вопрос: как можно заточить lucene для поиска по морфологическим признакам(возможно немного некорректно выразился - по другому не знаю), скажем будет ли он искать в текстах по критерию "Бобёр" слова: "Бобр", "Бобродом" , "Бобрилло" и т.д.

Конечно сам люсьен это врятли может, поэтому может к каким то ухищрениям можно придти (например выбирание корня слова из запроса и т.д.), и вообще хотелось бы узнать что об этом думают знающие люди.

Всем спасибо.

nickspring
На сайте с 29.03.2006
Offline
228
#1

spk6, помоему lucene тяжеловат для обычного сайта... или у Вас он не обычный?

spk6
На сайте с 19.09.2007
Offline
41
#2

Думаю что не тяжеловат, так как на старте сайта будет в районе 1млн. документов, по которым нужно будет проводить поиск, потом это количество будет расти.

E
На сайте с 14.09.2007
Offline
24
#3

1. У Вас на j2ee что-ли проект пишется?

2. Поиск будет вестись по БД или нужен полнотекстовый по сайту?

3. Вот это читали? -

http://www.habrahabr.ru/blog/webdev/24953.html

4. Вот это видели? -

http://sphinxsearch.com/

http://mnogosearch.org/

http://www.dataparksearch.org/

http://hyperestraier.sourceforge.net/

1 млн. страниц "на страте" - может быть сразу посмотреть в сторону Яндекс.Server? (Я бы, наверное, в эту сторону глянул)

spk6
На сайте с 19.09.2007
Offline
41
#4

>> 1. У Вас на j2ee что-ли проект пишется?

Нет, проект пишется на php

>> 2. Поиск будет вестись по БД или нужен полнотекстовый по сайту?

Нет, поиск будет только по БД.

>> 3. Вот это читали? - http://www.habrahabr.ru/blog/webdev/24953.html

Хм, очень интересная статья, прочитал, узнал много нового, но всё же остались некоторые вопросы..

>> 4. Вот это видели? -

>> http://sphinxsearch.com/

>> http://mnogosearch.org/

>> http://www.dataparksearch.org/

>> http://hyperestraier.sourceforge.net/

Да, это всё видел, из этого всего больше нравится сфинкс, ибо довольно мощная система, и даже по некторым параметрам превосходит люсьен. Про остальные писать нет смысла...

>> 1 млн. страниц "на страте" - может быть сразу посмотреть в сторону Яндекс.Server? >> (Я бы, наверное, в эту сторону глянул)

Смотрели и в сторону Яндекс.Server - его не хочется применять так как для разрабатываемого сайта применение этой поисковой системы, мягко говоря не вписывается в общую картину проекта... Поэтому, как я считаю самое адекватное решение - это люсьен.

E
На сайте с 14.09.2007
Offline
24
#5
spk6:
Нет, проект пишется на php.

ИМХО, нет смысла тогда использовать поисковый движок, написанный на java. У Вас есть в команде j2ee-разработчики?

spk6:
Поэтому, как я считаю самое адекватное решение - это люсьен.

Не вижу логики. Как раз Sphinx выглядит, на мой взгляд, более предпочтительным, ибо разрабатывается "нашими", имеет API для php, perl, еtс., очень быстр и может работать с большими объемами данных (по заявлениям тех, кто использовал - я не юзал, но примеры есть здесь: http://sphinxsearch.com/powered.html).

А так, конечно, очень немного информации с Вашей стороны, чтоб что-то посоветовать.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий