Вопрос по Lucene

41

spk6

19 сентября 2007, 17:50

973

Здравствуйте.

Разрабатывается сайт и встала потребность в качественном поисковике, порылся в инете, перекопал море инфы - понял одно - лучше всего с поставленной задачей справится lucene и этот вариант более примлем, ибо есть кое какие заточки для этого движка во фреймвёрке, на котором пишется сайт.

Собственно сам вопрос: как можно заточить lucene для поиска по морфологическим признакам(возможно немного некорректно выразился - по другому не знаю), скажем будет ли он искать в текстах по критерию "Бобёр" слова: "Бобр", "Бобродом" , "Бобрилло" и т.д.

Конечно сам люсьен это врятли может, поэтому может к каким то ухищрениям можно придти (например выбирание корня слова из запроса и т.д.), и вообще хотелось бы узнать что об этом думают знающие люди.

Всем спасибо.

228

nickspring

19 сентября 2007, 18:07

#1

spk6, помоему lucene тяжеловат для обычного сайта... или у Вас он не обычный?

41

spk6

19 сентября 2007, 18:09

#2

Думаю что не тяжеловат, так как на старте сайта будет в районе 1млн. документов, по которым нужно будет проводить поиск, потом это количество будет расти.

E

24

Essay

19 сентября 2007, 19:57

#3

1. У Вас на j2ee что-ли проект пишется?

2. Поиск будет вестись по БД или нужен полнотекстовый по сайту?

3. Вот это читали? -

http://www.habrahabr.ru/blog/webdev/24953.html

4. Вот это видели? -

http://sphinxsearch.com/

http://mnogosearch.org/

http://www.dataparksearch.org/

http://hyperestraier.sourceforge.net/

1 млн. страниц "на страте" - может быть сразу посмотреть в сторону Яндекс.Server? (Я бы, наверное, в эту сторону глянул)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

41

spk6

20 сентября 2007, 07:40

#4

>> 1. У Вас на j2ee что-ли проект пишется?

Нет, проект пишется на php

>> 2. Поиск будет вестись по БД или нужен полнотекстовый по сайту?

Нет, поиск будет только по БД.

>> 3. Вот это читали? - http://www.habrahabr.ru/blog/webdev/24953.html

Хм, очень интересная статья, прочитал, узнал много нового, но всё же остались некоторые вопросы..

>> 4. Вот это видели? -

>> http://sphinxsearch.com/

>> http://mnogosearch.org/

>> http://www.dataparksearch.org/

>> http://hyperestraier.sourceforge.net/

Да, это всё видел, из этого всего больше нравится сфинкс, ибо довольно мощная система, и даже по некторым параметрам превосходит люсьен. Про остальные писать нет смысла...

>> 1 млн. страниц "на страте" - может быть сразу посмотреть в сторону Яндекс.Server? >> (Я бы, наверное, в эту сторону глянул)

Смотрели и в сторону Яндекс.Server - его не хочется применять так как для разрабатываемого сайта применение этой поисковой системы, мягко говоря не вписывается в общую картину проекта... Поэтому, как я считаю самое адекватное решение - это люсьен.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

E

24

Essay

20 сентября 2007, 12:35

#5

spk6:
Нет, проект пишется на php.

ИМХО, нет смысла тогда использовать поисковый движок, написанный на java. У Вас есть в команде j2ee-разработчики?

spk6:
Поэтому, как я считаю самое адекватное решение - это люсьен.

Не вижу логики. Как раз Sphinx выглядит, на мой взгляд, более предпочтительным, ибо разрабатывается "нашими", имеет API для php, perl, еtс., очень быстр и может работать с большими объемами данных (по заявлениям тех, кто использовал - я не юзал, но примеры есть здесь: http://sphinxsearch.com/powered.html).

А так, конечно, очень немного информации с Вашей стороны, чтоб что-то посоветовать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах