- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте.
Разрабатывается сайт и встала потребность в качественном поисковике, порылся в инете, перекопал море инфы - понял одно - лучше всего с поставленной задачей справится lucene и этот вариант более примлем, ибо есть кое какие заточки для этого движка во фреймвёрке, на котором пишется сайт.
Собственно сам вопрос: как можно заточить lucene для поиска по морфологическим признакам(возможно немного некорректно выразился - по другому не знаю), скажем будет ли он искать в текстах по критерию "Бобёр" слова: "Бобр", "Бобродом" , "Бобрилло" и т.д.
Конечно сам люсьен это врятли может, поэтому может к каким то ухищрениям можно придти (например выбирание корня слова из запроса и т.д.), и вообще хотелось бы узнать что об этом думают знающие люди.
Всем спасибо.
spk6, помоему lucene тяжеловат для обычного сайта... или у Вас он не обычный?
Думаю что не тяжеловат, так как на старте сайта будет в районе 1млн. документов, по которым нужно будет проводить поиск, потом это количество будет расти.
1. У Вас на j2ee что-ли проект пишется?
2. Поиск будет вестись по БД или нужен полнотекстовый по сайту?
3. Вот это читали? -
http://www.habrahabr.ru/blog/webdev/24953.html
4. Вот это видели? -
http://sphinxsearch.com/
http://mnogosearch.org/
http://www.dataparksearch.org/
http://hyperestraier.sourceforge.net/
1 млн. страниц "на страте" - может быть сразу посмотреть в сторону Яндекс.Server? (Я бы, наверное, в эту сторону глянул)
>> 1. У Вас на j2ee что-ли проект пишется?
Нет, проект пишется на php
>> 2. Поиск будет вестись по БД или нужен полнотекстовый по сайту?
Нет, поиск будет только по БД.
>> 3. Вот это читали? - http://www.habrahabr.ru/blog/webdev/24953.html
Хм, очень интересная статья, прочитал, узнал много нового, но всё же остались некоторые вопросы..
>> 4. Вот это видели? -
>> http://sphinxsearch.com/
>> http://mnogosearch.org/
>> http://www.dataparksearch.org/
>> http://hyperestraier.sourceforge.net/
Да, это всё видел, из этого всего больше нравится сфинкс, ибо довольно мощная система, и даже по некторым параметрам превосходит люсьен. Про остальные писать нет смысла...
>> 1 млн. страниц "на страте" - может быть сразу посмотреть в сторону Яндекс.Server? >> (Я бы, наверное, в эту сторону глянул)
Смотрели и в сторону Яндекс.Server - его не хочется применять так как для разрабатываемого сайта применение этой поисковой системы, мягко говоря не вписывается в общую картину проекта... Поэтому, как я считаю самое адекватное решение - это люсьен.
Нет, проект пишется на php.
ИМХО, нет смысла тогда использовать поисковый движок, написанный на java. У Вас есть в команде j2ee-разработчики?
Поэтому, как я считаю самое адекватное решение - это люсьен.
Не вижу логики. Как раз Sphinx выглядит, на мой взгляд, более предпочтительным, ибо разрабатывается "нашими", имеет API для php, perl, еtс., очень быстр и может работать с большими объемами данных (по заявлениям тех, кто использовал - я не юзал, но примеры есть здесь: http://sphinxsearch.com/powered.html).
А так, конечно, очень немного информации с Вашей стороны, чтоб что-то посоветовать.