Организация поиска по сайту

12
M
На сайте с 12.05.2005
Offline
133
2729

Надо организовать поиск по документам на сайте, нужны рекомендации по существующим поисковым системам.

Документы хранятся в БД пока мускул, в дальнейшем Oracle.

Особенности:

1. Малый объём документа (до 1К).

2. Большое количество документов (очень много, около 400К).

3. Быстрый прирост базы документов (от 300 в сутки).

4. Русский язык и морфология.

Желательно системы с умеренной стоимостью, т.к. прямого дохода от проекта не будет.

Тип проекта: агрегатор

Спасибо.

L
На сайте с 02.05.2004
Offline
35
#1

www.searchinform.com

Engine на 1 сервер вписывается в допустимые пределы. Единственно нужна винда. А по кол-ву документов без проблем держит и 100 млн

Leo www.searchinform.ru (www.searchinform.ru)
Segey
На сайте с 23.08.2005
Offline
404
#2

http://www.cn-software.com/cnsearch/

не пробовал, но вроде бы неплохо

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)
M
На сайте с 12.05.2005
Offline
133
#3

Leom, пока нужна версия под FreeBSD

Segey, возьму на заметку, спасибо. Плохо что без доступа к БД

Z
На сайте с 03.01.2004
Offline
32
#4

http://www.mnogosearch.org/

http://www.dataparksearch.org/

Оба умею индексировать прямо из БД, оба GPL. dataparksearch есть в портах FreeBSD www/dpsearch

Если действительно хотите впоследствии юзать Оракл, то тогда пробуйте mnogosearch.

M
На сайте с 12.05.2005
Offline
133
#5
Zute:
Оба умеют индексировать прямо из БД, оба GPL.

Предел мечтаний, поюзаю.

I
На сайте с 26.05.2001
Offline
64
#6

Кстати, по поводу dataparksearch. Сейчас его юзаю. В мягких выражениях: вещь довольно глючная (по мелочи, к счастью). Потом как-нибудь список глюков создателю отправлю, но если Вы не умеете держать в руках дебагер с компилятором и сорснавигатором, то можно и не справиться с установкой :-) Возможно, что максимум глюков приходится как раз на кешемоду и группировкой по сайтам.

Особенно меня поразил тот факт, что урл вида https://searchengines.guru/ (без слеша на конце), считается датапарксёрчем ошибочным. Это, собственное, не мешает ему его проиндексировать. Тем не менее группировка с другими страницами того же сайта не происходит.

Правда, надо отдать должное в кешемоде ищет довольно-таки быстро.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
filosof
На сайте с 29.10.2005
Offline
171
#7

http://w3search.info/ - бесплатная авторская

Z
На сайте с 03.01.2004
Offline
32
#8
itman:
Кстати, по поводу dataparksearch. Сейчас его юзаю. В мягких выражениях: вещь довольно глючная (по мелочи, к счастью). Потом как-нибудь список глюков создателю отправлю, но если Вы не умеете держать в руках дебагер с компилятором и сорснавигатором, то можно и не справиться с установкой :-) Возможно, что максимум глюков приходится как раз на кешемоду и группировкой по сайтам.

Хм, а вы его на какой операционке юзаете ? У меня на FreeBSD, работает стабильно. Хотя может к чему уже и привык, как к тому же слэшу в конце урла :) Ну а список глюков отправить разработчику - чуть ли не единственный способ от них избавиться в следующих версиях :d

I
На сайте с 26.05.2001
Offline
64
#9

Под Линуксом, но это, похоже, не важно.

Короче, Вы правы асболютли, просто у меня пока руки не дошли. Но большинство багов с операционкой явно не связаны :-) Так, например, датапарк не работает с mysql v 4. А потому што в mysql 4 нет еще пока ключевого слова OFFSET. Фигня, конечно, компйлер и исходник всегда под рукой :-)

Z
На сайте с 03.01.2004
Offline
32
#10
itman:
Так, например, датапарк не работает с mysql v 4. А потому што в mysql 4 нет еще пока ключевого слова OFFSET. Фигня, конечно, компйлер и исходник всегда под рукой :-)

OFFSET есть начиная с версии 4.0.6

http://dev.mysql.com/doc/refman/4.1/en/news-4-0-6.html

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий