Поисковик для локальной сети

N
На сайте с 18.04.2006
Offline
0
8191

Пытался найти в интернете нечто подобное, но так ничего вразумительного и не нашел. Подскажите, какой-нибудь готовый продукт, подходящий под следующие критерии: поиск по HTTP/FTP, сканирование >25 000 фтп серверов + примерно столько же сайтов. На момент написания поста в базе старого поисковика содерджится почти 10 000 000 записей. В дальнейшем планируется увеличение базы и кол-ва запросов в день. Текущая нагрузка >15 000 запросов в день.

Попутно вопрос: потянет ли такое mnogosearch/dataparksearch при способе хранения cache, при использовании Oracle?

Заранее спасибо.

I
На сайте с 26.05.2001
Offline
64
#1

А какой, если не секрет, поисковик работает сейчас, сколько машин он занимает, и чем он не устраивает. Навскидку, можно попробовать nutch он, вроде распределенный. FTP, по идее, должен поддерживать.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
N
На сайте с 18.04.2006
Offline
0
#2

Сейчас работает только поисковик по FTP (сильно модифицированный ffsearch, если не ошибаюсь), крутится, кажется, только на одной машине, хотя, возможно, на двух: на одной сам сервер на другой база. На данный момент в его базе

Всего серверов Ftp: 426, DC++: 626, Файлов и папок: 9 129 455. Объем FTP: 22,896 Тб, DC++: 18,15 Тб.
итого, вся база, кстати, на текстовых файлах, занимает ~1 Гб Сейчас же планируется создание полноценного поисковика по всем ресурсам сети, плюс некоторые ресурсы московского региона. В общем, база обещает быть здоровой, а кол-во запросов расти.
I
На сайте с 26.05.2001
Offline
64
#3

Ну, есть подозрение, что нужно распределенное решение. На одной машине вряд ли потянет. Mnogosearch вроде сейчас может быть распределенным, но cache mode он больше не поддерживает http://mnogosearch.org/doc/msearch-cachemode.html Вместо него некий блоб-моде, прои него ничего не могу сказать по части скорости.

N
На сайте с 18.04.2006
Offline
0
#4

А что по поводу Dataparksearch? В смысле, распределенности. И баз, поддерживаемых Nutch'ем?

I
На сайте с 26.05.2001
Offline
64
#5

1) Натч не использует базу

2) Datapark не позволяет, насколько я знаю, искать распределенно.

3) Mnogosearch позволяет на уровне демона searchd собирать информацию с нескольких машин. Видимо, датапарк несложно докрутить, чтобы он делал примерно тоже самое. Но надо понимать, что при этом никакого распределенного индекса цитирования или учета дубликатов тоже не будет. Что умеет на эту тему натч, я точно не знаю.

Neolite:
А что по поводу Dataparksearch? В смысле, распределенности. И баз, поддерживаемых Nutch'ем?
N
На сайте с 18.04.2006
Offline
0
#6

То есть к нему нужно прикручивать файл с урлами DMOZ Open Directory и по всем уэтому он будет искать или он все же что-то индексирует и сам?

I
На сайте с 26.05.2001
Offline
64
#7

К нему это к натчу? Я не знаю подробностей "скармливания" ему начального списка URLs. По поводу базы: я имел в виду, что натч не использует СУБД, а данные раскладывает в файлы.

Neolite:
То есть к нему нужно прикручивать файл с урлами DMOZ Open Directory и по всем уэтому он будет искать или он все же что-то индексирует и сам?
N
На сайте с 18.04.2006
Offline
0
#8

Ммм... с многосерчем ситуация начинает постепенно проясняться... кстати, смотрю и у Яндекса есть функция метапоиска.

Z
На сайте с 03.01.2004
Offline
32
#9
itman:

2) Datapark не позволяет, насколько я знаю, искать распределенно.
3) Mnogosearch позволяет на уровне демона searchd собирать информацию с нескольких машин. Видимо, датапарк несложно докрутить, чтобы он делал примерно тоже самое. Но надо понимать, что при этом никакого распределенного индекса цитирования или учета дубликатов тоже не будет.

Датапарк не надо докручивать, он тоже самое тоже умеет.

I
На сайте с 26.05.2001
Offline
64
#10

Везде, где упоминается слово Datapark, там Zute. Может быть, что и может. Одна из недокументированных фич, заключающая в том, что, видимо, можно несколько DBAddr написать.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий