Поисковик для локальной сети

0

Neolite

18 апреля 2006, 06:59

8227

Пытался найти в интернете нечто подобное, но так ничего вразумительного и не нашел. Подскажите, какой-нибудь готовый продукт, подходящий под следующие критерии: поиск по HTTP/FTP, сканирование >25 000 фтп серверов + примерно столько же сайтов. На момент написания поста в базе старого поисковика содерджится почти 10 000 000 записей. В дальнейшем планируется увеличение базы и кол-ва запросов в день. Текущая нагрузка >15 000 запросов в день.

Попутно вопрос: потянет ли такое mnogosearch/dataparksearch при способе хранения cache, при использовании Oracle?

Заранее спасибо.

I

64

itman

18 апреля 2006, 08:38

#1

А какой, если не секрет, поисковик работает сейчас, сколько машин он занимает, и чем он не устраивает. Навскидку, можно попробовать nutch он, вроде распределенный. FTP, по идее, должен поддерживать.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

N

0

Neolite

18 апреля 2006, 08:48

#2

Сейчас работает только поисковик по FTP (сильно модифицированный ffsearch, если не ошибаюсь), крутится, кажется, только на одной машине, хотя, возможно, на двух: на одной сам сервер на другой база. На данный момент в его базе

Всего серверов Ftp: 426, DC++: 626, Файлов и папок: 9 129 455. Объем FTP: 22,896 Тб, DC++: 18,15 Тб.

итого, вся база, кстати, на текстовых файлах, занимает ~1 Гб Сейчас же планируется создание полноценного поисковика по всем ресурсам сети, плюс некоторые ресурсы московского региона. В общем, база обещает быть здоровой, а кол-во запросов расти.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

18 апреля 2006, 08:59

#3

Ну, есть подозрение, что нужно распределенное решение. На одной машине вряд ли потянет. Mnogosearch вроде сейчас может быть распределенным, но cache mode он больше не поддерживает http://mnogosearch.org/doc/msearch-cachemode.html Вместо него некий блоб-моде, прои него ничего не могу сказать по части скорости.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

N

0

Neolite

18 апреля 2006, 09:13

#4

А что по поводу Dataparksearch? В смысле, распределенности. И баз, поддерживаемых Nutch'ем?

I

64

itman

18 апреля 2006, 09:27

#5

1) Натч не использует базу

2) Datapark не позволяет, насколько я знаю, искать распределенно.

3) Mnogosearch позволяет на уровне демона searchd собирать информацию с нескольких машин. Видимо, датапарк несложно докрутить, чтобы он делал примерно тоже самое. Но надо понимать, что при этом никакого распределенного индекса цитирования или учета дубликатов тоже не будет. Что умеет на эту тему натч, я точно не знаю.

Neolite:
А что по поводу Dataparksearch? В смысле, распределенности. И баз, поддерживаемых Nutch'ем?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

N

0

Neolite

18 апреля 2006, 09:57

#6

То есть к нему нужно прикручивать файл с урлами DMOZ Open Directory и по всем уэтому он будет искать или он все же что-то индексирует и сам?

I

64

itman

18 апреля 2006, 10:05

#7

К нему это к натчу? Я не знаю подробностей "скармливания" ему начального списка URLs. По поводу базы: я имел в виду, что натч не использует СУБД, а данные раскладывает в файлы.

Neolite:
То есть к нему нужно прикручивать файл с урлами DMOZ Open Directory и по всем уэтому он будет искать или он все же что-то индексирует и сам?

N

0

Neolite

18 апреля 2006, 13:23

#8

Ммм... с многосерчем ситуация начинает постепенно проясняться... кстати, смотрю и у Яндекса есть функция метапоиска.

Z

32

Zute

18 апреля 2006, 14:08

#9

itman:

2) Datapark не позволяет, насколько я знаю, искать распределенно.
3) Mnogosearch позволяет на уровне демона searchd собирать информацию с нескольких машин. Видимо, датапарк несложно докрутить, чтобы он делал примерно тоже самое. Но надо понимать, что при этом никакого распределенного индекса цитирования или учета дубликатов тоже не будет.

Датапарк не надо докручивать, он тоже самое тоже умеет.

I

64

itman

18 апреля 2006, 14:21

#10

Везде, где упоминается слово Datapark, там Zute. Может быть, что и может. Одна из недокументированных фич, заключающая в том, что, видимо, можно несколько DBAddr написать.

Что делать, чтобы попасть в ответы Google Bard

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов