Попробуйте яндекс-сервер, или распределенный поисковик - Поисковые технологии

Поисковик для локальной сети

Neolite · 2006-04-18T06:59:56.0000000Z

Пытался найти в интернете нечто подобное, но так ничего вразумительного и не нашел. Подскажите, какой-нибудь готовый продукт, подходящий под следующие критерии: поиск по HTTP/FTP, сканирование >25 000 фтп серверов + примерно столько же сайтов. На момент написания поста в базе старого поисковика содерджится почти 10 000 000 записей. В дальнейшем планируется увеличение базы и кол-ва запросов в день. Текущая нагрузка >15 000 запросов в день. Попутно вопрос: потянет ли такое mnogosearch/dataparksearch при способе хранения cache, при использовании Oracle? Заранее спасибо.

Z

32

Zute

18 апреля 2006, 14:32

#11

Вот же ж странно, какая тема в технологиях не всплывёт, там itman уже понаотвечал :d

I

64

itman

18 апреля 2006, 14:48

#12

Zute:
Вот же ж странно, какая тема в технологиях не всплывёт, там itman уже понаотвечал :d

Было бы странно, если бы я отвечал всегда в духе: попробуйте яндекс-сервер, или яндекс-сервер это умеет. что в документации это не написано? ну дык он все равно умеет, недокументированная фича.

PS: бренд яндекс-сервер заменить на любой по вкусу

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

Z

32

Zute

18 апреля 2006, 15:23

#13

Если вы что-то не дочитали, то это не становится недокуентированным. Перечитайте описание команды DBAddr:

Команда DBAddr является описание хранилища данных в URL-подобном стиле. ... Может быть задано несколько хранилищ данных.

I

64

itman

18 апреля 2006, 15:33

#14

если я невнимательно прочитал, то, разумеется, приношу свои извинения, но дело не в этом, а в том, что настоящее распределенное индексирование ни многосёрч, ни датапарк не дают. собственно это и хотел сказать.

N

0

Neolite

19 апреля 2006, 10:03

#15

itman:
если я невнимательно прочитал, то, разумеется, приношу свои извинения, но дело не в этом, а в том, что настоящее распределенное индексирование ни многосёрч, ни датапарк не дают. собственно это и хотел сказать.

то есть нормальная распределенная индексация не светит 😕 Проводил тесты многосерча на след. конфигурации - P4 3.0 Prescott, 1 Gb RAM, IDE HDD 7200 Maxtor 8 Mb Cache. Имеем следующие результаты:

Записей в базе: 800 000 | 2 000 000 | 2 400 000 | 2 800 000 | 3 000 000 | 3 500 000 | 6 500 000 | 9 500 000 |

Время выполнения запроса: 0.100 | 0.150 | 0.200 | 0.250 | 0.350 | 0.500 | 0.700 | 0.950 |

Это результат индексации 4 порталов общим обьемом 56 000 страниц (если правильное поле смотрел). В перспективе индексация всего адресного пространства локальной сети вида 10.*.*.* плюс все ресурсы, хостящиеся у провайдера. Может подскажете, какие имеются варианты увеличения производительности, кроме разнесения поискового интерфейса и базы на разные машины, SCSI+RAID и смены базы на Oracle?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

19 апреля 2006, 10:11

#16

Neolite:
то есть нормальная распределенная индексация не светит 😕 Проводил тесты многосерча на след. конфигурации - P4 3.0 Prescott, 1 Gb RAM, IDE HDD 7200 Maxtor 8 Mb Cache. Имеем следующие результаты:
Записей в базе: 800 000 | 2 000 000 | 2 400 000 | 2 800 000 | 3 000 000 | 3 500 000 | 6 500 000 | 9 500 000 |
Время выполнения запроса: 0.100 | 0.150 | 0.200 | 0.250 | 0.350 | 0.500 | 0.700 | 0.950 |
Это результат индексации 4 порталов общим обьемом 56 000 страниц (если правильное поле смотрел). В перспективе индексация всего адресного пространства локальной сети вида 10.*.*.* плюс все ресурсы, хостящиеся у провайдера. Может подскажете, какие имеются варианты увеличения производительности, кроме разнесения поискового интерфейса и базы на разные машины, SCSI+RAID и смены базы на Oracle?

Подождите, а записей в базе, это именно в blob-mode? А 56000 тысяч HTML-страниц? Вы в блоб-моде индексируете? По поводу перехода на оракл: есть подозрение, что все только замедлится. По поводу распределенной индексации: вроде что-то натч умеет на эту тему, НО Я НЕ ПРОВЕРЯЛ :-)

к тому же индекс цитирования может, Вам, и не нужен и вполне хватит мерджа результатов с нескольких машин. Кстати, натч (nutch) насколько я понимаю достаточно шустро работает.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

N

0

Neolite

19 апреля 2006, 12:55

#17

itman:
Подождите, а записей в базе, это именно в blob-mode? А 56000 тысяч HTML-страниц? Вы в блоб-моде индексируете? По поводу перехода на оракл: есть подозрение, что все только замедлится. По поводу распределенной индексации: вроде что-то натч умеет на эту тему, НО Я НЕ ПРОВЕРЯЛ :-)
к тому же индекс цитирования может, Вам, и не нужен и вполне хватит мерджа результатов с нескольких машин. Кстати, натч (nutch) насколько я понимаю достаточно шустро работает.

1. Это я тестил только в multi-mode. До блоба руки не дошли.

2. 56 000 - это, видимо, кол-во линков которые он обошел. Ну учитывая, что страницы генерят пхп скрипты, можно сказать что это было 56000 хтмлок =)

3. Натч попробовать можно, но только есть некоторые проблемы с полигоном для тестирования, ибо он на яве, а я с ней не очень дружу да и софт переставлять придется =)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

19 апреля 2006, 13:01

#18

Neolite:
1. Это я тестил только в multi-mode. До блоба руки не дошли.
2. 56 000 - это, видимо, кол-во линков которые он обошел. Ну учитывая, что страницы генерят пхп скрипты, можно сказать что это было 56000 хтмлок =)
3. Натч попробовать можно, но только есть некоторые проблемы с полигоном для тестирования, ибо он на яве, а я с ней не очень дружу да и софт переставлять придется =)

Про мульти-моду был тут недавно флейм на тему хорошего представления данных в базе. Просто если все разложить "по-правильному" в реляционные таблицы, то общая эффективность будет невелика. Наибольшая скорость должна быть в cache-mode и ее аналогах.

Z

32

Zute

19 апреля 2006, 19:21

#19

Так вас именно распределённая индексация интересует, или распределённый поисковик ? Распределённая индексация поддерживается и mnogosearch и dataparksearch, в смысле можно запустить краулер-индексатор на нескольких машинах и всё будет сливаться в базу на одной машине.

L

35

Leom

26 апреля 2006, 10:21

#20

http://www.searchinform.com/site/ru/index.htm

Если ищете не бесплатное, то данное решение будет для вас оптимальным

Leo www.searchinform.ru (www.searchinform.ru)

Open AI тестирует память для ChatGPT

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Поисковик для локальной сети