Поисковик для локальной сети

Z
На сайте с 03.01.2004
Offline
32
#11

Вот же ж странно, какая тема в технологиях не всплывёт, там itman уже понаотвечал :d

I
На сайте с 26.05.2001
Offline
64
#12
Zute:
Вот же ж странно, какая тема в технологиях не всплывёт, там itman уже понаотвечал :d

Было бы странно, если бы я отвечал всегда в духе: попробуйте яндекс-сервер, или яндекс-сервер это умеет. что в документации это не написано? ну дык он все равно умеет, недокументированная фича.

PS: бренд яндекс-сервер заменить на любой по вкусу

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
Z
На сайте с 03.01.2004
Offline
32
#13

Если вы что-то не дочитали, то это не становится недокуентированным. Перечитайте описание команды DBAddr:


Команда DBAddr является описание хранилища данных в URL-подобном стиле. ... Может быть задано несколько хранилищ данных.
I
На сайте с 26.05.2001
Offline
64
#14

если я невнимательно прочитал, то, разумеется, приношу свои извинения, но дело не в этом, а в том, что настоящее распределенное индексирование ни многосёрч, ни датапарк не дают. собственно это и хотел сказать.

N
На сайте с 18.04.2006
Offline
0
#15
itman:
если я невнимательно прочитал, то, разумеется, приношу свои извинения, но дело не в этом, а в том, что настоящее распределенное индексирование ни многосёрч, ни датапарк не дают. собственно это и хотел сказать.

то есть нормальная распределенная индексация не светит 😕 Проводил тесты многосерча на след. конфигурации - P4 3.0 Prescott, 1 Gb RAM, IDE HDD 7200 Maxtor 8 Mb Cache. Имеем следующие результаты:

Записей в базе: 800 000 | 2 000 000 | 2 400 000 | 2 800 000 | 3 000 000 | 3 500 000 | 6 500 000 | 9 500 000 |

Время выполнения запроса: 0.100 | 0.150 | 0.200 | 0.250 | 0.350 | 0.500 | 0.700 | 0.950 |

Это результат индексации 4 порталов общим обьемом 56 000 страниц (если правильное поле смотрел). В перспективе индексация всего адресного пространства локальной сети вида 10.*.*.* плюс все ресурсы, хостящиеся у провайдера. Может подскажете, какие имеются варианты увеличения производительности, кроме разнесения поискового интерфейса и базы на разные машины, SCSI+RAID и смены базы на Oracle?

I
На сайте с 26.05.2001
Offline
64
#16
Neolite:
то есть нормальная распределенная индексация не светит 😕 Проводил тесты многосерча на след. конфигурации - P4 3.0 Prescott, 1 Gb RAM, IDE HDD 7200 Maxtor 8 Mb Cache. Имеем следующие результаты:
Записей в базе: 800 000 | 2 000 000 | 2 400 000 | 2 800 000 | 3 000 000 | 3 500 000 | 6 500 000 | 9 500 000 |
Время выполнения запроса: 0.100 | 0.150 | 0.200 | 0.250 | 0.350 | 0.500 | 0.700 | 0.950 |
Это результат индексации 4 порталов общим обьемом 56 000 страниц (если правильное поле смотрел). В перспективе индексация всего адресного пространства локальной сети вида 10.*.*.* плюс все ресурсы, хостящиеся у провайдера. Может подскажете, какие имеются варианты увеличения производительности, кроме разнесения поискового интерфейса и базы на разные машины, SCSI+RAID и смены базы на Oracle?

Подождите, а записей в базе, это именно в blob-mode? А 56000 тысяч HTML-страниц? Вы в блоб-моде индексируете? По поводу перехода на оракл: есть подозрение, что все только замедлится. По поводу распределенной индексации: вроде что-то натч умеет на эту тему, НО Я НЕ ПРОВЕРЯЛ :-)

к тому же индекс цитирования может, Вам, и не нужен и вполне хватит мерджа результатов с нескольких машин. Кстати, натч (nutch) насколько я понимаю достаточно шустро работает.

N
На сайте с 18.04.2006
Offline
0
#17
itman:
Подождите, а записей в базе, это именно в blob-mode? А 56000 тысяч HTML-страниц? Вы в блоб-моде индексируете? По поводу перехода на оракл: есть подозрение, что все только замедлится. По поводу распределенной индексации: вроде что-то натч умеет на эту тему, НО Я НЕ ПРОВЕРЯЛ :-)
к тому же индекс цитирования может, Вам, и не нужен и вполне хватит мерджа результатов с нескольких машин. Кстати, натч (nutch) насколько я понимаю достаточно шустро работает.

1. Это я тестил только в multi-mode. До блоба руки не дошли.

2. 56 000 - это, видимо, кол-во линков которые он обошел. Ну учитывая, что страницы генерят пхп скрипты, можно сказать что это было 56000 хтмлок =)

3. Натч попробовать можно, но только есть некоторые проблемы с полигоном для тестирования, ибо он на яве, а я с ней не очень дружу да и софт переставлять придется =)

I
На сайте с 26.05.2001
Offline
64
#18
Neolite:
1. Это я тестил только в multi-mode. До блоба руки не дошли.
2. 56 000 - это, видимо, кол-во линков которые он обошел. Ну учитывая, что страницы генерят пхп скрипты, можно сказать что это было 56000 хтмлок =)
3. Натч попробовать можно, но только есть некоторые проблемы с полигоном для тестирования, ибо он на яве, а я с ней не очень дружу да и софт переставлять придется =)

Про мульти-моду был тут недавно флейм на тему хорошего представления данных в базе. Просто если все разложить "по-правильному" в реляционные таблицы, то общая эффективность будет невелика. Наибольшая скорость должна быть в cache-mode и ее аналогах.

Z
На сайте с 03.01.2004
Offline
32
#19

Так вас именно распределённая индексация интересует, или распределённый поисковик ? Распределённая индексация поддерживается и mnogosearch и dataparksearch, в смысле можно запустить краулер-индексатор на нескольких машинах и всё будет сливаться в базу на одной машине.

L
На сайте с 02.05.2004
Offline
35
#20

http://www.searchinform.com/site/ru/index.htm

Если ищете не бесплатное, то данное решение будет для вас оптимальным

Leo www.searchinform.ru (www.searchinform.ru)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий