Neolite

Рейтинг
0
Регистрация
18.04.2006
itman:
Подождите, а записей в базе, это именно в blob-mode? А 56000 тысяч HTML-страниц? Вы в блоб-моде индексируете? По поводу перехода на оракл: есть подозрение, что все только замедлится. По поводу распределенной индексации: вроде что-то натч умеет на эту тему, НО Я НЕ ПРОВЕРЯЛ :-)
к тому же индекс цитирования может, Вам, и не нужен и вполне хватит мерджа результатов с нескольких машин. Кстати, натч (nutch) насколько я понимаю достаточно шустро работает.

1. Это я тестил только в multi-mode. До блоба руки не дошли.

2. 56 000 - это, видимо, кол-во линков которые он обошел. Ну учитывая, что страницы генерят пхп скрипты, можно сказать что это было 56000 хтмлок =)

3. Натч попробовать можно, но только есть некоторые проблемы с полигоном для тестирования, ибо он на яве, а я с ней не очень дружу да и софт переставлять придется =)

itman:
если я невнимательно прочитал, то, разумеется, приношу свои извинения, но дело не в этом, а в том, что настоящее распределенное индексирование ни многосёрч, ни датапарк не дают. собственно это и хотел сказать.

то есть нормальная распределенная индексация не светит 😕 Проводил тесты многосерча на след. конфигурации - P4 3.0 Prescott, 1 Gb RAM, IDE HDD 7200 Maxtor 8 Mb Cache. Имеем следующие результаты:

Записей в базе: 800 000 | 2 000 000 | 2 400 000 | 2 800 000 | 3 000 000 | 3 500 000 | 6 500 000 | 9 500 000 |

Время выполнения запроса: 0.100 | 0.150 | 0.200 | 0.250 | 0.350 | 0.500 | 0.700 | 0.950 |

Это результат индексации 4 порталов общим обьемом 56 000 страниц (если правильное поле смотрел). В перспективе индексация всего адресного пространства локальной сети вида 10.*.*.* плюс все ресурсы, хостящиеся у провайдера. Может подскажете, какие имеются варианты увеличения производительности, кроме разнесения поискового интерфейса и базы на разные машины, SCSI+RAID и смены базы на Oracle?

Ммм... с многосерчем ситуация начинает постепенно проясняться... кстати, смотрю и у Яндекса есть функция метапоиска.

То есть к нему нужно прикручивать файл с урлами DMOZ Open Directory и по всем уэтому он будет искать или он все же что-то индексирует и сам?

А что по поводу Dataparksearch? В смысле, распределенности. И баз, поддерживаемых Nutch'ем?

Сейчас работает только поисковик по FTP (сильно модифицированный ffsearch, если не ошибаюсь), крутится, кажется, только на одной машине, хотя, возможно, на двух: на одной сам сервер на другой база. На данный момент в его базе

Всего серверов Ftp: 426, DC++: 626, Файлов и папок: 9 129 455. Объем FTP: 22,896 Тб, DC++: 18,15 Тб.
итого, вся база, кстати, на текстовых файлах, занимает ~1 Гб Сейчас же планируется создание полноценного поисковика по всем ресурсам сети, плюс некоторые ресурсы московского региона. В общем, база обещает быть здоровой, а кол-во запросов расти.