1. Это я тестил только в multi-mode. До блоба руки не дошли.
2. 56 000 - это, видимо, кол-во линков которые он обошел. Ну учитывая, что страницы генерят пхп скрипты, можно сказать что это было 56000 хтмлок =)
3. Натч попробовать можно, но только есть некоторые проблемы с полигоном для тестирования, ибо он на яве, а я с ней не очень дружу да и софт переставлять придется =)
то есть нормальная распределенная индексация не светит 😕 Проводил тесты многосерча на след. конфигурации - P4 3.0 Prescott, 1 Gb RAM, IDE HDD 7200 Maxtor 8 Mb Cache. Имеем следующие результаты:
Записей в базе: 800 000 | 2 000 000 | 2 400 000 | 2 800 000 | 3 000 000 | 3 500 000 | 6 500 000 | 9 500 000 |
Время выполнения запроса: 0.100 | 0.150 | 0.200 | 0.250 | 0.350 | 0.500 | 0.700 | 0.950 |
Это результат индексации 4 порталов общим обьемом 56 000 страниц (если правильное поле смотрел). В перспективе индексация всего адресного пространства локальной сети вида 10.*.*.* плюс все ресурсы, хостящиеся у провайдера. Может подскажете, какие имеются варианты увеличения производительности, кроме разнесения поискового интерфейса и базы на разные машины, SCSI+RAID и смены базы на Oracle?
Ммм... с многосерчем ситуация начинает постепенно проясняться... кстати, смотрю и у Яндекса есть функция метапоиска.
То есть к нему нужно прикручивать файл с урлами DMOZ Open Directory и по всем уэтому он будет искать или он все же что-то индексирует и сам?
А что по поводу Dataparksearch? В смысле, распределенности. И баз, поддерживаемых Nutch'ем?
Сейчас работает только поисковик по FTP (сильно модифицированный ffsearch, если не ошибаюсь), крутится, кажется, только на одной машине, хотя, возможно, на двух: на одной сам сервер на другой база. На данный момент в его базе