В общем потестил тот же объём инфы с нулевой задержкой, 100 потоками и параметрами indexer.minMergeDocs=1000 и indexer.mergeFactor=1000. Получил время 45 мин. Такие вот дела.
snoopckuu, Nutch тестил впервые, поэтому все настройки использовал дефолтные. С задержкой видимо вышел прокол - по умолчанию она стоит 5 сек. Т.е. для максимальной производительности нужно ей ставить в 0?
Ну и трэд получается был 1, т.к. хост 1. А какое количество в данном случае будет оптимальным?
itman, JIT по идее был включён.
По крайней мере, команда java -version сообщает о mixed mode.
snoopckuu, Спасибо за ссылку. Попытаюсь там что-нибудь выяснить.
Довелось потестировать nutch версии 0.7.2.
Впечатление, мягко говоря, не очень.
Тестировалось следующим образом:
В локальной сети было создано 500 сайтов общим объёмом ~700Mb текстовой информации на одной машине. Сеть гигабитная. Индексация проводилась методом intranet crawling.
Тестовая машина: Sempron 2600+, 2GB RAM, IDE винт
Так вот, на индексацию такого объёма было затрачено времени ~21ч.
Хотелось бы узнать, это вообще нормальные скоростные показатели для этого движка? Может быть проблема в настройках или в том, что тестирование проводилось по виндой? Вообще интересно зависит ли скорость индексации от ОС (win и linux)?