TXD

Рейтинг
0
Регистрация
07.08.2006

В общем потестил тот же объём инфы с нулевой задержкой, 100 потоками и параметрами indexer.minMergeDocs=1000 и indexer.mergeFactor=1000. Получил время 45 мин. Такие вот дела.

snoopckuu, Nutch тестил впервые, поэтому все настройки использовал дефолтные. С задержкой видимо вышел прокол - по умолчанию она стоит 5 сек. Т.е. для максимальной производительности нужно ей ставить в 0?

Ну и трэд получается был 1, т.к. хост 1. А какое количество в данном случае будет оптимальным?

itman, JIT по идее был включён.

По крайней мере, команда java -version сообщает о mixed mode.

snoopckuu, Спасибо за ссылку. Попытаюсь там что-нибудь выяснить.

Довелось потестировать nutch версии 0.7.2.

Впечатление, мягко говоря, не очень.

Тестировалось следующим образом:

В локальной сети было создано 500 сайтов общим объёмом ~700Mb текстовой информации на одной машине. Сеть гигабитная. Индексация проводилась методом intranet crawling.

Тестовая машина: Sempron 2600+, 2GB RAM, IDE винт

Так вот, на индексацию такого объёма было затрачено времени ~21ч.

Хотелось бы узнать, это вообще нормальные скоростные показатели для этого движка? Может быть проблема в настройках или в том, что тестирование проводилось по виндой? Вообще интересно зависит ли скорость индексации от ОС (win и linux)?