Комментарии - TXD - Профиль вебмастера - Форум об интернет-маркетинге

8 августа 2006, 10:39

В общем потестил тот же объём инфы с нулевой задержкой, 100 потоками и параметрами indexer.minMergeDocs=1000 и indexer.mergeFactor=1000. Получил время 45 мин. Такие вот дела.

Поисковый движок Nutch

8 августа 2006, 08:27

snoopckuu, Nutch тестил впервые, поэтому все настройки использовал дефолтные. С задержкой видимо вышел прокол - по умолчанию она стоит 5 сек. Т.е. для максимальной производительности нужно ей ставить в 0?

Ну и трэд получается был 1, т.к. хост 1. А какое количество в данном случае будет оптимальным?

Поисковый движок Nutch

7 августа 2006, 16:00

itman, JIT по идее был включён.

По крайней мере, команда java -version сообщает о mixed mode.

Поисковый движок Nutch

7 августа 2006, 16:00

snoopckuu, Спасибо за ссылку. Попытаюсь там что-нибудь выяснить.

Поисковый движок Nutch

7 августа 2006, 09:05

Довелось потестировать nutch версии 0.7.2.

Впечатление, мягко говоря, не очень.

Тестировалось следующим образом:

В локальной сети было создано 500 сайтов общим объёмом ~700Mb текстовой информации на одной машине. Сеть гигабитная. Индексация проводилась методом intranet crawling.

Тестовая машина: Sempron 2600+, 2GB RAM, IDE винт

Так вот, на индексацию такого объёма было затрачено времени ~21ч.

Хотелось бы узнать, это вообще нормальные скоростные показатели для этого движка? Может быть проблема в настройках или в том, что тестирование проводилось по виндой? Вообще интересно зависит ли скорость индексации от ОС (win и linux)?

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Все что нужно знать о DDоS-атаках грамотному менеджеру

TXD