Поисковый движок Nutch

1 234
M
На сайте с 02.11.2005
Offline
26
#21

Народ! А есть ли русский чтоли сапорт или инфа какая-то по этому поисковику? как его вообще поставить и т.д ? Очень интересна тема.

Evg
На сайте с 12.07.2004
Offline
128
Evg
#22

Посмотрите на этой странице;

http://lucene.apache.org/nutch/tutorial.html

Поддержка по русски нет.

libarea.ru ( https://libarea.ru/ )
E
На сайте с 27.08.2005
Offline
15
#23

А mozdex.com ожил-то ;)

TD
На сайте с 07.08.2006
Offline
0
TXD
#24

Довелось потестировать nutch версии 0.7.2.

Впечатление, мягко говоря, не очень.

Тестировалось следующим образом:

В локальной сети было создано 500 сайтов общим объёмом ~700Mb текстовой информации на одной машине. Сеть гигабитная. Индексация проводилась методом intranet crawling.

Тестовая машина: Sempron 2600+, 2GB RAM, IDE винт

Так вот, на индексацию такого объёма было затрачено времени ~21ч.

Хотелось бы узнать, это вообще нормальные скоростные показатели для этого движка? Может быть проблема в настройках или в том, что тестирование проводилось по виндой? Вообще интересно зависит ли скорость индексации от ОС (win и linux)?

I
На сайте с 26.05.2001
Offline
64
#25

То есть примерно 170 тысяч среднестатистических HTML страничек, объем чистого текста 200-400 кб. Индекс гарантировано влезает в память. Мда... тот же Яндекс-сервер, например раза в 3-4 должен быстрее индексировать. С другой стороны какой-нибудь гугль-мини такой объем чисто теоретически (с лицензионной точки зрения) не будет обрабатывать. И тот же датапарк примерно с такой же скоростью индексирует, может даже медленее. И аспсик у меня 2 гига примерно несколько дней индексировал, правда машинка был гораздо слабее: PII, 500 Mb. Но, видимо, порядок индексации по скорости тот же.

Кстати, а у Вас на Java точно был включен JIT? Вообще, с точки зрения потенциально неэкономного расхода памяти писать поисковый движок на джаве не самая удачная идея.

TXD:
Довелось потестировать nutch версии 0.7.2.
Впечатление, мягко говоря, не очень.
Тестировалось следующим образом:
В локальной сети было создано 500 сайтов общим объёмом ~700Mb текстовой информации на одной машине. Сеть гигабитная. Индексация проводилась методом intranet crawling.
Тестовая машина: Sempron 2600+, 2GB RAM, IDE винт
Так вот, на индексацию такого объёма было затрачено времени ~21ч.
Хотелось бы узнать, это вообще нормальные скоростные показатели для этого движка? Может быть проблема в настройках или в том, что тестирование проводилось по виндой? Вообще интересно зависит ли скорость индексации от ОС (win и linux)?
Приходите завтра, завтра будет! (http://itman666.livejournal.com)
snoopckuu
На сайте с 26.02.2006
Offline
34
#26
TXD:
Довелось потестировать nutch версии 0.7.2.
Впечатление, мягко говоря, не очень.
Тестировалось следующим образом:
В локальной сети было создано 500 сайтов общим объёмом ~700Mb текстовой информации на одной машине. Сеть гигабитная. Индексация проводилась методом intranet crawling.
Тестовая машина: Sempron 2600+, 2GB RAM, IDE винт
Так вот, на индексацию такого объёма было затрачено времени ~21ч.
Хотелось бы узнать, это вообще нормальные скоростные показатели для этого движка? Может быть проблема в настройках или в том, что тестирование проводилось по виндой? Вообще интересно зависит ли скорость индексации от ОС (win и linux)?

Интересный тест - точно сказать не могу под win я никогда не пытался делать этого.

На данный момент у меня стоит 3 сервера(Dual Opteron 8gb ram) под Fedora Core 4(64bit) мне удалось проиндексировать по 70 млн страниц на каждом. Cкорость индексации сказать точно не могу так как использую очень модифицированную версию nutch'а, но насколько я помню индексировалось гораздо быстрее. Nutch 0.8 я стал тестировать - он на самом деле индексирует в несколько раз медленее 0.7.2 и кушает очень много памяти.

Попробуйте задать вопрос на моём форуме http://searchengines.o0o.ru/ о open source поисковиках - там есть отдельная ветка о Nutch, я думаю там вам смогут дать более подробный ответ.

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)
TD
На сайте с 07.08.2006
Offline
0
TXD
#27

itman, JIT по идее был включён.

По крайней мере, команда java -version сообщает о mixed mode.

TD
На сайте с 07.08.2006
Offline
0
TXD
#28

snoopckuu, Спасибо за ссылку. Попытаюсь там что-нибудь выяснить.

E
На сайте с 27.08.2005
Offline
15
#29
TXD:
В локальной сети было создано 500 сайтов общим объёмом ~700Mb текстовой информации на одной машине.

"На одной машине"? А натч настраивали, чтобы он не делал принудительные задержки при обращении к одному серверу? +ограничение на число потоков индексатора на один индесируемый сервер.

snoopckuu
На сайте с 26.02.2006
Offline
34
#30

Да и сколько трэдов использовали при индексации но судя по посту Жени из адре http://searchengines.o0o.ru/showpost.php?p=90&postcount=19

Раньше пробовал ставить под Win. Скорость очень низкая по сравнению с Linux.
Ед. что могу сказать.

ОСЬ влияет на скорость

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий