Поисковый движок Nutch

123 4
E
На сайте с 27.08.2005
Offline
15
8401

Кто-нибудь вплотную сталкивался с Nutch ? В последней версии (0.8) это серьозная разработка, обладающая хорошей масштабируемостью благодаря библиотеке hadoop, реализующей параллельные вычисления MapReduce (идеология, предложенная Google). Кроме того, в отличие от большинства известных мне open source поисковиков (mnogosearch, dataparksearch, aspseek), проект развивается, а также не использует SQL базу для хранения индекса.

На форуме встречаются лишь упоминания о нем, без конкретики. Хотелось бы узнать, насколько он эффективен, какие подводные камни?

[Удален]
#1

Seventh Son, подем темы?

Eugen, это изобретение велосипеда. Еще 2-4 месяца, этот механизм сгинет в лету.

E
На сайте с 27.08.2005
Offline
15
#2

А если аргументировано? ;)

Основная проблема всех поисковых движков с открытым кодом в том, что они не умеют нормально масштабироваться в кластер.

Кроме того, надо,отметить, что заявленная производительность впечатляет. К сожалению, еще не успел протестировать поисковик лично.

Из примеров - www.adre.ru

[Удален]
#3

Протестируйте на 100 Гигах, вопросы отпадут.

E
На сайте с 27.08.2005
Offline
15
#4
Noga:
Протестируйте на 100 Гигах, вопросы отпадут.

Это проверенные данные или предположение?

[Удален]
#5

Это предложение обкатать движок на Вашем серваке, чтобы понять особенности.

Велосипеды, знаете ли, надо обкатывать.

E
На сайте с 27.08.2005
Offline
15
#6

Ясное дело ;) Но тему я вообще-то создал для того, чтобы собрать априорную информацию. К сожалению поисковик пока что документирован слабо...

M
На сайте с 29.03.2003
Offline
65
#7
Eugen:
Кроме того, в отличие от большинства известных мне open source поисковиков (mnogosearch, dataparksearch, aspseek), проект развивается, а также не использует SQL базу для хранения индекса.

Слабо они вам известны, вы угадали только с aspseek, скорее всего случайно :)

Eugen:

На форуме встречаются лишь упоминания о нем, без конкретики. Хотелось бы узнать, насколько он эффективен, какие подводные камни?

Нет русской морфологии. Adre заявляет, что сами её прикрутили к Nutch, но... они открыты пока только на словах своих пресс-релизов, ссылок на морде, по которым можно скажать исходники их поисковика с русской морфологией и саму посиковую базу (если я правильно понял, они обещали и базу всем открыть) - таких ссылок нет, может пока :)

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)
E
На сайте с 27.08.2005
Offline
15
#8
Maxime:
Слабо они вам известны, вы угадали только с aspseek, скорее всего случайно :)

Не скажите ;) aspseek - вообще клинический случай, заброшен уже несколько лет как. По остальным: mnogosearch - хранит все в базе, самый эфективный индекс - это в блоб-режиме (однако и это полностью SQL-режим со всеми вытекающими), dataparksearch - умеет хранить пост-листы отдельно от базы (в файлах), но тем не менее без SQL не может обойтись. Плюс ко всему, темпы развития всех вышеперечисленных поисковиков явно уступают Nutch.

Maxime:
Нет русской морфологии. Adre заявляет, что сами её прикрутили к Nutch, но... они открыты пока только на словах своих пресс-релизов, ссылок на морде, по которым можно скажать исходники их поисковика с русской морфологией и саму посиковую базу (если я правильно понял, они обещали и базу всем открыть) - таких ссылок нет, может пока :)

Русский язык поддерживается на уровне стемминга, что не так и плохо ;)

I
На сайте с 26.05.2001
Offline
64
#9

Я лично, например, не понимаю, какие последствия вытекают из SQL. Дело не в SQL, а в архитектуре. На самом деле и SQL можно использовать весьма эффективно.

Зато мне вполне понятно какие последствия могут вытекать из того, что натч написан на джаве. А это, как минимум, значительное проседание производительности в момент гарбедж коллекшена. Плюс надо обязательно тьюнить джава-машину по части расхода памяти (чтобы она не захватывала слишком много памяти), а возможно что-то еще.

Вот, например, mozdex.com использует натч, но он как я на него не зайду практически перманентно лежит, или отваливается на поиске, или на морде висит сообщение, что индекс на профилактике. Совпадение? Кто знает.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
E
На сайте с 27.08.2005
Offline
15
#10

Да, разумеется использование джавы - это "минус", но как поется в песне: scalability - это "плюс" :)

Что я уже могу сказать о Натче, уже сейчас имею модифицированную версию с поддержкой русского стеминга, сразу надо заметить,что с кодом приятно работать (кроме отдельных модулей). Насчет производительности - надо тестировать.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий