Поисковый движок Nutch

15

Eugen

8 мая 2006, 18:53

8401

Кто-нибудь вплотную сталкивался с Nutch ? В последней версии (0.8) это серьозная разработка, обладающая хорошей масштабируемостью благодаря библиотеке hadoop, реализующей параллельные вычисления MapReduce (идеология, предложенная Google). Кроме того, в отличие от большинства известных мне open source поисковиков (mnogosearch, dataparksearch, aspseek), проект развивается, а также не использует SQL базу для хранения индекса.

На форуме встречаются лишь упоминания о нем, без конкретики. Хотелось бы узнать, насколько он эффективен, какие подводные камни?

Eugen's blog (http://www.kochuev.com/)

[Удален]

8 мая 2006, 19:06

#1

Seventh Son, подем темы?

Eugen, это изобретение велосипеда. Еще 2-4 месяца, этот механизм сгинет в лету.

E

15

Eugen

8 мая 2006, 19:18

#2

А если аргументировано? ;)

Основная проблема всех поисковых движков с открытым кодом в том, что они не умеют нормально масштабироваться в кластер.

Кроме того, надо,отметить, что заявленная производительность впечатляет. К сожалению, еще не успел протестировать поисковик лично.

Из примеров - www.adre.ru

[Удален]

8 мая 2006, 19:22

#3

Протестируйте на 100 Гигах, вопросы отпадут.

E

15

Eugen

8 мая 2006, 19:24

#4

Noga:
Протестируйте на 100 Гигах, вопросы отпадут.

Это проверенные данные или предположение?

[Удален]

8 мая 2006, 19:27

#5

Это предложение обкатать движок на Вашем серваке, чтобы понять особенности.

Велосипеды, знаете ли, надо обкатывать.

E

15

Eugen

8 мая 2006, 19:32

#6

Ясное дело ;) Но тему я вообще-то создал для того, чтобы собрать априорную информацию. К сожалению поисковик пока что документирован слабо...

M

65

Maxime

9 мая 2006, 13:14

#7

Eugen:
Кроме того, в отличие от большинства известных мне open source поисковиков (mnogosearch, dataparksearch, aspseek), проект развивается, а также не использует SQL базу для хранения индекса.

Слабо они вам известны, вы угадали только с aspseek, скорее всего случайно :)

Eugen:

На форуме встречаются лишь упоминания о нем, без конкретики. Хотелось бы узнать, насколько он эффективен, какие подводные камни?

Нет русской морфологии. Adre заявляет, что сами её прикрутили к Nutch, но... они открыты пока только на словах своих пресс-релизов, ссылок на морде, по которым можно скажать исходники их поисковика с русской морфологией и саму посиковую базу (если я правильно понял, они обещали и базу всем открыть) - таких ссылок нет, может пока :)

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

E

15

Eugen

9 мая 2006, 19:32

#8

Maxime:
Слабо они вам известны, вы угадали только с aspseek, скорее всего случайно :)

Не скажите ;) aspseek - вообще клинический случай, заброшен уже несколько лет как. По остальным: mnogosearch - хранит все в базе, самый эфективный индекс - это в блоб-режиме (однако и это полностью SQL-режим со всеми вытекающими), dataparksearch - умеет хранить пост-листы отдельно от базы (в файлах), но тем не менее без SQL не может обойтись. Плюс ко всему, темпы развития всех вышеперечисленных поисковиков явно уступают Nutch.

Maxime:
Нет русской морфологии. Adre заявляет, что сами её прикрутили к Nutch, но... они открыты пока только на словах своих пресс-релизов, ссылок на морде, по которым можно скажать исходники их поисковика с русской морфологией и саму посиковую базу (если я правильно понял, они обещали и базу всем открыть) - таких ссылок нет, может пока :)

Русский язык поддерживается на уровне стемминга, что не так и плохо ;)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол UXUkraine 2011: доклад Дэйва

I

64

itman

10 мая 2006, 07:52

#9

Я лично, например, не понимаю, какие последствия вытекают из SQL. Дело не в SQL, а в архитектуре. На самом деле и SQL можно использовать весьма эффективно.

Зато мне вполне понятно какие последствия могут вытекать из того, что натч написан на джаве. А это, как минимум, значительное проседание производительности в момент гарбедж коллекшена. Плюс надо обязательно тьюнить джава-машину по части расхода памяти (чтобы она не захватывала слишком много памяти), а возможно что-то еще.

Вот, например, mozdex.com использует натч, но он как я на него не зайду практически перманентно лежит, или отваливается на поиске, или на морде висит сообщение, что индекс на профилактике. Совпадение? Кто знает.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

E

15

Eugen

10 мая 2006, 20:01

#10

Да, разумеется использование джавы - это "минус", но как поется в песне: scalability - это "плюс" :)

Что я уже могу сказать о Натче, уже сейчас имею модифицированную версию с поддержкой русского стеминга, сразу надо заметить,что с кодом приятно работать (кроме отдельных модулей). Насчет производительности - надо тестировать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что делать, чтобы попасть в ответы Google Bard

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи