Поисковый движок Nutch

123 4
I
На сайте с 26.05.2001
Offline
64
#11

вот-вот, все-таки единственный scalable. поэтому было бы очень интересно узнать результаты по производительности: как по скорости индексации, так и по скорости поиска.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
Evg
На сайте с 12.07.2004
Offline
128
Evg
#12

ИМХО, будущая версия 8.0 на данный момент, очень сырая. Исправляются множества багов, и ближайшее время не советую ее использовать.

Версия 7.2 более менее оптимальная для экспеременов. В ближайшее время стемминга для этой версии будет выложен.

(если кому надо срочно, могу скинуть, стучитесь в ПМ)

Однако на данный момент Adre работает именно с морфологическим словарем, ест. купленным. Поиск расположен на 3 серверах.

libarea.ru ( https://libarea.ru/ )
E
На сайте с 27.08.2005
Offline
15
#13

Да, но только с 8.0 полноценно поддерживается hadoop.

Скажите, Evg, с какими конкретно багами 0.8-dev вы столкнулись, это чтобы не наступать на уже пройденные грабли.

Evg
На сайте с 12.07.2004
Offline
128
Evg
#14

Вы знаете, багов там так много, что перечислять их тут не представляется возможным :(

Посмотрите: http://www.nabble.com/Nutch-f362.html

Вот, реализация stemmer - а для 7.2 (русский).

Вот где можно его скачать:

http://adre.ru/src.tar

Я постил его на западе, но ссылку к сожалению уже не помню.

Вот еще информация:

http://wiki.media-style.com/display/nutchDocu/setup+a+map+reduce+multi+box+system

http://wiki.media-style.com/display/nutchDocu/setup+multiple+search+sever

http://issues.apache.org/jira/browse/NUTCH

Pike
На сайте с 13.07.2004
Offline
79
#15

А где многоуважаемые господа берут 0.8 версию? Вроде последняя доступная 0.72? Или не там смотрю?

free hosting (http://rahost.com)
E
На сайте с 27.08.2005
Offline
15
#16
Pike:
А где многоуважаемые господа берут 0.8 версию? Вроде последняя доступная 0.72? Или не там смотрю?

Из SVN. Кроме того у них есть nightly-build.

Pike
На сайте с 13.07.2004
Offline
79
#17

Спасибо, Eugen, я пошарил и нашел nightly. Почему-то его нет в Австралийском зеркале :/

E
На сайте с 27.08.2005
Offline
15
#18

Кстати, Evg, вы часом не один из команды адре? ;) Впрочем, если нет, то все-равно в предмете разбираетесь.

Позвольте задать вам несколько вопросов ;)

1. Как лучше решать задачу повторного кравлинга страниц? Т.е. если 1контент обновился?

2. Горячая подмена индекса - как правильнее?

Это все для того, чтобы максимально автоматизировать работу паука, т.к. изначально все команды запускаются ручками.

S1
На сайте с 11.04.2006
Offline
1
#19

В целом этот Nutch штука интересная. А можно както решить проблему с кодировкой? Русский-то не отображается.

Evg
На сайте с 12.07.2004
Offline
128
Evg
#20

Стучитесь в личку - постараюсь помочь.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий