Да, но только с 8.0 полноценно поддерживается hadoop.
Скажите, Evg, с какими конкретно багами 0.8-dev вы столкнулись, это чтобы не наступать на уже пройденные грабли.
Все очень просто. То сообщение, которое пишется в логи, прямо так и говорит: у какой-то из директорий на пути к файлу, который пытается прочитать апач (в данном случае htm какой-то), нет права на search (для апача), бит, который это право устанавливает называется search x.
Обычно, права директории выглядят так rwxr-xr-x
Почему только для гуглбота выдается, я не знаю. Это уже целенаправленная фильтрация. Если это действительно так (в чем я сомневаюсь), то обратитесь к хостеру.
Да, разумеется использование джавы - это "минус", но как поется в песне: scalability - это "плюс" :)
Что я уже могу сказать о Натче, уже сейчас имею модифицированную версию с поддержкой русского стеминга, сразу надо заметить,что с кодом приятно работать (кроме отдельных модулей). Насчет производительности - надо тестировать.
Потому что "search permissions" для директории - это именно флаг X.
Тут же все понятно написано ;) В одной из директорий по пути к странице нет "search" флага ('x') для чтения апачем.
А вот почему только для гугла... Может быть все-таки для всех?
Не скажите ;) aspseek - вообще клинический случай, заброшен уже несколько лет как. По остальным: mnogosearch - хранит все в базе, самый эфективный индекс - это в блоб-режиме (однако и это полностью SQL-режим со всеми вытекающими), dataparksearch - умеет хранить пост-листы отдельно от базы (в файлах), но тем не менее без SQL не может обойтись. Плюс ко всему, темпы развития всех вышеперечисленных поисковиков явно уступают Nutch.
Русский язык поддерживается на уровне стемминга, что не так и плохо ;)
Конкретно в случае того кода, что приведен, будет произведена подмена href на лету, в момент нажатия кнопки мыши, на гугловский редиректор.
Видимо, автор имеет в виду то, что гугл отображает снипет рекламы, который составленный для промоута этого сайта в adwords.
Иначе это было бы совсем откровенным бредом :)
Сайты белые?
Ясное дело ;) Но тему я вообще-то создал для того, чтобы собрать априорную информацию. К сожалению поисковик пока что документирован слабо...