+1
Просто запрещаете к индексации "дубли" на "менее важном" сайте с помощью robots.txt. Проверено - работает.
Не обязательно "иди в попу": через неделю после получения аналогичного письма один наш проект вернули в индекс. Правда, без объяснения причины бана.
Выбирайте на вкус и проф.предпочтение:
http://sphinxsearch.com/
http://mnogosearch.org/
http://dataparksearch.org
http://www.htdig.org/
http://hyperestraier.sourceforge.net/
http://risearch.org/rus/
http://lucene.apache.org/nutch/
почитать:
http://searchengines.o0o.ru/
http://www.habrahabr.ru/blog/webdev/24953.html
А jEdit (www.jedit.org) никто не пользует? Мне очень нравится, правда, это не visual editor, но очень функционален, если поставить доп. плагины.
Тогда, сорри!
Конечно, это мое ЛИЧНОЕ ИМХО :) Описал в личку
Никто с этим и не спорит. Я говорю о том, что панель может существенно экономить время по сравнению с шеллом - даже админу.
Представьте себе, я не админ :) Я - веб-разработчик (программист в смысле), но иногда приходится и шелл ковырять, и работать с панелью. Так что все выше сказанное - мое девелоперское ИМХО :) За -1 отдельный респект :)
Ага, а программисты должны писать код в "блокнотах", компилировать все из командной строки, и отлаживать все, выводя в stderr - к черту все IDE!!! :) Всегда поражали подобные высказывания.
ИМХО, нет смысла тогда использовать поисковый движок, написанный на java. У Вас есть в команде j2ee-разработчики?
Не вижу логики. Как раз Sphinx выглядит, на мой взгляд, более предпочтительным, ибо разрабатывается "нашими", имеет API для php, perl, еtс., очень быстр и может работать с большими объемами данных (по заявлениям тех, кто использовал - я не юзал, но примеры есть здесь: http://sphinxsearch.com/powered.html).
А так, конечно, очень немного информации с Вашей стороны, чтоб что-то посоветовать.
1. У Вас на j2ee что-ли проект пишется?
2. Поиск будет вестись по БД или нужен полнотекстовый по сайту?
3. Вот это читали? -
4. Вот это видели? -
http://www.dataparksearch.org/
1 млн. страниц "на страте" - может быть сразу посмотреть в сторону Яндекс.Server? (Я бы, наверное, в эту сторону глянул)
Неужели никто не работает с Мамбой?