Посмотрите еще http://www.dataparksearch.org/ и http://www.mnogosearch.org/
По фичам скорее превосходят myWebsearch, плюс распространяются под GPL.
Кстати, нашел кое-что о подребностях в железе для Nutch, если кому интересно:
http://www.nutch.org/cgi-bin/twiki/view/Main/HardwareRequirements
Только вот данные по гугловому поисковику вы привели двухлетней давности. Сейчас это выглядит так:
GB-1001
The GB-1001 is a rack-mounted two-unit (2U) appliance that can be licensed to search up to 1.5 million documents at a rate of 300 queries per minute.
http://www.google.com/appliance/products.html
Некоторые поисковые движки, например, ASPSeek и DataparkSearch весь текст между <!--noindex--> и <!--/noindex--> не индексируют. Чем раньше "большие дяди" поисковики это начнут воспринимать, тем лучше - это более кошерный способ, чем невалидный тэг <noindex>
Иметь аналог robots.txt для классификации частей контента сайта по возрастному цензу - не такая уж и плохая идея :)
ASPSeek кушает, может ещё кто.
Есть ещё <!--htdig_noindex--> - только что нашёл Гуглом :)
Есть ещё вариант с <!--noindex-->...<!--/noindex-->
Но вот понимает ли это Яндекс, я не знаю, хотя вариант кошерный :)
Хм, насколько я помню, это именно ты заявил, что aspseek превосходит всех фичами. Так я слушаю, какими ?
По-моему, это религиозное заблуждение, всё прекрасно работает. Эта фича никак не связана с используемым методом хранения, ни в dpsearch, но в mnogosearch...
Например, какие настройки и чего ?
Угу, а ты попробуй на большом числе огромных сайтов с индексацией вглубь, т.е. не по 10-100 страниц с каждого, а скажем по 5-10 тыс...
А назвать эти фичи можете ?
Например, mnogosearch dpsearch умеют сортировать результаты по релевантности, дате, популярности, важности, mnogosearch еще умеет сортировать по заданой секции документа.
в mnogosearch и dpsearch можно использовать регулярные выражения для вырезания той или иной части документа (для индексации или отдельного хранения).
с помощью dpsearch можно индексировать rss фиды, чтобы уменьшить трафик по ежедневному поиску обновлений сайта.
Что такого есть в aspseek ?
Хотя память для aspseek и важна, при росте базы в один момент может перестеть работать обновление из-за нехватки этой самой памяти. На скорость больше влияет скорость винта и его загруженность, (чем больше памяти, тем лучше кэширование дисковых операций :) это же верно и для mnogosearch с dpsearch, хотя последний много чего может держать в памяти в предзагруженом состоянии, чтобы нагрузка на винт сильно не сказывалась.
Тестом для aspseek может быть поиск по слову (двум-трём :), наиболее часто встречающемуся на большинстве серверов, например, таким словом может быть слово "google" при поиске на dmoz.org.