Посмотрите cache mode в DataparkSearch (http://www.dataparksearch.org/) .
Посмотрите функцию DpsStrHash32 в DataparkSearch.
Нет ничего более субъективного, чем качество поиска, т.к. нет формального определения релевантности :)
Здесь можно моного копий наломать без особой пользы...
Берите: http://www.dataparksearch.org/ - только с .exe боюсь облом будет :), только в исходниках и только под юниксы.
Искать с учётом расстояний и выводить с учётом расстояний - две большие разницы :)
DataparkSearch выводит с учётом расстояний, но не ищет.
Совершенно не прав. Морфология поддерживается, поиск по фразам с учётом морфологии тоже. Поиск фраз с учётом расстояния интересует только теоретиков поиска. :)
У DataparkSearch это в одном флаконе, так что вас поняли правильно :)
Не сказал бы, что проц здесь главное, более важны толщина канала и крутость дисковой системы.
У DataparkSearch вполне получается около 180Килобайт/с (ну или около 10Мегабайт в минуту :) с 10 нитями на PentiumIV, IDE SATA RAID1, 10Mbit в Нет.
Мне попадались упоминания об установках aspseek и в 10, и в 50 млн. документов. Aspseek использует MySQL, примерно также как dpsearch - обратный индекс хранится в файлах на диске, всё остальное в БД.
И каков объём Меты ?
Есть подозрение, что ваши представления о возможностях MySQL и PgSQL несколько устарели :)