Вячеслав, спасибо за ссылку. Там я был (туда меня послалали уже посту на пятом), но мне это мало помогло - материалы весьма (для меня) разбросаны и нет какой-то чёткой и понятной структуры...
Пока не время не торопит, ищу что-нибудь поструктурированее... Не найду, полезу туда разбираться, но может что таки есть? =)
Вячеслав, Вы, наверное, хотели сказать "поисковиков на СУБД общего назначения, в частности SQL БД"? Или имелся ввиду поисковик на любой базе данных??
А про железо ничего при этом не говорят? =)
Nutch на джаве же написан... Ничего не имею против этого языка, но, по-моему, в данной "отрасли" (поиск), это не лучший выбор (из-за значительного числа вычислений)...
Получается, что кроме большой четвёрки (ht:/Dig, mnogosearch, APSSeek, Datapark) ничего стоящего нет?
absolut, аргументы принимаю.
Но вот мои:
- если делать поисковый сервер (отдельно), то я не хочу иметь на нём лишнюю базу данных, обращение к которой, кстати, достаточно "дорого" (время, загрузка);
- получается, что создатели поисковой системы "походя" (слишком сильное слово, но всё же) написали базу сравнимую по возможностям с тем, над чем народ отдельно трудится достаточно долго?
Evg, да и ещё, чем не очень нравится подход ASPSeek - для её использования нужно две базы данных (SQL и их иплементация, в которой они хранят индекс) - что, с моей точки зрения, не правильно (в том числе с точки зрения использования ресурсов)...
Evg, под базой данных я подразумеваю в данном случае некоторый софт, который имеет операции вставки, удаления, получения и, опционально, изменения данных. Этот софт должен позволять не испытывать проблем при работе с очень большим объёмом информации и обеспечивать её (информации) целостность. Этот как раз и есть минимум - простая база данных.
Сложная - это тоже самое, плюс, например, транзакции, репликация и т.д.. Насколько мне известно из БД с такими требованиями и открытыми исходными кодами существует только Berkeley DB (http://www.sleepycat.com/docs/ref/toc.html).
К достойными представителями простых баз данных (лишёных SQL и inter process communications overhead-а), насколько я знаю, относится также и qdbm (который, по тестам быстрее BDB, подозреваю, что за счёт упрощения).
Вы можете меня подловить на том, что файловая система - тоже база данных. Да, так и есть, она заточена под другое, как и под другое заточена SQL база данных. Или я не прав? Если не прав - прошу меня поправить.
absolut, в файлах... Но ведь это тоже база данных (только очень простая)?
Evg, в соседней ветке про выбор поисковых систем как раз читал хвалебные отзывы про этот софт... =)
Только вот с ними опять непонятно - какую базу они используют? Свою? Я не против, но даже база key/value, по-моему, не самый простой софт для написания (см. Sleepycat).