- Поисковые системы
 - Практика оптимизации
 - Трафик для сайтов
 - Монетизация сайтов
 - Сайтостроение
 - Социальный Маркетинг
 - Общение профессионалов
 - Биржа и продажа
- Финансовые объявления
 - Работа на постоянной основе
 - Сайты - покупка, продажа
 - Соцсети: страницы, группы, приложения
 - Сайты без доменов
 - Трафик, тизерная и баннерная реклама
 - Продажа, оценка, регистрация доменов
 - Ссылки - обмен, покупка, продажа
 - Программы и скрипты
 - Размещение статей
 - Инфопродукты
 - Прочие цифровые товары
 
 - Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
 - Ведение рекламных кампаний
 - Услуги в области SMM
 - Программирование
 - Администрирование серверов и сайтов
 - Прокси, ВПН, анонимайзеры, IP
 - Платное обучение, вебинары
 - Регистрация в каталогах
 - Копирайтинг, переводы
 - Дизайн
 - Usability: консультации и аудит
 - Изготовление сайтов
 - Наполнение сайтов
 - Прочие услуги
 
 - Не про работу
 
        Что делать, если ваша email-рассылка попала в спам
          10 распространенных причин и решений
        
        
            Екатерина Ткаченко
          
            
          
        
      Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
                
            
        
Добрый день.
Скажите, пожалуйста, кто-нибудь пользовался посковой системой Estraier (http://estraier.sourceforge.net/)? Какое впечатление от системы?
Второй вопрос: какие существуют (какие Вы знаете) хорошие поисковые системы с открытыми исходными кодами использующими базу данных key/value (почитав эту ветку форума соглашусь с людьми, которые утверждают что SQL база данных для хранения индекса вообще и большого индекса в частности не должна использоваться)?
В частности Estraier нравится тем, что использует свою, и вроде как достаточно быструю базу данных и вроде (по быстрому просмотру) не самый плохой исходный код.
Посмотрите cache mode в DataparkSearch (http://www.dataparksearch.org/) .
Похоже на то, что надо... Только я не могу найти какую базу данных они для этого используют? Самописную?
Еще можно посмотрить проект:
http://aspseek.org/
Evg, в соседней ветке про выбор поисковых систем как раз читал хвалебные отзывы про этот софт... =)
Только вот с ними опять непонятно - какую базу они используют? Свою? Я не против, но даже база key/value, по-моему, не самый простой софт для написания (см. Sleepycat).
Индекс хранится не в базе.
absolut, в файлах... Но ведь это тоже база данных (только очень простая)?
Что вы считаете " простой" базой?
Скорость индексации (использовались разные параметры) и поиска среди 5 мл. документов (данные секций для хранения, приводились к общему знаменателю), значительно превышают скорость на DataparkSearch и mnoGoSearch. Проверка производилась на "одинаковых" серверах.
Evg, под базой данных я подразумеваю в данном случае некоторый софт, который имеет операции вставки, удаления, получения и, опционально, изменения данных. Этот софт должен позволять не испытывать проблем при работе с очень большим объёмом информации и обеспечивать её (информации) целостность. Этот как раз и есть минимум - простая база данных.
Сложная - это тоже самое, плюс, например, транзакции, репликация и т.д.. Насколько мне известно из БД с такими требованиями и открытыми исходными кодами существует только Berkeley DB (http://www.sleepycat.com/docs/ref/toc.html).
К достойными представителями простых баз данных (лишёных SQL и inter process communications overhead-а), насколько я знаю, относится также и qdbm (который, по тестам быстрее BDB, подозреваю, что за счёт упрощения).
Вы можете меня подловить на том, что файловая система - тоже база данных. Да, так и есть, она заточена под другое, как и под другое заточена SQL база данных. Или я не прав? Если не прав - прошу меня поправить.
Значительно - это сколько ? И как проводилась проверка, входило ли в сравниваемое время время расчёта релеватности для проиндексированых документов ?
Evg, да и ещё, чем не очень нравится подход ASPSeek - для её использования нужно две базы данных (SQL и их иплементация, в которой они хранят индекс) - что, с моей точки зрения, не правильно (в том числе с точки зрения использования ресурсов)...