Форум Практика оптимизации Поисковые технологии

Подбор СУБД

30

lagif

28 декабря 2004, 11:58

#41

Вот я и вернулась....

Пять дней назад :) с ребятами Оракл и MySQL сравнивали. *выпили много пива, но до драки не дошло*. Собственно, ничего грандиозно нового не поведаю. На сложных запросах оба долго думают. MySQL - чуть дольше. Но! Опять же, все зависит от настроек оптимизации, как напомнил нам trink. За один день ничего нового мы не настроим. Также - имеется немалая зависимость от железа.

Что же касается сложных запросов - индекс здесь действительно отдыхает.

Индекс полезен, насколько я знаю теорию (еще крутится в голове универская теория индексации инфы, позиционирования поиска и построения b-деревьев), в прямолинейных запросах, потому что деревья данных сами по себе строятся по индексу, это и ежику ясно :) Если вы используете дополнительные функции и запрос усложняете, правильный подбор индекса не играет роли.

Maxim Golubev,

Сравните скорость поиска Совы с остальными поисковиками.... Не знаю, на чем она работает, но вопрос для меня уже в некотором роде разъяснился.

В узких местах СУБД - любая! - будет работу лишь замедлять. С инвертированным индексом работать быстрей. Некоторые, может, решат, что это варварство, но я же не предлагаю не использовать СУБД вообще! Но, насколько я уже успела убедиться, работа с простыми типизированными файлами в самом "загруженном" месте индексации и поиска будет куда быстрей.

Насчет же человеко-часов: никто не спорит, что ребята долго трудились и придумали нечто феноменальное, чего нам за месяц не повторить :) Однако, опять же, дело в том, что имеющиеся СУБД не заточены исключительно под SE.Они умны, сложны, безопасны, надежны - да. Но этого не всегда хватает :)

Это тоже пройдет...

D2

22

Dim2

28 декабря 2004, 17:15

#42

Но ведь Яндекс использует MySQL, не так ли?

[Удален]

28 декабря 2004, 17:22

#43

Как писал lagif

Maxim Golubev,
Сравните скорость поиска Совы с остальными поисковиками.... Не знаю, на чем она работает, но вопрос для меня уже в некотором роде разъяснился.

Ну вот, опять мои доводы против меня направили. Предпочитаю не спорить, а все аргументы на стол. Итак, вы сравниваете скорость работы 1-ой машины (2-а процессора PIII-1000, 1 Гигабай RAM) и, например, с Яндексом: Cisco 7xxx - распределяющая нагрузку на 10-ть серверов формирующих главную страницу под пользователя+20-ть(а может уже больше) серверов готорые генерят ответы+куча дополнительного железа для пауков, индексаторов и т.д.

Разве справедливое сравнение получилось ?

Давайте попробуем сравнить базовый модуль от Google:

http://www.searchtools.com/analysis/google-appliance-v3.html

Модель: GB-1001, одна машина, размер 1U

В документации написано:

A small server that can fit in any standard server rack (pictured on the right), designed for departments or small Intranets with fewer than 300,000 documents to index.

Что примерно переводится:

маленький сервер, который может соответствовать в любой стандартной стойке сервера (изображенный справа), разработанный для отделов или маленького Интранета с меньше чем 300 000 документов индексу.

На сколько я знаю, у поисковика Сова сейчас в индексе только одних документов более 2'000'000.

Вот это сравнение я считаю справедливым. В итоге мы видим, что поисковик использующий MySQL может не уступать по характеристикам монстрам.

Z

32

Zute

28 декабря 2004, 19:24

#44

Только вот данные по гугловому поисковику вы привели двухлетней давности. Сейчас это выглядит так:

GB-1001

The GB-1001 is a rack-mounted two-unit (2U) appliance that can be licensed to search up to 1.5 million documents at a rate of 300 queries per minute.

http://www.google.com/appliance/products.html

30

lagif

29 декабря 2004, 07:25

#45

Maxim Golubev,

Ни в коем случае не собиралась с вами спорить... собственно спорить мне рановато... :)

Аргументы о мощностях - несколько не те: с ними-то уж точно не поспоришь, поскольку первым делом, начиная думать о SE, смотрела, кто на чем работает...

У меня, например, нет 10-ти серверов :) А между тем, скорость Совы - оставляет желать лучшего, притом, что не думаю, что ресурс этой SE сравним с тем же Google или Яндексом. И мне кажется, что если отказаться в некоторых местах от скоростей SQL-запросов, эту скорость можно и увеличить.

Z

32

Zute

30 декабря 2004, 10:17

#46

Кстати, нашел кое-что о подребностях в железе для Nutch, если кому интересно:

http://www.nutch.org/cgi-bin/twiki/view/Main/HardwareRequirements

VT

130

Vyacheslav Tikhonov

2 января 2005, 14:22

#47

Для информации, скорее всего известный вам поисковый движок "Сова" использует базу данных MySQL.

Я знаком с разработчиком search.com.ua (это и есть "Сова") Петром Власенко и эту информацию подтверждаю - действительно, здесь все построено на mysql.

Однако, несмотря на относительно небольшое количество документов (порядка нескольких миллионов), для нормальной работы пришлось раскидывать всю поисковую базу на сотню таблиц одинаковой структуры - поначалу потери в производительности были огромными.

Сейчас при посещаемости в несколько тысяч хостов Сова как-то все же работает, но очень медленно.

30

lagif

6 января 2005, 09:31

#48

Vyacheslav Tikhonov,

Спасибо, мои подозрения оправдались.

Хочется спросить у народа: кто-нибудь работал с Postgress? Я не собираюсь пока ничего говорить об этой СУБД поскольку работала с ней крайне мало.

D2

22

Dim2

6 января 2005, 13:26

#49

У всех свои недостатки и достоинства.

PostgreSql, например, любит раздувать индексные файлы, но в отличие от MySQL поддерживает триггеры и.т.п

Ответ на вопрос "какая СУБД лучше" хорошо рассмотрен на форуме http://www.sql.ru/forum/actualtopics.aspx?bid=10

30

lagif

6 января 2005, 13:41

#50

Dim2,

Кажется, в пятой версии реализованы уже и триггеры, и хранимые процедуры. Я еще пятую версию не ставила. Пока не спешу.