В каком формате хранить базу данных? - Поисковые технологии

Подбор СУБД

lagif · 2004-12-15T13:04:52.0000000Z

Доброго времени... Возникает вопрос, если кто сталкивался - помогите вынести решение: поисковой системе для быстроты хватает обычной СУБД (Oracle, MySQL, Postgress, etc....), или все-таки, не учитывая криворукость разработчика, лучше писать свой механизм хранения индекса? Насколько мне известно, большая часть БД хранит таблицы в виде B-деревьев (не путать с бинарными). Если я ошибаюсь, поправьте. Распространенное мнение гласит, что быстрее чем по б-дереву ни по какой структуре ходить невозможно :rolleyes: Многие утверждают, что скорость выборок(в общем, не только выборок, но и остальных операций над данными) ни одной из существующих БД не подходит даже для слабенького поисковика, сколько бы там ни было машин и ресурсов, и как бы индекс ни был организован... В пользу такого мнения приводится множество задач, под которые "заточены" современные СУБД, чтобы стать универсальными. Для индексации и поиска эти задачи - что пятое колесо телеге (не считая проблем защиты данных) С другой стороны, все серьезные СУБД были придуманы не сразу и не вдруг, над ними долго корпели... стоит ли изобретать велосипед дважды?

VT

130

Vyacheslav Tikhonov

16 декабря 2004, 10:28

#11

Не помрет, но будет долго ломаться. Пробовала. Результат неутешителен.
Сейчас буду на эту тему мучать оракл

Вообще-то СУБД никак не предназначены для использования в качестве поисковых систем - ни mysql, ни Oracle, ни другие базы. Кроме того, они имеют ограничения по объему информации.

Дело даже не в структурах данных и B-деревьях, а в самой организации СУБД - она служит для совершенно других целей. Максимум, что может дать база данных - это просто набор документов, где встретился искомый термин, так как никакой сортировки по релевантности или другим параметрам, подсветки в сниппетах найденных ключевых слов, группировки документов там нет. Конечно, есть отдельные пристройки под поиск, но они не слишком эффективны, чтобы использовать их на гигабайтных объемах.

30

lagif

16 декабря 2004, 10:45

#12

Vyacheslav Tikhonov,

Ага, значит можно вернуться к исходному вопросу... как, однако, мнения разделились :)

Дело в том, что пользоваться исключительно средствами, предоставляемыми СУБД, никто и не собирается. Ну кто станет пользоваться ТОЛЬКО каким-нибудь LIKE !...хотя, конечно, не исключено, что это будет дополнительное средство в поиске. Сама структура БД должна быть оптимизирована под алгоритм. Другое дело - в каком формате саму БД хранить.

Если я сейчас сяду придумывать свой формат хранения базы, буду ваять его... ну, в общем, долго... и неизвестно, что еще наваяю.

Это тоже пройдет...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

16 декабря 2004, 11:05

#13

Сама структура БД должна быть оптимизирована под алгоритм. Другое дело - в каком формате саму БД хранить.

В каком бы формате поисковая база не хранилась, производительность все равно будет относительно невысокой из-за ненужных операций вроде лексического разбора запросов и прочих радостей, из-за которых все проседает.

Если я сейчас сяду придумывать свой формат хранения базы, буду ваять его... ну, в общем, долго... и неизвестно, что еще наваяю.

А не надо ничего придумывать - все уже придумано до нас. :) Любая поисковая система обычно строится на инвертированных файлах , теория хорошо изучена и общедоступна.

На этапе хранения данных и организации поисковой системы никаких вопросов не возникает - принцип у всех один и тот же. Вопросы появляются только тогда, когда нужно ранжировать документы и формировать сниппеты с подсвеченными словами.

Яндекс.Вебмастер - пропали сайты Google: нет ничего, что Улучшилось качество поиска организаций

30

lagif

16 декабря 2004, 11:32

#14

Vyacheslav Tikhonov,

Да, но разве инвертированные файлы не строятся на тех самых b-деревьях?

Тем более, необходимы дополнительно алгоритмы сжатия таких файлов...

(сечас вы решите, что я лентяйка, но я просто рассматриваю все "за" и "против"... хотя, да - я лентяйка :D )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

16 декабря 2004, 12:06

#15

Да, но разве инвертированные файлы не строятся на тех самых b-деревьях?

Нет, конечно. :) B-деревья - это разновидность деревьев, которые дополнительно в своих узлах содержат какие-то данные, а инвертированные файлы - это списки данных.

Соответственно, отсортированное B-дерево может вырождаться в список. ;)

Тем более, необходимы дополнительно алгоритмы сжатия таких файлов

Необязательно. Чем сильнее сожмете, тем больше можете просадить производительность поиска.

30

lagif

16 декабря 2004, 12:12

#16

Vyacheslav Tikhonov,

отсортированное B-дерево может вырождаться в список

Окей, а разве после добавления не нужна пересортировка (и в список ли)?

И потом, чего-то я не поняла - разве по списку быстрей пройдёшься? Пойду еще раз почитаю доки, но на ваш ответ тоже расчитываю...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

16 декабря 2004, 12:24

#17

Окей, а разве после добавления не нужна пересортировка (и в список ли)?

Добавлении куда? При индексации формируется специальный словарь - лексикон, содержащий нормальные формы слов.

И потом, чего-то я не поняла - разве по списку быстрей пройдёшься

В лексиконе для каждого слова хранятся координаты в списке, по которым можно быстро получить документы, где слово встречается. Поэтому список служит только для быстрой выборки идентификаторов документов (и сопутствующей информации о координатах слов в тексте). Обычно в него ничего не добавляется и не удаляется, так как он формируется за один раз на этапе индексации.

AdWords: один список минус-слов Google может пропускать URL-ы Яндекс показывает .pdf и

30

lagif

16 декабря 2004, 12:29

#18

Vyacheslav Tikhonov,

Статично как-то получается...

VT

130

Vyacheslav Tikhonov

16 декабря 2004, 12:32

#19

Статично как-то получается

Да. Зато максимально быстро.

30

lagif

16 декабря 2004, 12:39

#20

Vyacheslav Tikhonov,

Если какой-то сегмент Сети (например, все новостные сайты) приходится переиндексировать раз в день (как минимум), что тогда? Притом, что невозможно словарь инфинитивных форм не пополнять в режиме переиндексации...

Э-м-м...Интернет - живность страшно переменчивая...

Everything has it's price, anyway...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол UXUkraine 2011: доклад Дэйва

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Подбор СУБД