Хранение древовидных структур в mysql(+)

34

Sherman

31 мая 2005, 20:43

3195

Собственно, проблема в следующем.

Давно хотел сделать поиск(файловый/ftp/etc). Возникла проблема: как хранить индекс.

Объемы данных, примерно:

Сотни серверов, миллионы файлов и папок.

СУБД. Хочется open source, т.к. предполагается, что работать это все будет на unix-системах и с весьма скромным бюджетом.

Но, как вариант, рассматривается и SQL Server.

Поиск хочу сделать не полнотекстным(т.е. средства предоставляемые той или иной СУБД мне не подходят).

Вопрос в следующем. Какой будет оптимальный алгоритм хранения древовидной структуры в СУБД.

Понятно, что «рекурсивный» parentid id мы не рассматриваем.

Nested Sets наверное тоже не подходит, т.к. здесь не только частая выборка, но и весьма частая вставка, и каждый раз перестраивать все дерево — ресурсов не напасешься.

Вообще возможно на таких данных делать неполнотекстный поиск по СУБД или стоит задуматься о хранении индекса отдельно(скажем в файлах).

p.s. машинка у меня не очень мощная. Athlon 1700 xp, 2x256 RAM, SATA-винт 200 ГБ.

Считаешь, что у тебя есть мозги? Тогда тебе сюда (http://kevan.org/brain.cgi?Sheryld). Персональное:Габайдулин «Sherman» Денис (http://dasblog.pp.ru)

822

Andreyka

31 мая 2005, 20:59

#1

Пардон, но "Сотни серверов" не сочетаются с "весьма скромным бюджетом".

Не стоит плодить сущности без необходимости

[Удален]

31 мая 2005, 21:57

#2

Sherman, я бы на вашем месте думал в сторону файлов и ReiserFS. Mysql вообще не вариант, т. к. MyISAM скопытится на выборках, а InnoDB на вставках. :)

M

0

Miroff

1 июня 2005, 06:54

#3

Однако-ж сам видел работающую систему на MySQL. Проиндексированно ~500 серверов, ~6 000 000 файлов. Количество запросов ~0.1 в секунду. Машина класса PIII, 512mb памяти под управлением Debian Linux. Так что MySQL вполне вариант.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

149

tester999

1 июня 2005, 07:16

#4

FireBird ?

34

Sherman

1 июня 2005, 07:32

#5

Как писал Miroff
Однако-ж сам видел работающую систему на MySQL. Проиндексированно ~500 серверов, ~6 000 000 файлов. Количество запросов ~0.1 в секунду. Машина класса PIII, 512mb памяти под управлением Debian Linux. Так что MySQL вполне вариант.

И все же. Давайте обсудим, какова будет более менее оптимальная сруктура индекса в СУБД с сохранением информации о дереве.

34

Sherman

1 июня 2005, 07:34

#6

Вот, например: http://wildhoney.netbynet.ru — используется вроде PostgreSQL.

E

17

eshum

1 июня 2005, 08:08

#7

А зачем хранить дерево?

Если предполагается искать только по именам файлов (или по полному пути) то можно представить файл как документ состоящий из слов которые содержатся в имени файла. И строить индекс по этим словам.

30

lagif

1 июня 2005, 08:59

#8

...MyISAM скопытится на выборках, а InnoDB на вставках...

Не могу не пожаловаться: у меня, после недели непрерывной работы таки почти скопытилась :) Журнал она, вишь ли, ведет... зафлудила inod...

А может, Oracle попробовать?

Это тоже пройдет...

M

0

Miroff

1 июня 2005, 09:54

#9

Sherman, Вы бы определились чего вы хотите от базы. Если нужно просто искать файлы, то зачем вам дерево? Я, например, сделал выделил на каждый сервер по одной таблице и разом избавился от всякого геморойя со вставкой. При переиндексации убиваем старую таблицу и создаем новую. Работает в разы быстрее. От полнотекстового поиска ИМХО вы отказываетесь зря. Как показывает практика, он достаточно шустро работает, и выдает достаточно качественный результат.

tester999,

AFAIK, interbase и иже с ним на таких данных молча курят в сторонке.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

34

Sherman

1 июня 2005, 16:43

#10

Дерево нужно обязательно, т.к. структура будет использоваться весьма активно, группировки, сортировки и т.д. и т.п.

Все что нужно знать о DDоS-атаках грамотному менеджеру

Курс биткоина превысил $50 тысяч