Чтение и запись данных их очень большого файла

rommer · 2011-12-16T22:31:18.0000000Z

Есть один файл, уже довольно большой В нем лежат один за другим много мелких файлов. Структура типа filename::filedata::0000323::1245635482 filename2::filedata2::0001323::1245635682 filename3::filedata3::0001323::1245635682 1-й - имя файла. 2-й - сам файл, 3-й количество скачиваний, 4-й - time() последнего скачивания До этого файл считывался в массив, где в цикле находился нужный файл, строка разбивалась на еще один массив, нужные элементы массива менялись, потом строка-массив склеивалась опять в строку и весь массив склеивался обратно в файл и записывался поверх. Бывает такое, что в одном треде идет обновление сразу нескольких позиций, поэтому цикл нахождения файла повторяется несколько раз. Возникла необходимость и память поберечь, и быстрее все делать. Файл может вырасти до гига, а может и больше, а в одном запросе может быть доведется обновлять не один-три, а сто-триста позиций. Что посоветует уважаемая общественность для решения этой проблемы?

SD

5

StarDust

18 декабря 2011, 04:47

#21

netwind:
если файлы конвертировать в бд не как есть, а нормализируя базу, то объем может получиться меньше.

Позволю не согласится. Если сравнивать объем ненормализованной БД и нормализованной - да. Если же сравнивать объем исходных данных и объем тех же данных, помещенных в БД - нет.

N

419

netwind

18 декабря 2011, 05:15

#22

StarDust, но ведь исходные данные в файлах тоже могут содержать какие-то денормализованные поля-связи , а значит в процессе нормализации эти поля уменьшатся.

Кнопка вызова админа ()

I

25

iopiop

18 декабря 2011, 06:11

#23

netwind:
если файлы конвертировать в бд не как есть, а нормализируя базу, то объем может получиться меньше.

В принципе наверное можно такую базу придумать. На практике индексы занимают объем больший чем собственно данные. Не забывайте также о введении новых сущностей как суррогатные первичные ключи или появление в физической модели новых таблиц напр для описания связи много-ко-многим. Не забываем о лог-файлах также

Ну и конечно никто не проводит полную нормализацию, иначе сильные тормоза

iopiop добавил 18.12.2011 в 09:34

StarDust:

Идейка, скажем так, на уровне студента первого курса, без обид.

ну что вы так.. TC как раз подошел к идее держать метаданные отдельно, вон уже и структурка выделяется потихоньку

Для поиска по метаданным строим индекс. Вот по индексу уже и будем бродить.

Это уже будет второй этап, когда ТС поймет что линейный поиск - это глупо

А дальше, глядишь, и до БД дойдет ☝

Optimization.ru 2012: исследования поисковых Платон Щукин про индексацию Rambler: Как понять пользователя

1609

SeVlad

18 декабря 2011, 10:28

#24

iopiop:
это как, БД их сжимает, что ли? ;-)

Когда-то давно (когда я также как и ТС боялся этого страшного слова - "база данных") именно так мне объясняли "старшие товарищи". Если зип сжимает текстовый файл в десятки раз - почему аналогичный принцип не может быть использован в БД? В том смысле, что одинаковые последовательности (данные) заменяются на индексы.. Удаление избыточности.. (я утрированно, но надеюсь, поняли).

Ну как-то так..

StarDust:
А далее все что нужно - сделать скрипт типа install.(php, aspx и т.п.) который всю работу по инсталляции и сделает.

..хотя бы развернуть из дампа - делов-то :)

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.

Сжимать или нет файлы Проблемы с кодировкой в Картинки на отдельный сервер.

N

419

netwind

18 декабря 2011, 11:32

#25

SeVlad:
Если зип сжимает текстовый файл в десятки раз - почему аналогичный принцип не может быть использован в БД? В том смысле, что одинаковые последовательности (данные) заменяются на индексы.. Удаление избыточности..

Произвольный характер доступа не позволяет использовать такую технику везде.

Так что в mysql это используется только для текстовых индексов и только в myisam.

Кроме того, есть утилита myisampack, которая позволяет сжать и записи таблицы . Правда таблица становится только для чтения.

Другие субд тоже могут использовать эту технику.

Уменьшение объема вследствие нормализации куда более реально.

ISP backup и /tmp 50k записей в таблице PHP - тормаз PERL

Что такое Power BI и зачем это нужно бизнесу

VK приобрела 70% в структуре компании-разработчика red_mad_robot