Поиск и замена в огромном файле

56

Gavich

4 мая 2015, 12:50

1946

Есть огромный xml файл (около 800мб) с данными о товарах. У товаров изменились категории. Есть файл в формате json с данными о старых и новых категориях. Категорий около 10к. Нужно сделать скрипт и программку который будет в xml файле заменять старые айди категорий на новые. На чем лучше делать PHP, C++, Delphi? Какой максимальный размер массивов в данных языках? Посоветуйте как правильно реализовать алгоритм поиска и замены, чтобы весь объем обрабатывался максимально быстро.

ДП

203

Дикий пионер

4 мая 2015, 13:34

#1

Если операция разовая - то лучше делайте на том, на чем умеете.

Для того же php есть XMLReader - класс для потоковой обработки больших xml-файлов. Т.е. он не будет пытаться запихнуть весь файл в память, а позволяет обрабатывать его поэлементно.

http://php.net/manual/ru/class.xmlreader.php

Спарсить большой XML файл. DOMDocuments VS XMLReader (PHP) Как отфильтровать данные?

DV

644

DenisVS

5 мая 2015, 05:37

#2

Я бы для начала попробовал на Bourne Shell.

cat, sed, awk.

Если для вас родная среда Windows, и нужно побыстрее, EmEditor может кушать очень большие файлы, при этом, работает с регулярками и поддерживает макросы.

Оказалось, что и в *nix под wine он так же замечательно работает.

На ru-board есть лекарство :) Это, конечно, опупеть для русского человека — за продвинутый блокнот платить 6,752.36 RUB.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )

Скрипт помощник сайтостроителя под Анализатор логов ddosViewer вебсервера include в php большого

PN

103

proksey-net

5 мая 2015, 06:24

#3

Gavich:
Есть огромный xml файл (около 800мб) с данными о товарах. У товаров изменились категории. Есть файл в формате json с данными о старых и новых категориях. Категорий около 10к. Нужно сделать скрипт и программку который будет в xml файле заменять старые айди категорий на новые. На чем лучше делать PHP, C++, Delphi? Какой максимальный размер массивов в данных языках? Посоветуйте как правильно реализовать алгоритм поиска и замены, чтобы весь объем обрабатывался максимально быстро.

вы собираетесь делать массив 800 Мб? Я думаю можно обрабатывать построчно, не загружая сразу весь файл, тогда любой язык подойдет.

Мой совет помог? Не скупись! Bitcoin 1Lseddet1o1B6odgXQHbGaWGwRkt1Db8Ef Ethereum 0x450f1a17461e25194B7F9226cDEe70173F39e1e1

1609

SeVlad

5 мая 2015, 06:42

#4

proksey-net:
Я думаю можно обрабатывать построчно

хмл? :)

АПД. Хотя да, зависит от того где и как встречаются заменяемые данные.

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.

DV

644

DenisVS

5 мая 2015, 06:59

#5

Кстати, если будете пробовать php, думаю, что переработать большой файл проблемы не будет, если читать построчно и писать на выход в каждой итерации. Зажирать всё сразу в память совсем необязательно.

[Удален]

5 мая 2015, 10:24

#6

800 мб, можно и в память загрузить на любом языке. Ограничения лишь в объеме оперативки. Я бы на python сделал, там делов то вероятно не много. А для работы с файлами язык большого значения не играет, тут важнее доступные для языка библиотеки (работа с json, xml ). Парсить построчно и регулярками xml или json файл - это полнейший изврат (конечно если это не разовая операция), т.к. в следующий раз весь файл может придти в одну строку с другим порядком значений.

Помогите с разбором XML Как отфильтровать данные? Падает memcached

PN

103

proksey-net

5 мая 2015, 15:35

#7

imagine:
800 мб, можно и в память загрузить на любом языке. Ограничения лишь в объеме оперативки. Я бы на python сделал, там делов то вероятно не много. А для работы с файлами язык большого значения не играет, тут важнее доступные для языка библиотеки (работа с json, xml ). Парсить построчно и регулярками xml или json файл - это полнейший изврат (конечно если это не разовая операция), т.к. в следующий раз весь файл может придти в одну строку с другим порядком значений.

будет в одну строку - можно считывать по 32 байта:)

[Удален]

5 мая 2015, 16:56

#8

proksey-net:
будет в одну строку - можно считывать по 32 байта

а значение ключа будет в 64 :)) или на границе блоков (часть в одном, часть в другом) и т.п. изврат же, проверено.

PN

103

proksey-net

5 мая 2015, 17:00

#9

imagine:
а значение ключа будет в 64 :)) или на границе блоков (часть в одном, часть в другом) и т.п. изврат же, проверено.

может быть, но если файл будет 500 Гб, будете считывать все равно блоками хоть по 800 мб, но блоками🍿

R

37

rsltd

5 мая 2015, 17:19

#10

да любой язык, кому что ближе. однажды самому доводилось хмл через data load infile в sql пихать и уже там обрабатывать.

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Все что нужно знать о DDоS-атаках грамотному менеджеру