Попробуйте найти параллельный rsync - Администрирование серверов

Как синхронизировать файл 100Гб ?

Pilat · 2015-12-09T00:57:13.0000000Z

При синхронизации больших файлов Rsync упирается в производительность процессора - он однопоточный. Есть ли многопоточная альтернатива? Именно для синхронизации одного большого файла.

822

Andreyka

10 декабря 2015, 08:30

#11

Тогда стоит посмотреть в иную сторону - не бекапить образы с хоста, а бекапить из самих виртуалок.

Есть отличная штука для этого - cdp от r1soft

Не стоит плодить сущности без необходимости

P

250

Pilat

10 декабря 2015, 09:31

#12

Andreyka:
Тогда стоит посмотреть в иную сторону - не бекапить образы с хоста, а бекапить из самих виртуалок.
Есть отличная штука для этого - cdp от r1soft

Мне нужно как раз образы виртуалок.

Я посмотрел статистику по дисковым и сетевым операциям - rsync показыает в --progress какую-то непонятную цифру, не сильно связанную с реальностью. Во всяком случае это точно не скорость передачи по сети и не скорость чтения с диска. Возможно, на гигабитных каналах ему надо какие-то параметры выставлять специфические. Интернет ответа не дал. Но процессор всё равно используется один и на 100%, так что думаю что проблема именно в нём.

Блог (http://www.pilat66.ru/)

Google о непрямых выгодах Автоматизация поиска клиентов для Google о Core Updates

N

419

netwind

10 декабря 2015, 10:26

#13

Ну он же контрольную сумму md5 считает. Для этого нужно последовательно обработать файл. Это как бы нельзя распараллелить.

Вообще-то для определения разности совсем не важно посчитать сумму всего файла, но как смогли так и написали . Могли бы в программе делить файл на участки и считать параллельно, но, скорее всего, на практике такой непоследовательный доступ невыгодно нагружает диск.

А что, файл совсем один ? Если это виртуалки, то их обычно много.

Вот я нагуглил как для обработки каталогов запускают несколько rsync : https://wiki.ncsa.illinois.edu/display/~wglick/Parallel+Rsync. И таких решений масса.

Проверьте у себя, может слегка получше будет.

Кнопка вызова админа ()

Не хватает диапазона ip_local_port_range Большое количество данных - Хранение кеша PageRank -

P

250

Pilat

10 декабря 2015, 10:49

#14

netwind:
Ну он же контрольную сумму md5 считает. Для этого нужно последовательно обработать файл. Это как бы нельзя распараллелить.
Вообще-то для определения разности совсем не важно посчитать сумму всего файла, но как смогли так и написали . Могли бы в программе делить файл на участки и считать параллельно, но, скорее всего, на практике такой непоследовательный доступ невыгодно нагружает диск.

А что, файл совсем один ? Если это виртуалки, то их обычно много.
Вот я нагуглил как для обработки каталогов запускают несколько rsync : https://wiki.ncsa.illinois.edu/display/~wglick/Parallel+Rsync. И таких решений масса.
Проверьте у себя, может слегка получше будет.

Как раз контрольная сумма для всего файла rsync'ом не считается, а он делится на участки (65536 участков максимум, если не ошибаюсь). А вот почему нет параллельного просчёта - непонятно. Сервера обычно ставят на рейд, например raid10 - там скорость доступа может сильно не проседать. Или сейчас вообще на SSD модно.

У виртуалок на базе образа диска (KVM, VMWare) есть несколько больших файлов. С OpenVZ ситуация другая.

Parallel Rsync в основном нужен когда несколько миллионов файлов синхронизируется. Для одного он неприменим.

Быстрый хостинг в Германии, 2 x SSD Raid Хостер, а как ты

N

419

netwind

10 декабря 2015, 10:56

#15

Pilat:
У виртуалок на базе образа диска (KVM, VMWare) есть несколько больших файлов.

Нууу. Причем, не очень больших файлов, если специально не испортить настройку. То есть, частично вы выиграете от этих решений тоже. Почему бы нет?

Переразбейте эти 100 гб.

Часто программисты такие же идеалисты как и математики. Изучат задачу, придут к выводу что им нужно привести уравнение к идеальному нерешаемому "значит мне нужно найти параллельный rsync" и сидят курят.

Верстка, доработка и настройка смысть водяной знак с Простое решение для отправки

P

250

Pilat

10 декабря 2015, 11:20

#16

Как раз файлы очень большие - размером с виртуальный диск. Диск 100 гигабайт - значит 100. У меня 30+70. Но теперь накатила задача 500 гигабайт перенести :)

Ну как можно переразбить файл-образ? Ну можно, при некотором желании - LVM2 позволит собрать из них один том, но это не типовой сценарий.

Рещение я, конечно, найду. Но интересно иметь рабочее тупое решение - как rsync.

Виртуальныйхостинг + большой диск Отмазки хостеров. Помогите выбрать хостинг

N

419

netwind

10 декабря 2015, 11:32

#17

Pilat, а, извините qcow2 так и не поддерживает разбивку на части. Так vmware или KVM ? vmware таки поддерживает.

P

250

Pilat

10 декабря 2015, 11:41

#18

netwind:
Pilat, а, извините qcow2 так и не поддерживает разбивку на части. vmware таки поддерживает.

qcow2 вообще формат не для практического использования. vmdk в варианте proxmox не разбивается на маленькие файлы - это просто не делается из его интерфейса и, скорее всего, не поддерживается сервисными утилитами. Сейчас я на raw перехожу. Мне нужно не ломать работающую систему, а думать как справиться с проблемай.

Как вы делаете диски SpaceVDS.com - всё лежит, HostiMan.ru - Бесплатный NVMe

Z

129

zzzit

10 декабря 2015, 13:48

#19

Pilat:
Как раз контрольная сумма для всего файла rsync'ом не считается, а он делится на участки (65536 участков максимум, если не ошибаюсь). А вот почему нет параллельного просчёта - непонятно.

Потому что у него для rolling checksum используется и без того очень быстрый алгоритм Adler32 и если процессор перегружен, то скорее всего чем-то другим.

Черный список врунов и обманщиков: ua-hosting.company, riaas.ru, takewyn.ru, yahoster/cadedic, Andreylab

P

250

Pilat

10 декабря 2015, 14:42

#20

zzzit:
Потому что у него для rolling checksum используется и без того очень быстрый алгоритм Adler32 и если процессор перегружен, то скорее всего чем-то другим.

Adler32 используется на sender (MD5 тоже, но не для каждого блока), recipient использует MD5+Adler32. Узнал я это из статьи https://en.wikipedia.org/wiki/Rsync#Algorithm , но материал для размышлений есть. ДЕйствительно чистого времени на вычисление контрольных сумм получается меньше чем в результате раза в два-три.

Как определяется уникальность текста Настройка CSP - Content Уменьшение длины MD5

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Как синхронизировать файл 100Гб ?