/etc/cron.weekly/99-raid-check: WARNING: mismatch_cnt is not 0 on /dev/md0

D
На сайте с 05.06.2007
Offline
155
#101

Ладно, суть понял, что нужно уменьшить интервал как он был до месяца чтобы не рисковать) Ограничивать скорость не хочется по той причине что и так пару дней синхронизируется, ну да ладно, попробую. А вообще конечно надо не запускать сервера до такой нагрузки, но что уж теперь говорить.

Написал не мало шедевров ;)
M
На сайте с 16.09.2009
Offline
278
#102
Dimanych:
Ладно, суть понял, что нужно уменьшить интервал как он был до месяца чтобы не рисковать)

Ну, значит ничего не поняли :(

Dimanych:
Ограничивать скорость не хочется по той причине что и так пару дней синхронизируется

Запускайте "понемножку", инкрементами. Я упоминал и этот вариант.

Абонементное сопровождение серверов (Debian) Отправить личное сообщение (), написать письмо ().
Raistlin
На сайте с 01.02.2010
Offline
247
#103
myhand:
Гарантия. Бекап. Цена контроллера << стоимости данных.

Данные в данном случае стоят не много. Здесь другая ситуация. Сам по себе контроллер - дополнительные грабли при восстановлении, случись что с аппаратной начинкой. Система построена так, что нужно её быстро запустить и она не должна вызывать коллизий. До текущего момента мне было не известно о проблемах рассинхронизации md. Придётся пересматривать этот момент.

myhand:
Важно. Система с метаданными fs, с ее журналом - должна работать иначе. Ее драйвер явно будет интересовать в нужных местах: что данные записаны.

Но не ReiserFS. Она работает несколько быстрее, как раз и за счет того, что пологается на аппаратную начинку. Здесь даже не от ФС зависит. Несколько странно было бы после каждой записи делать Verify.

myhand:
Должен. Программы люди пишут, а не олимпийские боги.

В штатном случае своп использоваться НЕ должен. Если он настолько активно используется - это значит, что системе не хватает ресурсов и их НАДО добавить. Т.е. использование свопа сигнализирует о проблеме.

myhand:
"Вы мне запрещаете?" // mysql

В данном случае - даже MySQL не пишет несколько раз в секунду на диск данные в один и тот же сектор в течении продолжительного времени. Специфика MySQL такова, что он в основном производит много чтений, которые как раз забиваются в кеш ОС. А отложенной записи опять же на правильно настроенной системе нет.

myhand:
В том смысле, что хоть не должен допускать скрытой рассинхронизации массива.

Софт-рейд в данном случае убьет производительность к чертям. Собственно, поэтому и не делает. Я так понимаю, этот момент там организован хуже даже чем в Fake-RAID.

---------- Добавлено в 09:08 ---------- Предыдущее сообщение было в 08:26 ----------

Итак, на вполне работающем массиве наблюдается mismatch. При перезагрузке данные разные на дисках, но всё же синхронизируется у меня с первого рейда. Я так и не смог симулировать ситуацию, когда рейд будет запущен после резета в синхронизированном состоянии. А вот замечательный фэйл: виртуальная машина после резета на ext2 полностью разрушила свою ФС. не смотря ни на какие рейды... 70% данных находятся в lost+found. Очень занимательная ситуация... Активно скриптом вставлялись данные в MySQL, ФС была примонтирована с Defaults. Много думаю...

HostAce - Асы в своем деле (http://hostace.ru)
N
На сайте с 06.05.2007
Offline
419
#104

myhand, кажется, пропустили :

netwind:
Я правильно понимаю, что ваше предположение подразумевает, что reiserfs "сам себя рушит" и в следствии ошибок в коде записывает на разные диски md разную информацию?

надо же определиться в чем конкретно вы подозреваете reiserfs.

Raistlin:
В данном случае - даже MySQL не пишет несколько раз в секунду на диск данные в один и тот же сектор в течении продолжительного времени. Специфика MySQL такова, что он в основном производит много чтений, которые как раз забиваются в кеш ОС. А отложенной записи опять же на правильно настроенной системе нет.

если нет дефицита памяти, диски на вебсервере в основном пишут. читать просто нечего - новая записанная информация тоже попадает в кеш.

Raistlin:
виртуальная машина после резета на ext2 полностью разрушила свою ФС. Много думаю...

разумеется нежурнализируемая ext2 разрушается на отлично при резете. тут и думать нечего.

Кнопка вызова админа ()
Raistlin
На сайте с 01.02.2010
Offline
247
#105
netwind:
разумеется нежурнализируемая ext2 разрушается на отлично при резете. тут и думать нечего.

Та ну? Правда, чтоли? Естественно, отказоустойчивость ниже. Но как, простите, ФС может перепутать файловые дескрипторы - это мне уже не понятно.

---------- Добавлено в 14:57 ---------- Предыдущее сообщение было в 14:56 ----------

netwind:
читать просто нечего - новая записанная информация тоже попадает в кеш.

Гм. Ну, пишут они нормально, не очень уж и активно, если нет дефицита памяти. Если диски пишут с максимально возможной скоростью - что-то на веб-сервере не так...

M
На сайте с 16.09.2009
Offline
278
#106
netwind:
myhand, кажется, пропустили :

Я не пропустил, просто не посчитал нужным отвечать. С учетом последних "откровений" - у вас больше похоже на то, что источником проблемы является загрузчик:

myhand:
Это "многое объясняет". Загрузчик может напрямую ковыряться с диском, не обращая внимание на то, что он в райд.

Подобная причина "рассинхронизации" тоже обсуждалась в багах redhat/debian по поводу mismatch_cnt & raid1. Вынесите /boot отдельно (как делает любой нормальный дистрибутив, если "аптимизаторы" не бъют его по рукам).

Есть что сказать по этому поводу - или данный вариант отмели?

netwind:
разумеется нежурнализируемая ext2 разрушается на отлично при резете. тут и думать нечего.

c ext3/reiserfs также есть такая вероятность, см. зачем опции barrier у mount.

Raistlin:
Данные в данном случае стоят не много.

А вы хотите офигенную отказоустойчивость бесплатно? Если "не много" по сравнению с контроллером - может и не стоит заморачиваться? - защита явно экономически малооправданна.

Raistlin:
До текущего момента мне было не известно о проблемах рассинхронизации md. Придётся пересматривать этот момент.

А что, теперь известно? Можно пример?

Raistlin:
Но не ReiserFS. Она работает несколько быстрее, как раз и за счет того, что пологается на аппаратную начинку. Здесь даже не от ФС зависит. Несколько странно было бы после каждой записи делать Verify.

Вы выглядите как "знаток" файловых систем. Вот только почему-то в reiserfs есть механизмы для обеспечения целостности данных+метаданных, аналогичные ext3, например барьеры. Может перечислите эти самые дополнительные "предположения", требуемые от аппаратной части?

Raistlin:
В штатном случае своп использоваться НЕ должен. Если он настолько активно используется - это значит, что системе не хватает ресурсов и их НАДО добавить. Т.е. использование свопа сигнализирует о проблеме.

Допустим, у меня mismatch_cnt = 1000 за месяц. Товарищ телепат, вам это что-то сказало об "активности использования" swap?

Raistlin:
В данном случае - даже MySQL не пишет несколько раз в секунду на диск данные в один и тот же сектор в течении продолжительного времени.

Пишет в файл, т.к. MySQL о секторах не знает. Пишет часто. Вы назвали конкретную цифирь - я привел пример обычного для нее приложения.

Raistlin:
Софт-рейд в данном случае убьет производительность к чертям. Собственно, поэтому и не делает. Я так понимаю, этот момент там организован хуже даже чем в Fake-RAID.

Поясните почему, пожалуйста.

Raistlin:
Итак, на вполне работающем массиве наблюдается mismatch.

По какой причине - выяснили?

Raistlin:
При перезагрузке данные разные на дисках, но всё же синхронизируется у меня с первого рейда.

Странно, что у вас отваливается только второй диск. Мягко говоря.

Raistlin:
Я так и не смог симулировать ситуацию, когда рейд будет запущен после резета в синхронизированном состоянии.

killall -s 9 kvm

(в случае нагрузки - может поломаться, а для пустой виртуалки у меня получилось только что 3 из 3 взлетело нормально).

Raistlin:
Но как, простите, ФС может перепутать файловые дескрипторы - это мне уже не понятно.

А зачем у ФС журнал - вам понятно? Не затруднит изложить это понимание здесь?

N
На сайте с 06.05.2007
Offline
419
#107
myhand:
Есть что сказать по этому поводу - или данный вариант отмели?

ни grub, ни grub2, ни lilo не умеют грузиться с md raid отличного от raid1.

это означает, что загрузчик ничего не делает с raid. он определяет какой диск живой и читает данные только с него. и уж тем более не может там ничего испортить, так как не пишет на диск. мои проблемы при загрузке не на этапе загрузчика.

кроме того, я приводил сообщения из dmesg, которые возникли уже спустя часы после загрузки.

M
На сайте с 16.09.2009
Offline
278
#108
netwind:
ни grub, ни grub2, ни lilo не умеют грузиться с md raid отличного от raid1.

Сейчас умеют (grub2), но это неважно. Кроме того, даже если "умеют" - должны быть сконфигурированы соответственно.

netwind:
это означает, что загрузчик ничего не делает с raid. он определяет какой диск живой и читает данные только с него. и уж тем более не может там ничего испортить, так как не пишет на диск.

Добрый дядя из RH говорит обратное, но мы знаем лучше - верно?

Нельзя телепатически определить как сконфигурирован загрузчик, так что считаю данный источник проблемы вполне вероятным.

netwind:
мои проблемы при загрузке не на этапе загрузчика.
кроме того, я приводил сообщения из dmesg, которые возникли уже спустя часы после загрузки.

файловая система всегда проверяется fsck при внезапной перезагрузке?

N
На сайте с 06.05.2007
Offline
419
#109
myhand:
Сейчас умеют (grub2), но это неважно. Кроме того, даже если "умеют" - должны быть сконфигурированы соответственно.

не очень давно пробовал поставить убунту на raid10 одним разделом чисто поржать - спокойно поставилась, но не загрузилась. grub2 там и был. как надо было его настроить ?

myhand:
Добрый дядя из RH говорит обратное, но мы знаем лучше - верно?

ну давайте ссылку. я что-то не очень понимаю о чем речь. считаю, что проблемы с загрузкой с raid и есть та причина, по которой дистрибутивы при разбивке /boot выносят в отдельный раздел.

myhand:
файловая система всегда проверяется fsck при внезапной перезагрузке?

нет, зачем ? обычно достаточно проиграть лог. по крайней мере на одном диске или надежном raid должно быть достаточно.

Вcех с днем рождения Ганса Рейзера, кстати.

M
На сайте с 16.09.2009
Offline
278
#110
netwind:
не очень давно пробовал поставить убунту на raid10 одним разделом чисто поржать - спокойно поставилась, но не загрузилась. grub2 там и был. как надо было его настроить ?

Смотрите документацию для grub соответствующей версии.

netwind:
ну давайте ссылку. я что-то не очень понимаю о чем речь.

https://bugzilla.redhat.com/show_bug.cgi?id=566828

В баге дебиана тоже упоминали, лень искать.

netwind:
нет, зачем ? обычно достаточно проиграть лог. по крайней мере на одном диске или надежном raid должно быть достаточно.

Райд не обязан быть надежным, если администратор настроил систему так, что она молча ковыряет один из его дисков.

netwind:
Вcех с днем рождения Ганса Рейзера, кстати.

А день рождения Чикатилло вы тоже отмечаете? 🍿

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий