Попробуйте уменьшить интервал как он был до месяца, чтобы не рисковать - Администрирование серверов

/etc/cron.weekly/99-raid-check: WARNING: mismatch_cnt is not 0 on /dev/md0

n1g3r · 2011-12-11T08:54:29.0000000Z

Каждую неделю вываливается такое сообщение-ошибка. Количество не синхронизированных блоков всегда разное. Примерно 8-10к. Что много. Панелька isp. Такое чувство, что ошибка вылазит после бекапа. Ручками делаю синхронизацию - все ок. С блинами проблем нету. Но каждую неделю вручную делать синхронизацию - тоже не выход. У кого были или есть такие проблемы и как их решали? Центос 5 стоит.

D

155

Dimanych

18 декабря 2011, 22:18

#101

Ладно, суть понял, что нужно уменьшить интервал как он был до месяца чтобы не рисковать) Ограничивать скорость не хочется по той причине что и так пару дней синхронизируется, ну да ладно, попробую. А вообще конечно надо не запускать сервера до такой нагрузки, но что уж теперь говорить.

Написал не мало шедевров ;)

Хорошо или плохо что Внутрення перелинковка в футере Перенос сайта и позиции

M

278

myhand

18 декабря 2011, 23:34

#102

Dimanych:
Ладно, суть понял, что нужно уменьшить интервал как он был до месяца чтобы не рисковать)

Ну, значит ничего не поняли :(

Dimanych:
Ограничивать скорость не хочется по той причине что и так пару дней синхронизируется

Запускайте "понемножку", инкрементами. Я упоминал и этот вариант.

Абонементное сопровождение серверов (Debian) Отправить личное сообщение (), написать письмо ().

247

Raistlin

19 декабря 2011, 02:08

#103

myhand:
Гарантия. Бекап. Цена контроллера << стоимости данных.

Данные в данном случае стоят не много. Здесь другая ситуация. Сам по себе контроллер - дополнительные грабли при восстановлении, случись что с аппаратной начинкой. Система построена так, что нужно её быстро запустить и она не должна вызывать коллизий. До текущего момента мне было не известно о проблемах рассинхронизации md. Придётся пересматривать этот момент.

myhand:
Важно. Система с метаданными fs, с ее журналом - должна работать иначе. Ее драйвер явно будет интересовать в нужных местах: что данные записаны.

Но не ReiserFS. Она работает несколько быстрее, как раз и за счет того, что пологается на аппаратную начинку. Здесь даже не от ФС зависит. Несколько странно было бы после каждой записи делать Verify.

myhand:
Должен. Программы люди пишут, а не олимпийские боги.

В штатном случае своп использоваться НЕ должен. Если он настолько активно используется - это значит, что системе не хватает ресурсов и их НАДО добавить. Т.е. использование свопа сигнализирует о проблеме.

myhand:
"Вы мне запрещаете?" // mysql

В данном случае - даже MySQL не пишет несколько раз в секунду на диск данные в один и тот же сектор в течении продолжительного времени. Специфика MySQL такова, что он в основном производит много чтений, которые как раз забиваются в кеш ОС. А отложенной записи опять же на правильно настроенной системе нет.

myhand:
В том смысле, что хоть не должен допускать скрытой рассинхронизации массива.

Софт-рейд в данном случае убьет производительность к чертям. Собственно, поэтому и не делает. Я так понимаю, этот момент там организован хуже даже чем в Fake-RAID.

---------- Добавлено в 09:08 ---------- Предыдущее сообщение было в 08:26 ----------

Итак, на вполне работающем массиве наблюдается mismatch. При перезагрузке данные разные на дисках, но всё же синхронизируется у меня с первого рейда. Я так и не смог симулировать ситуацию, когда рейд будет запущен после резета в синхронизированном состоянии. А вот замечательный фэйл: виртуальная машина после резета на ext2 полностью разрушила свою ФС. не смотря ни на какие рейды... 70% данных находятся в lost+found. Очень занимательная ситуация... Активно скриптом вставлялись данные в MySQL, ФС была примонтирована с Defaults. Много думаю...

HostAce - Асы в своем деле (http://hostace.ru)

Актуален ли железный рейд Помогите определиться с железом debian/linux сервер. тормоза, не

N

419

netwind

19 декабря 2011, 07:47

#104

myhand, кажется, пропустили :

netwind:
Я правильно понимаю, что ваше предположение подразумевает, что reiserfs "сам себя рушит" и в следствии ошибок в коде записывает на разные диски md разную информацию?

надо же определиться в чем конкретно вы подозреваете reiserfs.

Raistlin:
В данном случае - даже MySQL не пишет несколько раз в секунду на диск данные в один и тот же сектор в течении продолжительного времени. Специфика MySQL такова, что он в основном производит много чтений, которые как раз забиваются в кеш ОС. А отложенной записи опять же на правильно настроенной системе нет.

если нет дефицита памяти, диски на вебсервере в основном пишут. читать просто нечего - новая записанная информация тоже попадает в кеш.

Raistlin:
виртуальная машина после резета на ext2 полностью разрушила свою ФС. Много думаю...

разумеется нежурнализируемая ext2 разрушается на отлично при резете. тут и думать нечего.

Кнопка вызова админа ()

Google: иногда скопированный контент Яндекс покажет в поиске На что повлияют нейронные

247

Raistlin

19 декабря 2011, 07:57

#105

netwind:
разумеется нежурнализируемая ext2 разрушается на отлично при резете. тут и думать нечего.

Та ну? Правда, чтоли? Естественно, отказоустойчивость ниже. Но как, простите, ФС может перепутать файловые дескрипторы - это мне уже не понятно.

---------- Добавлено в 14:57 ---------- Предыдущее сообщение было в 14:56 ----------

netwind:
читать просто нечего - новая записанная информация тоже попадает в кеш.

Гм. Ну, пишут они нормально, не очень уж и активно, если нет дефицита памяти. Если диски пишут с максимально возможной скоростью - что-то на веб-сервере не так...

Дзен переводит показы ПромоСтатьей Диск-О: поддержал все главные Пользователям Яндекс.Диска стала доступна

M

278

myhand

19 декабря 2011, 08:44

#106

netwind:
myhand, кажется, пропустили :

Я не пропустил, просто не посчитал нужным отвечать. С учетом последних "откровений" - у вас больше похоже на то, что источником проблемы является загрузчик:

myhand:
Это "многое объясняет". Загрузчик может напрямую ковыряться с диском, не обращая внимание на то, что он в райд.

Подобная причина "рассинхронизации" тоже обсуждалась в багах redhat/debian по поводу mismatch_cnt & raid1. Вынесите /boot отдельно (как делает любой нормальный дистрибутив, если "аптимизаторы" не бъют его по рукам).

Есть что сказать по этому поводу - или данный вариант отмели?

netwind:
разумеется нежурнализируемая ext2 разрушается на отлично при резете. тут и думать нечего.

c ext3/reiserfs также есть такая вероятность, см. зачем опции barrier у mount.

Raistlin:
Данные в данном случае стоят не много.

А вы хотите офигенную отказоустойчивость бесплатно? Если "не много" по сравнению с контроллером - может и не стоит заморачиваться? - защита явно экономически малооправданна.

Raistlin:
До текущего момента мне было не известно о проблемах рассинхронизации md. Придётся пересматривать этот момент.

А что, теперь известно? Можно пример?

Raistlin:
Но не ReiserFS. Она работает несколько быстрее, как раз и за счет того, что пологается на аппаратную начинку. Здесь даже не от ФС зависит. Несколько странно было бы после каждой записи делать Verify.

Вы выглядите как "знаток" файловых систем. Вот только почему-то в reiserfs есть механизмы для обеспечения целостности данных+метаданных, аналогичные ext3, например барьеры. Может перечислите эти самые дополнительные "предположения", требуемые от аппаратной части?

Raistlin:
В штатном случае своп использоваться НЕ должен. Если он настолько активно используется - это значит, что системе не хватает ресурсов и их НАДО добавить. Т.е. использование свопа сигнализирует о проблеме.

Допустим, у меня mismatch_cnt = 1000 за месяц. Товарищ телепат, вам это что-то сказало об "активности использования" swap?

Raistlin:
В данном случае - даже MySQL не пишет несколько раз в секунду на диск данные в один и тот же сектор в течении продолжительного времени.

Пишет в файл, т.к. MySQL о секторах не знает. Пишет часто. Вы назвали конкретную цифирь - я привел пример обычного для нее приложения.

Raistlin:
Софт-рейд в данном случае убьет производительность к чертям. Собственно, поэтому и не делает. Я так понимаю, этот момент там организован хуже даже чем в Fake-RAID.

Поясните почему, пожалуйста.

Raistlin:
Итак, на вполне работающем массиве наблюдается mismatch.

По какой причине - выяснили?

Raistlin:
При перезагрузке данные разные на дисках, но всё же синхронизируется у меня с первого рейда.

Странно, что у вас отваливается только второй диск. Мягко говоря.

Raistlin:
Я так и не смог симулировать ситуацию, когда рейд будет запущен после резета в синхронизированном состоянии.

killall -s 9 kvm

(в случае нагрузки - может поломаться, а для пустой виртуалки у меня получилось только что 3 из 3 взлетело нормально).

Raistlin:
Но как, простите, ФС может перепутать файловые дескрипторы - это мне уже не понятно.

А зачем у ФС журнал - вам понятно? Не затруднит изложить это понимание здесь?

Как выбрать хостинг: часто Google об использовании неподдерживаемых ROI корпоративного сайта –

N

419

netwind

19 декабря 2011, 08:50

#107

myhand:
Есть что сказать по этому поводу - или данный вариант отмели?

ни grub, ни grub2, ни lilo не умеют грузиться с md raid отличного от raid1.

это означает, что загрузчик ничего не делает с raid. он определяет какой диск живой и читает данные только с него. и уж тем более не может там ничего испортить, так как не пишет на диск. мои проблемы при загрузке не на этапе загрузчика.

кроме того, я приводил сообщения из dmesg, которые возникли уже спустя часы после загрузки.

Raid 1 Интересная проблема при реконструкции Не запускается сервер после

M

278

myhand

19 декабря 2011, 09:18

#108

netwind:
ни grub, ни grub2, ни lilo не умеют грузиться с md raid отличного от raid1.

Сейчас умеют (grub2), но это неважно. Кроме того, даже если "умеют" - должны быть сконфигурированы соответственно.

netwind:
это означает, что загрузчик ничего не делает с raid. он определяет какой диск живой и читает данные только с него. и уж тем более не может там ничего испортить, так как не пишет на диск.

Добрый дядя из RH говорит обратное, но мы знаем лучше - верно?

Нельзя телепатически определить как сконфигурирован загрузчик, так что считаю данный источник проблемы вполне вероятным.

netwind:
мои проблемы при загрузке не на этапе загрузчика.
кроме того, я приводил сообщения из dmesg, которые возникли уже спустя часы после загрузки.

файловая система всегда проверяется fsck при внезапной перезагрузке?

Вышла новая версия Яндекс.Браузера Джон Мюллер: не зацикливайтесь Правовое регулирование услуг поисковой

N

419

netwind

19 декабря 2011, 09:37

#109

myhand:
Сейчас умеют (grub2), но это неважно. Кроме того, даже если "умеют" - должны быть сконфигурированы соответственно.

не очень давно пробовал поставить убунту на raid10 одним разделом чисто поржать - спокойно поставилась, но не загрузилась. grub2 там и был. как надо было его настроить ?

myhand:
Добрый дядя из RH говорит обратное, но мы знаем лучше - верно?

ну давайте ссылку. я что-то не очень понимаю о чем речь. считаю, что проблемы с загрузкой с raid и есть та причина, по которой дистрибутивы при разбивке /boot выносят в отдельный раздел.

myhand:
файловая система всегда проверяется fsck при внезапной перезагрузке?

нет, зачем ? обычно достаточно проиграть лог. по крайней мере на одном диске или надежном raid должно быть достаточно.

Вcех с днем рождения Ганса Рейзера, кстати.

Google о разделении контента SEO 2017: выиграть нельзя На Яндекс Маркете появился

M

278

myhand

19 декабря 2011, 10:24

#110

netwind:
не очень давно пробовал поставить убунту на raid10 одним разделом чисто поржать - спокойно поставилась, но не загрузилась. grub2 там и был. как надо было его настроить ?

Смотрите документацию для grub соответствующей версии.

netwind:
ну давайте ссылку. я что-то не очень понимаю о чем речь.

https://bugzilla.redhat.com/show_bug.cgi?id=566828

В баге дебиана тоже упоминали, лень искать.

netwind:
нет, зачем ? обычно достаточно проиграть лог. по крайней мере на одном диске или надежном raid должно быть достаточно.

Райд не обязан быть надежным, если администратор настроил систему так, что она молча ковыряет один из его дисков.

netwind:
Вcех с днем рождения Ганса Рейзера, кстати.

А день рождения Чикатилло вы тоже отмечаете? 🍿

В Одноклассниках появились новые 7 апреля - День Google Мой бизнес обновил

Зачем быть уникальным в мире, где все можно скопировать

Open AI тестирует память для ChatGPT

/etc/cron.weekly/99-raid-check: WARNING: mismatch_cnt is not 0 on /dev/md0