/etc/cron.weekly/99-raid-check: WARNING: mismatch_cnt is not 0 on /dev/md0

[Удален]

11 декабря 2011, 08:54

10388

Каждую неделю вываливается такое сообщение-ошибка. Количество не синхронизированных блоков всегда разное. Примерно 8-10к. Что много. Панелька isp. Такое чувство, что ошибка вылазит после бекапа. Ручками делаю синхронизацию - все ок. С блинами проблем нету. Но каждую неделю вручную делать синхронизацию - тоже не выход. У кого были или есть такие проблемы и как их решали? Центос 5 стоит.

N

419

netwind

11 декабря 2011, 09:23

#1

n1g3r, в редхате считают, что это нормально.

https://bugzilla.redhat.com/show_bug.cgi?id=547128

https://bugzilla.redhat.com/show_bug.cgi?id=566828

в fedora даже изменили этот скрипт чтоб не ругался.

swap у вас есть? попробуйте выключить. может быть бекап и проверка массива происходят вместе и в этот момент swap активно используется что и приводит к разнице.

я редко наблюдаю такие ошибки и по-моему они возникают после внезапных перезагрузок, что объяснимо.

Кнопка вызова админа ()

[Удален]

11 декабря 2011, 09:26

#2

netwind

Спасибо. Да, swap есть. Попробую. Только это не нормально, так как когда это значение большое, скажем больше 1к, то тогда начинает все тормозить и загрузка сервера идет на полную, сайты грузятся через раз с 502 ошибкой nginx, мускуль тоже покашливает, пока вручную не сделаешь синхронизацию блоков.

N

419

netwind

11 декабря 2011, 10:10

#3

n1g3r, это же просто уведомление. mismatch_cnt может возникать вследствие высокой загрузки. скорее всего есть другие не связанные с md причины, по которым возникает загрузка и устаканивается. smart проверьте на hdd. или другие ошибки hdd поищите в логах.

[Удален]

11 декабря 2011, 10:13

#4

smart проверял, лонг, проблем не нашел.

M

278

myhand

11 декабря 2011, 10:55

#5

n1g3r:
Каждую неделю вываливается такое сообщение-ошибка. Количество не синхронизированных блоков всегда разное.

Какой тип RAID? Если raid1/raid10 - это нормально. В ином случае - повод для беспокойства.

netwind:
swap у вас есть? попробуйте выключить. может быть бекап и проверка массива происходят вместе и в этот момент swap активно используется что и приводит к разнице.

Дело там не во включенном swap во время проверки. Дело во включенном swap вообще. Хотя, к подобной "рассинхронизации" приводят еще несколько сценариев.

http://bugs.debian.org/518834

С подачи дебиана все давно поправили в документации (man 4 md, раздел SCRUBBING AND MISMATCHES).

n1g3r:
smart проверял, лонг, проблем не нашел.

Смарт должен запускаться регулярно. Для этого есть smartd.

Абонементное сопровождение серверов (Debian) Отправить личное сообщение (), написать письмо ().

N

419

netwind

11 декабря 2011, 11:17

#6

myhand:
Какой тип RAID? Если raid1/raid10 - это нормально. В ином случае - повод для беспокойства.

раз уж вы все знаете, как же в таком случае отличить реальную проблему от нормального поведения raid1 ?

myhand:
Дело там не во включенном swap во время проверки.

я не утверждал, что swap - единственная причина.

822

Andreyka

11 декабря 2011, 11:30

#7

Кстати а какой смысл хранить свап на рейде?

Не стоит плодить сущности без необходимости

M

278

myhand

11 декабря 2011, 11:45

#8

netwind:
как же в таком случае отличить реальную проблему от нормального поведения raid1 ?

Боюсь, что никак. Речь лишь о том, что для некоторых типов рейда - эти показатели фактически бесполезны.

С другой стороны, сценарии "реальных проблем" с mismatch_cnt != 0 на raid1 придумать сложно. Ну, разве вы ручками запишете что-то разное на блины.

netwind:
я не утверждал, что swap - единственная причина

Тем не менее, вы предложили конкретное объяснение. Неверное в принципе.

Andreyka:
Кстати а какой смысл хранить свап на рейде?

Разбивка по-умолчанию.

N

419

netwind

11 декабря 2011, 11:46

#9

Andreyka, как и обычно - меньше шансов на ошибки. если своп не прочитается, то придется убить вытесненную программу потому как ее данных просто нет нигде.

netwind добавил 11.12.2011 в 14:49

myhand:
С другой стороны, сценарии "реальных проблем" с mismatch_cnt != 0 на raid1 придумать сложно. Ну, разве вы ручками запишете что-то разное на блины.

нажмите 10 раз reset на приличной нагрузке и наверняка получите расхождение, а с ним проблему на файловой системе. Гораздо более наверняка чем на одиночном винте. По крайней мере reiserfs от подобных фокусов у меня неоднократно портился.

M

278

myhand

11 декабря 2011, 11:59

#10

netwind:
нажмите 10 раз reset на приличной нагрузке и наверняка получите расхождение, а с ним проблему на файловой системе.

Ну, в этом случае - вы как раз и "ручками запишете что-то разное на блины".

Вот только вряд-ли это приведет к реальным проблемам (потерю части "кривозаписанных" данных за таковую не считаем). Таки журналируемые файловые системы используют обычно. Странно, что reiserfs у вас портился.

Теоретически, нормально исправить проблему можно, но разработчик очень подробно объяснил (см. баг в дебиане) почему это приведет к существенному снижению производительности (или переусложнению). Короче, более разумного решения чем "забить на это для raid1/raid10" - нету и не предвидится.

Что такое Power BI и зачем это нужно бизнесу

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов