myhand

Рейтинг
278
Регистрация
16.09.2009
n1g3r:
Да, raid1.

Тогда "просто забить", увы.

netwind:
Если Ганса упекли за решетку, продукт выданный ранее его командой не стал хуже. Код работает и без него.

Плохая, негодная телепатия. Я вовсе никак не связывал качество кода с арестом кого-либо.

Файловая система в ядре - значит кто-то ее сопровождает. Я даже знаю как узнать кто ;)

Все это, однако, не гарантирует безошибочность ее работы и отсутствие багов в самой FS или утилитах.

netwind:
Если синхронизировать, то все работает.

Ага. А не потеряли-ли вы в процессе этого счастья какие-то данные?

netwind:
Файловые системы не пишутся из расчета на то, что данные раздела будут случайным образом меняться при считывании.

А данные и не должны так меняться, если FS их правильно записала. Операция либо доведена до конца - либо все связанные с ней "данные" просто невалидны. В этом смысл журналирования.

netwind:
Они полностью прекращаются после внеочередной синхронизаций массива. Я давно эту конфигурацию наблюдаю и знаю о чем говорю. В случае рассинхронизации не работает даже reiserfschk, что означает полную фигню на диске.

Повторяю, не факт что проблема не связана конкретно с reiserfs.

netwind:
После синхронизации все нормально становится.

В смысле, reiserfschk работает? Я бы не сказал что это "нормально".

Может имеет смысл заменить эту файловую систему?

netwind:

например так выглядит

[102486.375622] REISERFS error (device md1): vs-2100 add_save_link: search_by_key ([-1 1802542 0x1001 DIRECT]) returned 1
[102486.381161] REISERFS (device md1): Remounting filesystem read-only
[104091.351195] REISERFS warning (device md1): clm-6006 reiserfs_dirty_inode: writing inode 1676038 on readonly FS

Выглядит не как проблема с журналом. Что, по-идее - весьма странно.

n1g3r:
Но аптайм сервера 200 дней, ребутов даже до этого не делал по пару раз подряд.

У вас raid1?

netwind:
myhand, как мы уже выясняли, raid1 читает поочередно с разных блоков.

Все чуть сложнее, вам объясняли как-то.

netwind:
reiserfs ожидает видеть согласованные данные от хранилища нижнего уровня, а не разные. да и любая другая файловая система может быть подвержена тем же проблемам.

В общем, наверное этот сценарий имеет смысл в принципе. С другой стороны, соглассованность данных гарантируется ведением журнала.

Пока все-же больше похоже на проблемы конкретно reiserfs.

netwind:
просто у меня довольно часто перегружался сервер именно с reiserfs. там игнорирование mismatch_cnt гарантированно приводило к проблемам.

Какого рода проблемам, можно подробнее?

netwind:
нажмите 10 раз reset на приличной нагрузке и наверняка получите расхождение, а с ним проблему на файловой системе.

Ну, в этом случае - вы как раз и "ручками запишете что-то разное на блины".

Вот только вряд-ли это приведет к реальным проблемам (потерю части "кривозаписанных" данных за таковую не считаем). Таки журналируемые файловые системы используют обычно. Странно, что reiserfs у вас портился.

Теоретически, нормально исправить проблему можно, но разработчик очень подробно объяснил (см. баг в дебиане) почему это приведет к существенному снижению производительности (или переусложнению). Короче, более разумного решения чем "забить на это для raid1/raid10" - нету и не предвидится.

netwind:
как же в таком случае отличить реальную проблему от нормального поведения raid1 ?

Боюсь, что никак. Речь лишь о том, что для некоторых типов рейда - эти показатели фактически бесполезны.

С другой стороны, сценарии "реальных проблем" с mismatch_cnt != 0 на raid1 придумать сложно. Ну, разве вы ручками запишете что-то разное на блины.

netwind:
я не утверждал, что swap - единственная причина

Тем не менее, вы предложили конкретное объяснение. Неверное в принципе.

Andreyka:
Кстати а какой смысл хранить свап на рейде?

Разбивка по-умолчанию.

Caviar:
gzip off для картинок у Вас стоит?

Болезный, ты читать умеешь?

tolik777:
Вот

Наверно, подразумевали таки весь конфиг nginx. Вместе с содержимым include.

pupseg:
в вебсервере KeepAlive Off

Там nginx перед апачем - эта настройка бессмысленна.

pupseg:

на что то в этом духе, ну и так же мониторить:
<IfModule mpm_prefork_module>
StartServers 10
MinSpareServers 10
MaxSpareServers 20
ServerLimit 500
MaxClients 500
MaxRequestsPerChild 0
</IfModule>

Разжуйте на кой хрен столько апачей. Только ради того, чтобы залезть в своп лишний раз - или вам просто цифири круглые нравятся?

ТС - ограничьте поиск, начните с этого.

n1g3r:
Каждую неделю вываливается такое сообщение-ошибка. Количество не синхронизированных блоков всегда разное.

Какой тип RAID? Если raid1/raid10 - это нормально. В ином случае - повод для беспокойства.

netwind:
swap у вас есть? попробуйте выключить. может быть бекап и проверка массива происходят вместе и в этот момент swap активно используется что и приводит к разнице.

Дело там не во включенном swap во время проверки. Дело во включенном swap вообще. Хотя, к подобной "рассинхронизации" приводят еще несколько сценариев.

http://bugs.debian.org/518834

С подачи дебиана все давно поправили в документации (man 4 md, раздел SCRUBBING AND MISMATCHES).

n1g3r:
smart проверял, лонг, проблем не нашел.

Смарт должен запускаться регулярно. Для этого есть smartd.

Livo:
Админ какой сейчас заведует этим серверов что-то не устраивает, деньги мы ему платим много и исправно (один раз залезть на сервер 10$-20$), а ошибки всплывают ещё чаще чем раньше :)

Не удивительно, учитывая подобные смешные суммы (на полчаса работы максимум). И то, что Вы явно мешаете задачи администратора и саппортов в одну большую кучу.

Livo:
К тому же приемлемо и адекватно брать за это деньги :)

Это сколько, например?

Livo:
Настроить ДНС (при добавлении новых доменов, они не открываются, когда админ "по шаманит" - работает, каждый раз к нему обращаться за 10$ за один домен - не вариант).

1) Откуда вы знаете, что проблема в днс? 2) Что мешало уточнить у "админа" последовательность действий, которые он делает за 10$?

Livo:
Отладить почту, антиспам, установить roundcube.

Из этого списка более-менее осмысленно звучит последний пункт. Вы способны детализировать остальные "ТЗ"? Во сколько их оцениваете?

apt-get install php5-imagick

Если это не работает - ваш сервер испорчен :)

zexis:
Да, кроме супермикры я с другими серверными платформами не работал, но супермикра меня не подводила. :)

Рад за вас. Но щенячий восторг от супермикры в этом случае, имхо, был неуместен.

Вообще, начинать стартап со своего оборудования - лучше тогда, когда требования к нему предельно ясные (и нет приемлемых вариантов аренды). Иначе - стоит посмотреть в сторону аренды оборудования.

Всего: 4890