radl

Рейтинг
7
Регистрация
27.07.2015
Евгений Русаченко:
Я не о командах вообще, а о проблеме в целом :)

---------- Добавлено 15.06.2016 в 17:19 ----------



Я сам хостер, много слышал от клиентов - мой сайт внезапно перестал работать, мы ничего не делали. Зато делал кто-то другой (мошенники угоняли их пароли, хакеры взламывали сайт, спамеры забивали комментариями место в базе) и их сайт переставал работать. Вам же можно натравить пару десятков ботов и будут проблемы :) Клиент и хостер всегда смотрят по разному на проблемы, хостер смотрит данные сервера, если по ним всё хорошо (+ обычно если проблема массовая, клиенты засыпают тикетами проблему и сразу всё становится ясно), а клиент зачастую смотрит с точки зрения - я ничего не трогал, оно не могло сломаться / начать тормозить :) Я всегда люблю сказать, что сервер и сайты и это статический набор файлов, а постоянно меняющийся набор данных. Даже если Вы ничего не трогаете, от действий пользователей может поменяться логика данных и начать тормозить сайт или вовсе перестать работать. Причин может быть много, это всё надо грамотно исследовать и принимать меры.

Если в простое проблем не было (как Вы писали измеряли моим способом нагрузку), то это точно проблема на самом VDS. Вы видимо еще не сталкивались с серверами, когда стоит чистая операционная система, SSH ели ползает, а значения wa и st очень высокие :)

st - это показатель того, сколько процессорного времени не получил именно Ваш виртуальный сервер. Высокое значение данного показателя означает то, что установленного процессора на ноде недостаточно для всех клиентов, его ресурсов выделяют клиентам больше, чем у него сервера их есть.
wa - это показатель ожидания диска. Он полноценно связан целиком с нодой. Суть в том, что если на ноде диск перегружен, Вы будете ждать дольше обработку операций с диском и данный показатель будет высокий.

radl, Вы лично дома пользовались когда-нибудь SSD? Разница в работе HDD и SSD видна невооруженным взглядом, система грузится быстрее, операции все выполняются моментально. Если лично не пользовались, то посмотрите видео в сети загрузки операционных систем c SSD и с HDD, это как небо и земля. Еще очень чувствуется хорошо разница при работе с браузером, ибо он диск часто дергает (кеш). На серверах все аналогично, в рамках виртуальных серверов это очень хорошо ощутимо, так как диск не лично Вам выделен, а его используют и Ваши соседи по ноде :)

Просто смешно вы из меня делаете чайника, я в этой сферы больше 10 лет. Я веб-разраб/архитектор один из крупных спортивных сайтов. Конечно я понимаю что такое st и wa и тем более разницу hdd и ssd. спасибо за ваши советы но я не успокоюсь пока не выясню причину. Так как я у себя не нашел проблем) Кстати я скачал образ себе, сегодня завтра буду разворачивать своем мини сервере и буду тестировать. Если что могу написать здесь ответ)

smart2web:

Хорошо. Напишите запрос с указанием на этот разговор, мне передадут запрос.

Написал)

smart2web:
Можем поэкспериментировать. Установим аналогичную вашей ВМ на той же ноде. И произведем замеры на чистом сервере.

было бы хорошо, только я то уже в другом ноде вроде сижу где ssd, разве нет? если можете узнать где я сидел то без проблем. Было бы круто проверить.)

Евгений Русаченко:

Если запись на диск идет постоянно или даже чтение с диска, то для HDD это убийственно.
Учитывайте то, что на сервере еще соседи. Средненький HDD имеет ограничений в 100 IOPS, учитывая то, что на сервере скорее всего не менее 10 соседей, то на каждого клиента приходится 10 iops.
Если по простому, то операции с дисков свыше 10 (если строго считать) за единицу времени будут вставать в очередь и ждать завершения.
Здесь варианта два - либо внутри контейнера проблема, либо на ноде, где лежит Ваш виртуальный сервер.

Да это все понятно, просто внезапно так не должно быть. Я больше года сидел нормально все было. Но вдруг резко такая вот поведение сервера, вот что меня смущает.

И сваливать на hdd тоже не правильно, раньше вообще не было ssd и все нормально пользовались.

Евгений Русаченко:

Проверяется легко - отключаете все процессы (mysql, httpd, nginx и прочие, которые взаимодействуют в диском), по сути, у Вас должен остаться минимальный набор процессов необходимый для работы операционный системы.
Включаете top - если значения wa или st высоки, значит проблема на ноде.
Также можно посмотреть load average. Но это всё верно будет только тогда, когда Вы на 100% уверены, что у Вас ничего не взаимодействует с диском на сервере и не грузит процессор.

Да я это делал, я выше об этом писал, я все отключал и тестировал. wa примерно 0-2% . Но как я что то запускал где идет запись на диск, именно на запись то сразу же больше 45%

Например, простой apt-get upgrade который обновлялся (уже не помню что там я обновлял) около полу часа. А там пакетики в сумме 11мб весело всего. Параллельно сидел смотрел iotop и atop,

atop вообще краснел. Типа ALARM-ALARM)))

Евгений Русаченко:

Если первый тест выдал близкие к нулю значения wa и st, значит проблема внутри vds или Вам действительно просто не хватает ресурсов hdd.
На ssd конечно же всё будет летать, там запаса iops хватит на всех клиентов с лихвой.

Да но она разве не показывает именно моего виртуального сервера. Как он может показать самого нода. К тому же они не смогли мне снять образ в течение 3-4 часов, снять образ который весит всего лишь 30ГБ. Сказали что за это время 1/3 часть удалось снять.

А сегодня как я перешел на SSD сняли за 10 минут. Это разве не говорит что у них что-то не так?

Hawen:
в i/o то кто "уходит"?
mysql видимо, а конкретнее innodb сбрасывает каждую транзакцию на диск
Можно переключить innodb_flush_log_at_trx_commit в 2 (так данные будут в кеш ОС попадать и раз в пару сек на диск сбрасываться)
Более подробнее можно погуглить и решить как будет лучше

Это не решение проблемы, я эти вещи знаю. Но это не выход.

У меня же кроме mysql есть и другие операции с диском.

Например, хотел обновить какой-то пакет, запустил apt-get upgrade и он обновляет пакет пол часа это нормально что-ли? А перезагрузка сервера, которая проходило максимум минуту, вдруг перезагружается где-то за полчаса это тоже?

slams:
Скажите, пожалуйста, есть какие лимиты по чтению/записи на дисках?

Не знаю у них ли это проблема или они ввели лимиты не понятно. Это случилось

внезапно прошлой недели. Переписка с тех поддержкой ничего не помогла, постоянно твердили перейти на ssd. Что типа hdd слаб, типа что она была всегда таким. У меня 1 один сайт большой на друпале на которым в день около 30-40 просмотров, который постоянно пишет в базу всякие мелочи. Потому что он настроен так что лежит все в ОЗУ, всякие кэши и сессии в мэмкэше, сам код в opcache тоже в памяти.

млин, какой-то update полей в mysql записывал на диск около секунды.

скорость:

dd if=/dev/zero of=./largefile bs=1M count=1024
1024+0 records in
1024+0 records out
1073741824 bytes (1.1 GB) copied, 69.6165 s, 15.4 MB/s

Мне хватило бы этих 15.4 MB/s но проблема в том что iotop (и ещё смотрел atop -Dd) показал

скорость 0 MB/s несколько секунд а потом бах больше 200MB/s а потом опять меньше 100кб/с

а этот dd не показывает нулевые моменты, он берет средную.

У меня сайт начал открываться по 10 сек. ужас ужас ужас. slow_query log

показывал что update запросы проходили очень медленно.

top показывал:

top - 16:46:05 up 1:17, 2 users, load average: 4.64, 4.33, 4.09
Tasks: 106 total, 2 running, 104 sleeping, 0 stopped, 0 zombie
%Cpu(s): 1.5 us, 0.8 sy, 0.0 ni, 50.6 id, 47.1 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem: 2061176 total, 1749656 used, 311520 free, 53296 buffers
KiB Swap: 522236 total, 0 used, 522236 free, 945192 cached

47.1 wa - это ужас

я отрубил все сайты думал может на сайт какие то движение пошли.

вроде бы исчезло все крутяк.

но запросs update mysql на тестовом базе и на тестовой таблицы пустой таблицы

выполнялся то 500ms то больше секунду.

Это было ужас 2 дня лежал сайт пока разбирались, сайт с одного на другой сервер переносили

ничего не помогало, пока не перешел ssd.

Вот ssd что показывает:

$ dd if=/dev/zero of=./largefile bs=1M count=1024
1024+0 records in
1024+0 records out
1073741824 bytes (1.1 GB) copied, 4.66203 s, 230 MB/s

wa не поднимается выше 2%

а зачем я это пищу, просто в тех поддержке не хотят разбираться проблемой, или у них реально уже много виртуальных машин в одном юните или же они специально ввели эти лимиты.

Не хочу сказать что они плохие они молодцы, отвечают каждый 10-15 минут. За это спасибо!

Особенно Атджанов. Так он единственный который заметил вроде бы проблему, и они сейчас в данный момент разбираются. Вроде бы)

А другой твердил постоянно что типа из за hdd. Hdd сам по себя медленный. Ну это же смешно))

Мне переплачивать лишных сто рублей не хочется, мне и hdd хватало. Так как у меня реально не большой iops

Вот такие вот пироги)

PS. кстати заказал сделать образ моего диска, у них 2 утра до 4 чтобы могли отключать сервер и сделать мне нормальный образ, что вы думаете просыпаюсь от звонка клиента что типа с 6 утра уже не доступен сайт. Я залезаю в биллинг там сообщение, что они не успели снять образ, образ снять только на 1/3.)) А время уже 9 утра)))

margent:
Планы на резервный канал есть, работы в этом направлении ведутся.

Получается у вас на сайте вранье, то что 7 каналов?

margent:
Если можно так выразиться, что-то в этом роде произошло.В будущем будет отдельный линк через М10. Точных сроков назвать не могу, но в планах есть.

Я конечно в этих вещах не понимаю, но у вас же вроде 7 прямых каналов. У вас на сайте так написано было, или это разные вещи?

http://web.archive.org/web/20150324123832/https://www.ihor.ru/vds