myhand

Рейтинг
278
Регистрация
16.09.2009
madoff:
если бы я не делал так много ошибок грамматических, мне бы тоже предложили работать с клиентурой, в тех поддержке, атак я их распугаю🍿

Если б Вы одни грамматические ошибки делали...

Andreyka:
Зачем ехать?

Я вот тоже эту мыслю не понял. Наверно была какая-то шутка юмора, может автор объяснит что имел в виду?

Boris A Dolgov:
Проинтегрировал Ваше нормальное распределение ;)

Все, гм, не так просто. Судя по тексту - Вы и сами уже засомневались в разумности полученных "результатов". Чтобы не засорять текст оффтопиком - приведу ниже попытку решения задачи и только намекну в каком направлении Вам тут пригодится ликбез: есть такой вещь в курсе теорвера, как теория массового обслуживания (на элементарном уровне есть, например в курсе Вентцеля).

Конкретно, то что Вам тут нужно - называется система массового обслуживания с ожиданием (если админ один и обрабатывает событие мониторинга - другие пришедшие в этот период становятся в очередь). Каждый работающий администратор в такой системе - это "канал" обслуживания. Т.е. команда и случай одного фрилансера - отличается только числом каналов.

Давайте попробуем что-то посчитать с цифрами, типа тех что Вы привели выше. Я принимаю следующие допущения:

  • поступает стандартный, пуассоновский поток событий мониторинга с плотностью (среднее число событий за ед. времени) \lambda = 1 за 3 дня. Для нескольких клиентов N - число событий умножается в N раз, естественно.
  • время обработки T события в среднем <T> = полчаса и распределено по показательному закону (коэффициент в показателе экспоненты \mu = 1/<T>). С нормальным распределением там что-то немарковское будет, так что я попроще...
  • если событие не может быть тотчас обработано одним из n администраторов - оно ставится в очередь.

Для заданного числа клиентов - можно посчитать вероятность p_k (k<=n), с которой система будет в состоянии, когда загружено n администраторов и вероятность p_{n,s} (s>=1), когда есть очередь в s событий. См, например, цитированную выше книжку.

Какие у нас есть условия?

  • Чтобы число заявок не возрастало неограничено в очереди, должно быть выполнено условие: \lambda / \mu < n
  • Доля времени, которую система простаивает, приходящаяся на одного администратора. Грубо говоря, "доля достающегося сна": Ps = (n p_0 + (n-1) p_1 + ... + p_{n-1})/n. Будем считать, что админ не должен спать меньше Ts = 12 часов, т.е: Ps <= Ts/24 = 1/2
  • Вероятность Wfail того, что обработка поступившего события нарушит SLA в X = 3 часов: Wfail ~ w0 = \exp(-\mu X), если у нас практически не бывает очередей (можно, конечно, и честно посчитать Wfail - тогда полученые ниже N будут чуть выше), для чего введем условие: Po = (1 - p_0 - p_1 - ... - p_n) < 5%. C нашими \mu и X: w0 = 0.0025, так что Wfail < 1% с запасом.

Вот что у меня получилось:

  • один администратор способен обработать с такими условиями N < 33 клиентов
  • n = 2, соответственно, N < 93 клиентов
  • n = 3, N < 167

Во всех трех случаях, N лимитируется условием (с), а условия (a) и (b) - выполнены с большим запасом.

Сюрприза никакого нету - два человека на таком же уровне качества могут обработать приблизительно вдвое больше клиентов. А в пределе больших n - вероятность нарушения SLA тупо лимитируется w0 (т.е. тормознутостью работы одного админа).

Boris A Dolgov:
Что почти в 300 раз больше и за год сделает 300 нарушений - почти по нарушению в сутки! Получается, что фрилансер, который спит 6 часов в день, в триста раз хуже компании из двух админов, которые покрывают всё время? :)

Рад, что Вас эта очевидная глупость насторожила. Получается - что нет. Никакого бреда "хуже на два порядка" здесь, как видите, нет. В два раза, грубо говоря различие - по числу клиентов которые они могут обслужить одинаково качественно.

Raistlin:
Ничего общего с реальностью.

Но прежде всего - ничего общего с математикой ;)

Raistlin:
И компетентность по мэйнтэйну пакетов в какой-то дебиан определять по меньшей мере, глупо

Ну почему-ж? Уметь собрать и установить ПО так, как полагается - одно из основных для администратора. Типовая задача. А тут за Вас качество ее выполнения контролирует табун пользователей дистрибутива, команда QA со своими чекерами и далее - вплоть до upstream.

Boris A Dolgov:
Не совсем понял, что Вы имеете ввиду. Я, вроде бы, оговорил сроки решения администраторской проблемы, а сколько времени из него они будут спать, а сколько -- локализовывать -- это уже их проблемы.

На мой взгляд разумно 1) оповестить клиентов в срок, что проблемой занимаются 2) определили ее источник и оценили приблизительные сроки решения. Эти этапы разумно жестко ограничивать во времени.

А обещать заранее, что починят все что угодно в 1 час - только болтуны могут. Максимальные сроки решения проблем, конечно, можно попытаться оговорить и ограничить. Да и то, только в случае ограниченного списка нештатных ситуаций (что Вы будете делать, когда райд накроется, а клиент не позаботился о бекапе на отдельный дисковый массив, несмотря на указанные ему риски?). И эти сроки в разы будут больше часа.

Boris A Dolgov:
Если Вы дадите мне распределение ...

Не могу отказать Вам в праве забрать свое нормальное распределение :) Дисперсию можно поставить побольше - порядка часа и больше. Можно поточнее оценить из своего опыта. В общем, ничего сложного не должно быть - любой толковый студент сварганит более-менее разумную модельку для простой оценки.

Boris A Dolgov:
Однако, есть мнение, что количество невыполненых SLA должно стремиться к нулю :)

Есть мнение, а есть реальный мир - в котором даже людей убивают, несмотря на законы, которыми это четко воспрещается :(

Но, наверно, уже можно своей денюшкой рискнуть на выплату каких-то компенсаций, если вероятность нарушения SLA по подобному сценарию у Вас получится где-нибудь на уровне 0.001, верно?

Boris A Dolgov:
Хотя, я считаю определение "отреагировать на падение сервера/сервиса в течении часа в любое время решением проблемы либо сообщением о том, что она находится на более высоком уровне (датацентра или оборудования)" достаточно строгим и понятным.

Это достаточно строго и понятно - фуфло.

Отреагировать на событие - да. Локализовать проблему - весьма вероятно. Решить - вероятно нет. И от количества администраторов в команде это не сильно зависит, увы (Вы даже пример выше привели).

Потому и нужны SLA, в которых оговариваются сроки прежде всего 1) и 2), да и 3) - тоже. Причем сроки 3) могут в разы разниться, по сравнению с 1) и 2), в зависимости от характера проблемы.

netwind:
насколько эта тысяча человек сможет удовлетворить мировой (!) спрос администрирования серверов за 150$/мес ?

Так не дебиан один. Есть куча самого разнообразного открытого ПО и дистрибутивов. Я просто предложил критерий проверки профессионализма работника - не более.

Boris A Dolgov:
Предложите какую-нибудь тривиальную модель и посчитайте в её рамках вероятность этого события.

А это причем здесь? Речь ведь шла о гораздо более простой ситуации: скажем у Вас есть два совершенно независимых клиента, в разных ДЦ, разное оборудование. Вы оговорили одинаковое SLA для них - какова вероятность того, что проблемы у них возникнут одновременно и работа над одной будет мешать выполнению условий SLA для другого? Как это зависит от условий SLA? А если у Вас 10 клиентов? А если 100?

netwind:
поздравляю, ты превратился в Андрейку - вместо объективных советов, рекламируешь себя.

Почему? Не только себя - только в одном Debian около тыщи разработчиков. А еще есть ubunta, да и другие дистрибутивы, не говоря уже о *BSD.

netwind:
Я имею ввиду затраты по поддержке, неизбежные проблемы совместимости с остальными пакетами дистрибутива, которые постоянно меняются.

Если пакет входит в дистрибутив - Вы автоматически принимаете на себя эти затраты. Или его выпилят обратно. Все в равной мере относится и к приватной сборке - или у клиентов дистрибутив обновлять категорически не надо?

netwind:
Купили мы тут одно приложение к опенсорсной штуке, но фактически все не так как в коммерческом софте. Стоимость поддержки не раскладывается на всех клиентов.

Купили Вы, видимо, просто неудачую поделку. Все без проблем "раскладывается" - почему нет? Если нет никаких вменяемых условий поддержки (напр., по исправлению багов) - в этом виноват не только разработчик, но и покупатель (нефиг было).

Boris A Dolgov:
Потому что я знаю сторонние фирмы, которые предоставляют указанный часовой срок реакции за эти деньги, и весьма логично, что если проект переезжает на сервер, то ему нужны стабильность и надёжность работы.

"Логично" будет конкретное требование по "стабильности и надежности" - выраженное в xxx минутах/часах допустимого простоя yyy раз в месяц, скажем. А Ваша логика категорически не годится для перевода в конкретную денюжку: "стабильно и надежно" без цифирок - это просто маркетинг.

Boris A Dolgov:
Увы, предугадать количество звонков и их время почти невозможно - и из-за этого есть возможность не уложиться в указанный срок.

"Угадать" - не надо. Надо математику немного знать, после чего моделирование подобных ситуаций и конкретные оценки - для Вас не составят труда.

netwind:
Кто-то хоть и делает пакеты, но поддерживать постоянно не захочет.

Т.е. как это: **тесь дальше сами, уважаемый клиент?

netwind:
Сколько пакетов ты ведешь?

Публичных - с десяток.

Boris A Dolgov:
А Вы не спите / не болеете / не отдыхаете? :)

Ну дык, наверно, не постоянно звонят. А если таки настолько достали, что каждую ночь звонят - наверно чересчур "одмин" переусердствовал с числом своих клиентов по тарифам "за еду", нет? И/или попросту выполняет работу плохо.

С риском, что администратор "заболеет" (например, его трамвай переедет - с летальным исходом) - это Вы верно заметили. Если хотите застраховаться от такого форс-мажора: оговаривайте например как-то документирование работы администратором, чтобы всегда, в принципе, можно было сменить работника.

netwind:
издеваешься ? я хочу платить только за работу, а не за развитие опенсорца.

Вовсе не издеваюсь. Как еще убедиться, что человек действительно хорошо знаком с дистрибутивом, сможет запаковать устанавливаемый софт нормально и т.п.? Что умеет идентифицировать проблему, работать с багами в софте/конфигурации?

Я просто предложил еще один способ (которым, кстати, весьма активно пользуются очень приличные буржуйские работодатели) получения представления о том, что собой представляет Ваш потенциальный администратор.

Думаю, это чуть больше чем "отзывы" типовых клиентов раздела "услуг и предложений" на серче - "большие" дистрибутивы (напр. debian, ubuntu) имеют определенный контроль качества пакетов, проверяют соблюдение своих стандартов. "Попасть" туда случайной, безграмотной работе - не так просто.

Andreyka, совершенно верно.

Помимо прочего, разумно поинтересоваться вкладом человека в используемый дистрибутив. Это публичная информация (если Вам представились) - можно пошерстить и багтрекер дистрибутива и поискать сопровождаемые человеком пакеты.

Pilat:
у админа-частника эта конфигурация сидит в голове

Бегите от таких "частников". Нормальные люди документируют свою работу, а в голове помойку не устраивают.

Кстати, показатель: если человек берется за сопровождение любого сервера на одинаковых условиях (вне зависимости от ОС, установленного дистрибутива), что предложат - дело нечистое. Зоопарк сопровождать на порядок труднее - либо данный исполнитель этого пока еще не понимает, либо врет клиентам о качестве своих услуг.

Pilat:
А деньги это вообще не показатель.

Показатель, конечно. Если цена неадекватно низкая - человек скорее всего просто некомпетентен.

a.dorofeev:
Вы правы, общего мало.

Там есть где-то и без LVM статья.

Вообще, LVM в данном хавту - будет проблемой только если делать по нему абсолютно бездумно. Если это Ваш случай - Вам категорически стоит завязывать с хавту и начинать читать нормальную системную документацию, благо info grub никто не отменил.

А еще в Debian есть:

http://www.debian.org/doc/

в частности:

http://www.debian.org/doc/manuals/debian-reference/

и до кучи:

http://wiki.debian.org/

a.dorofeev:
LVM, которая на сервере на используется

"Ну и дура" (с) не помню чье

Всего: 4890