Зачем нужен брендовый сервер?

На днях произошла проблема с одним из серверов в ЦОД, которая разрешилась без потерь и последствий. По горячим следам решил поделиться опытом и немного порассуждать на актуальную для многих тему. Она касается покупки или аренды дорогих брендовых серверов и сопутствующей с этим переплатой за бренд.

Если у вас есть желание научиться искать и эксплуатировать уязвимости в информационных сетях, рекомендую познакомиться с онлайн-курсом «Практикум по Kali Linux» в OTUS. Курс рассчитан на тех, у кого нет опыта в информационной безопасности, для поступления нужно пройти .

Иногда заказчики просят меня подобрать, купить и настроить сервер для каких-то задач. В общем случае я всегда предлагаю брендовый (dell, ibm, hp, реже supermicro) сервер с двумя блоками питания и железным рейдом с горячей заменой дисков. Часто такое предложение встречает непонимание, так как есть много предложений недорогих серверов за цену в 2-3 раза меньше, чем предлагаю я. Банально накидав в прайс десктопные комплектующие, можно получить цену в 3 раза меньше за ту же производительность.

Сначала опишу ситуацию, которая приключилась со мной на днях, а потом продолжу свою мысль. У меня на обслуживании есть сервер dell, на котором настроен мониторинг по snmp с помощью zabbix. Под конец рабочего дня приходит как гром среди ясного неба оповещение системы мониторинга.

Зачем нужен брендовый сервер?

Пропало питание на одном из двух блоков питания. Если бы это был сервер с одним блоком питания, мне бы предстоял нескучный вечер, а может быть и ночь. На сервере работает гипервизор с кучей критичных виртуалок, без которых затруднится работа некоторого количества людей. Есть все бэкапы и даже подменный сервер, но в любом случае восстановление процесс хлопотный и не одномоментный.

Я оценил обстановку и решил отложить решение вопроса на утро следующего дня. Утром написал в тех. поддержку хостера:

Добрый день. На сервере 6808, который расположен в стойке 10/20 мониторинг показывает, что нет питания на одном из блоков питания. Прошу визуально посмотреть, включен ли силовой кабель в оба блока питания и есть ли на обоих линиях напряжение. Мне нужно понять, заказывать новый БП из-за того, что в сервере сломался, либо это проблема с линией. Только прошу посмотреть аккуратно, чтобы не выключить вторую оставшуюся линию. Сервер критически важен.

Через 10 минут получил ответ:

Добрый день.
Поправили кабель питания, видимо был воткнут не до конца при установке.
Сейчас индикация на 2-ом БП есть.

Если честно, я совсем не удивился, получив такой ответ. При монтаже сервера я присутствовал лично (всегда так делаю, если есть возможность, и вам советую) и уверен, что кабели были воткнуты нормально. Зная, как в цодах работает тех поддержка, я всегда в первую очередь грешу на рукожопство обслуживающего персонала. У меня есть статья с подборкой факапов тех. поддержки цодов, с которыми я сталкивался лично — как мне поменяли не тот диск. В этот раз наверняка рядом что-то монтировали и просто задели кабель. Силовые кабели обычно сидят плотно в гнездах и сами не вываливаются.

В итоге вздохнул с облегчением. Все нормализовалось.

Зачем нужен брендовый сервер?

Отделался легким испугом. А теперь представим, что было бы, если бы у меня был только один блок питания? Как минимум, все бы выключилось на некоторое время, пока я бы не заметил и не написал тикет в ТП. А так как это был вечер, не факт, что я следил бы за почтой и как-то отреагировал. В 20:30 каждый день я вообще отключаю мобильный телефон, так как начинаю укладывать детей и готовиться ко сну.

Еще не факт, что после включения внезапно обесточенного сервера с кучей виртуалок, все бы нормально стартовало. В общем, если у вас планируется к работе критический сервис, для которого простой более чем в 3-4 часа не допустим, то покупайте максимально надежное оборудование, удовлетворяющее ваши потребности по производительности.

Это не значит, что для дешевых серверов нет применения. На самом деле многие сервисы способны пережить гипотетическое отключение раз в несколько лет на 6-8 часов, которые нужны для заказа нового сервера, настройки его и восстановлению из бэкапа. Потери будут меньше, чем ежегодное дублирование мощностей или покупка более дорогого оборудования. Техническому специалисту важно просто и доступно объяснить заказчику, для чего покупается то или иное оборудование. Рассказать про риски и время восстановления в случае поломки. А дальше уже пусть заказчик сам решает, чем он готов рисковать и на что тратить деньги.

Лично у меня из-за выбора серверов никогда проблем не было. Я всегда доступно и понятно объяснял, какой сервер и за какие деньги лучше купить. И если были поломки, то они решались в штатном режиме с запланированным простоем, о котором заказчик был предупрежден. Главное всегда и с любым сервером надо помнить, что нужно делать бэкапы, регулярно их проверять и делать тестовые восстановления данных на другом железе.

К слову, блоки питания это то, что чаще всего выходит из строя, после дисков. Если есть возможность, всегда дублируйте БП. Еще я лично сталкивался с выходом из строя планок памяти. Если у вас нормальный брендовый сервер, то вы просто получите уведомление на почту о том, что один из модулей памяти не работает. Сервер при этом даже не зависнет, а продолжит работу без этого модуля. А дальше уже вам решать, останавливать сервер на замену или оставить все как есть.

В случае десктопного железа проблемы с памятью это бесконечный геморрой по выявлению этой проблемы, особенно на арендованном сервере, которому у вас нет физического доступа. Если у вас есть подозрение на проблемы с памятью, сразу переезжайте на другое железо. Это проще и быстрее. Пусть хостер сам разбирается со своим оборудованием.

Онлайн-курс «Архитектор высоких нагрузок»

Онлайн-курс «Архитектор высоких нагрузок» – Best Practice по HighLoad и отказоустойчивости веб-приложений. Программа создана специально для веб-разработчиков, тимлидов команд веб-разработки, архитекторов и технических руководителей. Курс для профессионалов – нужно пройти вступительный тест. Выпускники онлайн-курса смогут:

  • создавать веб-приложения, которые легко масштабировать
  • обеспечивать отказоустойчивость веб-приложений даже при падении серверов
  • правильно использовать шаблоны (кеширование, реплицирование, шардирование, индексирование)
  • работать с инструментами, разработанными Google, Mail.Ru Group, Yandex

Проверьте себя на вступительном тесте и смотрите программу детальнее по . Не понравилась статья и хочешь научить меня администрировать? Пожалуйста, я люблю учиться. Комментарии в твоем распоряжении. Расскажи, как сделать правильно!

Помогла статья? Есть возможность отблагодарить автора

Источник

Просмотров:

Добавить комментарий