Создание датацентра — задача не из легких. В этом процессе надо учитывать множество рисков, о которых зачастую можно узнать только на основе практического опыта. Среди разработчиков и строителей ЦОД существует уверенность в том, что надежность комплекса в полной мере обеспечивается уровнем резервирования используемого оборудования. При создании датацентров, как правило, изначально закладывается избыточная инфраструктура. Есть устойчивое мнение, что такой подход сам по себе является гарантией безотказной работы, но на практике оказывается, что, несмотря на немалые вложенные средства, нужного уровня надежности добиться не удается. Но, почему? Давайте разберемся.
«Избыточность» не означает «надежность»
Даже создание структуры, полностью соответствующей по уровню резервирования требованиям TIER III или TIER IV, в рамках стандарта TIA-942, само по себе, к сожалению, не может обеспечить необходимой надежности ЦОД. Не случайно в стандарте TIA-942 резервирование составляет лишь небольшую часть требований, необходимых для подтверждения соответствующего уровня отказоустойчивости. Так, по мнению авторов документа, немаловажным является выбор здания или места для размещения датацентра, прохождение трасс энергоносителей и других коммуникаций окружающей инфраструктуры, не имеющей прямого отношения к ЦОД, наличие системы мониторинга и т.д. Тем не менее даже выполнение всех требований стандарта не является гарантией построения безотказного ЦОД.
Существуют несколько типов угроз, которые, как правило, не «в фокусе» у заказчика на этапе строительства собственного или оценки надежности арендуемого датацентра. Между тем, эти риски оказывают существенное влияние на качество работы ЦОД в процессе эксплуатации. Одним из главных источников опасности на практике является человеческий фактор. Согласно данным мировой статистики, до 60% отказов ЦОД связано именно с ним. Также мало кто обращает внимание на фактор старения оборудования в ходе эксплуатации. Модная нынче одноразовая аттестация (даже если речь идет об авторитетной международной организации) не гарантирует, что через несколько лет параметры оборудования останутся такими же.
Крайне опасна ситуация, при которой оборудование эксплуатируется в неоптимальном режиме. С перегрузками все понятно. В то же время мало кто говорит о том, что недозагруженность также таит в себе большую угрозу. В сознании заказчика сегодня поселилась идея о том, что избыточность — это всегда хорошо. Но ведь неоправданно завышенная мощность означает замороженные (фактически перерасходованные) денежные средства, потраченные как на само оборудование, так и на его эксплуатацию, поддержку, обслуживание.
Отметим, что значительная избыточность крайне нежелательна для коммерческого ЦОД, который в условиях недозагрузки работает неэффективно во всех смыслах. Кстати, риторический вопрос потенциальным клиентам, выбирающим коммерческую площадку для своего оборудования: может ли быть надежным убыточный датацентр?
Если инженерные подсистемы, прежде всего климатические и электрические, нагружены меньше чем на 30% от номинала, то это влечет за собой риски значительно более раннего и непредвиденного выхода оборудования из строя.
Так, при работе на низкой нагрузке срок эксплуатации дизельных электростанций снижается в несколько раз. Застойные зоны, которые могут возникать в гидравлических контурах, рассчитанных на существенно большую скорость движения теплоносителя, способны привести к аварийному отключению системы охлаждения. И это лишь несколько из множества подобных примеров.
Следует отметить, что расчет и испытание оборудования ЦОД проводятся одноразово и только на максимальной нагрузке, в то время как эксплуатация в основном происходит на значительно меньших мощностях, для которых поведение системы не прогнозировалось и не испытывалось. Наличие средств мониторинга само по себе также не является гарантией эффективного контроля над оборудованием и его надежной эксплуатацией. В этом вопросе ключевым моментом является обучение персонала, адаптация системы для быстрого выявления проблемы и ее устранения. Крайне важна интеграция таких решений в общий бизнес-процесс управления ЦОД.
Вышеописанные риски — лишь часть возможных проблем, способных навредить датацентру. В компании «Би Мобаил» пришли к выводу о том, что контроль над работой ЦОД невозможен без построения точных и детально описанных бизнес-процессов, позволяющих надежно управлять рисками, возникающими в процессе эксплуатации оборудования. В связи с этим и были проведены мероприятия по приведению инфраструктуры датацентра и всех его бизнес-процессов в соответствие с требованиями безопасности сертификата ISO/IEC 27001:2005, соответствие которому было подтверждено в 2013 году аудиторской компанией «ТЮФ ЗЮД Украина», входящей в состав немецкого концерна TÜV SÜD. Сертификация стала завершающим этапом многолетней работы коллектива «Би Мобаил» в сфере создания действительно отказоустойчивого коммерческого ЦОД.
(автор статьи, директор компании «Би Мобаил»)