Все сознают важность экстренного восстановления ИС после аварий, вызванных природными или техногенными причинами, человеческим фактором или критическими сбоями программного и аппаратного обеспечения. Однако ситуация с применением средств Disaster Recovery (DR) в Украине пока неоднозначная. Средства аппаратной репликации данных внедряют в основном только крупные телеком-операторы и банки, для которых даже незначительный простой может означать прекращение бизнеса.

Обеспечение непрерывности бизнеса связывают с задачами балансировки аппаратной нагрузки между двумя площадками. Нехватка помещений и мощностей электропитания вынуждают организации инвестировать в резервные сайты. А раз на них уже установлены аппаратные компоненты, почему бы не заставить их работать? Всё стало еще проще с появлением технологий виртуализации. Унификация систем, протоколов и средств управления сделала приложение независимым от физического размещения и разрешила балансировку нагрузки на нескольких площадках.

Виртуализация позволяет реплицировать на удаленные сайты виртуальных машин данные и даже целые сервисы. Кроме того, теперь можно перенести виртуальную машину на резервную площадку без прерывания работы пользователей. А гибкость и простота развёртывания виртуальных сред дает ИТ-подразделениям возможность сосредоточиться на планировании. 

Аппаратная репликация Active-Passive

В классическом решении при возникновении проблем на основной площадке (данные на обеих площадках идентичны) приложения могут стартовать на резервной из состояния, в котором прервалась работа. Репликация между площадками может быть синхронной (без потери данных, с подтверждением приложению, что данные уже на второй площадке) и асинхронной (с потерей последних данных, но без задержки на подтверждение приложению). Чем меньше отставание данных между площадками, тем больше требований к каналу.

После восстановления приложение на основном сайте уже не будет работать. Активируются данные на второй площадке, и меняется направление репликации. Далее приложение запускается, а сервис должен получить IP-адрес и данные на другой площадке.

Процесс репликации связан с особенностями ПО, для которого он инициирован. Если содержимое буферов приложения в памяти потеряется – реплика данных может оказаться нецелостной (не подлежит запуску). Также разные системы зависят от данных, которые в них содержатся. Если реплика данных определенной системы отстала на 30 мин. и ее данные используются другими системами, работа приложения нарушается. Восстановлением и отслеживанием зависимостей занимаются средства автоматизации восстановления работы приложений. Например, VMware Site Recovery Manager играет роль промежуточного звена между средствами репликации и корректного запуска приложений/сервисов.

Аппаратная репликация Active-Active

Новый подход только приобретает популярность, но на его стороне – удобство и прозрачность управления. Концепция облака позволяет использовать аппаратные ресурсы без учета их расположения. Она превращает два территориально удаленных ЦОДа в единое инфраструктурное пространство, прозрачное относительно балансировки нагрузки и решений DR. 

К примеру, на определенном этапе ЦОД заказчика перестает масштабироваться. Ему недостает мощности энерговводов, продуктивности системы кондиционирования, физического пространства… Если компании нужно расширить ИТ-инфраструктуру, она строит неподалеку вторую площадку и подключает ее в активном режиме к первой. Одновременно получается и DR-решение, и инструмент балансировки нагрузки.

Для проведения плановых работ на одной площадке или перераспределения нагрузки между серверами (дисками), достаточно онлайн мигрировать виртуальную машину с приложением. Ведь дисковый ресурс на обеих площадках один и мигрировать данные не нужно. Учитываются и возможности IP-канала: сколько может быть одновременных сессий онлайн-миграций виртуальных машин, возможна ли их миграция по одной и сколько она продлится (обычно 1-2 минуты).

В так называемых «растянутых» (stretched) кластерах его узлы и дисковые подсистемы распределены по различным площадкам — это означает, что при выходе из строя узлов кластера на одной из площадок, система все равно остается работоспособной.

Такие решения очень популярны в виртуальных средах. Виртуальные машины переносятся между серверами без разрыва соединений с клиентами. Пользователи и не догадываются, что их приложение переместилось из одной части инфраструктуры в другую. Такие «чудеса» могут творить VMware vMotion или Microsoft Hyper-V Live Migration. 

Единое дисковое пространство с активным доступом на обеих площадках позволяет организовать консолидированное хранилище данных виртуальных машин и приложений. При этом виртуальная машина может мигрировать без выделения для неё дискового пространства и переключения направления репликации. 

Данное решение накладывает гипотетическое ограничение на расстояние между удаленными площадками: синхронное в 150 км для сред VMware и асинхронное до 2000 км для сред Hyper-V. Есть ограничения и для некоторых приложений с механизмом совместного доступа к дисковому пространству, и на задержки записи. Например, СУБД, пока не запишет транзакцию в журнал, не выдаст подтверждение о ее завершении.

Отметим, что режим Active-Active реализуется и с помощью приложений, например Oracle Intimate Shared Memory (ISM). При этом приложения должны иметь доступ к данным на каждой площадке. Когерентность данных обеспечивают кэши Oracle. А распараллеливание происходит через Real Application Clusters (RAC) – так достигают линейного масштабирования. 

Аппаратная репликация с журналированием 

Если вышел из строя физический компонент, можно переключиться на резервный узел кластера или резервный сайт. Гораздо сложнее избежать логических ошибок, совершаемых людьми. Классический режим резервного копирования и восстановления использует «машину времени», которая возвращает логику приложения на предшествующий инциденту момент. 

Однако логическая ошибка с одной синхронной площадки будет немедленно реплицирована на вторую. Исправить ее уже невозможно. Выход из этой ситуации – ведение журнала репликации. Он позволяет выбрать нужный момент состояния данных для перезапуска приложения. Журнал пишется с подтверждением по синхронной схеме.

Восстановление выглядит так: приложение с ошибкой останавливается, из журнала выбирается логическое представление необходимого момента времени данных (гранулярность выбора секунды) из которого приложение снова стартует. Если версия данных устраивает, логическое представление превращается в физические данные путём накатывания изменённых блоков.

Данные монтируются автоматически. В чём же преимущество резервного копирования и восстановления по сравнению с классическими системами? Прежде всего, это гранулярность по времени – секунды-минуты. Не нужно накатывать журналы транзакций с ночной резервной копии. Нет необходимости ждать копирования данных ночной резервной копии с ленты на диск. Наконец, не надо восстанавливать весь цикл инкрементальных резервных копий – накатываются только изменения.

Для удалённой репликации трафик компрессируется алгоритмом, который уменьшает его до 30 раз. В зависимости от количества данных журнальные системы автоматически переключаются между синхронным и асинхронным режимами репликации. Чтобы синхронизировать площадки, иногда необходимо пропустить очень большой поток данных. А если надо перенести данные объемом 10 ТБ при канале в 100 Мбит? Как синхронизировать приложения без ущерба для производительности? Выход из ситуации: при первичной синхронизации реплицировать в асинхронном режиме, а затем переключиться на синхронный.

Многообразие решений

Изначально СХД позиционировались как аппаратные средства для эффективного использования дискового пространства и консолидации нагрузки. Понятно, что 3-4 диска в одном сервере не могут обслужить несколько сотен пользователей почтовой или банковской системы. Все производители СХД приветствовали виртуализацию, ведь виртуальные машины точно не разместишь на локальных дисках. И сегодня технология репликации и балансировки нагрузки между площадками становится драйвером рынка СХД.

ЕМС первой предложила решения высокой доступности приложений, основанных на аппаратной репликации данных. Она ещё в 1994 г. реализовала репликацию между двумя дисковыми системами Symmetrix. Сейчас компания инвестирует средства в развитие полноценных масштабируемых решений Active-Active. 

Классические решения DR на рынке предлагают режим Active-Passive. Возможности дисковых массивов в них дополняются средствами автоматизации. Это накладывает ограничения на количество блочных дисковых устройств в кластере, гранулярность перемещения виртуальных машин (поштучно) и время их перехода между площадками.

Законодателями мод в сегменте DR-решений класса предприятий сейчас являются две платформы: ЕМС Symmetrix и Hitachi VSP. Последнюю по ОЕМ-соглашению под собственной торговой маркой P9500 ХР продвигает компания HP. Но сегодня многие производители дисковых платформ выступают ОЕМ-партнерами небольшой компании FalconStor. Она же является претендентом на поглощение крупными игроками – конкурентами ЕМС. 

IBM предлагает решения управляемого резервного копирования и восстановления серверов на основе собственных облачных сервисов, в частности SmartCloud Managed Backup и SmartCloud Virtualized Server Recovery. Кроме того, голубой гигант вкладывает средства в развитие перспективной технологии SUN Volume Controller (SVC). Однако в сегменте DR-решений класса предприятий компания недостаточно представлена на нашем рынке. Она работает в основном с банками, а им не свойственны большие нагрузки. В прошлом году завершился проект для ПРАВЭКС-БАНКА – IBM предоставляет хостинг на уровне платформы (решение размещено в ЦОДе De Novo). На протяжении полугода IBM обеспечивала работоспособную инфраструктуру, а сейчас проходят испытания отказоустойчивости системы.

Решения NetApp основаны на технологиях моментальных снимков, встроенных в ОС. Они позволяют за секунды производить резервное копирование и восстанавливать данные. NetApp также предлагает технологии кластеризации на блочном и файловом уровне – они дают возможность строить DR-решения с помощью унифицированных СХД. Последние могут масштабироваться до уровня большого кластера со многими узлами. Но это ограничивает возможности синхронной репликации.

Классические средства репликации между массивами и интеграции с приложениями предлагают почти все вендоры. Каждое включает средства для локального создания снимков файловой системы (snapshots) и удаленной репликации для развертывания DR-сайтов. Правда, у заказчиков возможны проблемы с масштабируемостью и корректным взаимодействием с ОС и приложениями. При большой нагрузке данные могут не успевать передаваться на вторую площадку. В этом виноваты каналы с недостаточной пропускной способностью, большой латентностью и низкая производительность процессоров СХД, которым помимо репликации данных нужно отвечать на обычные запросы. Также возможно ограничение поддерживаемых интерфейсов коммуникаций между приложениями и репликационным ПО массивов.

Кому это нужно

В первую очередь, DR-проекты реализуют для СУБД, поскольку именно в них хранятся критически важные для бизнеса данные. Следом идут почтовые системы (Microsoft Exchange, IBM Lotus), инфраструктурные сервисы под виртуализацией, например домен-контроллеры, и наконец, общие файловые ресурсы. Однако пока полноценные DR-проекты реализованы только в крупных компаниях. Они дорожат своей репутацией и знают цену простоя – потеря транзакций и клиентов. Можно сказать, что требования к доступности сервисов напрямую зависят от степени развития бизнеса.

В том или ином виде DR-решения есть у каждого мобильного оператора. Причина очевидна – высокие нагрузки, прежде всего на СУБД и онлайн-процессинг. В банках и нагрузки ниже, и доля реплицируемых данных меньше. Однако в соответствии с требованиями регулятора они тоже должны обеспечивать DR. 

В классическом бизнесе нет регуляторов, и его специфика обычно не требует DR-решений. Поэтому большинство компаний еще не созрело для построения второго сайта. Кроме того, немногие интеграторы готовы реализовать такие проекты. Во-первых, гарантированное восстановление связано с очень большими рисками. Во-вторых, интеграция с существующими приложениями часто требует нетривиального подхода и специальных компетенций не только на инфраструктурном уровне. А нужных специалистов не хватает и интеграторам, и заказчикам.

Безусловно, в Украине есть несколько крупных интеграторов, которые обучили специалистов и реализовывают DR-проекты. Но они в основном внедряют программные решения для репликации данных отдельных приложений (проект дешевле). Среди компаний, развивающих направление DR в Украине, можно выделить De Novo, VERNA, Инком, «Ситроникс Информационные Технологии», «ЭС ЭНД ТИ УКРАИНА».

Завтра не наступит никогда?

Пока большинство компаний придерживается правила: обойдемся без DR или сделаем это завтра. Если крупные западные организации хорошо представляют отдачу от инвестиций в DR, отечественные менеджеры не всегда считают нужным развивать бизнес и держать марку. Некоторые заказчики утверждают, что могут постоять полчаса, полдня или вовсе потерять данные.

В нашей стране часто именно ИТ-специалисты единолично принимают решения, не всегда согласованные с планами бизнеса. Однако в случае незапланированных простоев или потери данных ИТ-директоров могут даже обвинить во вредительстве, а то и подать на них в суд. Зачастую они понимают необходимость внедрения DR-решений, но не могут получить на них финансирование.

Тенденции и перспективы

Производители все время пытаются найти способ упреждения аварийной остановки систем. Так, в ЕМС понятие Disaster Recovery начинают замещать понятием Disaster Avoidance (DA). В DA большинство простоев запланировано. Прежде чем сервис станет недоступным, его переведут на вторую площадку без перерыва работы (доступа к дисковому пространству) и прозрачно для пользовательской среды.

Новая концепция возникла благодаря средствам виртуализации, которые копируют память виртуальной машины с одного сайта на другой. За репликацию данных отвечает ЕМС VPLEX – программно-аппаратный кэш-акселератор и когерентный репликатор данных между площадками в режиме Active-Active. 

За виртуализатором можно подключить несколько массивов и предоставлять серверам виртуальное дисковое пространство. Модуль на пути между массивом и сервером обеспечивает полностью когерентный доступ к дисковому пространству и кэшу между площадками. Он отслеживает все записи на пути к дисковой системе, реплицирует их на вторую площадку и наоборот. Кроме того, виртуализатор располагает очень большим read-кэшем, что снижает нагрузку на дисковую подсистему.

Полноценного аналога по масштабированию на рынке пока нет. IBM предлагает похожий виртуализатор SVC (но он не работает в режиме Active-Active), NetApp позиционирует MetroCluster.

Сейчас развивается концепция гибридного облака, где заказчик может перемещать виртуальные машины на площадку сервисного провайдера и обратно. Это позволяет перевести капитальные затраты в операционные, а юридическую ответственность за SLA несет провайдер. Кроме того, средства шифрования надежно защищают данные на удаленном сайте. Если имеем дело с большими объемами, миграция между частным и публичным облаком происходит по мере заполнения – на площадку провайдера переносятся только изменения. Виртуализация делает доступными технологии гетерогенной миграции данных между системами хранения данных разного класса и даже разных производителей.

Технологии аппаратного журналирования изменений Continuous Data Protection, Continuous Remote Replication позволяют следить за каждой транзакцией. Они особенно эффективны в средах виртуализации, где классическое резервное копирование невозможно из-за потокового переноса данных через виртуальную машину. Данные журналируются вне виртуальной среды по мере накопления изменений, и не создают пиковые нагрузки на программно-аппаратный комплекс во время резервного копирования. Восстанавливаются виртуальные машины гранулярно путём копирования с логического представления в определенный момент времени на оригинальное место. Это даёт возможность отрабатывать логические ошибки и устраняет недостатки классической репликации, где ошибка тоже копируется. 

Например, программно-аппаратное решение EMC RecoverPoint зеркалирует все операции записи с сервера и ведет журнал операций на двух площадках. На момент времени, с которого загружается, система предоставляет виртуальную копию данных. Она превращается в основную – журнал накатывается и продолжает записывать новые события. Похожее решение есть и у FalconStor.

Наконец, и вовсе фантастический сценарий! Над его реализацией пока только работают сотрудники научно-исследовательских лабораторий. Речь идет о режиме Active-Active с третьей площадкой с журналированием или накатыванием журнала в системах Active-Active. А пока журналирование ведется в асинхронных системах с автопереключением на синхронный режим. 

ЕМС: понимать что происходит

ЕМС – инфраструктурно-ориентированная компания, поэтому она делает огромные инвестиции в DR-решения. Мы стремимся предоставить специалистам заказчика максимальное количество инструментов для управления собственной ИС, автоматизации контроля и перераспределения ресурсов. В результате заказчик может самостоятельно перераспределить нагрузку и выделить ресурсы для приложения.

ЕМС не предлагает заказчику ждать, когда инженер сделает всю работу, а даёт возможность самостоятельно принимать решения. Это сокращает время для выполнения запросов бизнеса и помогает адаптироваться к новым бизнес-задачам. ИТ-специалисты заказчика должны понимать, как лучше использовать технологии. Каждая задача накладывает свои требования к инфраструктуре, порой взаимоисключающие. В этом случае компромисс слишком дорог, а специализированное решение позволяет решить задачу. 

Унификация и виртуализация дают заказчику возможность выбрать наиболее подходящие решения, менять конфигурации. А также без привлечения внешних ресурсов тестировать и откатываться на предыдущую версию. Инфраструктурные системы и DR должны линейно масштабироваться и определять проблемные места или ошибки конфигурации, наращиваться или балансировать нагрузку без перерыва работы приложений. Множество приложений сейчас мигрирует в виртуальные устройства (appliance), сокращая при этом время развёртывания и упрощая администрирование. С таким инструментарием заказчик получает большую отдачу от инфраструктуры без дополнительных инвестиций. 

Оптимальный принцип построения ИТ-инфраструктуры – открытость систем с возможностью дальнейшей их взаимной интеграции, в том числе, с решениями других производителей.

HP: решение под ключ

Мы можем построить полное решение, а не предложить часть технологий и продуктов. Кроме программно-аппаратных комплексов, НР предоставляет полный консалтинг по архитектуре решения для конкретной ситуации, включая необходимые административно-организационные изменения в ИТ-подразделении заказчика. И главное, – все это доступно в Украине.
На рынке сервисов НР не имеет конкурентов в нашей стране. Штат подразделения Technology Service (TS) насчитывает около 70 человек – высокого класса инженеров, архитекторов и консультантов. Они располагают опытом внедрения не только систем HP, но и решений других производителей в различных ландшафтах и под разные задачи. С нашей стороны сервис – не просто «довесок» к системе хранения, а практически необходимая часть.

IBM: 100 лет опыта

IBM – транснациональная корпорация с высокой степенью рассредоточенности по всему миру. За 100-летнюю историю представительства IBM в разных частях света помогали преодолеть всевозможные кризисные ситуации. Уникальность наших решений заключается в системном подходе к Business Continuity в целом и Disaster Recovery в частности. Экспертиза и огромный опыт позволяют решать все задачи, начиная с разработки и внедрения DR-плана, анализа рисков, разработки и внедрения технических решений, и заканчивая тренингами для персонала и дизайном внутренних процедур и процессов. Отличительная черта стратегии IBM в отношении Business Continuity и Disaster Recovery заключается в полном самообеспечении всеми решениями и средствами для полного цикла проектов.

В собственности корпорации – более 400 ЦОДов. Они используются, в том числе, для обеспечения Disaster Recovery. В портфеле IBM (Global) есть и такая услуга: компании-заказчику в случае кризисной ситуации предоставляется оборудованное помещение для работы сотрудников.

NetApp: каждый третий доллар

Компания NetApp является технологическим лидером рынка DR-решений. По данным IDC, она зарабатывает каждый третий доллар, потраченный на репликацию в мире (данные по рынку средств программной репликации за 3 кв. 2011 г. – прим. ред.). В системах NetApp, используя одну технологию и одну лицензию, вы получаете решение репликации для различных типов данных (NAS, SAN) и режимов работы (синхронный, асинхронный, полусинхронный).

Уникальность подхода NetApp в том, что весь функционал работает внутри СХД на уровне ОС DataONTAP и файловой системы WAFL. Таким образом, нет необходимости во внешних серверах, стороннем ПО, агентах и проч. Решения NetApp интегрируются с разными приложениями: основными СУБД, ПО коллективной работы, продуктами резервного копирования и восстановления ведущих разработчиков. Многие наши конкуренты формируют продуктовые портфели за счет поглощений. Они используют разнообразные платформы, которые, как правило, требуют отдельных серверов и агентов на рабочих станциях.

Унифицированная технология репликации, интеграция с приложениями, снижение требований к каналам связи и обеспечение эффективности – причины роста доли NetApp на рынке репликации.

De Novo: нацелены на автоматизацию 

Наш подход к восстановлению систем после катастроф и к обеспечению непрерывности ИТ немного отличается от принятых на украинском рынке практик. В первую очередь, мы формулируем модель угроз ИТ-инфраструктуре и на ее основе разрабатываем архитектуру непрерывности ИТ. А уже после определения будущей архитектуры Disaster Recovery можно говорить о резервном центре, методах репликации и проч.

Еще одна особенность наших решений для DR обусловлена спецификой продуктового портфеля De Novo, тесно связанного с виртуальными облачными инфраструктурами. Предлагаемые нами решения направлены на автоматизацию DR-процедур, что очень важно по нескольким причинам.

Во-первых, актуальность автоматизированного DR-плана можно поддерживать почти без вмешательства администратора. Это ключевой момент, ведь в инфраструктуру постоянно вносят изменения. А план восстановления после катастрофы может не сработать, если они не будут учтены. 

Во-вторых, DR-план выполняется автоматически. Это не означает, что процесс не требует присутствия человека, но человек здесь принимает решения и контролирует работу автоматики.

В-третьих, важный момент непрерывности ИТ – как это выглядит с точки зрения тех, кто не специализируется в ИТ. Как правило, на Disaster Recovery обращает внимание аудит, внешний или внутренний. Причем в первую очередь аудиторов интересует свежий протокол испытаний, подтверждающий возможность активации резервного центра. До появления инструментов автоматизации DR-плана считалось, что достаточно проверять его работоспособность раз в полгода или даже раз в год. Частая проверка приводила к новым рискам непрерывности ИТ, поскольку процедура тестирования могла нарушить работу основного ЦОДа. В нашем мире, уже виртуальном, автоматизированный DR-план можно тестировать гораздо чаще.