Обеспечение непрерывности бизнеса связывают с задачами балансировки аппаратной нагрузки между двумя площадками. Нехватка помещений и мощностей электропитания вынуждают организации инвестировать в резервные сайты. А раз на них уже установлены аппаратные компоненты, почему бы не заставить их работать? Всё стало еще проще с появлением технологий виртуализации. Унификация систем, протоколов и средств управления сделала приложение независимым от физического размещения и разрешила балансировку нагрузки на нескольких площадках.
Виртуализация позволяет реплицировать на удаленные сайты виртуальных машин данные и даже целые сервисы. Кроме того, теперь можно перенести виртуальную машину на резервную площадку без прерывания работы пользователей. А гибкость и простота развёртывания виртуальных сред дает ИТ-подразделениям возможность сосредоточиться на планировании.
В классическом решении при возникновении проблем на основной площадке (данные на обеих площадках идентичны) приложения могут стартовать на резервной из состояния, в котором прервалась работа. Репликация между площадками может быть синхронной (без потери данных, с подтверждением приложению, что данные уже на второй площадке) и асинхронной (с потерей последних данных, но без задержки на подтверждение приложению). Чем меньше отставание данных между площадками, тем больше требований к каналу.
Процесс репликации связан с особенностями ПО, для которого он инициирован. Если содержимое буферов приложения в памяти потеряется – реплика данных может оказаться нецелостной (не подлежит запуску). Также разные системы зависят от данных, которые в них содержатся. Если реплика данных определенной системы отстала на 30 мин. и ее данные используются другими системами, работа приложения нарушается. Восстановлением и отслеживанием зависимостей занимаются средства автоматизации восстановления работы приложений. Например, VMware Site Recovery Manager играет роль промежуточного звена между средствами репликации и корректного запуска приложений/сервисов.
Новый подход только приобретает популярность, но на его стороне – удобство и прозрачность управления. Концепция облака позволяет использовать аппаратные ресурсы без учета их расположения. Она превращает два территориально удаленных ЦОДа в единое инфраструктурное пространство, прозрачное относительно балансировки нагрузки и решений DR.
Для проведения плановых работ на одной площадке или перераспределения нагрузки между серверами (дисками), достаточно онлайн мигрировать виртуальную машину с приложением. Ведь дисковый ресурс на обеих площадках один и мигрировать данные не нужно. Учитываются и возможности IP-канала: сколько может быть одновременных сессий онлайн-миграций виртуальных машин, возможна ли их миграция по одной и сколько она продлится (обычно 1-2 минуты).
Такие решения очень популярны в виртуальных средах. Виртуальные машины переносятся между серверами без разрыва соединений с клиентами. Пользователи и не догадываются, что их приложение переместилось из одной части инфраструктуры в другую. Такие «чудеса» могут творить VMware vMotion или Microsoft Hyper-V Live Migration.
Единое дисковое пространство с активным доступом на обеих площадках позволяет организовать консолидированное хранилище данных виртуальных машин и приложений. При этом виртуальная машина может мигрировать без выделения для неё дискового пространства и переключения направления репликации.
Отметим, что режим Active-Active реализуется и с помощью приложений, например Oracle Intimate Shared Memory (ISM). При этом приложения должны иметь доступ к данным на каждой площадке. Когерентность данных обеспечивают кэши Oracle. А распараллеливание происходит через Real Application Clusters (RAC) – так достигают линейного масштабирования.
Если вышел из строя физический компонент, можно переключиться на резервный узел кластера или резервный сайт. Гораздо сложнее избежать логических ошибок, совершаемых людьми. Классический режим резервного копирования и восстановления использует «машину времени», которая возвращает логику приложения на предшествующий инциденту момент.
Восстановление выглядит так: приложение с ошибкой останавливается, из журнала выбирается логическое представление необходимого момента времени данных (гранулярность выбора секунды) из которого приложение снова стартует. Если версия данных устраивает, логическое представление превращается в физические данные путём накатывания изменённых блоков.
Данные монтируются автоматически. В чём же преимущество резервного копирования и восстановления по сравнению с классическими системами? Прежде всего, это гранулярность по времени – секунды-минуты. Не нужно накатывать журналы транзакций с ночной резервной копии. Нет необходимости ждать копирования данных ночной резервной копии с ленты на диск. Наконец, не надо восстанавливать весь цикл инкрементальных резервных копий – накатываются только изменения.
Многообразие решений
Изначально СХД позиционировались как аппаратные средства для эффективного использования дискового пространства и консолидации нагрузки. Понятно, что 3-4 диска в одном сервере не могут обслужить несколько сотен пользователей почтовой или банковской системы. Все производители СХД приветствовали виртуализацию, ведь виртуальные машины точно не разместишь на локальных дисках. И сегодня технология репликации и балансировки нагрузки между площадками становится драйвером рынка СХД.
ЕМС первой предложила решения высокой доступности приложений, основанных на аппаратной репликации данных. Она ещё в 1994 г. реализовала репликацию между двумя дисковыми системами Symmetrix. Сейчас компания инвестирует средства в развитие полноценных масштабируемых решений Active-Active.
Законодателями мод в сегменте DR-решений класса предприятий сейчас являются две платформы: ЕМС Symmetrix и Hitachi VSP. Последнюю по ОЕМ-соглашению под собственной торговой маркой P9500 ХР продвигает компания HP. Но сегодня многие производители дисковых платформ выступают ОЕМ-партнерами небольшой компании FalconStor. Она же является претендентом на поглощение крупными игроками – конкурентами ЕМС.
Решения NetApp основаны на технологиях моментальных снимков, встроенных в ОС. Они позволяют за секунды производить резервное копирование и восстанавливать данные. NetApp также предлагает технологии кластеризации на блочном и файловом уровне – они дают возможность строить DR-решения с помощью унифицированных СХД. Последние могут масштабироваться до уровня большого кластера со многими узлами. Но это ограничивает возможности синхронной репликации.
Кому это нужно
В том или ином виде DR-решения есть у каждого мобильного оператора. Причина очевидна – высокие нагрузки, прежде всего на СУБД и онлайн-процессинг. В банках и нагрузки ниже, и доля реплицируемых данных меньше. Однако в соответствии с требованиями регулятора они тоже должны обеспечивать DR.
Безусловно, в Украине есть несколько крупных интеграторов, которые обучили специалистов и реализовывают DR-проекты. Но они в основном внедряют программные решения для репликации данных отдельных приложений (проект дешевле). Среди компаний, развивающих направление DR в Украине, можно выделить De Novo, VERNA, Инком, «Ситроникс Информационные Технологии», «ЭС ЭНД ТИ УКРАИНА».
Пока большинство компаний придерживается правила: обойдемся без DR или сделаем это завтра. Если крупные западные организации хорошо представляют отдачу от инвестиций в DR, отечественные менеджеры не всегда считают нужным развивать бизнес и держать марку. Некоторые заказчики утверждают, что могут постоять полчаса, полдня или вовсе потерять данные.
Тенденции и перспективы
Производители все время пытаются найти способ упреждения аварийной остановки систем. Так, в ЕМС понятие Disaster Recovery начинают замещать понятием Disaster Avoidance (DA). В DA большинство простоев запланировано. Прежде чем сервис станет недоступным, его переведут на вторую площадку без перерыва работы (доступа к дисковому пространству) и прозрачно для пользовательской среды.
Новая концепция возникла благодаря средствам виртуализации, которые копируют память виртуальной машины с одного сайта на другой. За репликацию данных отвечает ЕМС VPLEX – программно-аппаратный кэш-акселератор и когерентный репликатор данных между площадками в режиме Active-Active.
За виртуализатором можно подключить несколько массивов и предоставлять серверам виртуальное дисковое пространство. Модуль на пути между массивом и сервером обеспечивает полностью когерентный доступ к дисковому пространству и кэшу между площадками. Он отслеживает все записи на пути к дисковой системе, реплицирует их на вторую площадку и наоборот. Кроме того, виртуализатор располагает очень большим read-кэшем, что снижает нагрузку на дисковую подсистему.
Полноценного аналога по масштабированию на рынке пока нет. IBM предлагает похожий виртуализатор SVC (но он не работает в режиме Active-Active), NetApp позиционирует MetroCluster.
Технологии аппаратного журналирования изменений Continuous Data Protection, Continuous Remote Replication позволяют следить за каждой транзакцией. Они особенно эффективны в средах виртуализации, где классическое резервное копирование невозможно из-за потокового переноса данных через виртуальную машину. Данные журналируются вне виртуальной среды по мере накопления изменений, и не создают пиковые нагрузки на программно-аппаратный комплекс во время резервного копирования. Восстанавливаются виртуальные машины гранулярно путём копирования с логического представления в определенный момент времени на оригинальное место. Это даёт возможность отрабатывать логические ошибки и устраняет недостатки классической репликации, где ошибка тоже копируется.
Наконец, и вовсе фантастический сценарий! Над его реализацией пока только работают сотрудники научно-исследовательских лабораторий. Речь идет о режиме Active-Active с третьей площадкой с журналированием или накатыванием журнала в системах Active-Active. А пока журналирование ведется в асинхронных системах с автопереключением на синхронный режим.
ЕМС: понимать что происходит
ЕМС – инфраструктурно-ориентированная компания, поэтому она делает огромные инвестиции в DR-решения. Мы стремимся предоставить специалистам заказчика максимальное количество инструментов для управления собственной ИС, автоматизации контроля и перераспределения ресурсов. В результате заказчик может самостоятельно перераспределить нагрузку и выделить ресурсы для приложения.
ЕМС не предлагает заказчику ждать, когда инженер сделает всю работу, а даёт возможность самостоятельно принимать решения. Это сокращает время для выполнения запросов бизнеса и помогает адаптироваться к новым бизнес-задачам. ИТ-специалисты заказчика должны понимать, как лучше использовать технологии. Каждая задача накладывает свои требования к инфраструктуре, порой взаимоисключающие. В этом случае компромисс слишком дорог, а специализированное решение позволяет решить задачу.
Унификация и виртуализация дают заказчику возможность выбрать наиболее подходящие решения, менять конфигурации. А также без привлечения внешних ресурсов тестировать и откатываться на предыдущую версию. Инфраструктурные системы и DR должны линейно масштабироваться и определять проблемные места или ошибки конфигурации, наращиваться или балансировать нагрузку без перерыва работы приложений. Множество приложений сейчас мигрирует в виртуальные устройства (appliance), сокращая при этом время развёртывания и упрощая администрирование. С таким инструментарием заказчик получает большую отдачу от инфраструктуры без дополнительных инвестиций.
Оптимальный принцип построения ИТ-инфраструктуры – открытость систем с возможностью дальнейшей их взаимной интеграции, в том числе, с решениями других производителей.
HP: решение под ключ
Мы можем построить полное решение, а не предложить часть технологий и продуктов. Кроме программно-аппаратных комплексов, НР предоставляет полный консалтинг по архитектуре решения для конкретной ситуации, включая необходимые административно-организационные изменения в ИТ-подразделении заказчика. И главное, – все это доступно в Украине.
На рынке сервисов НР не имеет конкурентов в нашей стране. Штат подразделения Technology Service (TS) насчитывает около 70 человек – высокого класса инженеров, архитекторов и консультантов. Они располагают опытом внедрения не только систем HP, но и решений других производителей в различных ландшафтах и под разные задачи. С нашей стороны сервис – не просто «довесок» к системе хранения, а практически необходимая часть.
IBM: 100 лет опыта
IBM – транснациональная корпорация с высокой степенью рассредоточенности по всему миру. За 100-летнюю историю представительства IBM в разных частях света помогали преодолеть всевозможные кризисные ситуации. Уникальность наших решений заключается в системном подходе к Business Continuity в целом и Disaster Recovery в частности. Экспертиза и огромный опыт позволяют решать все задачи, начиная с разработки и внедрения DR-плана, анализа рисков, разработки и внедрения технических решений, и заканчивая тренингами для персонала и дизайном внутренних процедур и процессов. Отличительная черта стратегии IBM в отношении Business Continuity и Disaster Recovery заключается в полном самообеспечении всеми решениями и средствами для полного цикла проектов.
В собственности корпорации – более 400 ЦОДов. Они используются, в том числе, для обеспечения Disaster Recovery. В портфеле IBM (Global) есть и такая услуга: компании-заказчику в случае кризисной ситуации предоставляется оборудованное помещение для работы сотрудников.
NetApp: каждый третий доллар
Компания NetApp является технологическим лидером рынка DR-решений. По данным IDC, она зарабатывает каждый третий доллар, потраченный на репликацию в мире (данные по рынку средств программной репликации за 3 кв. 2011 г. – прим. ред.). В системах NetApp, используя одну технологию и одну лицензию, вы получаете решение репликации для различных типов данных (NAS, SAN) и режимов работы (синхронный, асинхронный, полусинхронный).
Уникальность подхода NetApp в том, что весь функционал работает внутри СХД на уровне ОС DataONTAP и файловой системы WAFL. Таким образом, нет необходимости во внешних серверах, стороннем ПО, агентах и проч. Решения NetApp интегрируются с разными приложениями: основными СУБД, ПО коллективной работы, продуктами резервного копирования и восстановления ведущих разработчиков. Многие наши конкуренты формируют продуктовые портфели за счет поглощений. Они используют разнообразные платформы, которые, как правило, требуют отдельных серверов и агентов на рабочих станциях.
Унифицированная технология репликации, интеграция с приложениями, снижение требований к каналам связи и обеспечение эффективности – причины роста доли NetApp на рынке репликации.
De Novo: нацелены на автоматизацию
Наш подход к восстановлению систем после катастроф и к обеспечению непрерывности ИТ немного отличается от принятых на украинском рынке практик. В первую очередь, мы формулируем модель угроз ИТ-инфраструктуре и на ее основе разрабатываем архитектуру непрерывности ИТ. А уже после определения будущей архитектуры Disaster Recovery можно говорить о резервном центре, методах репликации и проч.
Еще одна особенность наших решений для DR обусловлена спецификой продуктового портфеля De Novo, тесно связанного с виртуальными облачными инфраструктурами. Предлагаемые нами решения направлены на автоматизацию DR-процедур, что очень важно по нескольким причинам.
Во-первых, актуальность автоматизированного DR-плана можно поддерживать почти без вмешательства администратора. Это ключевой момент, ведь в инфраструктуру постоянно вносят изменения. А план восстановления после катастрофы может не сработать, если они не будут учтены.
Во-вторых, DR-план выполняется автоматически. Это не означает, что процесс не требует присутствия человека, но человек здесь принимает решения и контролирует работу автоматики.
В-третьих, важный момент непрерывности ИТ – как это выглядит с точки зрения тех, кто не специализируется в ИТ. Как правило, на Disaster Recovery обращает внимание аудит, внешний или внутренний. Причем в первую очередь аудиторов интересует свежий протокол испытаний, подтверждающий возможность активации резервного центра. До появления инструментов автоматизации DR-плана считалось, что достаточно проверять его работоспособность раз в полгода или даже раз в год. Частая проверка приводила к новым рискам непрерывности ИТ, поскольку процедура тестирования могла нарушить работу основного ЦОДа. В нашем мире, уже виртуальном, автоматизированный DR-план можно тестировать гораздо чаще.