Процедуры обеспечения катастрофоустойчивости и защиты данных — неотъемлемая часть стратегии непрерывности бизнеса. Управление непрерывностью бизнеса (BCM — Business Continuity Management) — это комплексный процесс по выявлению потенциальных угроз и рисков, разработке, внедрению и оптимизации стратегии реагирования на угрозы. Целью управления непрерывностью бизнеса является обеспечение устойчивости компании к деструктивным воздействиям, защита интересов владельцев и репутации компании в чрезвычайных ситуациях.


Универсальная процедура внедрения ВСМ
Универсальная процедура внедрения ВСМ

Один из технологических элементов BCM — непрерывная защита данных (CDP — Continuous Data Protection). Она является усовершенствованной формой защиты данных, которая:

возвращает приложение в состояние, соответствующее любому моменту времени (APIT — Any Point in Time);
осуществляет кумулятивное запоминание состояний;
может фиксировать данные постоянно и непрерывно;
не требует наличия окон резервного копирования;
меняет акцент с резервного копирования на восстановление данных.

По прогнозам специалистов, в ближайшие два года ВСМ с почти мгновенным восстановлением будет внедрена как элемент стратегии непрерывности бизнеса в большинстве крупных центров обработки данных. Она дополнит традиционные решения и реально станет частью комплекса управления жизненным циклом информации и непрерывностью бизнеса.

Эволюция концепции резервного копирования и восстановления

Традиционные технологии резервного копирования и восстановления основаны на ленточных решениях и рассчитаны на сценарии возобновления деятельности компании после катастрофы. На восстановление работоспособности ИТ-инфраструктуры может быть потрачено несколько дней. Подобные решения по-прежнему удовлетворяют большую часть требований к средствам восстановления бизнес-деятельности крупных компаний после катастроф (DR — Disaster Recovery).

Однако новые требования и необходимость соответствовать концепции непрерывности бизнеса (BC — Business Continuity) выходят за рамки традиционной модели DR. Это стимулирует ИТ-дирекции современных организаций к поиску менее затратных решений, способных сократить возможное время остановки бизнеса и потерю данных до нескольких часов, минут или секунд, в зависимости от серьезности повреждения и критичности вышедшего из строя приложения для бизнеса.

Достаточно широкое распространение получили дисковые системы хранения данных, для которых постоянно снижается удельная емкость хранения данных при одновременном увеличении емкости используемых накопителей. Дисковые системы соответствуют более жестким требованиям сценариев с минимальным временем восстановления.

Различные требования к снижению корпоративных рисков нуждаются в разных решениях, а зачастую даже в применении нескольких решений внутри приложений и между приложениями. Сегодня топ-менеджмент многих компаний осознает, что риск потери критичных данных и неспособность предприятия своевременно их восстановить иногда страшнее угрозы потери корпоративного центра обработки данных (ЦОД). Таким образом, времена одного универсального “решения для всех” уже прошли, и теперь необходим широкий спектр решений, учитывающих разнообразные требования и способных адаптироваться к быстро меняющимся потребностям бизнеса.

Разнообразие решений

Для наилучшего решения необходима организация нескольких ЦОД с синхронной репликацией, по меньшей мере, между двумя из них — и возможностью асинхронной репликации между этими ЦОД и еще одним — третьим, расположенным в другом регионе. Такое решение является наиболее затратным и в то же время лучшим с точки зрения доступности ЦОД и его соответствия требованиям концепций BC или DR.

Рынком востребованы и альтернативные решения. Они нужны для сокращения длительности восстановления или полного отказа от окон ежедневного или еженедельного резервного копирования, решения проблем искажения информации и локального выхода из строя аппаратно-программных средств.

По этой причине широкое распространение получили технологии зеркального дублирования, снимков (snapshot) и клонов, обеспечивающие создание образов данных типа точек времени (PIT — point in time). Эти образы, создаваемые с определенной частотой (например, несколько раз в день), можно вызвать в случае возникновения проблем.

Однако оценка соответствия (целостности) данных часто может оказаться очень затратной по времени процедурой или потребовать разработки сложных сценариев при автоматизации.

Виртуальная ленточная библиотека (эмуляция ленточных накопителей на дисковых) появилась как промежуточное устройство, устанавливаемое перед самим ленточным накопителем. Она не нарушала сложившуюся экосистему, включавшую традиционные аппаратные средства ЦОД и программы резервного копирования, но в то же время значительно смягчила проблемы недостаточной надежности, низкой производительности и высокой стоимости обслуживания ленточных накопителей.

Тем не менее, такие решения по-прежнему обеспечивают создание образов данных типа точек времени (часто с инкрементальным обновлением) и также нуждаются в проверке на соответствие, чтобы гарантировать целостность данных.

Хотя используемые сегодня решения отвечают многим требованиям, предъявляемым к ЦОД, они остаются неспособными к откату на момент возникновения ошибки и/или к ближайшей точке времени без существенных затрат рабочего времени специалистов на оценку целостности данных, что приводит к затягиванию процесса восстановления и остановке бизнес-процессов на длительный период.

Концепция CDP

Специальная рабочая группа CDP ассоциации SNIA (Storage Networking Industry Association) дает следующее определение непрерывной защиты данных: “Методология, при которой постоянно отслеживаются или записываются модификации данных, а изменения сохраняются независимо от основных данных, что обеспечивает восстановления из любой точки в прошлом. Системы CDP могут быть построены на блочном, файловом или уровне приложений и обеспечивают большую глубину детализации восстанавливаемых объектов до уровня бесконечно переменных точек восстановления”.

Проще говоря, это технология, обеспечивающая способ обращения к данным или восстановление данных на то состояние, которое существовало в любой предыдущий момент времени с точностью до секунд или минут, и, следовательно, начинающая трансформироваться в восстановление локального приложения.

Отметим, что процитированное определение не относится к общепринятому сегодня понятию восстановления ЦОД после катастроф. Однако непрерывная защита данных может входить в состав концепции DR.

Технология CDP сегодня большей частью нацелена на решение проблем локального разрушения данных, таких как разрушение баз данных, активность вирусных или других деструктивных программ или случайное удаление данных, требующих быстрого восстановления. Целью CDP является быстрый онлайновый откат приложения в непротиворечивой форме и с минимальной потерей данных.

Метод зеркального дублирования в таких случаях не помогает, потому что зеркальная копия будет также испорчена. Снимки (snapshot) могут помочь, но принятие решения о том, какой снимок использовать для обновления, требует затрат времени, а потому также проблематично.

Альтернативным выходом можно считать резервную копию на ленте, однако такой процесс займет слишком много времени — дни или часы, в зависимости от организации ЦОД и способа реализации резервного копирования. Технология же непрерывной защиты данных способна фиксировать каждую операцию записи и временную точку состояния приложения, предлагая динамическое и управляемое решение по восстановлению данных с глубокой детализацией.

Вначале концепцию CDP применили к процедурам локального резервного копирования и восстановления данных, связанных с отдельным набором критичных приложений со следующими общими характеристиками:


Принцип действия CDP
Принцип действия CDP
обычно это крупные транзакционные системы, которые характеризуются большим числом операций записи, следовательно, их данные изменяются часто;
функционируют непрерывно, их остановка критична для бизнеса;
оперируют большим объемом данных (используют базу данных), поэтому выполнение таких действий, как традиционное резервное копирование, затруднено и занимает много времени;
характеризуются близким к нулю целевым временем восстановления, исчисляемым минутами и даже секундами (RTO — recovery time objective), и близкой к нулю или нулевой (последняя выполненная транзакция) целевой точкой восстановления (RPO — recovery point objective) или допустимой нормой потери данных.

Концепция CDP основана на дисковом хранении данных, фиксации всех операций записи данных и ведении журнала всей истории состояний данных, с возможностью восстановления типа any point in time вместо традиционного подхода восстановления по расписанию (scheduled point in time).

Концепция CDP не заменяет традиционные методы сохранения данных на диске или ленте на базе резервного копирования по расписанию или долговременное архивирование.

Однако ее внедрение ослабляет или вовсе отменяет необходимость в локальных резервных копиях для критических приложений, поскольку резервное копирование будет выполняться в режиме off-site и point in time самим устройством CDP, с использованием имеющейся программы резервного копирования.

Такое положение может измениться по мере того, как CDP становится неотъемлемой частью решения по резервному копированию/восстановлению и репликации. Это происходит из-за постепенного объединения требований к резервному копированию и архивации в силу того, что для организаций все более важными становятся вопросы управления жизненным циклом информации (ILM — information lifecycle management).

Типы решений

Ключевым аспектом концепции CDP является постоянная фиксация всех изменений и временных образов данных, что обеспечивает возможность отката к любой точке времени. Важно заметить, что эта методика отличается от периодических снимков, которые часто расценивают как “почти CDP”, поскольку всегда есть выдержка, зазор по данным между снимками и менее гранулированными точками восстановления. Кроме того, необходимое дисковое пространство для периодических снимков намного превышает требования истинно непрерывных решений. Системы CDP могут быть основаны как на базе блоков, так и на базе файлов данных.

Системы на базе блоков данных функционируют на уровне блоков логических устройств. После записи блоков данных в основное хранилище копии сохраняются, а их временными образами и местоположением управляет некий менеджер метаданных. Фиксация данных на уровне блоков работает для всех типов данных (структурированных, полуструктурированных и неструктурированных). Интеграция на уровне приложений производится через API (такие как Oracle и MS SQL Server). Системы CDP на базе блоков данных ориентированы на ЦОД и восстановление СУБД, поскольку обеспечивают глубокую детализацию и высокую гибкость в мультиплатформенной среде.

Системы на базе файлов функционируют примерно по такому же принципу, но только на физическом файловом уровне. Файловые системы CDP могут обеспечить большую детализацию восстановления приложений (таких как MS Exchange или SQL Server), поскольку они способны осуществлять восстановление на файловом уровне, а не на уровне целого тома. Системы на базе файлов обычно ориентированы на одну платформу и на одно приложение, поскольку единого файлового решения для разнородной среды не существует.

Несмотря на отличия в реализации, все системы CDP работают примерно одинаково. Одни продукты являются чисто программными, другие — аппаратно-программными комплексами (appliance). Разные решения могут функционировать на уровне приложения, файловой системы или тома. Некоторые решения работают без агентов, другие требуют установки агента и/или драйвера на хост-платформе. Степень детализации восстановления и масштабирования может варьироваться весьма заметно от решения к решению, в зависимости от базовой архитектуры. Поэтому необходимо соотносить предъявляемые требования с возможностями того или иного решения.

Подавляющее большинство внедрений ЦОД позиционируется как мультиплатформенные системы на базе блоков данных, чтобы обеспечить необходимую гибкость и использовать одно решение в гетерогенных средах.

Интегрированная среда и непротиворечивость данных

В составе ЦОД может существовать несколько интегрированных сред — когда несколько приложений и/или баз данных взаимосвязаны между собой и работают на одном или нескольких гетерогенных серверах и дисковых массивах. Восстановление интегрированной среды требует согласованности различных компонентов, образующих данную среду, а следовательно, репликации, ориентированной на конкретное приложение. Удачное решение по непрерывной защите ЦОД должно обеспечивать непротиворечивые точки восстановления и уметь работать по следующим сценариям:

несколько БД, одна хост-платформа, один дисковый массив;
несколько БД, одна платформа, несколько массивов;
несколько БД, несколько платформ, один массив;
несколько БД, несколько платформ, несколько массивов.

Как во всякой развивающейся технологии, добавление функциональности — процесс итерационный. Поскольку для ЦОД риск неприемлем, реализацию CDP по трем последним сценариям обычно следует начинать после внедрения более прямолинейной и простой первой схемы “один хост — один массив”. Все операционные процедуры должны быть тщательно отлажены еще до перехода к более сложной схеме.

С чего начать?

Прежде чем принимать решение о модернизации, организация должна осознать, сформулировать и классифицировать риски, угрожающие предприятию. Высшему руководству компании следует определить приемлемый уровень допустимости тех или иных критических ситуаций: авария локального ЦОД, разрушение БД, вирусная активность, выход из строя ИТ-инфраструктуры, аппаратные и программные сбои, нарушение правил и соглашений по отношению к каждому бизнес-приложению.

Не все приложения нуждаются в решениях, обладающих наивысшей устойчивостью ко всем потенциальным угрозам. Только на этапе согласования и подписания контракта и технических условий можно оценить соответствие принятого решения объективным потребностям бизнеса.

Для успеха дела в организации должна быть разработана матрица доступности, которая покажет, как используемые приложения согласуются с возможностью восстановления в случае возникновения тех или иных критических ситуаций. В результате исполнительный и финансовый директора получают правдивую картину существующих угроз для бизнеса компании.

Кроме того, нужно сравнить затраты на альтернативные решения высокой степени доступности (такие как CDP) с текущими затратами. Вначале нужно попытаться достичь необходимого уровня доступности сервисов, используя один ЦОД, без обязательного создания дублирующего резервного центра для обеспечения катастрофоустойчивости. Если наличие второго ЦОД определяется требованиями бизнеса, необходимо приступить к оценке альтернативных решений, в соответствии с требованиями приложений.

Помимо этого, есть несколько контрольных точек, которые нужно обязательно пройти, прежде чем принимать решение о создании решения CDP.

Следующие ситуации требуют предварительного рассмотрения:

незащищенные приложения;
приложения с малыми окнами или вообще без окон резервного копирования;
приложения, склонные к разрушению и/или удалению файлов;
большие хранилища данных/базы данных с большой частотой транзакций.

Топ-менеджеры компании должны иметь четкое представление относительно базовых затрат на текущую ИТ-инфраструктуру предприятия, с тем чтобы модернизация в контрольных точках сопровождалась приобретением дополнительных возможностей и имели оправданную стоимость цен.

С Василием Затишным, менеджером по техническому маркетингу компании “Квазар-Микро”, можно связаться
vasily.zatishny@kvazar-micro.com