Сергей Грищенко, директор технического департамента Symantec, Россия и СНГ
Подход к организации ИТ-инфраструктуры по принципу “пока гром не грянет — мужик не перекрестится” не является исключительно особенностью отечественного бизнеса. Ежедневно десятки компаний во всем мире сталкиваются с неподготовленностью своих ИТ-отделов к катастрофам самого различного свойства: экологическим, техногенным, а теперь еще и террористическим. По данным независимого исследования, 92% мировых компаний столкнутся с серьезными последствиями, если им придется реализовывать планы послеаварийного восстановления.
![]() Диаграмма 1. Причины аварий вычислительных систем |
В результате исследования The Veritas Disaster Recovery Research, проведенного в 2004 году, обнаружилось, что 43% организаций во всем мире в основном неподготовлены к крупным катастрофам. Данные британской компании Dynamic Markets, полученные в ходе опроса 1259 ИТ-профессионалов во всем мире, свидетельствуют, что всего 38% респондентов имеют всеобъемлющие планы послеаварийного восстановления и обеспечения непрерывности бизнеса. Несмотря на это, 92% признают, что крупная авария их ИТ-инфраструктуры привела бы к серьезным негативным последствиям.
При этом число компаний, которым приходится прибегать к планам послеаварийного восстановления, ежегодно увеличивается. Причины аварий представлены на диаграмме 1 — это и вирусные атаки, и природные катастрофы, и ошибки, вызванные человеческим фактором.
В Великобритании за год в помещениях организаций произошли 41100 пожаров, требующих внимания пожарной и спасательной служб. При этом сценарий полного выхода из строя главного вычислительного центра компании из-за естественной катастрофы, такой как пожар или ураган, ставит в тупик многих ИТ-менеджеров. Диаграмма 2, составленная по данным исследований, демонстрирует, что лишь 3% компаний уверены в немедленном восстановлении полноценного функционирования ИТ-служб предприятия в случае подобной катастрофы.
Данные, полученные в ходе исследования Veritas, свидетельствуют, что планы послеаварийного восстановления значительно отстают от изменений в области ИТ.
Вирусные атаки, внедрение новых технологий, рост числа обновлений программного обеспечения приводят к тому, что многие сценарии устаревают. Лишь немногие из числа компаний, ежемесячно обновляющих программное обеспечение, с той же периодичностью проводят ревизию собственных планов послеаварийного восстановления (Disaster Recovery, DR).
По результатам исследования Disaster Recovery, 97% организаций в регионе EMEA не сможет продолжать нормально вести бизнес в случае пожара в центре обработки данных, несмотря на наличие планов послеаварийного восстановления. Свыше 40% не в состоянии предсказать, как много времени займут операции по полному или частичному восстановлению. Эти выводы служат организациям строгим предупреждением: недостаточно просто иметь план послеаварийного восстановления, чтобы гарантировать защиту бизнеса. Учитывая динамизм изменений в ИТ-инфраструктуре компаний, регулярные учения и ревизии должны стать критическим компонентом каждой стратегии послеаварийного восстановления.
Во многих организациях для восстановления нормальной работы предприятия после катастрофы применяются самые разнообразные технологии и процессы. В 86% организаций имеются простейшие системы резервного копирования. Многие компании применяют программное обеспечение восстановления, популярны вынесенные средства резервирования. Несмотря на эти приготовления, многие компании оказываются не в состоянии принять скоординированные меры для быстрого восстановления работы в случае пожара. Причины отсутствия этой стратегии указаны на диаграмме 3.
![]() Диаграмма 2. Реакция ИТ-менеджеров на сценарий пожара, полностью разрушившего центр обработки данных |
Резервное копирование и восстановление: первая линия обороны
Чтобы ограничить затраты, связанные с послеаварийным восстановлением, недостаточно хорошо спланированной общекорпоративной процедуры резервного копирования. Представьте себе сценарий, когда сервер выходит из строя: под угрозой — доходы, производительность труда, моральное состояние коллектива и лояльность заказчиков. Времени для полного восстановления сервера не хватает. Компаниям свойственно недооценивать потери, которые они понесут вследствие длительного восстановления системы. На полное восстановление часто уходят дни. Нужно найти хороших специалистов по восстановлению систем, отремонтировать или заменить оборудование, установить операционные системы, сконфигурировать аппаратуру, восстановить данные и настроить приложения.
Для снижения рисков нужна технология, которая могла бы объединить резервное копирование и восстановление с репликацией, упростить и автоматизировать восстановление данных и сократить время восстановление до минут.
Резервное копирование и восстановление — одинаково важные составляющие процесса послеаварийного восстановления. Их эффективная интеграция помогает администраторам средних и малых предприятий обеспечивать сохранность данных. Решение резервного копирования и восстановления должно быть соразмерно стоящей задаче. Рассмотрим четыре основных способа построения мощного и эффективного решения резервного копирования и восстановления.
1. Минимизация интервала дублирования
Решения резервного копирования и восстановления должны выполнять действия с минимальным влиянием на работу организации. Полномасштабное резервное копирование, которое когда-то требовало массу времени, теперь в большинстве случаев можно заменить более простым и коротким процессом создания частичных копий, которые объединяются в одну общую. Этот подход дает еще одно важное преимущество: он сокращает количество используемой магнитной ленты и гарантирует лучшую индексацию, что в свою очередь ведет к укороченному времени восстановления.
Решение резервного копирования и восстановления с функцией последовательного копирования disk-to-disk уменьшает стоимость архивирования удаленных и экстерриториальных данных, позволяя указывать один главный и до трех дополнительных целевых объектов. Кроме того, переход к копированию с диска на диск сужает интервал дублирования. В ряде случаев дисковые системы хранения данных становятся более предпочтительным решением по сравнению с накопителями на магнитных лентах.
2. Организация полного экстерриториального управления резервными копиями и архивами
Управление дублированием резервных копий и хранящимися в безопасном месте носителями может включать сложные и трудоемкие процедуры. Существуют технологии, способные автоматизировать этот процесс. Они позволяют устанавливать наборы правил, управляющие дублированием резервных копий, — с условиями запуска и описанием перемещений данных, в т.ч. перевозки лент в удаленное хранилище. Автоматизация резервного копирования и восстановления даст возможность персоналу сконцентрироваться на работе по восстановлению бизнес-процессов.
3. Автоматическое восстановление сервера
![]() Диаграмма 3. Причины отсутствия плана восстановления |
В ходе каждого планового сеанса полного или частичного обслуживания система сохраняет данные, необходимые для восстановления, автоматически записывая конфигурацию системы, в т.ч. параметры настройки TCP/IP и данные дисков. При восстановлении система возвращается к состоянию последнего успешного цикла резервного копирования или к состоянию перед резервным копированием. В случае аварии с выходом из строя нескольких серверов решение может восстанавливать их параллельно.
Если используется неоднородная среда с разными операционными системами, то решение должно уметь восстанавливать все системы с применением одной и той же процедуры, восстанавливать файловые системы, приложения и данные пользователей, автоматически перезагружать каждый восстановленный сервер.
4. Объединение резервного копирования и восстановления с репликацией
Комплексное решение резервного копирования и восстановления должно включать средства дистанционной репликации в режиме реального времени или зеркального дублирования данных по сети хранения данных или любой IP-сети. Немедленная доступность текущих данных на территориально удаленных системах позволяет существенно ускорить процесс восстановления. Технология должна быть универсальной и гибкой, способной реплицировать данные из удаленных офисов и с ноутбуков сотрудников. Она должна гарантировать целостность данных и доступность приложений.
Выводы
Сегодня существует технология автоматического восстановления после крупных аварий, таких как отказ сервера. Функции последовательного (inline) копирования и поэтапного архивирования сужают интервал дублирования. Комплексный подход к резервному копированию, репликации и восстановлению, а также постоянное наблюдение за рабочей средой позволяют автоматически восстанавливать сервер, содержащий критически важные файлы и приложения, возвращая его к работе в считанные минуты при минимальном вмешательстве пользователя. В частности, для средних и малых предприятий эти преимущества составляют мощную линию обороны против снижения производительности труда и доходов в случае непредвиденного отказа системы.
Опыт показывает, что естественные катастрофы могут произойти и происходят. И все же при наступлении крупной аварии вроде пожара в центре обработки данных многие организации не смогут быстро и эффективно восстановить свою работу. Подготовка планов послеаварийного восстановления и реализация технологий резервного копирования — критически важные шаги, но это лишь часть того, что необходимо, чтобы гарантированно защитить предприятия от неожиданностей. Если вы можете справиться только с тем, что вам знакомо, без регулярных учений и ревизий не обойтись. Центр обработки данных — это динамичная среда, и без периодической проверки знаний любые планы неизбежно становятся неэффективными.