Предприятиям и компаниям из разных отраслей приходится решать всевозможные задачи в области управления информацией, включая хранение возрастающих объемов данных и управление ими, контроль доступа к информации при дифференцированном предоставлении уровней обслуживания, соблюдение нормативных требований, поддержку бизнес-процессов и их непрерывность. В соответствии с этими требованиями инфраструктура хранения должна способствовать рациональному использованию ИТ-ресурсов, быть энергоэффективной, гибкой и экономически обоснованной.
Реализация этих задач требует качественно новых решений, ориентированных на системный и сервисный подход к бизнесу и обеспечивающих консолидацию хранения информации на основе отраслевых стандартов и управление полным жизненным циклом данных.По прогнозам аналитиков, в ближайшие шесть лет объемы хранящихся данных вырастут со 161 до 988 млрд. гигабайт. ИТ-инфра-структура, безусловно, усложняется. Как во всём мире, так и в большинстве крупных отечественных компаний, происходят схожие процессы преобразования информационной инфраструктуры: консолидация, централизация резервного копирования, усиление механизмов сохранения целостности и защиты от потери данных, автоматизация бизнес- процессов, предоставление подразделениям компании гарантированных уровней качества обслуживания, построение катастрофоустойчивых решений.
Концепция ILM отвечает требованиям времени, поскольку позволяет преодолеть перечисленные ограничения и трудности. Несколько лет назад было положено начало концепции ILM. Тогда была озвучена идея разделения информации и связанных с ней данных по нескольким дискретным уровням в зависимости от текущей ценности и некоторых других факторов – необходимого уровня сервиса для пользователей, работающих на конкретном уровне.
Уровневое разделение данных имеет смысл, поскольку стоимость хранения и сопровождения данных для разных уровней существенно различается — в обычном случае речь идет о разнице в стоимости хранения единицы информации. По мере развития технологий, способных обеспечить несколько уровней хранения, эта концепция приобретает всё больше сторонников. С появлением относительно недорогих и надежных SАТА-дисков, структура обрела сегодняшние очертания.
В практическом аспекте первые этапы реализации ILM выглядели следующим образом. Дисковые накопители стандартов FC и АТА (SATA), которые ранее могли работать только в различных массивах, благодаря развитию технологий получили возможность объединения в рамках одного хранилища. Такое объединение позволило реализовать несколько уровней сервиса в пределах одного массива. Следующим шагом стало применение технологий прозрачной миграции данных от уровня к уровню.
Одновременно с разработкой технической стороны уточнялись принципы построения подобных архитектур. В итоге была выработана трехфазная модель ILM, которая де-факто стала стандартом в этой индустрии. Первая фаза – распределение приложений, информации и данных по уровням, вторая – выборка крупных приложений, и третья – создание интегрированной среды.
Бизнес-аргументация
Любые данные, существующие в бизнес-среде, имеют свой цикл жизни – от возникновения до окончательного удаления. Без единого управления жизненным циклом разрозненные фрагменты данных проходят свои собственные несвязанные и бесконтрольные стадии, создавая в совокупности полный информационный хаос. Представьте себе огромное предприятие, в котором вся существующая масса данных располагается неструктурированным образом в системах хранения. Как правило, предприятие, которое стремится избежать потери важной и конфиденциальной информации, делает все возможное для оптимизации систем хранения – от физической защиты периметра до наращивания дорогостоящих хранилищ. Но в подавляющем большинстве случаев среди столь надежно охраняемых данных лишь немногие критически важны для бизнеса. Опыт также показывает, что только некоторые из этих данных используются действительно часто.
Разбивка информации по логическим стадиям жизненного цикла (т.е. по типу и частоте использования), а также по уровням критичности внутри каждой из них, позволит разместить большую часть информации на дешевых системах хранения без какого-либо негативного влияния на работу компании. С этого момента отделы ИБ могут точечно распределять усилия по охране действительно «чувствительных» данных, службы технической поддержки — сосредоточиться на критичных системах хранения, перераспределяя приоритеты поддержки и уменьшая нагрузку на персонал. Очевидно, что в результате такой реорганизации высвобождается значительная часть ресурсных мощностей и устраняется необходимость в наращивании дорогостоящих систем. Все эти факторы приводят к существенному уменьшению стоимости хранения данных и разгрузке ресурсов ИТ и ИБ.
Следовательно, классификация данных позволяет:
• Оптимально управлять затратами на ИТ-инфраструктуру, предоставляющую данные для бизнес-приложений.
• Определять, обосновывать и улучшать уровни сервисов, предоставляемых бизнесу.
• Снижать риск несоответствия требованиям бизнеса и внешнего регулирования.
• Эффективнее использовать созданную ИТ-инфраструктуру и системы хранения данных.
Прохождение информацией фаз жизненного цикла
Основу разработки каталога сервисов хранения и управления данными в масштабах организации составляет анализ и классификация данных, обрабатываемых приложениями, а также объединение данных в логические группы в соответствии с требованиями бизнеса. Структурированные и неструктурированные данные группируются по уровням обслуживания, который им необходим на различных стадиях своего жизненного цикла (оперативные данные, резервные, архивные). Концепция ILM учитывает индивидуальные для каждой организации бизнес-требования и особенности ИТ-инфраструктуры. Требования, принимаемые во внимание при разработке ILM-проекта, включают: производительность, готовность, резервирование/восстановление, длительность архивного хранения, защиту от изменений и пр.
Классическая схема разбивки определяет четыре основных типа данных:
1) Оперативные данные — оперативно используемые в бизнес-среде;
2) Данные оперативного восстановления — данные, которые вышли из операционного использования, но могут быть восстановлены по требованию бизнеса;
3) Архивные данные — окончательно вышли из использования бизнес-средой. Однако они не удаляются по причине регуляторных требований. Такие данные предоставляются по требованию контролирующих и государственных органов;
Пример модели обслуживания данных |
В каждом конкретном случае количество типов данных может быть увеличено, если этого требует специ-фика бизнеса. В ходе проекта по классификации данных устанавливаются т. н. триггеры — условия перехода данных из стадии в стадию, а также приемлемые сроки пребывания на каждой из стадий.
Стоимость хранения данных на различных типах носителей
Проект по классификации данных включает в себя важный элемент – оценку стоимости хранения данных без классификации и после классификации. Экономический эффект, в зависимости от масштабов бизнеса, может достигать нескольких миллионов долларов уже в первые три года.
Однако, как показала практика, простая классификация данных не дает максимального эффекта. Поэтому ЕМС дополнила иерархию еще несколькими уровнями, расширив термин «уровень сервиса» не только стоимостью хранения единицы информации, но и другими параметрами, в числе которых: скорость обработки, вероятность потери данных и скорость восстановления в различных случаях и т. п. Это потребовало более широкого подхода к проблеме — не только прямая связь «информация–данные», но и учет работающих с этими данными приложений и пользователей, корпоративных и иных регулирующих требований, наличие или отсутствие унаследованных инфраструктур и т. п.
В настоящее время сформировалась следующая цепочка манипулирования данными.
Первый этап — оптимальное хранение. На этом этапе обеспечивается, в основном, правильная стоимость хранения единицы информации. Основные критерии выбора решения — совместимость с существующей инфраструктурой, масштабность (как по объему, так и по производительности) и т. п.
На втором этапе обеспечивается необходимый уровень защиты данных. Причем защита необходима не только от утери или искажения данных вследствие отказов или сбоев, но и от преднамеренного повреждения данных или получения доступа к ним неавторизованных лиц.
Третий уровень — уровень управления, или обеспечения оптимальности манипулирования информацией и данными в рамках первых двух уровней. Эта задача требует тесной взаимосвязи с приложениями, понимания бизнес-процессов и процедур, существующих в компании, окружения, в котором функционирует компания, и многих других факторов.
Практическое применение цепочки манипулирования данными
Подход EMC в области построения ILM начинается с классификации данных и включает следующие ключевые стадии:
Составление репрезентативной выборки приложений. Обработать все данные, существующие на предприятии, для их последующей классификации крайне сложно. Поэтому EMC предлагает выбрать наиболее объемные (с точки зрения данных) и критичные (с точки зрения бизнес-информации) ИТ-приложения, охватывающие различные сферы бизнеса — от финансовых до логистических приложений.
Классификация данных по логическому признаку, физическому представлению или по уровню бизнес-объектов. Логический атрибут данных — это понимание бизнесом значимости данных из каждого конкретного приложения. Например: вчерашние счета, текущие контракты, закрытые контракты и т. д. Физическое представление: pdf-документы, jpeg-изображения и т. д. Файлы могут быть сгруппированы по многим признакам.
Пример технических спецификаций каталога сервисов оперативного восстановления |
Последующие шаги ведут к созданию единого каталога услуг системы хранения на основе анализа информации, полученной в ходе аудита потребностей заказчика:
Определение требований бизнеса к рассматриваемой информации. На этой стадии определяется, какие из измеряемых показателей будут применяться к данным — например, время восстановления, время отклика, часы доступности, показатели ИБ и т. д.
Определение уровня и классов данных включает в себя идентификацию типов данных (оперативные, архивные и т. д.) и уровней критичности данных для каждого из классов — например, критично для бизнеса, важно для работы, некритично и т. д.
Определение правил включает в себя идентификацию значений выбранных ранее метрических показателей для каждого из уровней данных.
Определение политик подразумевает идентификацию сроков пребывания на каждой из стадий и условия перехода к следующей стадии.
Построенный таким образом единый каталог сервисов хранения данных, учитывающий репрезентативную выборку приложений, является корпоративным базисом для классификации данных любых других приложений. Кроме упомянутой разбивки, каталог содержит рекомендации относительно системы хранения тех или иных типов данных в зависимости от уровня их критичности. Предлагаемое решение может использовать компоненты разных вендоров.
Также по результатам классификации данных:
• строится оптимальная модель обслуживания данных, описывающая полный спектр технических параметров, специфических для бизнес-требований компании, используемых приложений и операционных сфер обработки;
• разрабатываются согласованные с бизнесом политики перемещения данных по уровням сервисов хранения в соответствии с фазами их жизненного цикла.
Модель обслуживания данных также является независящей от технологий и продуктов, предоставляемых поставщиками оборудования и программного обеспечения, что позволяет применять объективный, глубоко структурированный подход к формулированию тендерных заданий по выбору технического решения для каждого уровня сервиса хранения данных.