Данная статья посвящена построению информационных систем класса «Хранилища данных» и «Аналитические системы» на примере использования базовых технологий, поставляемых компанией Oracle.
Место хранилищ данных и аналитических систем в ряду бизнес-приложений Oracle
Поставляемые Oracle решения можно разделить на два больших класса: это технологическая линейка продуктов и бизнес-приложения. Следует отметить, что технологическая линейка является неотъемлемой инфраструктурной составляющей для семейства бизнес-приложений.
Остановимся детальнее на технологической составляющей (см. рис.1, красный цвет). Она состоит из следующих продуктов:
• Oracle Database
• Oracle BI
• Oracle Data Integrator
• Oracle Warehouse Builder
• Oracle Hyperion ESSBASE.
Если говорить о месте аналитических систем и хранилищ данных в ряду бизнес-приложений, то в некоторых случаях целесообразно рассматривать такие системы как надстройки над некими транзакционными системами (ERP, CRM), обеспечивающие возможность выполнения аналитических и прогнозных функций по необходимым предметным/ функциональным областям. Такое совместное с ERP использование является наиболее предпочтительным и эффективным как в эксплуатации, так и во внедрении.
В то же время хранилище данных, как место накопления непротиворечивой, зависимой от времени (исторически накапливаемой) и не подлежащей изменениям информации, в большинстве случаев использует в качестве источников данных различные информационные системы — как транзакционные, так и просто информационные: начиная с полномасштабных ERP-систем, функциональность которых охватывает весь спектр деятельности предприятия, и заканчивая плоскими файлами любого формата, подготовленными вручную. Эти источники могут иметь различную степень обеспеченной непротиворечивости находящихся в них данных. Чем больше разнообразных источников данных, тем выше необходимость решения проблемы непротиворечивости данных. Одним из ключевых вопросов при интеграции данных из разных источников является введение единой системы справочников либо приведение к ней (Master Data Management). Решение этого и других связанных с этим вопросов обеспечивается как за счет инструментальных/технологических средств, так и за счет организационных решений на базе методологически выверенного проектного решения.
Использование ERP–системы в качестве единого источника данных является оптимальным вариантом с точки зрения минимизации затрат по обеспечению непротиворечивости при построении хранилищ данных и аналитических систем.
Следует обратить внимание, что Oracle предлагает следующие функциональные аналитические приложения — Oracle Business Intelligence Applications — как готовые решения для взаимодействия с ERP–системами и не только (рис.1, синий цвет):
• Информационно-аналитическая система Oracle BI Applications с уже спроектированным хранилищем данных и использованием своих же базовых технологий. Эта система обладает большим набором необходимой для предприятий аналитики и богатыми возможностями построения отчетности по всему спектру функциональности ERP.
• Ряд CPM-приложений (Corporate Performance Management) — Oracle Hyperion, которые также относятся к этому классу.
Общая схема построения информационно-аналитической системы
Пример построения информационно-аналитической системы представлен на рис.2.
Ее основные элементы:
• системы извлечения и преобразования данных (ETL/ELT-процессы);
• система хранения данных;
• система представления данных — «Витрины данных», OLAP-структуры;
• система отображения информации, доступа к данным, анализа и отчетности.
Каждой такой системе соответствует от одного до нескольких продуктов Oracle, позволяющих реализовать требуемое решение для построения информационно-аналитической системы и хранилища данных.
Такие решения конфигурируются, проектируются и реализуются исходя из конкретных условий того или иного проекта. При этом учитывается ряд факторов.
1. С точки зрения источников данных:
• типы источников первичных данных;
• территориальная расположенность/распределенность систем — источников первичных данных;
• технологическая инфраструктура (связь, платформы, режимы эксплуатации).
2. С точки зрения потребителя информации — менеджеров компании, аналитиков, функциональных пользователей:
• набор данных, детализация по каждой предметной области (портфель заказов, кредитный портфель и т.д.);
• набор требований к данным — детальность, полнота, атрибуты и др.;
• время отклика на произвольно построенный запрос к системе;
• перечень необходимой отчетности;
• разграничение доступа к информации.
3. С точки зрения хранения/накопления данных:
• время хранения данных;
• период времени доступных для анализа в режиме on-line данных (1 год, 5 лет, 10 лет и т.д.);
• объем хранимых данных;
• темпы увеличения объемов хранимых данных;
• производительность;
• надежность.
4. С точки зрения качества данных:
• обеспечение непротиворечивости данных;
• вычистка, трансформации.
Эти вопросы решаются в рамках реализации проекта по построению и внедрению информационной системы. Следует отметить, что комплексность и качество всех работ обеспечивается методологией построения хранилищ данных — Oracle DWM (Data Warehousing Methodology). Использование проверенной методологии Oracle является дополнительной гарантией защиты инвестиций заказчика в такой проект.
Системы извлечения и преобразования данных
В единый блок задач под названием ETL/ELT-процессы (Extract-Transformation-Load/Extract-Load-Transformation) условно относят: извлечение данных из информационных систем, необходимые преобразования в соответствии с разработанными и утвержденными правилами, загрузку данных в систему хранения данных. В зависимости от конкретных условий проекта — систем, из которых извлекаются данные; информационной архитектуры; требований по преобразованию данных; объемов извлекаемых данных; требований по обеспечению производительности — может быть выбран тот или иной подход к решению этих задач. В частности, принимается решение о том, какие преобразования и где будут производиться, какая часть данных будет преобразовываться непосредственно после извлечения из системы и затем загружаться, либо загружаться «как есть» в промежуточную область, где будут выполняться все процессы преобразований и затем загружаться в спроектированное хранилище данных.
Для этих целей возможно использование трех видов средств:
• средства, разрабатываемые самостоятельно;
• инструментальные средства сторонних разработчиков, автоматизирующих ETL/ELT-процессы;
• инструментальные средства Oracle.
Выбор средств реализации зависит от условий проекта. Сегодня Oracle предлагает ряд высокотехнологичных решений для обеспечения ETL/ELT-процессов, способных обеспечить интеграцию данных любой сложности и масштаба.
Инструменты
К таким средствам, прежде всего, относятся Oracle Warehouse Builder (OWB) и Oracle Data Integrator (ODI) — см. рис.3.
Oracle Warehouse Builder — это комплексное средство проектирования, развертывания и управления корпоративным хранилищем данных на основе СУБД Oracle.
Его основные характеристики:
• тип системы-источника (source) — любой, к которому есть доступ из БД Oracle;
• платформа БД целевой системы (target) — БД Oracle;
• гетерогенность OWB обеспечивается лишь за счет возможностей базы данных Oracle (database links, transparent gateways, external tables);
• учитывая, что OWB изначально ориентируется на СУБД Oracle как платформу хранилища данных, эта система обладает более обширным инструментарием предварительно созданных трансформаций для входных данных систем-источников;
• автоматизация выполнения ETL/ELT-процессов достигается за счет использования системы управления потоком задач Oracle Workflow;
• CDC — отслеживание изменений в системе-источнике;
• наиболее типовая задача, решаемая с помощью OWB:
- построение хранилища данных на основе БД Oracle;
- проектирование и реализация ETL/ELT-процессов в различных интеграционных задачах.
Oracle Data Integrator — это всеобъемлющее средство интеграции данных, которое охватывает следующие области: от пакетной загрузки больших объемов данных, загрузки изменений систем-источников в режиме реального времени до ориентированных на события информационных сервисов в SOA-архитектуре. Его основные характеристики:
• тип системы-источника и системы-приемника — любой из использующихся в промышленных масштабах, включая различные СУБД, ERP- и CRM-системы;
• гетерогенность ODI обеспечивается за счет использования так называемых «модулей знаний» (Knowledge Modules) — коннекторов, которые позволяют применить оптимальные параметры выгрузки-загрузки данных для каждой отдельной системы в проекте;
• набор трансформаций ODI полагается на соответствующие возможности систем, задействованных в проекте. Для различных платформ баз данных — это обычно внутренний язык, специфичный для платформы (Oracle SQL*Plus, MS TSQL и т.д.);
• автоматизация выполнения интеграционных процессов достигается при помощи специальных программных агентов ODI;
• CDC — отслеживание изменений в системе-источнике.
ODI решает следующие типовые задачи:
• интеграция данных — загрузка данных в предварительно спроектированное и построенное хранилище данных;
• обмен данными между различными информационными системами;
• управление центральными справочниками организации (Master Data Management);
• выполнение интеграционных задач в SOA-архитектуре.
Хранилище данных
Ядром хранилища данных, основой инфраструктурной платформы является СУБД Oracle 11g. Этот продукт позволяет оптимизировать производительность на всех этапах работы хранилища данных.
Это достигается с помощью:
• широкого набора техник оптимизации запросов как для загрузки данных, так и для построения отчетов (оптимизация запросов по типу «звезда», полная поддержка битовых индексов, материализованные представления, управление степенью параллелизма, секционирование по хешу и диапазону и т.д.);
• интеллектуального менеджера ресурсов для достижения максимальной производительности как на одном сервере, так и в кластере;
• уникальной запатентованной модели не блокирующего согласованного чтения, позволяющего производить одновременно и загрузку данных, и построение отчетности без существенного снижения производительности.
Современные тенденции роста объемов информации значительно повышают требования к масштабируемости платформы хранилища данных. СУБД Oracle 11g предлагает такие ключевые возможности масштабирования:
• секционирование данных для обслуживания больших таблиц, позволяющее неограниченно увеличивать объем хранимых данных без существенной потери производительности;
• сжатие данных «на лету», что обеспечивает уменьшение объема данных в несколько раз без существенной потери производительности;
• встроенная поддержка кластера, позволяющая масштабировать одну базу данных на множество серверов, обеспечивая высокую надежность и производительность;
• возможность выполнения одного запроса параллельно на нескольких процессорах либо даже серверах в кластере.
Представление данных — «витрины»
Когда говорят о доступе к данным и необходимости реализации «витрин данных», подразумевается, что данные должны быть подготовлены и сгруппированы по конкретным, определенным потребностями заказчика областям. Источником для таких витрин служит корпоративное хранилище данных. Наиболее оптимальным решением для создания витрин данных может служить многомерная БД, свойства которой позволяют обеспечить минимальное время отклика системы на не регламентированные запросы пользователей. Наряду с витринами данных, построенными на основе многомерных баз данных, активно реализуются витрины данных, подготовленные в реляционных СУБД.
Для построения многомерных витрин данных и организации доступа пользователей к данным могут использоваться такие продукты Oracle, как Oracle Hyperion Essbase Plus и Oracle BI.
Oracle Hyperion Essbase Plus — это система управления многомерными базами данных, предназначенная для построения аналитических приложений класса Business Intelligence (см. рис.5). Ключевые возможности системы:
• полномасштабный многомерный сервер баз данных для углубленного анализа данных, прогнозирования, моделирования;
• универсальный OLAP-сервер для сбора, обработки и представления информации в различных аналитических разрезах;
• построение аналитических витрин;
• загрузка данных из хранилища данных и / или из транзакционных систем.
Доступ к данным. Анализ. Отчетность. Удобства для пользователя
Верхний уровень решения представляет Oracle BI как средство, обеспечивающее следующие возможности:
• удобный и технологичный инструмент в первую очередь для пользователя (рис.6.) — реализует доступ к данным и их просмотр, построение произвольной и использование предварительно настроенной отчетности, подготовку отчетности в любом удобном формате данных (pdf, doc, xls и пр.), широкие возможности для аналитической работы;
• администраторы могут эффективно управлять системой и настраивать ее, связывать данные из различных источников.
Вместо заключения
Каждый из упомянутых продуктов Oracle является высокотехнологичным решением с широкими функциональные возможностями, которое позволяют выполнять сложные задачи интеграции данных, построения аналитических систем и хранилищ данных.
Важными факторами успешности построения больших информационных систем, таких как хранилище данных и аналитические системы, являются неукоснительное следование методологии их построения — Oracle DWM — и профессионализм проектной команды.
Поставляемые Oracle решения можно разделить на два больших класса: это технологическая линейка продуктов и бизнес-приложения. Следует отметить, что технологическая линейка является неотъемлемой инфраструктурной составляющей для семейства бизнес-приложений.
Остановимся детальнее на технологической составляющей (см. рис.1, красный цвет). Она состоит из следующих продуктов:
• Oracle Database
• Oracle BI
• Oracle Data Integrator
• Oracle Warehouse Builder
• Oracle Hyperion ESSBASE.
Если говорить о месте аналитических систем и хранилищ данных в ряду бизнес-приложений, то в некоторых случаях целесообразно рассматривать такие системы как надстройки над некими транзакционными системами (ERP, CRM), обеспечивающие возможность выполнения аналитических и прогнозных функций по необходимым предметным/ функциональным областям. Такое совместное с ERP использование является наиболее предпочтительным и эффективным как в эксплуатации, так и во внедрении.
В то же время хранилище данных, как место накопления непротиворечивой, зависимой от времени (исторически накапливаемой) и не подлежащей изменениям информации, в большинстве случаев использует в качестве источников данных различные информационные системы — как транзакционные, так и просто информационные: начиная с полномасштабных ERP-систем, функциональность которых охватывает весь спектр деятельности предприятия, и заканчивая плоскими файлами любого формата, подготовленными вручную. Эти источники могут иметь различную степень обеспеченной непротиворечивости находящихся в них данных. Чем больше разнообразных источников данных, тем выше необходимость решения проблемы непротиворечивости данных. Одним из ключевых вопросов при интеграции данных из разных источников является введение единой системы справочников либо приведение к ней (Master Data Management). Решение этого и других связанных с этим вопросов обеспечивается как за счет инструментальных/технологических средств, так и за счет организационных решений на базе методологически выверенного проектного решения.
Использование ERP–системы в качестве единого источника данных является оптимальным вариантом с точки зрения минимизации затрат по обеспечению непротиворечивости при построении хранилищ данных и аналитических систем.
Следует обратить внимание, что Oracle предлагает следующие функциональные аналитические приложения — Oracle Business Intelligence Applications — как готовые решения для взаимодействия с ERP–системами и не только (рис.1, синий цвет):
• Информационно-аналитическая система Oracle BI Applications с уже спроектированным хранилищем данных и использованием своих же базовых технологий. Эта система обладает большим набором необходимой для предприятий аналитики и богатыми возможностями построения отчетности по всему спектру функциональности ERP.
• Ряд CPM-приложений (Corporate Performance Management) — Oracle Hyperion, которые также относятся к этому классу.
Общая схема построения информационно-аналитической системы
Пример построения информационно-аналитической системы представлен на рис.2.
Ее основные элементы:
• системы извлечения и преобразования данных (ETL/ELT-процессы);
• система хранения данных;
• система представления данных — «Витрины данных», OLAP-структуры;
• система отображения информации, доступа к данным, анализа и отчетности.
Каждой такой системе соответствует от одного до нескольких продуктов Oracle, позволяющих реализовать требуемое решение для построения информационно-аналитической системы и хранилища данных.
Такие решения конфигурируются, проектируются и реализуются исходя из конкретных условий того или иного проекта. При этом учитывается ряд факторов.
1. С точки зрения источников данных:
• типы источников первичных данных;
• территориальная расположенность/распределенность систем — источников первичных данных;
• технологическая инфраструктура (связь, платформы, режимы эксплуатации).
2. С точки зрения потребителя информации — менеджеров компании, аналитиков, функциональных пользователей:
• набор данных, детализация по каждой предметной области (портфель заказов, кредитный портфель и т.д.);
• набор требований к данным — детальность, полнота, атрибуты и др.;
• время отклика на произвольно построенный запрос к системе;
• перечень необходимой отчетности;
• разграничение доступа к информации.
3. С точки зрения хранения/накопления данных:
• время хранения данных;
• период времени доступных для анализа в режиме on-line данных (1 год, 5 лет, 10 лет и т.д.);
• объем хранимых данных;
• темпы увеличения объемов хранимых данных;
• производительность;
• надежность.
4. С точки зрения качества данных:
• обеспечение непротиворечивости данных;
• вычистка, трансформации.
Эти вопросы решаются в рамках реализации проекта по построению и внедрению информационной системы. Следует отметить, что комплексность и качество всех работ обеспечивается методологией построения хранилищ данных — Oracle DWM (Data Warehousing Methodology). Использование проверенной методологии Oracle является дополнительной гарантией защиты инвестиций заказчика в такой проект.
Системы извлечения и преобразования данных
В единый блок задач под названием ETL/ELT-процессы (Extract-Transformation-Load/Extract-Load-Transformation) условно относят: извлечение данных из информационных систем, необходимые преобразования в соответствии с разработанными и утвержденными правилами, загрузку данных в систему хранения данных. В зависимости от конкретных условий проекта — систем, из которых извлекаются данные; информационной архитектуры; требований по преобразованию данных; объемов извлекаемых данных; требований по обеспечению производительности — может быть выбран тот или иной подход к решению этих задач. В частности, принимается решение о том, какие преобразования и где будут производиться, какая часть данных будет преобразовываться непосредственно после извлечения из системы и затем загружаться, либо загружаться «как есть» в промежуточную область, где будут выполняться все процессы преобразований и затем загружаться в спроектированное хранилище данных.
Рис 4. Пример реализации |
• средства, разрабатываемые самостоятельно;
• инструментальные средства сторонних разработчиков, автоматизирующих ETL/ELT-процессы;
• инструментальные средства Oracle.
Выбор средств реализации зависит от условий проекта. Сегодня Oracle предлагает ряд высокотехнологичных решений для обеспечения ETL/ELT-процессов, способных обеспечить интеграцию данных любой сложности и масштаба.
Инструменты
К таким средствам, прежде всего, относятся Oracle Warehouse Builder (OWB) и Oracle Data Integrator (ODI) — см. рис.3.
Oracle Warehouse Builder — это комплексное средство проектирования, развертывания и управления корпоративным хранилищем данных на основе СУБД Oracle.
Его основные характеристики:
• тип системы-источника (source) — любой, к которому есть доступ из БД Oracle;
• платформа БД целевой системы (target) — БД Oracle;
• гетерогенность OWB обеспечивается лишь за счет возможностей базы данных Oracle (database links, transparent gateways, external tables);
• учитывая, что OWB изначально ориентируется на СУБД Oracle как платформу хранилища данных, эта система обладает более обширным инструментарием предварительно созданных трансформаций для входных данных систем-источников;
• автоматизация выполнения ETL/ELT-процессов достигается за счет использования системы управления потоком задач Oracle Workflow;
• CDC — отслеживание изменений в системе-источнике;
• наиболее типовая задача, решаемая с помощью OWB:
- построение хранилища данных на основе БД Oracle;
- проектирование и реализация ETL/ELT-процессов в различных интеграционных задачах.
Oracle Data Integrator — это всеобъемлющее средство интеграции данных, которое охватывает следующие области: от пакетной загрузки больших объемов данных, загрузки изменений систем-источников в режиме реального времени до ориентированных на события информационных сервисов в SOA-архитектуре. Его основные характеристики:
• тип системы-источника и системы-приемника — любой из использующихся в промышленных масштабах, включая различные СУБД, ERP- и CRM-системы;
• гетерогенность ODI обеспечивается за счет использования так называемых «модулей знаний» (Knowledge Modules) — коннекторов, которые позволяют применить оптимальные параметры выгрузки-загрузки данных для каждой отдельной системы в проекте;
• набор трансформаций ODI полагается на соответствующие возможности систем, задействованных в проекте. Для различных платформ баз данных — это обычно внутренний язык, специфичный для платформы (Oracle SQL*Plus, MS TSQL и т.д.);
• автоматизация выполнения интеграционных процессов достигается при помощи специальных программных агентов ODI;
• CDC — отслеживание изменений в системе-источнике.
ODI решает следующие типовые задачи:
• интеграция данных — загрузка данных в предварительно спроектированное и построенное хранилище данных;
• обмен данными между различными информационными системами;
• управление центральными справочниками организации (Master Data Management);
• выполнение интеграционных задач в SOA-архитектуре.
Хранилище данных
Ядром хранилища данных, основой инфраструктурной платформы является СУБД Oracle 11g. Этот продукт позволяет оптимизировать производительность на всех этапах работы хранилища данных.
Это достигается с помощью:
• широкого набора техник оптимизации запросов как для загрузки данных, так и для построения отчетов (оптимизация запросов по типу «звезда», полная поддержка битовых индексов, материализованные представления, управление степенью параллелизма, секционирование по хешу и диапазону и т.д.);
• интеллектуального менеджера ресурсов для достижения максимальной производительности как на одном сервере, так и в кластере;
• уникальной запатентованной модели не блокирующего согласованного чтения, позволяющего производить одновременно и загрузку данных, и построение отчетности без существенного снижения производительности.
Современные тенденции роста объемов информации значительно повышают требования к масштабируемости платформы хранилища данных. СУБД Oracle 11g предлагает такие ключевые возможности масштабирования:
• секционирование данных для обслуживания больших таблиц, позволяющее неограниченно увеличивать объем хранимых данных без существенной потери производительности;
• сжатие данных «на лету», что обеспечивает уменьшение объема данных в несколько раз без существенной потери производительности;
• встроенная поддержка кластера, позволяющая масштабировать одну базу данных на множество серверов, обеспечивая высокую надежность и производительность;
• возможность выполнения одного запроса параллельно на нескольких процессорах либо даже серверах в кластере.
Представление данных — «витрины»
Когда говорят о доступе к данным и необходимости реализации «витрин данных», подразумевается, что данные должны быть подготовлены и сгруппированы по конкретным, определенным потребностями заказчика областям. Источником для таких витрин служит корпоративное хранилище данных. Наиболее оптимальным решением для создания витрин данных может служить многомерная БД, свойства которой позволяют обеспечить минимальное время отклика системы на не регламентированные запросы пользователей. Наряду с витринами данных, построенными на основе многомерных баз данных, активно реализуются витрины данных, подготовленные в реляционных СУБД.
Для построения многомерных витрин данных и организации доступа пользователей к данным могут использоваться такие продукты Oracle, как Oracle Hyperion Essbase Plus и Oracle BI.
Oracle Hyperion Essbase Plus — это система управления многомерными базами данных, предназначенная для построения аналитических приложений класса Business Intelligence (см. рис.5). Ключевые возможности системы:
• полномасштабный многомерный сервер баз данных для углубленного анализа данных, прогнозирования, моделирования;
• универсальный OLAP-сервер для сбора, обработки и представления информации в различных аналитических разрезах;
• построение аналитических витрин;
• загрузка данных из хранилища данных и / или из транзакционных систем.
Доступ к данным. Анализ. Отчетность. Удобства для пользователя
Верхний уровень решения представляет Oracle BI как средство, обеспечивающее следующие возможности:
• удобный и технологичный инструмент в первую очередь для пользователя (рис.6.) — реализует доступ к данным и их просмотр, построение произвольной и использование предварительно настроенной отчетности, подготовку отчетности в любом удобном формате данных (pdf, doc, xls и пр.), широкие возможности для аналитической работы;
• администраторы могут эффективно управлять системой и настраивать ее, связывать данные из различных источников.
Вместо заключения
Каждый из упомянутых продуктов Oracle является высокотехнологичным решением с широкими функциональные возможностями, которое позволяют выполнять сложные задачи интеграции данных, построения аналитических систем и хранилищ данных.
Важными факторами успешности построения больших информационных систем, таких как хранилище данных и аналитические системы, являются неукоснительное следование методологии их построения — Oracle DWM — и профессионализм проектной команды.
С автором можно связаться по адресу
Alexander.Savinov@borlas.com.ua
Alexander.Savinov@borlas.com.ua