Обработка больших данных (Big Data) наряду с облачными вычислениями и социальными сетями сегодня является одним из основных трендов в области ИТ. Впрочем, пока что о задачах Cloud Computing, равно как и о Big Data больше говорят, чем реализуют на практике. Более того, тематика Big Data для многих украинских компаний все еще является terra incognita. Именно поэтому прошедший недавно в Киеве Oracle Big Data Extreme Analytics Summit вызвал немалый интерес среди отечественных ИТ-специалистов.

Каждую минуту в мире отсылается 168 млн сообщений с помощью email, создается 1500 блог-постов, загружается 600 новых видеороликов. Можно также вспомнить огромные объемы данных, которые генерируются в сетях телеком-операторов, во время научных исследований и т.д. Разумеется, вся эта масса информации появилась не вчера. Почему же интерес к Big Data обострился именно сейчас?

По мнению Адриана Мерва, вице-президента Gartner по исследованиям, основными драйверами Big Data служат следующие факты. Во-первых, сейчас бизнес старается использовать в работе те данные, которые ранее не находили применения. Во-вторых, компании пытаются анализировать крупные объемы неструктурированной (а не только структурированной) информации. В-третьих, все большее распространение получают технологии типа Hadoop для извлечения и анализа полезного контента, а также его комбинирования с другими данными. Андрей Пеший, директор управления ИТ в компании «Киевстар», в своем выступлении на Oracle Big Data Extreme Analytics Summit отметил, что отдел маркетинга сейчас начал выдвигать запросы на обработку данных, которые оператор получает из телекоммуникационной сети, записей переговоров callцентров и т.д. А ведь еще несколько лет назад маркетологи не пытались анализировать подобную информацию.

Кевин Ланкастер (Kevin Lancaster), директор Oracle по ключевым технологиям в регионе ЕМЕА, в своем докладе акцентировал, что термин «большой» — не единственная и не главная характеристика Big Data. Вероятно, более правильно было бы назвать их 4V Data (в английском варианте). Суть в том, что при анализе больших данных во внимание следует принимать четыре фактора V: Volume (объем данных), Velocity (скорость сбора данных), Variety (разнообразие) и Value (ценность).

Говоря о первом V-факторе, стоит вспомнить, что системы мониторинга различных сенсоров способны генерировать сотни гигабайт информации за считанные минуты. Так, датчики в Большом адронном коллайдере потенциально генерируют около петабайта данных в секунду. Конечно, такой объем информации сохранять не нужно, но и после отфильтрации полезного контента остается трафик порядка 300 МБ/с. Сервис коротких сообщений Twitter, несмотря на ограничение длины сообщения в 140 символов, генерирует поток 8 ТБ/сут. Информация с датчиков и из социальных сетей поступает с высокой скоростью — Velocity. При этом контент, генерируемый в социальных сетях, характеризуется значительной вариативностью — Variety.

Естественно, хранение подобных объемов данных ранее было невозможно в силу огромной дороговизны оборудования. Сегодня стоимость процессоров и хранилищ данных заметно снизилась, и тем не менее работа с Big Data все равно требует значительных инвестиций. Но возникает вопрос — насколько оправданы эти вложения? Вот почему важен четвертый фактор — Value. Он определяет ценность результатов, полученных благодаря анализу Big Data.

Кстати, определить вес этого показателя заранее не так просто. Например, компания Google в свое время в экспериментальном порядке проводила анализ поисковых запросов своих пользователей. И лишь через продолжительный период времени она научилась выявлять четкие тренды в вариативности пользовательских интересов. Неупорядоченный на первый взгляд набор данных вдруг обрел ценность не только для Google, но и для бизнеса разных организаций — ее потенциальных заказчиков.

Для многих компаний информация, полученная в результате обработки больших данных, может оказаться весьма полезной. Однако цена этой информации должна быть разумной. Правильная настройка, интеграция, а также дальнейшая поддержка различных компонент Big Data (в отличие от, например, классических реляционных СУБД) требуют значительно большего штата ИТ-специалистов. Приобретая Oracle Big Data Appliance, заказчик экономит уже на том, что ему не нужно держать в штате экспертов по построению и обслуживанию кластера. Оптимизированный программно-аппаратный комплекс сразу готов к работе. Вместе с Exadata Database Machine, обеспечивающим высокую производительность СУБД Oracle, и Exalytics Business Intelligence Machine для сверхбыстрой аналитики он представляет собой полное решение для обработки больших данных предприятия. Комплекс содержит все необходимое для сбора, систематизации, анализа и максимально эффективного использования данных. В решении использован ведущий коммерческий дистрибутив Cloudera Distribution Including Apache Hadoop (CDH). Вместе Oracle и Cloudera обеспечивают заказчикам полный набор возможностей Hadoop на простой и удобной в развертывании и использовании платформе.


Оптимизированный программно-аппаратный комплекс Oracle Big Data Appliance сразу готов к работе

Еще одним ключевым компонентом Oracle Big Data Appliance является СУБД Oracle NoSQL Database. Она предназначена для управления огромными объемами данных с динамическими схемами, поступающих из блогов, датчиков, web-серверов, интеллектуальных счетчиков, социальных сетей, и данных, собранных для персонализации.

Как разработчик СУБД №1 в мире Oracle не мог не подумать о тесной интеграции технологий Big Data и собственной базы данных. Набор адаптеров Oracle Big Data Connectors позволяет эффективно и практически бесшовно интегрировать большие данные в информационную среду компании, построенную с использованием СУБД Oracle. Комплект поставки включает несколько компонентов. Загрузчик Oracle Loader for Hadoop использует механизм MapReduce для эффективной загрузки данных в СУБД.

Адаптер Oracle Data Integrator Application Adapter for Hadoop позволяет генерировать программы Hadoop MapReduce через простой в использовании графический интерфейс. Модуль сопряжения Oracle Connector R предоставляет быстрый и эффективный доступ к распределенной файловой системе Hadoop Distributed File System (HDFS) и базовой платформе программирования MapReduce. Модуль сопряжения Oracle Direct Connector for Hadoop Distributed File System (ODCH) обеспечивает СУБД беспроблемный доступ к данным из файловой системы Hadoop Distributed File System через SQL. Технологии Big Data в основном работают с данными в пакетном режиме, но некоторые задачи (например, обработку потоков данных с датчиков) нужно решать с минимальной задержкой. В этом может помочь решение Oracle Complex Event Processing (CEP), которое создает приложения, выполняющие фильтрацию, корреляцию и обработку Big Data в реальном времени. Решение предоставляет инструментарий для проектирования, разработки и внедрения приложений, удовлетворяющий высочайшим корпоративным стандартам надежности и производительности. Oracle CEP способен обработать миллионы событий в секунду с задержкой в микросекунды на типовом оборудовании.

Кроме того, недавно было анонсировано аналитическое решение для исследования данных Oracle Endeca Information Discovery, основанное на технологиях Endeca Latitude и Endeca MDEX. Оно позволяет исследовать и анализировать структурированные, полуструктурированные и неструктурированные данные из самых разнообразных внутренних и внешних источников, таких как информационные хранилища, транзакционные системы, блоги, социальные сети, показания датчиков и большие данные. Это совсем новый сегмент рынка.