Big Data — это чемодан без ручки.
Что делать с такими данными — непонятно,
а уничтожить — жалко.

Проблема обработки больших данных не понаслышке известна Владимиру Кургу, руководителю службы технического развития Инком. Впрочем, у компании есть свои рецепты ее решения.


PCWeek/UE: Давайте начнем с определения, что собой представляет Big Data?

ВЛАДИМИР КУРГ: В разных отраслях по-разному интерпретируют словосочетание Big Data. «Большие объемы данных» — это практически дословный перевод, который является не совсем достоверным и не до конца передает содержание. Ведь с крупными объемами информации работают многие учреждения, например банки, телеком-операторы, телерадиокомпании, но не всегда эти данные можно назвать Big Data. 

Главный признак, переводящий данные в категорию Big Data, — затруднения в их обработке. Так, McKinsey в отчете 2011 г. Big Data: The next frontier определяет большие данные как такие объемы информации, которые выходят за рамки возможностей используемых в организации СУБД по их анализу и хранению.

Совсем другое определение этого понятия дает консорциум MIKE 2.0: термин означает не столько большой объем данных, сколько их сложность, вариативность, разнородность и неструктурированность. То есть это массивы данных, которые потенциально содержат ценную информацию, но в чем состоит ценность и как её извлечь — непонятно. В состав Big Data могут входить всевозможные текстовые документы, файлы CAD-, CAM-приложений, систем видеонаблюдения, показания датчиков и сенсоров, системные журналы (логи) и проч. 

Со временем в компании накапливается множество различных документов и файлов, ценность которых неопределенна. В такой ситуации у компании возникают два вопроса: как хранить эти данные и можно ли как-то их использовать. И здесь стоит вспомнить определение McKinsey: продолжение хранения представляет собой не только чисто техническую, но и экономическую проблему. Пространство для хранения данных не бесплатно, а быстрое дисковое пространство, используемое для хранения баз данных, — весьма недешево.

Проблема эффективного с финансовой точки зрения хранения этих данных решается путем использования Tiered Storage — систем многоуровневого хранения. Подавляющая часть информации со временем теряет актуальность и, следовательно, ценность. Данным в многоуровневой системе хранения присваивается новый параметр — ценность, при изменении которого она перемещается на разные уровни системы с различными удельными стоимостями хранения. Самые «ценные» данные размещаются на высокоскоростных, но дорогостоящих (из расчета на гигабайт) носителях. Когда «ценность» информации падает, она перемещается сначала на более медленные и дешевые носители, а затем на самые дешевые.

PCWeek/UE: Как определяется ценность информации в этих системах?

В.К.: Существует четыре основных критерия оценки ценности информации: дата последнего обращения, частота обращений, дата последней модификации и частота модификаций. Например, в процессе работы над проектом пользователь часто создает и редактирует документы. В этом случае информация будет храниться на самых быстрых носителях. Но когда работа завершается — ценность информации снижается, поэтому файлы можно переместить на более дешевый носитель. Таким образом, мы обеспечиваем адекватную стоимость хранения в зависимости от ценности информации на текущий момент. 

PCWeek/UE: Как хранить информацию понятно, но какую пользу фирма может извлечь из Big Data?

В.К.: Каждый оператор сотовой связи, согласно законодательству Украины, обязан хранить системный журнал о месторасположении и активности абонентов. Также хранятся и данные о регистрации мобильных телефонов на базовых станциях. Эту информацию можно использовать, например, для анализа перемещений людей в рамках какой-либо территории, включая динамику «человеческих потоков» во времени. Такие данные могут пригодиться для анализа и интеллектуального регулирования транспортных потоков в городе. Более того, анализ регистрации новых мобильных телефонов дает представление о миграционных потоках внутри страны и среди иностранцев.

Давайте не забывать, что с информационными системами работают люди — и в случае систем массового обслуживания анализ активности системы превращается в анализ поведения людей. То есть, в отличие от традиционных методов социо-логии, мы получаем социометрические данные без участия людей-опросчиков. Причем, если участники соцопроса могут по тем или иным причинам солгать, то зафиксированное информационными системами поведение людей свободно от таких искажений.

Компании могут брать информацию, которая хранится в логах корпоративной электронной почты. Её можно использовать для анализа потоков информации — насколько информационные потоки и общение людей в организации соответствуют организационной структуре. Также выявляются «узкие горлышки», когда один человек переполнен потоком писем и физически не может их все обработать. В компании Инком такой анализ был проведен, что позволило значительно оптимизировать организационную структуру и разгрузить некоторых специалистов от «переполнения» информацией. 

PCWeek/UE: Каким организациям интересна такая технология?

В.К.: Анализ Big Data интересен таким отраслям, как производство, розничная торговля, телекоммуникационные операторы, финансовые институты и государственные учреждения. Розничные сети могут использовать эту технологию для анализа шаблонов поведения покупателей, улучшения многоканальности продаж, оптимизации торговых площадей и ассортимента продукции, оптимизации управления складскими запасами, анализа цен конкурентов. Среди производственных компаний развивается спрос на аналитику прохождения продукта по этапам производственного цикла, оптимизацию потоков продукции, оценку состояния оборудования до того, как оно вышло из строя. Финансовые учреждения заинтересованы, прежде всего, в многофакторном мониторинге истории клиента и аутентичности поданной документации. Государственные учреждения извлекут наибольшую пользу из обработки Big Data. Транспортные структуры могут оптимизировать транспортные потоки, процессы обработки задач населения, анализировать миграционные потоки внутри страны и за ее пределами.

Например, сейчас «Укрзалізниця» минимизирует прямые маршруты на длинные дистанции, планируя организовать «пересадочные хабы» на крупных железнодорожных вокзалах. Вопрос оптимизации пассажиропотоков при таких пересадках как раз и поможет решить автоматизированный анализ информации, полученной из систем видеонаблюдения вокзалов. В свою очередь, оптимизация пассажиропотоков при стыковках с привокзальным общественным транспортом реализуется за счет анализа данных о перемещениях сотовых телефонов.

Стоит упомянуть, что NASA на днях объявила конкурс идей эффективного использования более 100 терабайт данных, накопленных за лет работы и касающихся телеметрии космических устройств, изображений космического пространства и т.п. Интересно, что в прошлом году агентство проводило похожий конкурс по извлечению информации из других данных. Его выиграла киевлянка Елена Шутова, причем с очень красивой идеей — системой автоматического выявления «пробелов» в накопленном массиве данных. Ведь мы должны владеть информацией о том, чего мы не знаем, не так ли?

PCWeek/UE: Насколько для решения задач, связанных с Big Data, подходит облачная инфраструктура?

В.К.: Облака — это всего лишь способ хранения и обработки данных. В облаке легче настраивать агрегацию информационных источников. Так, мы можем смешивать и анализировать данные из различных источников, вытягивая оттуда достаточно интересную информацию, естественно в рамках закона о защите персональных данных. 

У нас есть проект частных облаков, где виртуализированы и системы обработки, и системы хранения данных. Мы можем получить и динамически строить облака под задачи обработки неочевидных данных с виртуальными системами, подключать источники и анализировать полученный результат.

PCWeek/UE: Можно ли отдать большие данные на аутсорсинг или процессинг другим компаниям, которые потом предоставят результат?

В.К.: В некоторых отраслях это делается давно, например при обработке данных сейсморазведки в нефтяной и газовой промышленности.

PCWeek/UE: Чтобы использовать Big Data, требуются большие инвестиции?

В.К.: Если вы оптимизировали систему в соответствии с ценностью информации — то уже минимизировали затраты. Что касается Big Data как неочевидных данных — здесь затраты на аппаратное обеспечение невелики. Это скорее вопрос инвестиций в «мозги», в аналитику, и главное — в сценарий использования.

PCWeek/UE: Какие вы можете выделить особенности построения инфраструктуры для задач класса Big Data? 

В.К.: Никаких особенностей нет, подойдут достаточно стандартные системы многоуровневого хранения данных. Разве что для оперативного анализа лучше иметь большой объем оперативной памяти для загрузки метаданных и использовать БД с постоянным хранением в ОЗУ. Некоторые вендоры уже начали продавать продукты, оптимизированные для наиболее эффективной обработки такого рода данных. Но если необходимо проанализировать какой-то массив данных однократно, нет смысла модифицировать всю инфраструктуру. Можно обратиться с этим вопросом к специализированным компаниям, такой структурой располагающим, например к Инком.