Что делать с такими данными — непонятно,
а уничтожить — жалко.
Проблема обработки больших данных не понаслышке известна Владимиру Кургу, руководителю службы технического развития Инком. Впрочем, у компании есть свои рецепты ее решения.
PCWeek/UE: Давайте начнем с определения, что собой представляет Big Data?
ВЛАДИМИР КУРГ: В разных отраслях по-разному интерпретируют словосочетание Big Data. «Большие объемы данных» — это практически дословный перевод, который является не совсем достоверным и не до конца передает содержание. Ведь с крупными объемами информации работают многие учреждения, например банки, телеком-операторы, телерадиокомпании, но не всегда эти данные можно назвать Big Data.
Главный признак, переводящий данные в категорию Big Data, — затруднения в их обработке. Так, McKinsey в отчете 2011 г. Big Data: The next frontier определяет большие данные как такие объемы информации, которые выходят за рамки возможностей используемых в организации СУБД по их анализу и хранению.
Совсем другое определение этого понятия дает консорциум MIKE 2.0: термин означает не столько большой объем данных, сколько их сложность, вариативность, разнородность и неструктурированность. То есть это массивы данных, которые потенциально содержат ценную информацию, но в чем состоит ценность и как её извлечь — непонятно. В состав Big Data могут входить всевозможные текстовые документы, файлы CAD-, CAM-приложений, систем видеонаблюдения, показания датчиков и сенсоров, системные журналы (логи) и проч.
Проблема эффективного с финансовой точки зрения хранения этих данных решается путем использования Tiered Storage — систем многоуровневого хранения. Подавляющая часть информации со временем теряет актуальность и, следовательно, ценность. Данным в многоуровневой системе хранения присваивается новый параметр — ценность, при изменении которого она перемещается на разные уровни системы с различными удельными стоимостями хранения. Самые «ценные» данные размещаются на высокоскоростных, но дорогостоящих (из расчета на гигабайт) носителях. Когда «ценность» информации падает, она перемещается сначала на более медленные и дешевые носители, а затем на самые дешевые.
В.К.: Существует четыре основных критерия оценки ценности информации: дата последнего обращения, частота обращений, дата последней модификации и частота модификаций. Например, в процессе работы над проектом пользователь часто создает и редактирует документы. В этом случае информация будет храниться на самых быстрых носителях. Но когда работа завершается — ценность информации снижается, поэтому файлы можно переместить на более дешевый носитель. Таким образом, мы обеспечиваем адекватную стоимость хранения в зависимости от ценности информации на текущий момент.
В.К.: Каждый оператор сотовой связи, согласно законодательству Украины, обязан хранить системный журнал о месторасположении и активности абонентов. Также хранятся и данные о регистрации мобильных телефонов на базовых станциях. Эту информацию можно использовать, например, для анализа перемещений людей в рамках какой-либо территории, включая динамику «человеческих потоков» во времени. Такие данные могут пригодиться для анализа и интеллектуального регулирования транспортных потоков в городе. Более того, анализ регистрации новых мобильных телефонов дает представление о миграционных потоках внутри страны и среди иностранцев.
Компании могут брать информацию, которая хранится в логах корпоративной электронной почты. Её можно использовать для анализа потоков информации — насколько информационные потоки и общение людей в организации соответствуют организационной структуре. Также выявляются «узкие горлышки», когда один человек переполнен потоком писем и физически не может их все обработать. В компании Инком такой анализ был проведен, что позволило значительно оптимизировать организационную структуру и разгрузить некоторых специалистов от «переполнения» информацией.
В.К.: Анализ Big Data интересен таким отраслям, как производство, розничная торговля, телекоммуникационные операторы, финансовые институты и государственные учреждения. Розничные сети могут использовать эту технологию для анализа шаблонов поведения покупателей, улучшения многоканальности продаж, оптимизации торговых площадей и ассортимента продукции, оптимизации управления складскими запасами, анализа цен конкурентов. Среди производственных компаний развивается спрос на аналитику прохождения продукта по этапам производственного цикла, оптимизацию потоков продукции, оценку состояния оборудования до того, как оно вышло из строя. Финансовые учреждения заинтересованы, прежде всего, в многофакторном мониторинге истории клиента и аутентичности поданной документации. Государственные учреждения извлекут наибольшую пользу из обработки Big Data. Транспортные структуры могут оптимизировать транспортные потоки, процессы обработки задач населения, анализировать миграционные потоки внутри страны и за ее пределами.
Стоит упомянуть, что NASA на днях объявила конкурс идей эффективного использования более 100 терабайт данных, накопленных за лет работы и касающихся телеметрии космических устройств, изображений космического пространства и т.п. Интересно, что в прошлом году агентство проводило похожий конкурс по извлечению информации из других данных. Его выиграла киевлянка Елена Шутова, причем с очень красивой идеей — системой автоматического выявления «пробелов» в накопленном массиве данных. Ведь мы должны владеть информацией о том, чего мы не знаем, не так ли?
В.К.: Облака — это всего лишь способ хранения и обработки данных. В облаке легче настраивать агрегацию информационных источников. Так, мы можем смешивать и анализировать данные из различных источников, вытягивая оттуда достаточно интересную информацию, естественно в рамках закона о защите персональных данных.
PCWeek/UE: Можно ли отдать большие данные на аутсорсинг или процессинг другим компаниям, которые потом предоставят результат?
PCWeek/UE: Чтобы использовать Big Data, требуются большие инвестиции?
PCWeek/UE: Какие вы можете выделить особенности построения инфраструктуры для задач класса Big Data?