Авторизация | Регистрация нового пользователя

> > >

Новости ИТ-бизнеса

03.03.2026
Lenovo анонсувала мобільний монітор ThinkVision M16

02.03.2026
Infortrend анонсувала свою найпотужнішу СЗД для ШІ та суперкомп’ютерів

02.03.2026
Vodafone Україна підключає свою мережу до супутникового зв’язку AST SpaceMobile

27.02.2026
Dell виводить на ринок герметичний сервер PowerEdge XR9700

26.02.2026
Vodafone Україна запустив сьомий курс з підготовки фахівців Data Science

Другие новости

Современные решения

Построение виртуальной инфраструктуры в Центре инноваций Инком

Основные возможности Adobe Acrobat 9 Pro Extended

Возможности Adobe Acrobat 9 Pro

Другие решения

Інфраструктурні рішення

	Версия для печати
	Версия для печати с изображениями
	Отправить ссылку
	Поместить в блог
	Добавить комментарий
	Написать в редакцию
	Подписаться на рассылки

PCWeek_№8-9 (30-31). Большие данные

Укрощение Big Data

12.06.2012

Big Data — это чемодан без ручки.
Что делать с такими данными — непонятно,
а уничтожить — жалко.

Проблема обработки больших данных не понаслышке известна Владимиру Кургу, руководителю службы технического развития Инком. Впрочем, у компании есть свои рецепты ее решения.

PCWeek/UE: Давайте начнем с определения, что собой представляет Big Data?

ВЛАДИМИР КУРГ: В разных отраслях по-разному интерпретируют словосочетание Big Data. «Большие объемы данных» — это практически дословный перевод, который является не совсем достоверным и не до конца передает содержание. Ведь с крупными объемами информации работают многие учреждения, например банки, телеком-операторы, телерадиокомпании, но не всегда эти данные можно назвать Big Data.

Главный признак, переводящий данные в категорию Big Data, — затруднения в их обработке. Так, McKinsey в отчете 2011 г. Big Data: The next frontier определяет большие данные как такие объемы информации, которые выходят за рамки возможностей используемых в организации СУБД по их анализу и хранению.

Совсем другое определение этого понятия дает консорциум MIKE 2.0: термин означает не столько большой объем данных, сколько их сложность, вариативность, разнородность и неструктурированность. То есть это массивы данных, которые потенциально содержат ценную информацию, но в чем состоит ценность и как её извлечь — непонятно. В состав Big Data могут входить всевозможные текстовые документы, файлы CAD-, CAM-приложений, систем видеонаблюдения, показания датчиков и сенсоров, системные журналы (логи) и проч.

Со временем в компании накапливается множество различных документов и файлов, ценность которых неопределенна. В такой ситуации у компании возникают два вопроса: как хранить эти данные и можно ли как-то их использовать. И здесь стоит вспомнить определение McKinsey: продолжение хранения представляет собой не только чисто техническую, но и экономическую проблему. Пространство для хранения данных не бесплатно, а быстрое дисковое пространство, используемое для хранения баз данных, — весьма недешево.

Проблема эффективного с финансовой точки зрения хранения этих данных решается путем использования Tiered Storage — систем многоуровневого хранения. Подавляющая часть информации со временем теряет актуальность и, следовательно, ценность. Данным в многоуровневой системе хранения присваивается новый параметр — ценность, при изменении которого она перемещается на разные уровни системы с различными удельными стоимостями хранения. Самые «ценные» данные размещаются на высокоскоростных, но дорогостоящих (из расчета на гигабайт) носителях. Когда «ценность» информации падает, она перемещается сначала на более медленные и дешевые носители, а затем на самые дешевые.

PCWeek/UE: Как определяется ценность информации в этих системах?

В.К.: Существует четыре основных критерия оценки ценности информации: дата последнего обращения, частота обращений, дата последней модификации и частота модификаций. Например, в процессе работы над проектом пользователь часто создает и редактирует документы. В этом случае информация будет храниться на самых быстрых носителях. Но когда работа завершается — ценность информации снижается, поэтому файлы можно переместить на более дешевый носитель. Таким образом, мы обеспечиваем адекватную стоимость хранения в зависимости от ценности информации на текущий момент.

PCWeek/UE: Как хранить информацию понятно, но какую пользу фирма может извлечь из Big Data?

В.К.: Каждый оператор сотовой связи, согласно законодательству Украины, обязан хранить системный журнал о месторасположении и активности абонентов. Также хранятся и данные о регистрации мобильных телефонов на базовых станциях. Эту информацию можно использовать, например, для анализа перемещений людей в рамках какой-либо территории, включая динамику «человеческих потоков» во времени. Такие данные могут пригодиться для анализа и интеллектуального регулирования транспортных потоков в городе. Более того, анализ регистрации новых мобильных телефонов дает представление о миграционных потоках внутри страны и среди иностранцев.

Давайте не забывать, что с информационными системами работают люди — и в случае систем массового обслуживания анализ активности системы превращается в анализ поведения людей. То есть, в отличие от традиционных методов социо-логии, мы получаем социометрические данные без участия людей-опросчиков. Причем, если участники соцопроса могут по тем или иным причинам солгать, то зафиксированное информационными системами поведение людей свободно от таких искажений.

Компании могут брать информацию, которая хранится в логах корпоративной электронной почты. Её можно использовать для анализа потоков информации — насколько информационные потоки и общение людей в организации соответствуют организационной структуре. Также выявляются «узкие горлышки», когда один человек переполнен потоком писем и физически не может их все обработать. В компании Инком такой анализ был проведен, что позволило значительно оптимизировать организационную структуру и разгрузить некоторых специалистов от «переполнения» информацией.

PCWeek/UE: Каким организациям интересна такая технология?

В.К.: Анализ Big Data интересен таким отраслям, как производство, розничная торговля, телекоммуникационные операторы, финансовые институты и государственные учреждения. Розничные сети могут использовать эту технологию для анализа шаблонов поведения покупателей, улучшения многоканальности продаж, оптимизации торговых площадей и ассортимента продукции, оптимизации управления складскими запасами, анализа цен конкурентов. Среди производственных компаний развивается спрос на аналитику прохождения продукта по этапам производственного цикла, оптимизацию потоков продукции, оценку состояния оборудования до того, как оно вышло из строя. Финансовые учреждения заинтересованы, прежде всего, в многофакторном мониторинге истории клиента и аутентичности поданной документации. Государственные учреждения извлекут наибольшую пользу из обработки Big Data. Транспортные структуры могут оптимизировать транспортные потоки, процессы обработки задач населения, анализировать миграционные потоки внутри страны и за ее пределами.

Например, сейчас «Укрзалізниця» минимизирует прямые маршруты на длинные дистанции, планируя организовать «пересадочные хабы» на крупных железнодорожных вокзалах. Вопрос оптимизации пассажиропотоков при таких пересадках как раз и поможет решить автоматизированный анализ информации, полученной из систем видеонаблюдения вокзалов. В свою очередь, оптимизация пассажиропотоков при стыковках с привокзальным общественным транспортом реализуется за счет анализа данных о перемещениях сотовых телефонов.

Стоит упомянуть, что NASA на днях объявила конкурс идей эффективного использования более 100 терабайт данных, накопленных за лет работы и касающихся телеметрии космических устройств, изображений космического пространства и т.п. Интересно, что в прошлом году агентство проводило похожий конкурс по извлечению информации из других данных. Его выиграла киевлянка Елена Шутова, причем с очень красивой идеей — системой автоматического выявления «пробелов» в накопленном массиве данных. Ведь мы должны владеть информацией о том, чего мы не знаем, не так ли?

PCWeek/UE: Насколько для решения задач, связанных с Big Data, подходит облачная инфраструктура?

В.К.: Облака — это всего лишь способ хранения и обработки данных. В облаке легче настраивать агрегацию информационных источников. Так, мы можем смешивать и анализировать данные из различных источников, вытягивая оттуда достаточно интересную информацию, естественно в рамках закона о защите персональных данных.

У нас есть проект частных облаков, где виртуализированы и системы обработки, и системы хранения данных. Мы можем получить и динамически строить облака под задачи обработки неочевидных данных с виртуальными системами, подключать источники и анализировать полученный результат.

PCWeek/UE: Можно ли отдать большие данные на аутсорсинг или процессинг другим компаниям, которые потом предоставят результат?

В.К.: В некоторых отраслях это делается давно, например при обработке данных сейсморазведки в нефтяной и газовой промышленности.

PCWeek/UE: Чтобы использовать Big Data, требуются большие инвестиции?

В.К.: Если вы оптимизировали систему в соответствии с ценностью информации — то уже минимизировали затраты. Что касается Big Data как неочевидных данных — здесь затраты на аппаратное обеспечение невелики. Это скорее вопрос инвестиций в «мозги», в аналитику, и главное — в сценарий использования.

PCWeek/UE: Какие вы можете выделить особенности построения инфраструктуры для задач класса Big Data?

В.К.: Никаких особенностей нет, подойдут достаточно стандартные системы многоуровневого хранения данных. Разве что для оперативного анализа лучше иметь большой объем оперативной памяти для загрузки метаданных и использовать БД с постоянным хранением в ОЗУ. Некоторые вендоры уже начали продавать продукты, оптимизированные для наиболее эффективной обработки такого рода данных. Но если необходимо проанализировать какой-то массив данных однократно, нет смысла модифицировать всю инфраструктуру. Можно обратиться с этим вопросом к специализированным компаниям, такой структурой располагающим, например к Инком.

Поместить в блог

<table border="0" width="75%" style="margin:10px; border:2px solid #036; background-color:#FFF;"><tr><td align="right"><a href="http://www.pcweek.ua" target="_blank"><img src="http://www.pcweek.ua/images/pcweek/logo-blog.gif" style="width:100px; height:30px; border:0;" alt="PC Week/UE"></a></td></tr><tr><td><a href="http://www.pcweek.ua/themes/detail.php?ID=138127" target="_blank"><img src="http://www.pcweek.ua/upload/iblock/b13/Vl.Kurg70.jpg" alt="Открыть материал" style="width:70px; height:50px; border:1px solid #000; float:left; margin:0 5px 5px 0;"></a><span style="font:12px Arial; color:#000; font-weight:bold;">Владимир Кург</span><br><a href="http://www.pcweek.ua/themes/detail.php?ID=138127" target="_blank" style="font:14px Arial; color:#000; text-decoration:none; font-weight:bold;">Укрощение Big Data</a><br><a href="http://www.pcweek.ua/themes/detail.php?ID=138127" target="_blank" style="font:12px Arial; color:#000; text-decoration:none;">Проблема обработки больших данных не понаслышке известна Владимиру Кургу, руководителю службы технического развития Инком. Впрочем, у компании есть свои рецепты ее решения.</a></td></tr><tr><td align="right"><a href="http://www.pcweek.ua/themes/detail.php?ID=138127" target="_blank" style="font:12px Arial;">Открыть материал</a></td></tr></table>

Комментарии к статье

Статьи по теме

Infortrend анонсувала свою найпотужнішу СЗД для ШІ та суперкомп’ютерів

Пристрій побудований на процесорі Intel Xeon 6, оснащений інтерфейсом PCIe 5.0 та підтримує твердотільні накопичувачі U.2 NVMe. У повністю твердотільній конфігурації масив забезпечує пропускну здатність до 125 ГБ/с, продуктивність 2,4 млн IOPS...

D-Link презентувала лінійку мобільних точок доступу з підтримкою 5G

Флагман серії F530 5G NR AX3000 оснащений 2,4-дюймовим сенсорним дисплеєм для керування пристроєм і додатковим слотом для карт пам’яті microSD. Модель забезпечує швидкість завантаження даних у мобільних мережах до 7 Гбіт/с...

IBM анонсує нові системи зберігання даних серії FlashSystem

Максимальна продуктивність систем становить приблизно 2,6; 4,3 та 6,3 млн IOPS відповідно. За даними IBM, нові моделі забезпечують до 40 % вищу щільність зберігання даних порівняно з попереднім поколінням...

D-Link оновила лінійку смарткомутаторів DGS-1250

За даними виробника, пристрої серії DGS-1250 займають проміжну нішу між некерованими комутаторами та повноцінними L3-рішеннями. Вони поєднують гігабітну продуктивність, розширені функції безпеки та спрощене адміністрування мережевої інфраструктури.

Schneider Electric запускає високопотужну зарядку для електромобілів

Система забезпечує потужність до 720 кВт та дозволяє одночасно заряджати до 12 транспортних засобів, відповідаючи зростаючому попиту на електромобілі у Європі...

Форум

Наступило время экспериментов (Noname, 08.04.2016 09:45:00)

Укртелеком в 4 раза снижает стоимость звонков на мобильные (СЕргей, 06.04.2016 19:11:59)

Укравтодор отмечает дорожные работы и перекрытия на Яндекс.Картах (Noname, 05.04.2016 17:30:44)

Яндекс.Карты объявляют конкурс для киевлян (Хтось, 17.02.2016 12:24:08)

Информационная безопасность: в поисках совершенной защиты (Лариса Ершова, 09.11.2015 18:39:47)

Другие темы

Газета PC Week Ukrainian Edition печатается по лицензионному соглашению с компанией Ziff Davis Publishing Inc. Перепечатка материалов допускается только c разрешения редакции. За содержание рекламных объявлений редакция ответственности не несет. Editorial items appearing in PC Week/UE that were originally published in the U.S. edition of PC Week are the copyright property of Ziff Davis Publishing Inc. Copyright 2015 Ziff Davis Inc. All rights reserved. PC Week is trademark of Ziff Davis Publishing Holding Inc.
© 2026 ООО “ПИСИВИК УКРАИНА”. Информация об авторских правах и порядке использования материалов сайта