Інфраструктурні рішення

	Версия для печати
	Версия для печати с изображениями
	Отправить ссылку
	Поместить в блог
	Добавить комментарий
	Написать в редакцию
	Подписаться на рассылки

Управление «большими данными»: шесть операционных проблем

Автор: Джон Паркинсон

22.02.2012

Когда я только начинал работать с приложениями для обработки “больших данных” (т. е. когда имеется много данных о чем-то или о ком-то или имеются данные о многих вещах и многих людях), “большое” на самом деле означало еще довольно малое.

Однажды я создал систему для современного трёхсоткоечного госпиталя, которая хранила всё (включая записи о полумиллионе пациентов) в менее чем 10-Гб (да-да, именно так!) высокопроизводительном дисковом хранилище.

Интересно, что современные относительно большие хранилища ненамного (возможно, вдвое) быстрее, чем те, которыми я располагал в 80-е. Просто в них хранится больше данных и снижена стоимость хранения в расчете на один бит. При этом некоторые операционные проблемы не решены.

Во-первых, остается проблемой качество данных. Чем больше данных вы аккумулируете, тем труднее хранить все в порядке. Мы изобрели новые направления (управление мастер-данными) и инструменты для работы с проблемами “входящего мусора — исходящего мусора”, но легче не стало. Располагая действительно большими массивами накопленных со временем данных, вы должны обеспечивать “мусор на входе — золото на выходе” и предотвращать противоположные ситуации (“золото на входе — мусор на выходе”).

Во-вторых, адекватное описание данных (метаданные) имеет решающее значение. Методика работы с данными (и даже методика хранения) требует знания того, сколько данных будет храниться, как быстро будет расти их объем и как часто они будут меняться. Запрос, который хорошо справляется с поиском сотни строк из миллиона, может не справиться с таблицей из ста миллиардов строк. Имеет значение, как вы фиксируете и отслеживаете ошибки. Ведение журнала изменений и аудит также важны, если данные часто изменяются.

В-третьих, интерпретация — это по-прежнему скорее искусство, чем наука, или наука, доступная только небольшому количеству подготовленных специалистов. Чтобы нивелировать этот фактор, разработчики были вынуждены создать эффективные фильтры и распознаватели структур, которые могут просеять горы данных и найти (возможно, неожиданные) релевантные структуры.

В-четвертых, визуализация данных. Критически важное значение имеет представление результатов в легко читаемой форме. От информации мало проку, если вы не можете понять результаты работы аналитика или аналитической программы. Теория дизайна визуализации не нова, но подобно многим вещам, требующим глубокого понимания капризов человеческого познания, трудна в практической реализации.

В-пятых, обычно приходится выбирать между режимами просмотра данных в реальном времени (что означает необходимость постоянного пересчета при изменении данных) и ретроспективным (наиболее распространенный способ для аналитики на базе кубов). В последнем случае результаты аналитики — всегда слегка устаревшие.

В-шестых, как вы узнаете заранее, на каком временном промежутке ценны или релевантны данные? Сбор, хранение, анализ и создание запасных копий стоит денег. Вместо типичного подхода “хранить все всегда” нужно иметь политику хранения данных и применять её.

Не лучше ли взяться за легкую часть задачи и хранить только то, что вам действительно нужно? В конце концов, возможно, кто-то уже хранит остальную часть информации для вас.

Поместить в блог

<table border="0" width="75%" style="margin:10px; border:2px solid #036; background-color:#FFF;"><tr><td align="right"><a href="http://www.pcweek.ua" target="_blank"><img src="http://www.pcweek.ua/images/pcweek/logo-blog.gif" style="width:100px; height:30px; border:0;" alt="PC Week/UE"></a></td></tr><tr><td><a href="http://www.pcweek.ua/themes/detail.php?ID=136658" target="_blank"><img src="http://www.pcweek.ua/upload/iblock/011/bigData.jpg" alt="Открыть материал" style="width:70px; height:50px; border:1px solid #000; float:left; margin:0 5px 5px 0;"></a><a href="http://www.pcweek.ua/themes/detail.php?ID=136658" target="_blank" style="font:14px Arial; color:#000; text-decoration:none; font-weight:bold;">Управление «большими данными»: шесть операционных проблем</a><br><a href="http://www.pcweek.ua/themes/detail.php?ID=136658" target="_blank" style="font:12px Arial; color:#000; text-decoration:none;">Когда я только начинал работать с приложениями для обработки «больших данных», это большое на самом деле означало еще довольно малое...</a></td></tr><tr><td align="right"><a href="http://www.pcweek.ua/themes/detail.php?ID=136658" target="_blank" style="font:12px Arial;">Открыть материал</a></td></tr></table>

Комментарии к статье

Статьи по теме

TP-Link розробила хмарну платформу для керування мережевим обладнанням

За допомогою Festa можна швидко розгортати в режимі Zero-Touch Provisioning бездротові точки доступу, що випускаються TP-Link, комутатори і маршрутизатори, легко налаштовувати їх конфігурацію...

ШІ та екологічні аспекти, які найбільше впливають на центри обробки даних

Ринок центрів обробки даних зростає, але все більше країн вводять обмеження на додавання нових навантажень до мережі. Отримати дозвіл на будівництво або розширення об'єкта в різних країнах стає все складніше. Досі основними містами...

Schneider Electric разом з NVIDIA працюють над проєктуванням ШІ для датацентрів

На першому етапі цієї співпраці Schneider Electric представить передові еталонні проєкти ЦОД, розроблені для прискорених обчислювальних кластерів NVIDIA та створені для обробки даних, інженерного моделювання, автоматизації...

Nvidia презентувала архітектуру Blackwell

В рамках своєї конференції GTC 2024 компанія Nvidia попередньо представила архітектуру графічних процесорів (GPU) наступного покоління Blackwell. Їх виробництво розпочнеться наприкінці поточного року.

Українські розробники представили власну 5G розробку на MWC 2024

Сучасні підприємства та бізнеси все частіше потребують розгортання власної приватної мережі. Це допомагає підвищувати безпеку, швидше передавати дані, гнучко керувати доступами і навантаженням на мережу...

Форум

Наступило время экспериментов (Noname, 08.04.2016 09:45:00)

Укртелеком в 4 раза снижает стоимость звонков на мобильные (СЕргей, 06.04.2016 19:11:59)

Укравтодор отмечает дорожные работы и перекрытия на Яндекс.Картах (Noname, 05.04.2016 17:30:44)

Яндекс.Карты объявляют конкурс для киевлян (Хтось, 17.02.2016 12:24:08)

Информационная безопасность: в поисках совершенной защиты (Лариса Ершова, 09.11.2015 18:39:47)

Другие темы

Газета PC Week Ukrainian Edition печатается по лицензионному соглашению с компанией Ziff Davis Publishing Inc. Перепечатка материалов допускается только c разрешения редакции. За содержание рекламных объявлений редакция ответственности не несет. Editorial items appearing in PC Week/UE that were originally published in the U.S. edition of PC Week are the copyright property of Ziff Davis Publishing Inc. Copyright 2015 Ziff Davis Inc. All rights reserved. PC Week is trademark of Ziff Davis Publishing Holding Inc.
© 2024 ООО “ПИСИВИК УКРАИНА”. Информация об авторских правах и порядке использования материалов сайта