Big Data — новый рубеж в развитии ИТ. Информационные массивы могут возрасти до такой степени, что с ними станет неудобно работать, используя традиционные инструменты управления базами данных. В связи с этим потребность в новых и дополнительных инструментах, средах, аппаратуре, ПО и сервисах для решения назревающей проблемы открывает огромные рыночные возможности. 

Компания IDC выпустила новый прогноз, согласно которому рынок больших данных ожидает рост с 3,2 млрд долл. в 2010 г. до 16,9 млрд в 2015-м. Согласно прогнозам компании, ежегодный рост инвестиций, необходимых для обработки больших данных, составит 40%. Это примерно в семь раз выше роста рынка информационно-коммуникационных технологий в целом.

По данным IBM, компании и частные лица ежедневно создают 2,5 квинтильона байт данных. В результате 90% имеющихся сегодня в мире данных было создано только за последние два года. Они поступают отовсюду: от сенсоров, используемых для сбора климатической информации, из сообщений, размещаемых на сайтах социальных сетей, из электронных картинок и видеороликов, вывешиваемых в Интернете, транзакционных записей об онлайновых покупках и от GPS-сигналов сотовых телефонов; источники можно перечислять ещё долго.

«Рынок больших данных быстро расширяется в связи с борьбой крупных ИТ-компаний и начинающих фирм за клиентов и рыночные доли, — говорится в заявлении Дана Вессета, вице-президента по программам в подразделении IDC Business Analytics Solutions. —Покупатели могут использовать эту технологию для повышения эффективности текущей деятельности и стимулирования инноваций. В различных отраслях и географических регионах уже есть соответствующие примеры».

Более того, если рост мирового рынка за пять лет ожидается на уровне 40%, то в отдельных сегментах он составит от 27,3% для серверов и 34,2% для ПО до 61,4% — для систем хранения.

«Большие данные открывают возможности как для крупных ИТ-компаний, так и для стартапов, — считает Вессет. — Крупные предлагают решения на основе СУБД и конфигураций, поддерживающих большие данные, дорабатывая для этого собственные продукты либо поглощая другие фирмы. В то же время в развитие новой технологии больших данных вложено более полумиллиарда долларов венчурного капитала».

IDC утверждает, что расширение использования устройств, облачных вычислений и аутсорсинга для работы с большими данными скорее всего будет означать, что со временем конечные пользователи станут уделять все меньше внимания техническим возможностям и все больше — пользе для бизнеса. Возрастет значение производительности, доступности, безопасности и управляемости систем. Однако способы достижения этих целей будут иметь меньшее значение при выборе производителя.

IDC утверждает также, что ощущается нехватка не только аналитиков, но и опытных технических экспертов по большим данным. Ограниченный выбор специалистов будет сдерживать распространение и использование технологий работы с большими данными и побудит производителей предоставлять эти технологии в виде облачных сервисов.

«Хотя до 2016 г. основные возможности на рынке связаны с ПО и сервисами, инфраструктурная технология для больших данных, как ожидается, будет расти несколько быстрее: на 44% в год, — говорится в заявлении Бенджамина Ву, программного вице-президента подразделения IDC Storage Systems. — Наибольшие возможности роста демонстрируют системы хранения. До 2016-го объем затрат на них будет увеличиваться ежегодно на 61,4%. Заметный рост доходов подчеркивается большим количеством новых проектов с открытым исходным кодом, стимулирующих инвестиции в инфраструктуру».

Методология, применяемая IDC при определении масштабов рынка технологий и сервисов для больших данных, включает оценку их нынешнего и ожидаемого развертывания в соответствии с одним из трех сценариев.
  •  Развертывание при объеме накопленных данных, превышающем 100 Тб. IDC говорит о накопленных, а не хранящихся данных, чтобы учесть технологию их обработки в оперативной памяти, когда данные могут не сохраняться на диске.
  •  Развертывание сверхскоростной технологии обмена сообщениями для фиксации и мониторинга потоков данных в реальном времени. При таком сценарии большие данные находятся в движении, а не в состоянии покоя.
  •  Развертывание, при котором наборы данных сегодня могут быть не очень велики, но быстро растут — ежегодно на 60% и более.
Кроме того, IDC требует, чтобы в каждом из этих трех сценариев технологии развертывались на базе горизонтально масштабируемой архитектуры. При этом надо использовать либо два и более типа или источника данных, либо источники, из которых данные поступают с высокой скоростью (например, отслеживание переходов по гиперссылкам или мониторинг данных, создаваемых машиной).