Технологии обработки больших данных остаются одним из самых динамичных сегментов ИТ-рынка, и в ближайшие три года здесь ожидается рост спроса на 11,9% ежегодно.

Горячий рынок, новые возможности

Согласно прогнозу IDC, мировые расходы на оборудование, ПО и услуги обработки больших данных и бизнес-аналитики возрастут со 150,8 млрд. долл. в этом году до 210 млрд. долл. в 2020 году, и среднегодовой темп роста (в сложных процентах, CAGR) составит 11,9%.

И хотя большая часть этих расходов придется на уже известные инструменты бизнес-анализа и управления данными, каждый год появляются новые, еще более заманчивые предложения, расширяющие границы этих возможностей.

CRN/США предлагает свой список новых продуктов, появившихся на рынке в этом году и представляющих несомненный интерес для организаций и VAR’ов.

Ayasdi Envision

Компания Ayasdi (Менло-Парк, шт. Калифорния) разрабатывает платформу машинного интеллекта, которая поможет организациям строить приложения обработки больших данных.

Ayasdi Envision, дебютировавшая в июне, представляет собой платформу для разработки интеллектуальных приложений, использующих ее встроенные функции искусственного интеллекта и машинного обучения.

Компания полагает, что такой подход открывает больше возможностей разработки и внедрения интеллектуальных приложений для широкого круга специалистов в разных областях, позволяя проще строить процессы аналитической обработки данных.

Одновременно с выпуском платформы Envision компания предложила также новое интеллектуальное приложение Ayasdi Model Accelerator, предназначенное для разработки моделей в сфере финансовых услуг.

Cloudera Altus

Организации всё чаще обращаются к облаку для обработки данных и их анализа. В мае Cloudera (Пало-Альто, шт. Калифорния) запустила платформу-как-услугу Altus, которая позволяет развернуть крупномасштабные приложения обработки данных в общедоступном облаке.

Первым предложенным компонентом новой платформы был сервис Altus Data Engineering, который упрощает разработку и внедрение адаптивных (elastic) конвейеров данных, служащих для их передачи на обработку в Apache Spark, Hive, Hive on Spark и MapReduce2.

Разработчики систем анализа данных могут использовать этот сервис, работающий на Amazon Web Services, для прямого считывания и записи данных в облачные системы объектного хранения, не используя при этом репликацию данных, средства ETL (извлечения, преобразования и загрузки данных) и без необходимости изменять формат файлов.

28 ноября компания представила сервис облачного хранилища данных Altus Analytic DB, который предоставляет функции бизнес-анализа и SQL-аналитики с самообслуживанием для широкого круга пользователей. Сервис использует высокопроизводительный механизм SQL-запросов Apache Impala; в скором времени ожидается бета-версия продукта.

Confluent KSQL

Компания Confluent (Пало-Альто, шт. Калифорния) заслужила внимание своим ПО, использующим возможности Apache Kafka — свободной платформы обработки потоков данных. В августе она предложила свободный потоковый механизм SQL-запросов KSQL, позволяющий организовать непрерывные, интерактивные запросы в Kafka. Используя KSQL, можно строить приложения, работающие с Kafka. Поскольку в организациях есть большая армия тех, кто знает SQL, новый сервис откроет возможности потоковой обработки Kafka для более широкой аудитории, позволяя справиться с задачей создания интерактивных запросов для потоковых больших данных.

FlureeDB

Технология блокчейн, изначально разработанная для транзакций криптовалют, по сути представляет собой цифровой гроссбух, в котором информация хранится в распределенном виде, но не копируется. Эта технология была в центре внимания в этом году, поскольку организации увидели возможность использования блокчейна для целого ряда применений, требующих обеспечения целостности и защищенности транзакционных данных.

Платформа FlureeDB, стартовавшая в ноябре в открытой бета-версии, представляет собой масштабируемую облачную СУБД на основе блокчейна и безусловно заинтересует организации и разработчиков, которые хотят интегрировать технологию блокчейн в свою существующую ИТ-инфраструктуру и бизнес-приложения. Такой инструмент рассматривается как большое подспорье, поскольку организации всё в большей степени переходят на децентрализованные приложения.

Разработчик этой платформы, Fluree (Уинстон-Сейлем, шт. Сев. Каролина) — это так называемая «общественно-полезная корпорация» (public-benefit corporation). Ее создателями являются учредитель и главный управляющий Platinum Software Эндрю (Флип) Филиповски (Andrew ’Flip’ Filipowski) и учредитель и главный управляющий SilkRoad Technology Брайан Платц (Brian Platz).

DataFlow 3.0 (Hortonworks)

DataFlow, детище компании Hortonworks (Санта-Клара, шт. Калифорния), — это платформа «данных в движении» (data-in-motion), которая предназначена для сбора, классификации и анализирования данных из локальных и облачных систем и действий на их основе в реальном времени. Она призвана помочь организациям справиться с растущими объемами потоковых данных от мобильных устройств, датчиков и сетей Интернета вещей.

В июне дебютировала версия DataFlow 3.0, включающая новые возможности, благодаря которым поставщикам решений, независимым поставщикам ПО (ISV) и заказчикам будет проще создавать приложения потоковой аналитики, которые становятся всё более настоятельной потребностью для непрерывного анализирования данных и при внедрении IoT.

В новой HDF 3.0 появился Streaming Analytics Manager — набор инструментов, позволяющих разработчикам приложений, бизнес-аналитикам и администраторам проектировать, строить, тестировать и внедрять потоковые приложения на HDF без написания кода. Новая версия включает также новый репозиторий общих (shared) схем, которые взаимодействуют с механизмами потовых данных (Apache Kafka, Storm и Apache NiFi), позволяя улучшить управление данными и повысить эффективность обработки.

Cloud Big Data Warehouse (Infoworks)

В сентябре компания Infoworks (Сан-Хосе, шт. Калифорния) предложила свою Cloud Big Data Warehouse — полную платформу хранилища данных в облаке, с помощью которой организации могут быстро строить и внедрять системы аналитики для больших данных.

Она работает на Amazon Web Services, Microsoft Azure и Google Cloud и автоматизирует такие задачи, как загрузка корпоративных данных в облако и синхронизация, преобразование данных и построение моделей данных (в т.ч. кубических).

Infoworks отмечает, что уровень автоматизации, обеспечиваемый ее системой, помогает организациям быстро разрабатывать и внедрять приложения аналитики больших данных без написания кода. Платформа предназначена для таких применений, как расширение возможностей корпоративных хранилищ данных, углубленная аналитика, средства бизнес-анализа с самообслуживанием и уменьшение нагрузки на ETL.

Kyvos 4.0

Компания Kyvos Insights (Лос-Гатос, шт. Калифорния) разрабатывает облачную платформу аналитики для больших данных, которая обеспечивает оперативную аналитическую обработку (OLAP) для громадных объемов данных, хранимых в «озерах» на Hadoop.

В августе компания выпустила версию Kyvos 4.0 своей платформы, совершив «квантовый скачок» в масштабируемости ПО как в плане объема данных, который она способна обрабатывать, так и в количестве одновременно обслуживаемых пользователей — второе благодаря новой архитектуре балансирования нагрузки по схеме «ведущий-ведущий» (active-active), которая может масштабироваться до тысяч участников.

Новая версия 4.0 предоставила также доступ к более широкому спектру инструментов бизнес-анализа и новые функции безопасности для защиты источников данных. Также, она обеспечивает адаптивную настройку серверов запросов исходя из потребностей использования, отвечая на возросшие рабочие нагрузки или упавший спрос в непиковые часы.

Podium Data Conductor

Организации накапливают теперь «озера данных» — огромные склады необработанной, не систематизированной информации, часто построенные на Hadoop. Трудность состоит в том, как раскрыть потенциальную ценность всех этих данных. Компания Podium Data (Лоуэлл, шт. Массачусетс) создала платформу Podium Data Marketplace для построения централизованных репозиториев чистых, хорошо документированных данных, доступных для широкого круга пользователей.

В сентябре компания предложила набор инструментов Data Conductor, помогающий администраторам данных, специалистам по комплайенсу и бизнес-пользователям обнаруживать данные, извлекать их и управлять ими на любой платформе внутри организации. Data Conductor, являющийся неотъемлемой частью платформы Podium, работает с локально развернутыми базами данных и операционными системами и со сторонними источниками в общедоступном облаке.

В октябре в платформу был добавлен новый инструмент Intelligent Data Identification, сочетающий в себе интеллектуальный каталог данных и механизм распознавания паттернов, позволяя выявить повторы данных, улучшить управление данными и вскрыть потенциальные проблемы повреждения данных.

Data Sharing и Snowpipe (Snowflake Computing)

Компания Snowflake Computing (Сан-Матео, шт. Калифорния), ведущий поставщик услуг облачного хранилища данных, представила два новых продукта, которые привлекли внимание рынка в этом году, — Data Sharing и Snowflake Snowpipe.

Snowpipe исходит из того, что всё больше организаций хранят громадные объемы данных в облаке Simple Storage Service (S3) у AWS (и этот тренд нарастает благодаря быстро снижающейся стоимости облачного хранения) и ищут способы оперативно работать с этими данными при принятии решений.

Snowpipe обнаруживает данные, идущие в S3, и направляет их в хранилище Snowflake Computing, предоставляющее анализ почти в реальном времени и удобные клиентские приложения.

Другой сервис, Data Sharing, представляет собой расширение хранилища данных Snowflake и позволяет подписчикам обмениваться оперативными данными между собой в защищенном режиме, задавая схемы обмена любого типа («один к одному», «один ко многим» или «многие ко многим»). С помощью этого сервиса организация может связать воедино разрозненные массивы данных из разных подразделений, чтобы получить всеобъемлющую картину работы компании или поделиться данными с заказчиками, партнерами и поставщиками с целью снижения затрат и повышения эффективности.

Data Collector Edge (StreamSets)

Всё больше данных генерируется сегодня на периметре сети, будь то устройства Интернета вещей, IoT-датчики на промышленном оборудовании или системы кибербезопасности для клиентских устройств. Трудность состоит в том, чтобы собирать все эти данные максимально эффективно.

Компания StreamSets из Сан-Франциско разрабатывает платформу для управления жизненным циклом «данных в движении». В ноябре она предложила сервис Data Collector Edge: это свободное ПО загрузки данных для ограниченных в ресурсах и возможностях связи систем на периметре компьютерной сети.

ПО представляет собой облегченную версию продукта StreamSets Data Collector, она занимает в памяти всего 5 Мбайт и потому идеально подходит для устройств на периметре IoT и кибербезопасности. На сегодняшний день логика ввода данных для таких приложений часто пишется отдельно для каждого типа устройств.

Код SDC Edge написан на языке программирования Go; сам сервис совместим с разными операционными системами, включая Linux и Android. Он выполняет вычислительные операции, такие как нормализация данных, редактирование/пересмотр и агрегирование данных, и обеспечивает поддержку полнофункциональной аналитики на периметре, включая модели машинного и «глубокого» обучения.