Новейшие технологии обработки больших данных экспонировались в рамках конференции Strata + Hadoop World в начале октября в Нью-Йорке. В выставке приняли участие более 160 вендоров. Некоторые из них представили новые продукты или значительные обновления своего ПО, среди них Altiscale, Clearstory, Cloudera, PepperData и другие. Многие из представленных новых технологий были связаны с Hadoop, Apache Spark, «озерами данных», базами данных NoSQL-типа и Microsoft Azure HDInsight. Вот некоторые из новинок, которые привлекли внимание CRN.

Altiscale Data Cloud 4.0

Компания Altiscale предлагает технологию больших-данных-как-услуги на базе Hadoop, которая позволяет организациям использовать все возможности Hadoop, избавив себя от сложностей и расходов по сопровождению этой платформы на местах.

Версия 4.0 обеспечивает поддержку всех основных реализаций механизма обработки Apache Spark и включает существенные обновления главных компонентов Hadoop, в том числе технологии согласования ресурсов YARN и распределенной файловой системы Hadoop (HDFS), для повышения производительности, масштабируемости и устойчивости.

Attunity Visibility 7.0

Компания Attunity представила последнюю версию своего ПО аналитики и мониторинга использования корпоративных данных, которая позволяет детально изучить деловые операции, использование данных и рабочие нагрузки с охватом Hadoop и внутрикорпоративных хранилищ данных через единую консоль. Видение полной картины поможет организациям масштабировать внедренные решения Hadoop и лучше приспособить их к своим деловым потребностям.

Компания продемонстрировала также Attunity Replicated Express для Hadoop — бесплатную версию своего ПО репликации и загрузки данных, которое автоматизирует процесс перемещения данных в Hadoop и в «озера данных» (data lakes), обеспечивая поддержку как пакетной, так и порционной загрузки данных.

BlueTalon Policy Engine

BlueTalon разрабатывает технологию безопасности данных для Hadoop, SQL и других вариантов среды больших данных. На конференции Strata + Hadoop компания представила новые тонко структурированные функции управления доступом к данным для своего BlueTalon Policy Engine, который обеспечивает функции фильтрации и динамического маскирования непосредственно на распределенной файловой системе Hadoop (HDFS).

Вендор подчеркивает, что новые введенные функции создают «всеохватывающий защитный контур» для Hadoop, который не оставляет возможности обойти средства защиты и получить прямой доступ к данным HDFS, а также устраняет риски, созданные разнородными политиками безопасности в конкретных приложениях.

Cazena: Big Data как услуга

Компания Cazena дебютировала сразу с двумя решениями: озеро-данных-как-услуга и витрина-данных-как-услуга, — которые упрощают обработку больших данных в облаке.

Сервис витрины данных предназначен для таких рабочих нагрузок, как аналитика, эпизодические задачи BI и для другой SQL-обработки данных. Сервис «озера данных» предназначен для промежуточного хранения (staging), обработки и архивирования больших объемов данных. В решении Cazena исходные данные переносятся в «озеро» для временного хранения и обработки, при этом можно извлекать и загружать подмножества данных в витрину для конкретных пользователей и отделов/подразделений организации.

Решение включает интеллектуальный анализ рабочих нагрузок для соблюдения соглашений об уровне обслуживания (SLA), функции автоматизации при переносе данных в облако с коннекторами для источников данных и средствами бизнес-аналитики, а также функции безопасности и прайвеси, включая шифрование данных.

ClearStory: Intelligent Data Harmonization

Компания ClearStory Data значительно расширила свое ПО Intelligent Data Harmonization, использующее механизм Apache Spark, которое помогает бизнес-пользователям в их повседневной работе, обеспечивая доступ к разнородным источникам данных, обнаружение данных и сведение их воедино для анализа — компания называет свою технологию «гармонизацией данных».

ClearStory расширила возможности «смешивания» данных в своем ПО, предложив интеллектуальное сопоставление данных (data matching) — визуальный интерфейс, упрощающий процесс интеграции данных. Другим новшеством является Data Lineage Visualizer, который обеспечивает целостность данных и углубленный анализ.

Cloudera: RecordService и Kudu

Компания Cloudera, разработчик платформы Hadoop, представила RecordService — единую систему внедрения политик безопасности на ролевой основе для экосистемы Apache Hadoop. Существующая пока в открытой бета-версии, RecordService представляет собой высокопроизводительный уровень безопасности для платформы Hadoop, обеспечивающий полную защиту по строкам и столбцам и динамическое маскирование данных.

Cloudera представила также открытую бета-версию Kudu, новой столбцовой системы склада данных для Hadoop, которая дает возможность быстрого анализа в сценариях использования в реальном времени. Дополняя существующие опции хранения Hadoop — HDFS и Apache HBase, — новое ПО представляет собой внутренне совместимый с Hadoop механизм хранения, обеспечивающий поддержку произвольного доступа к данным с малой задержкой, а также аналитики высокой пропускной способности.

Dataguise: интеграция с Azure HDInsight

Компания Dataguise, которая поставляет ПО обнаружения и защиты данных для Hadoop и других вариантов среды больших данных, объявила, что ее ПО DgSecure интегрировано теперь с Azure HDInsight — дистрибутивом Hadoop от Microsoft на ее облачной платформе Azure.

Благодаря этой интеграции Dataguise обеспечивает более высокую защищенность и соблюдение нормативных требований в среде Hadoop на базе Azure. ПО компании позволяет осуществлять обнаружение, аудит, защиту и мониторинг критичных данных в такой среде в реальном времени.

Dataiku DSS: интеграция со Spark

Компания Dataiku объявила, что ее Data Science Studio интегрирована теперь с механизмом обработки данных Spark, благодаря чему обработка в DSS выполняется в 10-100 раз быстрее. Это означает, что специалисты по анализу данных могут обрабатывать гораздо большие массивы — до нескольких терабайт — и притом намного быстрее.

Infoworks: Dynamic Data Warehousing

Стартап Infoworks, выйдя из «скрытого режима», впервые продемонстрировал свою платформу Infoworks Dynamic Data Warehousing, с помощью которой организации могут обеспечить поддержку всех типов бизнес-аналитики на одном кластере Hadoop.

Infoworks DDW просматривает корпоративные базы данных, осуществляя сбор данных, и загружает их в Hadoop, после чего организует эти данные в хранилища, кубические и другие модели представления данных, делая их пригодными для широкого спектра аналитических приложений. DDW непрерывно синхронизирует хранимые данные с их источниками и включает поддержку широкого спектра интерфейсов, в том числе ODBC и SQL, для осуществления доступа к данным.

MapR Technologies: поддержка JSON для документных БД

Компания MapR Technologies, разработчик собственного дистрибутива Hadoop, предложила встроенную поддержку JSON для своей базы данных NoSQL-типа MapR-DB. Документоориентированная база данных, встроенная в Hadoop, поможет разработчикам строить масштабируемые приложения на базе JSON, использующие «непрерывную» аналитику для данных реального времени.

JSON (JavaScipt Object Notation) — это облегченный формат обмена данными. Поддержка JSON в MapR-DB позволит разработчикам использовать все преимущества документной базы данных, объединенной с Hadoop и Spark.

MemSQL: Spark Streamliner для аналитики в реальном времени

Компания MemSQL, разработчик СУБД-в-памяти, представила Spark Streamliner — интегрированный модуль, использующий Spark, который обеспечивает функции аналитики в реальном времени. Компания поясняет, что организации могут использовать ее базу данных и Spark, чтобы внедрить конвейеры данных реального времени из многих источников (в частности, Apache Kafka), что позволит ускорить транзакции и анализ данных.

MemSQL заявляет, что ее Spark Streamliner обеспечивает внедрение Apache Spark в-один-клик, делая этот механизм обработки доступным для более широкого спектра вариантов использования.

PepperData: инструменты внутреннего биллинга для Hadoop

Компания PepperData, которая разрабатывает ПО для оптимизации кластеров Hadoop в реальном времени, добавила функциональность внутреннего биллинга (charge-back), которая позволяет проще отслеживать и распределять расходы, связанные с рабочими нагрузками по всем распределенным системам. Это должно ускорить широкое принятие Hadoop для типовых бизнес-процессов, считает компания.

Новая функциональность более надежно измеряет требуемый объем обработки конкретных пользователей и рабочих нагрузок, упрощая распределение расходов между подразделениями, использующими общее централизованное решение Hadoop с множеством участников, указывает компания.

SnapLogic: Elastic Integration Platform

Компания SnapLogic представила осенний релиз своей платформы-интеграции-как-услуги Elastic Integration Platform для обработки больших данных.

Платформа SnapLogic включает более 300 готовых встроенных коннекторов, которые называются «snaps». Новый релиз включает коннекторы для механизма обработки Spark и NoSQL-базы данных Cassandra. Еще одним новшеством является технология Sparkplex, позволяющая организациям использовать конвейеры данных на базе Spark, особенно для задач обработки в реальном времени — например, для рекомендательных систем на вебсайтах ритейлеров.

Talend Data Fabric 6.0

Компания Talend представила новый крупный релиз своей платформы интеграции данных, недавно переименованной в «Talend Data Fabric», с собственной поддержкой Apache Spark и Spark Streaming. Эта поддержка, встроенная в новые компоненты платформы, Talend Big Data и Talend Real-Time Big Data, обеспечивает пятикратное увеличение производительности для заданий, конвертированных из заданий MapReduce в Spark, сообщила компания.

Новый релиз включает также расширения для интеграции данных локального хранения и в облаке, а также для обеспечения качества данных и управления мастер-данными.

Trifacta v.3

Trifacta продемонстрировала версию 3 своего ПО для «окультуривания» данных (data wrangling), как называет его компания, — это процесс преобразования «сырых», сложного вида данных в ясные, структурированные форматы для анализа. Новый релиз включает ряд улучшений, касающихся безопасности (в том числе поддержку стандарта безопасности Hadoop — технологии Kerberos), метаданных и жизненного цикла данных (lineage), включая поддержку Cloudera Navigator и метасклада Hive, а также поддержку операционных приложений Kronos и Tidal.

Новый релиз включает также ряд расширений пользовательского интерфейса, в частности, Transformation Suggestion Cards, которые обеспечивают визуальное представление предлагаемых преобразований данных. Расширены также опции стыковки с источниками данных, такими как Amazon Web Services, Amazon S3, Hive и XLS-файлы.


Источник: Рик Уайтинг, CRN/США