Компания NVIDIA сообщила о выводе платформы GPU-ускорения для обработки больших массивов данных и машинного обучения. Новая платформа позволяет даже крупным компаниям анализировать огромные массивы данных и молниеносно делать точные прогнозы для бизнеса.
Открытое ПО RAPIDS обеспечивает аналитикам большой прирост производительности в бизнес-задачах высокой сложности, таких, как предсказание мошенничества в операциях с кредитными картами, прогноз запаса товаров на складе, прогнозирование покупательского поведения потребителей. RAPIDS уже получила широкую поддержку – от новичков в области разработки открытого ПО, таких, как Databricks и Anaconda, до технологических лидеров индустрии, таких, как Hewlett Packard Enterprise, IBM и Oracle.
Аналитики оценивают ежегодный объем серверного рынок анализа данных и машинного обучения в 20 млрд долларов. Вместе с рынком решений для научных исследований и глубокого обучения совокупный объем рынка высокопроизводительных вычислений оценивается примерно в 36 млрд долларов.
«Анализ данных и машинное обучение – это крупнейшие сегменты рынка высокопроизводительных вычислений, которые до сегодняшнего дня не получали ускорение, - говорит Дженсен Хуанг (Jensen Huang), учредитель и генеральный директор NVIDIA, который представил RAPIDS во время выступления на конференции GTC EU. – Крупнейшие мировые компании запускают алгоритмы, созданные с помощью машинного обучения, на многочисленных серверах, чтобы выявить сложные паттерны в сегментах, где они работают, и делать быстрые и точные прогнозы, оказывающие прямой эффект на результаты их деятельности. Взяв за основу CUDA с ее глобальной экосистемой, мы создали платформу GPU-ускорения RAPIDS в тесном сотрудничестве с разработчиками открытого ПО. Она легко интегрируется в самые распространенные библиотеки обработки данных и существующие процессы для ускорения машинного обучения. Мы разгоняем машинное обучение так же, как мы разгоняли глубокое обучение».
RAPIDS включает набор открытых библиотек для анализа, машинного обучения и, совсем скоро, визуализации данных с GPU-ускорением. Эта платформа разрабатывалась инженерами NVIDIA более двух лет в тесном сотрудничестве с ключевыми разработчиками открытого ПО.
Специалисты впервые получают необходимые инструменты, чтобы целиком запустить конвейер обработки данных на GPU. Первые тесты RAPIDS с алгоритмом машинного обучения XGBoost для обучения на системе NVIDIA DGX-2 показали 50-кратный прирост производительности по сравнению с системами на базе CPU. Это позволяет сократить время обучения с нескольких дней до нескольких часов и с нескольких часов до нескольких минут в зависимости от объема набора данных.
Тесное сотрудничество с разработчиками открытого ПО
Платформа RAPIDS базируется на популярных открытых проектах, включая Apache Arrow, pandas и scikit-learn, наделяя GPU-ускорением самые популярные инструменты для обработки данных на Python. Чтобы добавить в RAPIDS новые библиотеки и возможности машинного обучения, NVIDIA сотрудничает с такими ключевыми игроками рынка открытого ПО, как Anaconda, BlazingDB, Databricks, Quansight и scikit-learn, а также с Уэсом МакКинни (Wes McKinney), главой Ursa Labs и создателем Apache Arrow и pandas, самой быстро растущей библиотеки для обработки данных на Python.
Чтобы ускорить распространение платформы, NVIDIA интегрирует RAPIDS в Apache Spark – ведущий открытый фреймворк для анализа и обработки данных.
Открытые библиотеки RAPIDS доступны на сайте http://www.rapids.ai; код доступен по лицензии Apache. Контейнеризованные версии RAPIDS будут доступны на этой неделе в репозитарии контейнеров NVIDIA GPU Cloud.