Компания AMD анонсировала новый ускоритель AMD Instinct MI100 самый быстрый в мире HPC GPU и первый серверный GPU x86, преодолевший барьер производительности 10 терафлопс (FP64).

Построенный на новой архитектуре AMD CDNA, графический процессор AMD Instinct MI100 обеспечивает новый класс ускоренных систем для HPC и AI в паре с процессорами AMD EPYC 2-го поколения. MI100 обеспечивает пиковую производительность до 11,5 терафлопс в FP64 для HPC и пиковую производительность до 46,1 терафлопс в FP32 Matrix для ИИ и машинного обучения. Благодаря новой технологии AMD Matrix Core, MI100 также обеспечивает почти 7-кратное увеличение теоретической пиковой производительности с плавающей запятой в FP16 для учебных нагрузок по ИИ по сравнению с предыдущим поколением ускорителей AMD.

Открытая программная платформа для экзафлопсной эры

Программное обеспечение AMD ROCm для разработчиков обеспечивает основу для экзафлопсных вычислений. Как набор инструментов с открытым исходным кодом, состоящий из компиляторов, API и библиотек программирования, ROCm используется разработчиками экзафлопсных программ для создания высокопроизводительных приложений. ROCm 4.0 был оптимизирован для обеспечения производительности для систем на базе MI100. ROCm 4.0 усовершенствовал компилятор до открытого исходного кода и унифицировал его для поддержки OpenMP 5.0 и HIP. Фреймворки PyTorch и Tensorflow, оптимизированные для ROCm 4.0, теперь могут достигать более высокой производительности с MI100. ROCm 4.0 является последним предложением для разработчиков приложений HPC, ML и AI, которое позволяет создавать высокопроизводительное портативное программное обеспечение.

Ключевые возможности и особенности ускорителя AMD Instinct MI100 включают в себя:

  • Совершенно новую архитектуру AMD CDNA – Созданная для основы графических процессоров AMD в эпоху экзафлопности и являющаяся сердцем ускорителя MI100, архитектура AMD CDNA обеспечивает исключительную производительность и энергоэффективность.

  • Ведущую производительность FP64 и FP32 для рабочих нагрузок в HPC – обеспечивает пиковую производительность 11,5 TFLOPS для FP64 и 23,1 TFLOPS для FP32.

  • Совершенно новую технологию матричного ядра для HPC и ИИ – Сверхвысокая производительность для всего спектра матричных операций одинарной и смешанной точности, таких как FP32, FP16, bFloat16, Int8 и Int4, сконструированная для ускорения конвергенции HPC и ИИ.

  • Технологию AMD Infinity Fabric 2-го поколения – Instinct MI100 обеспечивает ~2x пиковую пропускную способность однорангового (P2P) входа/выхода по сравнению с PCIe 4.0 с совокупной пропускной способностью до 340 ГБ/с на карту с тремя каналами AMD Infinity Fabric. В сервере MI100 GPU можно настроить с двумя полностью подключенными четырьмя кластерами графических процессоров, каждый из которых обеспечивает пропускную способность до 552 ГБ/с входа/выхода P2P для быстрого обмена данными.  

  • Сверхбыструю память HBM2 – имеет 32 ГБ высокоскоростной памяти HBM2 с тактовой частотой 1,2 ГГц и обеспечивает ультравысокую пропускную способность памяти 1,23 ТБ/с для поддержки больших наборов данных и устранения узких мест при перемещении данных внутри и снаружи памяти.

  • Поддержку новейшего в отрасли PCIe Gen 4.0 – Создан с использованием новейшей технологии PCIe Gen 4.0, обеспечивающей пиковую теоретическую пропускную способность до 64 ГБ/с при передаче данных с CPU на GPU.

До конца года ожидается выпуск ускорителей AMD Instinct MI100 в системах от основных OEM и ODM партнеров.