Мощнейшие изменения, происходящие сейчас на аппаратном, программном, коммуникационном и инфраструктурном уровнях суперкомпьютерных технологий, отражают наиболее значительную за последние годы трансформацию индустрии высокопроизводительных вычислений (HPC). Интрига сложившейся на сегодня ситуации заключается в том, что всё это множество событий, идей, технологий, разработок и даже рекордов года уходящего проявит кумулятивный эффект только в течение нескольких последующих лет. Прибегая к образной аналогии, можно сказать, что весь прошедший год отрасль HPC занималась разработкой и производством «кирпичиков» и теперь в распоряжении «архитекторов» индустрии есть всё, чтобы строить невероятные «супердома будущего».

Время разбрасывать камни

Три года подряд рейтинг самых производительных суперкомпьютеров планеты TOP500 возглавляет неизменный Tianhe-2 китайского национального оборонного университета с неизменными 33,86 Пфлопс. Застой? Ни в коем случае. Сравнение количества суперкомпьютеров в TOP500 с производительностью более 1 Пфлопс сейчас и три года назад показывает огромный прирост: 82 системы против 26. За три года создание вычислительного комплекса такой мощности стало более доступным благодаря появлению нового поколения более производительных и экономичных процессоров, ускорителей, коммуникационных и других компонентов.

Получается, рубеж в 1 Пфлопс постепенно превращается в мейнстрим, в то время как планка в 50 Пфлопс так и осталась не взятой. Причин этому можно назвать несколько, но основной, пожалуй, является экономическая целесообразность. С технической точки зрения нынешний рекорд TOP500 вполне мог быть побит и в этом, и, возможно, даже в прошлом году. Однако этого не произошло, несмотря на растущую опережающими темпами «жажду» на вычислительные ресурсы со стороны государственных учреждений, науки, обороны, образования, промышленности. Времена инвестирования в рекорды ради самих рекордов, похоже, позади и вряд ли уже вернутся.

У любой новой рекордной планки есть своя цена, и адекватной она может стать в единственном случае: при появлении полного комплекса технологий нового поколения. Именно этим — если вкратце, занималась индустрия HPC в 2015-м. Все уже объявленные проекты строительства вычислительных центров на ближайшие два-три года, включая системы Sierra и Summit для национальных лабораторий США с «заявкой на рекорд» уровня 100-150 и даже 300 Пфлопс, будут базироваться на технологиях, доведённых до практической реализации в уходящем году.

Трансформация HPC: новые рынки и приложения

Аналитики IDC в прогнозах развития отрасли всё чаще указывают на растущую тенденцию переноса HPC в облака. Наряду с ростом популярности графических ускорителей и сопроцессоров, позволяющих значительно повысить оперативность систем, возрастающая роль в развитии HPC также отводится современным хранилищам данных, переходу на новые типы межсоединений, организации памяти и другим аппаратным вопросам. Однако при этом наиболее важным вопросом аналитики считают своевременное развитие технологий управления и перемещения данных, которые после многолетнего переходного периода положат конец нынешнему «экстремальному вычислительному центризму» (extreme compute-centrism) в пользу программно-определяемых систем и других инновационных идей.

По данным IDC, в ближайшие годы рынок HPC будет расти в среднем на 8,2% ежегодно в ближайшие пять лет и достигнет к 2019-му объёма в 15,2 млрд. долл. Особенное место в дальнейшей экспансии отрасли IDC отводит бурно растущему тренду на сочетание HPC и Big Data, стык которых порождает совершенно новые решения в отрасли суперкомпьютерных вычислений, привлекая новых потребителей и пользователей.

Сочетание HPC и Big Data, породившее новый сегмент — HPDA (High Performance Data Analysis, высокопроизводительная аналитика данных), определяет основные акценты развития всех трёх ключевых компонентов. Вычислительные ресурсы HPC нового поколения будут работать с более сложными алгоритмами, в условиях высокой критичности таких вычислений к временным рамкам (в идеале — в режиме реального времени), а также в меняющихся условиях размещения данных, в том числе в облаке. Условие работы с любыми видами информации вызывает необходимость универсальной поддержки любых объёмов, сочетаний, значений и изменений данных, структурированных и неструктурированных, разбиваемых и не разбиваемых на разделы, с постоянными и нерегулярными структурами. Наконец, сами задачи аналитики и моделирования (simulation & analytics) требуют новых разработок и подходов, применения итерационных методик, которые будут востребованы как традиционными потребителями HPC, так и совершенно новым классом коммерческих пользователей.

Модель грядущей конвергенции систем HPC и Big Data описал в одном из своих выступлений Раджиб Хазра, вице-президент Intel и глава Data Center Group компании. Несмотря на существенные различия между современными программно-аппаратными платформами для обоих направлений, включая модели программирования, управление ресурсами, файловые системы и инфраструктурные организации, для конвергированных систем HPC — Big Data будущего вполне возможно создание единой структуры с конфигурируемой иерархией памяти-хранения.

Intel предлагает платформенный комплекс Scalable System Framework (Intel SSF), позволяющий создавать масштабируемые, гибкие и сбалансированные HPC-системы. В ноябре на выставке SC’15 (Остин, США) компания представила основной элемент SSF — сквозную коммутационную технологию Intel Omni-Path Architecture (Intel OPA), делающую HPC-кластеры доступными большему количеству пользователей.

О планах по выпуску систем на базе Intel SSF в начале 2016 г. уже заявили многие ведущие производители планеты, в том числе, российская группа компаний РСК. На выставочном стенде РСК на SC’15 были показаны образцы будущего процессора Intel Xeon Phi 2-го поколения с кодовым названием Knights Landing на новой серверной плате Intel (с кодовым названием Adams Pass), а также коммутаторы и адаптеры Intel Omni-Path, которые станут неотъемлемой частью следующего поколения решений РСК для HPC и ЦОДов.

Новые 768- и 192-портовые коммутаторы Intel Omni-Path Director 100 и 24- и 48-портовые Fabric Edge 100 (100 Гбит/с на порт) — это прямые конкуренты Mellanox EDR InfiniBand. По словам представителей Intel, функциональные возможности Intel OPA, такие как интегрированная защита от сбоев при передаче пакетов данных, динамическое изменение полосы пропускания от 4 до 1 шин с сохранением передачи данных даже при одной работоспособной шине из четырёх, до 30% больший объём передачи сообщений на каждый порт коммутатора (до 73% на каждый чип), до 23% меньшие задержки на уровне порт-порт (до 60% в средних и крупных кластерах), по сравнению с InfiniBand в перспективе обеспечат значительно большую скорость работы и масштабируемость HPC-систем следующего поколения.

Ключевая особенность новых Intel Xeon Phi 2-го поколения (Knights Landing) с мультиядерной архитектурой MIC заключается в том, что в отличие от прежних Xeon Phi (Knights Corner) этот процессор имеет собственную загрузочную архитектуру и вполне обходится без ведущего процессора Xeon. Таким образом, получается, что отныне использовать слово «сопроцессор» в отношении Xeon Phi уже некорректно. Архитектура Knights Landing содержит 36 блоков с двумя процессорными ядрами в каждом (всего 72 ядра), по четыре модуля векторной обработки на каждый блок из двух ядер (по два на каждое ядро, всего 144 векторных модуля), 1 Мб кэша L2 в каждом блоке и когерентный кэширующий агент. Как раз в рамках ранее оглашённой структуры Intel SSF с конфигурируемой иерархией памяти-хранения Knights Landing оснащается подсистемой памяти MCDRAM, показывающей утроенную, по сравнению с привычной DDR4, производительность. По предварительной информации пиковая производительность Knights Landing в три раза превысит показатели предыдущего поколения и составит порядка 3 Тфлопс в операциях двойной точности и 6 Тфлопс в операциях одинарной точности.

Следующее за Knights Landing поколение Xeon Phi с названием Knights Hill будет выпускаться по нормам 10-нм техпроцесса. Предположительно, именно эти процессоры лягут в основу разрабатываемого совместно Intel и Cray проекта Aurora для лаборатории Argonne с производительностью порядка 150 Пфлопс и сроками запуска в 2018 г.

По мнению IDC, в ближайшее время рынок HPC — HPDA помимо традиционных финансового, оборонного и других направлений будет активно прирастать такими новыми индустриальными сегментами, как обнаружение аномалий и мошенничества (технологии идентификации на базе семантического, графического и других видов анализа), маркетинг (с применение более сложных алгоритмов таргетинга на основе оперативной информации о демографии, предпочтениях и привычках потенциальных потребителей), бизнес-аналитика (динамическое определение возможностей для расширения рыночной позиции и повышения конкурентоспособности за счёт лучшего понимания собственного бизнеса и конкурентов), а также ряд других коммерческих приложений.

По прогнозам IDC, через некоторое время ряд сегментов HPDA станет достаточно велик для разделения на отдельные направления, такие как, например, использование HPC для управления крупными корпоративными ИТ-инфраструктурами или взаимодействия с Интернетом вещей (Internet-of-Things, IoT).

Одним из наиболее важных и энергично развивающихся рынков применения HPDA и, соответственно, HPC, в ближайшие годы станет сегмент так называемого «глубокого машинного обучения» (Machine Learning/Deep Learning), когда перед вычислительной системой ставится не только цель поиска решения поставленной задачи, но в нее также закладываются алгоритмы самообучения, вплоть до механизмов когнитивных вычислений и искусственного интеллекта, позволяющие по ходу решения задачи разрабатывать собственные правила.

В настоящее время определяющими проблемами систем глубокого обучения для массового ИТ-рынка (некритичных по времени приложений и публичных облаков) считается разработка последовательных и наукоёмких алгоритмов, а также технологий, позволяющих отсеять ненужное и значительным образом (порой до 99%) сократить объём полезной информации ещё до начала её анализа.

Для высокопроизводительного (HPDA) рынка (критичного по времени, где далеко не всегда уместны публичные облака) акцент делается на разработку параллельных алгоритмов, приложений для создания научных данных, работы с гигантскими объёмами информации, где требуется получение результата очень высокого качества/разрешения.

В рамках конференции SC’15 вопросы глубокого машинного обучения фигурировали в качестве одной из ключевых тем многих мероприятий форума. Многие компании подготовили собственные программные и программно-аппаратные решения, ориентированные как на разработку алгоритмов, так и на обучение будущих специалистов в сфере Deep Learning. Nvidia представила комплексную масштабируемую платформу для ускорения анализа данных с алгоритмами машинного обучения. Платформа включает набор программных инструментов Hyperscale Suite для машинного обучения и обработки видеоданных, а также линейку ускорителей Tesla Hyperscale Acceleration, включая мощную модель Tesla M40 с 3072 ядрами CUDA и производительностью до 7 Тфлопс для обучения глубоких нейронных сетей и экономичную модель Tesla M4 для систем машинного обучения и обработки потокового видео и фотоизображений.

Список новых решений Nvidia для машинного обучения также включает портативный модуль Jetson TX1 для использования в различных полуавтономных самообучающихся устройствах вроде дронов или роботов, бортовой компьютер DRIVE PX с 12 входами для камер, радаров или лидаров для автономных автомобилей, а также уникальное решение DIGITS DevBox класса рабочей станции на базе Nvidia GeForce GTX TITAN X, позволяющего запускать самообучающиеся алгоритмы на настольном оборудовании. Совсем недавно компания также объявила об оснащении вычислительных систем нового поколения Facebook Big Sur ускорителями Tesla M40 для запуска различных приложений машинного обучения в рамках проекта Facebook AI Research (FAIR) для обучения нейронных сетей.

По словам Роя Кима, менеджера подразделения продуктового маркетинга Nvidia, применение акселераторов класса Tesla M40 в отдельных приложениях позволяет ускорить процесс машинного обучения в разы, сокращая продолжительность ряда операций с недели до суток. «Пакет Nvidia Hyperscale значительным образом упрощает и ускоряет процесс разработки приложений для машинного обучения. Теперь в распоряжении разработчиков и администраторов есть алгоритм cuDNN для глубоких сверточных нейронных сетей, GPU-ускоряемое ПО FFmpeg для ускорения перекодировки и обработки видео, движок GPU REST для ускоренного разворачивания веб-сервисов высокой пропускной способности, а также GPU-ускоряемый сервис Image Compute Engine с API REST для быстрого изменения изображений», — рассказал он.

Среди интересных решений, представленных под конец 2015 г., также стоит отметить новое поколение InfiniBand-коммутаторов Mellanox Switch-IB 2 с пропускной способностью 100 Гбит/с на порт, оптимизированное для задач HPC, Web 2.0, ЦОДов и облачных сервисов.

В рамках выставки SC’15 некоторый свет на свой грандиозный проект Flagship 2020 пролила компания Fujitsu. Платформа будет базироваться на новых 32-ядерных процессорах FX100 с примерно учетверённым уровнем производительности с плавающей запятой по сравнению с нынешним чипом Fujitsu FX10. Подобно Intel Knights Landing, чип Fujitsu FX100 будет использовать подсистему памяти с гибридной архитектурой.

Под конец 2015 г. также была озвучена новая интересная инициатива Linux Foundation — OpenHPC, нацеленная на создание открытых стандартов для HPC-сообщества. В настоящее время участниками OpenHPC являются многие лидирующие компании отрасли, включая Intel, Cray, Dell, HP Enterprise, Fujitsu, Lenovo, SUSE и другие. Инициатива очень многообещающая и со временем может стать новым фундаментом для всесторонней стандартизации HPC-систем.