В середине ноября в американском городе Тампа (шт. Флорида) прошла очередная международная конференция по суперкомпьютерам Supercomputing’2006 (sc06.supercomputing.org).

На её открытии выступил известный футуролог и изобретатель Рей Курцвейл (www.kurzweilai.net), разработчик систем искусственного интеллекта, автор первой в мире системы оптического распознавания текстов. В своем выступлении, которое заслуживает отдельного обзора, он заявил, что молекулярный компьютер к 2030 г. обретет силу человеческого интеллекта. Для этого, полагает Рей, придётся выполнить реверс-инжиниринг мозга, и такие работы сегодня уже ведутся. Через два десятка лет будут найдены лекарства от множества серьезных болезней, и ключевую роль в этом сыграют суперкомпьютеры. К тому времени появятся нанороботы, которые будут интегрированы в человеческий организм и мозг. Они предоставят человеку дополнительные органы чувств и усилят интеллект, в результате чего земная эволюция перейдет на качественно новый уровень. Продолжится экспоненциальный рост доли ИТ в современной экономике, и уже через 10—20 лет её объём будет определяться прежде всего информационными ресурсами.

В рамках конференции было организовано восемь тематических потоков: grid-вычисления, принципы устройства ведущих суперкомпьютерных комплексов, хранилища данных объемом в петабайты, распределенные технологии виртуализации, технологии сверхмасштабной визуализации, распределенные многоядерные системы, применение высокопроизводительных решений в нанонауках и использование графических плат (GPU) для универсальных расчётов.

Как обычно, немало докладов было посвящено всевозможным способам оптимизации архитектуры и управлению масштабными кластерами и суперкомпьютерами. Обсуждались наработки консорциума RDMA, совершенствующего одноименную технологию дистанционного доступа к памяти через различные сетевые протоколы.

Большой интерес вызывала концепция потоковых специализированных процессоров, фактически являющихся гибридами обычных и графических чипов (в частности, был представлен AMD Stream Processor с пиковой производительностью в сотни гигафлопс), а также векторные ускорители, расширяющие возможности универсальных процессоров.

Системы управления и программирования

Растёт интерес к системе управления группами Linux-кластеров OSCAR. Она была выпущена в исходных текстах в 2001 г., и с тех пор ею воспользовалось 160 тыс. человек. К конференции приурочен выход пятой версии OSCAR со множеством улучшений и базой лучших практик управления и настройки кластеров. Схожую систему управления параллельно выполняющимися программами и оптимизации кластерных ресурсов — TORQUE Resource Manager — вместе с её исходными текстами с сайта ежемесячно загружают 10 тыс. пользователей. Продукт Open|SpeedShop, созданный при поддержке министерства энергетики США и переданный год назад компанией SGI сообществу разработчиков открытого кода, предназначен для анализа производительности Linux-кластеров и параллельных приложений. Он доступен на сайте www.oss.sgi.com/projects/ openspeedshop.

На конференции активно обсуждались службы управления межсоединениями. Значительная часть межузловых соединений (до 80%) в конкретных проектах может простаивать, и система, следящая за распределением нагрузки и отключающая неиспользуемые каналы, может существенно снизить расход электроэнергии. Компания Quadrics анонсировала очередную версию своей технологии скоростных межсоединений QsNet III, масштабируемой до 8192 узлов и развертываемой на базе сетей Ethernet 10 Гбит/с. Национальная тихоокеанская лаборатория министерства энергетики США PNNL  представила опробованное в своей практике решение Secure Collaboration Zone, представляющее собой набор транспортных сетевых уровней, благодаря которым удаётся избавиться от межсетевых экранов на каждой клиентской машине и перевести деятельность по выявлению несанкционированных проникновений в сеть на центральный сервер.

Популярный интерфейс межпроцессорного взаимодействия Message Passing Interface разработан большой группой учёных и представителей промышленности. Он реализован практически для всех параллельных платформ и популярных языков программирования. Активно развивается его открытая реализация в исходных текстах — Open MPI, одна из первых в мире поддержавшая спецификацию MPI-2. В настоящее время ведётся разработка новой версии стандарта параллельных расчётов с общей памятью OpenMP 3.0, в которой появятся механизмы оптимизации сложных циклов с указателями, средства эффективного построения очередей, удобной синхронизации и отслеживания простаивающих ресурсов и т. п. На конференции также было представлено расширение Nested OpenMP для эффективного моделирования иерархически организованных процессов.

Grid-сети

Теме организации массовых grid-сетей с привлечением сотен тысяч добровольцев было посвящено немало выступлений. Отметим сообщение об общедоступном пакете SAGA, представленное Open Grid Forum, который предлагает стандартизированный набор интерфейсов для приложений, работающих в grid-сетях. ПО, созданное на его основе, будет успешно выполняться на различных версиях системных grid-прослоек. Среди последних модификаций пакета — поддержка вызовов функций, написанных на С++.

Специализированные процессоры

Внимание участников привлекла новая концепция перенастраиваемых супервычислений, подразумевающая активное использование программируемых логических интегральных схем (ПЛИС). Так, сотни параллельных ПЛИС-процессоров Mitrion Virtual Processor фирмы Mitrionics задействованы в качестве расширений суперкомпьютера Cray XD1 научной лаборатории ВМС США NRL — самого крупного ПЛИС-комплекса в мире. В ряде задач, связанных с моделированием физических процессов, он показывает стократное превосходство в сравнении с решениями, использующими универсальные чипы, и при этом существенно экономит энергию.

Как уже говорилось, на нынешней конференции отдельная сессия впервые была посвящена GPU-вычислениям, что стало знаковым событием. Если в прошлом году данная тема была затронута в одном обзорном выступлении и паре сообщений о решении с помощью GPU линейных уравнений и моделировании Марковских процессов, то на этот раз прозвучало немало докладов, в которых подробно изучались технологии ведения на графических чипах научных расчётов и способы организации проектов с привлечением тысяч энтузиастов, анализировалась эффективность доступных прикладных пакетов.

Показателен состав организаторов данной секции: корпорация Microsoft, вечные конкуренты на рынке графических плат компании ATI и NVidia, университеты Стэнфорда и Калифорнии, компания Neoptica, специализирующаяся на создании ПО для новых процессорных архитектур, и фирма PeakStream. Последняя продемонстрировала прорывное, судя по восторженным оценкам экспертов, коммерческое решение PeakStream Platform, виртуализирующее ресурсы универсальных и специализированных процессоров, совместимое с существующими компиляторами и до 10 крат сокращающее время разработки ПО для параллельных систем.

Специально к мероприятию NVidia приурочила выход нового Си-компилятора CUDA, ориентированного на решение типовых инженерных, финансовых, настольных задач на графических чипах. А представители Microsoft похвастались новым рекордом в тесте SortBenchmark, подразумевающем сортировку миллионов записей длиной в тысячу байтов. В состязании 2006 г. победил комплекс GpuTeraSort стоимостью 1200 долл., в котором параллельно с процессором Pentium IV в сортировке 590 млн. записей, выполненной за 644 с, была задействована графическая плата NVidia 7800 GT, а работала система под управлением Windows XP.

Файловые ускорители

Серия выступлений была посвящена ускорению доступа к файлам и БД, в которых сегодня хранятся петабайты информации. Файловая система Gfarm создавалась как открытая альтернатива сетевой файловой системе NFS и представляет собой быстро функционирующий набор масштабных распределённых файловых ресурсов в grid-сети. Представители японского аэрокосмического агентства рассказали о высокопроизводительной файловой системе Shared Rapid File System, которая успешно работает с файлами терабайтного размера, обеспечивая скорость передачи данных порядка нескольких гигабит в секунду.

Компания Netezza не очень известна на рынке СУБД, однако её решения всегда отличались инновационностью. Новый продукт Netezza Performance Server, способный обрабатывать терабайты данных, показывает на параллельных архитектурах производительность, в десятки раз превышающую показатели популярных СУБД. Достигается это за счёт использования аппаратных решений на базе ПЛИС, оптимизирующих взаимодействие с жестким диском, и интеллектуальных планировщиков и анализаторов, распараллеливающих запросы к базам.

О проблеме дисбаланса между производительностью процессоров и ОЗУ и отстающей от них производительностью накопителей на жестких дисках говорили многие выступающие. Эту проблему предложено решать в первую очередь с помощью кластерных хранилищ данных, которые сегодня только-только зарождаются. Так, компания YottaYotta продолжает эксперименты с гетерогенной кластерной платформой DICE, пользователи которой работают в министерствах обороны и энергетики США и НАСА. Она реализует концепцию локально-глобальных данных: для обрабатывающего их пользователя они локальны (при обращении к ним не возникает задержек и не выполняется дополнительная передача файлов между машинами), но при этом одновременно отслеживается целостность и идентичность копий наборов данных по всей сети. Ещё одна схожая по назначению система Isilon IQ динамически подключается к кластеру, повышая скорость его ввода-вывода на сотни мегабайт в секунду, а при комбинации таких устройств удаётся добиться быстродействия жёсткого диска порядка 1 Тб/с.

Разное

Продолжается проект Blue Brain политехнического университета Лозанны, в рамках которого изучается работа неокортекса — области мозга, ответственной за память, мышление и понимание окружающего мира. Компьютер IBM eServer Blue Gene с производительностью 22,8 Тфлопс круглосуточно трудится над амбициозной задачей построения к 2015 г. модели человеческого мозга. Визуализация нейронных процессов осуществляется на графическом Linux-суперкомпьютере SGI Prism, объединяющем десятки чипов Intel Itanium 2 и четыре видеокарты и обеспечивающем разрешение 3820х2480 точек. Ближайшим достижением учёных станет модель части неокортекса крысы объемом 10 тыс. нейронов; на очереди модели мозга кошки и обезьяны. Специалисты оптимистично полагают, что достаточно смоделировать деятельность нейронной сети мозга на молекулярном уровне, чтобы получить разумную компьютерную программу.