Гибридная стратегия развития элементной базы

Указом Президента РФ № 642 от 1 декабря 2016 года была утверждена «Стратегия научно-технологического развития Российской Федерации». В настоящее время собираются мнения экспертного сообщества по важнейшим направлениям этой стратегии — в частности, по важнейшей проблеме создания отечественной элементной базы (процессоры, память и коммуникационная сеть) для суперкомпьютеров высшего диапазона производительности (экзауровень, EFLOPS) [1, 2].

На сегодняшний день достигнуты определенные успехи в создании отечественной элементной базы: выпущены микропроцессоры семейства «Эльбрус», ожидается микропроцессор «Байкал-M», реализована сеть «Ангара» с топологией n-тор и т. п. Однако характеристики этих изделий позволяют создавать суперкомпьютеры лишь среднего уровня, тогда как для суперкомпьютеров высшего диапазона производительности (СКСН — суперкомпьютеры стратегического назначения) этого недостаточно. Характеристики должны быть на один-два порядка выше, а рассуждения об «асимметричном ответе» и отечественных алгоритмистах и программистах, способных компенсировать отставание, хотя и уместны, но не должны оправдывать недостаточного развития отечественных технологий.

Появление зарубежных суперкомпьютеров экзауровня ожидается в 2018–2020 году. Выделяют четыре типа суперкомпьютеров, каждый со специфической элементной базой.

General Purpose (GP). Суперкомпьютеры общего назначения. Предназначены для решения научно-технических задач, имеющих хорошую или среднюю пространственно-временную локализацию обращений к памяти (рейтинг Top500). Однако сегодня таких задач все меньше, а для актуальных задач локализация ухудшается. Например, вместо работы с плотно заполненными матрицами сейчас характерна работа с разреженными матрицами (рейтинг HPCG).
Сapacity-Bandwidth (CB). Суперкомпьютеры с огромной памятью, используемой в режиме интенсивных обращений к ней с плохой пространственно-временной локализацией. Типичные задачи: Большие Данные, графовые базы с неоднородной информацией, моделирование функционирования сложных изделий и систем, искусственный интеллект (рейтинг Graph500).
Reduced Memory (RM). Суперкомпьютеры со встроенной основной памятью малого объема, обладающей малыми задержками и повышенной пропускной способностью. Такие системы обладают повышенной производительностью в сравнении с GP-суперкомпьютерами и предназначены для решения таких задач, как обработка сигналов и изображений, информационная безопасность, глубинное обучение.
Compute Oriented (СO). Суперкомпьютеры высшей производительности. Ориентированы только на вычисления с хорошей пространственно-временной локализацией обращений к памяти. Для них важно наличие большой кэш-памяти, допускается низкий баланс пропускной способности памяти и производительности; характерны задачи работы с плотно заполненными матрицами. Возможности таких суперкомпьютеров адекватно оцениваются тестом Linpack (рейтинг Top500).

На рисунке суперкомпьютеры этих типов представлены в пространстве координат объема оперативной памяти (PB, Пбайт) и баланса пропускной способности памяти к производительности (B/F), где B — байт, F — FLOP, операция над числами с плавающей точкой. По производительности на первом месте СO-суперкомпьютеры, потом идут RM, GP и СВ. К классу СКСН относятся RM, СВ-суперкомпьютеры и частично СO.

Типы суперкомпьютеров и их лучшие образцы

В современных СО-суперкомпьютерах, как правило, используются графические процессоры (GPU) компаний Nvidia и AMD, массово-многоядерные процессоры (MCP) Intel Xeon Phi. Для систем типа СВ характерно применение массово-мультитредовых и векторных микропроцессоров от Cray, NEC, NUDT.

Для RM-суперкомпьютеров наиболее важны большие программируемые интегральные схемы (FPGA) от Xilinx и Altera, а также проблемно-ориентированные СБИС (ASIC) как с жесткой логикой, так и перенастраиваемые за счет программируемости или реконфигурируемости. Микропроцессоры (СPU) от Intel, IBM, AMD, ARM и Fujitsu применяются в качестве управляющих.

Процессоры GP-суперкомпьютеров — это СPU для управления в сочетании с GPU, а также микропроцессоры типа MCP.

На текущий момент по рейтингу Top500 лидирует китайский суперкомпьютер Sunway TaihuLight с базовым микропроцессором MCP-типа SW26010: 256 ядер с 256-битовыми SIMD-ускорителями и четыре управляющих ядра с двумя 256-битовыми ускорителями у каждого [5]. На тесте Linpack суперкомпьютер развивает 74% реальной производительности от пиковой, а вот на тесте HPCG с разреженными матрицами — лишь 0,3%, результат явно слабый. По рейтингу HPCG лидирует японский суперкомпьютер на векторных микропроцессорах NEC SX-ACE с результатом 10,3% реальной производительности от пиковой. SX-ACE на данный момент наиболее приспособлен для решения задач с интенсивной регулярной и нерегулярной работой с памятью, обладая лучшей характеристикой B/F. Проект перспективного суперкомпьютера, условно называемого NEC Next SX-ACE, вполне можно отнести к системе экзафлопсного класса, он ожидается до 2020 года.

В США имеются три флагманских проекта суперкомпьютеров с производительностью в несколько сотен петафлопс, предвестников экзафлопсных систем: SUMMIT — Окриджская национальная лаборатория (ORNL), Sierra — Ливермормская лаборатория (LLNL), Aurora — Аргонская национальная лаборатория (ANL).

Вычислительный узел SUMMIT и Sierra содержит два суперскалярных микропроцессора IBM Power9, к которым подключены шесть графических процессоров NVIDIA Volta [3]. Общая пиковая производительность такого узла оценивается в 40 TFLOPS, из которых лишь 1,6 TFLOPS приходятся на Power9. Графические процессоры связаны высокоскоростными каналами NVlink (50 Гбайт/с) по схеме «каждый с каждым», а Power9 — каналами PCIe 4.0 (31,6 Гбайт/с) с каждым из них. Все микропроцессоры узла работают в общем адресном пространстве и имеют мультитредовую архитектуру, но разного типа: Power9 содержит 24 ядра, по четыре аппаратных треда в каждом (есть вариант 12 ядер по восемь тредов в каждом), а Volta содержит 2048 тредов, и в него введены еще мощные сложно-функциональные блоки для выполнения операций с матрицами 4х4, используемыми в алгоритмах глубинного обучения, что позволяет на таких задачах получить производительность до 120 TFLOPS при базовой производительности в 15 TFLOPS.

Проект Aurora для ANL выполняется на элементной базе Intel, системный интегратор — компания Cray, рассматривающая этот суперкомпьютер как первый образец нового семейства с названием Shasta. Его отличительные особенности: вычислительный узел имеет MCP-микропроцессор Knights Hill, содержащий 90–100 четырехтредовых ядер с двумя 512-разрядными SIMD-ускорителями в каждом; узлы связаны сетью Intel Omni Path, улучшенным вариантом сети Cray Aries c топологией Dragonfly (иерархическая сеть на многопортовых маршрутизаторах YARC, реализующих на трех уровнях соединения типа «каждый с каждым»).

По информации из экспертной среды, образцы зарубежных суперкомпьютеров класса СВ имеются в США, Китае, Японии и используются для решения специальных задач безопасности. В качестве их общего прототипа можно уверенно указать суперкомпьютер Cray XMT на 128-тредовых микропроцессорах Threadstorm с аппаратной поддержкой доступа к физической памяти узлов через глобально адресуемое виртуальное адресное пространство.

Какие типы суперкомпьютеров требуются в России, как расставить акценты и кто должен отвечать за их использование и разработку? Например, в США (распоряжение Президента от 29 июля 2015 года) ответственность за использование и развитие суперкомпьютеров разделена следующим образом: GP- и частично СO-суперкомпьютеры — это гражданский сектор научно-технических расчетов под управлением Министерства энергетики США; RM-, СВ- и частично СO-суперкомпьютеры — зона ответственности сообщества военных и разведывательных организаций США, подведомственных Министерству обороны США и Управлению перспективных разведывательных исследований (IARPA), приложения для которых (криптоанализ, Большие Данные, целеуказание, сетецентрические методы управления и т. д.) требуют практически неограниченной памяти и быстродействия, что означает постоянный поиск прорывных технологий, особенно сегодня, в условиях достижения пределов возможностей кремниевых технологий.

Общие компоненты для всех классов суперкомпьютеров — память и коммуникационные сети.

Лидерами в области памяти сегодня могут служить изделия компаний Micron и Samsung. Одна из главных задач здесь — обеспечить за счет высокой пропускной способности эффективную поддержку работы с физически распределенной по узлам памятью объемом до экзабайта, задержки обращений к которой имеют длительность от 100 до 100 тыс. тактов процессора. Особенно это важно для суперкомпьютеров СВ-типа.

Чтобы приблизиться к мировому уровню, в нашей стране необходимо освоить разработку кристаллов памяти DDR и NVRAM, 3D-модулей HBM-памяти (память с высокой пропускной способностью) со слоями в виде кристаллов памяти и логических кристаллов с блоками ввода-вывода и контроллерами. Соединения слоев в таких модулях осуществляются из внутренних точек кристаллов (TSV-соединения), что наряду с широким каналом подключения таких модулей к процессорам обеспечивает высокую пропускную способность и резкое снижение энергетических затрат. Дальнейшие работы по замене электрических TSV-соединений на нанофотонные значительно снизят энергетические затраты, что за рубежом было достигнуто два года назад в лабораторных образцах по проекту DARPA POEM. Большие перспективы сулит введение процессоров обработки данных (PIM) в логических слоях 3D-модулей памяти — заметный вклад в производительность вычислительных узлов от этих процессоров ожидается в 2023 году (на уровне 10%) и вплоть до 2030 года. Важна роль этих процессоров в разделении работ с памятью, поскольку на них можно возложить выполнение нерегулярных интенсивных обращений «на лету». Такие работы ведутся в Micron, а также в японских компаниях.

Разработка 3D-модулей HBM-памяти инициировала усовершенствование конструктивов плат: рассматриваются варианты 4D- и 5D-сборок, когда множество различных функциональных модулей собираются на единой керамической подложке — интерпозере. Этот вариант уже использован в GPU Volta и MCP Knights Landing, но наиболее впечатляющие результаты достигнуты в узлах суперкомпьютера NEC Next SX-ACE. Соединения между платами с подложками-интерпозерами в перспективе предполагается реализовать через специальные кристаллы с матрицами микролазеров и матрицами микролинз и светодиодов.

Автор не располагает сведениями о проведении в России работ по памяти и конструктивам.

Разработанная в ОАО «НИЦЭВТ» сеть «Ангара» на момент появления [4] была достаточно современна, однако сегодня необходимо совершить переход к иерархическим сетям, построенным на многопортовых маршрутизаторах, в которых реализуются функции трансляции адресов и обращения к памяти удаленных узлов (RDMA). В линках маршрутизаторов следует переходить к оптическим соединениям с уплотнением передачи информации на разных длинах волн. Сегодня наилучшими образцами являются иерархические сети на многопортовых (high radix) маршрутизаторах сетей IBM PERCS и Cray Aries. Перспективны исследования в области реализации оптических сетей без применения электрических или оптических линков для передач типа «точка-точка». Такая разработка велась, например, в компании Ligftfleet.

Относительно состояния и направлений развития процессоров отечественной элементной базы следует отметить следующее.

Компоненты типов GPU, MCP, FPGA того же уровня, что и зарубежные, в России не производятся, хотя такие попытки были [4]. Образцы векторных процессоров собственной разработки имеются в вариантах для встроенных систем: микропроцессор NM6407 и 21-ядерный гибридный микропроцессор NM6408MP разработки НТЦ «Модуль» (0,5 TFLOPS, 28 нм).

Компоненты типа ASIC обычно разрабатываются с жесткой логикой, что имеет ряд недостатков. Микропроцессоры российского производства типа CPU заметно уступают зарубежным по быстродействию и возможностям решения задач с интенсивной нерегулярной работой с памятью, а также по производительности интерфейсов для подключения внешних ускорителей.

Подавляющая часть российских суперкомпьютеров имеет тип GP, частично CO и построены на суперскалярных микропроцессорах Intel Xeon в сочетании с несколькими графическими процессорами Nvidia либо на MCP-ускорителях XeonPhi. Создаваемые суперкомпьютеры класса RM и частично СО построены на суперскалярных микропроцессорах Intel, но основная нагрузка по достижению требуемых характеристик возлагается на GPU и в существенно большей степени — на большие FPGA. Суперкомпьютеры типа СВ, по сведениям автора, не разрабатываются, а если и существуют некоторые образцы, то они созданы с использованием больших FPGA и имеют ограниченные возможности. Проект создания такого суперкомпьютера [4] не получил должной поддержки.

Отсутствие отечественных компонентов типа GPU и MCP в значительной степени компенсируется применением больших FPGA зарубежного производства. Выпуск отечественных FPGA такой мощности представляется практически невозможным. Кроме того, они весьма трудоемки в использовании, хотя по энергопотреблению предпочтительнее GPU и позволяют развивать сопоставимую производительность.

Какие возможны действия для улучшения ситуации с отечественными процессорами?

Отечественные суперскалярные процессоры можно усилить, если обеспечить их толерантность к задержкам обращений к памяти за счет подключения к ним сопроцессоров, имеющих множество легких мультитредовых ядер (mt-LWP). Схемы таких сопроцессоров разработаны в исследовательских проектах, и теперь ожидаются заключения по реализации и промышленному выпуску.

Однако кардинальные решения по исправлению ситуации в части суперскалярных и графических микропроцессоров могут быть сделаны с учетом имеющего опыта — мировой уровень качества элементной базы сегодня наилучшим образом демонстрируют микропроцессоры Power9 и Volta.

Суперскалярный Power9 доступен для копирования — возможно приобретение лицензии. Микропроцессор спроектирован с учетом перспективы остановки развития кремниевых технологий. Для повышения характеристик в будущем у него предусмотрено много внутренних и внешних интерфейсов, что позволит подключать внутренние ядра-ускорители и внешние процессоры-ускорители. Собственно говоря, первый шаг в этом направлении разработчики сделали в вычислительном узле для SUMMIT.

Графический процессор Volta не лицензируется, но следует учесть, что он представляет собой промежуточное решение на пути к более продвинутой архитектуре, которая ожидается в проекте Nvidia Echelon. Базовый микропроцессор этого проекта — гибридный массово-мультитредовый с восемью суперскалярными ядрами ARM и 256 кластерами по 16 тяжелых мультитредовых ядер в каждом. Каждое ядро 64-тредовое, выдача команд за такт производится с четырех тредовых каналов одновременно. Таким образом, в этом процессоре аппаратно поддержано выполнение 262 144 тредов. Такой процессор хотя и выглядит внушительно по объему оборудования, но по логической организации гораздо проще Power9.

Отечественный микропроцессор типа Echelon разрабатывался в [4], схема реализации такого микропроцессора может быть воссоздана на базе имеющихся схем легких мультитредовых ядер (mt-LWP). В этом проекте был бы полезен опыт разработки гибридного NM6408MP с ядрами ARM и векторными ускорителями.

Volta и Echelon интересны еще и потому, что в 2018 году будет выпускаться Nvidia Xavier, по внешним признакам сильно напоминающий эти микропроцессоры, но предназначенный пока для автономного управления автомобилем. Вполне вероятно, что после такого тестирования он найдет применение и в военных системах.

На сегодняшний день в нашей стране нет ни одного микропроцессора с мультитредовой архитектурой, в то время как в зарубежных изделиях трудно найти микропроцессор, где бы этот архитектурный принцип не использовался.

Применение ASIC может компенсировать отсутствие отечественных больших FPGA на новом уровне качества. Применение ASIC с жесткой реализацией алгоритмов невыгодно из-за их неперестраиваемости и недопустимо большого энергопотребления, возникшего для таких схем при переходе барьера в 28 нм, — напряжение на элементах, от квадрата которого зависит потребление, остается постоянным, а не уменьшается, как раньше, квадратично масштабированию, при переходе на новые технологии. Если имеется много активных элементов, переключающихся на каждом такте, а именно это характерно для ASIC с жесткой логикой, то энергопотребление весьма велико. Вдобавок большой вклад по потреблению дают характерные для таких ASIC длинные соединения как элементов, так и соединений в «клоковых деревьях» (сети передачи сигналов к элементам микропроцессора) для распространения тактовых сигналов. Все это приводит к тому, что плотность потребляемой энергии выходит за ограничение в 0,7 ватт на квадратный миллиметр для кристаллов с воздушным охлаждением. Кроме того, есть опасения, что ASIC с жесткой логикой окажутся малополезными из-за перехода на новые методы обработки информации, требующие применения в каналах одновременно множества разных алгоритмов, а не одного, а также из-за изменяемости алгоритмов формирования исходных данных и анализа результатов.

В случае применения перенастраиваемых ASIC возникает проблема настройки ASIC на разные алгоритмы даже в рамках одной предметной области. Считалось, что программируемые ядра таких схем не могут быть энергоэффективными из-за накладных расходов на выполнение команд, поэтому следует строить схемы с возможностью реконфигурации соединений. Это оказалось мифом. Как было доказано и в США, и в России, за счет использования новых микроархитектурных методов организации памяти команд и регистровой памяти можно эффективно использовать именно программируемые ядра, а применение метода реконфигурации следует ограничить. Это дает совершенно новые возможности для создания перестраиваемых ASIC.

Перестраиваемые ASIC для суперкомпьютеров типа RM могут быть сделаны более универсальными — построенными в виде массово-многоканальных СБИС, которые образованы объединенными внутрикристальной сетью каналами обработки на легких ядрах типа RISC и специализированными блоками-ускорителями в виде перепрограммируемых и реконфигурируемых устройств. Для гибкости применения в состав таких СБИС должны еще включаться однотредовые или мультитредовые ядра с целью подготовки исходных данных каналам и анализа получающихся на них результатов, а также для выполнения сервисных и диагностических функций. Чтобы изготовить такие СБИС, нужно создать несколько типов макроблоков, которые в каждом конкретном случае можно компоновать исходя из требований решаемых на такой СБИС задач. Близкий подход применяется сегодня в проекте DARPA CRAFT.

Суперкомпьютеры типа СВ требуют не только создания массово-мультитредовых микропроцессоров с легкой и тяжелой тредовостью, но и реализации сложной системы трансляции виртуальных адресов глобально адресуемой памяти, а также 3D-модулей HBM-памяти и современных иерархических сетей на многопортовых маршрутизаторах. Это масштабные работы, осуществление которых невозможно без поддержки на государственном уровне.

***

Приведенную стратегию, предусматривающую сочетание копирования и самостоятельной разработки при создании разных типов компонентов для суперкомпьютеров, включая и процессоры, можно назвать гибридной. Перечисленные направления работ в рамках этой гибридной стратегии имеют разную срочность выполнения, но все они требуют интенсивных исследований. Работа по ряду направлений, включая информационно-аналитическую, уже ведется.

Литература

Эйсымонт Л.К. Начало активной фазы создания экзафлопсных суперкомпьютеров и вопросы развития отечественных технологий // Шестой Московский суперкомпьютерный форум: тезисы докл. Всерос. конф. (Москва, 29 октября 2015 г.). URL: https://www.osp.ru/netcat_files/userfiles/MSKF_2015/Eysimont.pdf (дата обращения: 28.05.2017).
Эйсымонт Л.К. Диверсификация и импортозамещение при разработке российских суперкомпьютеров экза- и зетта- уровня // 29-я международная выставка информационных и коммуникационных технологий «Связь-2017»: тезисы докл. Делового форума «СВЯЗЬ 2017. Фундамент цифровой трансформации: государство, общество, бизнес» (Москва, 26 апреля 2017). URL: https://www.osp.ru/netcat_files/userfiles/Svyaz_2017/5.1_Leonid_Eysymont_Otkrytye_sistemy.SUBD.pdf (дата обращения: 28.05.2017).
Durant L. et al. Inside Volta: The World’s Most Advanced Data Center GPU, 10 may 2017. URL: https://devblogs.nvidia.com/parallelforall/inside-volta (дата обращения: 28.05.2017).
Анатолий Слуцкин, Леонид Эйсымонт. Российский суперкомпьютер с глобально адресуемой памятью // Открытые системы.СУБД. — 2007. — № 9, — С. 42–51. URL: http://www.osp.ru/os/2007/09/4569294 (дата обращения: 28.05.2017).
Михаил Кузьминский. Китайский процессорно-суперкомпьютерный путь // Открытые системы.СУБД. — 2017. — № 1. — С. 8–11. URL: https://www.osp.ru/os/2017/01/13051592 (дата обращения: 28.05.2017).

Леонид Эйсымонт (verger-lk@yandex.ru) — эксперт федерального реестра ФГУП РИНКЦЭ, научный консультант ФГУП «НИИ «Квант»», НТЦ «Модуль» (Москва).