Экзафлопсные суперкомпьютеры: достижения и перспективы

Создание экзафлопсных суперкомпьютеров идет по двум направлениям: эволюционному и инновационному. Первое предполагает постепенное улучшение существующих суперкомпьютеров на легких и тяжелых суперскалярных процессорных ядрах. Подход с тяжелыми ядрами более доступен и популярен в сочетании с применением графических сопроцессоров (GPU), сопроцессоров типа Xeon Phi и ускорителей на программируемых логических матрицах (FPGA). Считается, что это позволит быстрее создать суперкомпьютеры хотя бы не с реальной, а пиковой экзафлопсной производительностью; и даже при том, что такие системы, скорее всего, будут энергоемкими, не очень удобными в использовании и ориентированными на небольшой круг задач, это целесообразно.

Экзафлопсный барьер: проблемы и решения

Начиная с 2008 года зарубежными специалистами велась концептуальная проработка создания после 2015 года суперкомпьютеров экзафлопсного уровня производительности. Какие трудности поджидают здесь разработчиков?

Виктор Горбунов, Леонид Эйсымонт

Задача инновационных проектов — поиск новых решений и технологий для создания эффективных и отказоустойчивых суперкомпьютеров с реальной экзафлопсной производительностью на широком круге задач. По ряду причин такие технологии называют экзамасштабными, и одно из их главных свойств — обеспечение удельной энергетической эффективности в 50 GFLOPS/Вт, что в десятки раз выше, чем у нынешних суперкомпьютеров.

До недавнего времени наиболее заметны были результаты работ эволюционного направления, но сегодня в новейших образцах суперкомпьютеров уже просматриваются инновационные элементы будущих экзафлопсных гигантов, стали заметны некоторые общие черты новых систем, осознана сложность инновационного направления по преодолению физических ограничений имеющейся элементно-конструкторской базы и созданию новой, пост-Муровской, проведены мероприятия по расширению и улучшению организации соответствующих работ.

Звезды рейтингов и реальных приложений

Среди событий последних лет можно выделить следующие пять: достижение суперкомпьютером IBM Power 775 уровня в 2021 GUPS (Giga-Updates per Second — миллиард операций модификаций памяти в секунду) на тесте G-RandomAccess; поставка канадской компанией D-Wave концерну Lockhead Martine первого специализированного 128-кубитового квантового суперкомпьютера; успешный выпуск на рынок суперкомпьютера Cray XC30 с иерархической коммуникационной сетью; установка нового рекорда на тесте HPL (рейтинг Top500) китайским Tianhe-2, отличающимся гибридностью, как и прежний лидер Cray Titan, который переместился на второе место (гибридность стала сегодня одним из главных свойств, которым должны обладать суперкомпьютеры); опубликованная автором Top500 Джеком Донгаррой критика своего же рейтинга и предложение более адекватной методики тестирования.

DARPA UHPC — дорога к экзафлопсам

В середине 2010 года запущена программа DARPA UHPC по созданию принципиально новых суперкомпьютеров экзафлопсного уровня, она определит направления инновационных работ на предстоящее десятилетие.

Леонид Эйсымонт

Новый рекордсмен рейтинга Top500 (июнь 2013 года) [1, 2] Донгарра сравнивал с лидером предыдущего списка суперкомпьютером Cray Titan, хотя корректнее было бы сопоставлять c IBM Power 775 [3] и Cray XC30 [4], коммерческими образцами перспективных суперкомпьютеров, разрабатывавшихся в программе DARPA HPCS по проектам IBM PERCS и Cray Cascade. В этих проектах не ставилось целью достижение рекордов на тесте HPL, но планировалось решить фундаментальную проблему «стены памяти», что позволило бы эффективно решать задачи интенсивной нерегулярной работы с глобально адресуемой памятью большого объема, отображаемой на физическую память вычислительных узлов.

Важным показателем качества для проекта DARPA HPCS было достижение значения 64000 GUPS на тесте G-RandomAccess, что оказалось необычайно сложным — до сих пор нет подтвержденных сведений, что этот уровень достигнут. Программа начиналась при уровне 35 GUPS (2005 год), до лета 2012 года он оставался в диапазоне 100–120 GUPS, но в июле произошел скачок до 1572 GUPS на фрагменте IBM Power 775, а в ноябре — до 2021 GUPS.

По иронии судьбы, указав в работе [1] достоинства Tianhe-2, позволившие этой системе стать очередным рекордсменом Top500, Донгарра одновременно опубликовал работу Toward a New Metric for Ranking High Performance Computing Systems (Sandia Report SAND2013-4744, June 2013), в которой тест HPL рейтинга Top500 охарактеризовал как неадекватный для отображения нагрузки на реальных приложениях и вводящий в заблуждение как при разработке, так и при оценке суперкомпьютеров. В этой работе был предложен новый тест HPCG — итерационное решение системы линейных уравнений, представляемой разреженной матрицей, методом сопряженных градиентов с предобуславливанием. Что касается Tianhe-2, то эта система как раз обладает рядом особенностей, которые обеспечили бы ей высокие показатели и на новом тесте HPCG, и на реальных задачах. Именно эти особенности можно считать очередными шагами по инновационному пути.

HPC: региональные особенности

В разных регионах мира развернулись работы по созданию перспективных суперкомпьютеров. О каких решениях идет речь и как обстоит ситуация с их реализацией в России?

Виктор Горбунов, Георгий Елизаров, Леонид Эйсымонт

Характерная общая черта cуперкомпьютеров IBM Power 775, Cray XC30 и Tianhe-2 — их иерархическая архитектура и иерархическая коммуникационная сеть. Главный элемент такой сети — одночиповый маршрутизатор с множеством связей (линков). В IBM Power 775 это IBM HUB Chip [3] с четырьмя процессорными интерфейсами (суммарная односторонняя пропускная способность 768 Гбит/с) и с 47 сетевыми линками трех типов (суммарная пропускная способность 4704 Гбит/с). В Сray XC30 это Cray Aries Chip [4] с четырьмя процессорными интерфейсами (512 Гбит/с) и с 40 сетевыми линками трех типов (965 Гбит/с). В Tianhe-2 — маршрутизатор NRC Chip [2], суммарная пропускная способность однотипных линков составляет 1280 Гбит/с, из них два используются как интерфейсы с процессорами, а остальные — как сетевые.

Через процессорные интерфейсы к таким маршрутизаторам подключаются узлы — серверные платы. Маршрутизаторы обеспечивают соединения узлов на трех уровнях иерархии, реализуя при этом и переход с одного уровня на другой. Топологии соединений для IBM Power 775 и Сray XC30 представлены на рис. 1 и 2. Видно, что реализованы соединения типа «каждый с каждым», и в перспективе такую же сеть следует ожидать в Tianhe-2, хотя сейчас используется топология «толстого» дерева, но с соединением «каждый с каждым» внутри процессорной стойки. Маршрутизатор NRC Chip уже сейчас позволяет перейти к иерархической сети, но, скорее всего, он будет переделан и приближен к IBM HUB Chip.

Рис.1. Топология соединения маршрутизаторов сети PERCS внутри узла и суперузла IBM Power 775

Рис. 2. Топология соединений маршрутизаторов сети Aries в двухстоечном фрагменте Cray XC30

Иерархическая организация, похоже, приобретает характер фактического стандарта; она предлагалась еще в 2008 году в материалах рабочих групп DARPA по инновационному направлению создания экзафлопсных суперкомпьютеров.

Другое общее свойство суперкомпьютеров инновационного направления — гибридность процессорных ядер. Опыт последних десяти лет показал, что для эффективного решения практических задач ядер суперскалярного типа, легких или тяжелых, явно недостаточно — необходимы ядра различной архитектуры и функционального назначения. Например, для обеспечения толерантности к задержкам выполнения операций с памятью и сетью необходимы массово-мультитредовые ядра с поддержкой множества асинхронных тредов, а для повышения производительности и эффективности вычислений применяются ядра с векторной архитектурой или большим количеством синхронных тредов.

В суперкомпьютерах IBM Power 775, Cray XC30 вычислительные узлы спроектированы под суперскалярные микропроцессоры с тяжелыми ядрами, но ускорительные сопроцессоры можно дополнительно подключать как внешние узлы. В Tianhe-2 гибридность заложена глубже — уже в конструкции вычислительных узлов непосредственно реализована возможность использования сопроцессоров-ускорителей. Однако если в Tianhe-1A [2] применялся графический сопроцессор Nvidia Fermi, то сейчас используется сопроцессор Intel Xeon Phi. Это сопроцессоры разных типов, имеющие взаимодополняющие достоинства, поэтому в будущем в Tianhe-2, вероятно, будет применен и GPU.

Следует добавить, что иерархичность и гибридность были заложены в качестве основных свойств и в российском суперкомпьютере К-100, установленном в ИПМ им. М. В. Келдыша РАН. Иерархичность реализована путем введения на нижнем уровне высокопроизводительной сети «МВС-экспресс», а гибридность — включением в состав вычислительного узла трех графических процессоров, в дополнение к двум суперскалярным микропроцессорам.

Свойство гибридности означает неоднородность на уровне процессорных ядер. На более высоком уровне есть еще один тип неоднородности (гетерогенность) , когда в состав суперкомпьютера входят целые сегменты из специализированных процессоров и сетей, оптимизированных для решения какой-либо задачи или класса задач. В некоторых суперкомпьютерах Cray таким неоднородным сегментом был массово-мультитредовый суперкомпьютер Cray XMT, а в Tianhe-2 имеется сегмент на базе 256-тредовых микропроцессоров FT-1500, специально ориентированных на решение информационно-аналитических задач.

Реализация свойства гетерогенности быстро набирает популярность — это еще одна общая инновационная черта, которая может оказаться особенно важной в процессе перехода на новые технологии «пост-Муровской эры», которые заменят кремниевые. В качестве примера можно указать появление специализированного 128-кубитового квантового суперкомпьютера канадской компании D-Wave, уже поставленного в Lockhead Martine для решения задач верификации программного обеспечения истребителя F-35 [5]. Данной системой заинтересовались и в НАСА для ее использования в автономных космических роботах и беспилотных аэрокосмических изделиях [6], а также в других ведомствах.

Необходимо уточнить, что словосочетание «квантовый компьютер» звучит довольно магически и несколько запутывает. Дело в том, что при разработке классического квантового компьютера исследователи столкнулись с рядом проблем, и пока реализованы всего лишь несколько кубитов. Кубит — это специфическое для таких компьютеров представление бита, позволяющее устойчиво хранить либо значения 0 или 1, либо некоторое квантовое состояние, обеспечивающее в N-разрядном регистре одновременно хранение и обработку 2^N значений. Суперкомпьютер D-Wave хотя и использует квантовые эффекты и кубиты, но является специализированным аналогово-спиновым устройством на сверхпроводниковой элементной базе, предназначенным для решения лишь одной задачи — поиска глобального экстремума функции методом «квантового отжига» (нахождение глобального минимума функции среди некоторого набора решений-кандидатов). Решаемая суперкомпьютером D-Wave задача такова, что многие другие могут быть к ней сведены — например, в таком виде можно задать задачу выполнимости булевских формул, которая является фундаментальной NP-полной задачей, исключительно важной в реальных приложениях.

Квантовые эффекты, на которые ориентирован суперкомпьютер D-Wave, работают при температуре, близкой к абсолютному нулю, около двух десятков миллиградусов по Кельвину. Сам процессор и конструктив выглядят экзотически (рис. 3), но результаты того стоят. Например, на задаче поиска глобального экстремума получено, что в сравнении с серверной платой с двумя четырехъядерными микропроцессорами Xeon E5430/2,66 ГГц и двумя типовыми решателями (CPLEX и MadCat) производительность D-Wave оказывается выше на 4–6 порядков.


А. Процессор в камере непосредственного жидкостного охлаждения	В. Процессор в конструктиве охлаждения и защиты
Рис. 3. Конструктив 128-кубитового квантового процессора

Итак, реальные разработки последних лет демонстрируют некоторые инновационные черты экзафлопсных суперкомпьютеров и суперкомпьютеров пост-Муровской эры, однако в целом организация работ инновационного направления оказалась неудачной и потребовала изменения.

Экзафлопсные проекты следующего поколения

После проработки по инициативе DARPA в 2008 году концепции экзафлопсных систем, в 2010 году началась реализация программы DARPA UHPC, в рамках которой были инициированы четыре проекта: Runnemede (Intel), Echelon (NVIDIA/Cray), X-calibr (лаборатория Sandia) и Angstrom (MIT/Tilera). Нишу инновационных проектов заняло DARPA, а министерство энергетики США — нишу эволюционных, нацеленных на создание крупных суперкомпьютеров для Окриджской и Аргонской лабораторий, а также лабораторий своего ядерно-оружейного комплекса. Однако уже в 2011 году выяснилось, что такое разделение работ неудачно — участникам программы оказалось не под силу выполнить поставленные задачи, поэтому было решено расширить фронт работ, перенеся основную тяжесть на Минэнерго, как наиболее мощную научную инфраструктуру США, сохранив и усилив проекты DARPA UHPC.

Формирование крупной программы Минэнерго по созданию экзафлопсного суперкомпьютера ожидается не ранее 2013–2014 года, а пока выполняется ряд небольших программ.

FastForward. Предназначена для поддержки основных потенциальных производителей экзамасштабных систем в части процессоров, памяти и системы хранения данных.
Co-Design Centers. Направлена на создание центров соразработки аппаратных платформ и программного обеспечения для трех прикладных областей (перспективные ядерные реакторы, процессы горения, новые материалы).
X-stack. Аккумулирует работы в области системного программного обеспечения, от моделей программ до методов обеспечения отказоустойчивости. Эта программа будет дробиться: например, в 2013 году из нее будут выделены проекты по операционным системам и системам поддержки выполнения программ — новая программа OS/R.
Проекты, связанные с технологиями создания экзамасштабных систем.

Текущий период, кроме выполнения экзафлопсных проектов, обладает еще одной особенностью — старые КМОП-технологии используются на пределе своих возможностей, а новые технологии пост-Муровской эры еще только разрабатываются. Среди этих технологий можно выделить: быструю сверхпроводниковую одноквантовую логику (RSFQ), одноэлектронные транзисторы (SET), квантовые клеточные автоматы (QCA), реверсивные компьютеры, квантовые компьютеры общего типа, специализированные квантовые компьютеры.

Острота ситуации в области элементно-конструкторской базы подтверждается запуском в январе 2013 года программы DARPA STARnet (Semiconductor Technology Advanced Research Network) создания инфраструктуры из базовых центров, выполняющих работы по оптимизации кремниевых технологий и созданию перспективной элементно-конструкторской базы. В частности, в эту инфраструктуру входят: Центр по перспективным архитектурам; Центр по материалам и интерфейсам; Центр наноматериалов; Центр по системам с низким потреблением энергии. Кроме DARPA, корпорации SRC и 39 университетов, в проекте участвуют Исследовательская лаборатория ВВС США и Ассоциация полупроводниковой индустрии, а также партнеры из промышленности: Applied Materials, GlobalFoundries, IBM, Intel, Micron Technology, Raytheon, Texas Instruments и United Technologies.

Моделирующая гетерогенная вычислительная система

В мае 2011 года в России была опубликована концепция федеральной программы «Развитие технологии высокопроизводительных вычислений на базе суперЭВМ экзафлопсного класса (2012–2020 гг.)», в составлении которой участвовали ведущие ученые и организации страны, занятые в суперкомпьютерной индустрии. Пока программа не принята, выполняются отдельные проекты эволюционного и инновационного характера. Среди таких проектов можно выделить разработку аналитических методов предсказания производительности на реальных приложениях, применяемых для сравнения выполнения программ на разных суперкомпьютерах и проверки достоверности экспериментальных результатов (см. врезку «Аналитическая модель производительности»).

Аналитическая модель производительности

Построение модели начинается с разбиения задачи на S_t этапов, для каждого из которых делается оценка времени выполнения вычислений, основанная на характеристиках и архитектуре сравниваемых суперкомпьютеров и некоторых формальных описаниях сложности, учитывающих как собственно вычислительные операции, так и операции по доставке операндов из памяти и записи результатов. Сумма оценок времени на каждом этапе и составит оценку времени решения всей задачи, но она не будет оценкой абсолютного времени решения этой задачи, а используется как некоторый условный показатель для сравнения различных типов суперкомпьютеров.

Детализация подхода состоит в следующем. При оценке времени каждого i-го этапа выделяется основной, часто повторяющийся фрагмент счета, для которого можно рассчитать временные затраты на вычисления, обращения к памяти разного типа (регулярные и нерегулярные). При этом можно считать затратами на вычисление количество произведенных операций, а затраты на выполнение обращений к памяти измерять количеством вычислительных операций процессора, которые можно выполнить за время каждого обращения. Расчет оценки времени решения задачи можно сделать по формуле (см. рис. А).

Экзафлопсные суперкомпьютеры: достижения и перспективы

Рис. А. Расчет оценки времени решения

В данной формуле определение O_i ,Ds_i, Dns_i не столь очевидно и производится по достаточно сложной методике.

Основная проблема модели состоит в том, что достаточно сложно сделать обоснованную оценку коэффициента C_i, однако разработаны соответствующие эмпирические правила. Пригодность такой аналитической модели проверена на практике.

Очевидно, что основная тяжесть исследований придется на экспериментальные работы по моделированию и макетированию новых суперкомпьютеров, и в этой связи целью одного из проектов, реализуемых в РАН, является создание моделирующей гетерогенной вычислительной системы (МГВС) для использования в рамках работ по созданию в России суперкомпьютеров со сверхвысоким уровнем распараллеливания с производительностью на уровне 10¹⁸ FLOPS. Проект МГВС открыт для участия сторонних организаций, и на сегодняшний день в нем задействованы ИПМ РАН, ФГУП «НИИ «Квант»», Центр инженерной физики МГУ, СПбГПУ.

Суперкомпьютерные установки РАН давно применялись в проектировании перспективных суперкомпьютеров — например, массово-мультитредовый суперкомпьютер «Ангара» моделировался на суперкомпьютере Межведомственного суперкомпьютерного центра РАН, а при отладке перспективных вариантов вычислительных средств использовался суперкомпьютер К-100, установленный в ИПМ РАН. Опыт этих работ показал, что экспериментальные исследования такого типа кроме моделирования должны включать и макетирование создаваемых устройств. Для макетирования и ускорения процессов моделирования возможно применение гетерогенных средств со множеством суперскалярных процессорных ядер и подключенных через высокоскоростную сеть ускорительных плат на FPGA. Из аналогичных зарубежных проектов инструментальных установок для применения в экзамасштабных системах можно отметить DEEP корпорации Intel и Университета Делавера.

В настоящее время начаты инициативные проекты, ориентированные на использование установки МГВС:

разработка вычислительных узлов, ПО, коммуникационной сети, памяти суперкомпьютера на множестве легких ядер;
разработка вычислительных узлов, ПО, коммуникационной сети и памяти суперкомпьютера с тяжелыми вычислительными ядрами и большой мультитредовостью, работающих над глобально адресуемой памятью;
разработка специализированных ускорительных блоков, включая блоки на основе элементной базы пост-Муровской эры;
реализация принципов работы массово-мультитредовых архитектур посредством эмуляции на коммерчески доступных многоядерных микропроцессорах и кластерных суперкомпьютерах;
создание гетерогенного суперкомпьютера в облаке суперскалярных ядер, ускорителей на GPU и FPGA;
разработка суперкомпьютера на базе функционального непроцедурного языка обработки символьной информации в сочетании с применением представления бесконечно малых и бесконечно больших величин конечными полиномами;
разработка системы предсказания производительности на базе высокоуровневых описаний программ и суперкомпьютеров;
развитие методики многоуровневого оценочного тестирования, включая средства обработки, накопления и анализа экспериментальных данных, извлечения знаний;
разработка и применение методик и программ обучения и повышения квалификации специалистов, создание информационно-аналитической базы материалов по суперкомпьютерным технологиям, проведение межведомственных семинаров по актуальным направлениям, содействие формированию профессиональных экспертных групп, общению специалистов разного профиля, включая физиков и технологов.

Проект МГВС и инициативные проекты должны оживить ситуацию в области работ по созданию отечественных экзамасштабных систем и облегчить выполнение мероприятий по будущей программе развития технологии высокопроизводительных вычислений на базе систем экзафлопсного класса.

Постмуровская эра

На сегодняшний день полупроводниковая промышленность освоила КМОП-технологию по норме 22 нм, а компания Intel уже начала переход на 14 нм, намереваясь достигнуть 5 нм к 2020 году. Но дальнейшая миниатюризация уже невозможна, и закон Мура перестанет работать не позднее 2024 года — развитие новых технологий логических элементов и элементов памяти упирается в ограничение Лэндауэра, которое может быть преодолено только в соответствии с принципом Неймана — Лэндауэра.

Ограничение Лэндауэра формулируется так: при необратимом процессе обработки информации, когда возможна потеря битов, затраты на обработку одного бита не могут быть меньше величины kT ln2, где: k — константа Больцмана, а Т — температура по Кельвину, при расчете берется комнатная температура 250° С или 298.15° K (Irreversibility and Heat Generation in the Computing. IBM Journal, July 1961, pp. 183–191). Обработка одного бита — это результат выполнения какой-либо операции над двумя битами (AND, OR, XOR). Предположим, что биты «материализованы», каждый из них хранится в некотором микроскопическом объеме, который при установке в 0 или 1 «заряжается» энергией, как конденсатор. Можно считать, что при выполнении операции один из таких битов-операндов превращается в результат операции и энергия не теряется, а вот другой бит-операнд теряется и соответствующий этому биту микроскопический объем разряжается. Эта энергия выделяется в виде тепла, что и считается минимальной энергетической платой за выполнение элементарной операции. Минимальная энергия, которая требуется, чтобы микроскопический объем вещества (независимо от используемых технологий) был установлен в устойчивое состояние 0 или 1, должна быть больше теплового шума электронов в этом объеме. В физике этот уровень оценивается в kT ln2.

Технологиям в 22 нм соответствует уровень энергетических затрат на обработку одного бита не менее 100 000 – 1 000 000 kT, и Лэндауэр, исследуя динамику улучшения технологий, показал, что достижение уровня kT произойдет в районе 2020 года.

Принцип Неймана — Лэндауэра формулирует условие преодоления ограничения Лэндауэра: в системе с логической обратимостью можно добиться и физической обратимости — то есть если можно избавиться от потери битов при обработке информации, то затрачивать на обработку одного бита можно гораздо меньше kT. Попытки реализации этого принципа сегодня делаются в реверсивных машинах.

Из ограничения Лэндауэра выводится условное ограничение производительности в 32–128 EFLOPS для суперкомпьютеров на известных сегодня технологиях («точка Стерлинга», DeBenedictis E.P. Will Moore’s Law be Sufficient? SC’04). Пусть задано потребление в 600 кВт, и если взять числовое значение kT ln2 при комнатной температуре и поделить на него 600 кВт, то получим 200 йоттаопераций в секунду, 2х10²⁶ оп/с. Выполнение одной операции над 64-разрядным числом с плавающей точкой обходится в 20 000 однобитовых операций — это еще один делитель, и получается уже 10 зеттафлопс (10²² FLOPS). Следующий шаг вывода связан с обеспечением надежности суперкомпьютера заданной производительности на заданном интервале времени. Если требуется, чтобы суперкомпьютер в 100 EFLOPS работал без сбоев 10 лет, то в соответствии с некоторыми эмпирическими правилами уровень энергии на обработку одного бита должен быть 150 kT — это еще один делитель, и получается уже 100 EFLOPS. Если брать реализацию через процессор общего назначения, то обычные потери за счет накладных расходов составляют два порядка, отсюда получается примерно 800 PFLOPS. Наконец, надо учесть, что в ходе производства качество реализации ухудшается еще в 4 раза. В итоге получается, что лучшая оценка производительности суперкомпьютера — 25 EFLOPS для специализированного устройства и 200 PFLOPS для устройства общего назначения. Если за исходное энергопотребление взять не 600 кВт, а 20 MВт, что как раз и ожидается для экзафлопсных систем при нынешнем уровне развития технологий, то тогда и получится условная «точка Стерлинга».

***

Сегодня в ряде эволюционных суперкомпьютеров с элементами инновационных достигнут уровень производительности в 30–50 PFLOPS, и выход на уровень 100 PFLOPS возможен уже через пару лет. Появление эволюционного экзафлопсного суперкомпьютера ожидается в Министерстве энергетики США в 2018-2020 годах, а полностью инновационного — после 2022 года. Специализированные транспетафлопсные и близкие к экзафлопсу суперкомпьютеры DARPA могут появиться уже после 2017 года.

Расширение и перегруппировка занятых в экзамасштабных проектах сил свидетельствуют о том, что «простой» экзафлопсный суперкомпьютер не появится — будет продолжаться усложнение структуры, это проявится в сложной иерархии коммуникаций и памяти, усилении гибридности/гетерогенности и многократно возрастающей сложности управления. Поэтому сегодня крайне важен поиск новых методов, алгоритмов и способов организации управления вычислительным ресурсом. Кроме того, на повестке дня остаются следующие проблемы: разработка новых алгоритмов решения задач, учитывающих новые архитектуры; создание новой модели параллельных вычислений; снижение энергопотребления; повышение отказоустойчивости.

Появление в ближайшее время пост-Муровской элементной базы и новых принципов построения суперкомпьютеров приведет к созданию специализированных гетерогенных суперкомпьютеров зеттафлопсного уровня в 2020 году, а йоттафлопсного — после 2024 года.

Литература

Dongara J., Visit to National University for Defense Technology Changsha, China. June 3, 2013.
Yang Xue-Jun et al, The TianHe-1A Supercomputer: Its Hardware and Software. Journal of computer science and tachnology, 26(3): 344–351, May 2011.
Armili B. et al, The PERCS High-Performance Interconnect. 2010 18th IEEE Symposium on High Performance Interconnects, pp. 75–82.
Alverson B. et al, Cray XC Series Network. Cray white paper. 2012, pp. 28.
Simonite T. The CIA and Jeff Bezos Bet on Quantum Computing. MIT Computing News, October 4, 2012.
Smelyanskiy V.N. et al, A Near-Term Quantum Computing Approach for Hard Computational Problems in Space Exploration. NASA, D-Wave, University of South California, 2012, pp. 69.

Виктор Горбунов (vitech@rdi-kvant.ru) — заместитель директора, Георгий Елизаров (el izarov@rdi-kvant.ru) — директор, Леонид Эйсымонт (verger-lk@yandex.ru) — научный консультант ФГУП «НИИ «Квант»» (Москва). Статья подготовлена на основе материалов доклада, представленного авторами на IV Московский суперкомпьютерный форум (МСКФ-2013 , грант РФФИ 13-07-06046г).