Экзафлопсный барьер: проблемы и решения

Последние два года на Западе активно ведется концептуальная проработка вопросов создания после 2015 года суперкомпьютеров экзафлопсного уровня производительности, и уже сегодня ясно, что применение экстенсивных методов повышения производительности, как это наблюдается в гонке за место в Top500, ничего не даст. Какие трудности поджидают здесь разработчиков?

Эволюционное направление связано с развитием на базе архитектур х86 (Cray, Intel, AMD), PowerPC и Power (IBM), SPARC (Fujitsu и Oracle/Sun) и MIPS (Институт информационных технологий Академии наук Китая). Суперкомпьютеры этого направления (суперкластеры) используют экстенсивные методы повышения производительности за счет увеличения вычислительных ресурсов или применения единичных новых решений. Инновационное направление заключается не просто в создании суперкомпьютеров на базе коммерчески недоступных решений, а в применении экстремальных по возможностям технологий. Сегодня главные цели создания суперкомпьютеров этого направления состоят в резком снижении энергопотребления (на два-три порядка), повышении отказоустойчивости, продуктивности программирования и в решении проблемы эффективной работы с памятью. Это направление еще называют экстремальным суперкомпьютингом и связывают с задачей преодоления экзафлопсного барьера производительности, которая относится к числу решаемых в его рамках.

Аппаратные решения

Главные компоненты любого суперкомпьютера – вычислительные узлы с процессорами, памятью, внутриузловой коммуникационной сетью и сетевыми интерфейсами, а также межузловая коммуникационная сеть.

Вычислительные узлы

Появившиеся два-три года назад коммерчески доступные многосокетные платы, в которых использовались многоядерные микропроцессоры с быстрыми межкристальными каналами (Hyper Transport и QPI) для реализации быстрой внутриузловой коммуникационной сети, а также разделяемая многомодульная память оказались принципиальным новшеством, предоставившим в распоряжение широких кругов пользователей мощные SMP-узлы с большим объемом общей памяти.

Применение SMP-узлов и легких мультитредовых моделей организации параллельного счета к общей памяти позволило получить определенную степень независимости развиваемой на задачах реальной производительности от непомерно больших, в сотни раз превышающих такты процессора, задержек выполнения обращений к памяти и сети. Это позволило приступить к недоступному ранее для обычных пользователей эффективному решению ряда задач, отличающихся интенсивным нерегулярным доступом к памяти и большими требованиями к ее объему. В дальнейшем такие SMP-узлы стали объединять в мощные образования с общей памятью, которые уже можно назвать макроузлами или суперузлами. Такой подход был применен, например, во французском кластерном суперкомпьютере Bull Tera-100, в российском суперкомпьютере K-100 с сетью "MBC-экспресс" (ИПМ им. М. В. Келдыша РАН и НИИ ”Квант”) и китайском Tianhe-1A. Система заказного типа IBM BlueWaters, главный претендент на звание самого мощного в 2011 году суперкомпьютера, построена с использованием 32-процессорных SMP-узлов, но с применением специальных технологий, сейчас это высшее достижение по организации SMP-узла.

Многоядерность микропроцессоров, применяемых в вычислительных узлах, стала вынужденной мерой для обеспечения роста их пиковой производительности, и вызвана она прекращением прямого влияния закона Мура на рост производительности отдельных процессорных ядер. Однако многоядерность породила проблему эффективной реализации внутрикристальной сети и усугубила и без того сложные проблемы работы с памятью. Возможными решениями могут быть применение в процессорных ядрах мультитредовых и потоковых архитектур. Мультитредовая организация позволяет одновременно выполнять не один, а несколько потоков команд, что дает возможность увеличить множество выполняемых команд, но важнее – усилить поток одновременно выполняемых операций с памятью. При выполнении определенных условий это дает повышение эффективности выполнения операций с памятью, определяемой уже не задержками выполнения, а темпом выдачи операций с памятью и получения результатов. Такой темп может составлять доли тактов процессора, что в сравнении с сотнями тактов для задержек выполнения операций с памятью и определяет эффективность применения мультитредовых архитектур. Потоковая архитектура предполагает применение решающих полей элементарных процессоров или функциональных устройств и моделей вычислений в виде статических графов потоков данных. Это позволяет сократить общее количество обращений к памяти, поскольку на решающем поле данные передаются с одного быстрого ресурса на другой без обращения в память.

Претерпевает изменение организация физической и виртуальной памяти: увеличивается количество уровней иерархии памяти, повышается отказоустойчивость и функциональность, вплоть до встраивания в модули памяти выполнения атомарных операций и других низкоуровневых средств синхронизации параллельных вычислений, используются удаленные вызовы процедур. Виртуальная память изменяется по направлениям усложнения сегментно-страничной организации, усиления средств защиты данных и программ, увеличения гибкости отображения виртуального адресного пространства на физическую память, что важно при реализации моделей глобальной адресации памяти вычислительных узлов.

Межузловая коммуникационная сеть

Исторически в качестве межузловой коммуникационной сети в кластерах применялась сначала сеть Ethernet, а затем сети Myrinet, SCI и Quadrics. Заказные суперкомпьютеры всегда отличались специальными решениями в реализации коммуникационной сети. Например, в одном из наиболее удачных суперкомпьютеров Cray T3E применялась сеть топологии 3D-тор с адаптивной передачей сообщений, в маршрутизаторах которой была реализована двухуровневая виртуальная память с глобальной адресацией, включая выполнение специфических операций с ней.

Сейчас в суперкластерах доминируют сети Infiniband, имеющие хорошие перспективы в вопросах роста пропускной способности линков, оптимизации топологий и алгоритмов маршрутизации. В заказных суперкомпьютерах стали применяться многосвязные сети, позволяющие снизить диаметр сети и повысить ее бисекционную пропускную способность, дополнительно обладающие повышенной функциональностью. Многосвязные сети позволяют повысить эффективность выполнения не только MPI-программ — более важные цели их внедрения состоят в повышении продуктивности программирования и эффективности за счет перехода на выполнение программ с глобально адресуемой памятью и односторонним взаимодействием процессов. Примеры таких сетей: GEMINI (Cray) и PERCS (IBM), Arch суперкомпьютера Tianhe-1A.

В суперкластеры сейчас стали проникать сети типа N-тор, ранее применявшиеся в заказных суперкомпьютерах. Известны попытки эффективной реализации общего адресного пространства для небольшого количества серверных плат посредством сетевых интерфейсов Hyper Transport и PCI-Express, позволяющих строить сети с комбинированной топологией и наделять кластеры средствами работы с глобально адресуемой памятью.

Кому нужны суперкомпьютеры

Суперкластеры – между прошлым и будущим

Внедрение многосокетных плат позволило добиться толерантности приложений к задержкам обращений к памяти, это показало оценочное тестирование четырехсокетных плат с четырехъядерными микропроцессорами AMD Barcelona.

Летом 2010 года в клуб стран, обладающих суперкомпьютерами петафлопсной производительности (США и Германия), вступили Китай, Франция и Япония, а к 2013 году планируется вступление Южной Кореи и Индии. В 2011-2012 годах в США ожидается появление уже 10- и 20-петафлопсных систем IBM BlueWaters и IBM Sequoia. Расходы на суперкомпьютерную тематику в США составляют около 1,3 млрд долл. в год [1], в Японии — около 300 млн долл., в Китае — 67 млн долл., а в четверку стран с самым высоким показателем соотношения затрат на суперкомпьютеры и валового внутреннего продукта входят Сингапур, Гонконг, Южная Корея и США. Однако такое интенсивное развитие приносит и проблемы. Например, во всех странах (за исключением США) существует проблема загрузки суперкомпьютеров: мало пользователей, мало эффективных программ и невелико разнообразие областей приложений, что, правда, не считается причиной снижения темпов качественного усовершенствования суперкомпьютеров. Наблюдается стремление стран Юго-Восточной Азии, и особенно Китая [2], выйти в мировые лидеры HPC-индустрии за счет применения новейших мировых достижений и активизации собственных работ в области суперкомпьютерных архитектур, микроэлектронных и оптических технологий.

Великая китайская HPC-дорога

В 2010 году Китай выпустил два суперкомпьютера, попавшие в высшие строки списка Top500, Nebulae и Tianhe-1A и по большей части построенные на зарубежной элементной базе, однако, по оценкам аналитиков, уже в 2011-2012 году Китай вполне будет способен собрать суперкомпьютер петафлопсной производительности полностью на национальной элементной базе. Tianhe-1A – это один из двух петафлопсных суперкомпьютеров, которые разрабатывались в рамках китайской программы по высокопродуктивным суперкомпьютерам (аналог американской программы DARPA HPCS).

Общие характеристики Tianhe-1A: пиковая производительность – 4,7 PFLOPS, реальная 2,5 PFLOPS, причем 70% этой производительности дают графические ускорители, энергопотребление – 4 MВт. На первый взгляд это обычный суперкластер с микропроцессорами Intel Xeon 5670 и графическими сопроцессорами nVidia Fermi, однако это не так. В базовом 2U-модуле может располагаться не только четырехсокетная плата с микропроцессорами Xeon и двумя Fermi, но и четырехсокетная плата с многоядерно-мультитредовыми микропроцессорами FT-1000 — китайским аналогом микропроцессора Sun Niagara T2 (всего в системе имеется 2048 таких микропроцессоров). Восемь 2U-модулей и один модуль с восемью микросхемами маршрутизации образуют фрейм, в вычислительной стойке четыре таких фрейма. Еще имеются коммуникационные стойки сети собственной разработки — верхний уровень коммуникационной сети, получившей название Arch, с топологией сети Клоса, модифицированной таким образом, что возможны соединения “каждый с каждым” на ее уровнях иерархии. Стойки коммуникационной сети соединены с коммуникационными модулями фреймов оптическими линками, имеющими полнодуплексную пропускную способность 160 Гбит/с, что вдвое превышает пропускную способность линков применяемой в кластерах сети Infiniband QDR.

В сети Arch применяются микросхемы китайского производства – 16-портовый маршрутизатор NRC и сетевой адаптер NIC, изготовленные по технологии 90 нм (NRC содержит 460 млн транзисторов, а NIC — 150 млн). Сложность NRC сравнима со сложностью 48-портового коммуникационного чипа HUB (440 млн транзисторов), на котором построена сеть суперкомпьютера IBM BlueWaters. Есть еще ряд особенностей Tianhe-1A, позволяющих говорить о его идейной схожести с IBM BlueWaters, а сети Arch — c сетью PERCS. По оценкам аналитиков, сеть Arch может эффективно выполнять операций доступа к памяти удаленных узлов (RDMA), что необходимо для реализации глобально адресуемой памяти.

Примечательно, что массовое включение микропроцессоров FT-1000 в Tianhe-1A превосходит все известные мировые достижения, — близкий результат имеется только у Cray в 512-процессорных версиях Cray-XMT, хотя теоретически этот суперкомпьютер может масштабироваться до 8 тыс. процессоров.

Внушительная мультитредовая подсистема Tianhe-1A может быть применена для создания информационных систем высокоскоростной обработки информации из глобальных сетей, включающих также работу с большими нерегулярными (графовыми) базами данных. По-видимому, возможно применение этой подсистемы и при решении сложных вычислительных задач, отличающихся нерегулярностью обращений к памяти огромного объема (например, задачи практической аэро- и гидродинамики с использованием динамически изменяемых нерегулярных сеток).

Стратегические ИТ: китайский сюрприз № 863

Пять лет назад Китай приступил к реализации проекта, сопоставимого с аналогичными американскими и японскими проектами DARPA HPCS/PCA, NGSP и федеральным планом США фундаментальных работ по суперкомпьютерам. Каковы шансы Поднебесной создать перспективные системы с реальной производительностью экзафлопсного уровня, оставив позади США и Японию?

Другой китайский суперкомпьютер, Dawning 6000, разрабатывается в Институте информационных технологий Академии наук Китая и содержит вычислительную и сервисную часть. Вычислительная часть — это 1000 1U-гиперузлов, каждый из которых включает восемь микропроцессоров Goodson-3B китайского производства и один микропроцессор AMD Opteron для выполнения задач управления. Сервисная часть строится на зарубежных универсальных и графических микропроцессорах. Именно сервисная часть этого суперкомпьютера в виде системы Nebulae была представлена в списке Top500 летом 2010 года.

Микропроцессор Goodson-3B имеет восемь ядер и работает на частоте 1 ГГц, выдает пиковую производительность 128 GFLOPS за счет двух 256-разрядных арифметических устройств. Летом 2010 года были обнародованы сенсационные планы создания следующего микропроцессора Godson-3С по технологии 28 нм: если раньше речь шла о том, чтобы догнать американских производителей, то теперь ставится цель превзойти их по микропроцессорам, которые могли бы применяться как в персональных терафлопсных суперкомпьютерах, так и в суперкомпьютерах экзафлопсного уровня. Goodson-3C должен содержать четыре тайла, в каждом из которых по четыре суперскалярных ядра, усиленных встроенными в каждое ядро двумя 256-разрядными векторными функциональными устройствами. В результате это будет 16-ядерный микропроцессор с тактовой частотой 1,5 ГГц, пиковой производительностью 384 GFLOPS и потреблением 15Вт. Микропроцессор будет иметь четыре контроллера HyperTransport для создания плат с 16 и больших числом сокетов и четыре контроллера памяти DDR3. Таким образом, уже в 2011 году Китай будет обладать микропроцессором с пиковой производительностью, близкой к современным графическим ускорителям и с рекордной энергоэффективностью — около 30 GFLOPS/Вт.

Имеются сведения и о следующем микропроцессоре – Goodson-T, в котором будет 64 ядра, содержащих сетевые интерфейсы для внутрикристальной двойной сети, 2D-решетка и блоки интерфейса с памятью. В этом микропроцессоре уже явно просматривается ориентация на реализацию в 3D CБИС с внешними выводами не по периметру, а по площади кристалла.

В Поднебесной развернуты работы еще по двум направлениям: HPC-системы с повышенной отказоустойчивостью и HTC-системы с высокой пропускной способностью выполнения заданий [2] для поддержки предоставления сервисов в Интернет. Системы повышенной отказоустойчивости основаны на применении многосокетных плат — на сегодня имеется вариант в 32-сокета, а в ближайшем будущем появятся 64-сокетные платы. Рассматриваются два варианта по типам микропроцессоров: SPARC (головной исполнитель — компания Huawei) и х86 (компания Inspur).

Америка и Европа

DARPA UHPC – дорога к экзафлопсам

В первых числах августа 2010 года появились сообщения о начале работ по программе DARPA UHPC, предусматривающей создание принципиально новых высокопроизводительных компьютеров экзафлопсного уровня. Ожидается, что эта программа определит направления работ в области суперкомпьютеров на предстоящее десятилетие.

В середине 2010 года в США стартовала программа создания экстремальных суперкомпьютерных технологий DARPA UHPC, которые должны позволить к концу десятилетия построить в 1000 раз более эффективные по потребляемой энергии суперкомпьютеры экзафлопсного, петафлопсного и терафлопсного класса.

Появились и первые образцы суперкомпьютеров Сray Baker и IBM Blue Waters, разрабатывавшиеся в рамках предыдущей программы DARPA HPCS. США стали инициаторами нового рейтингового списка Graph500, который отразил осознанную важность задач информационного типа и необходимость ускорения разработки для этого суперкомпьютеров специальных архитектур.

Graph500: адекватный рейтинг

На конференции SuperComputing 2010 компьютерной общественности был предложен список Graph500, претендующий на более адекватное, чем Top500, отражение рейтинга суперкомпьютеров, способных решать задачи обработки больших массивов данных. Что побудило создать очередной тест и в чем его суть?

IBM BlueWaters — наиболее продвинутый из существующих суперкомпьютеров, и именно он (пиковая производительность 10 PFLOPS) должен стать лидером в 2011 году в Top500 и Graph500, а по результатам на тесте G-RandomAccess должен приблизиться к показателю 64000 GUPS (сейчас рекорд – 117 GUPS). В IBM BlueWaters используются восьмиядерные 32-тредовые микропроцессоры Power7. Одна серверная плата содержит восемь четырехпроцессорных микросборок QCM с микропроцессорами Power7 и восемь парных с ними 48-портовых маршрутизаторов HUB. Четыре такие платы образуют суперузел. На уровне плат и суперузла микросборки QCM соединены по схеме “каждый с каждым” (один линк), QCM разных суперузлов также соединены по коротким маршрутам, от одного до максимум пяти линков. Такой мощной организации сейчас нет даже в большинстве заказных суперкомпьютеров, хотя похожие по идеологии варианты имеются, и наиболее близкий — Tianhe-1A, аналогии: модуль 2U – это QCM; фрейм с восемью вычислительными модулями и коммуникационным модулем – это плата IBM BlueWaters, а одна стойка с четырьмя фреймами – это суперузел американского суперкомпьютера. Некоторое сходство есть в Bull Tera-100 и K-100. Например, в К-100 выделяется уровень макроузла, сопоставимого с платой IBM Blue Waters, но нет кэш-когерентности.

Коммуникационная сеть суперкомпьютера IBM BlueWaters на маршрутизаторах HUB – это сейчас высшее достижение. Из существующих решений только сеть Arch китайского Tianhe-1A можно считать некоторым приближением к этой коммуникационной сети. По сравнению с сетевыми возможностями коммерчески доступных четырехсокетных плат, только один HUB превосходит их в 30 раз по суммарной пропускной способности линков и их количеству. Кроме того, маршрутизаторы HUB позволяют строить более мощную топологию соединений и имеют повышенную функциональность, позволяя выполнять самостоятельно операции по виртуальным адресам приложений.

Power 7 — не единственный мультитредовый микропроцессор, предложенный IBM в 2010 году. Еще есть четырехъядерный, 64-тредовый коммуникационный микропроцессор PowerEN с возможностью расширения до 16 ядер и 256 тредов, а также 17-ядерный, 72-тредовый микропроцессор PowerPC для суперкомпьютера BlueGene/Q (проект IBM Sequoia), в котором также имеются встроенные средства построения сетей 5D-тор.

Второе дыхание SPARC

В конце 2010 года корпорация Oracle объявила о первых результатах развития линейки систем на платформе SPARC. Что же изменилось?

IBM благодаря своей исключительной вертикальной интегрированности обладает особой “степенью свободы”. Корпорация одной из первых оценила достоинства RISC-технологий, а сейчас активно работает в области многоядерно-мультитредовых микропроцессоров и многосвязных коммуникационных сетей. После приобретения Sun Microsystems полную вертикальную интеграцию обрела корпорация Oracle, развивающая линию многоядерно-мультитредовых микропроцессоров Niagara (SPARC T).

Компания Intel заявила о создании новой платформы MIC, использующей механизм SMT-мультитредовости в х86-совместимой платформе. Новая платформа — это экспериментальный вариант Knight Ferry (32 ядра и 128 тредов) и промышленный вариант Knight Corner (50 ядер и 200 тредов). Также было объявлено о новой реализации микропроцессора с архитектурой Itanium – микропроцессоре Poulson (8 ядер и 32 треда).

Компания AMD придерживается линии “одно ядро – один тред”, в то время как другие чаще используют подход “одно ядро – несколько тредов” или “одно ядро – сотни тредов”. Разработчики AMD в архитектуре ядра Buldozer используют два ядра-треда, работающие на общий ресурс в виде перестраиваемого 256-разрядного устройства выполнения операций над числами с плавающей запятой. В разработке находится архитектура Fusion, в которой в обычный микропроцессор с асинхронными тредами встраивается многоядерно-мультитредовое ядро графического процессора с множеством синхронных тредов.

Компания Tilera использует подход “одно ядро – один тред” и разрабатывает микропроцессоры как для обработки множества потоков информации, так и для решения задач с интенсивной нерегулярной работой с памятью. Выпускается 64-ядерный TilePro64, готовится к выпуску 100-ядерный микропроцессор по технологии 40 нм (2011 год) и 200-ядерный по технологии 28 нм (2013 год). Для микропроцессоров такого типа в Массачусетском технологическом институте сейчас отрабатываются оптические соединения на кремнии для реализации внутрикристальных сетей.

В Европе пока нет мощного направления развития собственных аппаратных средств (если не считать Францию). Используются американские суперкомпьютеры, значительное количество специалистов работает в филиалах американских компаний по созданию суперкомпьютеров и элементной базы в сотрудничестве со странами Юго-Восточной Азии, особенно Китаем, в применении новейших микроэлектронных и оптических технологий.

Россия

Представление об отечественных исследованиях и разработках в области суперкомпьютеров можно получить, например, из трудов конференции [3], на которой впервые одной из главных была тема архитектуры. Практически все российские суперкомпьютеры — это вычислительные кластеры, хотя и со своими особенностями, среди которых можно отметить:

  • использование графических сопроцессоров (суперкомпьютер К-100 – ИПМ РАН, модули T-Blade 2 ”T-платформы” и некоторых других разработок);
  • внедрение некоммерческих коммуникационных сетей (сеть 3D-тор СКИФ-Аврора [3,6], сеть МВС-экспресс суперкомпьютера K-100, сеть Extoall);
  • применение ускорительных модулей на ПЛИС и реконфигурируемых вычислительных систем на их основе (НИИ МВС ЮФУ, ФГУП ”НИИ ”Квант”).

Стало заметно, что наряду со счетными задачами значительную важность вновь приобретает обработка нечисловой информации, в частности возродился интерес к символьной обработке, к языкам типа Лисп и Пролог, а также системам аналитических выкладок [3,5]. Здесь отечественные наработки достаточно сильны (например, они активно применялись в проектах 80-х и 90-х годов, включая создание программного обеспечения для МТКК ”Буран” и суперкомпьютеров того времени). Сохранена возможность возрождения суперкомпьютеров со специальной архитектурой для решения таких задач.

Некоторые из особенностей создаваемых вычислительных кластеров позволяют говорить о серьезном потенциале отечественных исследований и разработок в области заказных суперкомпьютеров: некоммерческая сеть 3D-тор в проекте "СКИФ-Аврора" или разработанная в ИПМ РАН при участии НИИ ”Квант” сеть "МВС-экспресс". Для этих сетей создано программное обеспечение. Кроме суперкомпьютера К-100, имеется еще одна система на базе "МВС-экспресс» и четырехсокетных плат с 12-ядерными микропроцессорами AMD Magny Cours — вариант, установленный в Санкт-Петербургском политехническом университете в рамках программы построения Научно-образовательного центра (НОЦ) по созданию архитектуры и программного обеспечения суперкомпьютеров.

Ситуация с разработкой отечественных микропроцессоров и новых процессорных архитектур для суперкомпьютеров в России непроста: ведутся работы по экзотическим перспективным архитектурам машин потоков данных и даже квантовым вычислителям, но не получают должного развития работы по активно разрабатываемым в мире направлениям, хотя понимание необходимости этого имеется [3, 4]. Отечественные микропроцессоры применяются в специальных областях, но нет суперкомпьютеров на этих микропроцессорах, труднодоступны оценки производительности созданных микропроцессоров на общепризнанных тестах.

Для построения конкурентоспособных суперкомпьютеров необходимо осваивать новейшие технологии, соизмеримые с разрабатываемыми за рубежом: 3D-CБИС, оптические соединения на кремнии, оптические WDM-сети с передачей пакетов на разных длинах волн, новые технологии организации кристаллов памяти. По всем этим направлениям полезно сотрудничество с европейскими и азиатскими партнерами. К этим работам важно привлечь профильные университеты, и в дополнение к создаваемому НОЦ по архитектуре и программному обеспечению суперкомпьютеров актуальна организация НOЦ по элементной базе суперкомпьютеров.

Работы по созданию суперкомпьютеров невозможны без инфраструктуры с мощной и постоянно функционирующей исследовательской базой и тесно связанными с ней коллективами проектировщиков и разработчиков. Необходимо обеспечение таких условий их работы, при котором происходило бы накопление опыта исследований и реализация собственных проектов. В России уже накоплен богатый опыт разработок и исследований, но недостаточно усилий по доведению результатов этой деятельности до прктического применения. Всего это в возрождающейся отечественной HPC-индустрии крайне недостает. От закупки коммерчески доступных компонентов и технологий сборки суперкластеров велик соблазн перейти к приглашению квалифицированных зарубежных команд разработчиков для выполнения конкретных заданий, однако это в целом не решит проблему полноценного становления собственной HPC-индустрии. Такие быстрые решения известны еще с петровских времен, но даже тогда они сопровождались поддержкой российских коллективов.

От образцов к продуктам

Отечественная суперкомпьютерная индустрия под влиянием общемировых тенденций в области HPC, а также заинтересованности руководства страны созданием стратегических ИТ и платформ для поддержки национальных проектов оказалась сегодня на пороге перемен. Однако HPC-индустрия - это не только технологии, а путь от образцов к серийным суперкомпьютерам удается пройти не многим производителям.

Суперкомпьютерная индустрия находится в большом компьютерном мире на особом положении. Относительно других отраслей занимаемый ею сегмент невелик, в нем работает ограниченное число компаний и специалистов, однако имено суперкомпьютеры, а не иные технологии привлекают к себе внимание руководителей государств, академической и университетской общественности. Политики научились манипулировать терафлопсами, петафлопсами и уже экзафлопсами, а инициатива по созданию программного обеспечения для таких систем, особенно попадающих в разряд стратегических, поддержана всеми странами "большой восьмерки", которые в совокупности намереваются тратить ежегодно на разработку до 500 млн долл.

Если же говорить о России, то у нас во всем, что связано с суперкомпьютерами, сказалась наша национальная особенность — очевидная политизированность этой темы. Особую озабоченность высокопроизводительными вычислениями проявляет, например, руководство Госдумы, которое регулярно выступает с пространной риторикой. Другая особенность состоит в преобладании доли частной компании «Т-платформы" в известных поставках высокопроизводительных систем. Солидарность политиков и ректоров университетов с этой компанией, сложившаяся в связи с проектом «Ломоносов», не может не заинтересовать стороннего наблюдателя. С другой стороны, если учесть результаты проектов по строительству суперкомпьютеров, например в Сарове, то может оказаться, что эту компанию и нельзя назвать лидером. Еще одна особенность отечественного рынка суперкомпьютеров состоит в том, что доли на нем компаний - создателей таких систем резко изменяются из-за того, что крупные проекты случаются не каждый год, и реализуют их разные поставщики. Тем не менее вместе с директором по маркетингу компании "Т-платформы" Алексеем Комковым попробуем выяснить, чем аргументировано создание отечественного экзафлопсного компьютера, какой позитивный результат от его появления следует ожидать и окупятся ли вообще инвестиции G8 в HPC. К числу важнейших задач мирового сообщества относятся изучение климатических явлений, оценка последствий глобализации экономики, создание "плоского мира" и анализ многих других факторов современной действительности. Ни один из современных компьютеров не может вместить в себя достаточно точную модель хотя бы одной из этих задач, и создание экзафлопсного компьютера, который, как предполагается, с такой задачей справится как в смысле вычислительной мощности, так и в смысле обработки больших объемов данных, является общей проблемой, стоящей перед человечеством.

Аргумент, приведенный Комковым в пользу того, что создание суперкомпьютеров будет содействовать развитию сопутствующих технологий, на первый взгляд выглядит спорным. В последние годы почти нет примеров позитивного влияния HPC-отрасли на остальную ИТ-индустрию, и в этом можно винить кластеры Beowulf, способствовавшие размыванию идеи суперкомпьютеров в духе первых моделей Cray и гипотетического HAL из "Космической одиссеи 2001" Стэнли Кубрика. По сути, они повлияли на консервацию процессорной базы, что явно видно из списка Top500, доминирующее положение в котором занимают системы на процессорах архитектуры x86-64, а сейчас к ним добавились еще и GPU, заимствованные из игровой сферы, и межсоединение InfiniBand, также создававшееся не для HPC-индустрии. Иначе говоря, развитие суперкластеров идет ислючительно по пути коммодитизации. С другой стороны, в прогнозируемом будущем могут быть созданы специализированные процессоры с минимальным потреблением за счет снижения напряжения и нового дизайна, решающего энергетические проблемы. Потенциально к решению такой задачи способны Intel и AMD, но основные надежды связывают с IBM — с ее процессором Power7, созданным по заказу агентства DARPA. Не следует сбрасывать со счетов и компанию ARM, разработанное ядро которой позволяет создавать процессоры с низким потреблением.

Большое влияние на дальнейшее развитие HPC-индустрии будет оказывать программное обеспечение для систем с массовым параллелизмом, и значение таких разработок не ограничивается суперкомпьютерами — проблема работы со множеством потоков и ядер рассматривается сегодня гораздо шире. Что касается наших достижений в этой сфере, то они скромны; правда, имеются нишевые задачи, например адаптация унаследованных приложений для выполнения на кластерных архитектурах, для решения которых привлекаются отечественные специалисты, компании и вузы. Развитию в более широких масштабах мешает характерная для России сложность создания сплоченного индустриального сообщества. Ситуацию усугубляет и то, что и в нашей стране, и во всем мире направление суперкомпьютеров не является в полной мере рыночным, а финансируется государством, без участия которого ни в одной стране мира HPC-индустрия существовать не может. В нашем случае нет сложившейся системы или дисциплины доказательства перспективности той или иной разработки, претендующей на бюджет; скорее, по словам Комкова, можно говорить о стремлении расталкивать других, чтобы получить решение в свою пользу. Любые попытки создания чего-то вроде федерации заканчиваются скандалами, сопровождающимися перетягиванием одеяла на себя, а жаль — лоббистские возможности индустрии в целом больше суммы возможностей ее отдельно взятых участников. Например, компания «Т-платформы» выражает готовность к установлению партнерских отношений в деле развития отечественной суперкомпьютерной индустрии, отсутствие которых сейчас следует рассматривать как беду страны в целом.

Правда, в условиях, когда одна компания добилась лидирующего положения, другим рассчитывать на паритет сложно. Кроме того, деятельность компании «Т-платформы», во всяком случае в том виде, как ее представляли до сих пор, оставляла немало вопросов. Например, странно, когда молодая небольшая компания берется решать задачи государственного масштаба, объем которых находится в явной диспропорции с ее видимым потенциалом. Единственным критерием оценки реальных достижений компаний, замеченных сегодня в суперкомпьерной индустрии,  которые уже отрапортовали о создании петафлопсного компьютера, является прозрачность деятельности компании и доступность для оценки независимыми экспертами ее изделий. Возможно, в этом отношении компания "Т-платформы" выглядит прозрачнее, чем ряд государственных организаций, тратящих народные средства. Неполная прозрачность частной компании вполне объяснима — стоимость коммерческих проектов она имеет полное право не раскрывать, но все, что делается по государственным заказам, должно быть доступно общественности.

Сегодня компания "Т-платформы" занимается проектированием собственных суперкомпьютерных архитектур (у нее нет OEM-соглашений с каким-либо производителем), в том числе проблемой энергопотребления, разводкой плат, используя стандартные компоненты. Всего в проектировании занято 20 человек. По словам Комкова, сборка кластеров напоминает работу с конструктором «Лего», и в компании имеется небольшая группа разработчиков собственной архитектуры (принципиальная структура, основы конструктивной реализации, компоненты, межсоединения), которая передает результаты своей работы в дочернюю компанию "Т-сервисы", имеющую опыт выполнения инженерных расчетов, включая механические, тепловые, гидродинамические — это еще 15-20 человек. Детальная доработка и выпуск изделий выполняется также специализированными компаниями, иначе говоря, "Т-платформы" — это типичная беспроизводственная (fab-less) компания. Изготовление продукции осуществляется на Тайване, где размещена еще одна дочерняя фирма "Т-дизайн", в которую были наняты пять местных специалистов. Сегодня ни один HPC-производитель не обладает полным циклом производства — никто самостоятельно не производит корпуса, кабели, печатные платы. Есть только одна компания, которую можно назвать компанией IDM (Integrated Design Manufacturer), — это IBM. Даже Intel часть своих микросхем для периферии производит на TSMC.

Данная схема выглядит достаточно прозрачной, но чем-то напоминает обреченное на провал начинание актера и телевизионного ведущего Николая Фоменко в его попытке выпустить суперкар "Маруся". Понятно, что Фоменко не Энцо Феррари, и нет в Москве технологической культуры, которая складывалась со времен знаменитых миланских мастеров, столетиями изготавливавших гужевые экипажи. Однако Комков напомнил об известной компании Cadence, занимающейся созданием программного обеспечения для автоматизации проектирования электронных приборов. Из примера этой компании видно, что современные технологии и способы передачи знаний и опыта принципиально отличаются от традиционных, поэтому размер компании и ее инженерный багаж имеют меньшее значение, чем, например, в машиностроении. В качестве примера можно привести и крошечные израильские компании, усваивающие современные приемы проектирования не хуже известных монстров полупроводниковой индустрии. Соотношение числа занятых в большой компании и в стартапе вполне может быть 10:1 без какой-либо потери качества.

Сегодня перед компаниями суперкомпьютерной отрасли, в частности перед "Т-платформами" стоит задача превращения технологий и штучных разработок в продукты, а как известно, различие между опытным образцом и серийным продуктом может быть очень велико. Какими бы высокими ни были показатели кластеров "Ломоносов" и ему подобных, назвать их продуктом нельзя, поскольку нет еще документации, учебных курсов и тренингов, сертификаций и многого другого, что отличает опытное изделие от серийного. Компания "Т-платформы» преодолела начальный этап становления (предприняла экспансию на западные рынки, разработала собственную кластерную ОС, создала компанию «Т-Сервисы») и теперь планирует заняться такой деятельностью, тем более что сегодня в линейке ее продуктов имеются как настольные суперкомпьютеры, так и системы высшего класса, сравнимые с Cray CX-1 и SGI Octane.

Переход от экспериментального изделия к промышленному имеет еще одно важнейшее следствие — он предполагает объективную оценку со стороны отрасли эффективности и удобства эксплуатации изделий компании. Сколько бы ни было красочных выступлений российских обладателей суперкластеров о решенных ими задачах, до сих пор ни один из них не предоставил убедительных документов по загрузке системы, оценке эффектности ее использования.

В беседе с Комковым прозвучал и еще один вывод — оказывается, в нашей отечественной реальности и с учетом нашей российской ментальности остро необходимы даже не полностью загруженные задачами суперкомпьютеры. Они выполняют функцию «ледоколов», разрушающих косность сознания чиновников и пользователей. Действительно, у нас невозможна стратегия малых дел, малым делам никто из государственных мужей способствовать не станет, а вот замахнуться на постройку колосса — это наше, российское. Потом, выучившись на гигантах, начнем делать изделия в тех масштабах, какие требует реальная жизнь; впрочем, похоже, что это особенность всей восточной культуры: построив двухпетафлопсный Tianhe-1A, сейчас китайцы, по крайней мере, как следует из открытых источников, озаботились его загрузкой.

--Леонид Черняк

***

Анализ новых решений в эволюционном и инновационном развитии суперкомпьютеров, рассмотрение работ в разных регионах, сопоставление с отечественными исследованиями и разработками показали наличие проблем по ряду базовых направлений создания отечественных суперкомпьютеров, причем даже там, где за рубежом уже имеются готовые образцы. Тем не менее в среде наших специалистов есть возможности и стремление к проведению исследований и разработок, соответствующих мировым достижениям. Необходимо обеспечить поддержку этим начинаниям, повысить точность тематики работ и управляемость со стороны регулятора, обеспечить доведение теоретических проработок отечественных коллективов до реализации в суперкомпьютерах. Возможно, что проекты правительства РФ по организации национально-исследовательских университетов и национальных технологических платформ, а также инициативы, исходящие от Администрации президента РФ [7], позволят выправить положение.

 

Литература

1. X. Guo, D. Lecarpentier, P. Oster, M. Persons, L. Smith, Investigation Report on Existing HPC Initiatives. European Exascale Software Initiative.

2. N. Sun, D. Kahaner, D. Chen, High-performance Computing in China: Research and Applications. International Journal of High Performance Computing Applications, 24 (4), pp.363-409.

3. Материалы Международной научно-технической конференции “Суперкомпьютерные технологии: разработка, программирование, применение”, 27 сентября – 2 октября 2010, т. 1, Таганрог – Москва, 2010.

4. Корнеев В. В. Модель суперкомпьютерного программирования // Материалы Международной научно-технической конференции “Суперкомпьютерные технологии: разработка, программирование, применение”, с. 256-210.

5. Зачесов Ю. Л. Перспективы применения пакетов символьной обработки на суперкомпьютерах // Материалы Международной научно-технической конференции “Суперкомпьютерные технологии: разработка, программирование, применение”, с. 224-228.

6. Абрамов C. М. и др. Возможности суперкомпьютеров “СКИФ” Ряда 4 по аппаратной поддержке в ПЛИС различных моделей параллельных вычислений // Материалы Международной научно-технической конференции “Суперкомпьютерные технологии: разработка, программирование, применение”, с. 11-21.

7. Попова Е. В. Организационная структура и механизмы функционирования управления перспективных исследовательских проектов Министерства обороны США (DARPA). Возможное использование опыта DARPA для России. Журнал “Инновации”, № 11, ноябрь 2010, с. 5-10.

 

Виктор Горбунов, Георгий Елизаров ({vitech, elizarov}@rdi-kvant.ru ), Леонид Эйсымонт ( verger-lk@yandex.ru ) – сотрудники НИИ ”Квант” (Москва).