Cуперкомпьютеры семейства XTСистема Jaguar, установленная в Национальной лаборатории в Окридже (CША), – уникальная вычислительная установкой, которая модернизируется уже не первый год, в результате чего в ней оказались интегрированы суперкомпьютеры Cray XT4 и ХТ5.

Семейство Cray XT5

Компания Cray в недавнем прошлом предлагала суперкомпьютеры разной архитектуры – векторные, многопоточные, на базе микросхем FPGA-архитектуры, но, пожалуй, наибольший успех получили МРР-системы семейства ХТ на базе процессоров AMD Opteron.

Cray XT3 с одноядерными Opteron появился вскоре после выхода этих процессоров на рынок в 2005 году, затем появились конфигурации с двухъядерными процессорами. XT4 на базе двухъядерных Opteron был выпущен в 2007 году. ХТ5 с четырехъядерными процессорами Barcelona/2,6 ГГц (а затем и Shanghai/2,7 ГГц) и шестидерными Istanbul/2,6 ГГц, поставлялся уже в прошлом году [1-3]. При этом число процессорных разъемов в узле XT5 возросло до двух. Недавно в Cray объявили о выпуске систем Cray XT6 на базе шести- и восьмиядерных Opteron серии 6100 [3].

Процессоры других типов, с которыми работали в Cray, нашли применение в составе специализированных модулей-лезвий в рамках гибридной системы ХТ5h. Таким образом, семейство ХТ вобрало в себя процессоры разных архитектур, став единой линейкой продукции. По мнению автора, возможность использования в качестве части модулей лезвий векторной обработки экономически целесообразно. Компьютеры векторной архитектуры от Cray в последние годы уступали по характеристикам векторным системам NEC SX. Область же применения других архитектур достаточно ограничена.

Характеризуя МРР-архитектуру Cray XT в целом, следует подчеркнуть, что она включает узлы, связанные «фирменным» межсоединением SeaStar c топологией трехмерного тора. Остановимся на рассмотрении систем Cray XT5 и ХТ6 (Cray предлагает модернизацию ХТ4 до ХТ5, а ХТ5 – до ХТ6). Узлы ХТ5 содержат ASIC-микросхему, обеспечивающую работу с межсоединением SeaStar2+, два процессорных разъема для Opteron и слоты для модулей DIMM (рис. 1). В Cray XT4 узел был устроен аналогичным образом, но имел один процессорный разъем.

Рис. 1. Вычислительный узел Cray XT5

Для связи микросхемы межсоединения с Opteron естественным образом применяются интегрированные в микропроцессор интерфейсы каналов HyperTransport 2.0 (прямое подсоединение оперативной памяти к процессору – одна из основных особенностей всех моделей Opteron). В результате пропускная способность оперативной памяти масштабируется с числом процессоров, и в расчете на узел пропускная способность памяти составляет 25,6 Гбайт/с (применяется защищенная кодами ЕСС регистровая память DDR2-800). Емкость оперативной памяти узла составляет от 8 Гбайт до 32 Гбайт (см. Таблицу).

Cуперкомпьютеры семейства XT

А вот процессоры в узле могут применяться разные – четырехъядерные Barcelona и Shanghai с разными частотами, а также шестиядерные Istanbul. Соответственно суммарное число ядер в узле составляет восемь или двенадцать, а пиковая производительность узла лежит в диапазоне примерно от 70 GFLOPS до 124 GFLOPS.

Типичный узел современного HPC-кластера также чаще всего является двухпроцессорным, а потому никаких серьезных отличий в архитектуре и производительности вычислительного узла ХТ5 мы не обнаружим, разве что межсоединение в узлах наиболее мощных кластеров из Тop500 – это обычно Infiniband.

Следующий уровень конструктива над узлом XT5 – лезвие, содержащее четыре узла. При использовании Istanbul производительность лезвия достигает 500 GFLOPS; ему отвечает решетка узлов 1х2х2.

В стойке можно реализовать решетку узлов 1х4х24 (24 лезвия по четыре узла) с производительностьюдо 12 TFLOPS при емкости оперативной памяти 1,54 Тбайт (из расчета 16 Гбайт на узел), а в системе XT5 в целом – решетку 25х32х24. Такой системе отвечает производительность порядка 2 PFLOPS и емкость памяти 300 Тбайт [4]. В соответствии с указанными на сайте Cray спецификациями ХТ5, стойка занимает площадь примерно 0,6м х 1,4 м при высоте около 2 м, весит порядка 700 кг и потребляет не более 43 кВт.

Рис. 2. Межсоединение SeaStar2+

Межсоединение SeaStar2+ поддерживается благодаря соответствующей микросхеме (рис. 2), обеспечивающей маршрутизацию и имеющей шесть портов с пропускной способностью 9,6 Гбайт/с на порт. Это отвечает суммарной пропускной способности микросхемы в 57,6 Гбайт/с, в то время как задержка передачи из узла в узел не превышает 2 мкс. Кроме шестипортового маршрутизатора и интерфейса HyperTransport, микросхема SeaStar2+ содержит механизм прямого доступа в память (Direct Memory Access, DMA), поддержку интерфейса управления лезвием и другие средства.

Для повышения надежности в SeaStar2+ применяются коды ЕСС, используется адаптивная маршрутизация, а сбойные каналы можно «обойти» без перезагрузки.

В SeaStar для передачи данных не надо устанавливать соединения, поэтому нет кэширующих очередей между парами узлов. Это облегчает работу Cray XT c большим числом узлов. Удвоение числа виртуальных каналов (до четырех) по сравнению с предыдущим поколением SeaStar позволило поднять поддерживаемую пропускную способность на 30%, составляющую 6 Гбайт/с1.

Заметим, что более высокая пропускная способность межсоединения уже могла бы натолкнуться на узкое место в виде канала HyperTransport (6,4 Гбайт/с для HyperTransport 2.0). Для сравнения, пропускная способность современного варианта Infiniband 4x QDR составляет 4 Гбайт/с для однонаправленной передачи при аппаратных задержках на уровне меньше 2 мкс.

Таким образом, аппаратура и узлов, и межсоединения Cray XT5 по производительности не превосходит соответствующие параметры Infiniband-кластеров. Выгоды Cray XT5 связаны в основном с возможностями построения систем со сверхбольшим числом узлов.

В Cray XT5 межсоединение SeaStar2+ позволяет объединить сотни стоек. Кроме моделей ХТ5, Сray поставляет XT5m (от англ. medium, «средний»), которые имеют не столь большие, как ХТ5, конфигурации. В ХТ5m задействованы не все шесть, а только четыре порта маршрутизатора SeaStar, соответственно применяется иная топология межсоединения – двухмерный тор. При этом пропускная способность межсоединения узла уменьшается до 38,4 Гбайт/с.

Модуль SeaStar2+ реализован как съемный, что позволяет осуществлять модернизацию межсоединения отдельно от процессоров и памяти. Поэтому Cray XT4 можно модернизировать до XT5, Cray XT5 – до XT6 (в последнем случае меняются процессоры и оперативная память), а в ХТ6 межсоединение, вероятно, можно будет заменить на модуль на базе перспективной коммуникационной микросхемы Cray Gemini, что будет отвечать переходу к системам, получившим известность под кодовым названием Baker. Затем, уже в 2011 году, будет возможна модернизизация с переходом на процессоры AMD Bulldozer с 12 или 16 ядрами, которые будут изготавливаться по 32-нанометровой технологии [2].

В трехмерной решетке часть узлов может быть выделена в качестве сервисных узлов (рис. 3), которые имеют один, а не два процессорных разъема, а для связи с «внешним миром» могут применяться шины PCI-Express [1,5]. Дополнительно могут использоваться и сетевые протоколы Gigabit Ethernet, 10 Gigabit Ethernet, Infiniband, а также Fibre Channel. Возможно подключение дисковых массивов Fibre Channel и SATA.

Рис. 3. Узлы Cray XT5m (двухмерный тор)

Такое подключение жестких дисков характерно, когда применяются одиночные суперкомпьютеры Cray XT. Узлы, через которые происходит такое подсоединение, Cray называет SIO-узлами (Storage-I/O).

В случае, если компьютерных систем несколько, теперь обычно применяются общие системы хранения. Cray предлагает высокопроизводительные системы хранения на базе Lustre, масштабируемой, надежной параллельной файловой системы с открытым кодом; она обеспечивает работу тысяч узлов, 1 Пбайт дисковой памяти и пропускную способность в сотни гигабайт в секунду. В качестве партнера Сray в области систем хранения выступает Sun Microsystems.

Cказанного во многом уже достаточно для того, чтобы понять целевую нишу Cray XT5 – эти системы в первую очередь представляют альтернативу большим и сверхбольшим кластерам. Cray XT5 – вычислительная система, обладающая высокой плотностью упаковки, эффективным энергопотреблением и системой охлаждения. XT5 обеспечивает высокую надежность крупномасштабных систем и относительную простоту эксплуатации (последнее во многом связано и с представлением XT как единой системы). C точки же зрения производительности при близких конфигурациях с кластером XT5 преимуществ не дает, но имеет, очевидно, более высокую стоимость.

Про надежность многое уже было сказано. Когда в кластере десятки тысяч и более узлов, выход из строя отдельных компонентов (например, вентиляторов) – постоянная головная боль. MTBF (cреднее время между сбоями) для вентиляторов в кластере на 10 стоек (250 вентиляторов) составляет всего около 26 часов. В Сray XT5 применяются мощные турбовентиляторы, подающие холодный воздух снизу и имеющие MTBF на 10 стоек в 15 лет [6].

Кроме того, в лезвиях Cray XT применяются управляющие процессоры, по одному на лезвие (24 на стойку), плюс управляющие процессоры стойки. Имеется специальная выделенная сеть управления на базе Gigabit Ethernet и рабочая станция управления системой.

В XT5 применяются избыточные блоки питания и регуляторы вольтажа (VRM), что позволяет дополнительно повысить надежность. В спецификации к ХТ5 также указано, что для контроля за ядрами в системных лезвиях применяется специальная подсистема Cray Hardware Supervisory System. К RAID-массивам обеспечиваются избыточные пути, а в составе Lustre предусмотрен специальный сервер для преодоления сбоев.

Базовым механизмом охлаждения в ХТ5 является воздушное, однако Cray предлагает также жидкостное охлаждение [6,7]. Сray применяет технологию ECOphlex с двухконтурной системой охлаждения: ближе к аппаратуре охлаждение производится с применением хладагента R134a, а уже его во внешнем контуре охлаждает вода.

Такая схема оказывается весьма эффективной с точки зрения энергопотребления: на охлаждение расходуется примерно 25% суммарной энергии, потребляемой вычислительной системой, в то время как обычно эта величина достигает 45% [8].

ECOphlex – уже седьмая по счету жидкостная система охлаждения разработки Cray, в ней использована технология с фазовым переходом «жидкость-газ», что на сегодняшний день признается наиболее эффективным подходом, на порядок более эффективным, чем обычное водяное охлаждение. В ECOphlex можно применять теплую воду (до 16 градусов Цельсия), что способствует уменьшению затрат на охлаждение [6].

Cамая мощная суперкомпьютерная установка, базирующаяся на Cray XT5 – Jaguar содержит свыше 224 тыс. процессорных ядер, и при пиковой производительности свыше 2,3 PFLOPS на тестах High Performance Linpack достигла около 1,8 PFLOPS. Общая емкость оперативной памяти Jaguar составляет около 300 Тбайт, дискового пространства – 10 Пбайт, производительность ввода-вывода – 240 Гбайт/с. Энергопотребление Jaguar достигает 7 МВт [4].

«Гибридные» системы XT5h

Кроме «обычных» суперкомпьютеров Сray может поставлять гибридные системы, в которых часть лезвий состоит из узлов иной архитектуры. Такие узлы могут использовать векторные процессоры или программируемые логические матрицы FPGA.

Лезвия векторной обработки Cray X2

Можно сказать, что векторные процессоры сегодня в мире почти не используются (естественно, речь не идет о GPGPU или процессорах х86-архитектуры c векторными расширениями системы команд типа SSE, включающими обработку очень коротких векторов). Кроме унаследованных приложений, к применению векторных систем могут подтолкнуть, пожалуй, только очень высокие требования к пропускной способности оперативной памяти, где векторные процессоры – при обращении к последовательным адресам памяти – обладают преимуществами.

Для таких приложений в XT5h могут поставляться лезвия векторной обработки Cray X2. Эти вычислительные лезвия включают по два векторных вычислительных узла. Каждый узел представляет собой четырехпроцессорную SMP-систему с общим полем оперативной памяти емкостью 32-64 Гбайт (рис. 4).

Рис. 4. Векторные узлы Cray X2

Векторные процессоры (V) работают на частоте 1,6 ГГц, имеют производительность 25,6 GFLOPS и являются одноядерными. Каждый V содержит суперскалярный процессор и восемь векторных конвейеров. В состав V входит три уровня кэша, в том числе 512 Кбайт кэша второго уровня и 8 Мбайт – третьего. Обеспечивается когерентность кэш-памяти разных V.

Производительность узла составляет свыше 100 GFLOPS (это, однако, меньше, чем у «обычных» узлов на базе Istanbul), а пропускная способность оперативной памяти в расчете на один V равна 28,5 Гбайт/с.

Внутри узла оперативная память однородна по времени доступа, но при доступе в память другого узла мы имеем модель NUMA. Для связи векторных узлов применяется другое, разработанное Cray, межсоединение с топологией «толстого дерева», представляющей собой один из вариантов сети Клоза.

Пропускная способность межсоединения для связей «точка-точка» составляет 9,4 Гбайт/с; в Сray говорят и о низких величинах задержки. Архитектурно возможно масштабирование векторной подсистемы ХТ5h до 32K векторных процессоров, работающих с общим глобальным адресным пространством.

Таким образом, речь фактически идет о векторной многопроцессорной системе с собственным межсоединением, «погруженной» в Cray XT5. Для взаимодействия векторной подсистемы с межсоединением SeaStar2+ применяются прямые интерфейсы в узлах, имеющие пропускную способность 4,8 Гбайт/с (рис. 4).

Лезвия этой векторной подсистемы размещаются в стойках высотой 2м и основанием 1м х 1,6м, вес которых составляет 1,1 тонн, а энергопотребление – до 45 кВт.

Лезвия с реконфигурируемой архитектурой

В Cray XT5h могут применяться лезвия XR1 с FPGA-процессорами. Каждое лезвие имеет два узла (рис. 5). Узлы содержат по одному процессору Opteron, который каналами HyperTransport связан с SeaStar2+ и с модулем RPU (Reconfigurable Processor Unit) разработки компании DRC Computer.

Рис. 5. FPGA-узлы Cray XT5h

RPU (всего их в узле два) размещаются в процессорных разъемах AMD Socket 940 и поддерживают три интерфейса HyperTransport (через эти каналы два RPU связаны между собой) и 128-разрядные каналы в оперативную память DDR-400 c пропускной способностью 6,4 Гбайт/с. Этот же тип памяти используется в узле как локальная память для Opteron, но емкость последней составляет от 2 Гбайт до 8 Гбайт, а емкость локальной памяти для RPU – от 1 Гбайт до 4 Гбайт.

DRC предлагает на рынке несколько моделей RPU; в узлах XR1 применяются RPU LX200/LP, в которых использованы мощные FPGA-процессоры Xilinx Virtex-4. LX-200 содержит 200448 логических ячеек и собственную память на плате с пропускной способностью 14,4 Гбайт/с. В RPU применяется память типа RLDRAM емкостью 256 Мбайт. Пропускная способность «внешних» (для FPGA) HyperTransport-каналов cоставляет 6,4 Гбайт/с – для интерфейса с SeaStar, 3,2 Гбайт/с – для интерфейса с Opteron.

В одной системе ХТ5h может содержаться до 30 тыс. FPGA-процессоров Virtex-4, из расчета до 48 узлов (96 RPU) на стойку, с затратами на электропитание – до 12 кВт на стойку. Применение в RPU разъема, совместимого с Socket 940, и поддержка HyperTransport представляется эффективным техническим решением, обеспечивающим высокую пропускуную способность и низкие задержки.

FPGA-подсистема ХТ5h может применяться для задач криптографии, рендеринга, сортировки, при поисках последовательностей, для некоторых задач моделирования и др.

Развитие линии ХТ5

Cray имеет далеко идущие планы по развитию архитектуры ХТ5 – уже объявлено о Cray XT6/XT6m [2]. Эти суперкомпьютеры используют межсоединение SeaStar2+, но в узлах применяются 8- или 12-ядерные Opteron cерии 6100. На своем сайте Cray привела некоторые подробности (см. Таблицу).

В 6100 наконец-то появились поддержка более быстрых каналов HyperTransport 3.0 и контроллер памяти DDR3, обеспечивающий пропускную способность оперативной памяти 85,3 Гбайт/с на два процессора. Емкость оперативной памяти узла составляет 32-64 Гбайт. Ядра Opteron 6100 имеют собственные кэши команд и кэши данных первого уровня емкостью по 64 Кбайт, кэши второго уровня емкостью 512 Кбайт, а также общий кэш третьего уровня емкостью 12 Мбайт. 24 ядра на узел дают пиковую производительность узла 182 GFLOPS. Cтойка размером 0,6х1,4х2,4м содержит 1536 или 2304 процессорных ядер и потребляет 45-54 кВт.

Модульность конструкции ХТ5/ХТ6 позволяет производить модернизацию ХТ5 до ХТ6; следующим шагом может стать модернизация межсоединения в ХТ6 – переход к новому межсоединению Gemini. Его выпуск намечен на третий квартал 2010 года, а соответствующие вычислительные системы имеют кодовое название Baker [3].

Коммуникационные микросхемы Gemini будут поддерживать от 10 до 12 каналов и обслуживать каждая сразу два узла Baker, используя интерфейс HyperTransport 3.0. В Gemini будет применяться 48-портовый маршрутизатор YARC c cуммарной пропускной способностью 168 Гбайт/с, и адаптивная маршрутизация. Естественно, обещано увеличение пропускной способности и уменьшение задержек. Про задержку между двумя узлами сообщается, что она будет меньше 2 мкс.

Естественно, и технологические характеристики Infiniband за это время улучшатся, а адаптивная маршрутизация уже поддерживается некоторыми коммутаторами Infiniband. В Gemini ожидается аппаратная поддержка односторонних коммуникаций и глобальное адресное пространство. Про следующее за Gemini межсоединение известно только его кодовое название – Aries [1,3].

В Национальной лаборатории в Окридже (США) с применением системы Baker планируют достигнуть производительности на уровне 10-20 PFLOPS.

Задержки и пропускная способность SeaStar2+ c применением тестов IMB исследованы, например, в [9]. Сегодня у SeaStar2+ преимуществ производительности нет. Единственное известное прямое сопоставление производительности Cray XT5 и современных Infiniband-кластеров для реальных приложений проведено для задач вычислительной химии [10]. В XT5 применялись шестиядерные процессоры Istanbul/2,6 ГГц, в кластере – процессоры Nehalem E5550/2,67 ГГц. При сопоставимых конфигурациях кластер оказался быстрее. С точки зрения производительности в расчете на единицу электрической мощности ХТ5 превосходит IBM Blue Gene/L, хотя и уступает Blue Gene/P [4].

***

Применение систем семейства Cray XT целесообразно в первую очередь в виде сверхбольших суперкомпьютерных конфигураций, где ХТ имеет преимущества перед обычными кластерами по надежности, энергоэффективности, плотности упаковки, простоте обслуживания, а также эффективности программного обеспечения.

Литература

  1. W.Oed, Cray Architecture and Software Support for PGAS Languages. HPDC-2009, Munchen, Jun. 12, 2009.
  2. Т.Р. Morgan, Cray Previews XT6 Opteron Nodes. Nov. 24, 2009 (www.theregister.co.uk/hardware/hpc).
  3. ethergrid.com/primeur/09/articles/live/LV-PL-06-09-37.html
  4. A.S. Bland, Challenges for High Performance Computing Facilities. Computing in Atmospheric Science-2009 Workshop, Sept 3, 2009.
  5. Cray XT5m Brochure. Сray, 2009.
  6. S. Yerneny, Massive Parallel Processing Systems. Сray India, Oct. 13, 2009.
  7. D. Gahm, M. Laatsch, Meeting the Demands of Computer Cooling with Superior Efficiency. Cray, 2009.
  8. The World's Most Powerful Computers for Science. www.scidacreview.org/0901/html/hardware.html
  9. G. Hager e.a., Communication Characteristics and Hybrid MPI/OpenMP Parallel Programming on Clusters of Multi-Core SMP Nodes. Сray User Group Meeting, Atlanta, May 4-7, 2009.
  10. M.F.Guest, C.A. Kithcen, Application Performance on multi-core clusters. Advanced Research Computing, ARCCA 20th Machine Evaluation Workshop, Dec. 2009, Cardiff Univ.

Михаил Кузьминский (kus@free.net) – старший научный сотрудник, Институт органической химии им. Н.Д. Зелинского РАН (Москва).


1 Везде речь идет о «двунаправленной» пропускной способности (дуплексном режиме передачи).


Таблица. Вычислительные узлы Cray XT5/XT6