Китайская экономика лишь недавно стала второй в мире, хотя лидирующие позиции Китая в отдельных областях общеизвестны. Теперь же Китай становится мировой суперкомпьютерной державой.

Уже в прошлом году китайские вычислительные системы заняли первую и третью строчки списка Top500 самых мощных суперкомпьютеров мира, войдя в число очень немногих, которым удалось преодолеть петафлопсный барьер. Мировым лидером стала массово-параллельная система Tianhe-1A на базе шестиядерных процессоров Intel Xeon Х5670/2,93 ГГц (в количестве 14336 штук) и графических процессоров nVidia Tesla М2050 (7168). Система, достигшая 2566 TFLOPS на тестах HPC Linpack, работает с ОС Linux и потребляет 4 МВт электроэнергии.

В лидеры Top500 вышла система Tianhe-1A на базе процессоров Intel Xeon и графических процессоров nVidia Tesla. Фото: nVidia
В лидеры Top500 вышла система Tianhe-1A на базе процессоров Intel Xeon и графических процессоров nVidia Tesla. Фото: nVidia

Удивительно другое — Tianhe-1A использует межсоединение узлов Arch, разработанное в Китайской академии наук, которое обладает вдвое большей пропускной способностью, чем Infiniband 4x QDR, — самое быстрое среди используемых в Beowulf-кластерах в Top500. Топология Arch — "толстое дерево"; задержка — всего 1,6 мкс. Но и этого мало — Китай объявил о выпуске высокопроизводительного энергоэффективного процессора Godson 3B c пиковой производительностью 128 GFLOPS, потребляющего всего 40 Вт. А ведь межсоединение и процессоры — основные компоненты современных суперкомпьютеров, опредедяющие их производительность.

Производительность Godson 3B на единицу мощности составляет 3,2 GFLOPS/Вт. Для сравнения, у ведущего сопроцессора nVidia, C2050, она равна 2,2 GFLOPS/Вт; у новейшего шестиядерного Xeon W3690/3,5 ГГц c векторным расширением AVX — 1,3 GFLOPS/Вт.

Godson 3B работает на частотах до 1,05 ГГц, содержит восемь процессорных ядер 464V (V — сокращение от vector) и имеет 685 млн транзисторов при площади около 300 кв. мм. Микросхемы Godson 3B содержат векторные устройства — для векторов длиной 256 бит (четыре 64-разрядных числа с плавающей запятой). Каждое ядро имеет восемь устройств, поддерживающих DP-команды "умножить и сложить", итого получается 16 DP-результатов за такт на ядро. Производит процессоры по технологии 65 нм компания STMicroelectronics.

Подробные технические данные по Godson 3B недоступны, но, по-видимому, микросхема содержит общий кэш второго уровня емкостью 4 Мбайт и 64-килобайтные кэши инструкций и данных первого уровня из расчета по одному на ядро. Ядра представляют собой суперскалярные (выдаются четыре команды за такт) RISC-процессоры с внеочередным выполнением, использующие систему команд MIPS64.

Эти показатели служат очередной демонстрацией того, что вершины производительности проще достигать не на CISC-архитектуре типа х86-64, а на RISC (впрочем, в микросхемах семейства Godson имеются аппаратные средства поддержки эмуляции х86). Godson 3B содержит два контроллера памяти DDR3 и два 16-разрядных порта AMD HyperTransport.

Отдельного разговора заслуживает межсоединение ядер в Godson 3B. В то время как популярным является применение межсоединения с топологией кольца (как это сделано в новой разработке 8-ядерных процессоров Intel Itanium — Poulson), разработчики Godson выбрали топологию решетки. Конечно, китайцы здесь не оказались первыми. 32- и 64-ядерные процессоры с межсоединением такого типа уже создала компания Tilera. Предполагается, что применение такого межсоединения понижает энергопотребление по сравнению с кольцом; при этом топология решетки уменьшает общую длину необходимых проводников.

Кольцо создавать дешевле. В Intel, к примеру, отмечают, что простое кольцевое межсоединение позволяет легко добавлять процессорные ядра с кэшем, как модули, и при этом дополнительная задержка невелика. Разработчики Godson считают, однако, что применение кольцевых межсоединений вызовет проблемы при числе ядер свыше 32.

Сопоставление кольцевой и решеточной топологий можно найти в любом учебнике по компьютерным архитектурам. Да, в кольце суммарная пропускная способность фиксирована, а в решетке — растет с числом узлов. Да, задержка в кольце линейно растет с числом узлов N, а в обычной решетке — как квадратный корень из N. Но топология на Godson — не простая решетка, и еще надо учитывать простоту и стоимость реализации. В общем, судить надо по готовой продукции.

По заявлениям разработчиков Godson, следующий процессор, Godson 3C, будет производиться по 28-нанометровой технологии. Godson 3C будет иметь уже 16 ядер, производительность 512 GFLOPS и при частоте до 1,5 ГГц и выше потреблять всего 20 Вт. Процессоры Godson 3B (а затем и 3C) будут использованы в китайском МРР-cуперкомпьютере Dawning 6000.

Что произойдет, если китайцы начнут экспортировать свои процессоры и даже суперкомпьютеры? Если к тому же у них появится собственное производство микропроцессоров с низким типоразмером, они станут опасными конкурентами США.

В России уже много лет назад была осуществлена собственная разработка VLIW-процессоров семейства Elbrus, которая обещала стать конкурентом на мировом уровне. Впоследствии часть разработчиков ушли в Intel, ослабив команду первоначальную команду МЦСT, некоторые затем вернулись. Впрочем, финансирования, необходимого для организации производства подобных процессоров на адекватном уровне, так и не нашлось.

Поделитесь материалом с коллегами и друзьями