В лидеры Top500 вышла система Tianhe-1A на базе процессоров Intel Xeon и графических процессоров nVidia Tesla (Фото: nVidia)
В лидеры Top500 вышла система Tianhe-1A на базе процессоров Intel Xeon и графических процессоров nVidia Tesla (Фото: nVidia)

Китайская экономика лишь недавно стала второй в мире, хотя лидирующие позиции Китая в отдельных областях общеизвестны. Теперь же Китай становится мировой суперкомпьютерной державой.

Уже в прошлом году китайские вычислительные системы заняли первую и третью строчки списка Top500 самых мощных суперкомпьютеров мира, войдя в число очень немногих, которым удалось преодолеть петафлопсный барьер. Мировым лидером стала система Tianhe-1A на базе шестиядерных процессоров Intel Xeon Х5670/2,93 ГГц (в количестве 14336 штук) и графических процессоров nVidia Tesla М2050 (7168). Быстродействие система на тестах Linpack — 2566 TFLOPS.

Tianhe-1A использует межсоединение узлов Arch, разработанное в Китайской академии наук, которое обладает вдвое большей пропускной способностью, чем Infiniband 4x QDR, — самое быстрое среди используемых в Beowulf-кластерах в Top500. Топология Arch — «толстое дерево»; задержка — всего 1,6 мкс. Но и этого мало — Китай объявил о выпуске высокопроизводительного энергоэффективного процессора Godson 3B c пиковой производительностью 128 GFLOPS, потребляющего всего 40 Вт. А ведь межсоединение и процессоры — основные компоненты современных суперкомпьютеров, определяющие их производительность.

Производительность Godson 3B на единицу мощности составляет 3,2 GFLOPS/Вт. Для сравнения, у ведущего сопроцессора nVidia, C2050, она равна 2,2 GFLOPS/Вт; у новейшего шестиядерного Xeon W3690/3,5 ГГц c векторным расширением AVX — 1,3 GFLOPS/Вт.

Godson 3B работает на частотах до 1,05 ГГц, содержит восемь процессорных ядер 464V (V — сокращение от vector) и имеет 685 млн транзисторов при площади около 300 кв. мм. Микросхемы Godson 3B содержат векторные устройства — для векторов длиной 256 бит (четыре 64-разрядных числа с плавающей запятой). Каждое ядро имеет восемь устройств, поддерживающих DP-команды «умножить и сложить», итого получается 16 DP-результатов за такт на ядро. Производит процессоры по технологии 65 нм компания STMicroelectronics.

Подробные технические данные по Godson 3B недоступны, но, по-видимому, микросхема содержит общий кэш второго уровня емкостью 4 Мбайт и 64-килобайтные кэши инструкций и данных первого уровня из расчета по одному на ядро. Ядра представляют собой суперскалярные (выдаются четыре команды за такт) RISC-процессоры с внеочередным выполнением, использующие систему команд MIPS64.

Эти показатели служат очередной демонстрацией того, что вершины производительности проще достигать не на CISC-архитектуре типа х86-64, а на RISC (впрочем, в микросхемах семейства Godson имеются аппаратные средства поддержки эмуляции х86). Godson 3B содержит два контроллера памяти DDR3 и два 16-разрядных порта AMD HyperTransport.

Отдельного разговора заслуживает межсоединение ядер в Godson 3B. В то время как популярным является применение межсоединения с топологией кольца (как это сделано в новой разработке 8-ядерных процессоров Intel Itanium — Poulson), разработчики Godson выбрали топологию решетки. Конечно, китайцы здесь не оказались первыми. 32- и 64-ядерные процессоры с межсоединением такого типа уже создала компания Tilera. Предполагается, что применение такого межсоединения понижает энергопотребление по сравнению с кольцом; при этом топология решетки уменьшает общую длину необходимых проводников.

Кольцо создавать дешевле. В Intel, к примеру, отмечают, что простое кольцевое межсоединение позволяет легко добавлять процессорные ядра с кэшем, как модули, и при этом дополнительная задержка невелика. Разработчики Godson считают, однако, что применение кольцевых межсоединений вызовет проблемы при числе ядер свыше 32.

По заявлениям разработчиков Godson, следующий процессор, Godson 3C, будет производиться по 28-нанометровой технологии. Godson 3C будет иметь уже 16 ядер, производительность 512 GFLOPS и при частоте до 1,5 ГГц и выше потреблять всего 20 Вт. Процессоры Godson 3B (а затем и 3C) будут использованы в китайском МРР-cуперкомпьютере Dawning 6000.

Таким образом, если к тому же у китайцев появится собственное производство микросхем с малым типоразмером, они станут опасными конкурентами США не только на суперкомпьютерном, но и на процессорном рынке.

В России уже много лет назад была осуществлена собственная разработка VLIW-процессоров семейства Elbrus, которая обещала стать конкурентом на мировом уровне. Впоследствии часть разработчиков ушли в Intel, ослабив команду первоначальную команду МЦСT, некоторые затем вернулись. Впрочем, финансирования, необходимого для организации производства подобных процессоров на адекватном уровне, так и не нашлось.