«Млечный Путь-2» — реальность или бумажный тигр? | Computerworld Россия

Ответить на этот вопрос сложно, но определенные сомнения в пользу второго утверждения возникают. Наиболее полный источник данных о новом суперкомпьютере из Поднебесной — отчет Джека Донгарры, опубликованный им по итогам визита в Китайский университет оборонных технологий. Tianhe-2 (TH-2) не содержит в себе никаких заметных инженерных новинок по сравнению с Tianhe-1 — узлы собраны в сеть точно так же, как в предшественнике, по топологии fat tree («утолщенное дерево»), где связи становятся более производительными по мере приближения к корню дерева. Такое межсоединение существенно уступает многомерному тору. TH-2 — классический кластер, разработанный университетом и компанией Inspur, сотрудничающей с Институтом программных систем РАН. Сейчас он находится в университете, а в конце года по достижении полной готовности будет перемещен в Национальный суперкомпьютерный центр. Там TH-2 доведут до задуманных размеров — 32 тыс. сокетов Ivy Bridge Xeon, 48 тыс. плат Xeon Phi и 3120 тыс. ядер, что обеспечит теоретическую пиковую производительность 54,9 PFLOPS и на некоторое время первое место в рейтинге Тоp500, поскольку до 2015 года федеральные ведомства США не собираются делать аналогичных крупных приобретений. Показатель производительности достаточно велик, но он сугубо теоретический и пиковый — надо помнить, что это кластер, тем более на графических процессорах (GPU). Существующая на данный момент конфигурация достигла 90% общего размера, в ней 14 336 узлов по сравнению с проектируемым максимумом 16 тыс. На специально подобранном тесте TH-2 показал производительность 30,65 PFLOPS, что составляет 62,3% пиковых 49,19, что весьма неплохо для кластерной машины, к тому же у нее вполне приличный аппетит — 1,935 GFLOPS/Вт, что выводит ее в лидеры по энергопотреблению.

TH-2 можно сравнивать с массово-параллельным суперкомпьютером Titan на платформе Cray XK7. В Titan 560 640 ядер, из них 299 008 в 16-ядерных процессорах AMD и 261 632 — в графических процессорах Nvidia, то есть соотношение между CPU и GPU примерно один к одному. Поэтому, чтобы использовать возможности GPU, пришлось создавать специальный компилятор. В TH-2 ядер в шесть раз больше — 3 120 тыс., но пропорция между CPU и GPU совсем иная: на 384 тыс. ядер Ivy Bridge приходится 2 736 тыс. Xeon Phi (то есть один к семи). Низкое потребление объясняется не инженерными новинками, а тем, что большую часть нагрузки передают на GPU. А там, где массовый параллелизм на базе графики, вступают в волную силу ограничения закона Амдала (суммарное время выполнения задачи на параллельной системе не может быть меньше времени выполнения самого длинного фрагмента). Заставить эффективно работать такую молотилку намного сложнее, чем систему на обычных процессорах и тем более с общей памятью. Однако, учитывая традиционную для Китая закрытость, не стоит рассчитывать, что мир узнает, каков на самом деле эффект Tianhe-2, помимо пропагандистского.