Inside Tsubame

В основу суперкомпьютера Tsubame положена модель гетерогенных вычислений на базе CPU и GPU Когда входишь в один из залов компьютерного центра Токийского технологического института, где расположен второй по скорости суперкомпьютер Японии, размеры его не производят поначалу большого впечатления. За мощными кондиционерами даже нельзя сразу разглядеть саму машину, и уже этот факт о многом говорит. При одновременной работе 30 тыс. процессорных ядер машина потребляет мегаватт мощности, и ее надо охлаждать.

Tsubame занимает 29-е место в нынешнем списке 500 мощнейших суперкомпьютеров мира. Его скорость в стандартном наборе тестов Linpack составила 77,48 TFLOPS.

Результат неплохой, но не это выделяет его среди других суперкомпьютеров. Самое интересное в Tsubame то, что он использует не одну только вычислительную мощность традиционных центральных процессоров. В нем установлены сотни графических процессоров, таких же как в компьютерах потребительского уровня. Вместе с центральными процессорами (Central Processing Unit, CPU) они образуют смешанную рабочую среду. Некоторые полагают, что такие системы — прообраз суперкомпьютеров будущего, предназначенных для решения задач из области химии материалов и тому подобных проблем.

Графические процессоры (Graphical Processing Unit, GPU) отлично справляются с быстрым повторением одних и тех же вычислительных операций на большом объеме исходных данных. Благодаря этому существенно ускоряются вычисления в некоторых задачах молекулярной динамики, моделирования физических процессов и обработки изображений.

«По моему мнению, в будущем решение подавляющего большинства представляющих интерес задач — тех задач, что затрагивают проблемы человечества и его взаимодействия с природой, — будет требовать проведения вычислений и манипуляций с очень большими объемами данных», — заявил генеральный директор компании nVidia Джен-Сун Хуанг. В Tsubame установлено 680 графических карт nVidia Tesla.

Насколько эффективно использование GPU? По словам профессора кафедры химии материалов Такаюки Аоки, расчет моделей, который ранее занимал три месяца, на Tsubame выполняется за десять часов.

Сам Tsubame — каким он предстает, если пройти дальше, за ряды кондиционеров, — размещен в нескольких помещениях на двух этажах здания и состоит в основном из стоек с системами Sun x4600. Всего их 655, и в каждой внутри работают 16 процессорных ядер AMD Opteron и ускорители Clearspeed CSX600.

Графические карты смонтированы в 170 предназначенных для установки стойек систем nVidia Tesla S1070, размещенных между системами Sun. В каждой из систем, имеющих формфактор 1U, четыре GPU, и каждый GPU имеет 240 процессорных ядер, что в сумме дает 960 ядер в каждой системе.

Все стойки Tesla были установлены в Tsubame в течение недели, без остановки работы компьютера.

«Все думали, что мы сошли с ума, — рассказывает директор центра мировой научной информации и вычислений Токийского технологического института Сатоси Мацуока. — Наш суперкомпьютер стоит один миллиард иен (11 млн долл.) и потребляет один мегаватт. Мы доказали, что это технически возможно».

«Можно было бы выйти на 85 TFLOPS, но у нас не было времени, и пришлось остановиться на 77 TFLOPS», — пояснил Мацуока по поводу тестовых замеров скорости. Если бы производительность компьютера достигла первоначально намеченной величины в 85 FLOPS, он бы поднялся в списке на пару мест и стал бы самым быстрым в Японии.

Но вторая попытка всегда есть: в июне 2009 года будет составлена очередная версия списка 500 мощнейших суперкомпьютеров мира, а в Токийском технологическом составляют планы и на более отдаленные сроки.

«Для Tsubame это только начало активизации работ по ускорению вычислений на GPU, — считает Мацуока. — В предстоящие годы в мире появятся суперкомпьютеры с мощностью в несколько петафлопов, и мы не хотим отставать».

Следующая модель будет называться Tsubame 2.0, появление ее запланировано в течение ближайших двух лет. Ее средняя производительность должна быть как минимум 1 PFLOPS (то есть 1000 TFLOPS), заявил Мацуока. Общие принципы конструкции пока не определены окончательно, но в основу будет положена та же модель гетерогенных вычислений на базе CPU и GPU.