И числом, и умением

2) Верно ли, что Intel сконцентрировалась на производстве аппаратных средств, и не занимается крупными программными разработками, например, операционными системами? 3) Верно ли, что микропроцессоры Intel ориентированы на использование в персональных компьютерах или (что может оказаться справедливым для Pentium Pro) в рабочих станциях? Если Вы ответили "да" хотя бы на один из вопросов, то Вы плохо знаете компанию Intel. Почему правильные ответы только отрицательные, Вы поймете, прочитав статью, посвященную суперкомпьютерам Intel Paragon MPP-архитектуры.

Компания Intel хорошо известна в мире суперкомпьютеров. Ее многопроцессорные компьютеры Paragon в семье MPP-систем с распределенной памятью стали такой же "классикой", как векторно-конвейерные компьютеры от Cray Research - в своей области.

Основной методикой, используемой для распараллеливания программ в МРР-системах с распределенной памятью, является обмен сообщениями, синхронизирующими процессы, которые параллельно выполняются в узлах компьютера.

Эти средства в MPP-системах поддерживаются как аппаратно, так и на уровне операционной системы. Хорошо известно, что в SMP-серверах производительность всего компьютера в немалой степени зависит от пропускной способности системной шины, обеспечивающей коммуникации между процессорными модулями и оперативной памятью. Аналогично в MPP-компьютерах с распределенной памятью одним из главных компонентов, определяющих производительность всей системы, является коммуникационная часть, посредством которой узлы компьютера MPP-архитектуры обмениваются между собой сообщениями. Эта коммуникационная часть в терминологии Intel называется сетевым межсоединением, или просто межсоединением (interconnect).

Архитектура межсоединения

Межсоединение сконструировано таким образом, чтобы обеспечить высокую скорость обмена сообщениями при минимальной задержке. Оно обеспечивает соединение более тысячи гетерогенных узлов по топологии двумерной прямоугольной решетки. Однако программист при разработке большинства приложений может считать, что любой узел непосредственно связан со всеми другими узлами. Межсоединение масштабируемо: его пропускная способность возрастает с увеличением числа узлов.

Для младших моделей Paragon XP/E Model 8N пропускная способность составляет 700 Мбайт/с, а для старших моделей XP/S Model 76 MP - уже 5,6 Гбайт/с.

При конструировании разработчики стремились минимизировать участие в передаче сообщений процессоров, выполняющих пользовательские процессы.

С этой целью введены специальные процессоры обработки сообщений (message processors), которые располагаются на плате узла и отвечают за отработку протокола обмена сообщениями. В результате собственно "счетные" процессоры узлов не отвлекаются от решения основной задачи. В частности, не происходит достаточно дорогостоящего переключения с задачи на задачу, а решение прикладных задач происходит параллельно с обменом сообщениями. Процессоры обработки сообщений используются также при выполнении глобальных операций, в том числе синхронизации, "широковещательных" операций (broadcasting), подсчете глобальной суммы и т.д.

Собственно передача сообщений осуществляется системой маршрутизации, основанной на компонентах маршрутизатора узлов сети (Mesh Router Components, MRC). MRC маршрутизируют сообщения между двумя любыми узлами в системе с аппаратной скоростью 175 Мбайт/с. Величина аппаратной задержки, то есть интервала времени, необходимого для завершения передачи первого байта сообщения, составляет 40 нс на прохождение MRC. По утверждению фирмы Intel, эта величина настолько мала, что физическое расположение узлов в системе, с точки зрения производительности, не имеет значения (речь идет, естественно, о топологии, а не о реальном расстоянии между платами узлов, например).

Для осуществления доступа MRC данного узла к его памяти в узле имеется еще специальный интерфейсный сетевой контроллер (Network Interface Controller, NIC). NIC представляет собой заказное VLSI-устройство, обеспечивающее одновременную передачу в память узла и обратно и отслеживающее ошибки, которые возникают при передаче сообщений.

Внутри узла

В суперкомпьютерах Paragon могут применяться разные узлы, но все они основаны на микропроцессорах Intel i860 XP, имеющих RISC-архитектуру.

Эти микропроцессоры разработаны и начали выпускаться достаточно давно, задолго до того, как миграция Intel в сторону RISC стала заметна в Pentium Pro. Процессоры i860 XP работают на тактовой частоте 50 МГц.

В этом чипе интегрировано около 2,5 миллионов транзисторов. Он содержит функциональное исполняющее устройство с плавающей запятой, которое имеет пиковую производительность 75 MFLOPS на 64-разрядных операндах (100 MFLOPS на 32-разрядной арифметике). В процессоре имеются I-кэш и D-кэш размером по 16 Кбайт каждый, при этом скорость обмена информацией между устройством с плавающей запятой и D-кэшем составляет 1.2 Гбайт/с. Хотя по производительности микропроцессор i860 заметно уступает сегодняшним RISC-процессорам, скорость обмена с кэшем данных поддерживается на современном уровне: например, внешний потоковый кэш данных в микропроцессорах MIPS R8000 (с тактовой частотой 75 МГц) имеет точно такую же пропускную способность.

Узлы в Paragon делятся на многопроцессорные (MP) и общего назначения (GP).

Первые содержат в себе три микропроцессора i860 XP, из которых два применяются для вычислений, а третий используется как сопроцессор обработки сообщений. GP-узлы содержат по два микропроцессора, один из которых нужен для работы с приложениями, а второй - для обработки сообщений.

Фактически каждый узел Paragon представляет из себя маленькую SMP-систему. Процессоры в MP-узле имеют общую оперативную память размером 64 или 128 Мбайт, локальную для данного узла. В качестве общей шины выступает multi-master bus. Она обеспечивает и когерентность кэша.

К ней подсоединяется также NIC, что позволяет ему производить обмены с памятью, не прерывая выполнения прикладных процессов процессорами i860.

GP-узел обычно применяется для ввода-вывода. Для этого используются порты расширения узлов, допускающие подключение каналов ввода-вывода или сетевых интерфейсов. Конструкция GP-узла аналогична MP-узлу, они совместимы по разъемам, связывающим их с межсоединением. Однако оперативная память в GP-узлах меньше. Ее размер может быть равен 16 или 32 Мбайт.

Следует отметить, что не только GP-узлы могут заниматься вводом и выводом. Оба типа узлов поддерживают дочерние карты ввода-вывода, Ethernet и HiPPI.

А всего в компьютере Paragon может быть до 65 Гбайт динамической памяти и до 250 Гбайт дискового пространства (на внутренних дисках SCSI-2).

Прекратить ядерные испытания!

При разработке суперкомпьютера Paragon, как и любой другой MPP-системы, особое внимание было обращено на масштабируемость, позволяющую вместе с ростом числа узлов наращивать основные показатели всей системы. Модульное строение Paragon способствует не только поддержанию масштабируемости.

Оно позволяет рассчитывать на то, что данная архитектура может послужить основой для новых компьютеров, базирующихся на иных микропроцессорах или использующих новые технологии обмена сообщениями.

Другой основой масштабируемости является сбалансированность различных блоков суперкомпьютера на самых разных уровнях, так как в противном случае с ростом числа узлов где-либо в системе может появиться узкое место.

Так, скорость и емкость памяти узлов сбалансированы с пропускной способностью и задержками межсоединения, а производительность процессоров внутри узлов - с пропускной способностью кэш-памяти и оперативной памяти и т.д.

Кроме масштабируемости аппаратуры должна быть масштабируемой операционная система. В суперкомпьютерах от Intel используется OC Paragon OSF/1, основанная на микроядре Mach 3.0. Эта версия UNIX от Intel содержит ряд расширений и усовершенствований относительно исходной версии OSF/1. Paragon OSF/1 является распределенной ОС, что элиминирует потребность в специальном фронтальном управляющем процессоре. По мнению Intel, наличие такого специализированного процессора создает узкие места и ограничивает масштабируемость многих параллельных суперкомпьютеров.

Paragon OSF/1 выглядит как единая ОС, обеспечивающая общие уникальные идентификаторы процессов, выполняющихся на разных узлах; общие файловые системы и т.д. Чтобы обеспечить все это, микроядро загружается в каждый узел, поддерживая базовые функции ОС, а сервис более высокого уровня (например файловых систем) работает на так называемых сервисных узлах, к которым любое микроядро имеет прозрачный доступ. Такое строение ОС гарантнирует ее масштабируемость при увеличении числа узлов, числа пользователей и наращивании подсистем ввода-вывода.

Успех MPP-систем Paragon на рынке очевиден. Они установлены в крупнейших суперкомпьютерных центрах мира, и их вклад в показатели суммарной производительности часто является основным. Это не удивительно: они не только лидеры по формальной (пиковой) производительности вычислительных систем, но и по данным тестов Linpack parallel (см. таблицу). Все суперкомпьютеры крупнейших производителей (Cray Research, Hitachi, NEC и т. д.) по этим показателям находятся далеко позади.

Компьютер	Число процессоров	Производительность, GFLOPS
Intel Paragon XP/S MP 50 МГц	6768	281.1
	5376	223.6
	4608	191.5
	3648	151.7
	3072	127.1
Cray T3D	1024	100.5
Thinking Machine CM-5	1024	59.7

Таблица 1.

Результаты тестов LINPACK parallel.

Однако не надо забывать, что круг задач, когда можно эффективно применять MPP-системы, в том числе Intel Paragon, достаточно ограничен по сравнению с суперкомпьютерами, использующими общее поле памяти.

Иначе говоря, стоит проблема, как загрузить все эти тысячи процессоров при решении задачи с распараллеливанием ее в модели обмена сообщениями. В последние годы в этой области достигнут значительный прогресс, но трудности все еще остаются.

Впрочем, Intel это не смущает. Теперь в рамках проекта лаборатории Sandia Министерства энергетики США она собирается устремиться к новой вершине - достигнуть производительности свыше 1 TFLOPS на MPP-системе, имеющей более 9 тысяч процессоров Pentium Pro, оперативную память 262 Гбайт и стоимость около 46 млн. долл. Ясно, что при успешном построении таких систем Intel берет не только числом (процессоров), но и умением строить подобные компьютеры с высокими качествами масштабируемости. Вероятно, конкуренты должны кусать локти: хотя Pentium Pro и имеет уже достаточно высокую производительность, он все же значительно уступает (по крайней мере, в расчетах с плавающей запятой) наиболее быстродействующим RISC-процессорам, например процессорам Digital Alpha в MPP-системе Cray T3E.

Что касается приложений, на которые ориентированы будущие сверхбыстродействующие суперкомпьютеры от Intel, то мы укажем только на одно, но зато какое - моделирование испытаний ядерного оружия! Планируется, что США смогут вообще отказаться от испытаний ядерного вооружения. Это благородная цель. Когда-то суперкомпьютеры создавались для решения задач разработки ядерного оружия. Пусть теперь хоть в чем-то уменьшат его опасность для человечества.

Михаил Кузьминский - зав. отделом Института органической химии РАН. С ним можно связаться по телефону: (095) 135-6388.