Хотя продукция SGI неоднократно становилась победителем ("горячим утюгом") по данным AIM, т.е. в областях, не имеющих отношения к графическим приложениям, силы SGI вне сферы компьютерной графики в России известны еще недостаточно.

Мы рассматриваем многопроцессорные системы SGI: CHALLENGE DM/L/XL, POWER CHALLENGE L/XL и графические суперкомпьютеры Onyx/POWER Onyx.

Чья голова лучше?

В Таблице 1 приведены оценки производительности различных 64-разрядных микропроцессоров, которыми комплектуются сегодня серверы SGI. В таблице приведены данные для чипа R10000 (он может быть использован в подобных системах в ближайшем будущем), а также для некоторых процессоров конкурирующих фирм. Следует помнить, что в системах от SGI используются процессоры разных классов.

Таблица 1.

Производительность процессоров

Микропроцессор Частота МГц SPEC

int92
SPEC

fp92
R8000 75 108.7 310.6
(POWER CHALLENGE L,

XL, POWER Onyx)
90 132 396
R4400 (CHALLENGE:150 93.7 97.1
- DM 200 141 143
- L, XL 250 180.2 177.5
R10000200 311 604
DEC Alpha 21164 300

333
341

400
512

570
Intel Pentium 120 172108
Pentium Pro (P6) 200366283
HP PA-RISC 7200 100136215
IBM POWER271.5131279

Для коммерческих приложений, ориентирующихся на целочисленные операции, оптимальны системы на базе чипа R4400. Для научных применений, связанных с операциями с плавающей запятой, оптимальны компьютеры на базе R8000.

Для систем на базе чипа R10000 будет присуща универсальность; они будут эффективны в обеих областях.

Из таблицы видно, что по целочисленной производительности 250 МГц-версия R4400 опережает других конкурентов, за исключением DEC Alpha 21164.

В области вычислений с плавающей запятой чип R8000 далеко впереди других конкурентов, кроме все того же Alpha 21164. Но насколько адекватны оценки производительности SPECfp92/SPECint92? Ответ сегодня, увы, однозначен - нет. Достаточно большие размеры кэша современных микропроцессоров делают эту оценку для больших задач малоинформативной. Начала распространяться новая методика, SPEC-95; а пока можно воспользоваться имеющимися данными с поправками на реальную жизнь.

Эти поправки упрочивают позиции процессоров MIPS в SMP-серверах: во-первых, почти все они комплектуются 4-мегабайтным кэшем второго уровня, что крайне важно как для коммерческих, так и для научных применений. И, во-вторых, необходимо быстро передавать данные из оперативной памяти в процессор и обратно - нужна быстродействующая системная шина. Рассматриваемые нами компьютеры и здесь в лидерах. Но по обоим этим параметрам многопроцессорные DEC AlphaServer 8200/8400 рядом. Они также содержат внешний кэш 4 Мбайт - правда, не на отдельной шине, как в R8000, а на системной шине. Но зато сама их системная шина имеет более высокую пропускную способность.

Производительность процессоров у других SMP-серверов, например, Convex SPP1200/CD и Cray CS6400, заметно ниже. IBM SP2 в первую очередь ориентирована на распределенную (кластерную) модель. Поэтому в классе больших SMP-систем серверы SGI вместе с, пожалуй, основным конкурентом - DEC 8200/8400 - имеют по данному параметру преимущество.

Поясним вкратце, почему R8000, имеющий частоту всего 90 МГц, опережает почти всех по плавающей запятой и имеет высокую целочисленную производительность. Причин этому несколько. Но, несомненно, к главным относится высокий уровень суперскалярности: две целочисленных операции плюс две команды с плавающей запятой могут обрабатываться одновременно за 1 такт. Если учесть, что в списке инструкций R8000 имеется команда MADD, "объединяющая" умножение со сложением, то конвейеры могут выполнить 4 FLOP за такт, то есть пиковая производительность составляет 300 MFLOPS и 360 MFLOPS для 75- и 90-МГц вариантов R8000 соответственно. К этому следует добавить наличие эффективных режимов адресации (сразу два регистра - базовый и индексный - могут принимать участие в формировании адреса) и специальных команд условной пересылки. Последнее позволяет эффективно выполнять циклы, содержащие внутри логические операторы IF.

На процессорных платах, которыми комплектуются SMP-серверы SGI, может быть до четырех чипов R4400 или до двух R8000.

Главная артерия

Процессорные платы, модули оперативной памяти, плата подсистемы ввода/вывода - все эти "внутренние органы" SMP-cервера получают и передают необходимые данные через системную шину, которая является поэтому своеобразной главной артерией.

Системная шина SMP-серверов SGI (POWERpath-2) включает независимую 256-разрядную шину данных и 40-разрядную шину адреса, что обеспечивает возможность расширения памяти до 1 Тбайт.

Оба тракта имеют контроль по четности и работают в синхронном режиме на частоте 47.6 МГц (такт 21 нс). POWERpath-2 обеспечивает высокую пропускную способность, малые времена задержки и гарантирует когерентность кэша разных процессоров. Каждая транзакция занимает 5 циклов шины. За 5 тактов передается, например, блок кэша размером 128 байт в POWER CHALLENGE. Транзакции для операций чтения являются расщепленными, благодаря чему POWERpath-2 освобождается для обработки новых транзакций сразу после того, как подсистема памяти получает запрос.

Подсистема памяти может поместить данные на шину позднее как часть отдельной транзакции. Такой механизм, базирующийся на одновременной работе шины адреса и шины данных, обеспечивает параллельную обработку нескольких запросов на чтение.

Пиковая пропускная способность POWERpath-2 - 2 Гбайт/с (гарантируется свыше 1.2 Гбайт/с). Для сравнения, шина AlphaServer 8200/8400 поддерживает производительность 1.6 Гбайт/с, Cray CS6400 - 1.3 Гбайт/с.

Другие SMP-серверы заметно отстают. Хотя POWERpath-2 не является сегодня абсолютным лидером по формальному показателю пропускной способности, реальная скорость обработки запросов - 9.5 млн транзакций в секунду - впечатляет.

Возможности наращивания конфигурации SMP-систем определяются в первую очередь числом слотов системной шины. В компьютерах CHALLENGE/POWER CHALLENGE имеется от 5 до 15 слотов POWERpath-2. В них могут вставляться три типа плат - процессорные, модули памяти и платы подсистемы ввода/вывода.

Компьютеры CHALLENGE L/POWER CHALLENGE L могут включать 3 процессорные платы (2-12 процессоров R4400/1-6 процессоров R8000 соответственно). CHALLENGE DM имеют дополнительные ограничения (1-4 процессора R4400). CHALLENGE XL/POWER CHALLENGE XL могут иметь до 9 процессорных плат (до 36 и до 18 процессоров соответственно). Емкость оперативной памяти составляет от 64 Мбайт до 16 Гбайт для XL-моделей, или до 6 Гбайт - для моделей L и DM.

Интересно сравнить эти возможности комплектации с AlphaServer 8200/8400, использующих шину TurboLaser. В системах 8200, как и в моделях CHALLENGE L, 5 слотов системной шины, поэтому и ограничения те же - до 6 процессоров, до 6 Гбайт памяти. А вот в компьютерах серии 8400 слотов TurboLaser всего 9, в чем они сильно уступают моделям CHALLENGE/POWER CHALLENGE. Как максимальное количество процессоров (12), так и максимальный размер оперативной памяти (14 Гбайт) в DEC 8400, меньше, чем в POWER CHALLENGE XL.

В AlphaServer 8400 нельзя получить одновременно и максимально допустимый размер оперативной памяти, и максимальное число процессоров, так как не хватит слотов шины TurboLaser. В системах CHALLENGE XL/POWER CHALLENGE XL ограничения заметно мягче. Например, допустима комплектация POWER CHALLENGE XL одновременно 16 Гбайт оперативной памяти и 12 процессорами R8000.

В соответствии с максимально допустимым числом плат оперативной памяти в моделях L и DM, память может иметь степень расслоения до 4, в моделях XL - до 8. На одной плате памяти достижимо двукратное расслоение, при этом она способна передавать 1.2 Гбайт/с. Во всех многопроцессорных серверах от SGI используется ECC-память.

Внешний мир

Подсистема ввода/вывода в рассматриваемых серверах SGI базируется на платах POWERchannel-2, которые вставляются в слоты POWERpath-2 и осуществляют интерфейс этой шины с 64-разрядными HIO-шинами.

Последние имеют пропускную способность 320 Мбайт/с каждая. Модели XL могут иметь до 4 модулей POWERchannel-2 и соответственно 4 шины HIO, модели DM и L - до 3 модулей. Суммарная пропускная способность ввода-вывода составляет до 1.2 Гбайт/с и до 960 Мбайт/с соответственно.

Каждая плата POWERchannel-2 содержит 2 контроллера Fast Wide SCSI-2, контроллер VME-64, 4 последовательных и 1 параллельный порт и контроллер Ethernet.

Последний является интеллектуальным и не требует вмешательства процессора при приеме или передаче пакетов данных.

Кроме того, POWERchannel-2 имеет интерфейсы высокоскоростной графической подсистемы и 2 интерфейса FCI, через которые возможно подсоединение дополнительных шин VME, графических подсистем и адаптеров HiPPI, FDDI, а также ATM. VME-64 в режиме DMA имеет пропускную способность до 60 Мбайт/с. Отметим, что стандарт VME вообще довольно популярен в мире суперкомпьютеров: он используется также в Cray J90 и в Convex C4/XA.

Наконец, каждая плата POWERchannel-2 имеет 2 слота шины HIO, к которым можно подключить модули HIO. Они бывают двух типов: F (к ним могут подсоединяться интерфейсы FCI) и S. Последние содержат по 3 контроллера Fast Wide SCSI-2. Итого, при двух HIO-модулях S-типа плата POWERchannel-2 содержит восемь 16-разрядных контроллеров SCSI-2 с пропускной способностью 20 Мбайт/с каждый, а 4 платы (в моделях XL) - 32 контроллера.

Поскольку каждый SCSI-контроллер может обслуживать до 15 устройств, одна плата POWERchannel-2 может управлять до 120 дисковыми устройствами, передавая 160 Мбайт/с, а 4 платы - соответственно 480 дисковыми устройствами с суммарной пропускной способностью 640 Мбайт/с.

При комплектации предлагаемыми SGI 4.3-Гбайтными дисками это дает до 2 Тбайт дискового пространства (до 1.5 Тбайт - в моделях L/DM).

В случае применения RAID-технологии максимальный объем дискового пространства составляет до 6.3 Тбайт или 4.7 Тбайт для моделей XL или L/DM соответственно.

Одновременная работа всего этого огромного хозяйства обеспечивается высокой пропускной способностью параллельно работающих HIO-шин.

Кроме дисков, SGI предлагает широкий спектр других внешних устройств, в том числе разнообразные ленточные накопители (4-мм DAT, 8-мм Exabyte, DLT и др.).

Успешное наступление

Компьютеры CHALLENGE DM/L/XL ориентированы в первую очередь на коммерческие применения, а POWER CHALLENGE L/XL - на решение вычислительных задач, требующих операций с плавающей запятой. Системы CHALLENGE DM относятся к среднему классу. Среди их вероятных конкурентов можно назвать, например, серверы HP 9000-800 серии К и IBM RS/6000 R30. Относительно невысокое быстродействие 150 МГц-процессоров R4400 в CHALLENGE DM компенсируется большой пропускной способностью POWERpath-2. Представляется, что в этом секторе рынка конкуренция для SGI должна быть выше, чем для более мощных компьютеров CHALLENGE L/XL.

Последние могут использоваться в больших системах оперативной обработки транзакций (OLTP), в качестве мощных файл-серверов (12-процессорный CHALLENGE XL имеет производительность 7023 SPECSFS) и в приложениях систем реального времени. Эти серверы применяются для работы с базами данных различных типов. Компьютеры CHALLENGE активно используются телекоммуникационными компаниями, в геоинформационных системах и др. Доступность для ОС IRIX разнообразных программных средств иерархического хранения информации (HSM) третьих фирм (EMASS, Titan, StorageTek, Legato и др.), в сочетании с мощными возможностями подсистемы ввода/вывода делает целесообразным применение этих компьютеров в качестве складов данных.

Системы CHALLENGE могут использоваться и как фронтальные компьютеры для обработки больших потоков данных в суперкомпьютерных приложениях, и как самостоятельные суперкомпьютерные серверы в применениях с интенсивной целочисленной обработкой. Это характерно для задач ядерной физики, поэтому компьютеры CHALLENGE инсталлированы, например, в крупных европейских центрах: CERN (Швейцария) и DESY (Германия). Эти системы популярны и в различных областях химии: синтетической, аналитической химии, молекулярной биологии и др. Специальные решения SGI предлагает и для нефтегазового сектора.

Недавно SGI обратилась к новой для себя области рынка и анонсировала системы высокой надежности, основанные на двухмашинном кластере на базе CHALLENGE.

Иллюстрируя производительность СУБД, поставщики компьютеров часто приводят оценки для различных тестов TPC. Значительно реже даются аудиторски подтвержденные значения (CHALLENGE XL в конфигурации 31 x R4400 150 МГц с кэш 4 Мбайт, 1 Гбайт оперативной памяти и свыше 400 Гбайт дискового пространства в СУБД Oracle v.7 имела 2049 tpsA). Но для корректного сопоставления различных компьютеров сравнение должно проводиться в близких конфигурациях, чего практически никогда не бывает.

Пожалуй, наиболее успешным (благодаря выпуску компьютера POWER CHALLENGE) было наступление SGI на рынке суперкомпьютеров. В известном списке TOP 500 крупнейших суперкомпьютерных центров мира компания Silicon Graphics оказалась на втором месте после Cray Research по числу инсталляций в первых ста центров.

Отражением серьезности намерений SGI в этой области явилось образование Дивизиона Суперкомпьютерных Систем (Supercomputer System Division), отвечающего за разработку и развитие бизнеса суперкомпьютеров отделения, которое в компании растет наиболее быстрыми темпами.

Silicon Graphics совместно с Национальным центром суперкомпьютерных приложений США (NCSA) объявили о программе разработки "суперкомпьютерного окружения будущего", интегрирующего высокопроизводительные вычисления, средства информационной супермагистрали и технологию визуализации. SGI и NCSA сотрудничают также в разработке новых технологий для коммерческих применений - управления большими базами данных, цифрового видео, объектно-реляционных СУБД, виртуальной реальности, в сферах телекоммуникации, финансов и промышленности. А недавно глава SGI Эдвард Мак-Кракен был награжден национальной американской медалью по технологии за работы в области трехмерной графики и суперкомпьютеров.

Причины такого успеха можно объяснить, если взглянуть на данные Таблиц 2 и 3. В одной из них приведены характеристики конфигураций самых мощных суперкомпьютеров Cray Research, в том числе, анонсированных в этом году Cray T90, а также минисуперкомпьютеров Cray J90, и компьютеров от SGI на базе R8000 (90 МГц).

Таблица 2.

Конфигурации суперкомпьютеров

Компьютеры n (ЦП) Пиковая

производит.

GFLOPS
RAM,

Гбайт
Производит.

RAM, Гбайт/с
Производит.

I/O, Гбайт/с
Диски,

Тбайт
СRAY T90 1-32 1.8-28.80.5-8100-800до 8до256
CRAY C90 1-161-15.2до 8   
CRAY J90 4-320.8-6.40.25-8до 51до 24до 0.36
POWER

CHALLENGE XL
1-180.36-6.50.064-16до 1.2до 1.2до 6.3
POWER

CHALLENGEarray
до 144до 51.8до 128до 9.6 до 4до 63

Таблица 3.

Данные тестов LINPACK (MFLOPS)

Компьютер,

время цикла
n

(ЦП)
N=

100
N=

1000
Пиковая

производит.
Cray

C90, 4.2 нс
16

8

4

2

1
479

468

388

387

387
10780

6175

3275

1703

902
15238

7619

3810

1905

952
Cray

J90, 10 нс
16

8

4

2

1




117

109

104
2709

1425

730

376

200
3200

1600

800

400

200
POWER

CHALENGE XL,

90 МГц
16

8

4

2

1








126
2340

2045

1124

569

308
5760

2880

1440

720

360
DEC

AlphaServer

8400, 300МГц
8

4

2

1






140
2282

1351

757

411
4800

2400

1200

600

POWER CHALLENGE XL превосходит старшие модели Cray по размеру оперативной памяти, уступая по производительности ввода/вывода и максимальному размеру дискового пространства. Больший возможный размер памяти в системах SGI связан с использованием дешевой динамической памяти вместо с дорогой высокопроизводительной статической памятью в Cray C90/T90.

Резкое отставание от них серверов SGI по пропускной способности оперативной памяти связано с ориентацией этих компьютеров на иерархическую модель памяти, включающую большой кэш. Это - типичный подход для всех SMP-серверов на базе RISC-процессоров. Суперкомпьютеры, имеющие относительно небольшое количество векторных регистров, для поддержания высокого темпа вычислений нуждаются в огромной скорости обмена данными с оперативной памятью. Вместе с тем, есть ряд приложений, для которых характерна интенсивная работа с оперативной памятью при плохой локализации обращений к ней, так что большая кэш-память не спасает. В этом случае применение векторных суперкомпьютеров более целесообразно.

По пиковой производительности POWER CHALLENGE уступает большим векторным компьютерам Cray. Однако 90 МГц-процессор R8000 оказался быстрее, чем процессоры в Cray Y-MP (333 MFLOPS) и минисуперкомпьютере Cray J90 (200 MFLOPS).

Известно, что с ростом числа процессоров эффективность распараллеливания сильно уменьшается. Задачи, которые хорошо распараллеливаются при большом числе процессоров, часто могут эффективно выполняться и в рамках модели распределенной памяти, в том числе, в кластерных системах. Такие приложения часто необходимы, например, в динамике жидкости, обработке сейсмоданных и др.

Silicon Graphics предлагает пользователям кластер POWER CHALLENGEarray, который может содержать до 8 SMP-серверов POWER CHALLENGE L/XL. Он имеет до 144 процессоров с пиковой производительностью 52 GFLOPS и до 128 Гбайт оперативной памяти, превосходя по ряду показателей суперкомпьютер Сray. Серверы связываются в кластер через FDDI или HiPPI.

Данные тестов LINPACK (Таблица 3) показывают, что при равном числе процессоров SMP-компьютеры от SGI опережают Cray J90 и уступают СRAY C90 как на средних (N=100), так и на длинных (N=1000) векторах всего в 3 раза. Уровень распараллеливания (отношение производительности n процессоров к производительности одного процессора) в серверах SGI немного выше, чем в DEC AlphaServer 8400, и, в свою очередь, немного ниже, чем у Сray.

Наиболее показательно, безусловно, сравнение производительности на реальных задачах. Сиcтемы POWER CHALLENGE очень популярны в вычислительной химии. Для ряда расчетов в области квантовой химии и молекулярной динамики было найдено, что процессоры R8000 c частотой 75 МГц в POWER CHALLENGE уступают Cray C90 в 1.7-3.5 раза.

К основным причинам популярности POWER CHALLENGE относится не только высокое быстродействие, но и хорошее соотношение цена/производительность. POWER CHALLENGE в минимальной конфигурации имеет стоимость гораздо ниже, чем CRAY J90 и соответственно показатель цена/производительность - лучше, чем в компьютерах СRAY. К этому следует добавить отсутствие необходимости в мощных системах охлаждения для компьютеров от SGI.

Самым грозным конкурентом суперкомпьютерных серверов SGI сегодня является, вероятно, AlphaServer 8200/8400, обладающий более высокой реактивностью и пропускной способностью памяти. Производительность их процессоров на целочисленных операциях и при работе с длинными векторами выше, чем в компьютерах SGI. Однако уже на векторах средней длины результаты близки. Предварительные данные о временах выполнения расчетов по наиболее популярной квантовохимической программе Gaussian-94 для использующих те же микропроцессоры рабочих станций AlphaStation 600 (Alpha 21164/275 МГц) и POWER Indigo 2 (R8000/75 МГц) показывают, что компьютеры Silicon Graphics немного отстают на более длинных векторах и немного быстрее - на коротких.

В России уже установлены первые SMP-системы Silicon Graphics. В частности, такие компьютеры используются в Уральском фонде медицинского страхования в Екатеринбурге (CHALLENGE L), на машиностроительном заводе в Туле и в фонде "Детское кино" Ролана Быкова (Onyx). Несомненно, они должны представлять значительный интерес для отечественных заказчиков, решающих соответствующие задачи.


Михаил Кузьминский - зав. отделом Института органической химии РАН. С ним можно связаться по телефону (095) 135-6388.