Серверы RM600E фирмы Siemens Nixdorf

Еще в прошлом году российская компьютерная пресса обратила внимание на "наполеоновские" планы экспансии немецкой фирмы Siemens Nixdorf (SNI) на мировом компьютерном рынке. Хотя о завоевании мира говорить пока рано, момент начала германского наступления мы, по традиции, проспали - оно началось еще в конце прошлого года, почти сразу после Великой Октябрьской архитектурной революции в SGI. Именно тогда, вслед за представлением новых серверов SGI (Origin 2000, Onyx2) c архитектурой ccNUMA, SNI объявила о выпуске серверов RM600E, где также используется подход ccNUMA, и МРР-систем RM1000, в узлах которых могут применяться RM600E.

О серверах RM600E и пойдет речь в настоящей статье. Мало того что RM600E - первая в Европе разработка компьютера с архитектурой ccNUMA, это, вероятно, еще и самый мощный сервер, сконструированный в Европе (RM1000 мы к серверам не причисляем - все-таки МРР-компьютер, то есть система более высокого класса). Разработка и производство собственно компьютера RM600E, несомненно, знаменуют выход на качественно иной уровень даже для такой крупнейшей европейской компьютерной компании, как SNI. За последние несколько лет я такого не припоминаю - системы столь высокого класса проектировались только в США и Японии.

Мир помешался на ccNUMA

В том, что компьютерный мир помешался на ccNUMA, "виновата" все-таки Intel. Встроенные в Pentium Pro средства мультипроцессорной поддержки и выпуск фирмой готовых многопроцессорных плат подтолкнули ряд ведущих фирм-производителей SMP-серверов на платформе Intel (в т. ч. Sequent и Data General) к реализации этой архитектуры. Однако первой ccNUMA в серверах реализовала Convex еще в 1994 г.; в октябре 1996 г. к клубу любителей ccNUMA присоединилась SGI, и почти сразу - SNI со своим компьютером RM600E. Поэтому мы сначала рассмотрим ccNUMA, как явление компьютерной архитектуры. Собственно NUMA означает доступ к неоднородной памяти (Non-Uniform Memory Access), а префикс "cc" означает "когерентный кэш".

ccNUMA представляет собой элегантную попытку совместить преимущества SMP-подхода, в частности для распараллеливания, с преимуществами в масштабировании систем с распределенной оперативной памятью (ОП). Слабое место любого классического SMP-сервера - общая системная шина: c ростом числа процессоров они начинают "драться" между собой (на шине) за доступ к ОП, в результате снижая производительность. Если же используется распределенная, а не общая ОП, когда процессоры имеют локальную ОП, то доступ всех процессоров к своей локальной ОП происходит одновременно, и они не мешают друг другу. Поэтому лучше, если логически вся ОП будет общей, и поддерживалась бы когерентность кэша всех процессоров (т.е. при этом логически сохраняется SMP-парадигма), а физически ОП будет распределена между процессорными платами, каждая из которых имеет свою локальную ОП. Это и есть ccNUMA.

Общая архитектура RM600E

Версия ccNUMA в реализации SNI для RM600E представлена на рисунке 1. Из этого рисунка видно, что общее построение RM600E очень напоминает обычные SMP-системы, однако отличается построением подсистемы ОП. Оперативная память располагается не на платах памяти, вставляемых в слоты системной шины SPbus, а на процессорных платах (ПП). Каждая ПП содержит до 4 микропроцессоров MIPS R10000 (c частотой 200 МГц), кэш второго уровня емкостью 4 Мбайт (для каждого процессора свой), ОП емкостью от 64 Мбайт до 1 Гбайт и соединяющую их процессорную шину CPbus (Cluster Processor bus). CPbus - это 64-разрядная шина, работающая на частоте 67 МГц. Сами микропроцессоры вместе с внешним кэшем располагаются на дочерних платах. Это позволит легко заменить их при появлении 300-мегагерцевой версии R10000. В будущем SNI планирует увеличить емкость внешнего кэша до 8 Мбайт. Мы не будем останавливаться на деталях строения этих 64-разрядных микропроцессоров (см., например, ОСС # 8, 1995), а обратимся к особенностям ОП. Она строится по 16-мегабитной технологии SDRAM. В ней используются традиционные коды ECC (error correction code); приращение ОП идет порциями по 64 Мбайт. В дальнейшем предполагается совершить переход к 64-мегабайтной технологии SDRAM, и наибольшая емкость ОП на ПП составит уже 4 Гбайт, а максимальный общий размер ОП RM600E увеличится до 24 Гбайт. Отметим, что SDRAM, самая передовая на сегодня DRAM-технология построения ОП, применяется и в последних разработках SGI (Origin 2000, Onyx2, Octane, O2) и HP (серверы S- и X-класов).

Системная шина SPbus (Synchronous Pipelined bus) - это синхронная 128-разрядная шина с тактовой частотой 50 МГц и поддерживаемой скоростью передачи данных 1,07 Гбайт/с (немного меньше, чем в SMP-серверах Challenge/Power Challenge от SGI, где шина Power Path-2 поддерживает скорость передачи 1,2 Гбайт/с). На шине применяются 40-разрядные адреса и обеспечивается расщепленная обработка транзакций - до 8 транзакций одновременно. Все пути данных защищены по четности.

Естественно, SPbus обеспечивает работу протокола поддержки когерентности кэша. Если один из четырех процессоров на ПП обращается к "своей" ОП, то используется шина CPbus, и обращения к SPbus не происходит вообще. Это позволяет приложениям, использующим не более 4 процессоров и требующим ОП не больше, чем имеется на ПП, в принципе не обращаться к системной шине SPbus при доступе к ОП. Время доступа к локальной ОП на своей ПП вдвое меньше, чем к удаленной ОП на чужой ПП.

Собственно, здесь сходятся плюсы (более быстрый доступ к локальной ОП) и минусы (задержки при обращении к удаленной ОП) ccNUMA. В SGI Origin 2000 эти задержки даже в 128-процессорной конфигурации не выше, чем в чистой SMP-системе Power Challenge. Подробными данными о величинах таких задержек в RM600E мы не располагаем.

Всего на системной шине SPbus имеется 16 слотов, из которых в 11 могут размещаться платы. В частности, в системе может быть установлено до 6 ПП (до 24 ЦП) с суммарной емкостью ОП до 4 Гбайт.

Подсистема ввода-вывода

До сих пор мы рассматривали процессорную подсистему RM600E, включающую и ОП. Подсистема ввода-вывода RM600E тоже строится по схеме, характерной для самых высокопроизводительных SMP-серверов RISC-архитектуры. А именно используются специальные платы HIOS (High performance Input-Output System), которые вставляются в слоты SPbus. Аналогом этих плат, например, в SGI Power Challenge являются PowerChannel-2 (IO4).

На платы HIOS могут монтироваться 1, 2 или 4 так называемых подмодуля (submodule). Имеется 5 основных типов подмодулей: Ethernet (10 Base-T или 10/100 Base-T); 8-разрядный однопроводный (S/E) SCSI; F&W SCSI-2 в дифференциальном исполнении; ATM (155 Мбит/с); MESH - для подсоединения в сеть в составе RM1000, c пропускной способностью 40 Мбайт/с.

RM600E всегда содержит как минимум одну основную плату HIOS. На ней имеется 2 интерфейса V.24 для подсоединения консолей и 3 подмодуля - Ethernet 10 Base-T, F&W SCSI-2 и 8-разрядного SCSI. Основная плата HIOS может быть расширена добавлением четвертого подмодуля (F&W SCSI-2 или Ethernet).

Другие платы HIOS обычно могут содержать до 4 подмодулей (F&W SCSI-2 или Ethernet), платы ATM - до 2 подмодулей ATM. Плата MESH содержит 1 подмодуль; для подсоединения к RM600E используются 2 таких платы.

Кроме плат HIOS, которых в RM600E может быть до 7, в этих компьютерах могут использоваться мосты между SPbus и шиной Multibus II. Они служат для обеспечения миграции от RM600, в которых применяется Multibus II. Подсистема Multibus II используется для подсоединения сетевых контроллеров (ISDN, FDDI, Token Ring, SNA и др.) и терминалов. Напомним читателю, что Multibus II - это 32-разрядная шина с пиковой пропускной способностью 40 Мбайт/с, работающая на тактовой частоте 10 МГц. В будущем SNI планирует также обеспечить поддержку шины PCI и стандарта Fibre Channel.

До сих пор речь шла о подсистеме ввода-вывода на уровне шин, то есть, так сказать, на макроуровне. На микроуровне, или уровне устройств, в состав RM600E входят НЖМД (F&W SCSI-2, дифференциальные) емкостью 4 и 9 Гбайт, со скоростью вращения 7200 об./мин, НМЛ - как 8 мм, так и 4 мм (DAT), устройства CD-ROM, 3.5"-НГМД и т.д.

Модели RM600E

Выпускаются 2 группы моделей RM600E - уровня департамента (модель Е20) и уровня предприятия (модель Е60), см. таблицу 1.

Таблица 1.
Конфигурации RM600E.

Модели
E20
E60
Число ПП
1-2
1-6
Емкость ОП, Гбайт
0,128-2
0,256-4
Число плат HIOS
1-6
1-7
Линеек SCSI-2, S/E*
1
1
Линеек F&W SCSI-2*
1-2
1-4
Монтажных отсеков (для сменных ВУ)
5
5
Монтажных отсеков для НЖМД
11
47
(*) в основном (системном) шкафу.

Кроме основного шкафа модели Е20 и Е60 могут комплектоваться шкафами расширения, содержащими соответственно по 36 и 72 монтажных отсека для НЖМД. Таких дополнительных шкафов может быть до четырех - значит, в этом случае RM600E (модель Е60) будет укомплектована более чем тремястами НЖМД с суммарным дисковым пространством около 3 Тбайт.

Разработчики SNI приняли ряд мер для построения систем повышенной надежности. Некоторые из этих мер уже упоминались выше. Все шкафы в системе RM600E связаны специальной последовательной шиной CAN, служащей для диагностики. Возможно дублирование источников питания и вентиляторов, а также комплектация RM600E специальным шкафом, с батареями в качестве источника питания. Наконец, возможно использование RAID-накопителей (до 48, подсоединенных к 24 каналам F&W SCSI-2) c суммарной емкостью около 13 Тбайт. В этих RAID-устройствах используется по 30 НЖМД емкостью по 9 Гбайт каждый и поддерживается RAID уровней 0, 1 и 5.

Наконец, SNI предлагает кластерные системы на базе RM600E. Эти кластеры могут служить для построения систем высокой доступности (high availability), например "классические" двухмашинные кластеры с подсоединением НЖМД через SCSI-коммутатор (switch). Кластерные системы, включающие до 8 компьютеров RM600E (192 процессора) с общим полем дисковой памяти, целесообразно использовать в качестве систем с параллельным доступом к БД. Для этого могут применяться Oracle Parallel Server или аналогичные средства производства Informix.

Вместе с RM600E поставляется ОС Reliant Unix 5.43 (на основе SVR4); в середине 1997 года планируются поставки 64-разрядной ОС Reliant Unix 5.44. Что касается оценок производительности, то и здесь SNI есть чем гордится. Так, в ноябре прошлого года компания объявила о достижении рекордного показателя SPECint_rate (base 95) - 2033 единицы для 24-процессорного RM600E. Для сравнения, 30-процессорный сервер Sun Ultra Enterprise 6000 имеет соответствующий показатель 1360 (пиковое значение - 1636), а 12-процессорный DEC 8400 5/400 - соответственно 1146/1358.

Первые поставки RM600E потребителям уже начались; массовый выпуск запланирован на апрель. Имеются планы инсталляции RM600E и в России, в частности в ВЦ СО РАН в Новосибирске.


Михаил Кузьминский - зав. отделом Института органической химии РАН. С ним можно связаться по телефону: (095) 135-6388.