Архитектура NUMA массивно-параллельных (MPP — massive parallel processing) вычислительных систем является на сегодня одним из основных подходов, применяемых при построении создания мощных суперкомпьютеров, и, вероятно, будет оставаться таковым в ближайшем будущем. Наибольшие возможности для программиста представляет модификация данной архитектуры - ccNUMA (т. е. NUMA с когерентным кэшем); она активно используется и при построении многопроцессорных серверов среднего диапазона. Новейшие серверы компании SGI Origin 3x00, представляют следующее за Origin 2000/Onyx2 поколение систем ccNUMA.

МРР-архитектура стала основным способом построения наиболее мощных компьютерных систем, о чем можно судить, например, по данным списка TOP500 и тестов Linpack parallel (их можно найти, в частности, на сервере netlib2.cs.utk.edu). Однако в «чистом виде» МРР-архитектура предполагает распараллеливание в модели обмена сообщениями (например, МРI или PVM), что по сравнению с симметрично-мультипроцессорной (SMP — symmetrical multiprocessing) архитектурой имеет и свои минусы.

Наиболее совершенной и самой гибкой, с точки зрения автора, является архитектура ccNUMA, где NUMA означает Non-Uniform Memory Access («неоднородный доступ к памяти»), а сс («когерентный кэш») указывает на поддержание когерентности кэша всех процессоров (в том числе принадлежащих разным узлам) компьютера ccNUMA подобно тому, как это делается в SMP-системах.

Система ccNUMA состоит из набора узлов, каждый из которых имеет собственные процессоры, локальную оперативную память и обычно собственные средства ввода-вывода. Это справедливо и для произвольной МРР-системы с распределенной между узлами оперативной памяти, например, для кластерной архитектуры IBM SP2. Следующим шагом являются NUMA-системы, в которых память по-прежнему физически распределена между узлами, но адресуема всеми микропроцессорами и логически является общей. Примером такой системы является Cray T3E. Наконец, для автоматического обеспечения согласованности работы всех процессоров с памятью требуется поддержание когерентности их кэшей, что и приводит разработчиков к архитектуре ccNUMA.

С точки зрения автора, именно в направлении ccNUMA архитектура многопроцессорных систем развивается наиболее активно. Ведущие производители многопроцессорных систем предлагают компьютеры ccNUMA: это и HP (еще со времен Convex SPP [1]), и Сompaq с новыми компьютерами AlphaServer GS320 [2], и IBM/Sequent NUMA-Q [3], и Data General AViiON 2x000, и Siemens RM600E [4], и, наконец, SGI, серверы Origin 2000 [5] которой стали несколько лет назад основным полигоном практического освоения ccNUMA.

Архитектура ccNUMA вовсе не ограничивается МРР-cистемами: она активно применяется и при построении систем со средним числом процессоров в качестве альтернативы SMP. Однако преимущества ссNUMA, по мнению автора, наиболее ярко проявляются именно для систем с большим числом процессоров (от 32 и выше).

SGI, которая при разработке Origin 2000 опиралась на результаты совместного со Стэнфордским университетом проекта DASH, имеет, как представляется, наибольший опыт в этой области: прошедшим летом компания представила уже второе поколение ccNUMA-систем Origin 3x00. Архитектура их предшественников Origin 2000 называлась S2MP (Scalable Shared memory MultiProcessing) [5,6]; архитектура же Origin 3x00 носит название NUMAflex.

Здесь flex, очевидно, есть сокращение от английского flexibility («гибкость»). NUMAflex действительно отличается особой гибкостью в построении различных конфигураций системы и ее изменении «на лету», в процессе реального функционирования. В NUMAflex реализована возможность разбиения всей ccNUMA-системы на разделы (partition), которые являются более «мелкими» ccNUMA- или SMP-компьютерами. (Схема разбиения, или парционирования, будет рассмотрена ниже.) Парционирование позволяет преображать ccNUMA-систему в кластерную структуру. Узлами этого кластера могут быть опять-таки ccNUMA-cерверы.

За последние несколько лет SGI кардинальным образом изменила выпускаемые ей линейки компьютеров. Серия начального уровня с архитектурой ccNUMA включает в себя серверы Origin 200 и графические станции Octane2 c числом процессоров до 4. SGI предлагает сегодня также линейку серверов Origin 2000 и графических суперкомпьютеров Onyx2, которые отличаются от выпускавшихся ранее в первую очередь более быстрыми процессоров R10000/R12000. Но «венцом» усилий SGI по разработке архитектуры ccNUMA являются Origin 3x00. В соответствии с традицией, заложенной еще во времена Power Challenge и нашедшей продолжение в Origin 2000 и 3х00, SGI выпускает также графические суперкомпьютеры Onyx 3х00, имеющие ту же архитектуру, что и соответствующие серверы Origin, но снабженные мощными графическими средствами.

С точки зрения архитектуры компьютерных систем SGI во многом опережает конкурентов. Однако успехи и/или неудачи в продвижении компьютеров на рынок во многом определяются также архитектурой и техническими характеристиками используемых процессоров. Для SGI это - 64-разрядные RISC-процессоры MIPS R1x000.

MIPS R8000/R10000 стали в свое время одними из первых 64-разрядных микропроцессоров и были в числе лидеров производительности. Однако решение в долгосрочной перспективе отказаться от дальнейшего развития этой линии микропроцессоров и перейти к использованию Intel/HP IA-64, принятое в свое время руководством SGI, и соответствующее сворачивание работ над следующими поколениями R1x000, как показали дальнейшие события, было неудачным. Такое мнение высказывают многие специалисты; разделяет его и автор.

Задержки с выпуском Itanium и неясные перспективы, в том числе с точки зрения уровня производительности, заставили руководство SGI продлить жизнь семейству R1x000 и вернуться к планированию разработки новых моделей и на более отдаленную перспективу. В следующем разделе мы рассмотрим архитектуру новых процессоров R12000, применяемых в Origin 3x00 (в 2001 году появятся и модели, укомплектованные R14000), а также их технические характеристики и перспективы развития.

Микроархитектура R1x000

Конкретные технические особенности процессоров этой серии мы рассмотрим на примере наиболее мощных из доступных сегодня ее представителей — R12000. Впрочем, их микроархитектура по сравнению как с предшественниками R10000, так и с ближайшими «наследниками» R14000 отличается незначительно. Однако прогресс в конкретной реализации «в кремнии» позволяет добиться и соответствующего прогресса в производительности.

Архитектуру R10000/R12000 можно охарактеризовать следующей формулой: суперскалярные микропроцессоры с внеочередным спекулятивным выполнением команд, в которых используется техника переименования регистров и динамическое предсказание переходов.

R10000 может выполнять 4 команды за такт (в том числе 2 - с плавающей запятой), и выбирает и декодирует также 4 команды за такт. Емкость кэша первого уровня в процессоре составляет 32 Кбайт для команд и столько же для данных; оба кэша являются 2-канальными наборно-ассоциативными. Емкость кэша второго уровня может варьироваться в диапазоне от 0,5 до 16 Мбайт. В процессоре предусмотрен полностью ассоциативный буфер быстрой переадресации TLB емкостью 64 строки и дополнительный TLB для команд емкостью 8 строк. Более подробно с архитектурой R10000 можно ознакомиться в [7].

Рис. 1. Упрощенная схема микроархитектуры R12000

Общая микроархитектура R12000 [8] (см. рис.1) лишь немногим отличается от R10000.

1) В R12000 вчетверо возросла емкость таблицы предсказания переходов - до 2048 строк.

2) В R12000 появился кэш «целевых» адресов перехода BTAC емкостью 32 строки.

3) В адресной очереди были введены отдельные конвейеры для проверки тегов и для расчета адресов.

4) Емкость активного списка очереди команд была увеличена с 32 до 48 строк, поэтому больше команд могут ожидать в очереди и соответственно больше команд могут быть спекулятивно выполнены.

5) Вдвое увеличена емкость таблицы MRU (Most Recently Used) в контроллере кэша второго уровня, что существенно увеличивает производительность при непопадании в кэш второго уровня. Кроме того, улучшена расщепленная обработка транзакций на системной шине для уменьшения времени занятости кэша второго уровня.

6) В R12000 все команды загрузки регистров/записи в память и работы с кэшем посылаются сначала в очередь целочисленных команд, а оттуда выдаются в АЛУ; затем они удаляются из очереди целочисленных команд и помещаются в очередь команд загрузки регистров/записи в память. Такая схема, по утверждению разработчиков, не добавила существенных задержек, но позволила упростить конструкцию R12000 по сравнению с R10000.

Кроме отмеченных выше усовершенствований, в R12000 были проведены еще некоторые доработки в архитектуре кэш-памяти и увеличены длины конвейеров. Здесь полезно отметить, что процессоры R1х000 отличаются высоким уровнем производительности в расчете на 1 МГц. Длины конвейеров в R1х000 обычно короче, чем у конкурентов. Это достигается, в том числе, благодаря тому, что велики вентильные задержки в расчете на 1 такт. Обратной стороной медали является то, что сложнее увеличивать тактовую частоту. Соответственно достигнутая на сегодня тактовая частота R12000 (400 МГц) далека от последних достижений по индустрии (1 ГГц).

Обратимся теперь к оценкам производительности. На текущий момент опубликованы результаты тестов SPEC95 и SPEC2000. Из Таблицы 1 видно, что, несмотря на относительно небольшую тактовую частоту, R12000 среди других RISC-процессоров находится примерно на уровне лучших процессоров IBM и HP, сильно уступая лишь Compaq Alpha 21264A.

Последняя модернизация R12000A, применяющаяся в Оrigin 3x000, отличается удвоенной пропускной способностью оперативной памяти. В действительности результаты тестов SPEC2000 (как и SPEC95) отражают не только производительность МП, но и производительность оперативной памяти (задержки и пропускная способность), а также качество оптимизации компилятора.

Последние данные тестов R12000A для SPEC2000 пока не опубликованы. Однако по предварительной информации, которой располагает автор, их результаты могут оказаться выше, чем для HP PA-8600/552 МГц в сервере N4000, хотя и уступают ccNUMA-системам Compaq GS160/320. Однако следует учитывать не только уровень производительности, но и соотношение стоимость/производительность.

Теперь о планах SGI по выпуску новых поколений процессоров R1x000. Первоначальное решение о свертывании их разработок и отказе от них в пользу IA-64 привело было к уходу MIPS с лидирующих позиций в мире процессоров. Однако по последним данным в SGI cобираются продолжить разработки этой линии процессоров как минимум до 2005 года [9]. На фоне задержек с выпуском Itanium, может служить косвенным признаком того, что и следующее поколение IA-64 (McKinley) может не достигнуть того уровня производительности, которого от него ожидали.

Ближайшим процессором вслед за R12000 будет R14000, который появится в 2001 году; в Origin 3x00 он будет иметь тактовую частоту 500 МГц. В нем будет использован DDR-кэш второго уровня, работающий на частоте процессора. Он будет изготавливаться по 0,13-микронной медной технологии с базовым уровнем напряжения 1,5 В. Емкость кэша второго уровня в R14000, как и в R12000, для систем 3x00 составляет 8 Мбайт. Изменения в микроархитектуре как R14000, так и R16000 (с частотой 600 МГц; его выпуск намечен на 2002 год) - относительно небольшие.

Сильные изменения микроархитектуры ожидаются лишь в 2003 году с появлением R18000. В этом процессоре впервые после R8000 будет выдаваться 4 результата с плавающей запятой 64-разрядной точности за такт. На сегодня только процессоры семейства PA-8x00 достигли такого же уровня. При частоте 800 МГц R18000 будет иметь пиковую производительность 3.2 GFLOPS, а запланированный на 2005 год R20000 с частотой 1 ГГц - cоответственно 4 GFLOPS [9].

Архитектура Origin 3x00

Архитектура NUMAflex очень близка к той, что использована в Origin 2000, т. е. S2MP (см. подробности в [5]). Большая часть усовершенствований связана с конструктивными изменениями: в Origin 3x00 резко увеличена модульность и надежность системы.

Основным строительным блоком конструкции новых серверов стал «кирпич» (brick); при этом кирпичи бывают разных типов, в зависимости от их содержимого. Однако основные элементы архитектуры S2MP сохранены, т.е. сохраняется то, как связываются между собой процессоры, оперативная память, концентраторы, маршрутизаторы и подсистема ввода-вывода. То, что ранее было реализовано в виде плат, «превратилось» в кирпичи, а «провода» на системной плате типа midplane заменены кабелями (таких плат в NUMAflex больше нет).

В S2MP реализованные в виде платы узлы включали по 2 процессора, оперативная память и 4-портовый концентратор (на самом деле - коммутатор). Концетратор имел следующие порты: к системной шине пары процессоров, к памяти, к маршрутизатору и к микросхеме XBOW. Маршрутизатор и XBOW размещались на midplane, в слоты которой вставлялись платы узлов.

В NUMAflex вместо этих плат используются С-кирпичи (сокращение от CPU или Сompute). Их состав такой же, как у узлов S2MP, но к концентратору подсоединяются не 2, а 4 процессора. Каждый С-кирпич имеет по 2 процессорных модуля, по 2 процессора на модуль, причем в каждом модуле 2 процессора подсоединены к своей общей шине SysAD. В моделях 3200, где вообще не используются маршрутизаторы, возможно неполное заселение C-кирпича процессорами - по 2 процессора на кирпич. Преимуществом Origin 3x00 перед Origin 2000 является также возможность использования разных моделей R1x000 (c разной тактовой частотой) в разных C-кирпичах одного сервера.

Пропускная способность двунаправленных портов концентратора в S2MP зависела от частоты R10000, и составляла до 800 Мбайт/с в одном направлении. В NUMAflex пропускная способность соответствующих портов возросла вдвое - до 1,6 Гбайт/с в одном направлении. Пропускная способность память в NUMAflex возросла в 4 раза. По данным, полученным автором в московском представительстве SGI, в оперативной памяти использована новейшая технология DDR SDRAM. Память ECC SDRAM распределена между 4 банками и имеет емкость до 8 Гбайт на кирпич при пропускной способности 3,2 Гбайт/с. Память можно наращивать порциями по 0,5/1/2 Гбайт.

Соединение С-кирпича с кирпичом ввода-вывода осуществляется с помощью кабеля XTown2. Это многопроводный кабель с тем же числом сигналов, что использовалось ранее на системной плате, но сделанный не по однопроводной, а по дифференциальной схеме.

X-кирпич поддерживает 4 слота XIO (XIO — это высокоскоростные каналы ввода-вывода, разработанные SGI и используемые в Origin 200/2000 [5]). В S2MP-архитектуре этих систем две микросхемы XBOW обеспечивали поддержку для 12 слотов XIO, большинство которых обычно не использовались.

X-кирпич связан с одним или двумя C-кирпичами посредством каналов XTown2 c пропускной способностью 1,2 Гбайт/с в каждом направлении. В Origin 2000 две микросхемы XBOW также подсоединялись к двум узлам. Теперь же микросхемы XBOW (точнее, их новые аналоги), которые являются относительно дорогими, перенесены в X-кирпич, и платить за них приходится только в случае его приобретения в составе конфигурации Origin 3x00. Кроме того, возможно как подсоединение плат XIO с пропускной способностью 1,2 Гбайт/с, так и старых плат XIO (их пропускная способность — 800 Мбайт/с). Все эти меры направлены на сохранение инвестиций пользователя.

Маршрутизаторы также переместились с платой midplane - в R-кирпичи. Пропускная способность портов их коммутаторов также возросла вдвое по сравнению с S2MP - до 1,6 Гбайт/с. С-кирпичи связаны с R-кирпичами через новые кабели NUMAlink, сменившие CrayLink в S2MP. Длина этих кабелей ограничена тремя метрами. Для иллюстрации достижений SGI в технологии укажем, что эти кабели имеют ширину 2 байта и работают на тактовой частоте 400 МГц.

Основы структуры межсоединения в NUMAflex не изменились. Но если в S2MP применялись 6-портовые коммутаторы, то в NUMAflex используются как 6-, так и 8-портовые коммутаторы. Маршрутизаторы Origin 3000 не могут работать напрямую с маршрутизаторами Origin 2000. Для соединения этих компьютеров может использоваться специализированное высокоскоростное соединение GSN, которое работает на скоростях каналов Origin 2000. В Х-кирпич можно поместить 2 XIO-платы GSN c пропускной способностью 800 Мбайт/с на каждую. При использовании в R-кирпичах 6-портовых маршрутизаторов строятся системы, содержащие до 32 процессора; 8- портовых - до 128. Наконец, с применением т.н. мета-маршрутизатора можно построить конфигурацию с 512 процессорами. Отметим, что применение маршрутизаторов теоретически означает возможность строить системы с различной топологией.

Для характеристики межсоединения NUMAflex укажем, что 512-процессорный Origin 3800 имеет аппаратную задержку (round-trip) в среднем 471 нс, что ниже, чем на системной шине некоторых современных SMP-серверов. Отношение же задержки по обращению в удаленную оперативную память (чужого С-кирпича) по отношению к задержке локальной оперативной памяти составляет всего 2:1, что, по утверждению SGI, лучше, чем у всех конкурентов, выпускающих системы ccNUMA.

Мы уже рассмотрели три типа кирпичей: C, R и X; обратимся теперь к другим типам. P-кирпичи (сокращение от PCI) служат для расширения числа доступных PCI-шин и слотов. Один такой кирпич содержит 12 слотов PCI с возможностью горячей замены, распределенных по шести 64-разрядным шинам PCI, работающим на частоте 66 МГц. Суммарная пропускная способность шин ввода-вывода в P-кирпиче равна 3,1 Гбайт/с.

G-кирпичи обеспечивают возможности высокопроизводительной графической системы InfiniteReality3. При их использовании серверы Origin 3x00 превращаются в графические суперкомпьютеры Onyx 3x00. G-кирпич может содержать 1 или 2 графических конвейера: первый конвейер имеет 1 или 2 блока Raster Manager, а второй - соответственно 1, 2 или 4. При этом один графический конвейер поддерживает от 2 до 8 дисплейных каналов.

I-кирпич - это базовый модуль ввода-вывода, он является стандартным для всех систем 3x00. Он включает: системный диск емкостью 18 Гбайт с интерфейсом Fibre Channel, CD-ROM и 4 свободных слота PCI. Всего в I-кирпиче 5 слотов PCI: 2 слота - на 64-разрядной шине PCI c частотой 66 МГц, и 3 слота - на такой же шине, но с частотой 33 МГц. Кроме того, имеются порты Fast Ethernet, два порта USB, порт IEEE 1394 и последовательный порт.

D-кирпичи (вероятно, сокращение от Disk) предназначены для наращивания дисковой памяти; в них используется интерфейс Fibre Channel. Такой кирпич может содержать либо простой набор до 12 жестких дисков с возможностью горячей замены емкостью 18/36/73 Гбайт каждый, либо массив RAID (по схемам RAID 0, 1, 0+1, 3 и 5).

Для того чтобы проиллюстрировать возможности современных подсистем ввода-вывода, характерных для мощных серверов и суперкомпьютеров (а SGI по этим возможностям явно относится к числу лидеров) укажем на доступные для Origin 3x00 платы ввода-вывода. PCI-платы включают однопортовые адаптеры Fibre Channel (медные и оптические), АТМ (ОС-3 и ОС-12), Gigdbit Ethernet (медные и оптические), а также двухпортовые - для UltraSCSI в дифференциальном исполнении, для обычных последовательных соединений, Ultra2 SCSI LVD и 8-портовые цифровые аудиоплаты. Предлагаются также следующие XIO-адаптеры: однопортовые для FDDI, HIPPI/800, GSN (с полной и половинной пропускной способностью), а также цифрового видео (возможно с DVC Pro), High Definition Video, VME (6U и 9U) и 4-портовый ATM-адаптер ОС-3.

Подсоединяемые устройства массовой памяти могут работать на шинах FibreChannel, UltraSCSI или Ultra2 SCSI. Может быть установлен дисковый модуль TP9100 (всего до 9 модулей на систему), поддерживающий RAID-контроллер с кэшем 128 Мбайт и 2-канальным подсоединением. Общая емкость дискового пространства серверов может достигать 166 Тбайт (656 Тбайт при использовании массивов RAID).

Надежность и готовность

Одной из целей разработчиков семейства 3x00 было резкое повышение характеристик из классической триады RAS (Reliability, Availability, Serviceability). Эти свойства поддерживаются аппаратно на всех уровнях - от процессоров до стоек, в которых монтируются кирпичи. На уровне процессоров можно упомянуть контроль четности в кэше первого уровня и коды ECC в кэше второго уровня, на уровне памяти - все те же коды ЕСС. Избыточные блоки электропитания и вентиляторы с возможностью горячей замены, поддерживаемые в 3x00, также относятся к классическим средствам.

Общим фактором, повышающим надежность работы этих серверов, является небольшое количество применяемых полузаказных микросхем, что выгодно отличает фирму от некоторых других конкурентов, предлагающих системы ccNUMA. Повсеместное применение в конструкции кирпичей и соединяющих их кабелей способствует упрощению процессов обслуживания и модернизации, и позволяет изолировать сбойные компоненты.

Благодаря патентованным разработкам SGI стала возможной горячая замена не только дисков FibreChannel (горячую замену жестких дисков предлагают многие), но и горячую замену PCI-плат. Однако еще больше возможностей по построению систем высокой готовности (High Availability) открывает используемая в семействе 3х00 технология парционирования. Каждый раздел, будучи независимым сервером, может использовать при этом в качестве каналов связи друг с другом инфраструктуру межсоединения Origin 3x00. Таким образом формируется кластер с высокоскоростными (и с низкой задержкой) каналами между узлами. Кроме целей распараллеливания, такая кластерная структура может использоваться для создания кластера, обладающего высоким уровнем готовности.

В этом случае мы не имеем общей «точки», сбой которой способен привести к краху всей системы (как в случае общей шины SMP-серверов). Cпециальные аппаратные средства сброса позволяют изолировать ошибку, возникающую в одном из узлов этого кластера, не давая ей распространиться далее. Предлагаемые SGI средства создания контрольных точек/рестарта позволяют организовать последующее восстановление заданий после сбоя.

В каждом разделе может работать своя версия ОС Irix. Минимальный «размер» раздела - 2 процессора внутри одного С-кирпича. 512-процессорный SGI 3800 можно разбить не более чем на 32 раздела.

Для управления кластером может применяться единая административная консоль Single Management Console, в качестве которой применяется SGI 230, работающая под управлением Linux и cнабженная специализированным программным обеспечением. С некоторыми деталями технологии парционирования, в том числе вопросами построения кластеров высокой готовности и распараллеливания между разделами, можно ознакомиться в [10]. Здесь же полезно отметить, что парционирование становится характерной особенностью современных мощных серверов архитектур SMP- и ссNUMA. Так, оно используется, в частности, в Sun UE10000 [11] и Compaq GS320 [2].

Конфигурации и производительность

В таблице 3 приведены конфигурации различных моделей Origin 3x00. Младшие модели 3200 могут содержать до 8 процессоров; в них не применяются маршрутизаторы. На базе 3200 поставляются также кластерные конфигурации 3200С. В средней серии моделей 3400 поддерживается до 32 процессоров и два 6-портовых маршрутизатора. Конструктивно все соответствующие кирпичи в моделях 3400 помещают в стойку, хотя возможно использовать и стойку расширения. При построении моделей Origin 3800 с числом процессоров до 512 применяются уже 8-портовые мета-маршрутизаторы, а для размещения кирпичей используется уже несколько стоек.

Очень важной особенностью архитектуры NUMAflex, определяемой применением кирпичей, является исключительно высокая гибкость в построении различных конфигураций и сохранение инвестиций пользователя при модернизации. Заказчик приобретает только те кирпичи, которые ему действительно нужны, и «складывает» из них компьютер нужной конфигурации (конечно, сначала компьютер собирают все-таки на заводе). В случае же приобретения многопроцессорных систем, использующих конструктив общей системной шины на платах типа backplane или midplane, платить приходится за каждую такую плату со всеми расположенными на ней компонентами. Конкретной иллюстрацией такой гибкости может служить проведенное выше сопоставление Origin 3x00 и 2000 в части поддержания слотов XIO. С другой стороны, по мнению автора, наращивание конфигурации минимальными порциями по 4 процессора, что, естественно, достаточно дорого, выбивается из общей картины.

Очень удобным конструктив кирпичей является и для модернизации системы: cменить или добавить можно почти все. Так, можно не только добавлять C-кирпичи с новыми, пока не существующими процессорами R1x000 или добавлять X-кирпичи с шинами ввода-вывода, которые может быть появятся в будущем, но заменять даже R-кирпичи, если в дальнейшем появятся более быстродействующие маршрутизаторы. Наконец, возможно появление C-кирпичей с процессорами архитектуры IA-64. И тогда можно будет провести модернизацию, сохранив при этом все остальные компоненты инфраструктуры компьютера (все остальные ящики). Все это обеспечивает высокий уровень сохранения инвестиций.

К сожалению, опубликованных данных тестов производительности серверов Origin 3x00 на момент подготовки статьи практически не имеется. Можно ориентироваться на данные тестов SPEC2000 (говорящих скорее о производительности новых процессоров) и результаты тестов STREAM для пропускной способности оперативной памяти (таблица 4). Впрочем, этих данных уже достаточно, чтобы сделать определенную оценку самому.

По мнению автора, данные системы можно рекомендовать для приобретения в первую очередь суперкомпьютерным центрам, заинтересованным в обеспечении возможностей долгосрочной модернизации ресурсов приобретенного компьютера; пользователям, которым необходимо сочетание мощных графических и вычислительных средств, а также уже использующим в настоящее время серверы SGI с операционной системой Irix и нуждающимся в существенном увеличении имеющихся компьютерных мощностей.

Об авторе

Михаил Кузьминский — старший научный сотрудник Центра компьютерного обеспечения химических исследований РАН. С ним можно связаться по телефону (095) 135-6388

Литература

[1] В. Шнитман, «Открытые системы», 1995, № 6, с. 42

[2] М. Кузьминский, «Сomputerworld Россия», 2000, № 27-28

[3] Е. Коваленко, «Открытые системы», 1997, № 2, c. 6

[4] В. Шнитман, «Открытые системы», 1998, № 2, c. 9

[5] М. Кузьминский, «Открытые системы», 1997, № 2, c. 14

[6] Origin 200 and Origin 2000. Technical Report. SGI, 1996

[7] В. Аваков, «Открытые системы», 1995, № 6, с. 54

[8] I. Willams, An Illustration of the Benefits of the MIPS R12000 Microprocessor and OCTANE System Architecture, SGI, 1999

[9] C.G. Willard, T. Copland, SGI Corporate Vision and Strategy, An IDC White Paper, 2000

[10] SGI Origin 3000 Series Product Guide. SGI, 2000

[11] М. Кузьминский, «Открытые системы», 1997, № 5, с. 13


Таблица 1. Лучшие результаты ведущих производителей микропроцессоровна тестах SPEC2000 (по данным www.specbench.org)
Микропро-цессорЧастота МГцКэш второго уровня МбайтКомпью-терSPEC int2000**SPEC fp2000**
SGI R120004008SGI 2200347/320343/319
Sun Ultra-SPARC III4802UE 450234/225291/274
Intel Pentium III10000,256442/438 335/327 
IBM Power3-II3758RS6000/ SP2382/330 
IBM RS64-III5004RS6000/ M80275/264 
HP PA-86005520,5+1*N4000 379/367369/338
Сompaq Alpha 21264A8338ES40 540/514662/599
(*) I+D - кэш первого уровня; (**) пиковое/базовое значения

Таблица 2. Оценки производительности R1x000 на тестах SPEC95 (по данным www.specbench.org)
МикропроцессорЧастота МГцSPEC int95(*)SPEC fp95(*)
R1200040024,2/23,843,5/37,1
 30018,4/18,1 34,4/30,1
 27015,8/14,9
R1000025015,3/15,125,2/23,2
(*) Пиковое/базовое значения

Таблица 3. Стандартные конфигурации серверов SGI 3x00
 3200 3400 3800
Число процессоров 2-8 4-32 16-512
Емкость памяти, Гбайт до 16 до 64 до 1024
Пропускная способность, Гбайт/с 11,2 44,8 716
Маршрутизаторы нет 6-портовые 8-портовые
Базовые средства ввода/вывода I-кирпич I-кирпич I-кирпич
Дополнительные средства ввода/вывода - - P-кирпич

Таблица 4. Результаты тестов пропускной способности оперативной памяти (STREAM), Мбайт/с
КомпьютерЧисло процес-соровCopyScaleAddTriad
SGI Origin 3800/40041401140315521574
 82855282932313347
 165534549364396398
 3211027109171281312539
 6421824219352481625202
 12843265429755093750562
SGI Origin 2000/3004759754852854
 81556150317451766
 163236300136193636
 326294624566696627
 6412052117871328313477
 12823846234372636526729
HP V260041359145814381502
 82978300525832653
 164094420936633707
IBM RS/6000 SP241604153622182188
Power3/SMP42455241226452565
 82954282138893872
Compaq AlphaServer GS160/GS32016979696481055010213
 3219592192002102220426
Sun UE10000326933355743134032
 6412142797085998600

Поделитесь материалом с коллегами и друзьями