Дмитрий Французов, Дмитрий Волков

"Союзинформ", Москва vlk@osp.ru (095)245-9999, 3-74

Причины и требования
Состав тестовых наборов
Лидеры SPEC_95
Заключение
Литература


Комитет SPEC (Strandard Performance Evaluation Corpo-ratiuon) является сегодня одним из известных разработчиков и поставщиков тестовых наборов для оценки производительности различных компьютерных конфигураций. Оценки, публикуемые комитетом SPEC, являются официальными результатами, признаваемыми всеми фирмами-производителями. Одной из причин широкого распространения и признания тестовых наборов SPEC является постоянная и достаточно адекватная реакция комитета на появление новых архитектур вычислительных систем. Разработка и модификация тестовых наборов идет практически параллельно с развитием вычислительной техники, что во многом объясняется активным участием фирм-производителей в работе комитета SPEC.

Первая серьезная замена комплекта тестов была проведена комитетом SPEC после появления в начале 90-х RISC процессоров. Тогда вместо основного набора SPEC_int89 и SPEC_fp89 были взяты на вооружение смеси SPEC_int92 и SPEC_fp92. А уже в 1994 году с появлением новых компиляторов, обладающих средствами оптимизации под RISC процессоры, вводятся новые метрики SPEC_base_int92 и SPEC_base_fp92, а, точнее говоря, дополнительные требования на использование в компиляторах режима оптимизации.

Однако, сегодняшнее существенное увеличение производительности процессоров и увеличение возможностей дополнительных ресурсов, например кэш-памяти, опять потребовало применения принципиально нового тестового набора. В октябре 1995 года в обращение введены новые тестовые комплекты CINT95 и CFP95. Символ "C" в названии подчеркивает ориентацию теста на оценку отдельных компонентов компьютерной системы, а именно - процессора, памяти и компилятора. Задача комплексной оценки вычислительной системы в целом, включая периферию, графику, сетевое оборудование, системы управления баз данных остается за рамками компетенции тестов CINT95 и CFP95 [1].

Причины и требования

Предлагая новый тестовый набор, комитет SPEC изложил причины появления нового набора образца 1995 года и определил ряд правил по их использованию. Среди причин необходимости разработки нового комплекта тестов назывались следующие:

· Время выполнения тестов. Набор 1992 года на современных процессорах выполняется максимум за 1 минуту, а на платформах Alpha/333 - в течение нескольких секунд. Кроме того, учитывая несовершенные и еще неунифицированные в наборе 1992 года средства замера времени выполнения, полученные результаты уже стало невозможным использовать для сравнения и анализа производительности вычислительных систем, в частности, в силу вносимых погрешностей.

· Размер кода. Современные процессоры: PA 8000, MIPS R1000, POWER PC604, ULTRA SPARC имеют достаточно большой объем встроенной кэш-памяти куда запросто можно было поместить код старого тестового набора 1992 года, а это уже не позволяет объективно оценивать эффективность системы организации памяти.

· Области приложений. После тщательного анализа множества пользовательских программ стала очевидна необходимость корректировки состава задач старого набора для более адекватного отражения современных областей приложений. Сегодня считается, что программы, составляющие новый набор, покрывают все реальные сферы применения рабочих станций и серверов, и содержат более "реалистичный" код.

· Компиляторы. Разработчики компиляторов достаточно хорошо изучили программы тестового набора 1992 года и научились прекрасно оптимизировать компиляторы конкретно под этот код, поэтому единственной возможностью исключить такую "оптимизацию" стала замена программ, составляющих тестовый набор.

· Переносимость и унифицируемость. Тестовый набор SPEC предназначен прежде всего для оценки открытых систем, поэтому набор 1995 года строго соответствует стандартам POSIX и ANSI. В частности, для замера времени выполнения используются только штатные средства. В ближайшее время ожидается адаптация кодов теста для Windows NT при строгом сохранении используемых принципов замера времени.

· Инструментальные средства. Кроме собственно тестового набора, комитетом SPEC разработан и инструментарий, использование которого является обязательным при исполнении набора 1995 года. В списке требований, регламентирующих порядок тестирования, находятся следующие соглашения, обязательные для исполнения:

· Времени выполнения. Инструментарий определяет стандартные средства измерения продолжительности выполнения тестов, основанные на вычислении среднего времени из серии запусков, и исключающие внесение какого-либо дополнительного пользовательского кода или использование произвольной выборки из серии запусков тестовых программ. Дополнительно, в формируемом отчете обязательно присутствует "базовое" время (References time) - время выполнения теста на "эталонной" машине, в качестве которой используется SPARC-station 10/40 в конфигурации с кэш-памятью второго уровня. В отчет включается также относительное время выполнения тестов по сравнению с временем отработки тестов на эталонной машине, - эта оценка является основной метрикой для данного набора.

· Формирование отчета. Описание конфигурации. Формирование отчета происходит полностью автоматически с использованием соответствующего инструментария. При этом особое внимание уделяется стандартизации формы отчета, в котором должно присутствовать полное описание конфигурации тестируемой системы, операционной системы и ключей запуска компилятора.

· Средства запуска и компиляции. Вместо системы меню, используемой в версии теста 1992 года, инструментарий SPEC95 включает командный язык и соответствующую систему настройки параметров, а также средства построения и запуска тестовых программ и самого инструментария.

Состав тестовых наборов

Так же как и для набора образца 1992 года новый комплект тестов предлагает следующие метрики для оценки производительности при выполнении операций целочисленной и вещественной арифметики:

  • оценка скорости выполнения теста с оптимизированым (SPECint95 и SPECfp_95) и не с оптимизированным (SPECint base_95 и SPECfp base_95) режимом компиляции;
  • оценка пропускной способности системы, которая является актуальной для SMP архитектур и/или многозадачного режима работы и также вычисляется для оптимизированного (SPECint_rate95 и SPECfp_rate95) и не оптимизированного (SPECint_rate_base95 и SPECfp_rate_basefp95) режима работы.

Смесь CINT95 состоит из 8, а CFP95 из 10 программ. В таблицах 1 и 2 для каждого тестового набора указан перечень программ, время их выполнения на эталонной машине, прикладная область и характеризующие ее спецификации.

Перечень программ метрики CINT5

Программа Время (сек) Область приложения Спецификация задачи
099.go
4600
Искусственный интеллект
Игра Go - игра сама против себя
124.m88ksim
1900
Моделирование
Моделирование чипа Motorola 88100
126.gcc
1700
Программирование
Компиляция программы на Си и компиляция в оптимизированный код для процессоров SPARC
129.compress
1800
Компрессия
Компрессия текстового файла размером 16Мбайт
130.li
1900
Интерпретация языков
Lisp-интерпретатор
132.ijpeg
2400
Обработка
Сжатие изображений графических объектов (JPEG) с различными параметрами
134.perl
1900
Shell-интерпретатор
Манипулирование текстовыми строками
147.vortex
2700
Базы данных
Построение и таблицы и манипулирование таблицами

Таблица 1.

Программа Время (сек) Область приложения Спецификация задачи
101.tomcatv
3700
Гидродинамика, геометрические
Генерация двухмерной координатной сетки преобразования вокруг произвольной области
102.swim
8600
Предсказание погоды
Моделирование водной поверхности методом конечных элементов (вещественная арифметика с одинарной точностью)
103.su2cor
1400
Квантовая физика
Вычисление масс элементарных частиц с использование метода Монте-Карло
104.hydro2d
2400
Астрофизика
Расчет межгалактических газов по уравнению Новье-Стокса
107.mgrid
2500
Электромагнетизм
Расчет трехмерного поля потенциалов.
110.applu
2200
Гидродинамика
Решение системы уравнений с частными производными.
125.turb3d
4100
Моделирование
Моделирование турбулентностей в кубическом объеме
141.apsi
2100
Предсказание погоды
Вычисление статистики температур, воздушных потоков и уровней загрязнения
145.fpppp
9600
Квантовая химия
Отработка порождения потока электронов.
146.wave
3000
Электромагнетизм
Решение уравнения Максвелла.

Таблица 2.

Как видно из приведенных таблиц, в тестовый набор включены программы, используемые в самых различных прикладных областях. При анализе возможностей вычислительных систем целесообразно проводить не только их комплексное сравнение по итоговому рейтингу, составленному как среднее геометрическое по результатам выполнения всех программ, но и узкоориентированное - по конкретной программе, в случае если предполагаемое использование вычислительной системы соответствует выбранной предметной области.

В комплект официальной поставки тестового набора образца 1995 года входят:

  • тексты программ, составляющих тестовый набор;
  • инструментальные средства SPEC95 для компиляции, запуска, сравнения результатов и формирования отчета. Поставка осуществляется в двоичном кодах и в исходных текстах;
  • описание правил запуска тестовых программ;
  • описание правил формирования отчетов.

Состав официального отчета комитета SPEC рассмотрим на примере тестирования системы RM600 компании Siemens Nixdorf. Отчет состоит из нескольких секций: время выполнения с указанием базового времени, времени прогона теста на тестируемой системе, относительного времени по каждой программе и их среднее геометрическое; полное описание тестируемой системы; описание операционной и файловой систем; используемые флаги и ключи.

К сожалению, нет никакого соответствия и нет никаких правил пересчета из SPEC_92 в SPEC_95, что, впрочем достаточно закономерно - набор 1995 года имеет принципиальные отличия, даже по составу программ. Появление нового тестового набора сразу внесло существенные коррективы в уже устоявшиеся рейтинги систем, а с середины 1996 года результаты на тестовом наборе 1992 года уже не будут официально распространяться комитетом SPEC.

Лидеры SPEC_95

В начале 1996 года стали известны результаты тестирования процессора R10000: 9 SPECint95 и 19 SPECfp9, а через несколько дней компания SGI анонсировала системы Challenge и POWER Challenge на базе этого чипа, имеющие производительность 8.9 SPECint95 и 12.3 SPECfp95. Это не застало врасплох компанию Digital, которая через неделю объявила о версиях 333 МГц и 350 МГц процессора Alpha. Однако Digital первоначально опубликовала результаты в более предпочтительных единицах SPEC92, полученных на оптимизированных компиляторах, но, быстро исправившись, обнародовала результаты по новой методике 10.1 SPECint95 и 14.2 SPECfp95. После появления первых результатов для HP PA-8000 оказалось, что именно микропроцессоры этих трех компаний заняли лидирующее положение по рейтингу SPEC_95. Очень близко к этой тройке находится новая звезда - Intel Pentium Pro, особенно по показателю производительности работы с целочисленной арифметикой.

Так же как и для Digital Alpha, быстродействие Sun UltraSPARC оказалось в сильной зависимости от возможностей компиляторов, чего нельзя утверждать про чипы PA-8000, R10000 и Pentium Pro, в которых предусмотрена аппаратная оптимизация кода. Таким образом, для UltraSPARC показатели SPEC_95 остаются зависимыми от эффективности компиляторов, что достаточно наглядно можно проследить по приведенным в таблице 3 данным по имеющимся на рынке и анонсированным микропроцессорам. Поэтому до тех пор, пока для этого процессора не появятся новые компиляторы, для него будет предпочтительней использовать показатели SPEC92, а не более тяжелых SPEC95.

Поставляемые сегодня процессоры

Разрядность МГц SPECint95 SPECfp95 SPECint92 SPECfp92 Дата
Alpha 21164
64
400
11.7
15.9
500
655
2кв.96
HP PA-8000
64
180
11.0
20.2
360
550
2кв.96
Alpha 21164
64
350
10.1
14.2
432
602
2 1кв.96
MIPS R10000
64
200
8.9
12.3
300
600
1кв.96
PentiumPro
32
200
8.1
6.7
318
283
4кв.95
PowerPC 604e
32
166
6.0
5.3
225
250
2кв.96
UltraSPARC
64
167
5.6
9.8
252
351
4кв.95

Анонсируемые процессоры

Разрядность МГц SPECint95 SPECfp95 SPECint92 SPECfp92 Дата
Alpha 21164
64
433
12.4 *
17 *
н/д
н/д
3кв.96
PentiumPro
32
233
9.3*
7.4*
н/д
н/д
3кв.96
UltraSPARC
64
200
6.5*
11*
322*
462*
3кв.96
Alpha 21164
64
466
13*
18*
582*
763*
4кв.96
MIPS R10000
64
275
12*
24*
н/д
н/д
4кв.96
UltraSPARC-II
64
250
8.5*
15*
350*
550*
4кв.96
POWER2 Super
32
133
5.5*
15*
н/д
н/д
4кв.96

Перспективные процессоры

Разрядность МГц SPECint95 SPECfp95 SPECint92 SPECfp92 Дата
UltraSPARC-II
64
300
11*
18*
н/д
н/д
1997
Alpha 21264
64
500
20*
30*
1000
1500
1997
HP PA-8200
64
250
12*
22*
н/д
н/д
1997
Intel/HP P7
64
н/д
н/д
н/д
н/д
1998

* - Оценка

Таблица 3.
Результаты тестирования микропроцессоров.

В общем случае, чистая производительность только процессора может отличаться от показателей, получаемых на компьютерной системе, использующей данный чип. Для получения более рельефного представления о современном рейтинге по показателю SPEC_95 в таблице 4 приведены данные по пяти лучшим системам для всех восьми метрик нового тестового набора.

Заключение

В профессиональной компьютерной прессе постоянно высказываются мнения относительно полезности использования тестовых оценок. Однако, в пресс-релизах фирм, использующих ту или иную технику, в ряду причин, приведших к конкретному выбору, кроме конкурентоспособной цены или опыта фирмы-производителя в конкретных прикладных проектах, всегда в качестве аргумента приводятся высокие данные тестирования выбранной платформы.

Литература

[1].Д.Французов. Оценка производительности вычислительных систем. Открытые системы, #2, 1996, с.58-66.