Новое поколение тестов SPEC

Дмитрий Французов, Дмитрий Волков

"Союзинформ", Москва vlk@osp.ru (095)245-9999, 3-74

Причины и требования
Состав тестовых наборов
Лидеры SPEC_95
Заключение
Литература

Комитет SPEC (Strandard Performance Evaluation Corpo-ratiuon) является сегодня одним из известных разработчиков и поставщиков тестовых наборов для оценки производительности различных компьютерных конфигураций. Оценки, публикуемые комитетом SPEC, являются официальными результатами, признаваемыми всеми фирмами-производителями. Одной из причин широкого распространения и признания тестовых наборов SPEC является постоянная и достаточно адекватная реакция комитета на появление новых архитектур вычислительных систем. Разработка и модификация тестовых наборов идет практически параллельно с развитием вычислительной техники, что во многом объясняется активным участием фирм-производителей в работе комитета SPEC.

Первая серьезная замена комплекта тестов была проведена комитетом SPEC после появления в начале 90-х RISC процессоров. Тогда вместо основного набора SPEC_int89 и SPEC_fp89 были взяты на вооружение смеси SPEC_int92 и SPEC_fp92. А уже в 1994 году с появлением новых компиляторов, обладающих средствами оптимизации под RISC процессоры, вводятся новые метрики SPEC_base_int92 и SPEC_base_fp92, а, точнее говоря, дополнительные требования на использование в компиляторах режима оптимизации.

Однако, сегодняшнее существенное увеличение производительности процессоров и увеличение возможностей дополнительных ресурсов, например кэш-памяти, опять потребовало применения принципиально нового тестового набора. В октябре 1995 года в обращение введены новые тестовые комплекты CINT95 и CFP95. Символ "C" в названии подчеркивает ориентацию теста на оценку отдельных компонентов компьютерной системы, а именно - процессора, памяти и компилятора. Задача комплексной оценки вычислительной системы в целом, включая периферию, графику, сетевое оборудование, системы управления баз данных остается за рамками компетенции тестов CINT95 и CFP95 [1].

Причины и требования

Предлагая новый тестовый набор, комитет SPEC изложил причины появления нового набора образца 1995 года и определил ряд правил по их использованию. Среди причин необходимости разработки нового комплекта тестов назывались следующие:

· Время выполнения тестов. Набор 1992 года на современных процессорах выполняется максимум за 1 минуту, а на платформах Alpha/333 - в течение нескольких секунд. Кроме того, учитывая несовершенные и еще неунифицированные в наборе 1992 года средства замера времени выполнения, полученные результаты уже стало невозможным использовать для сравнения и анализа производительности вычислительных систем, в частности, в силу вносимых погрешностей.

· Размер кода. Современные процессоры: PA 8000, MIPS R1000, POWER PC604, ULTRA SPARC имеют достаточно большой объем встроенной кэш-памяти куда запросто можно было поместить код старого тестового набора 1992 года, а это уже не позволяет объективно оценивать эффективность системы организации памяти.

· Области приложений. После тщательного анализа множества пользовательских программ стала очевидна необходимость корректировки состава задач старого набора для более адекватного отражения современных областей приложений. Сегодня считается, что программы, составляющие новый набор, покрывают все реальные сферы применения рабочих станций и серверов, и содержат более "реалистичный" код.

· Компиляторы. Разработчики компиляторов достаточно хорошо изучили программы тестового набора 1992 года и научились прекрасно оптимизировать компиляторы конкретно под этот код, поэтому единственной возможностью исключить такую "оптимизацию" стала замена программ, составляющих тестовый набор.

· Переносимость и унифицируемость. Тестовый набор SPEC предназначен прежде всего для оценки открытых систем, поэтому набор 1995 года строго соответствует стандартам POSIX и ANSI. В частности, для замера времени выполнения используются только штатные средства. В ближайшее время ожидается адаптация кодов теста для Windows NT при строгом сохранении используемых принципов замера времени.

· Инструментальные средства. Кроме собственно тестового набора, комитетом SPEC разработан и инструментарий, использование которого является обязательным при исполнении набора 1995 года. В списке требований, регламентирующих порядок тестирования, находятся следующие соглашения, обязательные для исполнения:

· Времени выполнения. Инструментарий определяет стандартные средства измерения продолжительности выполнения тестов, основанные на вычислении среднего времени из серии запусков, и исключающие внесение какого-либо дополнительного пользовательского кода или использование произвольной выборки из серии запусков тестовых программ. Дополнительно, в формируемом отчете обязательно присутствует "базовое" время (References time) - время выполнения теста на "эталонной" машине, в качестве которой используется SPARC-station 10/40 в конфигурации с кэш-памятью второго уровня. В отчет включается также относительное время выполнения тестов по сравнению с временем отработки тестов на эталонной машине, - эта оценка является основной метрикой для данного набора.

· Формирование отчета. Описание конфигурации. Формирование отчета происходит полностью автоматически с использованием соответствующего инструментария. При этом особое внимание уделяется стандартизации формы отчета, в котором должно присутствовать полное описание конфигурации тестируемой системы, операционной системы и ключей запуска компилятора.

· Средства запуска и компиляции. Вместо системы меню, используемой в версии теста 1992 года, инструментарий SPEC95 включает командный язык и соответствующую систему настройки параметров, а также средства построения и запуска тестовых программ и самого инструментария.

Состав тестовых наборов

Так же как и для набора образца 1992 года новый комплект тестов предлагает следующие метрики для оценки производительности при выполнении операций целочисленной и вещественной арифметики:

оценка скорости выполнения теста с оптимизированым (SPECint95 и SPECfp_95) и не с оптимизированным (SPECint base_95 и SPECfp base_95) режимом компиляции;
оценка пропускной способности системы, которая является актуальной для SMP архитектур и/или многозадачного режима работы и также вычисляется для оптимизированного (SPECint_rate95 и SPECfp_rate95) и не оптимизированного (SPECint_rate_base95 и SPECfp_rate_basefp95) режима работы.

Смесь CINT95 состоит из 8, а CFP95 из 10 программ. В таблицах 1 и 2 для каждого тестового набора указан перечень программ, время их выполнения на эталонной машине, прикладная область и характеризующие ее спецификации.

Перечень программ метрики CINT5

Программа	Время (сек)	Область приложения	Спецификация задачи
099.go	4600	Искусственный интеллект	Игра Go - игра сама против себя
124.m88ksim	1900	Моделирование	Моделирование чипа Motorola 88100
126.gcc	1700	Программирование	Компиляция программы на Си и компиляция в оптимизированный код для процессоров SPARC
129.compress	1800	Компрессия	Компрессия текстового файла размером 16Мбайт
130.li	1900	Интерпретация языков	Lisp-интерпретатор
132.ijpeg	2400	Обработка	Сжатие изображений графических объектов (JPEG) с различными параметрами
134.perl	1900	Shell-интерпретатор	Манипулирование текстовыми строками
147.vortex	2700	Базы данных	Построение и таблицы и манипулирование таблицами

Таблица 1.

Программа	Время (сек)	Область приложения	Спецификация задачи
101.tomcatv	3700	Гидродинамика, геометрические	Генерация двухмерной координатной сетки преобразования вокруг произвольной области
102.swim	8600	Предсказание погоды	Моделирование водной поверхности методом конечных элементов (вещественная арифметика с одинарной точностью)
103.su2cor	1400	Квантовая физика	Вычисление масс элементарных частиц с использование метода Монте-Карло
104.hydro2d	2400	Астрофизика	Расчет межгалактических газов по уравнению Новье-Стокса
107.mgrid	2500	Электромагнетизм	Расчет трехмерного поля потенциалов.
110.applu	2200	Гидродинамика	Решение системы уравнений с частными производными.
125.turb3d	4100	Моделирование	Моделирование турбулентностей в кубическом объеме
141.apsi	2100	Предсказание погоды	Вычисление статистики температур, воздушных потоков и уровней загрязнения
145.fpppp	9600	Квантовая химия	Отработка порождения потока электронов.
146.wave	3000	Электромагнетизм	Решение уравнения Максвелла.

Таблица 2.

Как видно из приведенных таблиц, в тестовый набор включены программы, используемые в самых различных прикладных областях. При анализе возможностей вычислительных систем целесообразно проводить не только их комплексное сравнение по итоговому рейтингу, составленному как среднее геометрическое по результатам выполнения всех программ, но и узкоориентированное - по конкретной программе, в случае если предполагаемое использование вычислительной системы соответствует выбранной предметной области.

В комплект официальной поставки тестового набора образца 1995 года входят:

тексты программ, составляющих тестовый набор;
инструментальные средства SPEC95 для компиляции, запуска, сравнения результатов и формирования отчета. Поставка осуществляется в двоичном кодах и в исходных текстах;
описание правил запуска тестовых программ;
описание правил формирования отчетов.

Состав официального отчета комитета SPEC рассмотрим на примере тестирования системы RM600 компании Siemens Nixdorf. Отчет состоит из нескольких секций: время выполнения с указанием базового времени, времени прогона теста на тестируемой системе, относительного времени по каждой программе и их среднее геометрическое; полное описание тестируемой системы; описание операционной и файловой систем; используемые флаги и ключи.

К сожалению, нет никакого соответствия и нет никаких правил пересчета из SPEC_92 в SPEC_95, что, впрочем достаточно закономерно - набор 1995 года имеет принципиальные отличия, даже по составу программ. Появление нового тестового набора сразу внесло существенные коррективы в уже устоявшиеся рейтинги систем, а с середины 1996 года результаты на тестовом наборе 1992 года уже не будут официально распространяться комитетом SPEC.

Лидеры SPEC_95

В начале 1996 года стали известны результаты тестирования процессора R10000: 9 SPECint95 и 19 SPECfp9, а через несколько дней компания SGI анонсировала системы Challenge и POWER Challenge на базе этого чипа, имеющие производительность 8.9 SPECint95 и 12.3 SPECfp95. Это не застало врасплох компанию Digital, которая через неделю объявила о версиях 333 МГц и 350 МГц процессора Alpha. Однако Digital первоначально опубликовала результаты в более предпочтительных единицах SPEC92, полученных на оптимизированных компиляторах, но, быстро исправившись, обнародовала результаты по новой методике 10.1 SPECint95 и 14.2 SPECfp95. После появления первых результатов для HP PA-8000 оказалось, что именно микропроцессоры этих трех компаний заняли лидирующее положение по рейтингу SPEC_95. Очень близко к этой тройке находится новая звезда - Intel Pentium Pro, особенно по показателю производительности работы с целочисленной арифметикой.

Так же как и для Digital Alpha, быстродействие Sun UltraSPARC оказалось в сильной зависимости от возможностей компиляторов, чего нельзя утверждать про чипы PA-8000, R10000 и Pentium Pro, в которых предусмотрена аппаратная оптимизация кода. Таким образом, для UltraSPARC показатели SPEC_95 остаются зависимыми от эффективности компиляторов, что достаточно наглядно можно проследить по приведенным в таблице 3 данным по имеющимся на рынке и анонсированным микропроцессорам. Поэтому до тех пор, пока для этого процессора не появятся новые компиляторы, для него будет предпочтительней использовать показатели SPEC92, а не более тяжелых SPEC95.

Поставляемые сегодня процессоры

	Разрядность	МГц	SPECint95	SPECfp95	SPECint92	SPECfp92	Дата
Alpha 21164	64	400	11.7	15.9	500	655	2кв.96
HP PA-8000	64	180	11.0	20.2	360	550	2кв.96
Alpha 21164	64	350	10.1	14.2	432	602	2 1кв.96
MIPS R10000	64	200	8.9	12.3	300	600	1кв.96
PentiumPro	32	200	8.1	6.7	318	283	4кв.95
PowerPC 604e	32	166	6.0	5.3	225	250	2кв.96
UltraSPARC	64	167	5.6	9.8	252	351	4кв.95

Анонсируемые процессоры

	Разрядность	МГц	SPECint95	SPECfp95	SPECint92	SPECfp92	Дата
Alpha 21164	64	433	12.4 *	17 *	н/д	н/д	3кв.96
PentiumPro	32	233	9.3*	7.4*	н/д	н/д	3кв.96
UltraSPARC	64	200	6.5*	11*	322*	462*	3кв.96
Alpha 21164	64	466	13*	18*	582*	763*	4кв.96
MIPS R10000	64	275	12*	24*	н/д	н/д	4кв.96
UltraSPARC-II	64	250	8.5*	15*	350*	550*	4кв.96
POWER2 Super	32	133	5.5*	15*	н/д	н/д	4кв.96

Перспективные процессоры

	Разрядность	МГц	SPECint95	SPECfp95	SPECint92	SPECfp92	Дата
UltraSPARC-II	64	300	11*	18*	н/д	н/д	1997
Alpha 21264	64	500	20*	30*	1000	1500	1997
HP PA-8200	64	250	12*	22*	н/д	н/д	1997
Intel/HP P7	64		н/д	н/д	н/д	н/д	1998

* - Оценка

Таблица 3.
Результаты тестирования микропроцессоров.

В общем случае, чистая производительность только процессора может отличаться от показателей, получаемых на компьютерной системе, использующей данный чип. Для получения более рельефного представления о современном рейтинге по показателю SPEC_95 в таблице 4 приведены данные по пяти лучшим системам для всех восьми метрик нового тестового набора.

Заключение

В профессиональной компьютерной прессе постоянно высказываются мнения относительно полезности использования тестовых оценок. Однако, в пресс-релизах фирм, использующих ту или иную технику, в ряду причин, приведших к конкретному выбору, кроме конкурентоспособной цены или опыта фирмы-производителя в конкретных прикладных проектах, всегда в качестве аргумента приводятся высокие данные тестирования выбранной платформы.

Литература

[1].Д.Французов. Оценка производительности вычислительных систем. Открытые системы, #2, 1996, с.58-66.