Будущее архитектуры Power4

Подход, выбранный IBM, в целом ряде аспектов близок к тому, что предложила Compaq в Alpha 21364, но кардинально отличается от предложений HP и Intel. Возникшие разногласия по поводу наиболее эффективной архитектуры носят принципиальный характер: отличия проистекают уже из исходных посылок разработчиков - из того, какие особенности современных микропроцессоров становятся тормозом повышения их производительности.

Объявление компаниями архитектуры IA-64 - поставило в повестку дня главный вопрос: исчерпала ли себя RISC-архитектура? Разработчики IA-64 охарактеризовали ее как «пост-RISC», недвусмысленно намекая на то, что она должна прийти на смену RISC-архитектуре. Точнее следовало бы говорить об EPIC (Explicitly Parallel Instruction Computing) - архитектуре с явным параллелизмом на уровне команд, а о IA-64 - как одной из возможных конкретных реализаций EPIC-архитектуры [1]. Предполагалось, что микропроцессор с архитектурой IA-64 по производительности опередит всех конкурентов.

Разработка нового микропроцессора сейчас требует огромных финансовых затрат, а разработка революционно новой архитектуры - тем более. Кроме собственно создания микропроцессора, для EPIC возникает еще проблема разработки соответствующих компиляторов, принципиальным образом влияющих на успех самого микропроцессора - организация «распараллеливания» выполнения на уровне команд возлагается на компилятор, а не на аппаратуру, как было в суперскалярных микропроцессорах. В связи с этим встал вопрос, какие производители смогут найти финансирование и высококвалифицированный персонал, чтобы осуществить альтернативные конкурентоспособные разработки. Обычно назывались лишь Alpha 21364 и процессоры IBM. Первый потому, что Alpha уже много лет лидер производительности, а IBM потому, что этому компьютерному гиганту по плечу любые мыслимые финансовые затраты, и она обладает огромным инженерным и научно-техническим потенциалом.

Наконец, многие эксперты полагали, что микропроцессоры с архитектурой IA-64 просто станут абсолютными монополистами на рынке высокопроизводительных систем. В связи с этим можно предположить, что Intel посчитала, что за IA-64 - будущее, и бросила все основные силы на развитие данного направления, что сразу привело к резкому обострению конкуренции c традиционной архитектурой IA-32 (главным образом со стороны AMD). Однако задержки с выходом Itanium - первых в семействе IA-64 - показали, что у потенциальных конкурентов имеется еще достаточно времени на разработку собственных альтернатив. Если не считать известной отечественной разработки Elbrus E2K [2], которая происходила одновременно с разработкой IA-64, то можно сказать, что основные конкуренты (IBM и Compaq) выбрали асимметричный ответ и не стали отказываться от RISC-архитектуры, а сконцентрировались, в частности, на аппаратной поддержке мультипроцессирования на более высоком уровне.

Узкие места в архитектуре современных микропроцессоров

Прежде всего нужно разобраться с тем, зачем вдруг понадобилось разрабатывать революционно новые архитектуры в условиях, когда производительность RISC-процессоров и так непрерывно возрастает при эволюционном развитии их архитектуры по мере роста тактовой частоты. Основная причина связана с тем, что скорость роста производительности оказалась не адекватна усложнению микроархитектуры и технологическому прогрессу (в частности, скорости роста тактовой частоты).

Для современных суперскалярных микропроцессоров - таких, как Alpha 21264, PA-8500/8600 характерен рост сложности их аппаратуры, что стало препятствием к увеличению тактовой частоты. В результате, сегодня по этому показателю впереди оказались x86-процессоры AMD Athlon и Intel Coppermine, достигшие величин 1 ГГц. С другой стороны, реально поддерживаемый уровень распараллеливания в суперскалярных микропроцессорах оказывается существенно ниже максимального заложенного в микроархитектурную реализацию микропроцессоров МП. Именно поэтому увеличение параллелизма на уровне команд ILP (Instruction Level Parallelism) и стало основной задачей Intel и HP при разработке EPIC.

Применение в EPIC элементов архитектуры VLIW позволяет отказаться от сложной логики поддержки внеочередного выполнения команд и аппаратной проверки наличия взаимозависимостей между командами. В EPIC эти задачи снимаются с аппаратуры микропроцессора и перекладываются на плечи компилятора, который отвечает за генерацию кодов, эффективно загружающих параллельно работающие функциональные исполнительные устройства (ФИУ). Причем делается это статически - с помощью компилятора, а не динамически, как в суперскалярных микропроцессорах.

В результате Intel и HP решили, что нужно увеличить поддерживаемый аппаратурой уровень ILP, для чего и разработали новую архитектуру на уровне набора команд - ISA (Instruction Set Architecture) IA-64 [3]. IBM же предполагает, что нужно увеличивать не ILP, а параллелизм на уровне нитей и на более высоких уровнях [4]. Микропроцессоры с высоким уровнем ILP уменьшают время занятости микропроцессора, но не уменьшают время ожидания. Одна из основных причин, приводящих к ожиданию - это «несвоевременная» доставка данных в регистры микропроцессора из оперативной памяти. EPIC эту проблему сам по себе не разрешает, а скорее даже усугубляет: много одновременно спекулятивно выполняемых команд требует загрузки большого количества данных, а ведь потом может выясниться, что эти команды должны быть отозваны и их выполнили зря.

Разработчики IBM cправедливо полагают, что одно из основных узких мест - это тракт процессор-память и традиционно обращают особое внимание на его пропускную способность. Следует напомнить, что как МП Power, так и соответствующие компьютеры RS/6000 часто выгодно отличались от конкурентов именно своими высокими показателями этого тракта. Одним из основных преимуществ векторных суперЭВМ перед многопроцессорными RISC - системами продолжает оставаться именно пропускная способность памяти. В новой разработке Power4 эта характеристика стала одной из определяющих, а в Alpha 21364 с целью ее увеличения интегрирован контроллер ОП типа RDRAM с высокой пропускной способностью. Повышением пропускной способности сегодня озаботились даже производители ПК и микропроцессоров x86 c архитектурой IA-32.

Динамическое аппаратное распараллеливание между ФИУ в традиционных суперскалярных микропроцессорах имеет и свои преимущества над статическим распараллеливанием компилятора в EPIC [5] - статические коды уменьшают возможности программы динамически адаптироваться по ходу выполнения. Суперскалярные микропроцессоры могут динамически реагировать на ситуацию непопадания в кэш, изменив порядок команд, планируемых к выполнению. Предсказать же непопадание в кэш на стадии компиляции очень сложно [4].

Другой недостаток EPIC - высокая зависимость оптимизированных кодов от конкретной реализации архитектуры. Потенциально это может даже до определенной степени сдерживать прогресс в развитии микроархитектуры процессоров. В IBM же полагает, что можно создать суперскалярный микропроцессор, который будет способен использовать почти весь ILP на типичных серверных приложениях [4], а узким местом, с точки зрения разработчиков, является вовсе не несовершенство ISA и нет необходимости увеличивать ILP путем перехода к EPIC. Вместе с тем со временем более высокий уровень ILP может привести и к появлению новых алгоритмов, способных его эффективно использовать. Другое дело, что уровень ILP может быть увеличен и в рамках суперскалярной архитектуры.

Как отмечено в [4], ввиду очень высокой сложности компилятора для МП EPIC-архитектуры возможно появление проблем, на устранение которых понадобится очень большое время. Другой пример, где EPIC может быть неэфективным - это Java-компиляторы «just-in-time», для которых время компиляции может оказаться слишком большим. Впрочем, этот вопрос носит дискуссионный характер - общее увеличение производительности микропроцессора способно сделать незаметным увеличение времени компиляции.

Как уже отмечалось, другим стратегическим решением IBM является стремление обеспечить высокую эффективность распараллеливания на более высоких аппаратных уровнях, чем ILP, поэтому особое внимание при разработке Power4 было обращено на построение классических SMP-систем. Вместо того, чтобы создавать один сверхсложный микропроцессор с очень высоким ILP, (как это делается в Itanium, планируется в McKinley и т.д.) в Power4 предложена идея CMP (Сhip MultiProcessing) - мультипроцессирование внутри микросхемы. В соответствие с этим подходом, в микросхеме располагается не один, а два процессора, но гораздо более простых. Можно сказать, что в микросхеме Power4 интегрирована SMP-система. Кроме того, в Power4 обеспечивается поддержка высокоскоростных портов для шин, связывающих процессоры разных микросхем.

Стремление расположить на микросхеме сразу два процессора имеет еще одно дополнительное основание - в более простых процессорах логические блоки оказываются ближе друг к другу, что уменьшает время распространения сигнала, что особенно существенно на высоких тактовых частотах. Аналогом архитектуры «двух процессоров на микросхеме» можно считать два кластера, в которых дублируются регистровые файлы и ФИУ. Этот архитектурный прием использован в Alpha 21264 и Elbrus E2K [2]. Хотя в Alpha 21364 не реализованы идеи CMP, этот МП также имеет поддержку высокоскоростного соединения МП между собой.

Таким образом видно - налицо принципиальные разногласия между подходом IBM (к нему близка «позиция» Сompaq) и подходом HP/Intel. Как утверждается в работе [4], «кто-то из них неправ». Это означает, что разработчики пошли на существенный риск, затратив огромные финансовые и людские ресурсы, и ошибка в определении стратегии развития будет стоить очень дорого. Здесь следует отметить еще один момент. Хотя все рассматриваемые альтернативные подходы начали разрабатываться уже давно, они стали реалиями только недавно, с появлением 0,18-микронной технологии - при более низком уровне интеграции микросхема просто не могла бы содержать все необходимые элементы.

Далее речь пойдет о подходе, альтернативном EPIC, где в качестве примера будет взят микропроцессор Power4 [4]. К сожалению, открытые данные по микроархитектуре процессора следующего поколения - Itanium и Alpha 21364 - весьма неполны, что не позволяет построить достаточно полной картины и провести подробное сопоставление. Это может быть связано, во-первых, с тем, что еще не завершилась доработка микроархитектуры этих микропроцессоров, и, во-вторых, со стремлением сохранить информацию в тайне в условиях жесточайшей конкуренции.

Особенности микроархитектуры Power4

Общее представление о строении Power4 дает рис. 1. Микросхема Power4 содержит два процессора, разделяющих общий кэш второго уровня с пропускной способностью свыше 100 Гбайт/с. Связь процессоров и кэша второго уровня, равно как и с другими микросхемами Power4, осуществляется посредством коммутатора. Для обеспечения когерентности кэша и пересылки данных в кэш второго уровня применяется протокол «разделяемого вмешательства» (shared intervention).

Размер и другие характеристики кэша второго уровня неизвестны; по косвенным оценкам [4] емкость кэша составит около 1,5 Мбайт и он может быть 8-канальным наборно-ассоциативным (set-associative) с временем выборки 8-10 тактов. В микропроцессоре Alpha 21364 кэш второго уровня будет иметь ту же емкость, однако там он 6-канальный наборно-ассоцативный. Сегодня уже появились микропроцессоры с подобным объемом интегрированного кэша: Pentium III Xeon (емкость кэша второго уровня до 2 Мбайт), PA-8600 (1,5 Мбайт), PA-8700 с кэшем 2,25 Мбайт и Аthlon/Mustang с кэшем второго уровня размером 1-2 Мбайт.

Если Power4 действительно будет иметь 8-канальный наборно-ассоциативный кэш, это даст ему преимущества. Так, в HP PA-8600/8700 кэш 4-канальный наборно-ассоциативный, что означает - в некоторых ситуациях относительная эффективная емкость кэша второго уровня в Power4 может быть увеличена еще вдвое. Блок кэш-памяти второго уровня в Power4 содержит также теги внешнего кэша третьего уровня, что позволяет резко увеличить эффективность работы механизма обеспечения когерентности кэша. Возможно эти теги смогут обеспечить емкость кэша третьего уровня до 32 Мбайт [4].

Формальным недостатком Power4 является то, что внешний кэш третьего уровня и оперативная память разделяют общие порты Power4 (подобно известному способу использования системной шины как для обмена данными с оперативной памятью, так и для обмена данными с внешним кэшем x86-совместимых микропроцессоров предыдущих поколений). Однако следует учесть, что речь идет даже не о кэше второго уровня, а о кэше третьего уровня, обращения к которому могут оказаться редкими, если локализация в большом кэше второго уровня окажется достаточно хорошей.

Зато в IBM позаботились о создании специального механизма по поддержке высокой пропускной способности памяти - в Power4 имеется 8 программно-управляемых потоков предварительной выборки (prefetch stream). Все они служат для обеспечения непрерывной передачи данных из памяти через всю иерархию памяти вплоть до кэша первого уровня. В обработке могут одновременно находиться до 20 строк кэша. Теоретически при заполнении конвейера предварительной выборки можно достигнуть темпа поступления новых данных в микропроцессорное ядро на каждом такте.

Сопоставим теперь пиковую пропускную способность памяти в Power4 с показателями других процессоров (табл. 1). В Itanium пропускная способность составит только 2,1 Гбайт/с [6]; в McKinley эта величина может увеличиться в 3 раза [4], но это все равно будет меньше, чем в Power4. В Alpha 21364 порт оперативной памяти будет иметь пропускную способность 6 Гбайт/с [5].

Приведенные данные подтверждают, что Power4 действительно претендует на лидерство по показателю пропускной способности ОП. Единственный микропроцессор, у которого декларирована более высокая пропускная способность - это Elbrus E2K (до 38.4 Гбайт/с), однако судьба его до сих пор остается неясной.

Что касается ФИУ, то мы сошлемся на предположение из [4], что каждый из двух процессоров в Power4 будет иметь 2 конвейера с плавающей запятой, способных выполнять, в частности, команды «умножить-и-сложить», и 2 ФИУ загрузки регистров/записи в память. Длина конвейера загрузки может составить 12 стадий, целочисленного конвейера - 10 стадий. По мнению IBM, внеочередное выполнение команд в Power4 позволит скрыть все задержки при выборке из кэша второго уровня.

Наконец, отметим еще одну особенность Power4 - режим «weak storage ordering», в котором для того чтобы скрыть задержку оперативной памяти, производится переупорядочивание транзакций памяти.

Хотя Power4 противопоставляется EPIC/VLIW, некоторые элементы VLIW в минимальной степени в нем представлены. На ранних стадиях конвейера Power4 обычные RISC-команды группируются в стадии, похожие на используемые в IA-64 [3]. Эти связки и используются в процедурах диспетчеризации, располагаясь в очередях ожидания выполнения. Укрупнение «единиц диспетчеризации» с уровня отдельных команд до уровня связок позволяет существенно упростить логику управления диспетчеризацией - наполовину по сравнению с Power3 [4].

Теперь пора обратиться к принципиальным особенностям Power4, которые не представлены ни в каких других процессорах RISC-архитектуры, кроме Alpha 21364 - это организация каналов связи микросхема - микросхема (мультипроцессирование двух процессоров в SMP-конфигурацию в Power4 осуществляется внутри микросхемы).

Cетевое межсоединение микросхем Рower4 осуществляется с помощью интегрированной шины (рис.1), имеющей низкие задержки и высокую пропускную способность. Эта шина близка к коммутатору: на ней не возникает конфликтов и обеспечиваются соединения «точка-точка» [4]. При этом поддерживается кольцеобразная топология «распределенного коммутатора».

Ширина шин «микросхема-микросхема» 16 байт, а частота свыше 500 МГц при пиковой пропускной способности выше 8 Гбайт/с. Для сравнения, пиковая пропускная способность порта, через который обмениваются данными Alpha 21364, составляет 10 Гбайт/с. Топология межсоединения Alpha 21364 (двухмерная решетка, края которой «замыкаются») основывается на наличии в каждом микропроцессоре четырех портов и соответственно четырех каналов, через которые осуществляется обмен данными между микропроцессорами.

Некоторые технологические особенности Power4

Микропроцессор Power4 содержит 170 млн. транзисторов и будет изготовляться по 0,18-микронной технологии в рамках процесса CMOS-8S2 с семислойной металлизацией. Базовое напряжение питания Power4 равно 1,5 В. CMOS-8S2 является дальнейшим развитием известного процесса CMOS-8, в котором используется медная технология и технология SOI. Утверждается, что этот процесс дает более плотную упаковку, чем Intel P858/1,5 В, который должен применяться при изготовлении Merced/Itanium .

Ожидается, что площадь микросхемы составит 400 кв. мм, что меньше, чем в HP PA-8500 (475 кв. мм). Большая площадь кристалла вообще характерна для современных МП с интегрированным кэшем очень большого размера. IBM располагает отличными технологиями изготовления микропроцессоров, и не случайно, что именно она изготавливает PA-8x00. Кстати, PA-8700 также будет производиться по 0,18-микронной технологии, с применением SOI, медной технологии и 7-слойной металлизации. Вероятно, делать эти микропроцессоры будет также IBM.

Наконец, еще один потенциальный конкурент, - Alpha, также будет выпускаться на производственных мощностях IBM (cоглашение об этом подписано в мае). Еще одним интересным фактом, демонстрирующим лидерство IBM в области технологий изготовления микропроцессоров, является недавняя демонстрация микросхемы, работающей на тактовой частоте 4,5 ГГц.

IBM планирует выпустить одиночный процессорный модуль, содержащий микросхемы Power4. Это дает возможность построения двухпроцессорных SMP-систем. Возможной базовой строительной единицей компьютеров на базе Power4 станет MCM (MultiChip Module) - модуль, содержащий 4 микросхемы Power4 (8 процессоров). В названии МСМ явно просматриваются аналогии с TCM (Thermal Conduction Module) - знаменитым процессорном модуле, обеспечивающим эффективное охлаждение расположенных в нем процессоров мэйнфреймов от IBM. Одна микросхема Power4 будет выделять в тепло 125 Вт, а модуль МСМ имеет холодопроизводительность 500 Вт. В МСМ использована многослойная стеклокерамика с медными межсоединительными слоями.

Четыре микросхемы Power4 образуют 8-процессорную конфигурацию и расположены в МСМ под углом 90 градусов друг относительно друга, что позволяет минимизировать длину шин расширения, обеспечивающих соединение микросхем между собой. Шины расширения связывают между собой и модули МСМ. В этих шинах используется уникальная технология волновой конвейеризации (wave pipelining), обеспечивающая очень низкие величины задержек. Пропускная способность каждой шины превосходит 8 Гбайт/с и, cоответственно, МСМ с четырьмя шинами расширения, ведущими к другим МСМ, будет иметь суммарную пропускную способность свыше 32 Гбайт/с. Такую пропускную способность обменов между МСМ будет иметь 32-процессорная SMP-конфигурация из четырех модулей МСМ.

На самом деле шины расширения кроме собственно межмодульных шин включают выделенные шины для организации ввода-вывода и создания NUMA-конфигураций. Поэтому суммарная производительность шин расширения микросхем Power4 оказывается больше почти на 2 Гбайт/с - свыше 10 Гбайт/с. Отметим, что подобные шины ввода-вывода в Power4 имеют свой аналог и в архитектуре Alpha 21364 [5].

Поскольку масштабирование любой SMP-конфигурации ограничено, в частности, пропускной способностью памяти, более крупные компьютерные системы на базе Power4 IBM, вероятно, планируется выпускать в NUMA-конфигурации. При этом естественной будет реализация логического разделения (LPAR) всего компьютера на несколько независимых систем меньшего размера, что хорошо зарекомендовало себя для мэйнфреймов IBM. Наконец, NUMA-узлы могут быть объединены в кластер.

При разработке Power4 был использован целый ряд специальных решений, направленных на повышение надежности работы этих микросхем и компьютеров на их основе. Можно указать, в частности, на применение кодов ECC в кэшах второго и третьего уровней и в оперативной памяти. В Power4 интегрирован тестовый процессор. Применение медной технологии также способствует увеличению надежности [4], а для защиты от возможных дефектов изготовления в кэше второго уровня применяется избыточность строк и столбцов.

Нужно сказать несколько слов и о том, какие силы были брошены на разработку Power4. Если обычно в разработке микропроцессоров серий Power/PowerPC принимал участие коллектив отделения IBM в Остине, то при создании Power4 были задействованы пять отделений IBM, а затраты на разработку Power4 также были гораздо больше, чем обычно.

Перспективы

Прежде чем рассмотреть перспективы различных высокопроизводительных микропроцессоров в ближайшем будущем, следует вкратце остановиться на вопросах совместимости Power4 с существующими Power/PowerPC. Простые команды из ISA Power/PowerPC в Power4 реализованы аппаратно. Несколько более сложные команды загрузки регистров/записи в память, в которых используется продвинутая схема адресации, декодерами команд разбивается на пары простых команд. Команды средней сложности (например, операции со строками) реализуются с помощью микрокодов, не содержащих команд перехода. Наконец, наиболее сложные команды из ISA процессоров линии Power (изъятые из PowerPC) будут вызывать прерывания и программную эмуляцию. Таким образом, в Power4 обеспечивается совместимость на уровне двоичных кодов.

Микросхемы Power4 планируется использовать как при построении компьютеров серии RS/6000, так и AS/400. Поэтому обеспечение совместимости Power4 с предыдущими микропроцессорами имеет принципиальное значение для коммерческого успеха Power4.

Теперь посмотрим, что мы имеем сегодня на рынке микропроцессоров. Лидеры производительности - Alpha 21264 и PA-8600 во второй половине текущего года появится Itanium. Однако ожидается, что реально его частота будет меньше 1 ГГц, а многие эксперты полагают, что до появления McKinley его предшественник не сможет еще достигнуть производительности, достаточной для того, чтобы говорить об уверенной победе IA-64 над RISC. Основная борьба за лидерство может развернуться между McKinley и Power4/Alpha 21364. Вряд ли можно ожидать конкуренции от будущего AMD K8. Что касается Sun UltraSPARC V с частотой 1,5 ГГц, который может появиться в конце 2001 года, то здесь ситуация менее ясная. Наконец, нельзя сбрасывать со счетов PA-8700/8800/8900, которые HP развивает в рамках традиционной RISC-архитектуры [7]. Можно предположить, что эти микропроцессоры будут вплотную примыкать к лидерам производительности.

IBM и Compaq полагают, что ближайшая стратегия развития микропроцессоров должна основываться на использовании RISC-архитектуры, суперскалярном внеочередном выполнении команд, применении интегрированного кэша большой емкости, высокой пропускной способности оперативной памяти и наличии аппаратной поддержки соединения микропроцессоров между собой. Различия в «позиции» IBM и Сompaq определяются тем, что IBM поддерживает 2-процессорную SMP-архитектуру в рамках одной микросхемы (CMP), а Compaq планирует достигать аналогичного распараллеливания на уровне нитей* (TLP) в рамках будущего микропроцессорного ядра Alpha 21464.

Фактически сейчас речь идет в первую очередь о противоборстве революционной попытки HP/Intel (EPIC) и эволюционного подхода IBM и Compaq, в основе которого лежит модернизация RISC-архитектуры. IBM полагает, что процессоры Power4 будут превосходить по производительности все ныне эксплуатирующиеся микропроцессоры, а также, вероятно, Itanium. Со своей стороны, McKInley может опередить Pоwer4 по производительности, однако у McKinley нет поддержки CMP и ниже пропускная способность [4].

Посмотрим теперь на сроки. McKinley с частотой 1,2 ГГц и производительностью в 2 раза выше, чем у Itanium, должен появиться к концу 2001 года. Первая микросхема Power4 ожидается уже в первой половине текущего года, а системы на базе Power4 - во второй половине следующего. Alpha 21364 первоначально планировалось выпустить уже в этом году; Alpha 21464 cледует ожидать в 2002 г.

Итак, если Intel/HP планирует максимизировать производительность одного процессора, повысив параллелизм на уровне команд, то IBM и Compaq стремятся повысить параллелизм на более высоком уровне - уровне нитей. Если микропроцессоры IA-64 и обгонят конкурентов, то встанет вопрос, что лучше - иметь один более сложный (и, вероятно, более дорогой) микропроцессор или 2 процессора попроще и подешевле, и распараллелить приложение?

Литература

[1] М. С. Шланскер, Б. Р. Рау, «Открытые системы», 1999, № 11-12, стр. 8

[2] М. Кузьминский, «Открытые системы», 1999, № 5-6, стр. 8

[3] М. Кузьминский, «Отрытые системы», 1999, № 9-10, стр. 8

[4] K. Diefendorff, Microprocessor Report, 1999, v. 13, no. 13

[5] М. Кузьминский, «Computerworld/Россия», 1999, № 32

[6] Itanium Processor Microarchitecture Reference for Software Optimization, Intel, March 2000

[7] PA-RISC 8x00 Family of Microprocessors with Focus on PA-8700, Technical White Paper, HP, April 2000

* Иногда используется также термин «тред» (прим. ред.)

**Таблица 1. Некоторые характеристики перспективных микропроцессоров**
	Кэш второго уровня	пропускная способность порта памяти (Гбайт/с)	пропускная способность соединения микросхема-микросхема
Intel Itanium	6-канальный наборно-ассоциативный	2,1	не поддержи-вается
НР РА-8700	кэш первого уровня: 4-канальный наборно-ассоциативный 1,5 Мбайт (данные)+0,75 Мбайт (команды)	нет данных	не поддержи-вается
Compaq Alpha 21364	6-канальный наборно-ассоциативный 1,5 Мбайт	6	10 Гбайт/с
IBM Power4	8-канальный наборно-ассоциативный 1,5 Мбайт	10	>8 Гбайт/с