При выпуске своих новых процессоров в корпорации Intel намереваются впервые использовать техпроцесс с нормой проектирования 45 нм и материал с высокой диэлектрической проницаемостью (high-k) на основе гафния в качестве диэлектрика затвора вместо традиционного диоксида кремния. Эти процессоры в Intel именуются «семейством Penryn», а их архитектуру называют производной от нынешней Core. Первые процессоры Penryn должны быть официально представлены во второй половине текущего года.

Гафний в законе

Согласно установленной в Intel традиции, при переходе на новый технологический процесс изготовления микросхем микроархитектура процессоров не претерпевает революционных изменений — они обычно вносятся позже, когда производственный процесс уже отлажен. Поэтому с точки зрения микроархитектуры более интересны не чипы Penryn, а проект процессоров следующего за Penryn поколения, известный в настоящее время под кодовым именем Nehalem. Что же касается Penryn, то процессоры этого семейства в первую очередь примечательны тем, что при их изготовлении используются техпроцессы и материалы, продлевающие жизнь закону Мура.

Техпроцесс 45-нанометров планируется внедрить во втором полугодии 2007 года на двух предприятиях, расположенных в Хиллсборо (шт. Орегон) и Чандлере (шт. Аризона), а в 2008 году — еще на двух, в израильском Кирьят-Гате и Рио-Ранчо (шт. Нью-Мексико). Все четыре завода будут выпускать по новой технологии подложки диаметром 300 мм.

Металлические затворы (в полупроводниковой индустрии их применения избегали в течение нескольких десятилетий, предпочитая поликристаллический кремний, более удобный в производственном процессе) в сочетании с диэлектриком затвора на основе гафния, по словам представителей Intel, позволяют повысить рабочий ток транзистора на 20%, что в свою очередь позволяет уменьшить время переключения, либо снизить утечки в канале в пять с лишним раз. Кроме того, как утверждают в Intel, утечки через диэлектрик затвора при замене традиционного диоксида кремния материалом на основе гафния снижаются больше чем на порядок. Химическую формулу этого материала в Санта-Кларе не раскрыли, но, вполне вероятно, это может быть кремний-оксинитрид гафния (HfSiON) — по аналогии с описаниями технологии high-k ряда других компаний (в частности, Texas Instruments и Renesas). Держатся в секрете и названия металлов, из которых теперь будут изготавливать электроды затвора. Известно лишь то, что для транзисторов типов NMOS и PMOS будут использоваться разные виды металлических затворов.

Существует, кстати, мнение, что материалы на основе гафния представляют собой далеко не идеальное решение проблемы утечек через диэлектрик затвора из-за вероятного появления по мере эксплуатации устройств так называемых ловушек для носителей заряда, причем более высокое содержание гафния эту вероятность увеличивает. Гафний относится к так называемым «рассеянным» химическим элементам — собственных минералов у него нет, в природе он главным образом встречается в виде примеси в циркониевых рудах. В земной коре гафния содержится больше, чем золота, олова и серебра, но намного меньше, чем циркония, аналогом которого он является.

Представляя в начале нынешнего года первые прототипы процессоров Penryn, в Санта-Кларе характеризовали технологический процесс их изготовления как знаменующий собой самые большие изменения в компьютерных чипах за последние четыре десятилетия. Микроархитектуре Penryn не суждено удостоиться столь же громких эпитетов, тем не менее, и она содержит в себе ряд интересных инноваций.

Penryn в благородном семействе

Как заявил в ходе пекинского форума Intel Developer Forum Мули Иден, генеральный менеджер подразделения Intel Mobile Platforms Group, процессоры Penryn составят основу сразу двух ноутбучных платформ Intel, дебют которых на рынке намечен на первую половину 2008 года и сначала это будет Santa Rosa Refresh. За исключением процессоров все остальные компоненты платформы (в первую очередь, чипсеты и сетевые адаптеры), по словам представителей Intel, останутся теми же, что и сейчас. Затем придет черед платформы следующего поколения Montevina. Для нее готовят набор системной логики Cantiga, модули поддержки беспроводных коммуникаций Echo Peak (Wi-Fi и WiMAX) и Shiloh (только Wi-Fi), сетевой адаптер Boaz для адресованных корпоративному рынку ноутбуков Centrino Pro с поддержкой технологий виртуализации Intel vPro и удаленного управления Intel Active Management Technology, а также вторую версию технологии Intel Turbo Memory.

Проект Penryn больше ассоциируется с процессорами для ноутбуков — его архитектура, как утверждается, является производной от Core, а та в свою очередь историческими корнями связана с израильским центром разработок Intel в Хайфе, где проектировались процессоры Pentium M и технология Centrino. Введя в обиход выражение «семейство Penryn», в Intel подчеркнули, что одна и та же микроархитектура распространяется на процессоры для настольных систем и серверов. Но при этом возникла некоторая путаница — часть анонсированных функций была подтверждена только для ноутбучных процессоров, а настольные и серверные не удостоились столь же громких анонсов.

Как обычно случается в подобных ситуациях, образовавшийся информационный вакуум попытались заполнить неофициальные источники, пополнив лексикон ИТ-специалистов и обозревателей такими кодовыми именами, как Wolfdale, Yorkfield и Harpertown. Пользы от этого, впрочем, было немного, поскольку информация о названных процессорах оставалась довольно скудной, более того, источники порой еще и указывали различные их характеристики. К примеру, Harpertown называли то четырехъядерным процессором, то восьмиядерным и в конце концов в Intel все же признали существование всех трех проектов с указанными кодовыми именами. Некоторое время назад на официальном сайте корпорации появились упоминания о процессорах для настольных систем — двухъядерном Wolfdale и четырехъядерном Yorkfield. Говорилось о них и на форуме IDF в апреле 2007 года, где, в частности, было заявлено, что процессоры Yorkfield будут выпускаться в конструктиве LGA 775, который впервые был представлен для 90-нанометровых процессоров Pentium 4 на ядре Prescott и также используется нынешними Core 2 Duo. Про энергопотребление процессоров Yorkfield было сказано, что при использовании с системными платами, выполненными в соответствии со спецификацией FMB (Flexible Motherboard), оно будет находиться в пределах 90 Вт (процессоры, предлагаемые для массового рынка) или 130 Вт (серия Extreme). Говоря о поддержке процессоров Yorkfield чипсетами, в Intel называли чипсеты серии 3 и будущие наборы системной логики под кодовым названием Eaglelake.

О проекте Harpertown еще в ходе осенней сессии IDF 2006 года упомянул генеральный менеджер подразделения Intel Server Platforms Group Кирк Скауген. Также он отмечал, что двухъядерные процессоры Wolfdale будут выпускаться и в варианте для рабочих станций и серверов, сохраняя (это будет присуще и четырехъядерным моделям Harpertown) совместимость на уровне процессорных разъемов с нынешними моделями Intel Xeon серий 5100 и 5300.

Тактовая частота внешней шины (FSB) у процессоров семейства Penryn будет доходить до 1600 МГц, объем кэш-памяти второго уровня у четырехъядерных модификаций — до 12 Мбайт, у двухъядерных — до 6 Мбайт (кэш-память осталась секторно-ассоциативной, но каждый сектор у Penryn состоит из 24 строк, а не из 16, как прежде). При этом, однако, возможности совместного использования общей кэш-памяти второго уровня всеми четырьмя ядрами у этих процессоров не появится: четырехъядерные варианты будут представлять собой два двухъядерных кристалла в одном корпусе. Это открывает некоторые перспективы для компании AMD с ее продуктовой линейкой Phenom. Кэш-память второго уровня у этих процессоров общей не является, зато у Phenom общая кэш-память третьего уровня, и она, согласно официальной информации, в четырехъядерном варианте может совместно использоваться всеми ядрами.

Микроархитектура: практика эволюции

Переходя к новшествам архитектуры Penryn, следует прежде всего отметить шестнадцатеричный блок деления. В Intel вновь сумели удивить — на этот раз тем, что увеличили пропускную способность блока деления с двух битов за такт до четырех (шестнадцатеричные числа в двоичном формате записываются в четырех битах). Правда двукратного роста производительности при выполнении операций деления на реальных задачах это все же не обеспечивает ни для целочисленных вычислений, ни при выполнении операций с вещественными числами. Новый блок деления еще и оптимизирован для операции извлечения квадратного корня — тут, по словам представителей Intel, производительность может возрастать и больше чем в два раза. (Трудно отделаться от ощущения, что у Intel может быть «припрятано» еще несколько аналогичных скрытых резервов для увеличения скорости выполнения арифметических операций.)

Новый, четвертый по счету набор расширений SSE (Streaming SIMD Extensions) — еще одно заметное новшество в Penryn. В SSE4 входят 54 инструкции типа SIMD (Single Instruction, Multiple Data — «один поток команд, много потоков данных»), предназначенных в первую очередь для графических, игровых и мультимедийных приложений. Но лишь 47 из них должны быть реализованы в процессорах Penryn — это подмножество именуется SSE4.1. Оставшиеся семь инструкций (подмножество SSE4.2) появятся в архитектуре Nehalem.

В подмножество SSE4.1 входят двенадцать новых инструкций для выполнения преобразований целочисленных форматов, восемь — для поиска максимума или минимума, семь — для помещения данных в регистры XMM или извлечения данных из этих регистров, шесть — для операций смещения, четыре — для операций скалярного произведения с данными в формате с плавающей запятой, две — для умножения данных типа dword (double word), две — для округления данных в формате с плавающей запятой, одна — для операций проверки равенства с данными типа qword (quadruple word), одна — для вычисления суммы модулей разности между блоками данных небольшого размера (используется при работе с видео), одна — для операций потоковой загрузки, одна — для операций горизонтального поиска (нахождение минимума и его позиции в массиве из восьми элементов типа unsigned word, или uword), одна — для операций сравнения по маске, одна — для упаковки данных типа dword с формированием предельного результата в соответствии с принципом беззнакового насыщения (unsigned saturation). По большей части инструкции SSE4.1 предназначены для работы с упакованными данными.

Следующее новшество — механизм побитовой перестановки данных под названием Super Shuffle Engine, предназначенный для ускорения SSE-операций форматирования данных, таких как упаковка, распаковка, выравнивание связанных источников данных, широкоформатный сдвиг, вставка и извлечение. Реализованный в виде 128-битного однопроходного модуля, этот механизм, по словам представителей Intel, в среднем вдвое (по сравнению с аналогичным решением в процессорах на ядре Merom) увеличивает скорость выполнения операций, связанных с перестановкой данных, и при этом не требует внесения изменений в коде прикладных программ. Кроме того, с помощью Super Shuffle Engine реализуется эффективное (с точки зрения производительности) выполнение ряда инструкций SSE4. В частности, это относится к операциям смещения, скалярного произведения и вычисления суммы модулей разности.

Еще одно новшество касается сокращения задержек при выполнении операции Load (загрузка данных из памяти). Усовершенствованный механизм Store Forwarding (пересылка результатов операции выгрузки данных в память) в процессорах Penryn позволяет передавать для выполнения операции Load результаты операции Store даже в том случае, если при выравнивании адресов происходит выход за границу в 8 байт (64 бит) и операция Store остается на конвейере — без необходимости дожидаться, пока завершится выполнение операции и запись в память. Это новшество уже успело вызвать определенный интерес среди участников технических конференций, но пока без аплодисментов — возможно, практические выгоды от усовершенствования механизма Store Forwarding станут более понятны, когда процессоры Penryn можно будет опробовать в деле.

Обещанная улучшенная поддержка технологии виртуализации Intel VT-x, реализованной в процессорах архитектуры IA-32, касается в первую очередь серверных приложений, так же, как, кстати, и анонсированное повышение производительности при выполнении примитивов (элементарных функций) синхронизации операционных систем, которое призвано улучшить масштабируемость серверных систем. По словам представителей Intel, выполнение операций контекстного переключения виртуальных машин (вход/выход) у семейства Penryn ускорено на 25-75% по сравнению с процессорами на ядре Merom. Что же касается заявленных количественных характеристик роста производительности при выполнении примитивов операционных систем, то они таковы: при работе с блокированными инструкциями достигается ускорение на 55-80%; при работе с инструкциями CLI (Clear Interrupt) и STI (Set Interrupt) — до 100% (улучшенный контроль маскированных прерываний позволяет ОС более эффективно контролировать ресурсы общего пользования); при чтении содержимого счетчика временных меток TSC (Time Stamp Counter) с помощью инструкции RDTSC — в три раза (быстрый доступ к TSC улучшает работу с функциями, относящимися к числу ключевых для серверов баз данных и сервисов операционных систем, запускаемых в определенное время суток).

Для мобильных процессоров Penryn анонсирован новый режим энергосбережения Deep Power Down (C6). В этом режиме не только происходит отключение генератора тактовой частоты процессорного ядра и системы фазовой автоматической подстройки частоты PLL (phase-locked loop), как это сделано в ранее реализованных режимах энергосбережения (начиная с режима Deep Sleep, известного также как C3), но и полностью отключается питание кэш-памяти обоих уровней. Напряжение питания процессорного ядра в режиме Deep Power Down, по приблизительным оценкам, уменьшается почти в четыре раза по сравнению с Deep Sleep, энергопотребление снижается еще более значительно (см. таблицу). Инициализация перехода в состояние Deep Power Down происходит на уровне операционной системы. Сам процесс перехода (как и обратный ему процесс возврата, или «пробуждения») требует взаимодействия процессора с чипсетом. В то время, когда процессор находится в режиме Deep Power Down, трафик запросов ввода-вывода обрабатывается чипсетом. Длительность пробуждения из этого режима по сравнению с Deep Sleep увеличена примерно в три раза. Поскольку частые переключения между режимами активной работы процессора и Deep Power Down не оправдывают себя с точки зрения энергозатрат, в Penryn предусмотрена функция автоматического понижения статуса запросов на переход в режим энергосбережения. Используя эвристические алгоритмы для сравнения экономии энергии от пребывания процессора в режиме Deep Power Down с энергозатратами на его «пробуждение», эта функция может автоматически понижать статус инициируемого операционной системой запроса на переход в это состояние, переводя процессор в режим Deeper Sleep (C4).

Технология Intel Dynamic Acceleration, реализованная в выпущенных корпорацией в мае 2007 года мобильных процессорах Core 2 Duo на ядре Merom для платформы Santa Rosa, в Penryn будет представлена в модифицированном варианте — Enhanced Dynamic Acceleration Technology. В оригинальном варианте эта технология переводит одно из ядер двухъядерного процессора в режим Deep Sleep при работе с однопоточными приложениями и одновременно поднимает тактовую частоту второго ядра выше номинала — таким образом увеличивается производительность. При этом тепловой режим работы процессора не выходит за рамки, определенные спецификацией TDP (Thermal Design Power), что отличает предложенное Intel решение от обычного разгона процессора, с которым часто сравнивали Intel Dynamic Acceleration в первое время после того, как технология получила огласку.

Модифицированный вариант будет, во-первых, поддерживать режим Deep Power Down, хотя пока неясно, обеспечит ли это возможность дополнительного прироста тактовой частоты работающего ядра. Во-вторых, в Enhanced Dynamic Acceleration Technology появится механизм «гистерезисного типа» для предотвращения падения производительности при кратковременных пробуждениях ядра, переведенного в режим энергосбережения. Об этой технологии также пока говорится только применительно к мобильным процессорам Penryn, хотя в Intel не исключают, что со временем Enhanced Dynamic Acceleration Technology и Deep Power Down могут «перекочевать» и в настольные процессоры.

Время делать ставки

В дни выставки Computex (июнь 2007 года) появилась уточняющая информация — со ссылкой на представителей Intel — о том, что выпуск первых процессоров семейства Penryn намечен на конец 2007 года. Кроме того, как утверждалось в открытых источниках, в ходе выставки представители корпорации не упустили шанс критически отозваться о приведенных AMD результатах сравнительных тестов, согласно которым образцы будущих Phenom на 15-40% опережали по производительности настольные варианты Core 2 Duo на ядре Conroe. В одном с ними можно согласиться: с учетом предполагаемых сроков выпуска процессоров Phenom и Penryn, ситуация действительно складывается так, что противостояние этих процессоров, что называется, лицом к лицу становится неизбежным. Любителям прогнозов самое время делать ставки, а всем прочим остается лишь дождаться, когда стороны завершат артподготовку и приступят к боевым действиям.

От редакции. Данный материал подготовлен в преддверии сентябрьского форума IDF в Сан-Франциско, где, как ожидалось, представители Intel должны были представить детали реализации процессорной архитектуры следующего поколения Nehalem. Об этом проекте читайте в одном из следующих номеров «Открытых систем».