Алексей Шмелев, исполнительный директор, группы компаний «РСК»С ростом вычислительной мощности и плотности от оборудования в стойке требуется отводить все больше тепла. Прежде всего оно используется в области суперкомпьютерных вычислений, но с успехом может применяться и для любых других задач, где требуется обеспечить высокую вычислительную плотность и энергоэффективность. Об особенностях и преимуществах архитектуры «РСК Торнадо» в интервью нашему журналу рассказывает Алексей Шмелев, исполнительный директор группы компаний «РСК».

 

Журнал сетевых решений/LAN: Какие новинки были представлены на международной суперкомпьютерной конференции ISC’13 в Лейпциге?

Алексей Шмелев: Выставка ISC весьма репрезентативна с точки зрения знакомства с основными тенденциями на мировом рынке суперкомпьютерных вычислений. Поскольку это очень важное для нашей компании мероприятие, предоставляющее возможность продемонстрировать новейшие технологии, решения и реализованные проекты на международном уровне, мы участвуем в ней регулярно с 2010 года. Ключевыми особенностями наших решений, вызывающими особый интерес у пользователей, являются высокие показатели вычислительной плотности и энергоэффективности.

Представленное РСК обновленное решение обеспечивает энергетическую плотность 100 кВт в одном шкафу при производительности свыше 200 Тфлопс на стойку. Оно базируется на архитектуре «РСК Торнадо» с прямым жидкостным охлаждением всех электронных компонентов на стандартных серверных платах Intel S2600JF (изначально предназначенных для использования традиционного воздушного обдува), оснащенных процессорами Intel Xeon E5-2690 и новыми сопроцессорами Intel Xeon Phi 7120X.

Первое решение РСК, где использовались сопроцессоры Intel Xeon Phi, было представлено еще до их официального выпуска — в ноябре прошлого года. Более того, на тот момент мы уже реализовали два проекта с использованием данного решения — в МСЦ РАН и Южно-Уральском государственном университете. Эти первые за пределами США проекты с сопроцессорами Intel Xeon Phi до сих пор остаются единственными в Европе. Всего же в мире, согласно последней редакции рейтинга Top500 (июнь 2013 года), насчитывается 11 таких систем.

Де-факто показатель производительности 200 Тфлопс на стандартную стойку является мировым рекордом для архитектуры x86. Некоторые компании заявляют о достижении большей удельной производительности, но они используют, как правило, стойки с увеличенными габаритами (по сути, двойные).

 

LAN: Изменения коснулись только вычислительной части или затронули и систему охлаждения?

Шмелев: Очевидно, что большая вычислительная мощность предполагает большую плотность энергии. Соответственно, для ее поддержки потребовалось внести изменения в системы энергоснабжения и хладоснабжения, в коммуникационную составляющую и в вычислительные узлы с учетом использования на каждой плате двух сопроцессоров Intel Xeon Phi.

Однако каких-либо принципиальных изменений разработанная нами и используемая в текущих проектах компании архитектура «РСК Торнадо» не претерпела. С точки зрения стратегического развития это направление оказалось выбрано правильно — наши решения остаются конкурентоспособными вот уже несколько лет.

Иначе говоря, принцип охлаждения стандартных серверных плат с помощью специальных пластин остался прежним. Главное отличие нового решения на базе «РСК Торнадо» с Intel Xeon Phi связано с изменением геометрии вычислительного узла в результате добавления двух сопроцессоров. К узлу на стандартной плате с охлаждающей пластиной сверху добавились два сопроцессора со своей охлаждающей пластиной.

Архитектура «РСК Торнадо», при реализации без использования сопроцессоров, позволяет в одной стойке разместить 128 узлов. При наличии сопроцессоров их количество сокращается до 72, но, несмотря на это, производительность стойки возрастает в три раза.

 

LAN: Насколько уникальна архитектура «РСК Торнадо»? Обычно любое заслуживающее внимания решение немедленно копируется…

Шмелев: Похожие решения, без сомнения, есть, но прямых аналогов, способных продемонстрировать все достигнутые в «РСК Торнадо» очевидные преимущества для пользователей, включая применение только стандартных компонентов, высочайшую вычислительную и энергетическую плотность, а также рекордную энергоэффективность (PUE менее 1,06) мы не видели. Концепция охлаждения с помощью специальных пластин не нова, и не мы ее придумали. Впрочем, выделять одни пластины из всего решения неправильно — это целая инфраструктура, включая обвязку. Все кроется в деталях, и наше решение очень глубоко проработано — чтобы его скопировать, необходимо иметь очень высокую квалификацию. Как правило те, кто занимается копированием чужих образцов, ею не обладают.

Ведь недостаточно просто изготовить отдельный узел (на выставке можно было видеть такие экспонаты), необходим опыт внедрения и эксплуатации уже реализованных решений. У РСК накоплен опыт эксплуатации систем с жидкостным охлаждением с 2009 года, что дает нам колоссальное преимущество перед конкурентами при последующих разработках. Кроме того, имеется большой опыт создания всей инфраструктуры внутри вычислительного шкафа и вне серверной стойки. От нее во многом зависят и энергоэффективность, и надежность системы. Это тоже ноу-хау.

В свое время IBM выиграла контракт на сумму 30 млн долларов на создание системы с жидкостным охлаждением, но затем отказалась от него, хотя, казалось бы, у такой компании есть все необходимые ресурсы для создания подобного решения. Тем не менее, даже несмотря на наличие решений с жидкостным охлаждением, компания не смогла реализовать конкретную систему в соответствии с требованиями проекта.

Как подтвердили специалисты Intel (а они видят всю картину рынка), таких решений, как «РСК Торнадо» на базе стандартных серверных плат, в мире не делает никто.

 

LAN: Одним из преимуществ архитектуры «РСК Торнадо» называется высокая вычислительная плотность…

Шмелев: Используемая нами эффективная система жидкостного охлаждения позволяет полностью реализовать потенциал встроенной в процессоры Intel Xeon E5 технологии Intel Turbo Boost, благодаря которой при комфортном охлаждении процессор повышает тактовую частоту каждого ядра на дополнительные 400 МГц от номинальной. При использовании стандартных методов воздушного охлаждения процессор может работать в этом Turbo-режиме всего несколько тактов, после чего, чтобы избежать перегрева, возвращается к обычному режиму работы.

Система жидкостного охлаждения РСК — и это проверено в реализованных проектах — позволяет процессору находиться в режиме Turbo Boost постоянно, что дает 10-процентный прирост производительности. Таким образом, заказчик фактически бесплатно получает дополнительно 400 МГц производительности (на примере процессора Intel Xeon E5-2690). Измеренная вычислительная эффективность наших систем на тесте Linpack составляет 92%. Промышленных — не лабораторных — систем с таким показателем эффективности работы мне видеть не приходилось.

 

LAN: А в чем состоит преимущество охлаждения с помощью пластин по сравнению с другими способами жидкостного охлаждения?

Шмелев: Первые современные решения с жидкостным охлаждением систем HPC появились в 2009 году. На тот момент их предлагали всего три компании, и они воспринимались как экзотика. С ростом мощностей стало очевидно, что с помощью традиционных методов возникающие проблемы не решить. Уже сейчас воздушного охлаждения недостаточно для отвода тепла от наиболее мощных моделей серверных процессоров Intel — из-за этого их просто невозможно использовать.

Всего существуют три типа систем с жидкостным охлаждением, у каждого есть свои плюсы и минусы, но иногда имеющиеся преимущества не в состоянии компенсировать существующие слабые места. Так, иммерсионные системы имеют такой кардинальный недостаток, как низкая плотность: в ванную с маслом погружаются узел, стойка и т. п. — и плотнее ее сделать нельзя. Кроме того, не было проведено достоверных исследований о надежности работы оборудования в таких условиях. Поэтому Intel не дает гарантии на свои платы, если они используются с таким типом охлаждения. Не говоря уже о том, что возникает масса вопросов о способах обслуживания таких систем и замене вышедших из строя компонентов.

Кроме того, многие компании применяют так называемые бобышки, когда на отдельные элементы на плате надевается радиатор и к нему подводится множество трубочек, по которым подается жидкость для снятия тепла. Преимущество этого решения в дешевизне (подобный способ охлаждения давно используется в компьютерах для геймеров). Однако оно плохо масштабируется — если для одного, двух, десяти узлов его реализовать просто, то в случае суперкомпьютеров это очень сложно, ведь нужно напаять вручную огромное количество трубочек — на тысячи узлов.

Так, в одном из HPC-проектов на пайку таких трубок ушел целый год. Даже если все трубки будут припаяны надежно, при транспортировке могут появиться микротрещины. Далее, при инсталляции узла вполне возможно незначительное нарушение его геометрии, что тоже может привести к образованию микротрещин. В результате при запуске такого узла возникают протечки жидкости. К тому же такой способ не позволяет снять все тепло с платы, потому что система охлаждения на радиаторах и трубках охватывает только отдельные зоны выделения тепла. В результате решение оказывается не самым энергоэффективным.

Наконец, третий способ состоит в использовании охлаждающих пластин, которые накрывают всю плату. Такое решение предлагают несколько компаний, но все они, в отличие от РСК, используют нестандартные компоненты — платы собственной разработки. Как следствие, подобные конструкции оказываются дороже, поскольку изготавливаются ограниченными партиями, а на разработку необходимой платы уходит больше времени — ведь при смене процессоров каждый раз приходится делать новую. А надежность у такой платы меньше, поскольку она не тестировалась годами, как платы производства Intel. Все это создает дополнительные неудобства и ограничения для заказчика.

 

LAN: При такой плотности, мощности и стоимости оборудования протечки внутри шкафа абсолютно недопустимы. Исходя из уже накопленного опыта эксплуатации — какова надежность ваших решений?

Шмелев: Стопроцентно надежной не является, наверное, ни одна система. Но надо сказать, что в области жидкостного охлаждения больше мифов, чем реальных угроз. Так, автомобильный двигатель охлаждается жидкостью (для чего используется антифриз). Если машина качественно собрана, первые четыре-пять лет вы об этом и знать ничего не будете. Для суперкомьютера те же четыре-пять лет — типовой срок эксплуатации. Поэтому при качественном монтаже проблемы с протечками возникать не должны.

Естественно, разработанная РСК система охлаждения обладает многократным резервированием и мощными средствами мониторинга и индикации, что позволяет предотвратить сколько-нибудь серьезные протечки, способные нанести вред оборудованию. Могу сказать, что у наших заказчиков протечек не было.

Помимо прочего, система должна эксплуатироваться квалифицированным персоналом. Она оснащена таким количеством средств мониторинга и индикации, что в штатном режиме эксплуатации чрезвычайные ситуации практически исключены.

 

LAN: Какие требования предъявляются к площадке?

Шмелев: Предъявляемые требования — по температуре, влажности, наличию пыли — намного мягче, чем в случае использования систем с воздушным охлаждением. Решение на базе архитектуры «РСК Торнадо» можно поставить в любое неподготовленное помещение. В вычислительных стойках РСК отсутствуют движущиеся части (на плате нет вентиляторов, а в качестве накопителей используются твердотельные диски), что обеспечивает повышенную надежность. Какие-либо вибрации отсутствуют, а значит, уровень шума минимальный. Вычислительная стойка не выделяет тепло в комнату и не забирает его оттуда. Единственное, что выдает ее присутствие, — мерцающие индикаторы. Поэтому стойку можно установить в ту же комнату, где находятся сотрудники, что никак не повлияет на их работу.

Что касается нагрузки на пол, то в соответствии с требованиями к жилым помещениям перекрытия должны выдерживать вес 300–400 кг на 1 м2. Стойка с оборудованием создает нагрузку 750 кг на 1 м2, но мы ставим обычную разгрузочную раму, и ни в одной из реальных инсталляций это не было лимитирующим фактором. Например, наша система установлена в Росгидромете, здание достаточно старое, но за несколько лет эксплуатации никаких проблем не возникало.

 

LAN: Как отмечалось ранее, система должна быть смонтирована качественно. Кто осуществляет инсталляцию?

Шмелев: Какие-то не ключевые для нас работы, где нужны специалисты очень узкой специализации, мы отдаем на аутсорсинг — делать их самим нерентабельно и бессмысленно. Так, например, чиллеры, краны, трубы мы не производим — это стандартное, доступное на рынке оборудование, для его доставки и установки привлекаются подрядчики. Но сборку и тестирование вычислительной инфраструктуры и систем охлаждения внутри шкафа осуществляют только наши специалисты. При этом жестко контролируется выполнение всех остальных работ, поскольку, согласно контракту с заказчиком, мы несем ответственность за реализацию всего проекта.

 

LAN: Не ограничивается ли в результате распространение вашего решения и не означает ли это, что его можно отнести к нишевым?

Шмелев: Рынок HPC в принципе не очень широк. Суперкомпьютеры из списка Top50 (СНГ) и даже Top500 (мировой рейтинг) нельзя назвать массовым продуктом. Мы готовы рассматривать передачу каких-то задач нашим партнерам, но, безусловно, хотим быть уверены, что их специалисты будут очень квалифицированны и не скомпрометируют ни наш бренд, ни качество наших технологий.

Такая потребность может возникнуть, например, при выполнении проекта за пределами России. Любой заказчик, естественно, хочет работать с местной компанией, и поддержка должна быть доступна на месте. При заказе подобного проекта мы будем работать с локальным партнером, которого сертифицируют наши специалисты. Собственно, и наше участие в международных выставках, например ISC, нацелено на поиск зарубежных заказчиков и партнеров. Пока до конкретных проектов за пределами России дело не дошло, но с каждым годом интерес западных компаний к решениям РСК возрастает. Мы уже ведем переговоры с некоторыми потенциальными заказчиками из других стран.

 

LAN: В вашей продуктовой линейке есть решения классов микроЦОД и мини-ЦОД. Есть ли применение и для них, помимо суперкомпьютеров?

Шмелев: Наши энергоэффективные решения могут использоваться не только в классическом сегменте HPC, но и для других высоконагруженных вычислений. Рендерная ферма для медийной студии, занимающейся компьютерной графикой, не является суперкомпьютером в классическом смысле, но решаемые ею задачи требуют высокопроизводительных вычислений. Таким образом, решения РСК позиционируются не только для суперкомпьютеров.

У нас есть примеры проектов в корпоративном сегменте. Например, промышленные предприятия приобретают наши решения для обеспечения своих бизнес-процессов и проектирования новых изделий. Они могут использоваться как компактная энергоэффективная серверная ферма для предоставления услуг по размещению оборудования (colocation), когда требуется экономия места и энергии.

 

LAN: А в какой мере данное решение востребовано провайдерами?

Шмелев: Интерес есть. На недавней выставке в Лейпциге к нам подходили коллеги из Восточной Европы, которые очень хотят установить наше решение в своем ЦОД. Несколько запросов есть и из России. Как я уже упоминал, решения на базе архитектуры «РСК Торнадо» позволяют экономить место, а площади для установки оборудования в Европе очень дороги. Кроме того, общая стоимость владения резко падает за счет снижения электропотребления. Думаю, в этом сегменте у нашего решения очень хорошее будущее.

Кроме того, интерес к решениям РСК проявляют и компании, предоставляющие услуги поискового сервиса в Интернете. Они используют стандартные низкопроизводительные серверы — закупают их в большом количестве и часто меняют, потому что оборудование регулярно выходит из строя, причем его не ремонтируют, а просто выбрасывают. Для таких заказчиков ценно то, что наше решение «живет» долго, так как электроника хорошо охлаждается и не используются жесткие диски, а последние — одни из наиболее чувствительных компонентов. При этом отказ модулей памяти происходит намного реже благодаря применению высокоэффективного жидкостного охлаждения.

 

LAN: Может ли клиент приобрести не полностью заполненную стойку и надо ли будет ему привлекать ваших специалистов для установки дополнительных узлов?

Шмелев: Если с самого начала он заявит о желании сделать задел на будущее, вся инфраструктура будет спроектирована «на вырост», после чего останется только установить готовые узлы в эту стойку. В целом же решение на базе архитектуры «РСК Торнадо» легко расширяется, поскольку каждый узел независим, его можно легко вынуть и вставить в режиме горячей замены. Однако мы несем ответственность не за один узел, а за все решение — все-таки это целостный кластер. Поэтому пока предпочитаем такую работу делать сами, поскольку хотим быть уверены, что система правильно настроена. Конфигурирование столь сложной системы — не самое простое занятие, и не всегда специалисты заказчика обладают необходимой квалификацией для выполнения подобных работ.

 

LAN: Заявленное значение PUE составляет 1,057. Это теоретическое значение или реально достигаемое?

Шмелев: Оно было замерено в системе, установленной в Росгидромете. Причем эта высококритичная система работает в круглосуточном режиме.

 

LAN: Является ли экономия энергии значимым фактором для российских заказчиков при выборе решения?

Шмелев: Динамика роста цен на электроэнергию просто ошеломляющая, и ситуация, с точки зрения потребителя, будет только ухудшаться. Я возьму на себя смелость процитировать известного эксперта в отрасли HPC Джека Донгарру (одного из авторов рейтинга Top500), который во всех своих докладах приводит следующую цифру: стоимость одного мегаватта электроэнергии в год составляет один миллион долларов США. Хотя эти данные рассчитаны для Северной Америки, но расходы на электроэнергию в России сейчас сопоставимы. Мощные суперкомпьютеры потребляют несколько мегаваттов в год, поэтому можно легко представить, какова стоимость их эксплуатации.

Мне очень нравится один пример. У одного из наших заказчиков — впрочем, как и у многих — на момент начала проекта был очень ограниченный бюджет. Но затраты на электроэнергию он рассчитал исходя из стоимости эксплуатации воздушной системы охлаждения. Благодаря установке нашей системы с эффективным жидкостным охлаждением только на электроэнергии он сэкономил столько, что через год смог докупить все, чего не мог себе позволить в начале проекта. Такие вещи, в отличие от абстрактных киловатт-часов, любой руководитель компании понимает очень хорошо.

Наши системы с жидкостным охлаждением работают в России с 2009 года, и, как мы посчитали, за это время заказчики сэкономили уже 9 млн кВт×ч электроэнергии.

 

LAN: Как повышение максимально допустимой температуры в ЦОД в нормативах ASHRAE может повлиять на востребованность ваших решений?

Шмелев: Повышение температуры в ЦОД позволяет дольше использовать фрикулинг, но необходимости охлаждения это не отменяет. Более того, не снимаются вопросы о высокоплотных решениях и вычислительной эффективности. Поэтому я не вижу никаких ограничений для распространения наших решений и считаю, что они будут все более востребованными.

В результате последнего обновления архитектуры «РСК Торнадо» производительность комплекса в стойке превысила 200 Тфлопс. Что это означает на практике? Раньше, чтобы создать систему производительностью 1 Пфлопс (а эта цифра до сих пор остается своеобразным рубежом), нужны были десятки вычислительных стоек, большое помещение и много электроэнергии. При текущем уровне развития нашей архитектуры достаточно всего пяти стоек, каждая площадью 0,64 м2, то есть система может без труда разместиться в небольшой переговорной. Цифры говорят сами за себя.