Суперкомпьютер как конкурентное преимущество

Чтобы побеждать в конкурсах на поставку новейших двигателей для оборонной промышленности, НПО «Сатурн» опирается на технологии создания электронных моделей будущих изделий и активно применяет суперкомпьютерные кластеры для конструкторских и инженерных рас

«Общие инвестиции в создание кластера составили около 100 млн. руб.», Александр Пионтковский, директор по информационным технологиям НПО «Сатурн» НПО «Сатурн», специализирующееся на разработке и производстве газотурбинных двигателей для авиации, судов ВМФ, а также энергогенерирующих и газоперекачивающих установок, обладает самой крупной в авиационной отрасли корпоративной информационной системой. Ее использует более 7,5 тыс. сотрудников в семи городах России на девяти производственных площадках, а в ИТ-службе предприятия работает около 300 специалистов.

Несколько лет назад весь процесс проектирования двигателей перенесли на вычислительные платформы, и за три года в полностью виртуальной среде родились двигатели SaM146 и АЛ-55И, которые после сборки первого экземпляра подтвердили соответствие требованиям по аэродинамике и прочности.

С переходом на виртуальное проектирование объем расчетных работ увеличился в 160 раз и достиг более 7 тыс. расчетов в год. Вместе с этим сократились сроки создания новых изделий и их вывода на рынок. Теперь на создание газотурбинного двигателя от проектирования до сертификации уходит четыре-пять лет вместо двенадцати-пятнадцати в 70-х и 80-х годах.

Когда в 2005 году в НПО «Сатурн» был построен мощнейший суперкомпьютер с пиковой производительностью 922 Гфлопс, техническим специалистам предприятия казалось, что его ресурсов хватит лет на пять, а то и на десять. Но прошел всего год, и система оказалась загруженной на 100%. Тогда-то и встал вопрос о приобретении гораздо более производительной машины. От второго суперкомпьютера в «Сатурне» ждали многократного ускорения расчетов и возможности проводить новые их виды — например, с использованием временных координат.

В августе нынешнего года долгожданная система появилась. В производственную эксплуатацию был введен кластер на базе решения IBM System Cluster 135 мощностью 14,3 ТFLOPS, получивший название «АЛ-100» — в честь известного конструктора авиадвигателей Архипа Люльки. Основу кластера составили 168 лезвийных серверов HS21 на базе 4-ядерных процессоров Intel Xeon, объединенных высокоскоростной сетью DDR Infiniband. На этих серверах установлены в общей сложности 336 процессоров Xeon 2,66 ГГц (их общее число ядер достигает 1344) и оперативная память суммарной емкостью 1,344 Тбайт. Емкость системы хранения в кластере составляет 28,8 Тбайт. Предшествовал появлению суперкомпьютера проект, растянувшийся почти на полтора года.

С чистого листа

На первый взгляд может показаться, что в «Сатурне» намеренно пошли про проторенной дорожке: поставщиком аппаратного обеспечения, как и при создании первого кластера, была корпорация IBM, а генеральным подрядчиком — московский системный интегратор «Крок». В действительности же обеим компаниям пришлось, по сути, заново доказывать свою пригодность для выполнения поставленных задач.

В апреле—августе 2007 года прошел конкурс, в котором IBM состязалась с двумя другими разработчиками суперкомпьютеров — Hewlett-Packard со своей платформой и российской «Т-Платформы», предложившей решение Silicon Graphics. «На первом этапе мы не делали экономической оценки, хотя и были предварительные предложения, — вспоминает директор по информационным технологиям НПО “Сатурн” Александр Пионтковский. — В первую очередь мы оценивали, насколько участвовавшие в конкурсе суперкомпьютерные системы способны решить наши задачи».

«Т-Платформы» выбыла из конкурса первой, так как у нее, по словам Пионтковского, не были готовы важные для «Сатурна» подсистемы. В июне началось соперничество между HP и IBM. Обе компании приступили к удаленному тестированию упрощенных прототипов кластера с уменьшенным расчетным полем и системой хранения. «Надо сказать, что в предложенных первоначально конфигурациях ни одна система тестов на производительность подсистемы хранения не прошла. Участникам конкурса пришлось наращивать конфигурации», — отмечает Юрий Зеленков, заместитель директора по ИТ НПО «Сатурн».

Окончательные предложения IBM и HP, по мнению Пионтковского, оказались идентичными как по техническим показателям, так и по цене. Выбор в пользу IBM был сделан лишь потому, что в первом суперкомпьютере «Сатурна» использовалась ее параллельная файловая система GPFS и планировщик вычислительных заданий IBM Tivoli Workload Scheduler LoadLeveler. Выбор в пользу IBM помог избежать расходов на обучение сотрудников работе с управляющим кластером программным обеспечением.

В сентябре начался другой конкурс, длившийся вплоть до ноября. На этот раз нужно было спроектировать инженерную инфраструктуру. Из-за недостатка пространства в помещении, где был установлен первый суперкомпьютер, а также чтобы избежать нарушения теплообмена, под «АЛ-100» пришлось отвести другие площади: 130 кв. м под серверное помещение, 30 кв. м
под комнату для инфраструктуры и 20 кв. м под комнату системных администраторов. Раньше в этих помещениях были установлены дизель-генераторы, поэтому их дополнительное укрепление не потребовалось.

За право стать поставщиком инженерной инфраструктуры боролись четыре компании, две из которых предлагали решение с системой воздушного охлаждения, а две другие — водяного. Охладить «АЛ-100» с помощью воздуха — как старый кластер — не удалось. В конечном счете остановились на решении APC InfraStruXure с водяным охлаждением, кондиционерами InRow и изолированным «горячим коридором». В него же вошла интеллектуальная система энергообеспечения. «Нам очень понравилась комплексность этого решения. В свое время мы намучились с предыдущим решением (Включавшим раздельные системы охлаждения и электропитания. — Прим. автора.), — поясняет Пионтковский. — Мы сначала выбирали техническое решение и однозначно остановились на решении APC, а потом уже провели конкурс среди российских поставщиков этого решения, в котором победила компания “Крок”».

Весной 2008 года оба подпроекта (по созданию кластера и инженерной инфраструктуры) слились в один. В то время как на заводе в Рыбинске велись работы по подготовке серверной комнаты, длившиеся с января по июнь, в тестовой лаборатории «Крока» был развернут сам кластер, на котором шла установка программного обеспечения, осуществлялись первоначальные настройки и тестировалась производительность системы хранения. Как только серверное помещение было готово, начался монтаж суперкомпьютера. В августе он был запущен в эксплуатацию.

«Непосредственно над созданием кластера трудились шесть наших специалистов и три из “Крока”. Еще примерно по десять специалистов с каждой стороны занимались различными подсистемами», — рассказывает Зеленков. Еще несколько десятков специалистов вели монтажные работы.

Прямые расходы составили 70 млн. руб. Общие инвестиции в создание кластера Пионтковский оценивает в 100 млн. руб. (включая затраты на разработку собственного программного обеспечения, которое займет приблизительно 30% всего ПО, устанавливаемого на кластер). Из этой суммы 40% приходится на подпроект по инженерной инфраструктуре. Несмотря на весьма солидные затраты, возврата инвестиций в «Сатурне» ждут уже через полгода.

Умудренные опытом

Реализацией проекта, похоже, остались довольны все стороны. По мнению заместителя директора департамента высокопроизводительных систем «Крок» Романа Зейбота, восемь месяцев, ушедшие на работу непосредственно над суперкомпьютером, — это минимально возможный срок для создания таких систем. Уникальным назвал Зейбот тот факт, что практически сразу удалось подобрать нужную конфигурацию.

В «Сатурне» считают, что успех стал возможен во многом благодаря опыту, полученному в 2005 году. «Это наша вторая работа по суперкомпьютеру, и мы уже знали все проблемы и болячки, которые у нас будут, — отмечает Пионтковский. — Больших проблем и каких-то неожиданных для нас новостей не было. Мы действительно очень четко занимались проработкой. Например, решение, которое предложила корпорация IBM, тестировали в специальном центре во Франции. Были мелкие проблемы, связанные со строительной частью, комплектовкой, еще с чем-то новым, но системных рисков не было никаких».

Подробнее об уроках, полученных в ходе строительства первого суперкомпьютера, рассказывает Зеленков: «Выяснилось, что системы такого рода требуют тщательного выстраивания всего стека программного обеспечения. Драйвер Infiniband работает с одной версией Linux, файловая система — с другой, прикладное ПО требует третьей. Два-три месяца тогда было потрачено на выстраивание и согласование всего этого стека ПО, обновление встроенного ПО, серверов, коммутаторов и т.д. Кроме того, предыдущий кластер имел неоднородную архитектуру, в которой сочетались узлы на процессорах Xeon и Itanium. Это было требование прикладного ПО (системы для аэродинамических расчетов). Соответственно, все проблемы увеличивались в два раза. На новом кластере обеспечена однородная процессорная архитектура. Тогда же, три года назад, также выяснилось, что системы такого рода имеют период приработки. Первые три месяца активно выходили из строя различные аппаратные компоненты. По некоторым элементам доля отказов составила 30%».

Всех этих проблем, по словам Зеленкова, удалось избежать во второй раз, так как кластер был изначально развернут в лаборатории компании «Крок», где и проходила большая часть работ по установке ПО, тестированию и замене аппаратного обеспечения.

Продолжение следует

На этот раз в «Сатурне» не ждут, что новая машина, которая уже загружена на 25%, надолго решит все проблемы. Ресурсов «АЛ-100», по мнению Пионтковского, хватит года на три. Все это время использовать их предстоит не только заводу в Рыбинске, но и инженерным центрам в Москве и Перми. Еще в 2006 году в «Сатурне» разработали систему удаленного доступа к суперкомпьютеру через Internet посредством VPN-каналов. «Основная проблема состояла в том, чтобы обеспечить работу систем визуализации расчетных данных по каналу с пропускной способностью 1 Гбит/cек, — вспоминает Зеленков. — Ни один из системных интеграторов не смог предложить нужное решение, поэтому мы построили его сами на основе продукта Nomachine NX Free Edition, который обеспечивает сжатие протокола X11».

Не успел «АЛ-100» начать работу, как уже пошли разговоры о строительстве третьего суперкомпьютера, тем более что 60% новой серверной комнаты все еще пустует. Пионтковский обещает, что уже в ближайшие месяцы там обязательно что-нибудь появится. В любом случае решено повысить мощность «АЛ-100» до 15,5 ТFLOPS. Но и старый суперкомпьютер пока «списывать» не будут.

Главным назначением «АЛ-100» должна стать разработка двигателя пятого поколения для перспективного авиационного комплекса фронтовой авиации, за право на проектирование которого «Сатурн» борется с Московским машиностроительным производственным предприятием «Салют». У последнего недавно также появился кластерный суперкомпьютер, построенный компанией «Ай-Теко» на базе оборудования Fujitsu-Siemens, но с гораздо меньшей производительностью. Чтобы обойти конкурента, на «Салюте» собираются отдать под перспективный двигатель 50—60% ресурсов «АЛ-100».

Юлия Дюкова — корреспондент еженедельника Computerworld Россия; dyukova@osp.ru