На пути к гипермасштабируемым ЦОД

Для поддержки публичных облаков, предоставляющих сервисы Web 2.0, необходимы гипермасштабируемые ЦОД, имеющие в своем составе десятки и сотни тысяч серверов. Создание таких ЦОД невозможно без новых системных решений — в природе нет сложных организмов, созданных из мириад элементарных, в любом можно найти какую-то систему управления, обеспечивающую ему автономное существование. Однако в традиционных ЦОД пока превалирует простая арифметическая сумма серверов с весьма слабой «нервной системой». В результате до 75% затрат на поддержку работы таких инфраструктур уходит на управление. В ответ на этот вызов возникло новое направление — гипермасштабируемые ЦОД, создаваемые, в частности, в проекте Moonshot, компании HP.

Для поддержки внешних облаков и Web 2.0 необходимо строить ЦОД нового типа, однако строгого определения того, какие именно ЦОД попадают в категорию гипермасштабируемых, нет. Этот термин появился всего два года назад, и обычно его относят к однородным по своему составу, или, как теперь говорят, гомогенным «ИТ-фабрикам», имеющим в своем составе десятки и сотни тысяч серверов. Хотя количество поражающих своими размерами ЦОД относительно невелико, тем не менее они уже сейчас потребляют примерно 15% той энергии, которую расходует весь объем выпускаемых серверов, что свидетельствует о формировании нового сегмента рынка со своими специфическими требованиями к аппаратуре, к отношению с поставщиками и др. Отличительная черта гипермасштабируемых ЦОД — управление. Доля затрат на закупку оборудования и энергию для ЦОД составляет 8–10%, но при этом 75% уходит на управление, причем расходы на управление виртуальными машинами растут в большей пропорции, поскольку их число (и, следовательно, системная сложность) увеличивается быстрее, а на управление физическими серверами почти стабилизировались. Столь непомерно высокая и непродуктивная затратность свидетельствует об отсутствии системного подхода и вынужденном предпочтении утилитарных решений. Здесь срабатывает старая мина, заложенная законом Мура, — на протяжении десятилетий быстрый количественный рост избавлял от необходимости поиска качественно новых решений.

Гипермасштабируемые ЦОД принципиально отличаются от классических корпоративных ЦОД, поскольку создаются для разных целей (см. табл.).

Для гипермасштабируемых ЦОД критически важна непрерывность обслуживания — даже минутная остановка таких сервисов, как Twitter или Facebook, учитывая их массовость, вызывает широкую общественную реакцию. Моральное старение таких ЦОД происходит гораздо быстрее, чем корпоративных, а скорость развития существенно выше, поэтому время проектирования и ввода в эксплуатацию должно быть значительно меньше. Отсюда же следует строгая дисциплина поставки — задержки и сбои исключены, имеется безусловная ответственность за поставляемые изделия из одних рук.

Даже простые классические серверы в конструктиве 1U снабжаются средствами обеспечения надежности, имеют запас по мощности, их системы охлаждения рассчитаны на работу в индивидуальном режиме, что делает их излишне дорогими для массового использования. В гипермасштабируемом ЦОД серверы не расширяются, надежность обеспечивается на системном уровне, а охлаждается целиком вся стойка.

Удовлетворение потребностей владельцев гипермасштабируемых ЦОД требует адаптации уже существующих технологий и создания принципиально новых, чему и посвящен проект Moonshot, в основе которого лежит идеология конвергентной инфраструктуры HP, предполагающая совместное использование сетевого оборудования, систем хранения данных, питания и охлаждения в гипермасштабируемых средах, включающих тысячи серверов. Проект включает три инициативы. Прежде всего, это платформа для разработки и тестирования приложений HP Redstone Server Development Platform; сейчас в этих серверах используются процессоры Calxeda EnergyCore с ядром ARM Cortex, в дальнейшем планируется опробовать Intel Atom. Во-вторых, демонстрационная лаборатория HP Discovery Lab, своеобразный полигон для тестирования заказчиками своих приложений на платформе HP Redstone. И наконец, партнерская программа HP Pathfinder Program, адресованная независимым разработчикам ПО и технологическим партнерам и призванная создать условия для стимулирования разработки элементов Moonshot в рамках открытых отраслевых стандартов.

Микросерверы для современных нагрузок

За 60 лет существования компьютеров повторялась ситуация, когда сначала для решения новой задачи используют универсальные, а затем специализированные системы, — сейчас на очереди появление специализированных серверов для поддержки интернет-приложений. Среди поставщиков таких серверов — компания SeaMicro.

Леонид Черняк

Идею создания специализированных серверов для гипермасштабируемых ЦОД дальше других продвинула компания-стартап SeaMicro, и сегодня модель SM10000-64 перепродается, в том числе под брендом Dell. В HP пошли аналогичным путем, начав сотрудничать с компанией Calxeda, созданной несколькими ветеранами отрасли и получившей свое имя в соответствии с названием на латыни камня-голыша, которым, согласно библейской легенде, Давид поразил Голиафа, — явный намек на попытку противоборства с гигантами процессорной индустрии.

Для первых моделей серверов Redstone выбраны процессоры Calxeda EnergyCore ECX-1000 Series, которые можно назвать сервером на чипе (Server-on-Chip, SoC), поскольку помимо процессорных ядер на кристалле имеются и другие компоненты, необходимые для сервера. В составе ECX-1000 — четыре ядра ARM Cortex-A9, работающих на частоте от 1,1 ГГц до 1,4 ГГц, со встроенными процессорами вещественной арифметики и технологией NEON (расширенный набор инструкций для обеспечения в будущих процессорах ARM более высокой производительности, эффективного выполнения мультимедиа, включающего кодирование/декодирование видео, 3D-графику, обработку речи, декодирование и т.п.), а также технологией TrustZone, обеспечивающей безопасное выполнение ОС, гарантирующее, что данные будут защищены. Дополнительные схемы EnergyCore Management Engine служат для управления использованием энергии, при возможности уменьшая и без того «малоштатное» потребление с 5 до 1,5 Вт. Имеются два кэша первого уровня по 32 Кбайт для команд и данных, а также кэш второго уровня с ECC размером 4 Мбайт.

В архитектуре EnergyCore ядра центрального процессора сочетаются c сетевыми контроллерами, контроллерами памяти и поддержкой ввода-вывода, но помимо этого в составе чипа есть системный коммутатор EnergyCore Fabric Switch. Она обеспечивает масштабируемость за счет объединения отдельных процессоров в кластер по каналам с пропускной способностью 10 Гбит/с, причем на это объединение не накладывается серьезных ограничений — процессоры можно собрать в толстое дерево или в двумерный тор. ECX-1000 комплектуется всем необходимым набором контроллеров для управления памятью, периферией и сетевыми подключениями.

На следующем уровне интеграции находится карта Quad-Node EnergyCard, представляющая собой законченный кластер из четырех процессоров. Эту карту можно рассматривать как аналог сервера-лезвия, карты устанавливаются в шасси EnergyCore Server Chassis. Такая конструкция обеспечивает физическую возможность для масштабирования.

Для Redstone было разработано шасси EnergyCore Server Chassis на основе платформы HP SL6500. В результате удалось достигнуть рекордного показателя 72 сервера на 1U, это на 20 % больше, чем в собственной конструкции Calxeda. Всего в стойку можно вместить до 2800 серверов. При половинном заполнении (1600 серверов) в стойке можно разместить до 192 твердотельных накопителей или 96 жестких дисков размером 2,5 дюйма. Такая стойка потребляет чуть меньше 10 кВт. Для ряда задач сравнимую производительность можно достичь с использованием 400 двухсокетных серверов Xeon, которые бы потребляли на порядок больше энергии и стоили втрое дороже.

Гипермасштабируемые ЦОД

Пол Сантелер: «Владельцам гипермасштабируемых ЦОД нужны принципиально новые решения»

Подразделение HyperScale департамента HP Industry Standard Servers and Software, руководимое Полом Сантелером, предлагает новый системный подход к созданию гипермасштабируемых ЦОД, исключающий утилитарные решения. Сантелер рассказывает о развитии нового направления в компьютерных технологиях, связанного с поддержкой облаков и сервисов Web 2.0.

Какова роль подразделения гипермасштабируемых компьютерных систем в общей производственной программе HP?

В задачу подразделения HyperScale входит поставка серверов для самых крупных пользователей, сфера деятельности которых связана с Web (поиск, услуги, социальные медиа и т. п.). Создание отдельного подразделения вызвано специфичностью запросов этой категории клиентов (среди них, например, провайдеры четырех из пяти наиболее популярных поисковых машин), существенно отличающихся от запросов традиционных корпоративных пользователей. Во-первых, таким заказчикам требуются не просто большие объемы оборудования, а неограниченные возможности для горизонтального масштабирования, вызванного экспоненциальным ростом запросов со стороны их клиентов. Во-вторых, ИТ в обычных предприятиях являются средствами поддержки какого-то их основного бизнеса, а для этой категории компаний ИТ — основное средство производства. Отсюда следует принципиально иное отношение к затратам на приобретение оборудования, на развертывание, эксплуатацию, энергию и прочее, которые для бизнеса первичны. Эта категория клиентов использует минимальное количество приложений, возможно всего одно, зато они отлично его знают, и им нужна платформа, которая бы их ни в чем не ограничивала. Они способны за пару часов ввести в строй нужное количество серверов без какого-либо участия сторонних организаций. Специализация на одном-единственном приложении приводит к тому, что стандартные универсальные серверы не подходят — таким клиентам нужны заказные серверы, предельно точно адаптированные к специфическим нуждам. Но при этом их заказы бывают настолько велики (десятки и сотни тысяч серверов), что экономически оправданно проектировать и производить серверы по индивидуальному заказу. Все это в совокупности и сделало необходимым выделение бизнеса, связанного с ними, в отдельное подразделение. Мы занимаемся проблемой высоких нагрузок примерно пять лет, начало было положено группой людей, проанализировавших состояние формирующегося сегмента рынка, рост которого на ближайшие годы мы оценили в 25–30%.

Начав с серверов стандартной архитектуры от ведущих поставщиков, в Google со временем перешли на серверы собственной конструкции, выпуск которых измеряется сотнями тысяч...

Нам приходится иметь дело с большим разнообразием подходов, чем у Google. Например, условия в Китае и Северной Америке отличаются по допустимой тепловой нагрузке на стойку. Другой пример: система может быть многоуровневой, и на каждом уровне предпочтительно использовать соответствующий ему тип сервера. Если уровней три, то на переднем фронте нужны серверы, способные быстро работать с веб-страницами, на втором требуются серверы, адаптированные к работе с базами данных и другими приложениями, а на третьем — к работе с архивами видео- и фотоизображений или же с распределенными системами наподобие Hadoop или Cassandra. Мы создаем специализированные серверы для каждого из уровней, учитывающие региональные особенности и особенности приложений.

Кто еще работает на этом рынке?

Это в первую очередь группа Dell Data Center Solutions и IBM, но не следует также забывать и китайские компании, например Huawei. Важно подчеркнуть, что формируемый сегмент не составляет конкуренции классическим корпоративным серверам — развитие двух направлений будет происходить параллельно. Более того, в новом сегменте будут складываться совершенно иные отношения с клиентами, и здесь нет и не может быть внутренней конкуренции между «старыми» и «новыми» серверами. Важно подчеркнуть, что в последние годы рынок провайдеров интернет-услуг очень изменился: теперь на нем действуют гиганты, и мы работаем не на абстрактного потребителя, а на конкретных заказчиков.

В прессе встречаются отдельные упоминания о проекте Moonshot как об одной из составляющих деятельности подразделения HyperScale.

Серверы, создаваемые в рамках проекта Moonshot, предназначаются для широкого круга приложений и способны перекрыть один или два уровня запросов крупного заказчика, но не более, а главное, они способны удовлетворить тех, для кого важнее всего горизонтальное масштабирование. Их создание подчинено стремлению сдержать рост потребления энергии. Ежеминутно в Интернет загружается более 130 тыс. фотографий и примерно столько же приложений. Чтобы справиться с этими потоками в том и другом направлении, необходимо развертывать ежедневно не менее 7 тыс. новых серверов, а изменение парка телефонов в сторону смартфонов только усилит эти потребности. Несложно представить, к каким энергетическим затратам приводит такой гигантский парк серверов. Однако большую часть нагрузки на серверы составляют приложения, не требующие интенсивной работы процессора, — это антиподы выокопроизводительным вычислениям и многим бизнес-приложениям. Выбирая соответствующие им процессоры, мы можем уменьшить энергопотребление, приемлемым может быть ограничение частоты до 1,4 ГГц по сравнению с 4 ГГц в мощных процессорах. Суть проекта Moonshot состоит в уменьшении удельного потребления и сокращении числа стоек примерно вдвое, что приводит и к дополнительной экономии на инфраструктуре (помещения, кабели, кондиционирование и др.).

Moonshot — шаг в направлении к гипермасштабируемым компьютерным системам. Его основу составляют серверы с низким энергопотреблением и консолидированная (федеративная) архитектура. Под федерацией мы понимаем стремление объединить все инфраструктурное многообразие сервера — стойки, шасси, кабели питания, сетевые кабели, систему управления и все остальное — в одну микросхему, построить сервер на чипе. Далее мы объединяем огромное число таких серверов и получаем инфраструктуру, в которой физически объединены все ресурсы, она более эффективна с точки зрения потребляемой энергии, занимаемого пространства и стоимости. Мы начинаем с процессоров ARM, в планах — x86, возможны и другие, в том числе и графические процессоры (GPU).

В процессе эволюции после одноклеточных появились многоклеточные, представляющие собой не арифметическую сумму единообразных клеток, а качественно новый организм. Что вы делаете на системном уровне?

В мире наблюдается удивительная синхронность — одновременно с нашей работой, направленной на миниатюризацию серверов, идет огромный прогресс в области технологий хранения данных, которые сейчас ассоциируются с дисками, причем настолько прочно, что современные накопители мы называем твердотельными дисками. Здесь прогресс невероятен, и очевидно, что не за горами полный отказ от какой-либо механики и сменных деталей. ЦОД недалекого будущего можно представить как монолитный куб, залитый пластиком. У него будет два разъема — один для подачи энергии, другой для обмена данными.

Полвека назад произошел переход от навесного монтажа с отдельными триодами, диодами и т. п. к интегральным микросхемам, а позже к микропроцессорам. Теперь единицей интеграции становится сервер, а что дальше?

Внимание ИТ-специалистов сегодня приковано к проблеме Больших Данных, и наш подход вполне соответствует ее решению: применим он и для работы с неструктурированными данными. Потребность в решении задач, связанных с Большими Данными, возрастает лавинообразно. Один из наших ключевых заказчиков собирается создать огромный кластер Hadoop с единственной целью — проводить анализ того, как посетители пользуются ресурсами сайта. Оказывается, результаты такого анализа критически важны для их бизнеса. Организации этого уровня создают специализированные команды, ориентированные на анализ данных. Но не всем это доступно, и здесь открывается новая ниша по предоставлению средств для анализа Больших Данных тем, кто не может создавать собственные аналитические отделы. При этом возникает масса новых задач. Например, обычные технологии восстановления данных работают до определенного предела, за которым необходимые для восстановления данных время и силы становятся неприемлемыми, и требуется принципиально иная стратегия, прежде всего иная архитектура серверов. Что касается ПО, то можно говорить о двух основных направлениях. Первое — ПО, обеспечивающее автономию, то есть динамическое изменение конфигураций, динамическую настройку в соответствии с изменениями нагрузки. Второе — все, что связано с неструктурированными данными.