Инновации мегаЦОД

rob

«Великий потоп» данных – экспоненциальный, продолжительный рост объемов информации во всем мире – обуславливает масштабную и ускоряющуюся эволюцию ЦОД. Несмотря на свою недолгую историю, на протяжении последних лет мегаЦОД, обеспечивающие веб-хостинг, соцсети и порталы для онлайн-торговли, демонстрировали экспоненциальный рост и теперь составляют около 25% мирового рынка серверов. В процессе своего развития они стали первопроходцами в деле внедрения ИТ-инноваций и продолжают эволюционировать, чтобы соответствовать постоянному росту объемов данных.

«Великий потоп», изменения в технологиях, динамика ведения бизнеса и финансовые потрясения последних лет заставляют корпорации пересматривать, что и как они покупают. Компании ищут ответы на свои вопросы, имея перед глазами пример мегаЦОД, а также стараются воспроизвести архитектуры мегаЦОД в своих частных облаках, крупных вычислительных кластерах и приложения для аналитики «больших данных». Мега-ЦОД стали своеобразными полигонами для испытания приемов повышения эффективности, экономичности, масштабирования и монетизации данных.

Анатомия мегаЦОД

МегаЦОД, которые используют такие компании, как Facebook, Amazon, Google, а также китайские гиганты вроде Tencent и Baidu, объединяют в себе несколько различных платформ для выполнения ряда задач, включая хранение данных, управление базами данных, аналитику, анализ поисковых запросов или графиков, а также обеспечение работы веб-серверов. Масштабы таких ЦОД поражают: мегаЦОД обычно состоит из порядка 200 000 – 1 000 000 серверов, в которых от 1,5 до 10 миллионов накопителей.

Самые крупные мегаЦОД используют решения LSI для флэш-технологий, адаптеры HBA, инфраструктуру на основе SAS и RAID-решения, чтобы соединить все эти накопители, благодаря чему компания LSI имеет практический опыт, позволяющий ей оценить, с какими проблемам сталкиваются такие организации, какие архитектурные решения они пробуют внедрить для решения общеизвестных проблем.

Серверы в мегаЦОД обычно объединены в кластеры по 20-2000 узлов на кластер. В зависимости от специфики своих задач, сервер может содержать только загрузочные накопители, незащищенные накопители прямого подключения для дублирования данных из различных географических локаций или защищенные RAID-массивы для баз данных и данных транзакций. Так как все эти приложения разнесены по кластерам, сбой в одном узле может спровоцировать сбой целого кластера. Поэтому отключить один сервер и распределить полную нагрузку между 99% оставшихся серверов эффективнее, чем позволить одному проблемному узлу снизить производительность 200 или 2000 других узлов.

Операционные системы и инфраструктуры мегаЦОД основаны на открытых технологиях – и большая часть улучшений в мегаЦОД пошли на пользу открытому сообществу. Приложения можно разрабатывать самим, и многие из них также передаются открытому сообществу. Аппаратная часть также разрабатывается собственными силами или, в крайнем случае, строится согласно самостоятельно определенным спецификациям.

В мегаЦОД редко используется виртуализация. В противоположность традиционным ЦОД, где многие приложения исполняются на одном сервере, приложения мегаЦОД исполняются на тысячах и сотнях тысяч серверных узлов. Из-за того, что приложения настолько распределены, время задержки между узлами – важный фактор производительности приложений. Если в мегаЦОД используется виртуализация, она основана на открытых стандартах и ее средства используется как некий «контейнер» для упрощения внедрения и дублирования образов. Создание новых образов или обновление приложения ежедневно, еженедельно или ежемесячно – это распространенная практика, ввиду которой управления образами загрузочных дисков крайне трудно.

МегаЦОД широко используют технологию 10GbE, а также инфраструктуру на основе стандарта 40GbE. Так как сети мегаЦОД зачастую характеризуются конфигурациями, целью которых является снижение времени задержки при обработке транзакций, специалисты, конфигурирующие сети, часто используют инфраструктуру SDN, чтобы повысить производительность и снизить издержки.

Ввиду своего масштаба мега-ЦОД должны основываться на максимально автоматизированной инфраструктуре, работа которой обеспечивается за счет программных скриптов и требует только минимального базового обслуживания техническим персоналом. Основная цель мегаЦОД – снижение стоимости инфраструктуры и использование сэкономленных средств для масштабирования и оптимизация затрат на обслуживание в пересчет на потраченный доллар. Суть в том, что мегаЦОД стараются упразднить все, что не является критичным для ключевых приложений, даже если это предлагается бесплатно, потому что в итоге это все равно может привезти к росту сопутствующих затрат. Микросхемы, коммутаторы, освещение, кнопки, используемые металлические элементы, кабели, винты, заплаты, уровни ПО и средства климатизации, которые не способствуют увеличению производительности, обуславливают рост затрат, потребность в электропитании и препятствуют эффективному обслуживанию. Если добавить ненужную LED-лампочку в каждый из 200 000 серверов, затраты на LED составят 10 000 долларов, а потребность в энергии возрастет на 26 000 Ватт – столько же потребуется для электропитания 26 ручных фенов, работающих в режиме нон-стоп.

Проблемы мегаЦОД

Разработчики архитектуры мегаЦОД сталкиваются с такими же основными задачами, какие характерны для традиционных ЦОД: оптимизация инвестиций с учетом растущих объемов данных и обработка более высоких нагрузок при меньших бюджетах. Оба типа ЦОД вынуждены справляться с растущими объемами данных и должны обеспечивать исполнение сложных приложений в крупных масштабах. МегаЦОД имеют одно существенное отличие: из размер преумножает даже мелкие проблемы или случаи неэффективности. В парадигме мегаЦОД весь ЦОД нужно оценивать как пул ресурсов, которые нужно оптимизировать в глобальном масштабе, а также мегаЦОД постоянно работают, чтобы предоставлять больше сервисов или поддерживать большее количество пользователей на высоком уровне.

Простые проблемы при таком масштабе могут стать значительными. Одна из наиболее серьезных проблем в мегаЦОД – это массированные отказы жестких дисков, которые провоцируют серьезные сбои в работе кластеров и всего ЦОД, несмотря на низкую стоимость замены. Архивные хранилища потребляют много энергии, даже если данные на них используются редко, то есть становятся причиной большого количества проблем в условиях роста объемов информации, которые теперь исчисляются не петабайтами, а экзабайтами. В корпоративных инфраструктурах, где необходимо расширять имеющиеся ресурсы резервного копирования, нужно будет эмулировать архитектурные решения мегаЦОД.

Чему можно научиться у сегодняшних мегаЦОД

Изменяющаяся динамика бизнеса и непростая финансовая обстановка заставляют традиционные корпорации переосмысливать типы внедряемых ИТ-инфраструктур и программных приложений, а также способы их покупки и внедрения. Из-за низкой стоимости облачных сервисов в мегаЦОД финансовые директора корпораций требуют от технических директоров и специалистов в области ИТ-архитектур обеспечения более высокой емкости при меньших затратах. ИТ-отдел, в свою очередь, не имеет другого выбора, кроме воспроизведения архитектуры мегаЦОД для выполнения задач, не относящихся к приоритетным, в условиях корпоративных инфраструктур.

Один из уроков мегаЦОД, который полезно усвоить, это использование однородной инфраструктуры: задачи поддержки и управления такой инфраструктуры упрощены. Распределение затрат, связанных с инфраструктурой, с целью минимизировать расходы там, где это не критично, и потратить их там, где это необходимо, высвобождает капитальные средства, необходимые для инвестирования в более совершенные архитектурные решения. Инвестиции необходимо концентрировать на оптимизацию и повышение эффективности, чтобы снизить требования к инфраструктуре, связанным с ней процедурам управления, технической поддержке, электропитанию и охлаждению, а также на внедрение техник обслуживания с минимальным вмешательством, чтобы поддерживать увеличение емкости при сокращении необходимых ресурсов.

Второй урок: признать, что попытки поддерживать надежность на уровне «пять девяток» – это дорого и практически невозможно с точки зрения архитектуры в крупных масштабах. Намного лучшим решением станет проектирование устойчивого ЦОД, где подсистемы могут подвергаться сбоям, но вся система продолжит работать даже при таких условиях. Все программные и аппаратные решения уже доступны на рынке, но они не характерны для корпоративных инфраструктур.

Одна из наиболее важных подсистем – это СХД, которые напрямую влияют на производительность приложений и использования серверов. МегаЦОД – лидеры в оптимизации эффективности СХД, так как они управляют огромным объемом данных и беспрецедентным потоком информации, в то же время обладая высокой доступностью и соответствуя юридическим требованиям относительно удержания сохранения целостности данных и обеспечивая безопасность, определяемую законодательством соответствующих стран. СХД прямого подключения (DAS) проще и дешевле купить и поддерживать в дальнейшем, они обеспечивают более высокий уровень производительности, чем SAN- или NAS-хранилища. Несмотря на то, что многие мегаЦОД в своих DAS используют обычные потребительские жесткие диски и твердотельные накопители с интерфейсом SATA, они почти всегда также полагаются на архитектуру на основе Serial-Attached SCSI (SAS), которая поддерживает подключаемые SATA-устройства, повышает общую производительность СХД и упрощает процессы управления. Все чаще мегаЦОД мигрируют на диски SAS для обеспечения более высокой надежности и производительности, по мере того, как SAS-накопители мигрируют на интерфейс с пропускной способностью 12 Гбит/с.

Оценивая СХД, корпоративные инфраструктуры довольно долгое время концентрировались на показатель количества операций ввода-вывода в секунду (IOPS) и скорости интерфейса в Мбайт/с. Практика мегаЦОД показала, что приложения, которые обрабатывают операции на SSD, довольно быстро достигают максимальных внутренних значений производительности (зачастую до 200 000 IOPS), и скорость передачи данных по интерфейсу оказывает весьма скромное влияние на результаты работы инфраструктуры. Что на самом деле имеет отношение к производительности приложений, эффективности работы инфраструктуры, степени использования сервера – это время задержки. Например, время задержки операций ввода-вывода серьезно влияет на производительность баз данных. МегаЦОД увеличивают показатель совершенных операций на потраченный доллар, внедряя твердотельные накопители, твердотельное кэширование или обе технологии. Значение времени задержки операций чтения-записи в обычном жестком диске составляет 10 миллисекунд. Сравните: время задержки операций чтения в обычном SSD равно 200 микросекундам, а операций записи – около 100 микросекунд. Специализированная интерфейсная карта PCIe может снизить показатель задержки до десятком микросекунд. SSD могут дополнять или заменять жесткие диски, чтобы повысить производительность приложений, увеличить количество поддерживаемых пользователей, а также увеличить объем проводимых операций на потраченный доллар, благодаря чему серверы и приложения могут выполнять о 4 до 10 раз больший объем работы.

Корпоративные SAN-инфраструктуры могут добиться даже большего прироста производительности – до 30 раз. Как и в случае с DAS, твердотельное кэширование обеспечивает обычно самые малые значения задержки при условии прямого подключения к шине PCIe на сервере. Технология интеллектуального кэширования размещает «горячие» данные (наиболее часто используемые или временно критичные данные) на твердотельные накопители с самым малым временем задержки, где они находятся в легком доступе для приложений. Некоторые карты ускорения кэширования способны поддерживать несколько терабайт СХД на основе твердотельных накопителей, и хранят целые базы данных или набор данных для работы приложений в качестве «горячих» данных. Такие данные легко доступны в условиях любой нагрузки, так как между приложением и данными нет препятствий в виде сетевой инфраструктуры, где могут произойти «заторы» трафика или задержка доставки данных. Внедрения «нулевого уровня» СХД на основе твердотельной технологии для некоторых приложений также возможно, и по крайней мере один мегаЦОД может использовать исключительно SSD – совершенно не используя жесткие диски.

В корпоративных инфраструктурах при принятии решения об использовании SSD подразумевают обычно только уровень хранения данных и основываются на факторе стоимости за Гбайт или стоимости IOPS, противопоставляя жесткие диски твердотельным накопителям в отношении цены. МегаЦОД показали, что, даже используя более дорогие SSD, корпорации все же могут сэкономить на общей стоимости инфраструктуры, сделав ее более эффективной, увеличив производительность и снизив и затраты на техническую поддержку. SSD-накопители также более надежны, менее подвержены сбоям, более просты в обслуживании, более удобны для дублирования и использования в массивах, а также менее прожорливы в отношении электроэнергии, чем жесткие диски – благодаря таким преимуществам SSD-накопителям легче удовлетворить требования SLA. Более высокая производительность SSD позволяет обрабатывать больше операций при меньшем количестве серверов, лицензий ПО и контрактов на сервисное обслуживание, предоставляя возможность снизить общую стоимость владения инфраструктурой.

Представляя ЦОД будущего

МегаЦОД используют открытые решения в масштабных архитектурах, обеспечивая стабильные показатели производительности, надежности и масштабируемости. В некоторых случаях мегаЦОД первыми использовали приложения, способные масштабироваться намного больше, чем любые известные коммерческие продукты. Примерами могут послужить аналитика Hadoop и производные приложения, а также кластерные решения очередности операций и управления базами данных, включая Cassandra и Google Dremel. Природа таких решений очень быстро меняется и эволюционирует, в прямом смысле каждый месяц. И это приложения не только внедряются в средах предприятий – они вдохновляют на создание новых коммерческих решений.

Две достаточно молодые инициативы смогут реализовать такие преимущества мегаЦОД, как архитектуры, дешевизна и эффективность управления, и на рынке корпоративных решений, как это сделало в свое время ПО Linux. OpenCompute – инициатива, обеспечивающая минималистичную, экономически выгодную и легко масштабируемую аппаратную инфраструктуру для кластерных вычислительных ЦОД. Аналогичная этой инициатива в области программного обеспечения, OpenStack, способна обеспечить автоматизированное управления кластерами, как в мегаЦОД, в корпоративных ЦОД за счет создания пула ресурсов обработки и хранения данных и сетевой инфраструктуры, которым можно управлять автоматически – это настоящий Священный Грааль программно-определяемого ЦОД. Инициатива OpenCompute может способствовать внедрению еще большего количества инноваций, включая использование бизнес-модели открытого обслуживания аппаратных устройств, аналогичной модели использования открытого ПО. Некоторые специалисты в области архитектуры ЦОД оценивают потенциал экономии от внедрения этих решений на уровне 70%.

Также уже на подходе возможность дезинтеграции серверов на уровне стойки – то есть отделение процессора от памяти, хранилища, сетевых коммуникаций и источника питания и правление жизненным циклом каждого устройства по отдельности. Этот ход также позволить увеличить объем работы ЦОД на потраченный доллар.

Оптимизировать соотношение объема работы ЦОД на потраченный доллар на уровне одиночного сервера или всего ЦОД вместо того, чтобы концентрироваться на традиционном факторе стоимости компонентов – верное решение для специалистов по архитектуре ЦОД. Таким образом, ИТ-профессионалы могут обеспечить исполнение большего количества операций при меньших затратах, чтобы добиться снижения издержек на управление и техническую поддержку. Современные мегаЦОД – полигон для испытания корпоративных ЦОД будущего. Они реализуют на практике инновационные идеи и способы повышения эффективности, при этом масштабируются в условиях увеличения объемов информации.

Инновации мегаЦОД

ELMA представила платформу корпоративных AI-агентов Cortex на конференции ELMA DAY’25