Забудьте все, что вы знали об архитектуре ЦОД

Общая эффективность — это именно то, что нужно в ЦОД.

Происходящие в отрасли изменения многочисленны и разнообразны — во всяком случае, мне за все годы работы в ИТ не приходилось видеть ничего подобного. Возможно, виной всему кризис, а может быть, настойчивое желание изменить экосистему — в любом случае перемены невозможно не заметить.

Перемены затрагивают людей, претворяющих инновации в жизнь, компании — как лидеров, так и аутсайдеров — и потребности тех и других. Потоки данных сменили вычислительные операции в качестве типовой нагрузки для ИТ-оборудования, ПО стало открытым, код абстрагируется от процессорной архитектуры. Частные и корпоративные пользователи восстают против устаревших методов, консервативных вендоров, потерявших свою эффективность бизнес-моделей. Совершенно изменились те принципы, в соответствии с которыми реализуется фундаментальная системная архитектура и взаимодействуют между собой процессоры.

Итак, если вы — системный архитектор, вас не может не восхищать, какие возможности открываются для инноваций, для создания новых или трансформации имеющихся видов бизнеса! Но инновации — это зачастую реализация абсолютно новых подходов к тому, как делаются дела. Еще не все изменения претворены в жизнь. Мы только в начале пути.

Сегодня я сосредоточусь на одном сегменте рынка — речь пойдет о корпоративных информационных технологиях. Изменения в этом сегменте в равной мере затрагивают как сами технологии, так и бизнес-модели.

НОВЫЙ ДВИГАТЕЛЬ ПРОГРЕССА

Возможно, кому-то выбор объекта для обсуждения покажется странным. Появление гиперЦОД (это то место, где хранятся огромные объемы данных из соцсетей, поисковых систем и т. п.) и масштабы их развертывания меняют смысл понятия «оптимизация». Единицей измерения покупки для большинства из нас все еще является стойка, а для некоторых — контейнер (или POD), тогда как в случае гиперЦОД — это уже отдельный ЦОД.

Рассматривая ситуацию под таким углом, гиперЦОД стремятся достичь компромисса между стоимостью энергопитания, площадей, используемых металлических конструкций, пропускной способности сети, местом размещения нагрузки и оптимизируемыми параметрами приложений. Проще говоря, на смену поиску локальных оптимумов приходит поиск глобальных оптимумов. Не знаю, как вы, но я еще в университетские годы, занимаясь исследованием операций, твердо усвоил, что между двумя этими понятиями лежит пропасть. Общая эффективность — это именно то, что нужно в ЦОД…

Владельцы гиперЦОД покупают много оборудования (для шести самых крупных, вероятно, приобретается примерно 10% всей производимой техники), поэтому, во-первых, они должны определить, что смогут разрабатывать самостоятельно, а во-вторых, производителям придется серьезно работать, чтобы предложить именно то, в чем нуждаются такие заказчики.

Это означает, что если ранее движущей силой инноваций были главным образом OEM-производители, то теперь их место заняли гиперЦОД, причем они стимулируют их намного активнее. Что такое оптимум для ЦОД? Это отношение нагрузки к стоимости. Причем общей нагрузки и общей стоимости. Потратить больше или даже намного больше на что-либо — это нормально, если в целом за один потраченный доллар будет выполнена большая работа.

Вот поэтому самыми крупными потребителями флэш-накопителей в серверах являются компании Facebook, Google и Apple, а за ними с небольшим отставанием следуют некоторые другие крупные игроки. Эти ЦОД всегда готовы быстро предоставить все, что требуется, благодаря эффективной работе флэш-накопителей — настолько эффективной, что некоторые сервисы доступны бесплатно.

ГиперЦОД начали публиковать метрики расходов, раскрывать сведения о своих архитектурах (например, OpenCompute) и предоставлять открытое ПО (проект Hadoop и его производные). В русле этих тенденций Amazon, например, довольно точно оценил стоимость своих сервисов. И она невероятно низкая.

РАВНЕНИЕ НА ГИПЕРЦОД

Корпоративные клиенты анализируют все эти цифры, причем весьма тщательно. Дело в том, что многие клиенты буквально взбунтовались против старых способов ведения дел в ИТ-отрасли — то есть покупки оборудования и выставления счетов. OEM-производители и поставщики услуг, конечно, способствуют повышению эффективности деятельности предприятий, но не в такой степени, как хотелось бы последним. При помощи инновационных решений они стремятся привязать клиента к проприетарной архитектуре, в то время как гиперЦОД концентрируются на повышении эффективности. Экономия средств в пересчете на единицу оборудования позволяет установить больше оборудования и обеспечить более качественные сервисы.

Упомянутый бунт выражается в двух явлениях. Первое заметно в квартальных отчетах OEM-производителей и поставщиков услуг. IBM собирается продать серию X компании Lenovo, Dell предпринимает делистинг, а Oracle пытается найти новое направление для своего бизнеса. При этом HP анонсирует «новый взгляд на ИТ»… Второе состоит в том, что компании стремятся в максимально возможной степени подражать гиперЦОД, внедряя архитектуры частных облаков, и, скорее всего, во многих из них будут использоваться те же приложения и файловые системы на базе открытых кодов.

Куда заведут всех гиперЦОД? Список изменений, которые уже происходят повсеместно, довольно длинен:

простые «непритязательные» сервисы — только то, что нужно;
эффективное распределение нагрузки в пересчете на стойки/контейнеры, минимизация металлических конструкций, уменьшение общего веса закупаемого оборудования, беспрепятственный воздухообмен;
упрощенное управление, единое для оборудования всех вендоров;
системы DAS с распределенными файловыми системами, например HDFS;
ускорение работы баз данных, чувствительных к задержкам, за счет применения флэш-накопителей;
новые программные и аппаратные решения, например кэширование с использованием хэш-таблиц;
автономные, простые в управлении и установке кластеры в больших количествах;
дезагрегация серверов — создание пула ресурсов;
альтернативные архитектуры процессоров (помимо x86);
перспективы «дальней» основной памяти в массивах долговременной памяти на основе технологий следующего поколения — например, PCM, STT, ReRam и, возможно, флэш-накопителей.

Но интерес компаний привлекают и другие решения. Например, системы NAS с глобальным пространством имен. Лично я считаю это ошибкой. Мне нравится сама идея файловых систем/хранилищ объектов, но сетевые межсоединения могут стать причиной серьезных ограничений. Трафик от хранилищ данных конкурирует с трафиком самой сети, что создает узкие места на магистрали и становится причиной образования «бутылочного горлышка» между NAS-хранилищами. Давайте признаем, что в стремлении сэкономить многие обычно довольствуются минимальным количеством портов 10GbE на сервере и коммутаторе в серверной стойке. Типичная карта SAS для систем хранения теперь оснащается восемью портами 12G — а это пропускная способность на уровне 96G. Может ли быть десять портов 10G у сервера? Вряд ли, скажете вы, и я думаю так же.

Все это не просто теория. В конфиденциальной беседе сотрудник одного из банков с Уолл-cтрит сообщил, что банк смог сократить — не поверите! — до 70% расходов на ИТ, пойдя по стопам гиперЦОД. На первый взгляд это абсурд, такого невозможно добиться. И я поначалу отнесся к этому утверждению именно так — посмеялся. Но… системы становятся проще и дешевле. В результате приходится меньше производить или поставлять, в то время как решения OEM-производителей напичканы избыточными функциями, чтобы обеспечить «уникальность» и «выгоду».

Более простые системы покупаются у тех вендоров, которые работают с гораздо меньшей маржой. Таким образом, издержки на техническое обеспечение и обслуживание существенно снижаются (нужно обслуживать меньшее количество устройств, а кроме того, нет грабительских сервисных контрактов от OEM). К тому же многие дорогостоящие лицензии на ПО заменяются эквивалентами на базе открытого кода. Чистая экономия — 70%. Так что не стоит смеяться.

ДЕЗАГРЕГАЦИЯ: ОБЩИЙ ПУЛ РЕСУРСОВ

Но, возможно, самая важная тенденция — это то, что производители серверов называют дезагрегацией, а специалисты по архитектуре ИТ-систем — общим пулом ресурсов.

Во-первых, цель дезагрегации — это не просто «расчленение» сервера на составляющие с целью снижения стоимости отдельных компонентов. Вы все равно приобретаете стойку — почему бы не скомпоновать среду так, чтобы соединить подобное с подобным? Каждый компонент имеет собственный жизненный цикл. У процессоров он составляет 18 месяцев. У DRAM — несколько лет. У флэш-памяти, скорее всего, три года. У жестких дисков — от пяти до семи. У сетевого оборудования — от пяти до десяти. У источников питания —. ..вечность? Почему бы не заменять каждый компонент в соответствии с его естественным жизненным циклом? Почему не привести конструктив в соответствие с требованиями технологий, которые он объединяет? Жестким дискам нужны устойчивые к вибрациям металлические корпуса. Процессорам необходимо хорошее охлаждение...

Во-вторых, принцип пула ресурсов позволяет действительно эффективно использовать имеющиеся ресурсы. Каждой системе нужны «жировые» запасы. Что произойдет, если физическая память будет использоваться на 100%? Система станет работать намного медленней. Когда у базы данных не хватает места для размещения информации, появляется синий экран смерти. В случае недостаточной пропускной способности сети серверы оказываются избыточно укомплектованными для выполнения своих задач. Излишняя память DRAM, излишняя пропускная способность, излишняя емкость флэш-накопителей, излишнее количество шпинделей жестких дисков… Если у вас 1000 узлов, вы выбрасываете на ветер терабайты оперативной памяти, терабайты флэш-памяти, терабайты в секунду пропускной способности — а на все это понапрасну тратится энергия. Еще хуже, если вы ошибетесь в расчетах и приобретете сервер с недостаточным объемом накопителей или оперативной памяти — с таким оснащением особо не разгонишься. А теперь представьте, что у вас 10 000 или 100 000 узлов — и ужаснитесь.

Если все ресурсы 30–100 серверов свести в единый пул, их можно выделять в соответствии с потребностями отдельных серверов. Что более важно — системы можно конфигурировать логически, а не физически, то есть не нужно максимально точно планировать, какова должна быть конфигурация, сколько устройств потребуется и каких именно. У вас есть что-то вроде «полуфабрикатов», которые надо просто разместить в стойках, после чего их можно подключить посредством конфигурационных сценариев и — вуаля! — получить эффективное распределение ресурсов, которое можно всегда поменять. Нужно хранилище побольше? Или поменьше? Более производительная флэш-память? Дополнительная пропускная способность сети? Просто сконфигурируйте на свой вкус.

И ЭТО ОЧЕНЬ ВАЖНО

Все эти меры готовят почву для распределения главной системной памяти в общем пуле ресурсов, что и произойдет, как только будут готовы соответствующие решения следующего поколения — скорее всего, в 2015 году.

Нельзя недооценивать проблемы с масштабной эксплуатацией разнородных платформ. Многие гиперЦОД имеют до шести платформ. Вы думаете, новые версии в них устанавливаются до того, как прекратится поддержка старых? В действительности зачастую одновременно работают три версии одной платформы. То есть, в итоге используются 18 различных платформ, а ведь у каждой еще есть различные редакции...

Иными словами, если вам нужно управлять 200 – 400 тыс. серверов и осуществлять их поддержку без привлечения специалистов на местах, то это может свести с ума. Организация пула ресурсов значительно облегчает эксплуатацию.

АЛЬТЕРНАТИВНЫЕ АРХИТЕКТУРЫ ПРОЦЕССОРОВ

Intel x86 существовал далеко не всегда. Когда-то Intel была новичком в серверном бизнесе, и сцена принадлежала Power, MIP, Alpha, SPARC… (а до этого — мейнфреймам IBM и т. д.). Любые перемены происходили вследствие изменения в структуре расходов на серверы. Мейнфреймы уступили дорогу многопроцессорной архитектуре RISC, а она, в свою очередь, — x86.

Однако сегодня Oracle заявляет, что отказывается от x86 в коммерческих серверах и переходит на SPARC. IBM продает бизнес по производству серверов на базе x86 и переключается на Power. И конечно, можно ожидать наплыва серверов в форм-факторе SOC с процессорами архитектуры ARM — об этом уже говорят HP и Dell. Важно понять, что все эти предложения ориентируются на архитектуру платформы и общую производительность приложений, а не только процессора.

ОДНИМ ВЗГЛЯДОМ

Чем же сегодняшняя ситуация отличается от той, когда компании стали делать серверы на основе дешевых настольных процессоров с архитектурой x86, что буквально взорвало рынок?

Снижением издержек и дезагрегацией? Нет. Хотя эти факторы важны, но далеко не новы. Я думаю, инновационной является тенденция массовых закупок со стороны гиперЦОД и прагматичный подход клиентов к этим гигантским центрам обработки данных. Раньше двигателями прогресса были несколько производителей серверов, а теперь стимулами являются прагматизм и закупочная политика крупных гиперЦОД.

Новой архитектурой процессоров? Раньше «новой» была x86. ARM обещает снижение издержек, как прежде Intel. Обещанное совместное развитие микросхем не представляет собой чего-то исключительного. ARM и ее лицензиаты должны быть столь же последовательны и систематичны в предоставлении «кремния», как когда-то Intel. Если у кого-то из пяти-шести производителей системных чипов на ARM не получится, то другие станут сильнее за его счет. Разве мы уже не проходили все это с Intel? ISA не играет такой уж большой роли, то есть Intel (если не ошибется) может извлечь для себя немалые преимущества — точно так же, как ARM. Микросхемы Intel проигрывают (и, вероятно, продолжат проигрывать). Однако, весьма возможно, Intel такие поражения пойдут на пользу, как это было в случае AS/400, S/360 или DEC.

Принцип дезагрегации позволяет гиперЦОД обеспечить работу сервисов без излишеств, а победителем станет тот, кто гарантирует бесперебойность поставки. Может быть, в результате появится новая Intel.

Александр Зейников — региональный менеджер LSI в России.