Почему облачные вычисления требуют переосмысления отказоустойчивости на периферии

От прежнего центра обработки данных мощностью 1 МВт, который раньше находился на территории филиала компании, сейчас может остаться пара стоек с ИТ-оборудованием, которое обеспечивает выполнение наиболее важных приложений и связь с облаком. Уменьшение количества возложенных на локальный ЦОД функций и снижение мощности вовсе не означают, что его роль становится второстепенной. Наоборот, чаще всего то, что компании оставляют у себя, и является самым важным. К сожалению, сегодня в дизайне большинства периферийных ЦОД имеются изъяны, что приводит к дорогостоящим простоям. Для достижения максимальной отдачи от инвестиций необходим систематический подход к оценке уровня доступности ЦОД в гибридной среде, для того чтобы обеспечить наибольшую экономическую эффективность инвестиций.

Развитие Интернета вещей, растущий объем трафика и расширение области применения облачных решений являются основными технологическими тенденциями, меняющими представление о ЦОД. В крупных и облачных центрах обработки данных сегодня размещается множество важных для бизнеса приложений. Однако не все они переносятся в облако, и причин тому множество: государственные отраслевые нормы регулирования, корпоративная политика, использование проприетарных приложений, задержки в процессе передачи данных и многое другое.

В результате формируется так называемая гибридная среда ЦОД, которая выстраивается в следующую иерархию: централизованные облачные ЦОД, средние и крупные региональные ЦОД, локальные малые ЦОД. В данной статье описана наиболее распространенная практика использования трех типов ЦОД, обсуждается изменение ожиданий относительно доступности оборудования, предложен метод оценки необходимого уровня отказоустойчивости для локальных ЦОД, способствующих достижению целей бизнеса, а также перечислены лучшие примеры применения микроцентров обработки данных на периферии.

ТИПЫ ЦОД

Централизованная облачная система создавалась в расчете на приложения, для которых задержка не имела критического значения (электронная почта, онлайн-платежи, социальные сети). Однако с переносом важных приложений в облако стало очевидно, что проблемы задержки, ограничения пропускной способности, соблюдения безопасности и нормативных требований требуют решения. Например, при эксплуатации беспилотных автомобилей любые отклонения от заданных параметров могут привести к аварии. Очевидной стала необходимость переноса вычислений ближе к источнику данных и месту их использования.

Распределение контента — еще одна область применения, где благодаря обработке данных в непосредственной близости от потребителей сокращаются расходы на канальную емкость и повышается качество потокового вещания.

Некоторым предприятиям зачастую требуется сохранить у себя важные для бизнеса приложения. Это позволяет лучше контролировать их работу, соблюдать государственные отраслевые нормы регулирования и обеспечивать доступность. Иногда такие приложения дублируются в облаке с целью резервирования.

Централизованный ЦОД. Крупные централизованные ЦОД мощностью несколько мегаватт нередко создаются в качестве платформы для решения критически важных задач, поэтому особое внимание обращается на доступность. Для предотвращения аварий применяется ряд признанных практик, используемых уже много лет. Все действия обслуживающего персонала направлены на обеспечение непрерывной и эффективной работы всех систем 24 часа в сутки и 7 дней в неделю. Кроме того, такие ЦОД часто проектируются и иногда сертифицируются в соответствии со стандартами Uptime Institute Tier 3 или Tier 4.

Распространенные лучшие практики (см. рис. 1) включают в себя:

Резервирование критических систем. Наиболее важные системы питания и охлаждения проектируются с избыточностью (часто 2N) во избежание простоев при неисправности или проведении технического обслуживания.
Высокий уровень физической безопасности. Широкое распространение получили биометрические датчики на дверях, кабины КПП, видеонаблюдение и круглосуточная охрана, которые обеспечивают безопасность систем и доступ только авторизованного персонала.
Рядное расположение стоек. Помимо ограничения физического доступа к шкафам для снижения вероятности ошибки по вине человека (отсоединения не того провода, подключения обоих блоков питания к одном лучу и т. п.), упорядочиваются силовые и сетевые кабели. Распределение воздушных потоков организуется таким образом, чтобы исключить возникновение точек перегрева: в неиспользуемые посадочные места устанавливаются панели-заглушки, в технологические отверстия — щеточные уплотнители и т.д.
Мониторинг. Для того чтобы системы управления инфраструктурой ЦОД (DCIM) и зданием (BMS) могли осуществлять контроль и оптимизацию всех систем ЦОД, устанавливаются датчики и измерительные приборы.

Почему облачные вычисления требуют переосмысления отказоустойчивости на периферии

Рис. 1. Шлюзовые камеры — один из наиболее распространенных методов обеспечения безопасности в централизованных облачных
и коммерческих ЦОД

Региональный ЦОД. Региональные ЦОД меньше по размеру, чем крупные централизованные центры обработки данных, и размещаются там, где информация генерируется и используется. Как упоминалось выше, эти ЦОД предназначены для приложений, чувствительных к задержке передачи данных или требовательных к пропускной способности. Их стратегическое расположение выбирается таким образом, чтобы оптимизировать обработку больших объемов данных. Такие площадки можно сравнить с «мостом» между центральными и локальными ЦОД на местах.

Как и крупные централизованные ЦОД, региональные обычно спроектированы с учетом обеспечения безопасности и доступности данных. Дизайн подобных объектов часто соответствует стандартам Uptime Institute Tier 3. Иногда при их создании применяются решения высокой заводской готовности, а в качестве отправной точки могут использоваться референсные варианты дизайна.

Локальный ЦОД. Локальный ЦОД — это центр сбора и обработки данных, расположенный в том же месте, где находятся его пользователи. Для описания этого типа ЦОД применяются разные термины — например, «внутрикорпоративный центр обработки данных» или «микроЦОД». Локальные ЦОД могут варьироваться по мощности: от 1–2 МВт до всего лишь 10–20 кВт. Поскольку число бизнес-приложений, переносимых в облако или на площадки коммерческих ЦОД, постоянно растет, размер локального ЦОД уменьшается: иногда он может состоять из пары стоек, расположенных в небольшой комнате или в корпусе.

Многие из таких современных небольших ЦОД проектируются с соблюдением лишь минимальных требований к резервированию и доступности, то есть соответствуют уровню Tier 1. Недостатками таких локальных ЦОД являются:

Низкий уровень безопасности: в помещения возможен доступ посторонних лиц, стойки открыты (не имеют дверей).
Неупорядоченные стойки: об упорядочивании проводов задумываются в последнюю очередь, что приводит к их запутыванию, проблемам с вентиляцией внутри стоек, увеличению числа человеческих ошибок во время добавления, перемещения, изменения компонентов (см. рис. 2).
Отсутствие резервирования: системы питания (ИБП, система распределения питания) часто имеют конфигурацию N, что снижает их доступность и способность поддерживать работоспособность центра во время технического обслуживания.
Отсутствие специальной системы охлаждения: в малых помещениях и шкафах нередко используется общая система пассивной вентиляции, из-за чего возможен перегрев оборудования.
Отсутствие DCIM: помещения зачастую остаются без присмотра обслуживающего персонала или не контролируются с помощью программного обеспечения, которое управляло бы оборудованием и предотвращало сбои в работе систем.

Рис. 2. Пример небольшого локального ЦОД с неэффективной системой организации проводов и низким уровнем безопасности

Многие предприятия, переходя в облако или на внешнее размещение, уделяют недостаточное внимание оставшимся стойкам, отдавая приоритет доступности крупных ЦОД. Такая логика содержит изъяны, ведь в большинстве случаев работающее на местах оборудование отвечает за выполнение столь же или даже более важных задач, чем те, которые переведены на облачные ресурсы.

Что обычно остается в компании? Во-первых, проприетарные, важные для бизнеса приложения, а во-вторых, сетевое оборудование для подключения к облаку. Какими могут быть последствия при возникновении проблем с доступом к приложениям? Если предположить, что в офисе компании остается работать то же количество сотрудников, что и раньше, но число стоек сократилось до пары штук, важность каждой из них возрастает. Локально расположенное оборудование крайне необходимо для обеспечения связи с бизнес-приложениями, используемыми в повседневной деятельности. С учетом того, что все больше и больше ресурсов перемещается в облако, от надежности и скорости подключения к ним зависит продуктивность сотрудников.

Все это свидетельствует о необходимости изменения принципов проектирования малых ЦОД. Нельзя концентрироваться только на централизованных и региональных центрах обработки данных, необходимо уделять внимание и локальным площадкам, поскольку именно они являются наиболее слабым звеном. Далее будут описаны лучшие практики, которые необходимо использовать для обеспечения высокой продуктивности бизнеса, обладающего множеством связей.

БОЛЕЕ ПОЛНЫЕ МЕТРИКИ ДОСТУПНОСТИ

При анализе гибридной среды, в которой все компоненты взаимосвязаны, возникает важный вопрос: должны ли мы пересмотреть наш подход к оценке ее критичности и резервирования?

Инструменты, которые отрасль использует сегодня, направлены на то, чтобы сделать отдельный ЦОД максимально надежным. При проектировании конкретных площадок стандарты Uptime Institute учитываются таким образом, чтобы достичь необходимого уровня доступности («количества девяток»). Отказ обычно определяется как нарушение работы ИТ-оборудования.

Используемые инструменты и метрики не учитывают не только зависимость от количества ЦОД и числа пользователей, но и критичность функций, на которые повлияла данная неисправность, или отказоустойчивость приложения (ПО). Мы считаем, что все это важно для движения вперед.

Изменение ожидаемого уровня доступности. Ожидания молодых сотрудников и представителей старшего поколения различаются. По мере старения последних все больший вес приобретают миллениалы, а вместе с ними меняются и ожидания. Люди, родившиеся после 1980-го года, росли с мыслью о том, что надо быть «всегда на связи, всегда онлайн», то есть все приборы и устройства никогда не должны выключаться. У них нулевая терпимость к перебоям в предоставлении сервисов. Фактически 82% миллениалов считают, что выбор нового места работы будет зависеть от уровня применяемых в компании технологий.

Если предположить, что эта тенденция будет развиваться, чрезвычайно важно найти более универсальные способы мониторинга отказоустойчивости ЦОД, с помощью которых можно было бы получить исчерпывающие данные для внесения необходимых изменений в их дизайн. Как учит старая поговорка, «нельзя управлять тем, что нельзя измерить». Метрики отказоустойчивости необходимо усовершенствовать, чтобы они соответствовали требованиям современного бизнеса.

Изменение подхода. Смена точки зрения на доступность может привести к иной стратегии развития. В табл. 1 дано сравнение текущей (старой) и новой парадигмы, которое, как нам кажется, важно для принятия нужных решений.

Таблица 1. Изменение парадигмы, приводящее к нарушениям работы ЦОД

В качестве примера приведем коммунальные предприятия (энергоснабжение) и их отношение к доступности сервисов. Они не только следят за техническим состоянием своих электростанций и высоковольтных линий (метафорически их «центральным ЦОД»), но и выполняют большой объем смежных работ, напрмер подрезают ветки деревьев и ремонтируют трансформаторные подстанции (их «периферийные ЦОД»). Успех всех этих мероприятий оценивается с учетом стабильности и качества поставляемого пользователям электричества. Отрасли ЦОД необходимо двигаться к описанной модели, в которой периферийная часть важна так же, как и центральная часть.

Доступность двух систем с учетом того, что бизнес зависит от доступа к обеим, вычисляется по формуле:

Доступность_{системы} = Доступность₁ * Доступность₂

Данная формула расчета доступности ЦОД предполагает, что эффективность работы пользователя зависит от доступности и продуктивности локального и центрального ЦОД. Если, например, центральная площадка доступна 99,98% времени (ЦОД Tier III, 1,6 ч простоя в год), а локальная площадка — 99,67% (ЦОД Tier 1, 28,8 ч простоя), общее время простоя с точки зрения пользователя составит 99,98% * 99,67% = 99,65% (30,7 ч простоя).

Как можно оценить воздействие всей экосистемы центров обработки данных на продуктивность бизнеса и связность внутри системы?

Не все центры обработки данных имеют одинаковое воздействие на бизнес. Решающий фактор — количество обслуживаемых сотрудников. Например, локальный ЦОД на 1000 человек может иметь существенно большее значение, чем ЦОД на 10 человек. В табл. 2 показан расчет простоя, исчисляемый в человеко-часах, для экосистемы, состоящей из одного центрального ЦОД Tier 3 и 10 локальных ЦОД Tier 1, каждый из которых обслуживает 100 сотрудников. Как видим, общее время простоя зависит главным образом от количества периферийных площадок Tier 1: чем их больше, тем меньше число часов, когда работают все площадки.

Таблица 2. Доступность десяти периферийных ЦОД и одного центрального с учетом количества сотрудников, зависящих от их работы

По мере увеличения числа ЦОД с разным уровнем доступности и количества обслуживаемых ими рабочих мест, посчитать доступность становится намного сложнее. Кроме того, указанная формула не является полной, так как она не учитывает рейтинга выполняемой каждой площадкой бизнес-функции. Обслуживание клиентов или производства всегда важнее, чем поддержка административного персонала, который в случае отказа сети может работать дистанционно.

Мы считаем, что лучшим подходом к целостной оценке всех площадок является использование карт показателей, как показано в табл. 3. Это поможет выявить наиболее важные для деятельности предприятия площадки, которые нуждаются в первоочередной модернизации. Карта показателей содержит информацию о доступности и соответствующем времени простоя каждой площадки в гибридной среде ЦОД (идеальные показатели), а также и, что существеннее всего, уровень ее критичности для бизнеса. В случае с ЦОД интенсивность последствий отказа каждой площадки зависит:

от количества рабочих мест, пострадавших от сбоя систем;
выполняемой функции.

Таблица 3. Пример карты показателей для оценки приоритетности ЦОД
по степени потребности в модернизации

Часто для оценки используется шкала от 1 до 5, где 1 — это наименьшее воздействие на бизнес, а 5 — наибольшее. Обратите внимание на то, что компании из различных отраслей экономики будут по-разному оценивать важность аналогичных площадок. Ключ к успеху — последовательный подход к оценке всех имеющихся площадок.

В данном примере рассматриваются пять центров обработки данных, образующих гипотетическую экосистему. Ежегодное время простоя каждого из них умножается на заданную величину «серьезности последствий отказа» для получения взвешенного значения.

Площадки можно просто отсортировать по этому значению: самое большое указывает на наибольший приоритет с точки зрения потребности в улучшении. С этой же целью можно составить рейтинг площадок на основании процентного показателя оценки (как показано в примере, «влияние сайта на оценку»).

Данная процедура предполагает последовательные итерации. Как только уровень доступности площадки 4 в примере повысится, новая площадка окажется в начале списка как самая важная. В течение этого непрерывного цикла улучшений будут модернизированы площадки, отказ которых может иметь наибольшие последствия.

При правильном подходе к оценке доступности можно явно выделить площадки, где улучшения дадут наибольший прирост продуктивности и экономический эффект. В большинстве случаев после выполнения подобных расчетов становится ясно, что периферийные ЦОД, часто имеющие более низкий уровень доступности, оказывают наибольшее влияние на бизнес.

ЛУЧШИЕ ПРАКТИКИ НА ПЕРИФЕРИИ

При использовании правильных метрик и методов становится ясно, что инфраструктуру периферийных ЦОД необходимо переосмыслить. Стандартные подходы к их проектированию (как было описано ранее) не соответствуют степени важности данных площадок для бизнеса. Улучшения нужны в следующих областях:

физическая безопасность;
мониторинг (DCIM), обслуживание, дистанционный контроль;
резервные системы питания и охлаждения;
резервирование каналов связи.

Безопасная рабочая среда. Небольшие локальные ЦОД нередко размещаются в помещении с открытым доступом (например, в офисе, где находится несколько отделов). Зачастую отдельное помещение для стоек не выделяется, поэтому они остаются открытыми, а значит, и не защищенными от любых случайных или умышленных воздействий.

Лучшими практиками для снижения данных рисков являются:

перенос оборудования в запираемое помещение или специализированный шкаф;
обеспечение биометрического или иного контроля доступа;
в случае неблагоприятных условий, размещение оборудования в шкафу, оснащенного средствами защиты от пожаров, наводнений, влажности, вандализма,воздействий электромагнитного излучения;
развертывание системы круглосуточного мониторинга окружающей среды, а также системы видеонаблюдения.

Примеры защищенных шкафов показаны на рис. 3. Они часто поставляются в собранном виде и дополняются всеми необходимыми компонентами инженерной инфраструктуры.

Рис. 3. Примеры микроцентров обработки данных от Schneider Electric

Управление ЦОД. На разных периферийных площадках процедуры управления и эксплуатации нередко различаются (если такие процедуры определены). На управление сотнями или тысячами периферийных площадок тратится немало времени и денег. Кроме того, на многих площадках уровень доступности зависит от использования смежной инфраструктуры на объекте (генераторов, коммутационных устройств, систем охлаждения.

Лучшими практиками для снижения данных рисков являются:

анализ применяемых методов и систем управления;
создание единой системы мониторинга для всей инфраструктуры на всех имеющихся площадках;
развертывание системы дистанционного контроля, если ресурсы ограничены.

Питание и охлаждение. Инфраструктура систем питания и охлаждения (например, ИБП и кондиционеры) на периферийных площадках нередко не предусматривает резервирования. Это приводит к критическим отказам, а также к невозможности обслуживать системы, не останавливая работу ЦОД. В некоторых случаях в помещениях отсутствует специальная система охлаждения, что приводит к перегреву оборудования. Часть инженерных систем нередко используется несколькими компаниями внутри одного здания, поэтому уровень доступа к ЦОД зависит от доступности этих ресурсов.

Лучшими практиками для снижения данных рисков являются:

измерение температуры и влажности для оценки необходимого уровня охлаждения (пассивное охлаждение, активное охлаждение или специальная система охлаждения);
выделение резервных линий питания для организации параллельного обслуживания на наиболее важных площадках;
подключение самых критичных цепей к резервному генератору.

Доступность сети. Как было описано ранее, подключение к облаку является ключевым условием функционирования периферийных площадок. Однако часто бывает, что соединение предоставляется только одним провайдером. Это обстоятельство создает единую точку отказа. Кроме того, беспорядок в кабельном хозяйстве может стать причиной человеческих ошибок.

Лучшими практиками для снижения данных рисков являются:

подключение резервного канала передачи данных;
использование средств организации кабелей (кабельные каналы, организаторы, фиксаторы и т. д.);
маркировка и цветовое кодирование проводов.

ЗАКЛЮЧЕНИЕ

Развитие облачных технологий приводит к тому, что руководители компаний все чаще начинают задумываться о необходимости создания гибридных сред для облачных и локальных ЦОД (на периферии). Несмотря на то что количество «оставшегося» оборудования уменьшается, его значение для бизнеса даже возрастает. Причины следующие:

поскольку все больше приложений переносится в облако, подключение к облаку становится важнейшим фактором успешной работы предприятия;
сотрудники, привыкшие к тому, что онлайн-сервисы всегда доступны, нетерпимо относятся к их простоям.

К сожалению, сегодня дизайн большинства периферийных ЦОД имеет изъяны, что приводит к дорогостоящим простоям. Необходим систематический подход к оценке уровня доступности ЦОД в гибридной среде, что позволит обеспечить наибольшую экономическую эффективность инвестиций.

Представленная в статье концепция использования карт показателей позволяет получить целостную картину состояния рабочей среды с учетом числа пользователей, обслуживаемых каждым ЦОД, и критичности каждой площадки для функционирования бизнеса. Этот метод помогает понять, куда необходимо инвестировать средства в первую очередь.

МикроЦОД высокой заводской готовности представляют собой наиболее простой способ обеспечения безопасной и высокодоступной инженерной среды на периферии. Лучшие практики, такие как использование резервных ИБП и защищенных стоек, системы организации кабелей и воздушных потоков, удаленный мониторинг и резервные каналы передачи данных, позволяют гарантировать необходимый уровень доступности для наиболее важных площадок.

Кевин Браун, технический директор подразделения IT Division компании Schneider Electric,

Венди Торелл, старший аналитик-исследователь в научном центре ЦОД Schneider Electric