Источник: 451 Research, 2013.

В рамках рабочей программы «Мир ЦОД 2014» активно обсуждались вопросы организации мониторинга инфраструктуры и параметров микроклимата в ЦОД, а также управления ими. Для решения всех этих задач служит интегрированный инструментарий Data Center Infrastructure Monitoring/Management (DCIM).

Изначально задумывалось, что главная цель инструментария DCIM состоит в контроле событий, происходящих в инфраструктуре ЦОД, и оперативном реагировании на возникающие проблемы. «Раньше электропитанием, кондиционированием, СКС и другими компонентами ЦОД управляли разные системы, — говорит Дарюш Заенц, глава представительства RiT Technologies в России, — однако сейчас необходимо все эти функции объединить в одной программе управления». Поэтому в своем нынешнем виде системы DCIM нацелена на контроль как параметров окружающей среды — температуры, давления, влажности, электропитания, так и работы информационных ресурсов — серверов, коммутаторов и систем хранения. Кроме того, разрабатываются управляющие системы: они должны позволять автоматически менять нагрузку на вычислительные ресурсы в зависимости от текущих показателей влажности или температуры в машинном зале.

По данным Gartner, эффективное управление системами ЦОД позволяет экономить от 20 до 30% операционных расходов благодаря ускорению работ по изменению инфраструктуры, своевременному выявлению проблем и подготовке резервов.

Три элемента

В решениях класса DCIM выделяют три группы компонентов: набор датчиков контроля окружающей среды и сетевой инфраструктуры, программное обеспечение для моделирования процессов в ЦОД и систему управления информационными активами.

Датчики. В комплект датчиков традиционно входят индикаторы температуры, влажности и давления, которые снимают данные на разных отметках высоты. Информация с этих датчиков снимается только в определенных точках, но система мониторинга аппроксимирует показания и строит непрерывную карту для всего помещения ЦОД. Отдельные датчики разработаны для кабельной инфраструктуры. Они позволяют определить, какой кабель подключен к какому разъему структурированной кабельной системы. Эти данные используются для выявления проблем с кабелями и для ремонта вышедших из строя элементов СКС.

ПО мониторинга. Программные решения для контроля окружающей среды и электропитания способны моделировать параметры среды и выявлять потенциальные проблемы с кондиционированием и энергоснабжением. Программы получают данные от датчиков и выявляют критические события, кроме того, они позволяют оценить по установленным в машинном зале датчикам температуру в стойках и выявить вышедшие из строя элементы вентиляции и электропитания. «Замерить температуру несложно, — отметил Илья Малтых, генеральный директор DCclean. — Нужно построить такую систему, которая позволяет в реальном времени собирать данные с датчиков, строить температурную карту и выявлять проблемы для их дальнейшего решения».

ПО управления информационными ресурсами. Для эксплуатации ЦОД важно контролировать не только физическое состояние информационных систем, но и их использование. Для этого обычно используются системы управления ЦОД. Эти системы развивались параллельно с продуктами мониторинга окружающей среды и традиционно не связаны с последними. Тем не менее при эксплуатации современных ЦОД могут возникнуть задачи, требующие интеграции обеих систем. Например, при выходе из строя кондиционера, что определяется с помощью датчиков температуры, интегрированная система должна понять, какие именно приложения работают на серверах в образовавшейся горячей зоне, и перевести их на другие надежно работающие ресурсы на то время, пока кондиционер не будет отремонтирован. Реагировать на подобные события управляющая система может даже автоматически по заранее заданному сценарию.

К этому же классу ПО можно отнести решения для управления кабельной инфраструктурой, больше похожие на системы инвентаризации они обладают информацией о том, какие проводники с какими коммутационными шкафами соединены и к какому активному оборудованию они ведут. Такие решения позволяют на основе тщательного анализа ситуации планировать изменения, которые необходимо произвести в кабельной системе ЦОД. «От ИТ бизнес требует быстрого внедрения новых технологий и продуктов, поэтому служба эксплуатации ЦОД должна иметь возможность быстро изменить конфигурацию сетевого оборудования, не повредив при этом остальные системы», — пояснил Алексей Пахомов, инженер технической поддержки компании TE Connectivity. В частности, прежде чем производить установку нового оборудования, решение DCIM позволяет проверить, есть ли для него место в монтажных шкафах, хватит ли электропитания для него, достаточно ли мощности установленных кондиционеров и как подключить новое оборудование в информационную структуру ЦОД. Для машинных залов, монтируемых в современных многоэтажных зданиях, система даже позволяет равномерно распределить вес на несущие конструкции.

Модульный подход

Сейчас на рынке преобладают системы DCIM, отвечающие только за физическую инфраструктуру, поскольку вычислительная часть ЦОД управляется другими продуктами. Однако в планах производителей уже обозначены задачи полной автоматизации ЦОД с автоматическим реагированием информационных систем на прогнозируемые события. Существующие на рынке системы DCIM, такие как FNT Command DCIM, Emerson Trellis или Schneider StruxureWare, традиционно построены по модульному принципу. У каждого производителя была своя отправная точка развития, и часть функций они исполняют очень хорошо, а остальные постепенно совершенствуются.

Производители систем управления облаками, такие как Microsoft, Citrix и VMware, в основном управляют своими продуктами виртуализации и не стремятся разрабатывать решения для управления физической инфраструктурой. Они предпочитают интегрироваться с профессональными продуктами для мониторинга событий в ЦОД. Тем не менее для клиентов было бы удобнее, если бы система управления ЦОД, как было отмечено, состояла из трех частей: системы мониторинга окружающей среды, системы планирования изменений и системы управления информационными ресурсами.

«Сейчас ЦОД становятся настолько сложными, что температурных карт уже недостаточно, — отметил Евгений Кривоносов, вице-президент российского представительства FNT Software. — Возникает потребность строить и анализировать трехмерные модели контролируемых объектов».

Полноценная DCIM

Примером системы управления инфраструктурой ЦОД может служить решение, установленное в технологическом центре Microsoft в Москве. Центр оборудован на пятом уровне многоэтажного здания, поэтому для его эксплуатации важно оценивать не только электропитание и температуру, но и распределение веса оборудования в стойках, чтобы избежать лишней нагрузки на межэтажные перекрытия. Кроме того, демонстрируемое в центре оборудование постоянно меняется, а значит, нужно иметь возможность быстро и оперативно переконфигурировать обеспечивающую инфраструктуру.

Проектировали ЦОД специалисты Schneider Electric. Они использовали собственный DCIM-инструментарий StruxureWare for Data Centers, который как раз и обеспечивает оперативное изменение конфигурации оборудования, контроль микроклимата, электропитания и подключений. В качестве системы управления вычислительными ресурсами используется Microsoft System Center, интегрированный с StruxureWare и получающий из последней информацию о происходящих в ЦОД событиях.

Уровни автоматизации ЦОД

На конференции «Мир ЦОД 2014» региональный менеджер по продажам Emerson Ричард Кунц представил концепцию оптимизации центров обработки данных, которая позволяет операторам определить пути развития своих ЦОД, а предприятиям — оптимизировать расходы на поддержку корпоративных вычислений. Основная идея концепции — автоматизация всех процессов в ЦОД и проактивное решение проблем. Итак, в Emerson выделяет следующие пять этапов развития ЦОД.

  • Базовый. Процессы не автоматизированы. Устранение неполадок выполняется вручную. Инструментов управления практически нет. Обслуживать так можно только небольшой ЦОД.
  • Реактивный. Процессы все еще не автоматизированы, но выявляются приоритеты в решении проблем. Инструменты автоматизации зарождаются, но пока они применяются только для локальных задач и не интегрированы друг с другом. Осмысления проблем и планирования развития ЦОД нет.
  • Проактивный. Появляется система автоматического контроля состояния ЦОД (DCIM), на основе которой интегрируются инструменты мониторинга событий в ЦОД. Определена политика развития инфраструктуры, и уже появляются инструменты планирования изменений, позволяющие быстро менять конфигурацию ЦОД.
  • Оптимизированный. В ЦОД внедрены инструменты моделирования изменений, которые позволяют заранее предусмотреть потребности клиентов и пользователей. Появляются инструменты, выявляющие неэффективное расходование ресурсов.
  • Автоматический. Определены все процессы автоматической реакции на происходящие события. Вычислительные ресурсы могут самостоятельно мигрировать в исправные сегменты ЦОД, что дает возможность инженерам устранять проблемы с оборудованием без остановки работы приложений. В некоторых случаях удается достигнуть экономии за счет автоматического отключения неиспользуемых ресурсов.

По данным Кунца, только за счет выявления горячих точек в ЦОД, оптимизации их охлаждения и расходования энергии, а также сокращения простоев по причине перегрева можно сэкономить миллионы долларов. Внедрение системы мониторинга событий в ЦОД позволяет сократить операционные расходы, уменьшить время простоев и повысить скорость устранения неисправностей. Мониторинг позволяет заранее предсказать проблемы с оборудованием, запланировать и вовремя заменить устройство еще до его выхода из строя. Emerson предлагает для решения проблем в ЦОД и автоматизации процессов обслуживания собственную платформу управления под названием Trellius, которая позволяет управлять энергопитанием, охлаждением и кабельной инфраструктурой даже через удаленный доступ.

— Валерий Коржов,

Computerworld Россия