Эксперты в один голос заявляют о существенном повышении требований к управлению ЦОД. Как отмечает Сергей Тригубов, ведущий эксперт департамента системных решений компании IBS, главным «врагом» эффективного управления ЦОД является растущее количество серверов и приложений. На второе место он ставит увеличение числа применяемых для управления инфраструктурой средств. «Основной причиной возникновения чрезвычайных происшествий в ЦОД обычно становится человеческий фактор — продолжает он. — С каждым днем управлять центрами обработки данных становится все сложнее, а цена ошибки возрастает».

По мнению специалиста IBS, наиболее существенное влияние на дальнейшее развитие систем управления для ЦОД оказывают две тенденции — все усиливающийся интерес к виртуализации/облачным вычислениям и «озеленение» ИТ. Переход к облачной инфраструктуре ИТ возможен лишь при наличии зрелой среды виртуализации и развитых средств управления виртуальной инфраструктурой — пула серверных и сетевых ресурсов, выделяемых по запросу в соответствии с рабочей нагрузкой. Внедрение же «зеленых» решений, существенно сокращающих эксплуатационные расходы, предполагает установку специальных систем управления электропотреблением и охлаждением.

По словам Евгения Кривоносова, генерального директора российского представительства компании BMC Software, растущая сложность используемых в современных ЦОД решений, ориентация на технологии виртуализации и переход к облачным вычислениям формируют дополнительные, а зачастую абсолютно новые требования к средствам управления ЦОД. Высокий уровень адаптивности ЦОД к изменяющимся условиям невозможно обеспечить без должной управляемости и предсказуемости функционирования ЦОД. На практике эти задачи (обеспечение адаптивности и предсказуемости) противоречат друг другу, и организациям приходится искать приемлемый баланс, выбирая оптимальные способы и инструменты управления.

 

СПАСАТЕЛЬНЫЙ DCIM

В прошлом году системы класса Data Center Infrastructure Management (DCIM) практически не использовались: по данным Gartner, уровень их проникновения составлял всего 1%. Однако, как предсказывают аналитики той же компании, к 2014 году этот показатель увеличится до 60%. Доходы от продаж систем DCIM будут расти так же стремительно: со 150 млн долларов в 2010 году до 7,5 млрд долларов к 2020-му (см. Рисунок 1).

 

Рисунок 1. Рост продаж систем управления класса DCIM.

 

Хотя все ведущие аналитические агентства дружно «провозгласили» фантастический «взлет» продаж систем DCIM, единого общепринятого определения этого понятия так и не появилось. Во многом это объясняется многофункциональностью и многокомпонентностью данных систем, составляющие которых по своим функциональным возможностям могут пересекаться как между собой, так и с другими системами управления.

Эксперты The 451 Group представляют DCIM в качестве систем для сбора и обработки информации об активах ЦОД, об использовании его ресурсов и их состоянии. Данная информация распределяется, интегрируется, анализируется и используется с целью оказания помощи обслуживающему персоналу по оптимизации производительности ЦОД и выполнению бизнес-задач.

Главное отличительное свойство систем DCIM — взаимодействие средств управления физической (инженерной) инфраструктурой и ИТ-активами. До недавнего времени такого взаимодействия не требовалось: в статичных средах инженерные и информационные системы работали независимо друг от друга. В современных динамичных ЦОД, где основное оборудование постоянно добавляется и обновляется, а виртуальные машины могут «переезжать» с места на место, требуется оптимальным образом соотносить выделение ресурсов систем электропитания и охлаждения, соединительных элементов кабельного хозяйства и места для физического размещения серверов и систем хранения. Закладывать же в проект избыточные мощности — чтобы их хватило при любом наращивании ИТ-активов — сегодня готовы немногие компании: такое решение получается слишком накладным.

 

ОСНОВНОЙ ФУНКЦИОНАЛ

В DCIM можно выделить четыре функциональные области. Первая — управление активами (Asset Management), предполагающее отслеживание местонахождения, перемещений и использования элементов ИТ-инфраструктуры. Это могут быть как физические элементы (монтажные шкафы, серверы, сетевое оборудование), так и виртуальные (виртуальные машины). Решения в этой области «должны» собирать данные с множества источников, желательно в режиме реального времени, и максимально удобно представлять их, отслеживая возможные изменения. Очевидно, что чем больше элементов инфраструктуры — а в ЦОД их очень много, — тем насущнее становится автоматизация процедур инвентаризации.

Вторая область — контроль электропитания. Чем ближе к нагрузке осуществляется измерение потребляемой ею мощности, тем выше точность таких измерений. Все чаще роль датчиков в системе контроля электропитания выполняют «интеллектуальные» блоки розеток (PDU). Однако оснащение такими блоками всех монтажных конструктивов — удовольствие не из дешевых, поэтому на многих объектах электрическая нагрузка контролируется на уровне группы шкафов или всего вычислительного зала. Учитывая важность подсистемы электропитания, эксперты советуют оснащать средствами контроля все ее основные элементы, включая вводные и распределительные щиты, системы гарантированного и бесперебойного электропитания (дизель-генераторы, ИБП), батарейные помещения. Помимо собственно сбора данных по энергопотреблению и контроля качества электропитания, многие системы управления располагают «интеллектом» для расчета коэффициентов энергоэффективности (например, PUE), выявления наиболее «прожорливых» элементов, прогнозирования изменений энергопотребности. Наиболее функциональные решения выпускаются поставщиками систем бесперебойного электропитания: APC by Schneider Electric, Eaton, Emerson Network Power и др. Однако в последнее время устройства для контроля электропитания предлагают все больше компаний, не являющихся поставщиками ИБП, в частности Panduit, TE Connectivity и пр.

Третья область — мониторинг рабочей среды (температура, влажность) внутри монтажного шкафа с оборудованием. Как отмечает Александр Брюзгин, региональный менеджер Panduit в России, СНГ и странах Восточной Европы, традиционно температурно-влажностные параметры определялись на уровне всего машинного зала, а обстановке в шкафу не уделялось должного внимания. Тепловая нагрузка была невысокой, а потому достаточно было установить кондиционеры, работающие на весь зал, — не требовались ни локальные «доводчики», ни дополнительные средства управления воздушными потоками. Сегодня без таких средств уже не обойтись, так как появляется все больше высоконагруженных конструктивов — на 10–20 кВт и даже больше. Температуру желательно измерять не в одной точке внутри шкафа, а в нескольких, чтобы контролировать изменение температурного профиля по высоте и оперативно реагировать на такие ситуации, когда внизу, где расположены серверы, прохладно, а вверху возникает перегрев. Современные средства мониторинга (выпускаемые не только производителями кондиционеров) интегрируются с системами охлаждения, поэтому последние могут оперативно реагировать на изменения параметров рабочей среды.

Четвертая область DCIM — планирование ресурсов. Уже разработаны системы, способные собирать информацию о свободных монтажных юнитах и портах в шкафу, текущем (и максимально допустимом) уровне энергопотребления, минимальной и максимальной температуре, что позволяет в ручном режиме выбирать оптимальные места для размещения нового оборудования. Следующий этап — автоматизация этого процесса: чтобы система могла сама «рекомендовать», куда лучше установить те или иные устройства с точки зрения оптимального расходования различных ресурсов.

 

КАБЕЛЬНОЕ ВТОРЖЕНИЕ

Продуктов, где весь функционал DCIM был бы реализован в полной мере, на рынке до сих пор нет. Но многие компании наращивают возможности своих систем управления — за счет реализации новых функций и обеспечения интеграции со сторонними средствами управлениям — с целью предоставления заказчикам максимально комплексного решения DCIM.

В этом направлении активно работают компании, известные в первую очередь как поставщики кабельных систем. Предлагаемые ими системы интеллектуального управления СКС изначально обладали уникальными возможностями, позволяя определить физическое местоположение того или иного сетевого объекта, тогда как классические системы сетевого управления «оперировали» только логическими топологиями. Понятно стремление таких компаний распространить имеющуюся экспертизу на задачи по инвентаризации ИТ-активов, реализовав также функции контроля за электропитанием и параметрами рабочей среды.

По данным, которые привел на форуме «Мир ЦОД», Владимир Стыцько, директор департамента корпоративных сетей компании «Tайко Электроникс РУС» (TE Connectivity), использование системы интеллектуального управления СКС обеспечивает снижение затрат на администрирование на 35–50% и позволяет в три – пять раз быстрее проводить инвентаризацию оборудования ИКТ, при этом достигается более эффективное расходование аппаратных ресурсов. Все это способствует снижению совокупной стоимости владения (ТСО) кабельной инфраструктурой (см. Рисунок 2). Кроме того, постоянный контроль за состоянием сетевых подключений (что, с чем и как соединено), быстрая и точная локализация источника проблемы по типу (подключение, связь, оборудование) и месту (ряд, стойка, позиция, порт), высокие скорость и точность устранения неисправностей способствуют повышению надежности и информационной безопасности ЦОД.

 

Рисунок 2. Затраты на «обычную» и управляемую (AMPTRAC) СКС.

 

По мнению Владимира Стыцько, одна из важных тенденций развития систем интеллектуального управления СКС — унификация существующих и появление новых технологий обнаружения и регистрации соединений на физическом уровне. Примером такой унифицированной технологии (поддержка большим числом производителей) он называет метод «девятого проводника», когда для обнаружения соединения между контролируемыми портами в коммутационный шнур (медный или оптический) добавляется дополнительный проводник. При включении такого шнура происходит замыкание сервисной цепи, что регистрируется анализатором — и соответствующая информация передается в базу данных. Важным достоинством этого метода регистрации соединений является совместимость с СКС любой категории (от Категории 5Е до 7А) и оптической подсистемой, а значит и поддержка скоростей до 100 Гбит/с. Поскольку технология «девятого проводника» является внешней по отношению к СКС, она обеспечивает возможность модернизации действующих СКС.

Однако в некоторых ситуациях, например при очень высокой плотности портов в сетях SAN (в них емкость оптического кросса может превышать 3 тыс. портов на стойку), метод «девятого проводника» не оптимален и предпочтительны новые технологии идентификации соединений. Владимир Стыцько обращает внимание на технологию Connection Point Identification (CPID), которая предусматривает оснащение стандартных соединителей (MPO, LC, RJ-45) специальным микрочипом, где может храниться самая разнообразная информация, скажем о категории кабельного шнура, его производителе, дате выпуска и других характеристиках. Наличие таких чипов обеспечивает и базовый функционал по идентификации соединений (при включении вилки шнура в разъем коммутационной панели) с передачей информации в базу данных в реальном времени. Но информационные возможности у CPID существенно шире, чем у классических технологий идентификации соединений.

В качестве другой важной тенденции специалист TE Connectivity указывает на уже упоминавшееся расширение функционала систем интеллектуального управления СКС, в том числе в части интеграции со средствами мониторинга и управления электропитания и охлаждения. «Если раньше при подключении нового сервера система проверяла наличие свободных портов и монтажного пространства, то теперь анализируется доступность электропитания и температурный режим на вероятность перегрева, — говорит он. — Соответствующая информация собирается путем обмена данными с другими системами и датчиками». Например, TE Connectivity предлагает систему AMPTRAC с программным обеспечением iCBS компании iTracs, которая совместима с управляемыми блоками розеток электропитания и мониторами состояния окружающей среды сторонних производителей, поддерживающих сетевой интерфейс и протокол SNMP. Она может контролировать энергопотребление посредством опроса устройства (или присоединенного к нему источника питания), а также использовать паспортные данные о максимальном энергопотреблении конкретного оборудования, заявленные его производителем, или нормативы, установленные самим заказчиком.

 

Рисунок 3. Системы DCIM смогут наглядно показывать, где лучше всего установить новое оборудования, а где могут возникнуть проблемы.

Следует отметить и развитие пользовательских интерфейсов систем управления, что делает работу с ними более удобной, а выполнение тех или иных операций — наглядным (см. Рисунок 3). Например, ПО iCDS обладает графическим интерфейсом для визуализации трехмерных элементов. Как утверждает Владимир Стыцько, многообразие предустановленных шаблонов с изображениями монтажных шкафов, систем бесперебойного электропитания, систем охлаждения, телекоммуникационного оборудования и других устройств ведущих производителей позволяет создать очень наглядную виртуальную картину реальной инфраструктуры.

По словам Александра Брюзгина, в области управления СКС компания Panduit уже все «реализовала и отточила». Ее система Physical Infrastructure Manager (PIM) тоже реализует основной функционал по управлению электропитанием (наряду с собственными блоками PDU обеспечивается взаимодействие с блоками розеток сторонних компаний) и мониторингу температурно-влажностного режима внутри монтажного шкафа — для этого имеются средства мониторинга и интерфейсы, позволяющие осуществлять интеграцию с системами кондиционирования. Такая интеграция уже реализована в ряде проектов. Например, если система управления фиксирует низкую температуру в шкафу (скажем, 18°С), она дает команду кондиционерам «сбавить обороты». Как только температура достигает уровня, заданного в качестве оптимального (например, 24°С), поступает команда, фиксирующая текущий режим.

Большие усилия Panduit направляет на развитие средств, отслеживающих местонахождение и перемещение оборудования. В настоящее время инвентаризация обычно выполняется вручную: на предметы наклеивают идентификационные бирки, а данные заносят в таблицу Excel или какую-либо базу данных. По словам Александра Брюзгина, в таблицах Excel хранят информацию обо всех ИТ-ресурсах своих ЦОД даже такие крупные организации, как Microsoft и ВМС США. Однако этот способ становится все менее приемлемым: на проведение инвентаризации вручную уходит масса времени и сил, поддерживать актуальность информации таким методом очень сложно, а виртуализация ресурсов вообще исключает применение бирок — на виртуальный сервер не наклеишь бумажку с надписью «бухгалтерия».

Автоматизировать процесс инвентаризации помогает использование штрихкодов. Panduit предлагает задействовать их, чтобы, в частности, отслеживать отключенное от сети оборудование — например, если оно находится на складе или в ремонте. Но у штрихкодов есть большой недостаток: они не дают возможности определить физическое местоположение объекта. Решить эту задачу позволяют метки RFID. Их можно «привязать», например, к направляющей монтажного шкафа, которая и будет служить своеобразной линейкой. Благодаря этим средствам можно дистанционно определить, в какое монтажное место установлен тот или иной сервер. Техническое решение на базе RFID компания Panduit разработала, но, как отмечает Александр Брюзгин, для массового внедрения с идентификацией каждого устройства оно пока слишком дорого. Тем не менее это очень перспективное средство инвентаризации.

 

С ДРУГОЙ СТОРОНЫ

 

Рисунок 4. Комплекс управления APC by Schneider Electric состоит из сервера InfraStruXure Central и набора программных модулей.

Другой «армией», занятой поисками «священного Грааля» DCIM, являются производители средств бесперебойного электропитания и охлаждения. Среди них выделяются компании APC by Schneider Electric и Emerson Network Power, предлагающие функционально богатые продукты. Так, комплекс управления APC by Schneider Electric, состоящий из сервера InfraStruXure Central (см. Рисунок 4) и набора программных модулей, полностью русифицирован, имеет открытый программный интерфейс Web API и снабжен набором средств разработчика для интеграции с другими приложениями. Мониторинг параметров окружающей среды и контроль доступа осуществляется посредством устройств APC NetBotz, а контроль электропитания — при помощи блоков PDU. Для управления оборудованием сторонних производителей система ISX Central использует стандартные средства ModBus и SNMP, причем, по заверению представителей APC by Schneider Electric, эти протоколы позволяют собирать данные с устройств большинства ключевых производителей.

Представители Emerson Network Power обещают осенью текущего года представить основные продукты для DCIM-системы Trellis, которая станет «первой интегрированной системой для управления инфраструктурой ЦОД, ликвидирующей разрыв между управлением ИТ-оборудованием и инженерными системами». Финальные компоненты, необходимые для создания такой единой системы, Emerson Network Power получила в 2009 году в результате приобретения компании Avocent. Аппаратура Trellis Appliance будет собирать данные со всех основных систем ЦОД (блоки электропитания, охлаждения, средства мониторинга параметров рабочей среды, ИТ-оборудование и т. д.) и предоставлять их «в распоряжение» программных модулей, обеспечивающих мониторинг, инвентаризацию, конфигурирование, управление изменениями, планирование развития и т. п.

 

НА УРОВНЕ ИТ-СЕРВИСОВ

Очевидно, что все принимаемые на уровне инженерной инфраструктуры усилия нужны для обеспечения должной работы ИТ-оборудования и предоставления ИТ-сервисов. В области управления ИТ-активами эксперты тоже делают акцент на развитие средств автоматизации, которые, как подчеркивает Евгений Кривоносов из компании BMC Software, дадут возможность управлять большим количеством изменений за меньшее время, внедрять эффективные политики и средства управления, заранее выявлять проблемы и автоматически реагировать на них. Он выделяет несколько направлений автоматизации:

  • автоматизация конфигураций позволит быстро производить изменения с минимальным риском, исключив сбои в предоставлении услуг в результате ручных операций и ошибок вследствие человеческого фактора;
  • автоматизация соответствия обеспечит автоматическую проверку активных конфигураций на предмет согласованности с политиками или стандартами, а также позволит оперативно устранить зафиксированные несоответствия;
  • автоматизация событий предусматривает фильтрацию и анализ событий в мэйнфреймах, распределенных системах, инфраструктурах и приложениях для своевременного выявления ИТ-проблем и исключения возможности их негативного влияния на критически важные ИТ-услуги;
  • автоматизация планирования заданий и распределения нагрузок поможет лучше контролировать нагрузки, в том числе распределяя их в масштабах предприятия, и интегрировать разрозненные бизнес-процессы.

Хотя представители BMC Software применительно к своим решениям не используют термин DCIM, их партнер Compfort International называет данные решения именно так. На форуме «Мир ЦОД» эта компания представила проект по реализации DCIM на базе продуктов BMC Software в гетерогенной среде. Заказчик — крупная (47 тыс. сотрудников) государственная организация в Польше, являющаяся владельцем 2 основных ЦОД и более 40 региональных. Ее ИТ-хозяйство включает всевозможные базы данных (DB2, ADABAS, Informix, MS SQL) и другие приложения, работающие на серверных платформах разных производителей. До реализации проекта заказчик использовал множество разрозненных решений, а также огромное число собственных разработок и макросов для управления различными частями ИТ-инфраструктуры, при этом отсутствовал единый центр контроля и технической поддержки, а каждая команда администраторов (UNIX, Windows, System Z) работала автономно.

Проект позволил объединить все под «одной крышей», используя стандартные методы мониторинга ресурсов и данные, предоставляемые «родными» системами управления. Был создан единый центр обработки всех событий и подготовлена платформа для мониторинга как ИТ-, так и бизнес-сервисов. Роман Юрьев, директор по продажам российского офиса Compfort International, сообщил, что заказчик смог на 20% повысить доступность критически важных объектов во время сервисного обслуживания и на 25% снизить количество сбоев — за счет проактивного реагирования. Число предупреждений (alerts) уменьшилось с 50 тыс. до 1 тыс., что стало возможным, в том числе, за счет эффективного управления «шумовой» информацией. В данном проекте реализована интеграция с инженерными системами энергообеспечения и кондиционирования, телефонной и другими системами, которые могут «общаться» по стандартным протоколам. При этом предприятие получило единую консоль мониторинга для централизованного управления.

По словам Романа Юрьева, в России Compfort International приступила к реализации нескольких проектов по интеграции управления инженерным и телекоммуникационным оборудованием с обеспечением мониторинга ИТ-активов. «При этом мы не стремимся заменять уже работающие системы, а интегрируем их в единую консоль BMC», — отметил он.

Представленный проект как нельзя лучше характеризует текущую ситуацию с решениями DCIM. Их полноценное внедрение предполагает реализацию интеграторского проекта с использованием DCIM-готовых систем разных компаний — поставщиков инженерной и сетевой инфраструктуры, ИТ-устройств и ПО управления. Осуществление девиза DCIM: комплексный подход к управлению с высокой степенью автоматизации — необходимо для эффективного обслуживания динамичных ЦОД, без которых, в свою очередь, невозможно развертывание облачных сервисов.

Александр Барсков — ведущий редактор «Журнала сетевых решений/LAN». С ним можно связаться по адресу: ab@lanmag.ru.