Для того чтобы управление критической для сети физической инфраструктурой (Network-Critical Physical Infrastructure, NCPI) было успешным, должны соблюдаться те же критерии, что и при управлении серверами, системами хранения данных, коммутаторами или принтерами. В соответствии с ITIL 1 (процессы поддержки и предоставления услуг) для базового технологического уровня и уровня безопасности необходимо ввести кризисное управление, управление готовностью, управление емкостью и управление изменениями. Большая часть предприятий реализует эти четыре области управления именно в указанной последовательности. Кризисное управление обеспечивает непрерывный мониторинг всех подверженных отказам областей, то есть всей NCPI. В непредвиденной ситуации активизируется так называемая система управления инцидентами, которая выполняет функции оповещения или принимает контрмеры согласно предопределенным алгоритмам.

Задачей управления готовностью является, кроме прочего, непрерывное сравнение плановых показателей производительности с фактическими: для изменения, к примеру, параметров охлаждения. Необходимая предпосылка для этого состоит в точном знании последствий отказа компонентов NCPI. Управление емкостью позволяет осуществлять гибкое масштабирование необходимых ресурсов ИТ в нужное время и в рамках выделенных бюджетов. При этом к ресурсам ИТ относят систему подачи питания, охлаждение, стойки и проводку. Наконец, управление изменениями учитывает все влияющие на качество услуг модификации системы, в том числе обновления встроенного программного обеспечения отдельных компонентов NCPI или работы по обслуживанию, проводимые без остановки оборудования.

РАСПРЕДЕЛЕННЫЕ ФИЗИЧЕСКИЕ УГРОЗЫ

Угрозы качеству услуг в рамках NCPI могут носить цифровой или физический характер. Если цифровые угрозы (нападения хакеров, вирусные атаки и пр.) действуют на сетевом уровне, то физические направлены против защиты центра обработки данных.
К последним относятся как внешние угрозы системе обеспечения безопасности (кража, шпионаж, саботаж или пожар), так и инфраструктурные, или технические опасности. Эти угрозы называются распределенными, и их отражение происходит, с одной стороны, при помощи интегрированных датчиков, установленных в отдельные компоненты, к примеру, в источники бесперебойного питания или модули охлаждения, а с другой — посредством дополнительных датчиков, размещенных в центре обработки данных. В Таблице 1 представлены различные угрозы, косвенные убытки и соответствующие типы датчиков.

Все большим вниманием пользуется тема охлаждения. Локальный перегрев центра обработки данных относится к наиболее недооцениваемым рискам. Особенно это касается шкафов формата 19″, до отказа заставленных оборудованием. Замена старых серверов компактными моделями и плотное заполнение стоек приводит к значительной концентрации выделяемого тепла в стойках и серверных помещениях. Эта тенденция усиливается и из-за постоянно растущего потока данных. По прогнозам исследовательской компании IDC, в 2010 г. во всем мире будут эксплуатироваться 35 млн серверов, в то время как сегодня работают 24 млн таких устройств. Если еще десять лет назад в стойку монтировалось семь серверов, то в современном вычислительном центре их может быть уже свыше 20. К концу 2007 г. каждый третий сервер будет модульным.

Долгосрочная тенденция консолидации серверов ведет к увеличению необходимой для охлаждения мощности — до 20 кВт и выше по сравнению с обычными до сих пор значениями, составляющими от 2 до 5 кВт. Традиционные климатические установки не в состоянии удовлетворить эти требования и невольно ставят под угрозу готовность систем, поэтому интегрированные архитектуры охлаждения пользуются все большим спросом. Наглядным примером может служить концепция инфраструктуры высокой плотности компании АРС. Модульное решение NCPI должно, по мнению специалистов APC, обладать следующими свойствами. Размещение стойки по принципу «горячий проход — холодный проход» вместе с интегрированными климатическими модулями обеспечивает раздельный отвод теплого воздуха от устройств ИТ и последующую подачу охлажденного. Кроме таких систем, для повышения производительности охлаждения может использоваться концепция «комната в комнате» — с двойными полами или без них. Такие закрытые системы подходят для принятия дополнительных мер по защите от других физических угроз.

МОНИТОРИНГ И УПРАВЛЕНИЕ НА БАЗЕ IP

Система защиты центров обработки данных и серверных помещений эффективна настолько, насколько эффективно ее самое слабое звено. Следовательно, полноценное решение мониторинга и управления должно охватывать всю NCPI, а кроме того, предлагать стандартизированные интерфейсы, чтобы можно было распространить защиту на неучтенные изначально угрозы или повысить ее уровень в определенных областях. Еще одно преимущество применения центральных блоков мониторинга заключается в общем доступе на базе Web: посредством браузера Web и протокола IP можно запрашивать всю информацию, касающуюся безопасности и отказов, через единственный IP-адрес.

Установленные в стойках распределительные щиты питания (Power Distribution Units, PDU) и так называемые модули мониторинга окружающей среды (Environmental Monitoring Units, EMU) предлагают базу данных для мониторинга всех связанных с отказами параметров, к примеру, влажности воздуха в отдельном помещении или распределения нагрузки и температуры в вычислительном центре. Так, в устройствах APC центральный блок управления наряду с функцией мониторинга поддерживает разнообразные функции анализа, подачи сигналов тревоги и единого всеобъемлющего управления (см. Рисунок 1). Диаграммы потоков отражают проблемы еще до того, как они проявятся. На основе заранее определенных пороговых значений сотрудники, отвечающие за готовность оборудования, могут автоматически получать информацию об угрозе отказа. В качестве средств оповещения можно использовать электронную почту, события SNMP или внешние службы, к примеру SMS или мобильный телефон.

Рисунок 1. Системы корпоративного управления с центральным блоком управления и разными уровнями.

Предпосылкой для централизованного администрирования распределенных инфраструктур является стандартизация отдельных компонентов в рамках общей концепции. Согласование компонентов позволяет, к примеру, осуществлять управление вычислительным центром в целом или распределенными по предприятию отдельными источниками бесперебойного питания. Нестандартизированные устройства могут включаться в систему мониторинга при помощи PDU или EMU.

По данным опроса, проведенного среди менеджеров ИТ, около 60% всех отказов вычислительных центров происходят из-за ошибок персонала. При помощи опционального модуля управления инцидентами, который в случае отклонения от заданных параметров дает рекомендации по устранению ошибок, возможные недочеты можно устранить, в результате чего повышается общая готовность и сокращаются затраты на администрирование и обслуживание всей NCPI (см. Рисунок 2). Кроме того, определенный потенциал для экономии возникает благодаря интеграции модуля в имеющиеся системы управления сетью и зданиями и связанным с этим сокращением интерфейсов. Технически решение реализуется с помощью прерываний SNMP, которые перенаправляются на выбранную систему управления предприятием.

Рисунок 2. Оценка потенциальных потерь.

ЗАЩИТА ЦЕНТРАЛЬНОЙ СИСТЕМЫ УПРАВЛЕНИЯ

Несмотря на все преимущества централизованного управления NCPI нельзя не учитывать, что соединение на сетевом уровне несет цифровые угрозы для самого нижнего уровня системы безопасности. Поэтому надежное управление NCPI предполагает обязательное ограничение доступа, наряду с такими важными базовыми элементами, как защита сети, четкое разделение Internet и Intranet при помощи брандмауэров, организация демилитаризованной зоны и пр. При ограничении и управлении доступом необходимо учитывать два аспекта: аутентификацию и шифрование. В Таблице 2 представлен обзор важнейших протоколов аутентификации, их свойств и целей применения. В Таблице 3 перечислены наиболее значимые криптографические алгоритмы, которые используются с распространенными протоколами передачи данных SSH, SSL и TLS.

Клиент-серверный протокол Secure Shell (SSH) был разработан в середине 90-х гг. для надежного удаленного доступа к компьютерным консолям или программным оболочкам по незащищенным или ненадежным сетям. Он обеспечивает аутентификацию пользователей и серверов и шифрует весь трафик данных между клиентом и сервером. В отличие от протокола SSH, который изначально базировался на интерфейсе командной строки, протокол защищенных сокетов (Secure Sockets Layer, SSL) и появившийся вслед за ним протокол обеспечения безопасности на транспортном уровне (Transport Layer Security, TLS) считаются стандартными методами для защиты трафика Web и других протоколов, к примеру SMTP (электронная почта). SSL и SSH различаются интегрированными методами аутентификации серверов и клиентов. SSL используется и в HTTPS (HTTP Secure), открывая доступ к преимуществам графического пользовательского интерфейса.

ЭКОНОМИЧЕСКИЕ АСПЕКТЫ

Применяемые средства аутентификации для защиты системы управления NCPI довольно разнообразны — от запроса паролей до инфраструктуры открытых ключей (Public Key Infrastructure, PKI) на базе смарт-карт и биометрических методов. В случае физического доступа соотношение между эффективностью и затратами соответствует соотношению между готовностью и издержками и должно оцениваться очень точно. С точки зрения упомянутых выше базовых областей процессов ITIL можно добиться требуемых гибкости и адаптации решения без ущерба для качества услуг. В качестве полезных дополнений к описанной системе предлагаются инструменты для проектирования вычислительных центров, системы управления батареями и вспомогательные средства контроля доступа и мониторинга среды.

Михаэль Шумахер — технический директор компании APC-MGE.


© AWi Verlag


Таблица 1. Распределенные физические угрозы в вычислительных центрах.