Всегда на службе

Для функционирования важных деловых процессов на базе ИТ приложения должны работать даже при возникновении ошибок в отдельных компонентах, а также во время технического обслуживания или расширения системы. При этом предприятию необходимо определить, какое время простоя оно может допустить для каждого компонента, приложения или системы. Обычно классификация систем высокой доступности осуществляется в процентах. Так, доступность на уровне 99,5% (этот показатель обеспечивается большинством стандартных кластеров) предполагает 44 ч простоя за год, при 99,9% — 8,76 ч, а при 99,99% — 52,6 мин. Доступность в 99,999% означает, что в течение года система не функционирует не более пяти минут (см. Рисунок 1).

Рисунок 1. Сравнение показателей доступности различных систем.

ИЗБЫТОЧНЫЕ СИСТЕМЫ

На аппаратном уровне высокодоступные решения ИТ реализуются двумя способами: с помощью кластеров или путем установки специализированных систем, которые сами по себе рассчитаны на очень высокую отказоустойчивость.

Для создания кластера администратор объединяет несколько компьютеров в одну систему — как правило, для этого используются недорогие стандартные серверы х86. Но не все кластеры одинаковы. Высокопроизводительные кластеры (High Performance Cluster) распределяют объемные задания как минимум между двумя серверами (узлами), но обычно их намного больше. А высокодоступные или отказоустойчивые кластеры (High Availability/Failover Cluster) предназначены для бесперебойной эксплуатации системы. Даже малые предприятия применяют отказоустойчивые кластеры с целью повышения доступности, ведь их можно реализовать всего с двумя серверами. В случае отказа первого узла (первичная система) второй (вторичная, или аварийная система) автоматически берет на себя его задачи. Более крупные отказоустойчивые кластеры часто распределяются между двумя (и более) площадками, где, в свою очередь, связывают несколько систем.

Альтернативу кластерам составляют специализированные параллельные серверные решения для массовой обработки. Благодаря избыточности аппаратного обеспечения и логической балансировке при передаче данных, они позволяют достичь очень высоких показателей доступности — 99,99999%. В таком случае время простоя за год не превышает трех секунд. Достоинство такого решения заключается в том, что оно позволяет консолидировать аппаратный ландшафт. Снижение количества используемых компонентов приводит к сокращению потенциальных источников ошибок и облегчает процесс администрирования.

Для достижения высоких показателей доступности системы необходима особенно надежная архитектура, как в аппаратной, так и программной части (см. Рисунок 2). Каждый высокодоступный сервер должен обладать хотя бы двумя отдельными узлами (логическими процессорами), свободно связанными друг с другом, а эти процессоры, в свою очередь, — двумя физическими микропроцессорами. При этом каждый логический процессор располагает собственным хранилищем и копией операционной системы. Избыточная сетевая архитектура связывает процессоры друг с другом. Микропроцессоры одного логического процессора синхронизируются, к примеру, при операциях ввода/вывода. Если последующее сравнение показывает разные результаты, то логический процессор отключается, и его задачи передаются другому. Иными словами, перед передачей информации система сначала снабжает все данные, которыми процессоры обмениваются с периферией, проверочными суммами. Несовпадение этих сумм указывает на возникновение ошибки при передаче. Поврежденный компонент отключается и заменяется. Одновременно резервный компонент продолжает работу.

Рисунок 2. Так Hewlett-Packard реализует защиту процессорного блока от отказов в своих системах Integrity NonStop.

Такие системы высокой доступности часто применяются в управлении производством, в телекоммуникациях или в сфере оказания финансовых услуг. В последнем случае обязательно выполнение строгих законодательных предписаний. Так, к примеру, соглашение Базель II требует сокращения производственных рисков. Здесь доступность ИТ играет очень важную роль.

РАСШИРЕНИЕ, ИЗМЕНЕНИЕ, АДМИНИСТРИРОВАНИЕ

Причиной простоя систем ИТ могут стать не только аппаратные или программные ошибки. При обеспечении максимальной доступности следует учитывать процессы модификации и расширения системы, а также ее обслуживание, к примеру, установку обновлений. Высокая доступность означает, что систему можно обслуживать и расширять, не прекращая эксплуатации.

Поэтому при создании отказоустойчивых структур ИТ следует оценивать не только серверы, но и сетевую среду, в особенности системы хранения, построенные, как правило, на основе NAS или SAN. Важная роль отводится автоматическому распределению нагрузки для тех случаев, когда какие-то серверы или компоненты будут временно недоступны. Автоматизация способствует согласованному, повторяемому и безошибочному выполнению важных процессов, снижает риск ошибок при управлении и повышает качество услуг.

В высокодоступных системах необходимо применять элементы, пригодные для «горячей» замены (Hot Swap) без отключения оборудования. В этой связи для расширения системы имеет смысл использовать только стандартные компоненты, чем достигается максимально возможное взаимодействие аппаратных блоков, даже изготовленных разными производителями.

ВИРТУАЛИЗАЦИЯ

В связи с высокой доступностью нельзя не упомянуть о виртуализации — логическом объединении ресурсов разных серверов, предоставляемых по мере необходимости. Эта технология играет очень важную роль, когда возникают запланированные или внеплановые отключения элементов системы. Она позволяет относительно просто отделять поврежденные системные компоненты и автоматически распределять альтернативные ресурсы ИТ по мере необходимости, поддерживая таким образом функционирование системы.

ПРИЧИНА ОТКАЗА: ПЕРЕГРЕВ

К защите ИТ предприятия от сбоев относятся также выявление и устранение источников отказа. Перегрев считается одной из наиболее частых причин такого отказа. Поэтому особое внимание следует обратить на создание подходящих систем климатизации и охлаждения, включая защиту систем охлаждения от сбоев. Однако все более компактные системы и высокая плотность установки оборудования в серверных шкафах приводят к появлению так называемых «горячих зон» (Hot Spots), так что нагрузка на климатическое оборудование оказывается предельной.

Важно не просто обеспечить достаточное охлаждение, но стремиться к снижению потребления электроэнергии отдельными компонентами, а следовательно, сокращению выделяемого тепла, которое необходимо отводить. Поэтому в кластерах все чаще используются энергосберегающие модульные серверы (Blade Server), что предполагает централизованную и избыточную концепцию энергоснабжения и охлаждения. Еще один способ энергосбережения — установка систем водяного охлаждения, обладающих в три раза большей эффективностью по сравнению с традиционными решениями охлаждения для серверных шкафов.

ЗАКЛЮЧЕНИЕ

ИТ-решения высокой доступности позволяют предприятиям быть уверенными в надежном функционировании бизнес-процессов, если критически важные корпоративные данные хранятся в цифровом виде и требуется их постоянная доступность. Благодаря зрелым и проверенным технологиям, повышение надежности перестало быть технической проблемой и зависит лишь от выделяемого бюджета и прагматичной оценки реальной пользы от инвестиций. Важнейший аспект в стратегии по обеспечению высокой доступности — это всеохватывающий подход, ведь каждое решение сильно настолько, насколько прочно его слабейшее звено. Соответственно, для высокодоступных ИТ важны не только серверы, но и сетевые компоненты, и системы хранения. Лишь в сочетании с избыточными сетевыми соединениями и системами хранения отказоустойчивые кластеры или серверы действительно оказываются высокодоступными.

Клаус Румзауэр — руководитель отдела «Корпоративные серверы и системы хранения» компании Hewlett-Packard Deutschland.