Устойчивость согласно требованиям

     Для ряда организаций, таких как банки, телекоммуникационные и торговые компании, даже считанные минуты простоя критически важных бизнес-приложений приводят к ощутимым финансовым потерям. Их ИТ-системы должны работать круглосуточно. Существует общепринятая система оценки надежности серверных систем: доступность сервисов 90% предполагает максимальное время простоя — 37 дней в год, 99% — 3,7 дня, 99,9% — 8,8 часа и т. д.
     Разумеется, 37 дней недоступности ИТ-сервисов в течение года могут устроить лишь самые непритязательные компании. 99% является удовлетворительным показателем для большинства организаций. Системы же, обеспечивающие доступность 99,9%, уже называются отказоустойчивыми. Но несмотря на кажущуюся близость показателей с двумя и тремя «девятками», инвестиции в их обеспечение будут очень сильно различаться.
     Идеология создания отказоустойчивых решений сводится к устранению «единых точек отказа» — узлов, отказ которых приводит к неработоспособности всей системы. Основным способом их устранения является избыточность — дублирование всех основных компонентов: вычислительных мощностей, дисковых массивов, каналов связи, источников питания. Для большинства компонентов избыточность реализуется не по принципу полного дублирования, а по схеме N+1 (один запасной элемент для каждой группы), что способствует значительному сокращению инвестиций.
     Но иногда необходимы решения, которые сохраняли бы работоспособность даже в чрезвычайных ситуациях — при полном обесточивании или разрушении здания ЦОД. В этом случае на тех же принципах возможно создание катастрофоустойчивого решения — географически распределенной системы, все дублирующие узлы которой разнесены территориально. При сбое на одной из площадок всю нагрузку до восстановления работоспособности берет на себя другая.
     При выработке решений по обеспечению непрерывности бизнеса правильнее всего использовать сервисный подход. Под сервисом подразумевается вся инфраструктурная цепочка (от рабочего места до ЦОД), необходимая для работы пользователя с информационной системой. Помимо проектирования технологий, необходимо также учитывать пожелания бизнеса относительно важности тех или иных ИТ-сервисов. Например, на основе опросных листов, заполняемых пользователями бизнес-приложений, определяется необходимое время функционирования систем.
     С целью оптимального расходования ресурсов разумно делить системы по степени своей критичности на несколько классов. Каждому из классов придаются соответствующие атрибуты, включающие время и скорость восстановления, и разрабатываются типовые схемы резервирования.
     Вполне логично для поддержки наиболее критичных приложений использовать оборудование класса hi-end. В случае менее критичных систем с целью соблюдения баланса надежности и стоимости, во-первых, используется более дешевое оборудование. Во-вторых, упрощаются применяемые схемы, вплоть до самых простых решений, когда обеспечивается функционирование систем, но не обеспечивается их высокая доступность.
     Построение параллельного объекта в виде резервного ЦОД, который в любой момент готов к принятию нагрузки, и перенос туда критически важных бизнес-сервисов делают реальными появление нескольких «девяток» в показателях их доступности.
     По оценкам экспертов, если остановка ИТ-систем более чем на час критична для компании, необходимо найти средства, чтобы создать полноценный резервный ЦОД постоянной готовности, дублирующий наиболее критичные системы основного.

«Семь раз отмерь...»
Примером «правильного» подхода к созданию отказоустойчивого решения может служить проект, реализацию которого начал «Нордеа Банк». В данный момент завершена первая его стадия — разработка концепции решения, проведенная с участием консультантов «Ай-Теко», в которой, помимо предлагаемых технических решений, планов и бюджетов реализации, отражены реалии и особенности российского ИТ-рынка. Результатом работ стал документ, содержащий всесторонний анализ информационных систем банка с точки зрения отказо- и катастрофоустойчивости, анализ российского рынка поставщиков решений и услуг для построения отказоустойчивых решений, а также сценарии чрезвычайных ситуаций и рекомендации по обеспечению непрерывности бизнес-процессов.