Восстановление после аварийного сбоя

Майкл Малхолланд, основатель и вице-председатель совета директоров компании Evergreen Assurance, отвечает на вопросы читателей журнала CIO по проблемам восстановления после аварийных сбоев.

Майкл Малхолланд, основатель и вице-председатель совета директоров компании Evergreen Assurance, отвечает на вопросы читателей журнала CIO по проблемам восстановления после аварийных сбоев.

Вопрос: В настоящее время я консультирую компанию, входящую в список Fortune 500, по вопросам составления программы восстановления после аварийного сбоя. Мой клиент имеет соглашение об обеспечении непрерывности бизнеса. Мы исследуем возможности организации поставок ПК и другого оборудования в течение 48 часов. Что бы вы посоветовали: воспользоваться типовым запасом или привлечь ресурсы вторичного рынка с целью сокращения издержек?

Ответ: За символическую плату вы можете получить гарантированный доступ к типовым запасам, и при этом вам не придется иметь дело с характерными для вторичного рынка не поддающимися прогнозу обстоятельствами (в первую очередь речь идет о времени поставки в кризисный период). Такой доступ вы можете получить через поставщика или дистрибьютора, «приобретя» права доступа к обновляемому набору продуктов. Эти права подобны опционам на рынке ценных бумаг. Они обеспечивают вам доступ к необходимому оборудованию и устраняют риск несвоевременных поставок во время катастрофы. Позаботьтесь о том, чтобы предлагаемые компьютеры были от надежного поставщика, а условия контракта соответствовали вашим потребностям. Помимо прочего, этот метод исключает риск приобретения устаревшего оборудования, поскольку обновляемые запасы комплектуются современными аппаратными средствами.

В: Я уже несколько лет занимаюсь планированием операций по восстановлению после аварий в масштабе предприятия. Зачастую в корпорациях сотрудники не обучаются выполнению нескольких смежных функций. Я считаю, что причиной происходящих в фазе тестирования срывов мер по восстановлению после аварий в большинстве случаев является всеобъемлющий план, включающий в себя контроль изменений, планирование мер по восстановлению на уровне стихийных бедствий, проверки страхования и т. д. Подтверждается ли такой вывод вашим опытом и в чем, на ваш взгляд, состоят основные бреши в системе подготовки персонала?

О: Две серьезные бреши, препятствующие восстановлению, находятся в сфере управления изменениями. Практически в четырех из пяти случаев срыва мер по восстановлению прослеживается связь с контролем изменений. Процесс документирования изменений в плане обеспечения бесперебойности бизнеса и распространение системных изменений на средства восстановления ИТ, такие, как оборудование, ленты, модули коррекции, модификации реестра, а также версии приложений и операционной системы — вот где, как правило, возникают проблемы. Их можно обнаружить путем более частого тестирования, но для того, чтобы кардинально решить проблему управления изменениями, нужно, чтобы соответствующие средства были встроены в ИТ-системы — будь то с помощью автоматизации или с использованием средств управления потоком работ. Ведь недаром топ-менеджеры озаботились проблемой наведения порядка в финансовой отчетности фирм лишь после того, как за нарушения в этой сфере были установлены серьезные штрафы.

В: Какое расстояние от производственных помещений до центров обработки данных, ориентированных на восстановление информации после аварий, следует считать идеальным? Как найти «золотую середину» между соображениями безопасности (чем больше расстояние, тем лучше) и реальными обстоятельствами, связанными с транспортировкой лент и служащих (чем больше расстояние, тем сложнее)?

О: В каждом конкретном случае идеальное расстояние будет зависеть от особенностей компании: каковы риски, с которыми она сталкивается, и насколько значительно их влияние на деятельность фирмы. Я полагаю, что самыми важными являются следующие факторы: географический, отраслевой, а также фактор, определяющий, какие активы предприятия подвергаются риску.

Начнем с географического фактора. Если речь идет о крупных городских районах, где существует опасность массовых террористических актов или масштабных катастроф — техногенных либо природных, — расстояния между производственными помещениями и центрами обработки данных, ориентированными на восстановление информации после аварий, должно быть больше. Когда в районе, где располагается компания, существует множество подобных угроз, вероятность наступления события, представляющего опасность для компании, повышается, и для такой компании необходимость размещения «аварийных» центров обработки данных на большом расстоянии является более настоятельной, чем для фирмы, расположенной в районе с низкой вероятностью наступления подобных событий. Далее, приняв во внимание отрасль, к которой относится компания, мы можем получить обобщенное представление об ущербе от простоев и о вероятности серьезных юридических рисков для компании в случае аварии. Наконец, последний фактор дает основания для оценки активов, которые могут пострадать по наступлении длительного периода бездействия. В ходе анализа я, с одной стороны, учитываю издержки, связанные с перемещением средств восстановления данных на большое расстояние, а с другой — такие факторы, как возможный ущерб от сокращения объемов продаж, от разрушения клиентской базы и от прекращения отлаженных связей с партнерами. Ответы на эти три вопроса дают возможность получить обобщенное представление о рисках и о «рискоустойчивости» предприятия. Если фирма находится в зоне возможных стихийных бедствий, ей вряд ли стоит располагать средства аварийного восстановления на расстоянии свыше 50 км от главного офиса. В случае опасности техногенных катастроф и террористических актов эту дистанцию следует увеличить до 160 км, а то и более того. Но все дело в том, что даже короткое расстояние может стать непреодолимым. В прошлом планы восстановления традиционно базировались на предположении, что пункт хранения резервных данных всегда будет доступным. Но не поддающиеся прогнозу события, имевшие место в различных районах Америки в течение последних лет, со всей очевидностью показали, что сегодня такая доступность не гарантируется. Так, из Нью-Йорка нельзя было вылететь в дни широкомасштабного отключения электроэнергии. Вообще все авиарейсы были отменены 11 сентября 2001 года в США, а в ходе другого инцидента, связанного с террористическим акциями вооруженных снайперской винтовкой преступников, было фактически заблокировано движение по шоссе I95, имеющему общенациональное значение. Отсюда следует, что в дальнейшем специалистам компаний придется сосредоточить свое внимание на такой проблеме, как автоматизация процессов восстановления после аварии. Автоматизировав процессы, так что ими можно будет управлять дистанционно, они смогут реагировать на многие ситуационные воздействия. Еще одна проблема — восстановление работоспособности конечных пользователей. После возобновления функционирования основных систем фирмы на вторичном или резервном сайте встает вопрос об обеспечении нормальной работы пользователей. Как это сделать? Предоставив им условия для работы дома или на рабочих местах, расположенных вне зоны бедствия. Если наделить важнейшее приложение средствами для работы в среде Web, сотрудники смогут возобновить исполнение своих обязанностей в любой географической точке. Преимуществами такого подхода могут воспользоваться менеджеры, ответственные за обеспечение непрерывности бизнеса. Недаром он получает все более широкое распространение в ИТ-подразделениях.

В: Как вы оцениваете практику организаций, распределяющих ответственность за планирование мер по обеспечению непрерывности бизнеса по нескольким подразделениям? Разве не разумнее оставить все компоненты — оборудование, процедуры обеспечения информационной безопасности, резервного копирования и т. д. — за одним отделом, хотя бы в целях соблюдения общих стандартов? Разве не лучше, когда ответственность за то, чтобы все отделы действовали в соответствии с принятым в компании планом мероприятий по обеспечение непрерывности бизнеса, несет один человек?

О: Согласен, но такой человек есть — это директор информационной службы. Понимаете, в деле обеспечения непрерывности бизнеса так уж получается, что и планирование, и выполнение представляют собой цепочку компромиссов. Разобраться в тонкостях ведения дел в той или иной конкретной сфере непросто. Поэтому необходимо, чтобы группы, в задачу которых входит обеспечение соответствующих элементов непрерывности как в нормальных условиях, так и в периоды кризисов, пользовались авторитетом и могли сказать свое веское слово. Непрерывность функционирования фирмы, обеспечиваемая ежедневно в виде высокой степени готовности и уровня обслуживания, является тем критерием, по которому постоянно оценивается деятельность ИТ-менеджеров. По этому же критерию оценивается и отдача от средств, вложенных в обеспечение готовности и непрерывности, — вне зависимости от обстоятельств. В вопросах, касающихся обеспечения непрерывности бизнеса, правой рукой директора информационной службы является менеджер по вопросам непрерывности бизнеса (Business Continuity Manager, BCM). И надо сказать, что на плечи этого руководителя возложена задача исключительной сложности.

Работая в тесном контакте с директором информационной службы и заместителем директора по финансовым вопросам, BCM занимается повышением устойчивости предприятия к воздействию рисков. Он разъясняет представителям всех групп необходимость принятия мер по защите от рисков и координирует их усилия в этой сфере. Для того чтобы добиться максимальной эффективности своей работы и утвердиться в этой роли, BCM может взять на себя обязанности куратора всего направления оценки рисков. ИТ-группы должны будут обосновывать предлагаемые планы действий, разъясняя, каким образом эти планы способствуют достижению их внутренних целей, и какой вклад вносят в реализацию утвержденных целей компании в сфере обеспечения непрерывности бизнеса. Но, в конце концов, именно директор информационной службы головой отвечает за обеспечение непрерывности функционирования ИТ-инфраструктуры. Именно он должен давать «добро» на реализацию одного из конкурирующих групповых проектов и выбирать, куда вкладывать деньги: в высокий уровень готовности (повседневная защита) или в меры по обеспечению восстановления после аварии (защита в случае наступления тех или иных событий).

В: На основании каких метрик можно делать заключение об успешности программы обеспечения непрерывности бизнеса?

О: Первый критерий — многократные успешные испытания. Доля неудач при проведении первых испытаний всегда бывает чрезвычайна высокой и составляет порядка 80%. Если вы не проводите эталонное тестирование регулярно, то вся ваша работа — гадание на кофейной гуще. Только в том случае, если применяемые в компании процессы могут быть количественно исследованы и повторены, их можно как-то усовершенствовать. Такие показатели, как RTO (Recovery Time Objective, целевое время восстановления) и RPO (Recovery Points Objective, целевые точки восстановления) должны быть заменены другими: RTA (Recovery Time Achievable, реальное время восстановления) и RPA (Recovery Points Achievable, реальные достижимые точки восстановления), получаемыми в ходе неоднократных измерений. Следующий этап работы над программой обеспечения непрерывности бизнеса состоит в том, чтобы обеспечить непрерывность в режиме «все как обычно», то есть за счет высокого уровня готовности. Возможно, кто-то полагает, что это само собой разумеется, но если учесть, что 90% простоев планируется заранее, получается: сокращение запланированных неоправданных простоев дает больший эффект, чем любое отдельно взятое мероприятие в рамках программы восстановления после аварийного сбоя. Кроме того, такое сокращение обеспечивает непосредственную и поддающуюся измерению выгоду для организации, что, в свою очередь, способствует укреплению авторитета ИТ-подразделения, повышению прибыли на вложенный капитал, а значит, увеличению финансирования, а также внедрению важнейших компонентов ИТ-решений, которые будут применяться при проработке сценариев «что если?» для определения объема средств, выделяемых на те или иные меры в рамках программы восстановления после аварии.

В: Каковы наиболее эффективные способы сокращения времени восстановления систем после аварии? Насколько быстро можно решить эту задачу, учитывая такие факторы, как например время, затрачиваемое на поездку к месту расположения резервного узла?

О: Лучший метод состоит в том, чтобы чаще проводить успешное тестирование — как на уровне компонентов, так и на уровне систем. Потери времени в процессе восстановления объясняются прежде всего тем, что сотрудникам приходится принимать решения в ситуации стресса. В процессе испытаний участники вновь и вновь сталкиваются с нетипичными проблемами, оттачивают навыки, необходимые для решения реальных задач восстановления. Благодаря этим навыкам восстановление осуществляется быстрее вне зависимости от применяемого решения или метода. Регулярные испытания не только позволяют сократить время процесса за счет снижения вероятности совершаемых сотрудниками ошибок и уменьшения числа решений, принимаемых в условиях неопределенности. Они дают возможность выявлять недостатки документированного плана, которые можно тут же исправить. Но для большинства компаний доступ к среде резервного копирования часто бывает ограничен из-за того, что к разделяемой среде резервного копирования приходится постоянно обращаться в процессе производственной деятельности, а также из-за того, что испытания предполагают непроизводительное расходование ресурсов, включая временные, финансовые и человеческие ресурсы. Это наблюдение подтверждается получающей все более широкое распространение практикой, когда компании отказываются от услуг внешних подрядчиков и берут процесс восстановления после аварии в собственные руки. В условиях, когда цены на аппаратные и программные средства снижаются, а уровень сложности решений повышается, все большее число компаний могут позволить себе разрабатывать решения силами штатных специалистов. Если же такой подход к решению проблем восстановления после аварии для вас неприемлем или не вписывается в ваш бюджет, рассмотрите возможность проведения тестов с использованием резервных компонентов. В этом случае ваши планы, копии лент и программные модули коррекции всегда будут соответствовать текущему моменту.

Disaster Recovery. CIO Magazine online. http://www2.cio.com/ask/expert/2004/session386.html