Если бы завтра вам предстояло бежать марафон, как бы вы с этим справились? Весьма сомнительно, что вам удалось бы преодолеть 42 км и 195 м без предварительных тренировок и дополнительных упражнений. То же самое справедливо и по отношению к восстановлению работоспособности компьютерных систем после сбоев. Без регулярных тренировок шансы на успешное восстановление всех ИТ-операций в лучшем случае весьма незначительны. А вероятность того, что вы сумеете восстановить работоспособность всех систем и достичь поставленных целей, вообще равна нулю. Исследования компании Forrester показали, что выполнение планов восстановления работоспособности после сбоев относится к числу областей, в которых многие организации по-прежнему продолжают терпеть неудачи.

Представители большинства предприятий утверждают, что полностью отрабатывают планы восстановления после сбоев на практике по крайней мере раз в год. Но результаты наших исследований говорят о том, что большая часть таких тренировок проводится поверхностно и не в полном объеме. Зачастую компании отрабатывают лишь часть плана или берут лишь какое-то подмножество приложений. Представители многих организаций, опрошенные Forrester, знают, что им нужно совершенствовать программу тренировок, но этому мешают различные препятствия: недостаток поддержки со стороны руководства, ограниченные ресурсы сотрудников, боязнь прерывания бизнес-процессов. Если все это вам хорошо знакомо, прислушайтесь к десяти рекомендациям, которые помогут обновить и улучшить программу отработки процедуры восстановления работоспособности после сбоев.

 

1 Определите конкретные цели тренировок

Проведение тренировок ради тренировок — пустая трата времени. Поставьте перед собой ясные и конкретные цели, по достижении которых можно было бы сделать вывод о конечном успехе упражнения. Цель может быть сформулирована очень просто: проверить результат выполнения процедуры возврата к точке восстановления в течение заданного времени. В процессе тренировок можно поставить перед собой и другие цели — например, ознакомить администраторов баз данных с планами восстановления СУБД Oracle.

 

2 Привлеките заинтересованных руководителей из основного бизнеса

В выполнении упражнений по восстановлению работоспособности после сбоев владельцам бизнеса отводится ключевая роль. Их необходимо вовлекать в процесс с самого начала тренировок и до момента окончательного восстановления функционирования всех сервисов. Представители основного бизнеса должны проверить успешность восстановления обслуживания. Это позволит убедиться в том, что все бизнес-процессы и их критически важные компоненты работают должным образом, а заинтересованные руководители получат представление о том, в какой степени реальные возможности и скорость восстановления соответствуют декларированным.

 

3 Ротация персонала

Важно, чтобы планы восстановления работоспособности после сбоев составляли одни люди, а выполняли их другие. Маловероятно, что при возникновении реального сбоя составитель плана окажется на месте происшествия и сможет принять непосредственное участие в его устранении. Проведенные опросы показали, что в некоторых компаниях в выполнении тестов принимают участие сотрудники, не обладающие достаточным объемом необходимых знаний. Например, системные администраторы выполняют упражнения по восстановлению баз данных. Важнейшим побочным эффектом таких тренировок является приобретение сотрудниками дополнительных навыков. Выполняя упражнения в новой роли, они осваивают смежную специальность.

 

4 Определите конкретные сценарии рисков

На многих предприятиях тренировки по восстановлению работоспособности после сбоев проводятся без конкретных сценариев. Персоналу просто дают вводную, что весь ЦОД «окутан дымом». А между тем сценарии конкретных рисков очень важны. Это объясняется двумя основными причинами:

1) персонал попадает в реальную ситуацию, на которую нужно реагировать определенным образом;

2) различные сценарии требуют от сотрудников ИТ-служб специфичных действий.

К примеру, план восстановления работоспособности после отключения в основном ЦОД электроэнергии на короткое время отличается от восстановления после долгосрочного прекращения энергоснабжения. В первом случае требуется лишь возобновить нормальное функционирование, тогда как во втором потребуется передать управление дублирующему узлу (с последующим восстановлением работоспособности после отказа). А два перечисленных сценария отличаются от ситуаций, при которых из строя выходит только часть ИТ-инфраструктуры.

 

5 Проводите совместные тренировки с командами, отвечающими за непрерывность бизнес-процессов

Исследование Forrester показало, что зачастую группы, отвечающие за восстановление работоспособности систем после сбоев и непрерывность бизнес-процессов, проводят тренировки отдельно друг от друга, а взаимодействие между ними организовано далеко не самым лучшим образом. Совместные тренировки этих подразделений необходимо планировать по крайней мере раз в год. Это особенно важно, когда ЦОД располагается в том же месте, что и штаб-квартира компании.

 

6 Варьируйте типы упражнений

Общая ошибка ИТ-служб заключается в том, что теоретические занятия и обучающие упражнения здесь считаются необязательными. И хотя тренинги подобного рода не позволяют проверить наличие у сотрудников необходимых технических навыков, они имеют очень важное значение для обучения, подготовки и повышения квалификации персонала. Опрос показал, что неудачное выполнение упражнений обусловлено слабым взаимодействием и непониманием сотрудниками своей роли в процессе решения поставленных задач. Теоретические занятия и обучающие упражнения помогут отладить эти процедуры.

 

7 Хотя бы раз в год проверяйте комплексное восстановление всей ИТ-инфраструктуры

Если интервал между проверками составляет более года, у вас есть риск столкнуться со слишком большими изменениями, затрагивающими как ИТ-среду, так и персонал. Чтобы процедура восстановления выполнялась быстро, все новые сотрудники должны четко знать, что от них требуется. В передовых компаниях полная проверка процедур восстановления после сбоев проводится четыре раза в год. В промежутках между полномасштабными тестами выполняется тестирование отдельных компонентов, частота которого зависит от важности систем и темпов внесения изменений в ИТ-среду.

 

8 Отбор ключевых участников процедуры восстановления

Работая в стрессовых условиях нехватки времени и ресурсов, зачастую ночами и в выходные дни, люди справляются с этим по-разному. Подбирая основных участников команды восстановления ИТ-инфраструктуры, нужно отдавать предпочтение сотрудникам, которые способны четко выполнять свои функции в условиях оказываемого на них давления (работая без сна и отдыха). В ходе тестирования постарайтесь отобрать тех, кому удается сохранять спокойствие и собранность в стрессовой ситуации.

 

9 Учитесь на ошибках

Выполнение упражнений по восстановлению работоспособности ИТ-систем в контролируемой среде призвано помочь отыскать потенциальные препятствия, мешающие успешному проведению этой процедуры. Если в процессе выполнения упражнений и тестов никаких трудностей не возникло, скорее всего, вы просто не уделили им необходимого внимания, действовали недостаточно тщательно или выбрали для восстановления слишком простые сценарии. После выполнения всех упражнений и тестов и выявления возникших сложностей используйте полученный опыт для корректировки планов и написания инструкций и документации.

 

10 Составление отчета о результатах проверки для заинтересованных лиц

Если в последнее время ваша организация инвестировала средства в улучшение готовности к выполнению процедуры восстановления, руководству, очевидно, будет интересно узнать, каковы достигнутые результаты. Регулярно и своевременно составляйте отчеты о результатах выполнения упражнений и тестов, помогая заинтересованным лицам быть в курсе текущей ситуации. Помните, что отчет о выполнении тестов нужно представлять не в сокращенном (выполнен / не выполнен), а в развернутом виде, уточняя все ключевые аспекты и выделяя области, требующие дальнейшего улучшения.

Rachel Dines. How To Improve Disaster Recovery Preparedness. CIO Magazine. January 18, 2012