Планирование аварийного восстановления и обеспечения непрерывности бизнеса представляет собой процессы, помогающие организации подготовиться к разрушительным событиям, будь то ураган или простой перебой в подаче электричества, вызванный появлением на автостоянке экскаватора. Степень участия директора службы безопасности может варьироваться от контролирования плана до предоставления помощи и рекомендаций, а также введения плана в действие во время чрезвычайного происшествия. В данной подборке объясняются основные положения планирования непрерывности бизнеса и приводятся ссылки на материалы журнала CSO, посвященные этой теме.

Вопрос: Значение термина «аварийное восстановление» объяснять, пожалуй, не требуется. Существует ли какая-нибудь разница между ним и планированием непрерывности бизнеса?

Ответ: Аварийное восстановление — это процесс возобновления деятельности после разрушительного происшествия. Оно может быть серьезным — землетрясение или атаки террористов на Международный торговый центр — или незначительным — например, неполадки в работе программного обеспечения вследствие проникновения компьютерного вируса.

Человек склонен не думать о плохом, поэтому многие бизнес-руководители стараются игнорировать аварийное восстановление, ведь авария представляется им как нечто нежелательное. Планирование непрерывности бизнеса предполагает более общий подход к гарантированию безостановочного зарабатывания денег. Оба эти термина часто обозначаются общим сокращением BC/DR (business continuity/disaster recovery). Как бы то ни было, DR и/или BC определяет то, как компания продолжит функционировать после разрушительного происшествия до тех пор, пока ее обычные ресурсы не будут восстановлены.

Что включают в себя эти планы?

Все планы BC/DR должны содержать информацию о том, как сотрудники будут взаимодействовать друг с другом, куда они будут направлены и каким образом продолжат выполнять свою работу. Детали могут значительно варьироваться в зависимости от размера и широты деятельности компании, а также от того, как в ней ведется бизнес. В некоторых организациях такие вопросы, как логистика цепочек поставок, имеют наибольшую важность и представляют собой основной пункт плана. В других более значимую роль могут играть информационные технологии, и тогда в плане BC/DR основное внимание будет скорее уделено восстановлению систем. Например, в одной международной производственной компании этот план предусматривал восстановление мэйнфреймов, хранивших важные данные, в резервном помещении в течение четырех-шести дней после разрушительного события, установку мобильной офисной АТС с 3 тыс. телефонами в течение двух дней, восстановление локальных сетей с еще одной тысячей пользователей в случае такой необходимости и создание временного центра обработки вызовов со ста агентами на ближайшей учебной базе.

Однако важно, что ни один элемент не должен быть оставлен без внимания и планы, имеющие отношение к физическим, технологическим и человеческим ресурсам, не могут разрабатываться отдельно друг от друга. По сути своей BC/DR предполагает постоянное взаимодействие. Бизнес- и ИТ-руководители должны сообща работать над определением того, какой вид плана необходим и какие системы и бизнес-единицы имеют для компании наибольшее значение. Они должны вместе решить, какие люди ответственны за объявление о том, что произошло разрушительное событие, и за борьбу с его последствиями. Главное, чтобы план устанавливал процесс нахождения сотрудников и взаимодействия с ними после такого события. В случае катастрофы (пример — ураган «Катрина») план также должен учитывать то, что у многих сотрудников будут более серьезные заботы, чем возобновление работы.

С чего начать?

Начинать следует с анализа последствий для бизнеса. Так вы выявите наиболее важные системы и процессы и определите, какое воздействие их отсутствие оказало бы на бизнес. Чем сильнее потенциальное влияние, тем больше денег организации нужно тратить на оперативное восстановление системы или процесса. Например, акционерная компания может принять решение платить за лишние ИТ-системы, которые позволили бы ей немедленно начать обработку торговых операций в ином помещении. С другой стороны, производственная компания, возможно, придет к выводу о том, что поставки не обязательно возобновлять в течение 24 часов. Анализ последствий для бизнеса поможет установить последовательность восстановления, чтобы определить, какие элементы бизнеса должны снова начать функционировать в первую очередь.

Вот основные пункты, которые обязательно должен содержать в себе ваш план.

  • Разработайте и опробуйте чрезвычайный план, включающий общий план для вашего генерального директора.
  • Научите резервный персонал решать задачи в чрезвычайных условиях. Сотрудники, которые, как вы рассчитываете, возьмут на себя руководство в случае чрезвычайного происшествия, не всегда будут доступны.
  • Определите находящееся вне офиса компании место встречи высшего руководства в случае кризисной ситуации.
  • Заставьте всех работников, а также руководителей принимать участие в учениях, чтобы они знали, как действовать в чрезвычайных ситуациях.
  • Сделайте учения достаточно реалистичными, чтобы они вызывали у сотрудников эмоции, а вы, таким образом, могли бы видеть, как они будут реагировать в стрессовой ситуации.
  • Практикуйте антикризисные взаимодействия с сотрудниками, клиентами и внешним миром.
  • Инвестируйте в дополнительные средства коммуникации на случай поломки телефонных сетей.
  • Сотрудничайте с местными службами быстрого реагирования — пожарными, полицией и работниками скорой помощи — для установления прочных профессиональных отношений. Учения, нацеленные на проверку непрерывности, должны выявить слабые стороны.
  • Регулярно пересматривайте свой план обеспечения непрерывности для выявления изменений и внесения поправок. Технологии, персонал и оборудование компании находятся в постоянном движении.

Погодите. Приближенные к жизни тесты сами по себе являются «разрушительными происшествиями». Не достаточно ли, если значительное число людей примет участие в составлении и проверке наших планов?

Приведем пример компании, чьи руководители считают, что групповых игр и записей на бумаге недостаточно, и вы увидите, почему они правы.

Когда директор информационной службы Стив Ейтс пришел работать в компанию-поставщика финансовых услуг USAA, проверки непрерывности бизнеса существовали только на бумаге. Приблизительно раз в год высшее руководство собиралось в конференц-зале и играло в ролевые игры. Целый день они изучали и проговаривали различные сценарии, обсуждая, какие, по их мнению, должны устанавливаться процессы и как люди будут на них реагировать.

Реалистичные учения ограничивались техническими ресурсами компании. USAA периодически проводила тестовое восстановление данных различных бизнес-единиц: например, бралась часть отдела страхования жизни и ее данные восстанавливались из архивов.

Ейтсу было интересно, отражают ли такие пассивные упражнения реальную жизнь. Кроме того, он спрашивал себя, действительно ли в настоящей чрезвычайной ситуации сотрудники USAA будут знать, как следовать такому плану. После терактов 11 сентября Ейтс понял, что компания должна делать больше. «События 11 сентября заставили нас поднять собственную планку», — вспоминает он.

Ейтс пригласил внешних консультантов, которые посоветовали построить в окрестностях второй резервный центр данных. Взвесив стоимость и преимущества такого проекта, руководство USAA первоначально решило, что выгоднее снять помещение на восточном побережье. Но после атак на Международный торговый центр и Пентагон, когда движение воздушного транспорта остановилось, Ейтс понял, что создание центра данных в таком удаленном районе было бы опрометчивым шагом. Так совпало, что USAA должна была подписать контракт на аренду на той неделе, когда произошли теракты.

USAA построила центр в Техасе всего за 200 миль от своего офиса — достаточно близко, чтобы доехать на машине, но и достаточно далеко, чтобы получать электричество от другой станции и воду — из другого источника. Компания также составила планы по перенаправлению основных сотрудников в другие офисы страны.

Ейтс посетил такие компании, как FedEx, First Union, Merrill Lynch и Wachovia, чтобы узнать об их подходе к составлению чрезвычайных планов. Он также проконсультировался с фирмой Fleishman-Hillard о том, как в критической ситуации USAA смогла бы наиболее эффективно общаться со своими клиентами и служащими.

Наконец, Ейтс провел серию крупных учений, которые были нацелены на проверку действий отдельных бизнес-единиц и компании в целом в случае широкомасштабного нарушения ее деятельности. Когда USAA имитировала потерю главного центра данных своего сберегательного банка федерального уровня, Ейтс обнаружил, что он способен восстановить все системы, приложения и связь с 19-ю сторонними поставщиками. USAA также провела подобные учения в других бизнес-структурах.

Тем не менее Ейтс хотел, чтобы главное тестирование включало не только контроль технологических операций компании; он намеревался включить во все проверки чрезвычайных планов наиболее непредсказуемый элемент — людей.

В конечном счете в USAA обнаружили, что сотрудники, прошедшие учение, замечали недостатки планов и вносили свои предложения. Более того, те, кто прошел подготовку к чрезвычайным ситуациям, с меньшей степенью вероятности поддадутся панике и с большей — запомнят план.

Можете ли вы привести примеры открытий, которые компании делали в ходе проверок?

Некоторые компании заметили, что пока они резервировали свои сервера или центры данных, они забыли о резервных планах для ноутбуков. Многие организации не осознают значение данных, хранящихся на ноутбуках. По причине своей мобильности ноутбуки легко теряются или повреждаются. Катастрофа не нарушит бизнес, если сотрудники будут хранить важные или невосстановимые данные на своих ноутбуках.

Одна фирма заявила, что рассматривает возможность приобретения готовых обедов у компании, поставляющей их военным. У этих обедов долгий срок хранения, и они занимают мало места. Если сотрудникам придется долго находиться в здании фирмы, эти обеды придутся очень кстати.

Бывший директор по информационной безопасности и аварийному восстановлению компании OppenhiemerFunds Майк Хейджер отметил, что события 11 сентября сделали очевидной важность таких вопросов. Многим компаниям удалось восстановить данные, но у них отсутствовали планы по резервированию альтернативных рабочих мест. Международный торговый центр содержал более 20 млн. квадратных футов офисных площадей, а после 11 сентября в Манхэттене осталось только 10 млн. квадратных футов доступных площадей. Вопрос о том, куда сотрудники направятся сразу же после катастрофы и где им будет предоставлено временное жилье, должны решаться до того, как что-то случится, а не после.
В USAA обнаружили, что хотя близлежащий пункт назначения был обозначен, установка компьютеров и телефонов заняла около двух часов. В это время сотрудники должны были стоять под палящим техасским солнцем. После того как план был продемонстрирован в действии, возникло несколько вопросов, которые до тех пор не были полностью решены: есть ли более безопасное место, куда служащие могут быть помещены в этот промежуток времени? как в USAA должно решаться, можно ли сотрудникам вернуться в здание и когда это стоит сделать? как сотни людей воспользуются своими машинами, если ключи остались на столе? и пр.

Какие основные ошибки компании допускают в ходе аварийного восстановления?

Хейджер и другие эксперты указывают на следующие оплошности.

  1. Недостаточное планирование. Выявили ли вы все критически важные системы, есть ли у вас точные планы по их восстановлению? (На самом деле большинство людей не представляет себе, сколько у них в сетях серверов, как они сконфигурированы или какие на них расположены приложения, какие сервисы выполнялись, какая версия программного обеспечения или операционной системы используется. Считается, что здесь на помощь приходят инструменты управления активами, но они часто упускают важные детали о пересмотренных версиях ПО и т.д.
  2. Неспособность разработать и опробовать план по восстановлению.
  3. Неумение заручиться поддержкой высшего руководства. А именно:
    • неспособность продемонстрировать готовность к полному восстановлению;
    • отказ от анализа последствий для бизнеса и наличие пробелов в модели восстановления;
    • отсутствие эффективных планов восстановления, с информацией о желаемом времени восстановления, основных системах и приложениях, критически важных для бизнеса документах и бизнес-функциях;
    • отсутствие финансирования, достаточного для проведения тестирования хотя бы два раза в год.

У меня сохранилась папка с описанием нашего чрезвычайного плана за 2000 год. Его все еще можно использовать?

Вовсе нет (если только ваши компьютеры, сотрудники и деловые приоритеты не остались теми же, что и в 1999 году). Более того, планы 2000 года учитывают только неполадки компьютерных систем. Возможные физические бедствия, например, отключение электричества, природные катаклизмы или террористические акты, требуют решения дополнительных вопросов.

Можем ли мы создать чрезвычайный план при помощи аутсорсера?

Аварийное восстановление — внешнее хранение данных, мобильные телефоны, удаленные рабочие станции и т.п. — часто отправляется на аутсорсинг просто потому, что это разумнее, чем приобретение дополнительного оборудования или площадей, которые, возможно, никогда не будут использованы. После терактов 11 сентября поставщики услуг аварийного восстановления наладили системы и предоставили временные офисные помещения, снабженные телефонами и выходом в Internet, для десятков компаний, оставшихся без офисов.

Что бы вы посоветовали менеджерам по безопасности, которым нужно убедить своего генерального директора или совет директоров в необходимости планов аварийного восстановления и продемонстрировать их возможности? Какие аргументы оказываются наиболее вескими в разговоре с руководством?

Хейджер рекомендует директорам служб безопасности доказывать необходимость аварийного восстановления при помощи анализа потенциальных финансовых убытков и соответствующей документации. Поработайте с юридическим и финансовым отделом, чтобы составить отчет об общих потерях в сутки, которые понесет ваша компания, если вы не сможете оперативно провести восстановление. Подробно изучая свои планы обеспечения непрерывности бизнеса и аварийного восстановления, вы можете выявлять пробелы, препятствующие их успешному приведению в исполнение. Помните: аварийное восстановление и непрерывность бизнеса — это не более чем избежание риска. Высшим руководителям понятнее, если им продемонстрируют, насколько они рискуют.

Хейджер также утверждает, что у мелких компаний больше (более дешевых) способов аварийного восстановления, чем у крупных. Например, данные можно на ночь забрать домой. Это, безусловно, недорогой способ удаленного резервирования.

Часть вышесказанного кажется крайностью для моей компании. Не преувеличиваете ли вы?

Замысловатые операции, которые осуществляет USAA при разработке и опробовании своих чрезвычайных планов, могут показаться чрезмерными обычному директору службы безопасности (или же генеральному директору). В отношении некоторых компаний это действительно так. В самом деле, обучение обращению с взрывчатыми веществами и план эвакуации 20 тыс. сотрудников нужен не каждой организации.

Как и многие другие вопросы безопасности, планирование непрерывности сводится к базовому управлению рисками. Какой уровень риска может выдержать ваша компания, и сколько она готова заплатить за снижение различных рисков?

Планируя реакцию на непредвиденные события, компании должны сопоставлять риски со стоимостью такого чрезвычайного плана. Питу Хагдалу, помощнику вице-президента по безопасности USAA, часто приходится взвешивать «за» и «против». «Это очень сложно, когда задействован фактор стоимости, —
говорит он. — Мы собираемся потратить 100 тысяч долларов на то, чтобы обнести оградой свою территорию. Откуда мы знаем, что оно того стоит?»

И не подумайте, что существует точный ответ. Потратите вы деньги или нет, зависит от решения руководства, но это должно быть обоснованное решение. Если к созданию плана по восстановлению подходят равнодушно (вспомним ураганы 2005 года, теракт 11 сентября, отключение электричества в северо-восточном районе в 2003 году и т.д.), он окажется недостаточно эффективным.

 


Подборка вопросов и ответов составлена на основе статей из журналов CSO и CIO. Авторы статей: Скотт Беринато, Кэтлин Карр, Дейнтри Даффи, Майкл Голдберг и Сара Скалет

CSO Fundamentals: The ABCs of Business Continuity and Disaster Recovery Planning

Поделитесь материалом с коллегами и друзьями