Человеческий фактор

Стратегии восстановления после аварии охватывают не только соответствующие технические решения для быстрого приведения системы в рабочее состояние, но и нечто большее. Лишь при вовлечении в планирование практически всех подразделений, отработке навыков поведения сотрудников в аварийной ситуации, а также систематическом тестировании план действий в аварийных ситуациях можно считать полным.

Рисунок 3. Причины отказов.

Aвария не обязательно означает полную остановку всех систем. Простой одной-единственной недостаточно защищенной системы также может привести к аварийной ситуации, послужить причиной долгосрочной остановки предприятия и потери важных данных. Это влечет за собой потерю доверия и требования о возмещении убытков со стороны клиентов и партнеров, что, без сомнения, негативно отразится на репутации компании в глазах общественного мнения, на ее балансе и курсе акций.

Однако, согласно опросу, проведенному в 2002 г. компанией Veritas Software среди 650 средних и крупных компаний, стратегии восстановления после аварии нет примерно у одной пятой опрошенных компаний, причем свыше 52% из них хотя бы один раз в квартал сталкиваются с внеплановыми остановками.

Под стратегией восстановления после аварии понимают планирование всех процессов, с помощью которых предприятие может возобновить свою работу после сбоя в течение определенного промежутка времени. Что считать аварией и какие меры для защиты от ее последствий нужно предпринять, определяет сама компания. Задача далеко не тривиальная: для каждой среды должны разрабатываться индивидуальные стратегии, проектирование и реализация которых в зависимости от охвата может длиться от трех до 12 месяцев, а для очень сложных сред необходимо планировать еще более длительный срок.

ШАГ 1. СОЗДАНИЕ КОМАНДЫ

Избыточность является одной из важнейших составляющих любой стратегии восстановления после аварии, и это касается не только технической стороны. Именно команде, а не одному сотруднику нужно поручить ее разработку, так как, во-первых, это ускорит создание плана, во-вторых, в аварийной ситуации каждый в отдельности сможет взять руководство на себя. Причем сотрудников следует привлекать как можно из большего числа подразделений организации и ее филиалов. Так, одной из крупнейших проблем американских компаний во время восстановления систем после 11 сентября 2001 г. был крайний недостаток рабочей силы и специальных знаний, поскольку во время теракта погибли почти все специалисты отделов ИТ.

Лишь в 12% опрошенных компаний, тем или иным образом подготовленных на случай катастрофы, в планирование вовлечено высшее руководство. Причем, как показывает опыт, восстановление после аварии — насущная проблема не одних лишь администраторов ИТ. Подразделения компании — юридический отдел, отдел кадров, производство и сбыт — могут предоставить важную информацию о том, как на них отражается выход из строя той или иной системы, какие данные необходимы для конкретного коммерческого процесса и какие соглашения об уровне сервиса с клиентами и партнерами следует учесть. Важность всеобъемлющей стратегии восстановления после аварии станет понятной для всех, если в ней примет участие руководство и другие отделы, а значит, будет проще получить средства на предлагаемые решения.

ШАГ 2. ОПРЕДЕЛЕНИЕ ИНДИВИДУАЛЬНЫХ ТРЕБОВАНИЙ

В начале подготовки любой стратегии восстановления после аварии следует точно определить требования. Нужно проверить, как долго компания способна обходиться без своей системы, не неся большого ущерба, и какая максимальная потеря данных допустима (см. Рисунок 1).

Рисунок 1. Требования ко времени восстановления и безопасности данных в зависимости от вида деятельности.

Это решающий фактор для выбора конкретного решения восстановления после аварии. Так, организации, где какая-либо потеря данных должна быть полностью исключена, прежде всего банки и прочие финансовые институты, делают ставку на такие технологии, как зеркальное копирование и синхронное тиражирование, добиваясь, чтобы текущая копия базы данных всегда находилась в актуальном состоянии. Компании с менее критичными требованиями обходятся обычной резервной копией на магнитной ленте: если администраторы сохраняют массивы данных ежедневно, тогда в худшем случае будут потеряны изменения за несколько последних часов работы, для восстановления которых необходимы заранее известные затраты времени и средства. Таким образом, диапазон технологий простирается от создания резервных копий, в том числе со специальными расширениями для восстановления после аварии, вплоть до охватывающего все предприятие синхронного тиражирования с наивысшей степенью защиты данных (см. Рисунок 2).

Рисунок 2. Степень готовности различных решений восстановления после аварий.

Для определения конкретных требований необходимо провести анализ положения дел на предприятии и, прежде всего, инвентаризацию. В результате точно определяется, какие приложения и где именно реализованы, на какой платформе работают и какие ресурсы требуется предоставить, чтобы обеспечить бесперебойный режим функционирования. Одна из наиболее частых ошибок заключается в том, что недостаточно внимания уделяется настольным системам и ноутбукам. По исследованиям Veritas, стратегия восстановления после аварии охватывает менее чем 50% используемых в компании мобильных устройств, а о настольных системах, как и о персональных компьютерах в домашних офисах, вообще забывают. К анализу состояния дел относится и проверка уже реализованного решения восстановления, ее включение в стратегию позволит сократить расходы на разработку решения восстановления после аварии. Таким образом, уже традиционное решение резервного копирования превращается при помощи опции интеллектуального восстановления после аварии либо опции восстановления одной лишь аппаратной части в эффективный инструмент для быстрого возобновления работоспособности системы.

Следующий шаг — анализ рисков. На этом шаге нужно выявить все слабые места среды ИТ. Кроме того, анализ должен включать, как составную часть, рассмотрение индивидуальных рисков для каждого отдельного подразделения. Речь идет не только о том, чтобы набросать сценарий наихудшего развития событий в случае стихийных бедствий и политических кризисов, но и о реальной оценке опасностей со стороны компьютерных вирусов, вредительства, ошибок аппаратного и программного обеспечения либо просто халатности со стороны сотрудников!

При анализе рисков проверяется значимость отдельных приложений, так как не каждое из них в действительности критично. Для получения достоверных результатов полезным оказывается опрос всех сотрудников компании — они лучше знают, какая информация наиболее важна для их области деятельности, а от каких данных хотя бы на какое-то время можно отказаться. Приобщив к рассмотрению соглашение об уровне сервиса, товарооборот и расходы на содержание персонала, можно установить все потенциальные последствия выхода системы из строя.

Результаты анализа составляют основу для выбора подходящего решения восстановления после аварии и показывают, много ли придется потратить на защиту отдельных подразделений и компании в целом. Рынок предлагает широкий выбор технологий для защиты данных и обеспечения высокой готовности в соответствии с каждым конкретным требованием. Как правило, не все продукты с реализацией необходимых мер безопасности одинаково важны для предприятия, поэтому целесообразнее использовать различные решения для разных подразделений или приложений.

ШАГ 3. СОЗДАНИЕ РЕЗЕРВНОГО УЗЛА

Наиболее комплексным решением является создание второго офиса в виде резервного узла. Все имеющиеся в основном офисе важные ресурсы должны быть представлены на резервном узле хотя бы в виде мини-версии. К их числу относятся не только серверы и запоминающие устройства, но и оборудование рабочих мест столами, подключениями к телефону и Internet, а также периферийными устройствами — факсом и принтером.

В зависимости от установленной ранее значимости отдельных приложений ответственные лица принимают решение, должен ли резервный офис иметь все данные компании полностью или же довольствоваться определенными прикладными программами для восстановления предприятия. Кроме того, следует выяснить, кто из сотрудников компании работает в резервном офисе и какие специальные приложения им нужны для работы.

Крайне важно тщательно подготовить резервный офис на случай непредвиденных обстоятельств, так как незначительный пробел в планировании и малейшая ошибка в конфигурации могут привести к простою оборудования в случае аварии. К планированию непременно должны быть привлечены телефонная компания и провайдер Internet для осуществления быстрого переключения на резервный узел.

Следующий очень важный пункт — план распределения имен и IP-адресов для основного и удаленного офисов. Здесь зачастую возникают ошибки при планировании, выявить которые удается лишь при реальном тестировании. Правда, интеллектуальное программное обеспечение управления кластером может значительно сократить затраты на конфигурацию вручную за счет виртуальных IP-адресов и автоматического обновления DNS.

При планировании следует также предусмотреть возвращение к нормальной работе после ликвидации аварийной ситуации. Важно учесть следующие вопросы:

как перенести данные в основной офис и насколько актуальным их состояние будет при этом?
заменять ли поврежденное аппаратное обеспечение новым?
какими средствами располагает администратор для воздействия на прежнюю конфигурацию?

ПЛАНИРОВАНИЕ ХОДА ДЕЙСТВИЙ

Продуманная последовательность действий — существенная составная часть всякого эффективного плана восстановления после аварии, так как конкретная стратегия может быть реализована только тогда, когда все необходимые ресурсы доступны в любой момент и для значительной части персонала, а каждый участник процесса знает, что ему нужно делать. Отдельные этапы плана следует хранить в письменном виде в определенном месте, на случай отсутствия ответственного администратора. Все детали стратегии необходимо подробно документировать, чтобы в момент аварии не пришлось искать что-либо в справочниках, проверять соглашения об уровне сервиса с провайдерами Internet и телефонными компаниями или разыскивать номера мобильных телефонов других участников команды. Место хранения плана, а также других важных ресурсов, например ленты с резервными копиями, должно быть известным и легко доступным.

После реализации решения восстановления после аварии ответственные лица ни в коем случае не должны расслабляться, так как подготовка к возможной катастрофе на этом не заканчивается. Нужно постоянно проверять, соответствует ли стратегия текущим требованиям компании, актуальны ли конфигурации в резервном офисе и содержит ли документация последнюю информацию. Процессы и действия должны постоянно отрабатываться не только сотрудниками отдела ИТ, но и всеми членами команды по восстановлению после аварии или даже коллективом компании в целом. Лишь 2% из опрошенных Veritas компаний действительно проводит регулярные генеральные репетиции, почти половина из них откладывает последнюю проверку данной стратегии более чем на год.

Так, некоторые команды по восстановлению после аварии выясняют во время первой проверки или в худшем случае во время аварии, что только часть сотрудников компании знают, где находится резервный офис, кто там должен присутствовать, что нужно взять с собой и что их там ожидает. Внутренние публикации, служебные письма или собрания являются хорошей основой для информирования всего коллектива о цели и деталях стратегии восстановления после аварии. В случае аварии короткий путь принятия решений сэкономит драгоценное время, следовательно, он не должен проходить по всем инстанциям существующей иерархии. Промедление лишь в 10 мин может стать причиной огромных расходов, поэтому всем сотрудникам, входящим в команду восстановления после аварии, должна быть предоставлена свобода быстрых и последовательных действий.

ВЫВОД

Согласно исследованию Gartner Group, проведенному в 2001 г., от двух до пяти компаний, чьи системы либо уничтожены в результате катастрофы, либо продолжительное время не функционируют, обычно в течение пяти лет объявляют о своем банкротстве. Чем лучше компания подготовится к возможному выходу из строя важнейших ресурсов и внимательно прислушается к приводимым советам, тем ниже вероятность серьезных последствий, если авария все же возникнет.

Человеческий фактор играет в планировании сценария преодоления последствий аварии такую же важную роль, как и правильная технология восстановления. Поэтому за подготовку стратегии восстановления после аварии отвечает не только отдел ИТ, но и руководство компании.

Франк Брунн — менеджер по маркетингу товаров и решений компании Veritas в регионе ЕМЕА. С ним можно связаться по адресу: gg@lanline.awi.de .

? AWi Verlag