Возобновляем работу важнейших служб после катастрофы

Достаточно беглого взгляда на заголовки ежедневных новостей, чтобы убедиться в необходимости плана восстановления работы предприятия после катастрофы. Даже если компании не придется пережить катастрофу четвертого уровня, такую как террористический акт или стихийное бедствие, более распространенные бедствия меньших масштабов (уровни один, два и три), например отключение электроэнергии или неполадки сервера, могут парализовать всю работу, если заранее не подготовить план быстрого восстановления ИТ-служб. В таблице описаны четыре уровня катастроф. Возможно, на предприятии уже имеется план восстановления, но полезно периодически пересматривать его и обновлять в соответствии с произошедшими изменениями. Ориентируясь на опыт подготовки планов восстановления для своих клиентов, я составил список из 10 шагов, которые потребуется сделать при составлении нового или модернизации существующего плана в организации любого уровня.

1. Пересмотр стратегии резервного копирования

Обычно я рекомендую клиентам ежедневно создавать полные резервные копии всех важных серверов и данных. Инкрементальных и дифференциальных копий лучше избегать. В чрезвычайной ситуации трудно отыскать свежую полную копию, а вдобавок и пять инкрементальных копий, необходимых для полного восстановления.

Администраторам Microsoft Exchange Server или Microsoft SQL Server полезно каждый час делать резервные копии журналов транзакций, чтобы иметь возможность восстановить состояние системы в пределах одного часа до сбоя. Одноэтапные решения копирования полезны, но необходимо уметь вручную реанимировать сервер, если придется восстанавливать данные на другой серверной платформе. Следует еженедельно сохранять по крайней мере одну ленту в удаленном хранилище, а на месте эксплуатации поместить ленты в противопожарный сейф, пригодный для хранения данных. Необходим запасной стример для чтения резервных магнитных лент, иначе можно остаться без накопителей, совместимых с лентой устаревшего формата. В процессе восстановления и подготовки к повторному запуску серверов целесообразно задействовать встроенные возможности Windows Server 2003 и Windows 2000 Server — такие как Microsoft Remote Installation Services (RIS), автономные (offline) папки, Microsoft Volume Shadow Copy Service (VSS) и Windows Server Update Services (WSUS).

2. Подробные списки

Документация плана восстановления после аварии никогда не бывает лишней. Для успешного устранения последствий катастрофы требуется документировать оборудование, структуру сети, приложения, а также технические и деловые процедуры, необходимые для реконструкции информационной системы предприятия. Ниже приводятся сведения, которые следует документировать и предоставить тем, кому нужна эта информация (сотрудникам, консультантам, поставщикам услуг).

Местонахождение офисов и подразделений предприятия. Следует указать адрес предприятия, номер телефона, факса и контактную информацию организации, отвечающей за обслуживание здания. Желательно приложить карту района.

Список оборудования. Следует подготовить инвентарный список всех сетевых компонентов на каждой территориальной площадке предприятия с указанием модели, изготовителя, описанием, серийным номером и ценой каждого сетевого компонента. Существует много программных продуктов, которые облегчают подготовку и ведение инвентарной ведомости. Такой перечень часто бывает необходим для страхования, поэтому, возможно, он уже имеется в компании (например, в финансовом отделе). В случае катастрофы этот список пригодится для заказа нового оборудования вместо поврежденного.

Список приложений. Должен составляться список важнейших деловых приложений для каждой территориальной площадки предприятия. При необходимости этот список можно дополнить конкретными рекомендациями для систем управления ресурсами предприятия (ERP). Для важнейших приложений следует указать контактную информацию по технической поддержке, номера учетных записей и — если заключено соглашение с другой организацией — контактную информацию для обслуживания приложения.

Список важнейших поставщиков. В список важнейших поставщиков входят компании, от которых зависит функционирование предприятия. Для расчетов с ними следует организовать кредитные линии на случай, если банковские фонды будут недоступны сразу после катастрофы.

Список важнейших потребителей. В этот список включаются компании, которым предприятие предоставляет критически важные услуги. Одному из сотрудников компании следует поручить оповещение потребителей о состоянии предприятия после катастрофы и примерных сроках возвращения к работе.

3. Схема сети

С помощью такого пакета, как Microsoft Office Visio 2003, следует построить детальные диаграммы всех сетей в организации, в том числе локальной сети и территориальнораспределенных сетей (WAN).

Диаграмма локальной сети. Необходимо подготовить подробную схему сети для каждой производственной площадки (пример схемы приведен на рис. 1). Диаграмма должна соответствовать физической разводке сети в офисе (в отличие от логической диаграммы сети), чтобы специалист, незнакомый с планом офиса, мог отыскать нужные компоненты. На диаграмме должны быть показаны все сетевые компоненты и дано краткое описание каждого компонента и версии операционной системы.

Диаграмма WAN. Если в компании есть WAN, то на схеме должны быть показаны все места расположения узлов сети, как в диаграмме на рис. 2. Если используется VPN, то на диаграмме нужно указать IP-адрес, модель, серийный номер и версию программного обеспечения для брандмауэров; выбираемый по умолчанию шлюз WAN; политики VPN; локальную IP-подсеть. Также следует документировать конфигурацию (конфигурации) брандмауэра как в электронном, так и в бумажном виде. Если в компании используется ретрансляция пакетов, то обязательно документировать все конфигурации маршрутизатора в электронной и бумажной форме. Следует записать все идентификаторы Data Link Connection Identifier (DLCI) и информацию о каналах. На диаграмме также указывается информация об операторе услуг связи, в том числе название, номер телефона службы технической поддержки, номер договора и ID канала связи.

4. Беспроводная сеть

Если в результате аварии предприятие лишается возможности работать в обычном месте, то беспроводное оборудование поможет быстро восстановить сеть. Следует приобретать оборудование, совместимое со стандартом безопасности Wi-Fi Protected Access (WPA2), так как на новом месте развертывания, скорее всего, не будет инфраструктуры для полноценной аутентификации по методу Extensible Authentication Protocol-Transport Layer Security (EAP-TLS).

5. Назначение администратора, ответственного за послеаварийное восстановление

Рекомендуется назначить основного администратора по восстановлению и его помощника для каждой территориальной площадки предприятия. Администраторы по восстановлению должны располагать контактной информацией для связи друг с другом. В идеальном случае администратор восстановления должен жить поблизости от офиса, чтобы своевременно прибыть в офис в случае катастрофы. Администраторы отвечают за объявление чрезвычайного положения, определения уровня бедствия, оценку и документирование ущерба и координацию усилий по восстановлению. Они должны четко понимать принципы функционирования предприятия, уметь определить приоритет офисных служб и знать все производственные задачи данного подразделения.

6. Организация групп

В случае катастрофы следует ожидать всеобщей неразберихи, паники, нарушений связи, перебоев в работе служб и других неконтролируемых обстоятельств, которые будут мешать восстановлению работоспособности компании. Влияние многих из этих факторов можно смягчить, если составить реалистичный план действий в чрезвычайной ситуации и заранее довести его до сотрудников. Следует убедиться, что все участники восстановления знакомы с планом предприятия и знают свои обязанности. Администратору следует разделить задачи по восстановлению и распределить сотрудников по группам, которые будут решать эти задачи. Ниже приведены некоторые рекомендуемые группы; на предприятии следует составить собственные аварийные группы в соответствии с особенностями конкретной компании.

Группа оценки ущерба/оповещения — собирает информацию о первоначальном состоянии пострадавшего района и передает эти сведения соответствующим сотрудникам и руководителям. Группа собирает информацию обо всех аспектах деятельности предприятия, в том числе о бухгалтерии, деловых операциях, ИТ, поставщиках и потребителях. После оценки группа следит за всеми спасательными операциями, в том числе по спасению оборудования, офисных материалов и магнитных лент с резервными копиями. Члены группы должны иметь право закупать оборудование и материалы для замены испорченных во время катастрофы. После завершения спасательных операций на эту группу возлагаются задачи замены испорченного оборудования.

Группа офисного помещения/логистики — помогает администратору восстановления в поисках временного офисного помещения в случае катастрофы четвертого уровня. Члены группы отвечают за транспортировку других сотрудников и оборудования во временный офис и имеют право заключать договоры с транспортными компаниями и рабочими при необходимости переезда на временную территорию.

Группа сотрудников — контролирует деятельность сотрудников, в частности планирование рабочего времени, оплату труда и перемещение сотрудников.

Технологическая группа — заказывает оборудование для замены испорченного и восстанавливает компьютерные системы; восстанавливает телефонную связь, соединения Internet и VPN.

Группа связи с общественностью — сообщает партнерам о предполагаемом времени возобновления нормальной работы предприятия и изменяет расписание частных встреч.

Группа безопасности — обеспечивает безопасность всех сотрудников в течение всего времени восстановления. Эта группа решает, кому разрешен или запрещен доступ к офису, оповещает сотрудников о любых опасностях в здании и защищает территорию от мародеров.

Группа офисного снабжения — заказывает новую мебель, офисные материалы и формы, необходимые для возобновления нормальной работы.

7. Построение Web-узла на время восстановления

Целесообразно создать Web-узел, на котором сотрудники, поставщики и потребители смогут получить своевременную информацию о компании после катастрофы. Зеркальную копию этого Web-узла следует разместить в географически удаленной точке. Группа восстановления должна публиковать на Web-узле оценки ущерба для производственных площадок, данные о состоянии каждой площадки и время и место выхода сотрудников на работу. На Web-узле нужно предусмотреть интерфейс, через который администратор восстановления сможет публиковать сообщения с временными метками о ходе восстановительных работ. Часть этой информации может быть общедоступной, но доступ к большинству страниц следует защитить процедурой регистрации с сертификатом Secure Sockets Layer (SSL). Сайт должен содержать самый свежий экземпляр плана восстановления в формате PDF.

8. Тестирование плана восстановления

Большинство ИТ-специалистов регулярно сталкивается с авариями первого и второго уровня и умеют быстро реагировать на такие события. В случае катастроф третьего и четвертого уровня в плане восстановления необходимо тщательно организовать и распределить любые доступные ресурсы. Составленный план восстановления требуется регулярно тестировать и модернизировать по мере необходимости. В ходе тестирования нужно моделировать различные ситуации, соответствующие катастрофам с первого по четвертый уровень. Полезно обсудить план с другими ИТ-специалистами, чтобы выяснить, какие меры были эффективными или неэффективными в их планах. Практический опыт ИТ-специалиста, которому пришлось применить свой план спасения компании во время урагана «Чарли», описан в статье «Как пережить ураган», опубликованной в Windows IT Pro/RE № 2 за 2005 год.

9. План восстановления после атаки хакеров

План восстановления должен предусматривать и атаки взломщиков. Некоторые особенности подготовки плана восстановления с учетом атак хакеров приведены во врезке «Готовимся к атаке хакеров».

10. План не должен быть «мертвым» документом

План восстановления после катастрофы необходимо пересматривать по крайней мере раз в год. Если компания или сеть часто меняются, то план следует пересматривать каждые полгода или даже поквартально. Устаревший план почти также бесполезен, как его отсутствие.


Алан Сугано - Президент компании ADS Consulting Group, специализирующейся на сетевых технологиях, программировании, проектировании на базе Microsoft .NET и SQL Server. asugano@adscon.com


«Моментальный снимок» проекта: что делать?

Задача: составить план реагирования на крупные и мелкие аварии, с помощью которого компания может восстановить ИТ-инфраструктуру и производственную деятельность в кратчайшие сроки.

Необходимые ресурсы: группа восстановления после катастрофы; процедуры резервного копирования данных и систем; подробная документация деловой и ИТ-информации (например, процедур, оборудования, сетей, контактов с потребителями и поставщиками)

Уровень трудности: 3 из 5

Этапы проекта:

  1. Пересмотреть стратегию резервного копирования, чтобы иметь данные для восстановления после катастрофы.
  2. Документировать деловые процедуры, оборудование, контакты и приложения.
  3. Подготовить схему сетей.
  4. Назначить администратора восстановления.
  5. Распределить сотрудников по группам восстановления.
  6. Регулярно тестировать и обновлять план.

Готовимся к атаке хакеров

Вероятность того, что в течение предстоящего года компании придется пережить катастрофу третьего или четвертого уровня, невелика, чего нельзя сказать об атаке хакеров. Ведь взлом сети или компьютерных систем компании — реальная угроза, которая может нанести серьезный ущерб ИТ-инфраструктуре и, следовательно, помешать производственной деятельности. Поэтому план борьбы с последствиями взлома должен быть частью исчерпывающего плана восстановления после катастрофы. Мероприятия, которые должны войти в этот план, перечислены ниже.

  1. Отключить внешние линии связи. Если есть подозрение, что взломщик проник в сеть, следует отключить все внешние входящие соединения WAN. Если атака исходит из Internet, то отключение внешних линий затруднит хакеру захват других машин и, возможно, помешает завладеть удаленными системами.
  2. Проверить беспроводную сеть. Взломщику довольно просто установить беспроводной узел доступа (Access Point - AP) и предпринимать атаки с соседней автостоянки. С помощью беспроводного анализатора, например Airscanner Mobile Sniffer, AirSnort, Airosniff, ApSniff или NetStumbler, можно обнаружить узлы доступа в непосредственной близости от офиса. Анализатор следует заранее установить на портативном компьютере или другом мобильном устройстве и убедиться, что он функционирует успешно. Анализатор должен работать с сетевым адаптером, совместимым со всеми современными беспроводными стандартами (802.11a, 802.11b и 802.11g).
  3. Отыскать пораженные системы. Атака может поразить множество компьютеров. Следует обязательно проверить каждую систему, которая потенциально могла подвергнуться нападению. Например, с помощью утилиты Autoruns компании Sysinternals (http://www.sysinternals.com/ntw2k/ freeware/autoruns.shtml) можно обнаружить неизвестные программы, настроенные на автоматический запуск. Кроме того, следует проверить компьютеры на предмет наличия утилит сокрытия вторжения (root kit) и других инструментов взломщиков.
  4. Блокировать и удалить учетные записи несанкционированных пользователей. Нужно просмотреть Active Directory (AD) в поисках учетных записей неавторизованных пользователей, чтобы блокировать или удалить их в зависимости от обстановки.
  5. Изменить пароли. Необходимо изменить все пароли для каждой учетной записи в сети. Особенно это относится к учетной записи Administrator и учетным записям, используемым для служб на сервере. В целях безопасности стоит использовать 15-символьные парольные фразы.
  6. Сохранить данные. Если возможно, стоит приобрести новые жесткие диски для пораженных компьютеров, чтобы сохранить следы взлома на системах. После восстановления сети можно изучить собранные сведения и извлечь ценную информацию об атаке.
  7. Идентифицировать и устранить уязвимое место. Часто дать такую рекомендацию легче, чем выполнить ее. В первую очередь следует выяснить, как взломщик проник в сеть. Если брешь не заделана, нападение может повториться.
  8. Восстановить систему. Пораженную систему почти невозможно полностью очистить от инструментов взлома; хакеру нужно лишь проникнуть в компьютер. Единственный способ наверняка очистить систему - отформатировать жесткие диски и восстановить ее с нуля. Восстанавливая данные на компьютере, необходимо проявлять осмотрительность, чтобы не восстановить ранее установленные инструменты хакера. Не следует восстанавливать реестр, любые файлы операционной системы или программы с ленты. Все приложения нужно разворачивать вручную, но не с магнитной ленты.
  9. Восстановить работу сети. Подключить линии WAN и тщательно контролировать их. Следует убедиться, что ликвидированы все уязвимые места в сети, чтобы взломщик не мог вернуться.
  10. Провести криминалистический анализ жестких дисков. После того как сеть вновь начнет работать, полезно установить пораженные диски на автономном компьютере для сбора дополнительной информации о нападении. Взломщики часто подделывают свои IP-адреса, но тем не менее IP-адрес - хорошая отправная точка для поиска источника нападения. Список назначений IP-адресов можно получить из Internet Assigned Numbers Authority (IANA) по адресу http://www.iana.org. Следует документировать все инструменты взлома, обнаруженные в компьютере. Уличить хакеров очень трудно, особенно если они скрывают следы. Часто хакера требуется захватить во время нападения. Задачу выслеживания взломщиков можно поручить специализированным организациям.
  11. Известить правоохранительные органы. В большинстве правоохранительных органов имеются группы расследования компьютерных преступлений. Никто не любит признаваться, что подвергся нападению, но известить компетентные органы - первый шаг к тому, чтобы помешать взломщику причинить дальнейший вред. Чем больше будет собрано информации об атаке, тем выше вероятность, что соответствующие органы поймают преступника.

Во время атаки трудно мыслить хладнокровно. Заранее подготовленный план противодействия поможет быстро восстановить работоспособность сети и сохранить пораженный компьютер для будущего анализа.