В этой статье я хочу представить вам пять важных шагов, необходимых для защиты данных и приложений от наиболее распространенных причин потерь данных и простоев. ИТ-специалисты, которые выполняют их, могут быть уверены в надежности своего долгосрочного плана.

№ 1. Изучите свои программы защиты данных

Многие пользователи программ защиты данных толком не знают их возможностей и ограничений. Например, программа резервного копирования может задействовать несколько различных методов, чтобы создать безопасные наборы для восстановления. Возможна репликация на уровне файлов, приложений, тома, гипервизора и операционной системы. Или же можно применить комбинацию методов, чтобы реализовать различные варианты восстановления. Отличный пример — программа резервного копирования для виртуальных машин. Большинство использует технологию моментальных снимков для решения этой задачи, хотя могут применяться разные технологии. Одни применяют подход без агента с собственной технологией получения моментальных снимков виртуальных машин компании VMware, другие задействуют программные агенты, которые развертывают агент на каждой виртуальной машине.

Если программе необходимы агенты для резервного копирования виртуальной машины, то она в большей степени напрямую работает с файловой системой виртуальной машины. В этом случае программа резервного копирования, вероятно, использует службу теневого копирования томов Microsoft (VSS), чтобы объединить данные на диске, прежде чем будет сделан моментальный снимок виртуальной машины.

Программа резервного копирования, в которой используется подход без агента, может по-прежнему частично полагаться на агенты в процессе резервного копирования. Один поставщик программ резервного копирования временно помещает часть программного обеспечения в виртуальную машину, вызывая службу Microsoft VSS для создания моментальных снимков. Для этого инициируется моментальный снимок с использованием API-интерфейсов VMware, которые затем помещают программный код в виртуальную машину для создания моментального снимка. После того как моментальный снимок построен, установленный фрагмент кода удаляется.

Но даже этот гибридный подход к резервному копированию виртуальной машины может оказаться недостаточным. В некоторых случаях программу резервного копирования может потребоваться интегрировать со специальными приложениями, такими как Microsoft Exchange или SQL Server, для синхронизации данных на диске. В результате создается резервная копия с обеспечением согласованности приложений, пригодная для использования после восстановления.

Аналогично многие программные продукты резервного копирования также задействуют дедупликацию для снижения требований к хранению данных. Одни дедуплицируют данные на клиенте, другие — на сервере. Некоторые выполняют дедупликацию только после того, как данные появляются на устройстве хранения. Некоторые даже предоставляют возможность дедупликации данных в любом из расположений или совсем не дедуплицируют эти данные.

Знать все возможности и ограничения программ резервного копирования важно, так как они влияют на длительность резервного копирования и восстановления и в конечном счете на надежность.

Не только резервное копирование и восстановление

Критически важные приложения должны быть активны постоянно или с минимальными перерывами. На этом уровне обслуживания необходим более сложный инструментарий, чем имеется в составе программ резервного копирования. Компаниям, в деятельности которых недопустимы простои, следует подумать о решении высокой доступности (HA), таком как Carbonite Availability Powered от DoubleTake, для критических систем. Решение HA обеспечивает непрерывное обслуживание, реплицируя системы в реальном времени в удаленное расположение. Если в производственной среде происходит сбой, решение высокой доступности позволяет мгновенно переключиться на вспомогательный ресурс и продолжить работу до тех пор, пока локальная авария не будет устранена. Длительность восстановления в режиме высокой доступности измеряется в минутах и секундах, а потери данных могут быть сведены почти к нулю.

№ 2. Выясните, что такое время доступности для приложений

После того как вы поймете возможности и ограничения своей программы резервного копирования, необходимо определить цели восстановления для каждого приложения. Когда цели определены, следует сопоставить их с функциями, доступными в вашей программе, и даже с вашими собственными внутренними процессами, чтобы убедиться в их соответствии и возможности обеспечить доступность приложений согласно требованиям бизнеса.

Например, MySQL не располагает надежным методом для динамического получения моментальных снимков данных. Поэтому вы не сможете подтвердить, что программа резервного копирования успешно синхронизировала данные на диске в любой момент, чтобы создать пригодный для восстановления моментальный снимок.

Единственные надежные способы резервного копирования MySQL — выключить MySQL, что неприемлемо для приложения, требующего 100% времени доступности, или создать реплику этих данных, а затем получить моментальный снимок реплики. Такие примеры, как MySQL, иллюстрируют, почему необходимо понимать, где находятся данные и как функционирует механизм, чтобы после восстановления вы не обнаружили, что данные потеряны или испорчены.

И наоборот, такая программа, как Microsoft SQL, предоставляет API-интерфейсы, обеспечивающие лучшую защиту данных, чем MySQL. Эти проблемы устраняются с помощью теневой копии VSS. И вновь необходимо убедиться, что программе резервного копирования известно, как правильно обратиться к API-интерфейсам и проверить запись данных на диск, чтобы уменьшить, а в идеале исключить опасность потери или порчи данных.

Это очень важный шаг, особенно если приходится иметь дело с приложениями или нормативными актами, требующими, чтобы программа резервного копирования шифровала данные, сохраненные на диске или в памяти. Шифрование обеспечивает дополнительный уровень защиты, и необходимо убедиться, что программа резервного копирования шифрует данные, прежде чем они попадают на диск (рисунок 1). Многие поставщики требуют, чтобы пользователи имели собственные ключи шифрования. И на ИТ-специалистов возлагается обязанность защитить эти ключи. Если вы потеряете ключи шифрования, то вы потеряете резервные копии, а потеряв резервные копии, лишитесь своих данных.

 

Шифрование обеспечивает дополнительный уровень защиты
Рисунок 1. Шифрование обеспечивает дополнительный уровень защиты

№ 3. Правильно определите масштаб своей среды

Существует два вида резервных копий, которые следует принимать во внимание, чтобы правильно определить масштаб среды для резервного копирования.

  1. Резервные копии в центре обработки данных.
  2. Удаленные резервные копии.

Резервные копии в центре обработки данных. Вероятно, проще всего определить количественные характеристики и размер резервных копий, хранящихся в центре обработки данных. Часто компании имеют выделенные сети для резервного копирования, и серверы приложений и трафик резервного копирования могут даже не попадать в корпоративную сеть. Данные производственных приложений могут быть защищены технологиями получения моментальных снимков на основе массива. В этом случае программа резервного копирования инициирует создание моментальных снимков данных, которые хранятся недолгое время в массиве и управляются программой резервного копирования. Затем программа резервного копирования может переместить резервную копию на диск, магнитную ленту или даже в «облако» для длительного хранения. Чем более многофункциональная программа резервного копирования используется в центре обработки данных, тем, как правило, проще определить размеры резервных копий приложений, размещенных в центре обработки данных.

Но когда приходится выполнять резервное копирование приложений, расположенных вне центра обработки данных — в другом помещении того же здания, на территории компании или еще где-то, — определить масштаб среды для резервного копирования и восстановления данных становится сложнее.

Если локальное резервное копирование выполняется через подключение по локальной сети, необходимо убедиться, что в течение времени, выделенного для архивации, в вашем распоряжении имеются достаточные вычислительные ресурсы и канал связи с нужной пропускной способностью, чтобы не мешать функционированию производственных приложений. Поскольку резервное копирование обычно выполняется в нерабочие часы, это препятствие не является непреодолимым.

Однако, если вне основного центра обработки данных есть приложения, выполняющиеся круглосуточно и без выходных и не имеющие периодов малой активности, то, возможно, вам придется нарастить вычислительные ресурсы на этих серверах или предоставить им дополнительную полосу пропускания, чтобы обеспечить резервное копирование и восстановление в пределах назначенного временного окна. Возможно, вы также пожелаете получить более современные инструменты резервного копирования, такие как решение высокой доступности. Технология высокой доступности использует функции мгновенной отработки отказов, гарантируя необходимое время безотказной работы для критически важных приложений и данных.

Удаленное резервное копирование. Если вам нужно выполнить резервное копирование или восстановить приложения в удаленных расположениях через подключение к глобальной сети, задача становится еще более трудной. Помимо необходимости иметь достаточные вычислительные и сетевые ресурсы для резервного копирования и восстановления данных, требуется проверить возможность своевременного восстановления (рисунок 2).

 

Управление через Интернет
Рисунок 2. Управление через Интернет

Единственный практический способ получить достоверные сведения — тестирование в собственной производственной среде. Обратите внимание на некоторые переменные, с которыми вы можете встретиться в своей среде при резервном копировании и восстановлении данных. Например, если действия выполняются через туннель VPN, пропускная способность снижается. Кроме того, нужно ли шифровать данные перед их отправкой по каналу LAN или глобальной сети? Если это так, убедитесь, что быстродействие устройства, на котором шифруются данные, соответствует требованиям соглашений об уровне обслуживания при резервном копировании и восстановлении.

Также помните, что скорость диска, на котором хранятся резервные копии, должна быть достаточна для операций резервного копирования и восстановления. Мне приходилось встречать ситуации, когда так много компьютеров одновременно записывали и читали данные, что обработка замедлялась.

Представьте себе, что в течение 24 часов вам необходимо восстановить 50 компьютеров. Вряд ли вы будете восстанавливать их по одному, предпочтительно делать это параллельно. Необходимо убедиться, что устройство хранения, с которого восстанавливаются данные, способно обеспечить необходимую пропускную способность при вводе-выводе. Существуют калькуляторы, с помощью которых можно выполнять подобные оценки, но по моему опыту единственный надежный способ — самостоятельное тестирование в собственной среде.

№ 4. Правильно определите размер и расположение хранилищ данных

Мне приходилось встречать ситуации, когда поставщик программного обеспечения накладывал ограничения на количество данных в отдельном хранилище. Например, поставщик программы резервного копирования может установить порог в 2 Тбайт (или другой порог для одного хранилища резервного копирования), что вынудит вас распределить резервные копии по нескольким хранилищам.

Такое происходит, если одновременно выполняется несколько потоков восстановления. В этих обстоятельствах необходимо убедиться, что хранилища могут считывать данные достаточно быстро, чтобы соответствовать целевым показателям времени восстановления (RTO).

Многие поставщики выпускают документы для определения масштаба, которые будут очень полезны для корректного определения размеров репозиториев для вашей среды. Достаточно убедиться, что настроено и одновременно доступно достаточное количество репозиториев.

Правильно выбранные размеры репозиториев особенно важны, когда выполняется дедупликация данных в процессе резервного копирования (рисунок 3).

 

Если размер репозиториев данных определен неправильно, процесс дедупликации может быть замедлен
Рисунок 3. Если размер репозиториев данных определен неправильно, процесс дедупликации может быть замедлен

Кроме того, учитывайте, что поставщики используют посредников резервного копирования, чтобы приблизиться к хранилищу на виртуальных узлах. В этих условиях необходимо проверить правильность определения размера, а также убедиться в наличии достаточных ресурсов оперативной памяти, центрального процессора и локального хранилища, чтобы избежать возникновения узких мест в процессе резервного копирования или восстановления.

Я работал с виртуальными машинами, которые функционируют в качестве серверов базы данных, на которых размещается от 7 до 8 Тбайт данных. Были времена, когда виртуальными машинами такого размера предпринимались попытки восстановить данные из единого хранилища. В таких случаях проблема становится по-настоящему серьезной из-за недостаточной пропускной способности. Только после того, как данные были распределены по нескольким хранилищам, мне удалось добиться своевременного восстановления благодаря возможности восстанавливать данные с нескольких дисков одновременно.

№ 5. Опыт — путь к совершенству

Опыт — путь к совершенству; это означает, что для правильного решения задачи требуется провести немало испытаний. Невозможно представить, как много элементов механизма задействовано в процессе восстановления. Вероятно, самые сложные из них те, что связаны с восстановлением из географически распределенных резервных копий. В этих случаях необходимо провести тесты восстановления, чтобы убедиться в том, что все намеченные действия выполнены.

В основном я сталкивался с проблемами в ходе тестирования, если заранее не были предусмотрены все возможные варианты. В одном случае возникла проблема с лицензированием программного обеспечения. После того как я восстановил приложение в ходе тестирования, прикладная программа обратилась к поставщику для проверки лицензии. Обращение к поставщику не было проблемой, она возникла позже. В процессе обращения было обнаружено, что IP-адрес сервера, на котором размещена программа, изменился со времени запуска приложения на тестовом сервере. В результате программная лицензия была признана недействительной. Это обстоятельство затрудняет производственную деятельность, так как отменяет программные лицензии как тестового, так и производственного экземпляра программы. Таким образом, в результате недосмотра работоспособность производственной среды была нарушена.

Надежное восстановление среды начинается с тестирования. Результатом стали изменения в процедуре тестирования восстановления данных. Теперь, запуская тестовую среду, я на короткое время отключаю исходящий интернет-трафик. В течение этого периода я наблюдаю за исходящим трафиком, чтобы программа не связалась с поставщиком и не вызвала непредвиденных отключений в тестовой или рабочей среде. Возможно, я излишне перестраховываюсь, поэтому не настаиваю, чтобы другие делали так же. Однако, однажды пострадав, я предпочитаю быть вдвойне осторожным. Программные лицензии могут быть источником проблем при восстановлении данных.

Еще один хороший пример, показывающий, почему необходимо проводить тестирование, чтобы убедиться в возможности восстановления. Одна из компаний, с которой я работал, создала диск X или файловый ресурс общего доступа на серверах Microsoft SQL. Затем один раз в неделю на этом диске X сохранялась резервная копия данных. Однако (мне об этом было неизвестно) еще один сотрудник компании знал о диске X и его назначении. Он решил воспользоваться им для репликации между двумя серверами базы данных SQL Server, что с успехом и проделал. Спустя некоторое время компания изменила процедуру резервного копирования. Было решено, что серверы SQL Server более не нуждаются в дисках X на серверах базы данных. Я проанализировал систему и удалил диск X из среды, чем вызвал взрыв возмущения у сотрудника: «Почему перестала выполняться репликация?»

Подобные ситуации показывают, почему так важно тестирование. Помимо изменений, постоянно происходящих в среде, всегда существуют особенности, такие как недокументированное использование диска X, которые затрудняют восстановление данных ожидаемым для пользователя образом, если только вы не выполняете регулярное тестирование процедур.