Сохранность данных сегодня и завтра

Не требует доказательств тот факт, что без обеспечения надежной сохранности корпоративных данных современный бизнес существовать не может, но не менее очевидно и то, что делать это становится все труднее вследствие роста объемов данных и ускорения деловой активности. С массовым переходом на работу в режиме 24×7 традиционная идея выделения окна для резервного копирования (backup window) стала бессмысленной, а нынешние и тем более ожидаемые объемы данных делают невозможным даже еженедельное полное копирование и периодическое инкрементальное обновление. Если в этих условиях ничего радикально не менять, то качество резервирования неизбежно будет ухудшаться со всеми вытекающими негативными последствиями: потеря продуктивности, финансовый ущерб и пр. Выход видится, прежде всего, в изменении сложившегося отношения к проблемам сохранности данных. До сих пор большая часть средств ИТ направлялась на технологии непосредственной поддержки бизнес-процессов в ущерб развитию сервисной инфраструктуры. Это привело к усложнению решений, распылению инвестиций, причем на фоне появления новых технологий, позволяющих пересмотреть взаимоотношения ИТ и бизнеса: виртуализации, сервисных архитектур и облаков.

Виртуализация серверов, систем хранения, приложений и данных позволяет преодолеть архитектурный разрыв между «боевыми» и сервисными компонентами информационных систем, а в условиях, когда оборудование становится более универсальным, ограничивает объем специализированных средств, поддерживающих резервирование. Действительно, периодически возникающие нагрузки по резервному копированию можно теперь перераспределять — они могут мигрировать как внутри ЦОД, так и между ними, а в любой момент между разными видами нагрузок может быть выбрано требуемое соотношение. Еще больше оптимальному распределению физических ресурсов способствуют разнообразные облачные сервисные решения. В приложении к сохранности данных можно говорить о частных сервисах резервного копирования BaaS (Backup as a Service) и глобальных сервисах DPaaS (Data Protection as a Service). Переход на сервисную модель позволяет радикально изменить отношение к обеспечению сохранности данных, отказаться от видения в этих технологиях дорогостоящих инструментов, которые, как спасательные круги и шлюпки на пароходах, висят без использования до момента ЧП. Кроме того, сохранность становится естественной частью автоматизированного технологического процесса, выполняемого без вмешательства человека. Резервирование и прочие процедуры, необходимые для обеспечения сохранности, превращаются в то, что называют by-product (попутный продукт).

Третья опора компьютинга

Если действительно начинается новая промышленная революция, то, скорее всего, на нее распространяются те же закономерности, что и на Великую промышленную революцию XVIII века, а ключевым моментом является внедрение новых индустриальных технологий.

Леонид Черняк

Для обеспечения сохранности данных существует спектр возможных решений, образующих ее полный жизненный цикл (Data Protection Lifecycle), который условно можно разделить на четыре фазы, измеряемые секундами, минутами, часами и днями. В секундном диапазоне (фактически в реальном времени) на «боевом» оборудовании создаются различного рода мгновенные снимки (snapshot) и используется технология непрерывной защиты данных (Continuous Data Protection, CDP). При переходе в минутный диапазон защитные мероприятия осуществляются в пределах ЦОД, и в этот период времени происходит разделение используемых физических ресурсов. В часовом диапазоне данные перемещаются на резервные площадки и осуществляется разделение на уровни хранения по быстродействию устройств и удельной стоимости хранения. И наконец, очевидный четвертый этап — создание архивов.

Данные как сырье

На протяжении всех 65 лет истории ИТ, а точнее технологий, предназначенных для обработки данных, наблюдался очевидный дисбаланс. Все это время исследования и разработки распространялись на программные и аппаратные решения по работе с данными, тогда как сами данные воспринимались как нечто простое, очевидное, наперед заданное. Однако под влиянием количественного роста объема данных и возрастающих требований со стороны бизнеса к качеству и скорости работы с данными ситуация заметно меняется — теперь собственно данным уделяется больше внимания и средства работы с ними становятся в полной мере технологиями. У этого тренда есть несколько проявлений, в том числе объединение отдельных фрагментов ИТ в единые технологические цепочки. Характерный пример: разрозненные решения для резервного копирования и восстановления данных, BURR (BackUp, Recovery, Restore), консолидируются в одно общее направление — обеспечение сохранности данных (Data Protection).

Времена, когда бизнес еще не был так зависим от ИТ, как сейчас, и сохранение данных на периферийных устройствах было лишь дополнением к основному процессу, когда можно было говорить об отдельных операциях, обеспечивающих сохранность данных, ушли в прошлое. Важнейшей составляющей корпоративной инфраструктуры стали ЦОД, и сегодня без предоставляемой ими возможности доступа к полезной информации бизнес невозможен, а операции BURR стали необходимой органической частью работы с данными. Они могут осуществляться на месте (On-site BURR) или в облаках (Cloud BURR), традиционными способами или с использованием сервисов BaaS или DPaaS.

В работах по сохранности данных используют два близких термина: Data Protection и Data Persistence, переводимых одинаково — «обеспечение сохранности данных», но первый означает сохранение целостности контента, а второй — неизменность формы представления. Действие Data Protection (DP) распространяется на защиту персональных данных, но можно рассматривать его буквально — как средства и технологии, служащие для поддержки жизненного цикла тех или иных записей.

Специфика данных в том, что они нематериальны и не существуют сами по себе, поэтому в любом случае для их сохранности требуется предпринимать специальные усилия, чтобы они не исчезли вместе с носителем. Однако любые носители не вечны, и нужны специальные архивные или библиотечные решения. Как ни странно, но все, что придумано для обеспечения сохранности данных, записанных на машинные носители, зиждется на интуитивных представлениях о данных, на некоторой негласной конвенции. Обычно упрощенно считают, что данные — это всего лишь «мешок» битов, что определяет специфику нынешних ИТ, которые по гамбургскому счету вовсе и не информационные, а лишь технологии работы с данными. Сравним с тем, что происходит в других областях человеческой деятельности. Любую созданную людьми «машинерию» можно рассматривать с двух разных точек зрения — машин и процессов. Ее можно представить как совокупность машин и оборудования, образующую технологическую цепочку, а можно интерпретировать как последовательность этапов переработки исходного сырья в конечный продукт. Соответственно, есть специалисты по машинам и оборудованию, а есть технологи, в том числе химики, металлурги, энергетики и т. п., ответственные за преобразование.

Подобного разделения в ИТ нет, и когда мы говорим «ИТ-шник», то предполагаем, что речь идет о специалистах по оборудованию и программному обеспечению, а не о тех, кто понимает толк в данных. Совсем недавно появилась категория таких специалистов — data scientist, с еще не очень понятными функциональными обязанностями, представляющих новейшие виды деятельности, связанные с данными, осуществляющих владение данными (data ownership) и ответственное руководство ими (data stewardship). Но пока за данные отвечают только администраторы, отсюда и упрошенный подход к сохранности данных только за счет создания резервных копий.

Упрощенное отношение к данным привело к раздельному существованию двух подходов к обеспечению сохранности данных: резервирование (backup) и архивация (archiving). Разделение сложилось в то время, когда для резервирования в основном применяли дисковые накопители, а архивы создавали на лентах. В прессе активно сравниваются оба подхода, и обычно утверждается, что резервирование — это создание копий, обеспечивающее наименьшие издержки при сохранении и наименьшее время восстановления в случае потери основной версии, а архивация — создание надежных копий данных, которые можно будет использовать в последующем, срок хранения может измеряться десятилетиями. Для надежности может создаваться несколько резервных копий, а архив сохраняется в одной копии с использованием дедупликации и контентно-адресуемых систем хранения (CAS). Однако при ближайшем рассмотрении оказывается, что резервирование и архивация — это всего лишь разные компоненты одного технологического процесса, их вообще нельзя противопоставлять, тем более что выпускаемое сегодня оборудование постоянно сокращает разрыв между ними. Следует говорить о том, что существуют различные требования по оперативности доступа к данным, по скорости обмена с резервными хранилищами, и нужно соответствующим образом организовывать обеспечение сохранности данных, в том числе и резервируя и архивируя их.

Резервирование с нуля

Резервированием на «голое железо» (Bare Metal Recovery, BMR) называют процесс восстановления компьютера целиком, начиная с установки на нем ОС, приложений и данных. Этот подход имеет смысл для предприятий среднего и малого бизнеса, которые оперируют относительно небольшими объемами данных и не располагают квалифицированным ИТ-персоналом. Суть процедуры BMR (рис. А.) в том, что по ходу работы на блочном уровне диски копируются на некоторый промежуточный носитель. Параллельно в режиме постоянной готовности поддерживается диск первоначальной загрузки, сформированный, например, средствами CA ARCserve D2D. В случае катастрофы накопленные данные сбрасываются на резервный компьютер, который с использованием этого диска вводится в эксплуатацию. Компания Symantec выпускает специализированные устройства резервного копирования NetBackup 5220 и Backup Exec 3600 для работы в режиме BMR.

Рис. А. Резервирование на «голое железо»

BURR и Большие Данные

В разговорах про Большие Данные часто упускают из виду ряд серьезных конкретных проблем, и одна из них — невиданные прежде сложности с резервным копированием. Проблема настолько остра, что была даже предложена занятная интерпретация закона Мура — следствием удвоения объема хранения данных каждые 18 месяцев является удвоение головной боли у администратора, отвечающего за резервное копирование. Процедуры резервирования усложняются под влиянием массы факторов: повышение мощности процессоров, увеличение емкости дисков, появление накопителей SSD, виртуализация серверов и систем хранения, необходимость поддержки приложений, работающих в режиме 24×7. С системной точки зрения здесь нет ничего нового — по мере развития систем их размер и сложность делают невозможными контроль и поддержку работоспособности с использованием старых средств. Например, как проинспектировать на безопасность все узлы современного пассажирского авиалайнера, тысячи километров железных дорог или газопроводов, не имея совершенных средств диагностики, специально разработанных приборов и инструментов? Служебные операции, так или иначе связанные с Большими Данными, из того же ряда явлений, но на них, в том числе и на резервирование, оказывают влияние три группы специфических факторов.

Объем. С какого-то момента единовременное копирование всех данных (полный бэкап), очевидное преимущество которого в простом и быстром восстановлении любого отдельного поврежденного или потерянного файла, становится невозможным из-за уменьшения окна копирования. Поэтому приходится использовать инкрементальный и/или дифференциальный бэкап. В первом случае сначала осуществляется полный бэкап данных, а в дальнейшем копируются только измененные данные. Дифференциальное резервное копирование, или дифференциальный бэкап, — это процесс сохранения резервных копий только тех файлов, которые были изменены или созданы с момента последнего полного резервного копирования. В любом случае усовершенствование сводится к сокращению объемов хранения за счет избавления от повторяющихся данных, теперь это называют дедупликацией. Раньше от избыточности избавлялись различными способами компрессии, но их слабость в том, что сжимать можно отдельные файлы. Ее лишены методы, исключающие повторяемость хранимых данных (single-instance storage), — в частности, инкрементальный бэкап, использующий переменный размер блока без привязки к конкретным файлам. Дедупликация не только сокращает объем хранения, но и позволяет использовать Сеть за счет сокращения трафика для создания резервных копий. Но при любом резервировании по сети возникает одно существенное ограничение — сети можно использовать при восстановлении только ограниченных объемов данных, а если же восстанавливать приходится большие объемы, то проще оказывается физическая транспортировка носителей. Например, компания Google при создании новых ЦОД перевозит данные в контейнерах, набитых дисками. Такой способ доступа к данным с использованием грузовика называют TAM (Truck Access Method).
Разнообразие. Разнообразие приложений растет, и, соответственно, увеличивается разнообразие используемых ими данных, поэтому администраторам, выполняющим резервное копирование, уже сложно использовать для всех данных одни и те же унифицированные методы бэкапирования. В этих условиях часть ответственности за резервирование должны брать на себя владельцы данных (data owners), способные дифференцировать качество резервирования в зависимости от ценности данных, а отделы ИТ в таком случае могут выступать в роли провайдеров сервисов.
Частота и скорость обращения к данным. Большие Данные нередко используются в аналитических системах, работающих в реальном времени, что до минимума сокращает возможное окно копирования или вовсе его исключает.

Обеспечение сохранности

Чем бы ни занималось современное предприятие, оно не может существовать без информации, а отсюда возникает потребность в совокупности технологий обеспечения сохранности данных», гарантирующих, что хранимые данные не будут искажаться, а доступ к ним будет ограничен кругом авторизованных пользователей и в строго регламентированных целях для обеспечения целостности, согласованности с приложениями, регулярного обновления версий. Все это включает в себя не только создание копий, но и работу с сетями, а также серверы высокой готовности (High Availability, HA). В целом DP представляет собой систему, обдающую целым рядом качеств:

практичность (Usability) — способность создавать резервные копии и осуществлять восстановление; резервирование предполагает не только создание простых копий, инкрементальное и дифференциальное резервирование, но и непрерывную сохранность (Continuous Data Protection, CDP), исключающую какую-либо потерю данных; как показано в таблице, для этого имеется ряд технологий, отличающихся по времени восстановления (Recovery Time Objective, RTO) и допустимым потерям восстановления (Recovery Point Objective, RPO);
доступность и готовность (Accessibility, Availabiliy) — исключение единственных точек отказа за счет обеспечения доступа из разных платформ и перевода данных на удаленные площадки;
производительность (Performance), повышение которой возможно за счет создания альтернативных путей доступа к данным (Multipathing), техники кэширования и аппаратного ускорения;
безопасность (Authentication, Authorization, Accounting), управление правами (Information Rights Management), предотвращение утечек (Data Leakage Prevention), шифрование в процессе передачи (on the wire) и по месту хранения (at rest);
соответствие нормативным требованиям (Compliance) путем сохранения не только содержания, но и формы документов;
устойчивость к внешним воздействиям (Resilience), складываемая из защиты носителей (избыточность в дисковых массивах, коды с возможностью исправления ошибок), применения систем высокой готовности (High Availability), отказоустойчивости (Fault Tolerance) и поддержки целостности данных (Data Integrity);
эффективность (Efficiency), достигаемая за счет продуманной автоматизации, управления и администрирования.

Таблица. Технологии поддержки непрерывной сохранности

Таксономия DP

Однако всего перечисленного еще недостаточно для получения полноценного представления о связях этих качеств между собой и их месте в общей системе DP. Чтобы получить такое целостное видение, нужны систематизация и классификация — таксономия. Наиболее интересную работу по таксономии DP выполнил Майк Датч, главный специалист по технологиям компании EMC.

Рис. 1. Таксономия обеспечения сохранности данных

Строка «Кто» таксономии DP (рис. 1) тривиальна — к DP имеют отношение все те, кто пользуются данными, и те, кто предоставляют услуги и создают технологии.

Строка «Где» указывает, где хранятся сохраненные данные. Вариантов может быть несколько: фиксированный, мобильный, независимый и распределенный. Фиксированные данные могут находиться непосредственно в корпоративном ЦОД или в резервном хранилище, а сегодня растет значение данных, размещаемых в мобильных устройствах. Независимым хранением обычно называют хранение в облаках, а при распределенном хранении данные могут размещаться во всех перечисленных местах. Если для обеспечения сохранности приходится дополнительно перемещать данные, то следует учитывать возникающие риски — например, при перемещении больших объемов данных по каналам связи возникает угроза сбоев и в ряде случаев оказывается разумнее применять TAM, что также сопряжено с риском.

Строка «Что» делится на подкатегории по типам устройств, типам данных, контента и операционной среды. Устройства могут быть любыми, от мобильных до мощных серверов и систем хранения. Данные различаются по динамике — в системах ERP, CRP, OLTP и т. п. данные более динамичны, а в аналитических системах более статичны, причем в зависимости от используемых приложений данные могут быть структурированными или неструктурированными. Контент влияет на отношение к сохранности данных, которые могут быть возобновляемыми, например путем повторения эксперимента, или невозобновляемыми в случае, если они являются носителями важной финансовой или юридической информации. Среда, в которой существуют данные, также предъявляет свои требования к сохранности данных.

Строка «Зачем» вводит классификацию по типам восстановления: операционное восстановление служит для компенсации ошибок персонала и незначительных сбоев оборудования; необходимость восстановления после катастроф не требует комментариев, так же как и наличие архивов в серьезных административных и бизнес-структурах; GRC (Governance, Risk Management, Compliance) — зонтичный термин, объединяющий корпоративное управление (corporate governance), корпоративное управление рисками (enterprise risk management) и проверку на соответствие нормативным требованиям.

Строка «Как» вводит четыре основные группы технологий защиты. В первую входят резервирование и восстановление (Backup and Recovery) на уровне файлов, физических блоков и на уровне голого железа. Отслеживание версий (Versioning) — это прежде всего создание «мгновенных снимков» (Snapshot) и управление записями в контрольные точки (Checkpoint management). Репликация (Replication) может быть синхронной или асинхронной.

Вторая включает технологии сохранности данных, характеризуемые способностью к быстрому восстановлению (Resiliency) и оптимизацией использования дискового пространства (Capacity Optimization). Обе характеристики взаимосвязаны, и в ряде случаев одна достигается за счет другой. Способность к быстрому восстановлению поддерживается различного рода технологиями дисковых массивов RAID и кодами обнаружения и исправления ошибок: циклический избыточный код (Cyclic Redundancy Check, CRC), код с исправлением ошибок (Error-Correcting Code, ECC) и с прямой коррекцией ошибок (Forward Error Correction, FEC). Процесс ухода за данными на дисках имеет бытовые аналогии — здесь также используются процедуры чистки и дезинфекции (disk scrubbing/cleansing), в ходе которых рабочие данные периодически поблочно сравниваются с хранимыми на дисках и вычищаются. И естественно, что в целях повышения способности к быстрому восстановлению используются различные технологии высокой готовности, в том числе кластеризации и автоматического рестарта. Для оптимизация использования дискового пространства служат традиционные инженерные решения, среди них мгновенные снимки приращений, компрессии, дедупликации, упаковки мелких объектов в более крупные. Состав группы технологий для доступа к данным очевиден — это сервисы, обеспечивающие готовность (Service Availability), сетевое подключение (Network Connectivity) и оптимизацию (Performance Optimization).

Непрерывная защита данных

Такую защиту (Continuous data protection, CDP) еще называют защитой данных в реальном времени, и от обычных «мгновенных снимков» ее отличает то, что в журнал попадают абсолютно все изменения, а CDP позволяет полностью исключить потери данных. Рынок средств для CDP находится пока в зародыше, но у него прекрасные перспективы в связи с ростом объемов данных, их динамикой и повышением требований к сохранности. В SNIA называют CDP сохранением каждой записи (every write). С точки зрения сохранности, технологии RAID, репликации и зеркалирования уступают CDP в том, что они содержат только копию последней версии, а не всю историю жизни данных, а в CDP всегда есть возможность откатиться до неискаженных данных.

Сервис сохранности данных

В 2012 году появился термин [I]Data Protection as a Service (DpaaS), который первыми стали употреблять компании NetApp и Asigra. Канадская Asigra во много раз меньше NetApp, однако именно ей принадлежит первенство — продукт Asigra Cloud Backup остается пока единственным в мире решением, построенным без использования программных агентов, устанавливаемых на серверы и служащих для организации централизованного управления жизненным циклом сохранности данных. Asigra Cloud Backup открывает новый класс технологий резервирования (Agentless Backup), возникших в ответ на техническую сложность системы управления множеством агентов, размещенных на всех компьютерах, входящих в состав ЦОД, — если даже в границах одного ЦОД непросто наладить скоординированный процесс взаимодействия многочисленных агентов, то что говорить об облаках.

Справиться с этой сложностью позволяет двухкомпонентная архитектура Asigra. Первый компонент (DS-Client) устанавливается на одном из компьютеров локальной сети, подключаемой к облаку, а второй (DS-System) — в облаке. Детали решения не раскрываются, и известна лишь общая схема (рис. 2). DS-Client работает под управлением Windows, Linux, MacOS, и это может быть любая физическая или виртуальная машина, одна на всю локальную сеть. DS-Client умеет собирать сведения о копируемых данных и передавать их в DS-System, поддерживая в автоматическом режиме резервирование/восстановление серверов и всех устройств, работающих как со структурированными, так и с неструктурированными данными.

Рис. 2. Архитектура DPaaS в версии Asigra Cloud Backup

Несмотря на то что такая система выглядит привлекательно, на пути к ее массовому внедрению есть серьезные проблемы, и главная — недоверие пользователей к идее передачи данных в облака. Как показывают опросы, более 80% руководителей бизнеса высоко оценивают преимущества облаков, но 90% выражают сомнение в защищенности своих данных от сторонних глаз. Совместно NetApp и Asigra решают техническую проблему размещения данных в облаке, но сам по себе подход не влияет на доверие, и ни о каком внедрении DPaaS пока речи не идет. В какой-то степени проблему может решить криптография — известны методы защиты содержимого дисков (Full-Disk Encryption, FDE), которые спасают данные в случае кражи устройств, однако для резервирования они непригодны.

Выходом может стать гомоморфное шифрование, которое позволяет проводить определенные действия с зашифрованным текстом. Концепция частичного гомоморфного шифрования известна уже несколько десятков лет и используется в криптосистемах RSA и Эль-Гамаля, а в 2009 году Крейгом Генри, исследователем из Стэнфордского университета, впервые была предложена полностью гомоморфная система FHE (Fully homomorphic encryption). Протокол гомоморфного шифрования позволяет безошибочно производить любые операции сложения и умножения над зашифрованными данными без их предварительной расшифровки. Предложенная Генри схема обеспечивает глубокую обработку данных с высокой степенью их защиты и избавляет от многих сложных организационных процедур. Она может использоваться для обеспечения конфиденциальности данных при любых видах обработки, например в условиях облаков. Это открытие имеет не только практическую, но и научную ценность как важный прорыв в области гомоморфного шифрования и математических методов защиты информации. С использованием FHE вся информационная система может быть разделена на Доверительную защищенную платформу и Облачное хранилище, которое не является доверительным, а безопасным его делает применение специальных контейнеров — безопасных капсул данных (рис. 3).

Рис. 3. Обеспечение безопасности в системе DpaaS

***

В технологиях, обеспечивающих сохранность данных, как в зеркале, отражается путь, пройденный ИТ за последние десятилетия, — от простейшего резервного копирования на ленты до географически распределенных систем, предоставляющих сервисы с гарантией абсолютной сохранности. Появление относительно недорогих ленточных накопителей с потоковой записью, а затем и ленточных библиотек представлялось идеальным решением, потом появились виртуальные библиотеки на дисках. Далее оказалось, что архитектура, математическое и программное обеспечение играют не меньшую роль, чем оборудование. Итогом эволюционного процесса в индустрии стало формирование самостоятельного направления обеспечения сохранности данных, которое по мере роста объемов данных и требований к работе с ними преподнесет еще немало интересного.

Начало эпохи пост-RAID

Кодирование со стиранием вызывает ассоциацию с техникой, которую использовали переписчики Торы более 2 тыс. лет назад, — чтобы избежать ошибок, они разработали сложную методику сравнения переписанного текста с исходным, и если обнаруживалось несовпадение, то весь текст с пергамента стирался. Логика современных кодов со стиранием несколько иная (рис. Б), но за ее кажущейся простотой скрыты серьезные алгоритмы распределения информации (Information dispersal algorithm, IDA). В их основе лежит распределение нарезанных на «куски» данных по географически разнесенным хранилищам таким образом, что они выживут в случае катастроф, но собрать их воедино неавторизованный пользователь не сможет. Только тот, кто владеет указателями на размещение данных с теми же IDA, способен собрать общую картину из мозаики. Степень защищенности здесь существенно выше, чем при использовании любого известного массива RAID, но это еще не все — RAID требует многократного увеличения дискового пространства, а при кодировании со стиранием дополнительные затраты пространства не превышают 20–30%.

Рис. Б. Логика кодирования со стиранием на основе кодов Рида – Соломона