По мере того как требования к ресурсам хранения данных возрастают, а бюджеты урезаются, предприятия изыскивают дополнительные возможности для оптимизации своей инфраструктуры хранения и администрирования данных. Важную роль в этом деле играют такие технологии, как дедупликация данных, которая позволяет сократить их объем за счет удаления повторных копий и сохранения только уникальной информации. Надо отметить, что технология сжатия данных менее эффективна, так как не способна распознавать одинаковую информацию. Дедупликация заменяет копии многократно встречающихся данных ссылками (они же — указатели, или Pointer) на первичный источник и используется в масштабе всей файловой системы или ресурсов хранения. Различия заключаются в степени детализации (уровень файлов или блоков) и в том, где осуществляется дедупликация (в первичной памяти или на носителе резервной копии). Резервное копирование данных — это одна из основных областей применения дедупликации, но эта технология все активнее внедряется также в сетевые устройства хранения (Network Attached Storage, NAS) и при долгосрочном архивировании информации (см. Рисунки 1 и 2).

 

Рисунок 1. Образец конфигурации решения для дедупликации в среде резервного копирования.

 

Рисунок 2. В долгосрочной перспективе дедупликация данных становится неотъемлемым элементом всей инфраструктуры ИТ.

 

ДЕДУПЛИКАЦИЯ НА УРОВНЕ ФАЙЛОВ И БЛОКОВ

Некоторые методы (дедупликация на уровне файлов или однократное сохранение данных — Single Instance Storage, SIS) рассматривают файлы целиком для определения копий. Другие разделяют файлы на отдельные блоки, которые легче поддаются анализу на предмет возможной избыточности и эффективнее сохраняются. В качестве разновидности блочных методов выделяются алгоритмы, где используются варьирующиеся размеры блоков.

Дедупликация на уровне блоков применяется в основном при резервном копировании, но не используется для NAS или архивных систем, поскольку сильная фрагментация данных отрицательно сказывается на производительности при передаче файлов. Дедупликация на уровне файлов, в свою очередь, в полной мере проявляет свои достоинства в NAS. Это можно наглядно продемонстрировать на примере пользовательских папок, ведь часто несколько человек сохраняют в своих личных папках одни и те же файлы и документы.

Microsoft Windows Storage Server 2008, к примеру, снабжен функцией SIS, которая автоматически заменяет многократно сохраненные идентичные файлы соответствующими ссылками файловой системы — в результате экономится от 25 до 40% дискового пространства. При резервном копировании дедупликация данных на уровне файлов является полезным подспорьем, такими функциями обладают и современные системы NAS. Автоматическое распознавание неиспользуемых данных, сжатие файлов и хранение данных в единственном экземпляре могут на 30–40% сократить потребность в ресурсах хранения.

 

У ИСТОЧНИКА ИЛИ У ЦЕЛИ

В процессе резервного копирования дедупликация данных может осуществляться на двух его этапах: при сохранении на первичном носителе у источника (Source) или у цели (Target). Каждый из этих методов имеет свои преимущества и недостатки. При дедупликации у источника (Inband Deduplication) объем данных сокращается еще перед началом резервного копирования, но для этого сервер должен выделить немалые вычислительные ресурсы, поэтому для выполнения других задач их может не хватить. Кроме того, до недавних пор решения с использованием дедупликации у источника не были оптимально согласованы с широко распространенными системами резервного копирования.

В случае с дедупликацией данных у цели (Outband Deduplication) этот процесс осуществляется лишь на конечном носителе, и, по сравнению с дедупликацией у источника, при прочих равных исходных условиях по сети передается больший объем данных. Если данные в архитектуре с иерархическим хранением информации (Tiered Storage) затем копируются в другое место, дедупликация данных у цели имеет свои преимущества. У соответствующих устройств имеются и другие достоинства — их легче интегрировать в существующие среды резервного копирования, чем решения для дедупликации у источника.

Дедупликация у цели имеет два варианта: поточная (Inline-) и постобработка (Post-Processing). Они различаются тем, что при поточной обработке дедупликация данных выполняется перед процессом записи на жесткий диск. При этом требуется лишь свободное место для сохранения данных, измененных с момента последнего резервного копирования. Правда, устройство для дедупликации должно иметь достаточно ресурсов, чтобы еще на первом этапе обнаружить копии данных.

При последующей обработке все данные вначале записываются на диск, а затем анализируются на предмет наличия копий. Таким образом, этот метод не оказывает никакого отрицательного воздействия на производительность самого процесса резервного копирования, однако на жестких дисках должно быть доступно значительно больше места, чем при поточной обработке.

 

НОСИТЕЛИ РЕЗЕРВНЫХ КОПИЙ — ДИСКИ ИЛИ ЛЕНТЫ?

 

Рисунок 3. Устранение данных, имеющихся в нескольких экземплярах, может способствовать тому, что затраты на создание резервных копий на жестких дисках будут соответствовать затратам на запись копий на ленточные накопители. 

Традиционно ленточные накопители считаются наиболее дешевыми носителями для хранения данных, однако из-за обилия механических частей они сильнее подвержены ошибкам, чем системы с жесткими дисками. Еще одно слабое место ленточных накопителей — их малая емкость и невысокая производительность. Кроме того, они неэффективны для выполнения небольших задач по резервному копированию и восстановлению, поскольку на установку ленты и поиск нужного места уходит больше времени, чем на сами процедуры считывания и записи данных. Поэтому резервное копирование на жесткие диски показало себя более эффективным решением (см. Рисунок 3).

Тем не менее у ленточных накопителей есть свои сильные стороны в области аварийного восстановления данных (Disaster Recovery), в особенности если предприятие хранит ленты в сейфе, расположенном за пределами ЦОД. В этом случае рекомендуется локальное резервное копирование и использование дедупликации на уровне блоков, а затем последующее копирование на ленты. Поскольку при дедупликации на уровне блоков сохраняются только те данные, которые изменились с момента последнего резервного копирования, информация быстрее записывается на ленты для архивирования.

 

ПАРАМЕТРЫ

Для измерения эффективности дедупликации данных обычно используется коэффициент дедупликации. К примеру, значение 20:1 говорит о том, что потребность в ресурсах памяти была сокращена на 95%, но это не значит, что теперь администраторы смогут разместить на жестком диске в 20 раз больше данных. Если исходный объем информации равен 500 Гбайт, то при дедупликации с коэффициентом 20:1 объем данных никогда не сократится до 25 Гбайт. Иными словами, в зависимости от вида данных при проведении пяти операций резервного копирования удастся уместить эти резервные копии, к примеру, в 525 Гбайт, а не в 2,5 Тбайт, как это было бы при создании пяти полных резервных копий.

 

Рисунок 4. Данные, сохраняемые на предприятии, изменяются с различной частотой. На данной диаграмме представлен типичный сценарий.

По различным причинам теоретически рассчитанные значения отличаются от реально достигнутых показателей. Причина кроется, во-первых, в используемых алгоритмах дедупликации, в частоте изменения данных (см. Рисунок 4), их типах, а также в комбинации из полных резервных копий и частичных, учитывающих только изменения. Кроме того, при измерении коэффициента изменения данных программное обеспечение учитывает только количество файлов, а не объем реально изменившихся данных. Поэтому инструменты для измерения коэффициента дедупликации следует использовать только для оценки требуемого места на жестких дисках, но не с целью получения точных сведений. Таким образом, коэффициент дедупликации представляет собой лишь приблизительный ориентир.

 

ТИПЫ ФАЙЛОВ

Тип файла не оказывает влияния на дедупликацию данных на уровне файлов, однако администраторы должны иметь представление о том, что при резервном копировании дедупликация на уровне блоков может привести к разным результатам. Дублирующиеся данные выявляются двумя способами: если один и тот же файл был сохранен больше одного раза или если в определенном наборе данных одни и те же данные встречаются многократно. При резервном копировании пользовательских папок, к примеру, копии обнаруживаются уже при первом резервном копировании. Такое решение для дедупликации очень быстро окупается.

Файлы Microsoft Office, к примеру, хорошо подходят для дедупликации на уровне блоков, поскольку их содержимое часто повторяется, а вот сжатые или мультимедийные данные нуждаются в особом обращении: здесь будет мало толку от дедупликации — как на уровне файлов, так и на уровне блоков. В таких случаях можно использовать еще один способ — анализ с учетом содержимого (Content-Aware), который используется, к примеру, в решениях компании Ocarina Networks. Этот производитель, недавно приобретенный Dell, разработал алгоритмы сжатия для 900 различных типов данных, в число которых входят уже сжатые графические и видеоформаты.

 

ИНСТРУМЕНТ ДЛЯ ВСЕСТОРОННЕГО УПРАВЛЕНИЯ ДАННЫМИ

Дедупликация — очень эффективное средство, во многих случаях позволяющее сократить лавину данных, однако это лишь один из многих инструментов, применяемых в рамках всеохватывающей стратегии управления данными. В качестве точечного решения эта технология малоэффективна, заметный результат проявится лишь в многоуровневой архитектуре хранения, включающей в себя резервное копирование, аварийное восстановление данных и их долгосрочное архивирование. Кроме того, необходимо принять во внимание исходную ситуацию: становится ли пропускная способность сети узким местом в процессе резервного копирования? Осуществляется ли резервное копирование через глобальную сеть по «медленным» линиям? Существуют ли законодательные предписания для долгосрочного сохранения данных? Кроме того, возможные решения для дедупликации данных должны быть совместимы с существующей инфраструктурой серверов и систем хранения. Лишь после того как будут учтены все эти аспекты, дедупликация данных сможет стать действительно эффективным средством оптимизации ресурсов.

Ханс Шрамм — менеджер по корпоративным продажам в компании Dell.