Возможность устранения дублирования данных, содержащихся в резервных копиях, за счет копирования только уникальных блоков данных быстро меняет рынок средств обеспечения сохранности данных.

Объемы данных растут экспоненциально. Компании не только генерируют больше первичных данных, но и вынуждены выполнять требования законодательных актов, создавая резервные копии и многократно сохраняя имеющиеся данные на протяжении всего их жизненного цикла. Если в течение года еженедельно формировать полную резервную копию и на протяжении 10 дней ежедневно отражать в ней произошедшие с данными изменения, емкость системы хранения, необходимого для защиты 1 Тбайт данных в течение их жизненного цикла, составит 53 Тбайт. К расходам на резервное копирование, управление и хранение данных добавляется постоянно растущая стоимость труда ИТ-персонала и электроэнергии, а также затраты на охлаждение и размещение оборудования.

Это минусы. Что касается плюсов, то к ним можно отнести падение цен на дисковые системы хранения, которые все чаще выбираются в качестве привлекательного альтернативного источника хранения резервных копий.

Технология исключения дублирования данных сегодня чаще всего встречается в так называемых виртуальных ленточных библиотеках (Virtual Tape Library, VTL), созданных на основе дисков, она помогает ограничить рост объемов накопленной информации за счет того, что копирование каждой уникальной порции данных выполняется только один раз.

Виртуальные ленточные библиотеки представляют собой дисковые системы, эмулирующие ленточную технологию и позволяющие предприятиям интегрировать их в существующую среду с минимальными издержками. Программное обеспечение, исключающее дублирование (многие системы VTL поддерживают такую функциональность), сохраняет базовый набор данных и проверяет новые копии на предмет наличия дублирования. При обнаружении дубликата на носитель записывается компактная свертка информации, позволяющая в случае необходимости скомпилировать и восстановить полную версию файлов.

Известно две наиболее распространенные методики борьбы с дублированием данных: хеширование и побайтное сравнение. Подход на основе хеширования предусматривает обработку данных в соответствии со специальным алгоритмом с целью получения свертки, а также использование уникального идентификатора данных, называемого хешем. В дальнейшем этот идентификатор сравнивается с другими хеш-идентификаторами, которые хранятся в таблице соответствия. Если в результате сравнения обнаружено совпадение, избыточные данные заменяются указателем на существующий хеш. При отсутствии совпадений данные добавляются к таблице соответствия. Однако использование таблицы соответствия для выявления дублирующихся хеш-строк может привести к снижению производительности, а оптимизация и вывод скорости выполнения операций на приемлемый уровень выльется в несколько недель работы.

Более эффективный метод предполагает простое сравнение элементов на объектном уровне: например, сравнение документа Word с другими документами Word. Подобное сопоставление можно проводить с помощью сравнения шаблонов. Дальнейшее развитие технологий предусматривает использование интеллектуальных процедур, анализирующих резервные копии и справочные данные для предварительного выявления файлов, которые с большой долей вероятности являются избыточными, еще до их детального сравнения. Сосредоточив все внимание на предполагаемых дубликатах, можно проводить более тщательную проверку и избегать ненужной обработки новых файлов.

В некоторых решениях исключение дублирования осуществляется непосредственно на этапе копирования данных. В результате скорость выполнения процедуры создания резервной копии снижается, а сам процесс заметно усложняется. В других технологиях исключение дублирования отделено от процедуры копирования. Сначала данные с максимально возможной скоростью копируются на резервный носитель, а потом уже устраняется дублирование.

При исключении дублирования на уровне байтов избыточность можно снизить до величины, которая оказывается в 25 раз меньше первоначальной. В сочетании с технологиями сжатия — стандартная функция типичной библиотеки VTL — использование подобных средств позволяет увеличить плотность хранения данных в 50 раз. Столь заметное снижение объемов помогает компании размещать больше данных в режиме прямого доступа и дольше сохранять их в этом состоянии, что в свою очередь приводит к сокращению трудозатрат и позволяет воспользоваться дополнительными преимуществами хранения данных на дисках.

К примеру, на диске данные занимают меньше физического пространства, чем на ленте. При этом заметно сокращается энергопотребление, снижаются расходы на охлаждение, а также другие операционные и инфраструктурные затраты. В недавнем отчете Gartner утверждается, что к 2008 году половине существующих центров обработки данных не будет хватать энергетических и охлаждающих мощностей для удовлетворения потребностей оборудования с высокой плотностью размещения данных.

Среди дополнительных преимуществ новой технологии следует отметить следующие.

  • Увеличение продолжительности хранения данных в режиме прямого доступа. Сокращение объемов хранимой информации в 50 раз при использовании типичных для бизнеса данных (электронная почта и файлы документов) означает, что данные можно дольше держать в режиме прямого доступа, а это упрощает соблюдение жестких требований, предъявляемых к уровню обслуживания.
  • Снижение рабочей нагрузки и повышение устойчивости. Возьмем, например, предприятие, у которого накоплено 65 Тбайт данных. Ежегодно этот объем увеличивается на 56%. Если выполнять процедуру резервного копирования раз в неделю, в общем случае организации понадобится 49 стоек с дисками, а после исключения дублирования — всего две. Сократив число требуемых стоек и количество вращающихся дисков, мы повышаем тем самым устойчивость системы и снижаем расходы на энергопотребление, охлаждение и администрирование.
  • Ускорение процедуры резервного копирования и восстановления. Решения, предусматривающие отделение исключения дублирования от собственно копирования, обеспечивают создание резервных копий и их последующее восстановление со скоростью работы интерфейса Fibre Channel.
  • Устранение физических угроз данным. В отличие от физической ленты, которая может быть похищена, утеряна или повреждена, данные на диске находятся в безопасной среде с высоким уровнем готовности.

Исключение дублирования данных коренным образом меняет всю экономику обеспечения сохранности данных, поскольку стоимость создания резервных копий в системах VTL оказывается значительно ниже, чем у обычных дисковых решений защиты данных.

Исключение дублирования данных имеет очень большое значение для администраторов центров обработки данных, которые вынуждены искать способы борьбы с постоянно растущими затратами на электроэнергию, оплату труда и аренду помещений, а также с нависшей над ними угрозой нехватки энергетических и охлаждающих мощностей.

Миклош Сандорфи — директор по технологиям компании Sepaton. Его адрес электронной почты — msandorfi@sepaton.com

Поделитесь материалом с коллегами и друзьями