Существующие сегодня решения для надежного и долгосрочного архивирования данных могут использоваться в разных комбинациях с концепциями иерархического хранения и управления жизненным циклом информации. Палитра доступных вариантов простирается от простого архивирования на ленты с однократной записью до комплексных аналитических систем «для смыслового управления данными».

Чтобы не оказаться погребенными под постоянно растущим объемом информации, предприятия внедряют у себя новые интеллектуальные решения для управления данными и их архивирования. На данный момент наиболее значительный прирост наблюдается в сегменте неструктурированных данных, таких как текстовые документы, электронные письма, графические изображения, а также аудио- и видеофайлы. По оценкам специалистов, их объем ежегодно увеличивается примерно на 80%. Количество структурированных данных тоже возрастает — на 20–30% в год. Отделам ИТ приходится обеспечивать экономически эффективное хранение все возрастающего объема данных, соблюдая при этом директивы и предписания, действующие на их предприятиях.

ДОЛГОСРОЧНОЕ АРХИВИРОВАНИЕ

На стадии планирования решения для архивирования данных необходимо ответить на один важный вопрос: должен ли доступ к архивированным данным быть по-прежнему быстрым или можно потратить одну-две минуты на ожидание загрузки необходимого файла. Если последнее допустимо, то наиболее выгодным решением для долгосрочного архивирования являются ленточные библиотеки. Кроме того, следует определиться с механизмами записи информации в архив. Небольшие предприятия, которые должны хранить данные лишь несколько лет, зачастую используют для этого программное обеспечение для резервного копирования. Однако подобный бюджетный способ архивирования не позволяет осуществлять поиск нужной информации в архивных данных. Если же применяется отдельное специализированное решение, администратору необходимо решить, нуждаются ли архивные данные в дополнительной защите. При таком варианте архивированные файлы можно исключить из общего процесса резервного копирования.

Для максимально быстрого перемещения файлов в архив мощные специализированные решения поддерживают функцию параллельной передачи данных. Такие системы могут разбивать слишком большие файлы на несколько частей или объединять множество небольших по размеру файлов в несколько крупных параллельных потоков. Профессиональные решения для архивирования обладают широкими функциями поиска, позволяющими отыскивать нужную информацию. Так, для текстовых документов уже давно существуют эффективные индексирующие и поисковые машины, при этом квитанции и счета можно снабдить штрихкодами, облегчающими их дальнейший поиск. Некоторые производители уже разработали решения, позволяющие осуществлять индексацию аудиои видеофайлов.

Еще одна важная функция систем для долгосрочного архивирования — возможность миграции хранимых файлов на новые аппаратные платформы. В идеале такое решение должно поддерживать автоматическую миграцию данных, позволяющую копировать информацию со старых носителей на новые без прерывания процесса эксплуатации. Чтобы гарантировать целостность сохраненных файлов, мощные решения для архивирования через регулярные промежутки времени проверяют данные, хранящиеся на дисковых или ленточных накопителях, и при обнаружении ошибок создают новую копию. Большинство решений для архивирования сохраняет не менее двух копий.

Затраты усилий на смену производителя системы архивирования зависят и от того, сохраняются ли данные в открытом формате файловой системы или используются технологии, разработанные кем-то из производителей, например проприетарные алгоритмы хэширования. В случае стандартной файловой системы миграция на другую платформу осуществляется достаточно просто, но при очень больших объемах данных этот процесс может затянуться надолго.

Чтобы обеспечить соответствие законодательным предписаниям, предприятия должны сохранять в неизменном виде такие документы, как квитанции, счета или переписка по электронной почте, в течение предусмотренного срока. При этом необходимо предотвратить возможность их последующего редактирования и обеспечить круглосуточную доступность данных, к примеру, на случай проведения налоговой проверки.

Раньше для защиты от изменений часто использовались оптические носители информации, такие как CD-, DVDи магнитооптические (Magneto Optical, MO) диски. Решения на основе дисковых и ленточных систем WORM обеспечивают значительно большую гибкость и масштабируемость, чем оптические библиотеки, при этом технология WORM гарантирует невозможность последующего изменения записанных файлов. Многие поставщики интегрировали функции WORM в собственные решения для архивирования, однако некоторые используют системы WORM других производителей.

HSM И ILM

Технология иерархического хранения (Hierarchical Storage Management, HSM), входит в число стандартных функций многих систем архивирования и обеспечивает автоматическое перемещение данных на более дешевые носители (см. Рисунок 1). Такое архивирование выполняется на основе определенных критериев, а самым распространенным параметром является частота обращений к данным. В качестве критерия для перемещения файлов в архив может служить их возраст. Кроме того, в некоторых правилах используются пороговые значения — файлы перемещаются, как только заполнение жесткого диска превосходит заданное ограничение.

 

Рисунок 1. Системы архивирования с поддержкой функций HSM осуществляют перемещение данных на более дешевые носители информации на основе заданных правил.
Рисунок 1. Системы архивирования с поддержкой функций HSM осуществляют перемещение данных на более дешевые носители информации на основе заданных правил.

 

Большинство решений HSM поддерживают многоуровневые архитектуры, в которых часто используемые данные располагаются на «быстрых» системах хранения. Файлы, востребованные реже, автоматически перемещаются на вторичные диски (Nearline) и впоследствии переписываются на дешевые ленточные накопители. Как правило, в исходном месте хранения файла сохраняется некий маркер, ссылающийся на новое расположение, и если пользователю понадобится файл из архива, система HSM возвращает его назад.

Так называемая концепция управления жизненным циклом информации (Information Lifecycle Management, ILM) предлагает значительно более широкий функционал, чем HSM. С помощью комплексного свода правил ILM четко определяет, как следует обращаться с файлами на протяжении всего их жизненного цикла. Большинство систем управления документами (Document Management System, DMS) и систем управления корпоративным контентом (Enterprise Content Management, ECM) поддерживают функции ILM.

Как правило, первый этап использования решений ILM заключается в классификации новых файлов и отнесении их к определенной категории — к примеру, для счетов и квитанций с десятилетним сроком хранения. Кроме того, файлы могут классифицироваться по степени их важности. При выборе решения для архивирования данных предприятию следует обращать внимание на наличие надежных механизмов удаления данных из системы по завершении их жизненного цикла. Ниже мы рассмотрим особенности различных решений для архивирования, представленных на рынке.

РЕШЕНИЯ ДЛЯ РЕЗЕРВНОГО КОПИРОВАНИЯ С ФУНКЦИЕЙ АРХИВИРОВАНИЯ

Система Simpana от CommVault представляет собой модульное решение для резервного копирования данных с поддержкой функций HSM, архивированием и полнотекстовым индексированием с возможностями поиска (см. Рисунок 2). Для архивирования данных Simpana сначала осуществляет резервное копирование, а затем восстанавливает их на сервере индексирования. Архивированные данные подвергаются дедупликации и шифрованию. Simpana может записывать их на дисковые системы, на ленточные накопители или перенаправлять в облачную систему. Для архивирования с использованием технологии WORM поддерживается интеграция с решениями других производителей.

 

Рисунок 2. Пакет для резервного копирования CommVault Simpana включает в себя решение для архивирования данных с поддержкой функций полнотекстового поиска.
Рисунок 2. Пакет для резервного копирования CommVault Simpana включает в себя решение для архивирования данных с поддержкой функций полнотекстового поиска.

 

У компании IBM в арсенале имеется программное решение для резервирования данных Tivoli Storage Manager (TSM), которое в сочетании с Tivoli System Storage Archive Manager (SSAM) составляет мощную систему для архивирования информации с интегрированными функциями HSM и поддержкой технологии WORM. Эта система способна записывать файлы напрямую на ленты WORM. Для ускорения доступа к данным существует возможность подключения дисковых буферов.

Grau Archive Manager (GAM) от компании Grau Data представляет собой мощную многопользовательскую систему архивирования, предназначенную для крупных предприятий. Поскольку GAM реализован в виде файловой системы, все приложения могут использовать этот архив без каких-либо дополнительных настроек. Интегрированные функции HSM отвечают за автоматический перенос данных с дисковых накопителей в ленточную библиотеку. Это программное обеспечение поддерживает технологию WORM. Для небольших предприятий Grau Data предлагает инструмент Filelock — простое решение для реализации функций WORM в Windows. GAM имеет также версию с открытыми исходными кодами — Open Archive.

ПРОГРАММНЫЕ РЕШЕНИЯ ДЛЯ АРХИВИРОВАНИЯ

Symantec предлагает множество продуктов для архивирования. Производитель настолько расширил свое решение Enterprise Vault, что теперь оно способно обеспечить защищенное от изменений архивирование не только электронной почты, но также файловых систем и серверов SharePoint. Архивированные данные подвергаются дедупликации, а итоговое место сохранения можно выбирать произвольно. Функционалом HSM оснащено решение Symantec Storage Foundation. Модуль eDiscovery позволяет осуществлять поиск по данным в архиве. Кроме того, после приобретения компании Clearwell у Symantec появилось высокопроизводительное решение eDiscovery для структурированных и неструктурированных данных.

К числу решений, работающих без привязки к аппаратному обеспечению, следует отнести StorNext компании Quantum. Эта программа реализована в виде файловой системы и способна осуществлять архивирование данных на основе заданных правил. Как и многие другие продукты, она поддерживает технологию WORM. Если StorNext используется вместе с ленточной библиотекой от Quantum, последняя может осуществлять автоматическую проверку лент на наличие ошибок и — при необходимости — перезапись файлов. Эта система поддерживает множество клиентов и предоставляет функцию миграции, позволяющую копировать данные на ленточные накопители нового поколения без прерывания процесса эксплуатации.

После поглощения Sun компания Oracle стала владельцем решения для архивирования SAM-FS, которое она объединила с решением для управления контентом Oracle Web Center (OWC), позволяющим управлять неструктурированными данными. OWC сохраняет все файлы в файловой системе SAM-FS, реализованной на базе Unix, и позволяет администрировать разрешения и правила для работы с файлами. Многопользовательское приложение SAM-FS управляет архивированием информации с помощью интегрированных функций HSM и WORM. Это решение сохраняет данные в открытом формате TAR.

АППАРАТНЫЕ РЕШЕНИЯ ДЛЯ АРХИВИРОВАНИЯ

 

Решения для архивирования и управления данными
Рисунок 3. Решение Centera компании EMC представляет собой объектно-ориентированную дисковую систему с поддержкой технологии WORM для надежного архивирования данных, отвечающего всем законодательным требованиям.

Одним из первопроходцев в области систем архивирования на базе жестких дисков с функцией WORM является компания EMC со своим решением Centera (см. Рисунок 3). Речь идет об объектно-ориентированной системе, которой не требуются логические устройства (LUN), структуры RAID или файловые системы, что существенно облегчает процесс администрирования. EMC разработала для Centera механизм хэширования, обеспечивающий целостность сохраняемых данных. Миграция архивных данных со старого аппаратного обеспечения на новые системы осуществляется с помощью соответствующего инструментария. Система поддерживает метод удаления данных (Shredding) в семь этапов. Для небольших предприятий EMC предлагает дисковые системы серии VNX-E с поддержкой технологии WORM.

В продуктовом портфеле компании Hitachi Data Systems (HDS) имеется объектно-ориентированная система хранения данных для архивирования с защитой от изменений — Hitachi Content Platform (HCP). HCP использует интерфейсы CIFS, NFS, Webday, HTTP и FTP. Система HCP 300 состоит из серверов HDS с локальными жесткими дисками и контроллерами RAID. Старшая модель HCP 500, в свою очередь, использует системы хранения HDS. HCP не осуществляет прямой записи данных на ленточные накопители, эту функцию можно реализовать с помощью программного пакета для поддержки HSM — Hitachi Data Protection Suite, за которым скрывается OEM-версия решения CommVault Simpana.

Для обеспечения архивирования в соответствии с нормативами и законодательными предписаниями (Compliance) IBM предлагает свою дисковую систему Information Archive (IA). IA поддерживает интеграцию с ленточными библиотеками WORM и функциями HSB собственного решения TSM SSAM (см. Рисунок 4). Архивирование файловых систем IA выполняется посредством интерфейсов NFS и CIFS. Функции индексирования и поиска тоже доступны. Кроме того, IA обладает автоматическим механизмом для миграции архивных данных на новые носители без прерывания процесса эксплуатации. Через некоторое время IBM обещает выпустить решение NAS (Sonas), в котором, помимо обобщенной параллельной файловой системы (General Parallel File System, GPFS), будут реализованы функции ILM и HSM. Для удовлетворения самых высоких требований в арсенале производителя имеется высокопроизводительная система хранения (High Performance Storage System, HPSS) с поддержкой GPFS. Совсем скоро IBM планирует выпустить решение для архивирования данных V7000, адресованное небольшим предприятиям.

 

Решения для архивирования и управления данными
Рисунок 4. Information Archive от IBM сохраняет данные в соответствии с нормативами и интегрируется с функциями HSM решения TSM.

HP в результате приобретения компании Autonomy стала обладателем экспертизы в области управления жизненным циклом информации для неструктурированных данных. Предшествующие продукты HP для ILM будут интегрированы в портфель решений Autonomy. Последняя специализируется на анализе неструктурированных данных, их автоматической классификации и подготовке к последующему поиску, что становится возможным благодаря интеллектуальному уровню работы с данными (Intelligent Data Operating Layer, IDOL), способному распознавать и индексировать не только тексты, но и аудио- и видеофайлы, созданные на 70 языках. IDOL позволяет реализовать так называемое смысловое управление данными (Meaning Based Data Management), когда значение любых типов файлов определяется на основе статистического анализа информации. В результате появляется возможность автоматического распознавания важных и менее важных документов, которые затем обрабатываются на основе заданных правил. Компания HP предлагает три предустановленных аппаратных решения для архивирования, технологии eDiscovery и Enterprise Search, а также Autonomy в виде облачного решения. Для небольших предприятий выпускается дисковая система iCAS с поддержкой технологии WORM.

Кристоф Ланге — независимый журналист и консультант по ИТ.