Данные под прицелом классификации

Объемы сохраняемых данных превысили сегодня те цифры, о которых говорилось в самых смелых прогнозах, и процесс их накопления будет только ускоряться. К тому же предъявляются серьезные требования к обеспечению долговременной сохранности документов. А в результате именно вопрос «что хранить?» оказался самым существенным: без ответа на него все остальные теряют актуальность.

Попытки разобраться в том, что же, собственно, является предметом хранения в «системах хранения данных», привели к возникновению новой дисциплины — Information Classification and Management, или ICM. Эту аббревиатуру не стоит путать с близкой по звучанию ECM (Electronic Content Management). Последняя обозначает управление контентом и является реинкарнацией довольно старой, но незаслуженно забытой дисциплины Document Management Systems (которая, в свою очередь, входит в группу наук Information Science). Управление контента находится на границе между техническими и гуманитарными знаниями. Собственно, его когда-то и называли информатикой.

Классификация и управление данных относятся как к науке, так и к практике компьютерных систем. В отличие от ECM, дисциплина ICM является не столь теоретической. Сейчас эта группа технологий нацелена на создание специфического класса инструментов в рамках управления жизненным циклом информации (Information Lifecycle Management, ILM). Весьма важно, что предмет деятельности в ICM и ILM — не информация в широком смысле слова (это в большей степени присуще ECM), а самые настоящие данные, т. е. обычные файлы, хранящие данные в двоичном виде. (В № 4 журнала «Открытые системы» за текущий год опубликована статья «ИТ как элемент стоимости в бизнесе», которая дает пищу для размышлений о различиях между данными и информацией.)

Для того чтобы не запутать читателя окончательно, в дальнейшем мы будем использовать термин «информация» так же, как специалисты по ICM. В данном контексте достаточно воспользоваться следующей формулой Билла Инмона (отца хранилищ данных): «Информация — это данные плюс метаданные, описывающие такие данные». Если с ним согласиться, то предназначение ICM заключается преимущественно в классификации информации по метаданным, хотя в некоторых случаях классификация может осуществляться по ограниченному контенту.

Основными потребителями классифицированных данных являются объектно-ориентированные системы хранения (в частном случае — контентно-ориентированные системы) и объектно-ориентированные СУБД. А нужно все это, в конечном счете, для создания разумной технологической цепочки, по которой данные в процессе их жизненного цикла проходят по уровням многоуровневой системы хранения. Данные появляются и попадают в систему хранения на транзакционных дисках, которые также называют «захватывающими» (capture disk). Затем они переходят на промежуточные архивные диски (retention disk), чтобы потом перекочевать на ленты. Это — трехуровневая система хранения. Однако между лентами и дисками может располагаться еще один уровень — уровень виртуальных ленточных библиотек, и тогда система будет четырехуровневой.

Аналитики об ICM

Термин ICM предложен Бредом О?Нейлом, ведущим специалистом компании Taneja Group, занимающейся анализом тенденций в области систем хранения данных. Конкурирующая с ней в этой области компания Enterprise Strategy Group с подачи своего аналитика Брайна Бабенью предпочитает использовать свое, но весьма близкое название «интеллектуальный менеджмент информации» (Intelligent Information Management, IIM). Можно предположить, что они имеют в виду почти одно и то же, поскольку говорят о соответствующих продуктах одних и тех же компаний-«стартапов» — Abrevity, Arkivio, Enigma Data Solutions, Index Engines, Kazeon, Njini, Scentric, StoredIQ и Trusted Edge. Правда, Бабенью включает в этот список еще и CommVault, EMC, Orchestria и MessageGate.

Taneja Group определяет ICM как класс независимого от приложений (application-independent) программного обеспечения, которое использует индексацию, классификацию, правила и методы работы с данными для автоматизации деятельности, предшествующей хранению данных.

При продвижении к трех- или четырехуровневой модели хранения сразу стало ясно, что создать более-менее интеллектуальную инфраструктуру без классификации и структуризации данных невозможно. Обнаружилось, что у крупных производителей практически нет задела в этой области, и в образовавшийся зазор сразу же устремилось множество небольших компаний. Они воспользовались тем, что «классики» застряли на обсуждении роли дисков и лент, упустив менеджмент данных на более высоком уровне, на котором пользователи хотели бы видеть информационный обмен между приложениями. К сожалению, сегодня их требования почти не учитываются.

ICM как средство спасения

В качестве исходных данных для классификации можно использовать метаданные и контент. Классификация по метаданным основана на тех метаданных, которые обнаруживаются в дисковых и сетевых файловых системах. В зависимости от уровня развитости файловая система содержит от одного (DECtape) до десяти атрибутов (ZFS от Sun Microsystems или VxFS от Veritas). В число атрибутов входят данные о времени создания файла и внесения в него изменений, защищенности, принадлежности, правах доступа и т.д. Конкурентный набор атрибутов зависит от типа файловой системы. Использование метаданных из сетевых файловых систем CIFS (Windows) или NFS (Unix) еще больше увеличивает число атрибутов, доступных для классификации.

В дополнение к классификации по метаданным можно использовать классификацию по контенту, причем выбирать критически важные для документа данные. Если речь идет о личных данных, то таковыми, например, являются номера идентификационных документов, если о проектах — их имена и т. д. Результатом классификации по метаданным и контенту должно стать резюме, создание которого является ключевой функцией всех систем ICM (хотя реализованные в них методы подготовки резюме различаются).

Все резюме хранимых данных собираются в базу данных. Администратор, используя систему инфраструктурного поиска, может обращаться к ней с запросами, например: «На период T ограничить входящим в группу пользователям доступ к файлам, созданным с момента T1 по момент T2 и содержащим ключевое слово X». Система ICM может быть реализована на базе стандартного сервера, включенного в сеть в режиме out-of-band и собирающего необходимые сведения одновременно с работой основной системы. После включения он, как поисковая система Internet, осуществляет первичную индексацию корпоративной сети, а затем повторяет ее с заданной периодичностью.

Применение технологий ICM не исключает работы администратора, но позволяет ему понимать, что именно происходит в системе и в какой степени хранение данных соответствует требованиям бизнеса и корпоративной безопасности.

Информационные беды ИТ-менеджеров

Плохой обзор. Из-за увеличения объемов баз данных, хранимых электронных писем, файлов с разнообразным контентом ИТ-менеджер гораздо хуже, чем прежде, представляет себе, что именно хранится в системе.

Рост рисков. Недостаток информированности о структуре хранимых данных грозит такими неприятностями, как бреши в системе защиты, потеря данных и управляемости. Среда хранения разрастается с почти экспоненциальной скоростью, и управление рисками превращается в одну из «горячих точек». Нынешнее состояние неопределенности, связанное с ресурсами хранения, иногда характеризуют фразой «мы не знаем того, чего не знаем». Технологий, позволяющих решать эти проблемы, пока не создано.

Неспособность управлять данными. Почти никогда не удается установить однозначную связь между приложениями и используемыми ими данными. В результате возникают, например, такие ситуации: приложение Х потеряло актуальность, но неясно, можно ли вместе с ним удалить все применяемые им данные так, чтобы не пострадали другие приложения. Отсутствие представления о данных, адекватного бизнес-процессам, является еще одним недостатком современных средств менеджмента данных.

Малый коэффициент использования систем хранения. В среднем системы хранения используются на 30%, и никакими силами не удается поднять этот коэффициент до 50%. Чем больше объемы хранимых данных, тем дороже содержание «балласта». Избыточность стала одной из серьезных проблем. Применение технологий ILM в какой-то степени снижает ее остроту, поскольку позволяет перевести «излишки» на менее дорогие системы хранения. Но решение проблемы находится вне возможностей самих систем хранения: избыточность удастся победить, лишь поднявшись на уровень выше в управлении данными.