Классификация данных

Network World, США

Базовые решения не в состоянии удовлетворить потребности ИТ-специалистов, которым необходима более точная классификация данных

Попытки защитить данные, поддерживать иерархические системы хранения и удовлетворить новым нормативным требованиям могут оказаться малорезультативными, если в компании выбран неэффективный метод классификации данных.

Традиционные методы классификации, основанные на использовании метаданных файловой системы, не предполагают достаточного разнообразия визуального представления контента. К примеру, Common Interface File System для ОС Windows и Network File Systems для ОС Unix предлагают не больше восьми тегов метаданных для классификации, таких как имя файла, название каталога, размер файла, тип, а также даты модификации и последнего обращения.

Эти базовые решения не в состоянии удовлетворить потребности ИТ-специалистов, которым необходима более точная классификация данных.

Такое положение вещей стало стимулом для формирования нового сегмента рынка, получившего название «Классификация информации и управление ею» (Information Classification and Management, ICM). Инструментарий, относя?щийся к этому сегменту, позволяет, например, выполнять грамматический разбор метаданных, описывающих местонахождение файла, получать визуальное представление содержимого файлов, проводить классификацию по категориям с учетом контекста, маркировать файлы на основе классификации, а также вести контроль и управлять данными на основе установленных политик.

К сожалению, некоторые из этих решений имеют серьезные ограничения по производительности, масштабируемости, гибкости и совместимости, обусловленные особенностями их базовой архитектуры, а именно реляционных баз данных и/или корпоративных механизмов поиска.

Последние вполне адекватны для поиска в Web, что доказала Google и другие компании. Однако из-за этих ограничений решения становятся довольно громоздкими, и многие специалисты по ИТ считают, что они не соответствуют требованиям ICM в корпоративных средах. Рассмотрим поиск как инструмент создания словаря для поиска слов. В первую очередь необходимо создать большой индекс всех слов, имеющихся во всех файлах.

Этот процесс достаточно медленный (индексация 10 Тбайт данных может занять до двух недель) и требует памяти большой емкости (исходный объем данных может быть превышен на 50-300%).

Специализированные решения, ориентированные на ICM, не должны ограничиваться исключительно поиском, а обязаны поддерживать настоящие функции добычи данных. В частности, это касается возможности находить номера социального страхования, номера кредитных карт, исходные тексты программ и конфиденциальную информацию, имеющуюся в открытом доступе. Кроме того, такие решения должны позволять искать данные по принципу схожести с именем, названием компании, номер счета или номером судебного дела или даже числовыми значениями в ячейки электронной таблицы.

Некоторые инструментальные средства используют поиск по шаблону или контексту для того, чтобы найти краткие комментарии или темы документа. Это позволяет видеть контент так же, как и при поиске, но с учетом контекста, благодаря чему John Apple трактуется как имя, а не как название компании или фрукт.

На крупных предприятиях поиск и классификация файлов должны выполняться в различных системах, что далеко не всегда позволяют сделать средства, созданные на основе реляционных баз данных. Необходимо решение, не ограниченное монолитной архитектурой одной базы данных и предлагающее некий аналог grid.

Это требует создания новой распределенной модели данных, которая позволяет выделить в базе данных самостоятельные слои, размещаемые в удаленных системах и на отдельных ПК, а не в централизованных хранилищах данных.

Перенос классифицированных данных в соответствующие хранилища требует использования механизмов поддержки политик, которые начинаются с классификации данных и предусматривают маркировку файлов. Важность данных должна быть известна до реализации политик, и эффективный механизм поддержки политик должен сохранять ссылки на суррогаты файлов (file stub) и на их реальное местонахождение. Кроме того, должны быть перенесены все структуры каталогов файлов, в том числе списки контроля доступа. Это необходимо сделать в гетерогенной среде хранения, вне зависимости от имеющихся систем хранения.

Маркировка должна быть столь же простой, как создание списков воспроизведения для музыкальных программ MP3. Для этого ИТ-специалисты и бизнес-пользователи могут согласовать, какую информацию считать важной, конфиденциальной или уязвимой, а затем промаркировать файлы на основе булевых запросов поиска. После чего можно установить политики, определяющие правила управления и контроля этих файлов.

Классификацию данных ИТ-специалисты должны рассматривать как возможность снизить затраты и упростить работу, и в то же время увеличить полезность информации для компании.

Билл Рид — вице-президент по продажам и маркетингу компании Ab?revity. С ним можно связаться по ад?ресу bill@abrevity.com.