Классификация данных помогает ограничить расходы на хранение

Информационный центр в Wake Forest University Baptist Medical Center в высшей степени отличается от подобных структур в других крупных институтах. В этом центре располагаются всевозможные мэйнфреймы и серверы, которые обеспечивают такие услуги, как электронная почта и управление записями о пациентах центра в различных отделениях. В 2000 году под руководством технического менеджера Боба Мэссенгила в медицинском центре была развернута инфраструктура Storage Area Network (SAN) для хранения данных, генерируемых приложениями центра. Переход на SAN многое изменил. Когда SAN только-только была создана, в ней хранилось, по словам Мэссенгила, 2 Тбайт данных. «Через год объем хранимой информации возрос до 18 Тбайт. Сегодня мы находимся на уровне от 60 до 70 Тбайт данных, поддерживаемых SAN», — сказал Боб. Взрывной рост объема данных SAN Мэссенгил связывает с появлением новой концепции и новых требований, предъявляемых к хранящимся в центре данным: управление жизненным циклом информации — Information Lifecycle Management (ILM).

Что такое ILM?

ILM — это на сегодня одна из самых «горячих» концепций хранения данных. ILM начала складываться два года тому назад и не привязана к какому-то одному продукту, категории продукта или семейству несопоставимых продуктов. Скорее, это подход к управлению хранимыми данными на более эффективной и экономичной основе при помощи определенной стратегии, гарантирующей, что инфраструктура хранения в организации согласована с задачами бизнеса. В предложениях, направленных ассоциации Storage Networking Industry Association (SNIA), форум SNIA Data Management Forum описывает ILM как новый набор методик управления, основанных на согласовании ценности информации и большинства соответствующих и рентабельных инфраструктур.

Основная идея, лежащая в основе ILM, следующая: ценность отдельных элементов информации, которыми располагает организация, со временем меняется. По мере роста стоимости и сложности инфраструктуры ИТ вообще и инфраструктуры хранения в частности, менее важная информация должна храниться на менее дорогих устройствах.

Сентенция не нова. Организация ведения записей — это хорошо разработанная корпоративная дисциплина, и отвечающие за нее менеджеры располагают достаточным временем для анализа перспективной ценности тех или иных записей. В чем-то ILM напоминает концепцию управления иерархической структурой хранения Hierarchical Storage Management (HSM). Но HSM сфокусирована в основном на реализации политики переноса данных. Если к какой-то части данных за определенный промежуток времени обращений не было, то происходит автоматическое перемещение данных с одной платформы хранения на другую. «HSM не сфокусирована на оценке значимости данных, — говорит Джеймс Ли, вице-президент управления продуктами в компании Princeton Softech, разрабатывающей решения для архивирования баз данных. — Это решение, основанное на оценке времени доступа».

ILM куда более тщательно рассматривает сами данные и их перемещение. Во многих случаях эта концепция представляет собой тесную взаимосвязь практик управления записями и основополагающей концепции HSM и направлена на решение проблемы дорогостоящего и неэффективного хранения. «Когда мы пытаемся разобраться, что беспокоит наших пользователей, — отмечает Тодд Риф, старший директор по выпуску продуктов компании StorageTek, — выясняется, что 90% мирового объема данных — это реплицированная информация, причем более чем к 80% этих данных повторно никто не обращается. Однако основная часть данных хранится на самых дорогих устройствах хранения в течение долгого времени, что крайне неэффективно».

Хотя необходимость поиска новых путей обслуживания огромных объемов данных — одна из главных забот крупных корпораций, идея ILM также значима и для малого и среднего бизнеса. Извлечь выгоду из ILM смогут организации любых размеров: этот метод позволяет классифицировать и хранить данные в соответствии со степенью значимости для бизнеса.

Почему ILM?

При обращении к ILM внимание профессионалов в области хранения сосредоточено на четырех ключевых факторах. Вероятно, самый очевидный — постоянный рост объема данных. Рост данных имеет ряд существенных последствий. Слишком большое количество данных приводит к снижению производительности важнейших приложений. Архивирование устаревших данных теоретически может означать продление срока службы приложения и избавит от необходимости дорогостоящего обновления оборудования. Затрудненный доступ к данным также может привести к снижению производительности и сделать труднодостижимым желаемый уровень обслуживания. Сюда же надо добавить, что предоставление широкого доступа к данным порождает множество угроз для системы безопасности, которые компании вынуждены как-то учитывать.

Происходит не только количественный, но и качественный рост данных — появляются новые типы данных. Все более существенным фактором роста объема данных становится электронная почта. Необходимость управлять архивацией почты превратилась в острую проблему. Простое ограничение дискового пространства, выделяемого пользователям, перестало иметь существенное значение для определения того, что нужно архивировать, а что — удалять.

Однако электронная почта — только верхушка гигантского айсберга, сложенного из новых типов данных, которые требуют новой стратегии управления хранением. Для видеоданных, изображений, Web-данных и данных интерактивных журналов (blog) необходимо место. Передача голоса по протоколу IP (VoIP) становится общепринятой технологией, и рано или поздно VoIP-данные тоже надо будет где-то хранить. Все это приводит к дополнительным нагрузкам на инфраструктуру хранения.

Третья главная причина, стимулирующая развитие ILM, — соответствие регулирующим нормам. Согласно недавним постановлениям, информация должна храниться определенный период времени и доступ к ней должен быть легким и очевидным. Прежнее представление о том, что данные могут быть перенесены на менее дорогостоящую платформу, а затем и вовсе припрятаны куда-то вовне, больше не подходит. Сотрудники регулирующих органов могут потребовать данные многогодичной давности, и компании должны суметь выполнить эти требования.

Необходимость извлекать данные, чью ценность невозможно установить простым наблюдением за частотой обращений, очевиднее всего проявляется применительно к электронной почте. Эндрю Барнс, директор по маркетингу фирмы KVS, дочерней компании VERITAS, отмечает, что компании должны быть в состоянии не только извлекать отдельные электронные послания, но и суметь воспроизвести всю историю почтовой переписки со множеством вложений.

Последний фактор, который стимулирует внимание к ILM, — это инновационные разработки в технологии хранения. По мере того как инфраструктуры SAN и Network Attached Storage (NAS) становятся общеупотребительными, хранилище все больше напоминает ресурс общего доступа, а некоторые даже всерьез обсуждают возможность превращения служб хранения в некую сервисную службу, а не просто в отстойник индивидуальных данных. Более того, развитие дешевых дисковых технологий, таких как ATA, приводит к появлению новых видов иерархий запоминающих устройств. Вместо двух ярусов — диска и ленты — многие инфраструктуры хранения теперь имеют три и более ярусов, благодаря чему данные перемещаются с высокопроизводительных промышленных дисковых накопителей на менее дорогие и не очень производительные дисковые накопители типа near-online, почти оперативные, для проведения операций резервирования и восстановления, а затем на ленту для архивного хранения. В медицинском центре Wake Forest применяется многоярусная организация, изображенная на рис. 1.

Рисунок. Многоуровневая иерархия ILM

Набранный темп инновационных разработок следует сохранить, чтобы облегчить адаптацию ILM-стратегий. Например, технологии виртуализации хранения, ассоциативного (content-addressable) хранения, новые ленточные технологии, специально разработанные как воплощение идеи о том, что собственно резервная копия в конечном счете может быть отделена от архивирующих приложений, — все эти технологии должны занять свое место в инфраструктуре хранения, создаваемой вокруг концепции ILM.

Элементы решений ILM

Как следует из самого названия, ILM охватывает вопросы хранения информации от создания данных до того момента, когда данные становятся ненужными и могут быть удалены. Поэтому решения ILM начинаются с инфраструктуры хранения «сырых» (первичных) данных и далее распространяются на перенос данных на недорогие уровни хранения. Но перенос данных — это только один фрагмент мозаики. Стратегии ILM должны рассматривать бизнес как целое, включая анализ процессов резервирования, восстановления и изменения, а также архивацию и в случае необходимости — извлечение данных.

Первый и, наверное, ключевой шаг в освоении стратегии ILM, согласно опыту Wake Forest, состоит в необходимости заручиться поддержкой владельцев данных. ILM решает не столько проблему хранения, сколько проблему обработки данных, поэтому все заинтересованные стороны конкретного бизнес-процесса должны быть вовлечены в общий процесс и ясно понимать выгоды от принятия концепции ILM.

Второй шаг заключается в классификации данных по важности с точки зрения бизнеса. Собираемая информация должна быть классифицирована в соответствии с конкретными целями и согласованной методологией. Вообще говоря, данные могут быть классифицированы по нескольким критериям. Возможно, самый очевидный учитываемый фактор — значимость для бизнеса. При каких обстоятельствах та или иная информация может потребоваться пользователям и в каких временных рамках? Какие данные существенны для бизнеса и какие имеются взаимозависимости между критичными и некритичными данными? Другие вопросы, которые следует задать в процессе классификации данных, касаются того, какие ресурсы хранения поглощают те или иные данные и сколько будет стоить управление этими данными. Где данные будут размещаться физически? И наконец, как ценность для бизнеса, связанная с рассматриваемыми критериями, изменится через какое-то время?

Третий шаг в формировании ILM-решения состоит в следующем. Необходимо создать то, что в терминах форума SNIA Data Management Forum называется service-level objectives and policies (цели и политика уровня обслуживания) и что определяет порядок переноса данных через различные уровни инфраструктуры хранения. При каких условиях данные могут перемещаться с наивысшего уровня промышленных систем на близлежащие уровни типа nearline или дальше — в автономные системы? Чтобы достичь поставленной цели, в процессах классификации данных и разработке политики должны принимать участие как администраторы систем хранения, так и владельцы данных.

Вот как представлен сценарий стратегии ILM в центре Wake Forest. Скажем, в центр приходит пациент со сломанной рукой. Перелом сканируется специальной аппаратурой, оцифровывается, и к снимку на протяжении следующих 4-6 недель при посещении больным лечащего врача несколько раз происходит обращение. После удаления корсета к снимку обращаются один или два раза в течение 6 месяцев. После чего снимки должны оставаться в медицинских записях пациента еще 7 лет после того, как пациенту исполнится 18 лет. Итак, если ребенок сломал руку в возрасте, например, 4 лет, клиника должна хранить запись об этом случае 21 год, хотя к снимку, возможно, никто не будет обращаться. Таким образом, в первые 4-6 недель после перелома снимок должен быть легко доступен и храниться, вероятно, в высокопроизводительной подсистеме хранения. Но где он должен находиться через 4 месяца после перелома или спустя 10 лет? И как будет осуществляться процесс переноса? ILM-стратегия должна уметь отвечать на такие вопросы. В центре Wake Forest сотрудники ИТ-департамента пришли к заключению, что классифицировать данные невозможно, поскольку такого рода процессы слишком сложны и охватывают слишком много интервалов. Тогда руководство ИТ позволило каждому департаменту определить, какие данные на каких уровнях иерархии хранения следует размещать. А задача информационной службы центра свелась к тому, чтобы внятно объяснить остальным департаментам затраты на реализацию того или иного решения.

Текущее состояние ILM

В идеальном мире ILM можно было бы без затруднений реализовать и оценить. Компании имели бы стандартную методологию для классификации данных и набор ресурсов для автоматизации процесса переноса данных в соответствии с принятыми политиками. Более того, компании смогли бы предложить интегрированные решения ILM для управления данными по всему предприятию. В действительности же предприятия используют концепции ILM противоречивым образом. Например, перенос данных с одного уровня хранения на другой часто все еще выполняется вручную. И концепции ILM нередко используются для решения специфических, сиюминутных проблем вместо того, чтобы задействовать ILM как всеобъемлющую стратегию. «Есть три основных слабых места, — поясняет Риф из StorageTek, — неправильное использование дискового пространства первичного хранилища, когда старые данные хранятся там слишком долго; неадекватные инфраструктуры резервирования и восстановления и, наконец, приложения архивации, которые не соблюдают требования правительственных постановлений».

На сегодня продавцы систем хранения промышленного уровня предлагают лучшие в своем классе решения для каждой из трех названных проблем. Но пока еще нет интегрированного, всеобъемлющего ILM-решения ни от одного из них. Компаниям приходится интегрировать продукты класса ILM от различных поставщиков. Несколько поставщиков систем хранения организовали альянс для создания интегральных ILM-решений. Это, в частности, BMC Software и Princeton Softech, EMC и Outerbay Technologies, VERITAS и Network Appliance, а также StorageTek и различные партнеры названных компаний. Как бы то ни было, использование лучших в своем классе решений дает организациям возможность опробовать концепцию ILM и оценить достигнутый результат «из первых рук». Например, у одного производителя можно приобрести наилучшее решение с точки зрения управления ресурсами хранения, у другого — приложение архивации для электронной почты, у третьего — технологию архивации баз данных. Ли считает, что после того как в организации смогут оценить преимущества от использования ILM в какой-то одной области, появится больше шансов положительно решить вопрос о полномасштабном развертывании стратегии ILM. «Нередко, — отметил Джеймс Ли, — компании сначала применяют концепции ILM к архивации электронной почты или баз данных, а уже затем вовлекают в процесс все остальные приложения».

Без рекламы

Хотя некоторые эксперты склонны считать ILM новомодным словечком, придуманным поставщиками ради повышения объема продаж, это нечто большее, чем просто маркетинговая стратегия. ILM — вовсе не технология. Это скорее некая концептуальная основа, в рамках которой администраторы систем хранения, работая в тесном контакте с владельцами данных, могут более точно сопоставить ценность бизнес-информации и затраты на ее хранение.

ILM все еще продолжает формироваться как идея, но отдельные части ILM-решений уже предлагаются фактически всеми крупными поставщиками систем хранения, следующими выбранной стратегии развития ILM, и вполне измеримый ROI уже может быть доступен. Например, если раньше в Wake Forest Мэссенгил обновлял серверы центра каждые 18 месяцев, то сейчас это происходит только раз в 3 или 4 года. «Мы не проводим модернизации только для того, чтобы получить больший объем для хранения данных. Теперь мы можем продлить время жизни серверов», — заявил Мэссенгил.

Более того, техники ILM могут помочь компаниям провести консолидацию как в серверном парке, так и в инфраструктуре систем хранения. Фактически Мэссенгил своей работой демонстрирует снижение себестоимости, достигнутой различными департаментами при переходе на стратегию ILM и миграцию данных на недорогие платформы хранения; департаменты только выиграли от перехода на централизованную инфраструктуру хранения данных. В действительности, как считает Риф из StorageTek, ILM представляет собой ключевой шаг в разработке инфраструктуры хранения. «Это ступенька к рентабельности компьютинга, — подчеркнул он. — Весь смысл именно в этом».


Четыре шага для построения стратегии ILM

  1. Заручитесь поддержкой владельцев данных (различных департаментов).
  2. Классифицируйте данные в соответствии с их ценностью для бизнеса.
  3. Классифицируйте данные по дополнительным критериям, таким как местоположение, ресурсоемкость и стоимость обслуживания.
  4. Разработайте цели и политики уровня обслуживания для проведения переноса данных через различные уровни инфраструктуры хранения.

Автор статей, обозреватель и аналитик в области информационных технологий. Директор лаборатории в колледже Лайола в Мэриленде. eking212@comcast.net

Поделитесь материалом с коллегами и друзьями