Идея тесной увязки ИТ и бизнеса, реализуемая через способность ИТ-инфраструктуры быстро находить адекватные ответы на изменения в бизнес-процессах, становится основополагающей для всех технологических инноваций компании Hewlett-Packard и постепенно воплощается в конкретных продуктах. Системы хранения — не исключение. Они являются важным компонентом ИТ-инфраструктуры в общем стратегическом русле предоставления ресурсов как «коммунальной» услуги — основы концепции адаптивного предприятия. Среда хранения требует особых механизмов для объединения всех компонентов, управления пулом ресурсов как единым объектом, оптимизации распределения ресурсов хранения в зависимости от потребностей приложений.

С конца 90-х годов в HP велись работы по унификации предоставления разнородных ресурсов хранения и упрощению процессов управления гетерогенной инфраструктурой хранения. Первым шагом в этом направлении стала адаптация технологий сетей хранения (storage area network, SAN), затем последовали разработки в области виртуализации хранения, консолидация файловых сервисов данных и блокового доступа путем объединения возможностей SAN и сетевых устройств хранения (network attached storage, NAS), совершенствование программных решений по управлению интегрированными ресурсами хранения.

Однако создание новой концепции адаптивности ИТ-ресурсов требует и принципиально новых подходов к предоставлению ресурсов хранения. В современной среде хранения, при всех преимуществах консолидации, которые дают SAN, возможности виртуализации и использование программных средств управления сохраняется значительная зависимость от особенностей конкретных устройств, что усложняет управление, модернизацию и масштабирование инфраструктуры хранения.

Чтобы обеспечить максимальную гибкость реагирования среды хранения на изменения в бизнесе, необходимо полностью скрыть специфику отдельных устройств под общей «шапкой» единого пула хранения, который легко изменять, наращивать и которым просто управлять. Технологию создания такого пула HP предлагает в новой аппаратно-программной среде хранения StorageWorks Grid (или, сокращенно, Storage Grid).

Grid на уровне хранения

От Grid, в традиционном для компьютерной области смысле, как концепции среды распределенных вычислений HP Storage Grid берет идею объединения и оптимального распределения ресурсов хранения между приложениями. Однако конфигурация Storage Grid соответствует и прямому значению английского слова grid («решетка»), поскольку представляет собой сеть модульных блоков хранения, работающих по принципам массового параллелизма (рис. 1).

Рис. 1. HP StorageWorks Grid — эволюция сетевого хранения

HP определяет Storage Grid как коллаборативную сетевую инфраструктуру хранения, состоящую из стандартных модульных блоков — интеллектуальных ячеек (smart cell) — и обеспечивающую в режиме реального времени предоставление, развертывание и реконфигурацию новых и существующих информационных сервисов [1]. Каждая ячейка Storage Grid представляет собой стандартное устройство хранения — дисковый массив или устройство долговременного хранения данных — в совокупности с определенной процессорной мощностью и некоторой интеллектуальной начинкой, то есть возможностью выполнять те или иные задачи управления данными. Масштабирование в сети Storage Grid достигается за счет добавления модульных блоков, наращивания производительности и добавления прикладных возможностей к уже существующим ячейкам.

Независимо от числа, содержания и конфигурации ячеек в такой «решетке» хранения, с точки зрения управления она представляется единым объектом, а потому любое изменение и расширение не должно усложнить работы с Storage Grid. Разработчики HP пытаются довести до логического завершения идею виртуализации хранения, создавая в Storage Grid единый пул неоднородных устройств. В отличие от существующих технологий виртуализации, единый системный образ Storage Grid позволяет объединить в одном объекте управления массивы любых типов, равно как и различные ленточные и оптические устройства хранения.

Для достижения адаптивности ИТ-среды с точки зрения инфраструктуры хранения принципиально важна возможность предоставления приложениям в режиме реального времени нужных сервисов данных и оперативного изменения инфраструктуры при изменении потребностей бизнес-приложений. Модульная сетевая архитектура «решетки» Storage Grid направлена на решение именно этой задачи. В интеллектуальных ячейках Storage Grid реализуется комбинация физических атрибутов и программных возможностей, обеспечивающих разные сервисы данных и способных гибко наращиваться и реконфигурироваться без проблем для управления.

Аппаратные компоненты ячейки включают в себя устройство хранения, контроллер, сетевой интерфейс и в некоторых случаях дополнительную кэш-память. Сетевые компоненты реализуют объединение контроллеров ячеек в сетевую конфигурацию, которая представляется на уровне управления как единый объект. Программное обеспечение имеет общий и индивидуальный компоненты. На все ячейки устанавливается общее программное обеспечение, позволяющее создать единую оперативную среду сети хранения Storage Grid. При этом контроллеры ячеек поддерживают дополнительные программные возможности, реализующие в каждой ячейке определенный информационный сервис, например выделение емкости хранения, управление путями доступа, индексирование, поиск и выборку данных, копирование, репликацию и т.д.

Каждый модуль сети Storage Grid характеризуется такими атрибутами, как емкость хранения, производительность, способность противостоять ошибкам (избыточность, скорость восстановления), тип хранения (блочное, файловое, объектное) и тип сохранности данных (архив, резервное хранение, оперативное хранение с возможностями чтения и записи). Расширение и видоизменение такой среды хранения происходит согласно определенным атрибутам ее модулей и не зависит от других атрибутов. Скажем, при необходимости в более высокой производительности доступа к данным используются дополнительные контроллеры дисковых массивов. Увеличение емкостей хранения достигается добавлением дисков или лент. Потребность в новом информационном сервисе удовлетворяется за счет загрузки в подходящую ячейку соответствующего программного обеспечения.

Это открывает практически неограниченные возможности для масштабирования инфраструктуры хранения и не усложняет управления ею, поскольку, напомним, основополагающим принципом Storage Grid является ее представление как единого объекта управления независимо от размера и структуры сети. В том-то и состоит принципиальное отличие такой «решетки» хранения от традиционных сетей хранения, в которых управление не может не учитывать специфику отдельных компонентов сети, а емкости хранения и производительность контроллеров дисковых массивов находятся в тесной зависимости — увеличение одного параметра может повлечь за собой уменьшение другого.

Ячейки Storage Grid различаются по составу в зависимости от функций, которые могут быть на них возложены. В рамках сети хранения ячейки одного типа (с одним и тем же индивидуальным сервисным программным обеспечением, загруженным на их контроллеры) объединяются в домены. Например, в Storage Grid могут быть домены файловых сервисов, блокового доступа к данным, архивирования, резервного копирования.

Наличие множества разных доменов также не влияет на возможность работы с сетью хранения как с единым объектом. Приложение автоматически получает в свое распоряжение нужные домены сети хранения, при этом их конфигурация может меняться динамически. Если администратор определит, что один из доменов требует большей емкости хранения или пропускной способности, в то время как другой имеет избыток по одному из этих атрибутов, он может инициировать реконфигурацию ячеек и миграцию данных. Эти процессы также могут быть автоматизированы, поскольку ячейки Storage Grid по определению наделены интеллектуальными возможностями и могут поддерживать не только различные прикладные сервисы данных, но и встроенные управляющие функции.

В Storage Grid заложены возможности самоуправления. Средства управления ресурсами хранения (Storage Resource Management, SRM), которые традиционно реализуются в высокоуровневых инструментах наподобие HP OpenView (обнаружение, мониторинг, конфигурирование, контроль ресурсов), для Storage Grid выполняются на уровне самой инфраструктуры хранения, не требуя вмешательства со стороны администратора, за исключением ситуаций выхода из строя аппаратных компонентов ячеек. Но и в этом случае программное обеспечение Storage Grid возьмет на себя все функции изоляции и идентификации ошибки. Администратор практически освобождается от необходимости знать что-либо об отдельных ячейках Storage Grid. Перечислим его задачи.

  • Добавление и удаление интеллектуальных ячеек Storage Grid для расширения системы или ликвидации неисправных компонентов.
  • Запуск и мониторинг инсталляции или модернизации сервисных модулей, что требуется, когда необходимо поменять функциональность ячейки, например использовать ее емкость хранения для архивирования вместо блокового доступа к данным или когда надо установить новую версию сервисного модуля.
  • Мониторинг использования и производительности Storage Grid для обнаружения ситуаций, в которых необходимо добавить, удалить или реконфигурировать ячейки либо заменить неисправные модули.
  • Задание политик для контроля определенных аспектов функций самоуправления Storage Grid. Примером такой политики может быть определение числа и места размещения копий данных, создаваемых для защиты системы от сбоев. Что же касается выбора ячеек для размещения тех или иных типов данных, в большинстве случаев он связан с применением сложных алгоритмов, учитывающих требования к надежности данных и параметры производительности систем, но в определенных ситуациях допускается участие администратора.
  • Задание прав доступа к Storage Grid, определяющих, какие пользователи, серверы и приложения могут обращаться к тем или иным данным и сервисам в сети хранения.

Сервисы Storage Grid

Пути доступа к данным в Storage Grid в максимальной степени виртуализированы: приложение может обратиться к любой ячейке в сети, и его запрос будет прозрачным образом передан нужному сервисному модулю. В этой новой системе хранения HP придерживается принципов сервис-ориентированной архитектуры. Функциональность Storage Grid предоставляется в виде сервисов, доступных посредством вызываемых интерфейсов (рис. 2). Для их реализации предполагается опираться на стандарты Web-сервисов, а также, в перспективе, на стандарты grid-сервисов.

Пользователями сервисов — функций управления сетью хранения и работы с данными — могут быть приложения, серверы, системные администраторы. Вся функциональность реализуется в интеллектуальном контроллере ячеек Storage Grid, но считается, что ячейка не может поддерживать произвольное программное обеспечение. В зависимости от типа ячейки, который определяется по размещенному в ней устройству хранения, производительности доступа, объему кэша и другим атрибутам, на нее будут загружаться определенные управляющие и прикладные сервисы (рис. 3). Это позволяет создавать домены Storage Grid, а также реализовывать при необходимости недорогие конфигурации «решетки» хранения для приложений, для которых критичен фактор стоимости ресурсов.

HP определяет несколько категорий сервисов в Storage Grid: сервисы данных, расширенные сервисы данных, сервисы содержания, сервисы внешних систем для импорта и экспорта данных из других систем хранения и внешних систем управления и др.

Сервисы данных обеспечивают постоянное хранение и доступ к данным. Они реализуют комплекс функций, традиционно ассоциируемых с системами хранения:

  • выделение определенной емкости хранения для файловой системы, логических томов или других логических устройств;
  • хранение, модификацию, выборку и удаление данных с поддержкой стандартных интерфейсов для разных объектов хранения, включая блоки, файлы, архивные данные и резервные копии;
  • управление путями доступа между клиентами системы хранения и их данными;
  • защиту данных с помощью механизма (например, резервного копирования или репликации), определенного политикой для данного типа данных;
  • отслеживание версий объектов данных в соответствии с частотой и критериями создания версий, определенными клиентами системы хранения;
  • размещение данных в различных ячейках и доменах Storage Grid в соответствии с заданными политиками для разных категорий корпоративных данных, которые реализуются с помощью специальных алгоритмов непосредственно в ячейках или при некотором участии администратора системы;
  • создание копий данных для использования в определенных целях, например в системах добычи данных или для тестирования приложений.

Дополнительно к базовой функциональности систем хранения в Storage Grid будут реализованы расширенные сервисы данных. Среди них — возможности загрузки внешних программных функций в контроллеры ячеек, средства проверки на наличие вирусов, сервисы миграции данных на разные типы носителей и ряд других.

Сервисы содержания также расширяют традиционные возможности управления данными систем хранения, позволяя работать с содержанием объектов данных. Они включают:

  • поисковые сервисы;
  • сервисы проверки схемы документов для оценки возможности размещения документа в определенном хранилище;
  • сервисы нормализации данных для сравнения документа с заданной схемой и соответствующей модификации данных; позволяют добиться «нейтралитета» представления информации по отношению к приложениям, что обеспечивает возможность использования этой информации в будущем, даже когда создавшая ее прикладная система выйдет из употребления;
  • сегментация документов на компоненты для хранения в разных типах ячеек (так, мультимедийные новости могут быть разбиты на текст, графику и аудиокомпоненты, которые будут размещены в наиболее подходящих для этих типов данных репозитариях);
  • средства нотификации для генерации событий при внесении изменений в хранилище документов и оповещения клиентов об этих изменениях.

Амбиции или реальность?

Storage Grid — новая концепция сетевого хранения от HP, стратегическое представление компании о том, в каком направлении должна развиваться инфраструктура хранения для реализации идеи адаптивного предприятия. На ее технологическое воплощение в компании отводят несколько ближайших лет, но уже сделаны первые шаги. В мае 2004 года компания представила архивную систему HP StorageWorks Reference Information Storage System, построенную по принципам Storage Grid. Система RISS появилась в результате развития технологических решений, приобретенных HP вместе с компанией Persist Technologies. Как часто бывает, первые реализации новых концептуальных идей позволяют решить конкретную узкую, но крайне важную задачу. В случае RISS такая задача — архивирование больших объемов информации с сохранением возможности доступа, интеллектуального поиска и выборки данных.

Актуальность создания таких хранилищ связана не только с быстрым накоплением информации, но и с необходимостью для ряда организаций (например, финансовых, медицинских, государственных) следовать предписаниям правительства касательно сроков и условий сохранения данных. HP — один из основных приверженцев идеи перехода от управления хранением данных к управлению жизненным циклом информации (information lifecycle management, ILM) с учетом корпоративных и внешних требований к размещению и предоставлению разных категорий данных.

В своей трактовке ILM [2] компания разделяет информацию организации на оперативную (с ней постоянно ведется работа, а потому к ней необходим высокопроизводительный доступ) и справочную (она находится в более стабильном состоянии, но не теряет своей актуальности). HP ILM предполагает создание аппаратно-программных хранилищ для обоих типов информации, а также поддержку корпоративных политик размещения в разных хранилищах и миграции информации. RISS является не только первой реализацией Storage Grid, но и одним из первых технологических воплощений идей ILM от HP.

Основное приложение, на которое ориентировано использование RISS сегодня, — электронная почта. Корпоративные почтовые системы служат одним из наиболее очевидных стимулов для адаптации ILM, поскольку именно в них последние годы накапливаются колоссальные объемы бизнес-информации (порядка 85%, по данным HP), которая часто остается лежать мертвым грузом в почтовых ящиках, недоступная для эффективного внешнего использования и централизованного управления.

При этом сообщения электронной почты являются ярким примером справочной корпоративной информации, которая не должна с течением времени просто складироваться на недорогих устройствах хранения. Необходим корпоративный архив, в который почтовые сообщения будут помещаться в соответствии с корпоративными политиками, определяющими важность разных типов информации, и из которого они могут быть при необходимости быстро извлечены. Сложность работы с данными электронной почты усугубляется тем, что ее объемы, которые в крупной организации могут измеряться десятками терабайт, выливаются в миллиарды индивидуальных записей, и управлять приходится именно ими. Для решения этой задачи требуются интеграция архива с приложением, в котором создается информация, и средства индексирования для распознавания каждой записи.

RISS реализует архив электронной почты (или других типов справочной информации, например документации по проектам, маркетинговых материалов, цифровых аудио- или видеофайлов, амбулаторных карт в медицинских учреждениях и т.д.), предоставляя средства для автоматического сбора данных из приложений и инфраструктуру хранения, поддерживающую индексирование содержимого, быстрый поиск и извлечение данных, неограниченное масштабирование. Использование архитектуры Storage Grid позволяет реализовать управление очень большим объемом информации не в едином блоке хранилища данных, а в распределенной системе с массовым параллелизмом обработки.

В архитектуре RISS все интеллектуальные ячейки, помимо емкости хранения и вычислительного процессора, включают в себя специальные средства индексирования данных по содержимому и атрибутам, а также реализуют программные сервисы с одной и той же функциональностью — размещение данных, поиск, включая поиск по содержимому, и выборка записей. Архивирование записей в RISS производится автоматически и может учитывать задаваемые администратором политики сохранения справочной информации.

Дублирование записей исключается, так как одинаковые сообщения электронной почты и прикреплений архивируются только один раз, что снижает стоимость архивирования. В соответствии с принципами Storage Grid система администрируется как единый объект, а ее расширение происходит одновременно по атрибутам емкости хранения и вычислительной мощности, поэтому увеличение масштабов архива не связано с проблемами производительности доступа к данным. На сегодняшний день RISS обеспечивает до 25 Тбайт для хранения справочной информации.

Дорога к Storage Grid

Идеи Storage Grid — логическое развитие технологий сетевого хранения и виртуализации от HP. Принципиальная новизна этого решения — в топологии сети и представлении возможностей инфраструктуры хранения в виде слабосвязанных сервисов посредством вызываемых интерфейсов, в полном соответствии с принципами корпоративной сервисно-ориентированной архитектуры Darwin [3], на базе которой, в понимании HP, должно возводиться «здание» адаптивного предприятия.

Интеллектуальные ячейки Storage Grid планируется реализовать на базе стандартных решений, тип которых будет определяться функциональностью ячейки. Благо в арсенале компании имеются достаточно разнообразные устройства хранения, от высокопроизводительных массивов семейства EVA для хранения оперативных данных до недорогих SATA-дисков, ленточных и оптических устройств для разных типов справочной информации. Сетевая инфраструктура «решетки» хранения будет формироваться с учетом появления новых стандартов соединений и тенденции расширения традиционных для сетей хранения возможностей Fibre Channel средствами Ethernet, iSCSI, RDMA и других протоколов. Управление новым типом сети хранения планируется увязывать с развивающимся стандартом SNIA SMI-S, который обеспечит объединение разнородных устройств хранения в одной инфраструктуре.

За исключением RISS, все решения Storage Grid — пока дело будущего, но в HP рассчитывают на сотрудничество с индустрией и собственные исследовательские проекты в деле поэтапной реализации архитектуры Storage Grid (рис. 4). В HP Labs ведется ряд соответствующих проектов, в том числе — разработка новых способов объединения модульных компонентов в масштабируемые подсистемы хранения, а также изучение возможностей анализа, автоматической конфигурации и предоставления сложных систем хранения.

В ближайшее время планируется выпуск масштабируемой кластерной файловой системы для использования в высокопроизводительных технических приложениях, которую HP разрабатывает совместно с компанией Lustre.org. Это будет объектно-ориентированная файловая система, способная работать с разными форматами файлов, в том числе NFS. В ходе постепенного формирования реальных инфраструктур Storage Grid компания будет расширять поддержку аппаратных систем хранения в интеллектуальных ячейках сети, включая системы других поставщиков, и обеспечивать новые типы программных сервисов, как базовых, так и дополняющих традиционные возможности хранилищ данных. Полномасштабная же реализация концепции Storage Grid планируется к концу текущего десятилетия.

Литература
  1. HP StorageWorks Grid. Technical white paper, 2004.
  2. Дмитрий Волков, Наталья Дубова. Два взгляда на ILM, «Открытые системы», 2004, № 3.
  3. Наталья Дубова. Корпоративная архитектура по Дарвину. «Открытые системы», 2004, № 9.