Нетрудно заметить, что в числе наиболее активных проповедников ILM не видно самого крупного игрока компьютерного рынка, корпорации IBM. Тому есть вполне понятные объяснения.

Управление жизненным циклом информации (information lifecycle management, ILM) по аналогии с известным революционным учением имеет три основных источника, или, точнее, стимула. Это необходимость управления контентом (управление записями, управление документами и иные подобные задачи), необходимость управления все возрастающими объемами данных, а также необходимость соответствия нормативным требованиям, отражающим изменившуюся роль машинных форм представления данных в современном мире. Каждая из компаний, участвующая в очередной технологической гонке, которая на сей раз получила название ILM, формирует свой собственный подход к решению возникающих перед ней задач, основываясь на имеющемся у нее опыте и интеллектуальном заделе.

У IBM есть традиция, она не спешит осваивать новые рынки до тех пор, пока их размеры не достигнут размеров, соответствующих масштабу корпорации. Вот и на формирующийся рынок ILM она не торопится. Тому есть очевидная причина: фактически, IBM уже давно решает те самые задачи, которые сегодня назвали «управлением информацией». За годы существования мэйнфреймов уже созданы совершенные аппаратные технологии управления данными. К тому же, в багаже корпорации есть программные продукты, ориентированные на управление системами хранения данных; это, во-первых, Tivoli и, во-вторых, входящий в состав СУБД DB2 компонент Content Manager. Напомним, что семейство продуктов Tivoli стало брэндом IBM после приобретения корпорацией компании Tivoli Systems в 1996 году. Один из продуктов, Tivoli Storage Manager позволяет перемещать менее востребованные данные на относительно менее дорогостоящие устройства хранения данных, другой, Tivoli Storage Resource Manager, позволяет осуществлять мониторинг не только собственных накопителей IBM, но аналогичных устройств других производителей.

Помимо семейства Tivoli и DB2 Content Manager есть еще целый ряд программных продуктов, предназначенных для управления системами хранения. Так, в середине 2003 года IBM/Tivoli Systems начала поставку продукта SAN Volume Controller, который упрощает управление устройствами, входящими в сеть; по сути, он создает единый пул, являющийся средством для виртуализации сетевых ресурсов. Есть возможность менять распределение ресурсов динамически, в соответствии с запросами приложений. На очереди стоит еще один «виртуализационный» продукт, SAN File System, который позволит, используя протокол IP, связать вместе серверы, расположенные в различных географических местах, и при этом предоставит им возможность интерпретировать всю сеть хранения целиком как локальную файловую систему вне зависимости от того, где именно размещены те или иные данные. Перечисленные выше программные продукты совместно другими, выпускаемыми корпорацией техническими средствами, собираются в единые комплексы, которые решают — хотя, разумеется, не полностью — проблему архивирования данных.

В качестве примера такого комплекса можно привести устройство IBM TotalStorage Data Retention 450. Точнее говоря, это даже не устройство, а система специально предназначенная для тех пользователей, которые озабочены принятием в США и ряде других стран законодательных норм, регулирующих работу с электронными данными (наиболее известны Sarbanes-Oxley Act, устанавливающий требования к прозрачности деловой информации, а также Health Insurance Portability and Accountability Act, регламентирующий работу с персональными данными пациентов медицинских учреждений). В одном шкафу IBM TotalStorage Data Retention 450 собраны система хранения данных Total Storage FAStT, сервер IBM eServer p615 на процессорах Power4+, коммутатор Fibre Channel и IBM Tivoli Storage Manager. Система работает под управлением операционной системы IBM AIX и может хранить до 56 Тбайт данных на жестких дисках, подключаемых по последовательному интерфейсу ATA; дополнительно можно подключить еще и ленты. Это в некотором смысле аналог устройств известных моделей EMC Centera и NearStore от Network Appliance, которые так же построены с использованием недорогих дисков с интерфейсами ATA и Fibre Channel.

Даже этот краткий анализ продуктового портфеля IBM позволяет сказать, что корпорация достаточно давно занимается проблематикой ILM, не называя свои предложения таким образом.

Альтернативные подходы к управлению данными

И все же зададимся вопросом: почему именно сейчас так обострилась ситуация вокруг ILM? С субъективной точки зрения, в известной степени создала ажиотаж вокруг новой концепции и подлила масло в огонь ILM компания EMC. Понять ее действия можно. Компания находится в поисках своего нового амплуа, поскольку после многих лет безраздельного господства на рынке мощных систем хранения EMC стала испытывать сильнейший натиск со стороны компании Hitachi Data Systems. Не стоит сомневаться в том, что, оставаясь с японским гигантом на одной площадке и не имея других точек опоры, устоять сложно. Нужны альтернативные решения, и обращение к ILM стало блестяще найденным выходом. Объективно лидирующая позиция в этом направлении позволит EMC уйти в отрыв, не оставляя надежды преследователям. Зная историю и потенциал компании, вполне можно допустить высокую вероятность такого исхода.

Но дело не только в изящно найденном одной компанией выходе из, казалось бы, критического положения. Для того чтобы направление развития систем хранения приняло форму волны увлечения идеями «управления жизненным циклом информации», есть объективные предпосылки. Чтобы понять их, а также замедленное вхождение IBM на пространство ILM, выполним небольшой ретроспективный анализ недавнего прошлого. Всего несколько лет назад центром «компьютерного мироздания» являлись мощные Unix-серверы. Венцом развития в этом направлении стали великолепные по своей архитектуре высокопроизводительные серверы HP Superdome, Sun StarFire, IBM Regata и Primepower от Fujitsu Siemens. Но затем центр тяжести стал стремительно смещаться от вычислений к данным, о серверах неожиданно стали говорить, как о периферии, а на системы хранения обратили основное внимание, начав называть информационные системы «дата-центричными». Теперь в фокус общественного внимания вышли сети хранения (storage area network, SAN). Но когда собрали вместе и то, и другое (серверы и сети хранения), оказалось, что это только средства, а продуктом потребления являются и не вычисления, и не данные, а полезная человеку информация.

Очередное прозрение состояло в признании того факта, что серверы и системы хранения образуют единую среду для работы с данными и для получения информации. Вот тогда-то и возник новый термин. Увлечение ILM оказалось как нельзя кстати многим — и хорошо известным компаниям, и новичкам. Идеи ILM начали продвигать производитель дисковых систем, компания Network Appliance, производитель ленточных библиотек, компания Storage Teсhnology, производители программных средств управления, компании Veritas и Computer Associates. Эта же волна дала возможность для старта таким новым, но многообещающим компаниям, как Breece Hill, Nexsan и Revivo, которые специализируются на недорогих ленточных и дисковых накопителя, адаптированных к архивированию данных.

Итак, казалось бы, все замечательно, и теперь все будут объединены общей целью. Однако полностью разделить пафосу приверженцев ILM мешают некоторые обстоятельства. Например, один системный администратор на старом, добром мэйнфрейме может управлять объемом информации в 90 раз больше, чем на системах с отрытой архитектурой [1]. Иными словами, в тот момент, когда созданные на основе открытых архитектур системы сравнялись по мощности с мэйнфреймами, они оказались почти на два порядка более трудозатратными. В этом нет ничего удивительного: в результате стихийной эволюции технологий за короткий промежуток времени не может сложиться система, во всем более эффективная, чем та, которая создается по единому плану. В дальнейшем ситуация может измениться, но сегодня она именно такова. Оказалось, что в мэйнфреймах по большей части решены многие из проблем, которые еще только предстоит решать в системах с отрытой архитектурой. Еще и еще раз приходится удивиться живучести этих мастодонтов, кончину которым не раз предсказывали, и мудрости их создателей, которые поняли суть задачи управления данными задолго до того, как она во всей своей полноте предстала в последнее время.

Открытые данные в закрытом мэйнфрейме

Распространение систем с отрытой архитектурой, распределенных вычислений, как оказалось, имеет побочный нежелательный и ранее не предсказанный эффект, возникающий из-за пренебрежительного отношения к данным. К примеру, определенный набор данных до сих связывался с соответствующим этим приложением; скажем, данные для ERP-системы привязаны именно к ней, то же самое относится и другим приложениям. Теперь, когда отношение к информации меняется, становится ясно, что хранимые данные должны стать «многопользовательскими».

С этой точки зрения, хотя мэйнфрейм и не является системой с «открытой архитектурой», его с полным правом можно назвать системой с «открытыми данными». Мэйнфреймы имеют долгую историю; за время их существования удалось получить представление о жизненном цикле данных, поэтому и в основу мэйнфреймов положена не идея хранения, а более глубокая идея эффективного использования данных на протяжении их жизненного цикла. Никто не собирается отвергать идеологию распределенных вычислительных систем; в том виде, в котором они существуют, они вполне соответствуют требованиям современного бизнеса, адаптированы к приложениям и поэтому их существование вполне объективно. Однако централизованные решения на базе мэйнфремов уже реализовали то, что еще только предстоит воплотить в распределенных системах. Мэйнфреймы отличаются тем, что уже образуют среду, критерии которой выше требований, предъявляемых определенными приложениями, они выступают в роли концентраторов для надежного доступа к данным и вычислительным ресурсам.

Сегодня существует три семейства мэйнфреймов: компьютер «начального уровня» zSeries 800; основная модель zSeries 900; а также zSeries 990, модель удвоенной мощности по сравнению с z900.

Многие из характеристик, которыми должна обладать распределенная среда, которые ей еще предстоит придать, изначально заложены в корпоративные платформы на базе мэйнфреймов. Это и автоматизированное управление накопителями на магнитных лентах, автоматическое резервное копирование, иерархическое управление системами хранения данных, утилиты для манипулирования данными (copy, move, sort и др.). Часть этих функций выполняются автоматически, без участия системного администратора, ответственного за хранение — отсюда и его высокая эффективность.

Все эти свойства мэйнфреймов сложились в процессе их многолетнего совершенствования. Возьмем, к примеру, магнитные ленты: они использовались задолго до появления жестких дисков, и поэтому были единственным средством для резервного копирования. А когда появились диски, то они были дороги и ненадежны, по этой причине ленты оставались обязательным средством для создания резервных копий. Когда-то процессы установки лент, размещения их в шкафах, периодическое обновление были ручными, казалось, что этот тип устройства обречен на вымирание. От этого бесславного конца их спасло появление в 80-х годах роботизированных библиотек. Наличие в мэйнфреймах каналов ввода/вывода с высокой пропускной способностью позволило наладить удаленное резервирование. Вслед за библиотеками возникла необходимость процедур соответствующей каталогизации и управления ими, иначе процесс поиска нужного файла мог оказаться длительной процедурой, которая могла занять часы. В качестве одного из методов для разрешения противоречия между объемами хранимых данных и временем доступа к ним стало использоваться иерархическое управление хранением (hierarchical storage management, HSM). В HSM реализуется политика архивирования редко используемых данных; с дисков они переписываются на ленты с компрессией.

Открытые системы сейчас проходят примерно тот же эволюционный путь, но со своей, свойственной им спецификой. С появлением непосредственно подключаемой дисковой памяти (direct access storage, DAS) появилась возможность хранить все данные на жестких дисках, однако из-за недостаточной надежности диски надо было резервировать, так появились массивы RAID. Они сыграли ключевую роль при выборе Unix-серверов с отрытой архитектурой в качестве корпоративной платформы, но как любое новшество они не оказались без недостатков. Относительная дешевизна позволила на время забыть о подходах к хранению данных наподобие HSM; о магнитных лентах заботились лишь как о средствах для резервных копий; произошла дезинтеграция данных, несвойственная мэйнфреймам. И только теперь, когда объемы данных достигли критических размеров, о них вспомнили, и возродилось управление жизненным циклом данных. Можно сказать, что происходит своего рода реставрация идеологии мэйнфреймов, но на ином техническом уровне.

Разумеется, только средствами управления данными, родственными ILM, проблема доступа к данным не решается. Существует еще множество других подходов. В частности, в IBM создается многоплатформная масштабируемая файловая система, а также система управления хранением в сетях SAN, названная IBM Storage Tank [2]. Речь идет о весьма амбициозном проекте разработки инфраструктуры, которая должна объединить тысячи компьютеров и обеспечить доступ к любому типу устройств — от простейших дисков вплоть до самых мощных накопителей.

Литература
  1. Michael Thompson, Susan Clarke, Storage De-mystified. Purpose-driven Storage Management Solutions for the Mainframe. Butler Direct Limited, June 2003.
  2. J. Menon, D.A. Pease, R. Rees, L. Duyanovich, B. Hillsberg, IBM Storage Tank — a heterogeneous scalable SAN file system. IBM Systems Journal, July 2003.