О хранении в открытую

В мае в Москве побывал с визитом вице-президент и технический руководитель компании Hitachi Data Systems Хуберт Йошида. Трудно представить на его месте иного человека, кто бы мог лучше представить японскую компанию. Дело в том, что Йошида — японец, но выросший, получивший образование и продолжающий поныне работать в Калифорнии. В силу этого он в большей степени открыт и естественен в общении, чем представители компании, которые родом из Японии. Одной из характерных примет открытости Йошиды служит его блог. Следуя новым традициям, сложившимся среди ведущих представителей компьютерного бизнеса, особенно в Кремниевой долине, Йошида регулярно ведет его, посещение блога будет, несомненно, полезно тем, кто интересуется общими тенденциями в развитии систем хранения данных. Йошида ответил на несколько вопросов журналиста «Открытых систем» относительно технической политики HDS.

Г-н Йошида, не кажется ли вам, что ситуация на рынке систем хранения заметно меняется. Сегодня не столько важны объемы, сколько услуги, предоставляемые производителями систем хранения?

Аналитики Gartner и IDC по-прежнему прогнозируют экспоненциальный рост потребности в новых емкостях для хранения данных, но даже нам, производителям систем хранения, кажется, что люди покупают слишком много дисков, слишком много платят за них, и при этом все установленные системы хранения недоиспользуются, коэффициент использования не превышает 30%. Причина происходящего проста: на протяжении последних лет пяти проще и дешевле оказывалось покупать избыточное оборудование, чем нанимать специалистов для работы с тем, чтобы более эффективно использовать существующее.

Хуберт Йошида: «Наш следующий шаг — переход к объектным системам хранения»

И что же получилось? Скажем, пять лет назад я посещал нашего клиента, тогда у него было 10 Тбайт в системах хранения, их обсуживало пять человек. Сегодня систем хранения разрослась до 100 Тбайт, но ее обслуживают те же пять человек. Еще какое-то время подобное несбалансированное положение может сохраняться, но при последующем прогнозируемом экспоненциальном росте очень скоро разразится кризис, тогда потребуется больше людей и усилий для организации управления. Рост объемов данных обуславливает и множество иных последствий. В частности, необходимо учитывать, что срок жизни систем хранения составляет примерно пять лет, следовательно, требуется обеспечивать миграцию данных на оборудование, которое придет на смену оборудованию, используемому сейчас. Однако, чем больше объемы, тем сложнее решение задачи миграции со старых устройств на новые. Единственная разумная возможность, снимающая проблему миграции и управления, заключается в дальнейшем развитии виртуализации систем хранения. Виртуализация в этой области началась примерно лет восемь назад, она действительно позволяет перемещать данные, не нарушая работу приложений, на разные уровни в многоуровневой системе хранения, где накопители различаются по удельной стоимости хранения — от самых дорогих до самых дешевых. К тому же следует учесть, что собственно диски становятся простым и дешевым товаром, а интеллект смещается в устройства управления ими. Мы это хорошо понимаем и концентрируем свое внимание на контроллерах и коммутаторах, расширяющих функциональные возможности систем. Важно и то, что более высокий интеллект систем хранения позволяет на несколько лет увеличивать срок эксплуатации накопителей. Кроме того, со временем скорость, с которой диски дешевеют, снизится, и тогда еще критичнее станет продление сроков жизни устройств хранения.

Виртуализация — основное условие для реализации процессов управления жизненным циклом информации (Information Lifecycle Management, ILM); только виртуализация обеспечивает непрерывность процессов миграции данных. А услуги действительно важны, но, прежде всего, нам нужно научиться управлять средой хранения. Сегодня диски становятся все больше и больше, а перемещать данные все сложнее и сложнее, причем перемещать их следует, не останавливая работающие приложения.

Могли бы вы соотнести то, как развиваются рынки систем хранения и серверов, и положение на этом рынке отдельных производителей?

Прежде всего, меняются наши представления о том, что является ядром информационной системы или центра обработки данных. Когда-то много лет назад я работал в корпорации IBM. Тогда без всякого сомнения ядром был сервер, а системы хранения — такой же периферией, как и все остальное, как принтеры, например. Сегодня же ядром стали системы хранения; это вполне логично, ведь именно системы хранения содержат в себе «состояние» бизнеса или чего-то иного, чему служит система. Серверы как устройства, лишенные состояния, можно менять сколь угодно часто, а вот данные в системах хранения остаются навсегда.

Если сравнивать HDS с другими участниками рынка систем хранения, то мы считаем наши подходы к проектированию систем хранения наиболее перспективными. Системы же наших конкурентов, прежде всего, корпораций IBM и EMC, на мой взгляд, не слишком сильно изменились за последние два десятилетия; они используют довольно архаичную архитектуру кэширования. Мы раньше других осознали и необходимость создания гетерогенной среды хранения, поэтому мы отделяем данные, необходимые для управления, от данных пользователей; это дает нам возможность динамически изменять конфигурацию платформ. Мы взяли за основу систему коммутации, впервые появившуюся в сетях хранения (Storage Area Network, SAN), и поместили ее внутрь контроллера. Мы раньше других предусмотрели необходимость в ILM, поэтому реализовали технологии виртуализации в своих устройствах управления. Наш следующий шаг — переход к объектным системам хранения.

Наше преимущество состояло в том, что HDS располагала возможностью инвестировать более 2 млрд. долл. в создание принципиально новых архитектур, что позволило начать разработку «с чистого листа», не обременяя себя грузом прошлого. В то же время другие производители были вынуждены ограничивать развитие и совершенствование своих продуктов лишь наращиванием количественных показателей, как правило, не привнося при этом ничего качественно нового.

Упомянув объектные системы хранения, вы опередили мой следующий вопрос. Рост потребностей в хранении неструктурированных данных стимулирует развитие объектно-ориентированных подходов к построению систем хранения, к созданию контентно-адресуемых систем (Content Addressed Storage, CAS). Что делает компания HDS в этом направлении? Известно, что в клуб производителей систем категории CAS первой вошла EMC, за ней были IBM и Hewlett-Packard, на подходе Sun Microsystems со своим проектом Honeycomb.

Компания Hitachi по своей природе в хорошем смысле консервативна; мы стремимся не поддаваться модным увлечениям. Мы считаем, что идея контентной адресации ограничена, и в противовес ей исповедуем подход, основанный на «активной архивации». Суть работы системы EMC Centera состоит в том, что приложение, используя специализированный интерфейс API, передает объект в систему хранения, которая его хеширует и возвращает приложению хешированный адрес. В итоге то, что положено в архив одним приложением, оказывается недоступным другим приложениям. Кроме того, такой подход ограничивает масштабирование из-за большого объема связанной с индексированием работы, которую выполняет сама система хранения, а не приложение. Мы считаем, что приложения могут передавать в систему хранения данные и метаданные, используя стандартные протоколы — CIFS, NFS или HTTP, — а система сможет их сохранить. Поиск и извлечение объектов в таком случае можно осуществлять по сохраненным метаданным. Полагаю, наш подход обеспечивает большую точность соответствия адреса объекту.

У представителей EMC несколько иной взгляд на эти вещи. Недавно в штаб-квартире EMC я встречался Джефом Ником, с одним из идеологов этой компании; он произвел на меня сильное впечатление. Трудно предположить, что у него не найдется контраргументов. Было бы интересно стать свидетелем вашей дискуссии.

Да, я знаю Джефа по совместной работе в IBM, и полемика с ним была бы на самом деле полезной.

Вам не кажется, что работы, связанные с управлением жизненным циклом информации, которыми увлечены ваши коллеги, странным образом отделены от деятельности компаний, разрабатывающих приложения и системы управления базами данных? А ведь это две стороны одной медали. Скажем, с точки зрения СУБД какие-то изменения в базе могут казаться незначительными, но с точки зрения системы хранения файл или файлы изменились полностью, для них формируется другой хеш-адрес и все остальное.

Я тоже считаю, что наше взаимодействие с производителями приложений недостаточно; мы совершенно по-разному видим хранимые объекты. Но все же системы управления базами данных хранят структурированные объекты, а для неструктурированных данных ничего лучше поиска пока не придумано.

Но не все СУБД являются реляционными. Есть и такие, которые неплохо приспособлены для хранения неструктурированных данных, я имею в виду постреляционные или даже навигационные базы. Ваше мнение относительно идеи «массивов простаивающих дисков» (Massive Array of Idle Disks, MAID)?

Мы очень внимательно изучаем эту альтернативу, но проблема в том что, остановленные диски нельзя постоянно контролировать. Пока диск вращается, я знаю, что с ним происходит, а когда стоит — нет. В этом риск, но для памяти третьего или четвертого уровня эта идея весьма перспективна, поэтому технология MAID нами рассматривается всерьез. Мы начинаем работы над дисками SATA, в которых можно припарковывать головки; в таких устройствах проще выполняется процедура раскрутки и меньше энергопотребление. Это непростая задача, но результаты, полученные компанией Copan, впечатляют.

Как вы оцениваете состояние стандартизации в области объектного хранения, выше отношение к инициативе Aperi, предложенной IBM?

У IBM есть средство для управления ресурсами, Tivoli Storage Manager, и корпорация хочет перевести его в разряд Open Source, в надежде, что все будут это средство использовать. Но это не единственный и, возможно, не лучший инструментарий для управления ресурсами: у EMC есть собственный продукт, ControlCenter, свои средства для управления ресурсами есть и у Hewlett-Packard, и у Sun Microsystems. Если у решений, которые получат поддержку в рамках инициативы Aperi, будет не лучшая функциональность, то и распространение их на условиях Open Source ситуацию не исправит. Мы полагаем, этот вопрос должен быть передан в ассоциацию Storage Networking Industry Association (SNIA), тогда вклады разных производителей можно было бы объединить. Это было бы не только взаимовыгодное решение, но и, главное, решение с лучшей функциональностью. С присущей нам осторожностью мы присматриваемся к происходящему. Надо учитывать, что решение категории Open Source в конечном итоге часто оказываются не самыми дешевыми, это хорошо известно. К тому же сегодня уже широко признано, что без инвестиций крупных компаний приверженность модели Open Source ограничивает инновационные возможности.

Инициатива Aperi была объявлена осенью прошлого года, к ней, помимо IBM, присоединились Brocade, CA, Cisco, Engenio, Fujitsu, NetApp, McData и Sun Microsystems. В оппозиции остались EMC, HP, HDS, Microsoft и Symantec/Veritas. Стоит учесть, что уже существует спецификация SMI-S (Storage Management Initiative — Specification), она поддержана SNIA и основывается на общей информационной модели CIM (Common Information Model), разработанной еще одной организацией по стандартизации, DMTF (Distributed Management Task Force).

Не напоминает ли ситуация в области объектно-ориентированных систем хранения то, что происходило во времена мэйнфреймов, до появления Unix и открытых систем? Когда мы сможем увидеть что-то вроде «открытой архитектуры объектных систем хранения»?

Стандартизация становится практически возможной тогда, когда вся отрасль приходит к общему представлению о требованиях к технологиям, когда есть необходимое внутреннее единство. В данном же случае его нет. К примеру, мы в HDS располагаем коммутационными технологиями, намного опережающими возможности наших конкурентов. Поэтому в ближайшие годы об общих стандартах говорить попросту не придется, хотя в SNIA определенная работа в нужном направлении ведется.

Следующая точка перегиба ИТ

Технический директор и старший вице-президент компании EMC Джеф Ник поделился своими взглядами на настоящее и будущее информационных технологий.

Слово виртуализация, особенно после весьма удачной покупки VMware, стало частым в лексиконе представителей EMC. Ваше мнение по этому поводу?

Частое упоминание виртуализации символично. Мы переживаем период, образно называемый по выражению Энди Гроува «стратегической точкой перегиба». За последнее десятилетие было накоплено достаточное количество технологических решений, чтобы полностью изменить ландшафт информационных систем. В новых условиях наблюдается очевидный переход от вертикального масштабирования к горизонтальному и два сопутствующие этому процессу явления: декомпозиция монолитных систем и «коммодитизация» платформ. Они-то и делают виртуализацию обязательной на всех уровнях стека информационных технологий. Принципиально важно то, что виртуализация обеспечивает возможность для логического видения всех ресурсов, ресурсы становятся прозрачными для тех приложений, которые их используют. Сила виртуализации состоит в том, что она позволяет заключить любое приложение в своего рода оболочку из виртуальных ресурсов, скрыв за ней реальные поддерживающие работу приложений физические ресурсы. В итоге мы избавляемся от тяжеловесной статической связанности между приложениями и аппаратным обеспечением, что в свою очередь обеспечивает повышение гибкости в вопросах реконфигурации ресурсов и существенно снижает системную сложность и влияние на приложения. Такие технологии, как, например, EMC VMware, позволяют приложениям в процессе работы свободно мигрировать по различным хостам. Виртуализация распространяется на все уровни ИТ-стека, этой процедуре подвергаются и физические ресурсы систем хранения данных, чем обеспечивается возможность мобильности и миграции данных. Нашим первым продуктом, предназначенным для этого рода виртуализации, была система EMC Invista, следующим EMC Rainfinity, купленная вместе с одноименной компанией.

Как вы связываете виртуализацию с grid-технологиями?

Если главное достоинство технологий виртуализации заключается в том, что они придают оперированию ресурсами необходимую гибкость, то технологии, включаемые в понятие grid, отличаются тем, что они служат средством для поставки и сборки этих ресурсов «в нужное время и в нужном месте», вне зависимости от административных и географических границ. От уже ставших традиционными многоуровневых архитектур подход, основанный на grid-технологиях, отличает его способность динамически обнаруживать и резервировать ресурсы в гомогенных и гетерогенных ресурсных пулах, связывать приложения с этими ресурсами и координировать доставку данных для параллельных вычислений. Изначально эти идеи были ориентированным на высокопроизводительные научные вычисления, но сейчас они находят путь и к коммерческим приложениям.

Как вы оцениваете происходящее в области интеграции приложений и SOA?

Мы становимся свидетелями удивительной трансформации тех способов, которыми компании организуют свой бизнес, основу этой трансформации обеспечивает прогресс в программном обеспечении, поддерживающем бизнес. Благодаря программному обеспечению нового поколения роль ИТ меняется, из простых средств для сборки данных и генерации отчетов сначала эти технологии превратились в сложные транзакционные системы, а теперь они эволюционируют далее и превращаются в системы, интегрирующие и «оркестрирующие» бизнес-процессы, состоящие из слабосвязанных компонентов. К основным качествам, характерным для SOA, следует отнести: слабую связанность, которая позволяет динамически обнаруживать и затем связывать приложения в процессе исполнения; отсутствие платформенной или языковой взаимозависимости между приложениями; явное разделение сервисных функций, протоколов, описывающих их упаковку и скрытой за ними практической реализации; оркестровку бизнес-процессов с использованием Web-сервисов, грамматики и семантики языков для описания бизнес-процессов.

В сочетании с портальными и сетевыми технологиями открывается возможность для сборки систем из готовых компонентов, а не писать их с «чистого листа», как это делалось прежде.

А как, на ваш взгляд, связаны изменения на системном уровне с тем, что ближе к деятельности вашей компании — с хранением данных?

Идея простого хранения данных — как, впрочем, и сам термин — безнадежно устарела. В нынешних условиях предпочтительнее говорить в более широких категориях, например, об управлении жизненным циклом информации (Information Lifecycle Management, ILM). Декомпозиция ИТ-инфраструктуры, о которой мы говорили выше, в том числе и выход на первый план «приложений, стимулированных процессами», приводят к колоссальному росту объемов цифровых данных. За последнее десятилетие ускорение этого процесса составляло примерно 60% в год, причем в большинстве своем данные не структурированы, в массовом количестве появляются новые типы данных, новые источники и новые потребители. Возьмите, к примеру, системы видеонаблюдения, они теперь повсеместны, и мы только в начале пути. А как изменится отношение к данным, когда получат широкое распространение системы радиоидентификации? В связи с изменившимися условиями возникает множество проблем, например как справятся с возрастающим потоком информационные системы, если рост инвестиций в них пока не превышает 5% в год. К тому же все накапливаемое является всего лишь данными, а не информацией, то есть рудой, которую нужно еще обработать, чтобы употребить с пользой. Отсюда возникает потребность в ILM, поскольку техническая политика, основанная на ILM, позволит решить несколько проблем, в частности, уменьшить издержки на менеджмент и повысить эффективность использования ресурсов, максимизировать ценность информации, оптимизировать инфраструктуру и уменьшить долю ручного труда, связанного с оперированием данными, снизить стоимость инфраструктуры и адаптировать ее к работе в режиме сервисов. Из этой классификации следуют основные функции ILM: классификация данных, обеспечение поиска и запросов; защита и восстановление данных; размещение данных и их миграция по уровням в системе хранения в соответствии с политикой ILM; архивация данных; управление контентом; обеспечение безопасности на все уровнях стека технологий, поддерживающих ILM.

Создание технологий ILM лежит на том самом пути, который был проложен интеграцией приложений с использованием Web-сервисов и управлением бизнес-процессами. В этой области точно так же требуются подходы, основанные на слабосвязанных информационных сервисах, позволяющих логически объединять информацию, поступающую из разных источников, осуществлять ее оркестровку в соответствие с потоками работ в бизнес-приложениях.

Что, по вашему мнению, стимулирует будущие или уже происходящие изменения, и где кроются наибольшие сложности?

У грядущих изменений множество предпосылок, но, прежде всего, трансформации всего и вся, которые происходят под влиянием Internet, появление Сети оказало примерно такое же влияние на жизнь в целом, как когда-то изобретение печатного станка. Наше повседневное существование и бизнес стали напрямую зависимыми от доступа к цифровой информации. По выражению Томаса Фридмана, автора книги The World Is Flat («Мир стал плоским»), постоянный и все?проникающий доступ к цифровым данным «изменил цепочку поставки знаний». Мы живем в новом мире с новыми рисками и целями, но мы еще не вполне готовы к нему. Создание систем ILM является одним из методов адаптации к жизни в новом мире.

Распространение доступа к Internet стимулировало сервисную идеологию, я имею в виду и Web-сервисы, и деятельность поставщиков услуг по Сети. Словари определяют сервисы, как разнообразные виды деятельности, оказываемой для других. В цифровом контексте сервисами могут быть обеспечение защиты данных, восстановление данных, размещение и миграция данных, архивация данных, и все это укладывается в представление об ILM, причем услуги могут оказываться в пределах центров.

Однако отрасль пока отстает от подобного представления о роли данных и информации, поставляются отдельные компоненты: серверы, сети, коммутаторы, платформы, программное обеспечение промежуточного слоя. Не случайно о сегодняшнем способе поставки ИТ говорят «на вес», организациям или системным интеграторам приходится адаптировать поставленные навалом компоненты к бизнес-процессам.

При серьезном взгляде на нынешнее положение дел мы обнаруживаем две ключевые проблемы:

во-первых, универсальность компьютеров привела к тому, что они стали сточной канавой» для различных приложений с различными требованиями к ресурсам. Каждому приложению требуется процессорная мощность, память, ресурсы хранения, каналы ввода/вывода, сети и т. д. Требования приложений плохо прогнозируются, гармонизировать нагрузку сложно, потому что особенности управления приложениями трудно согласовать. Выход обычно находят «в масштабировании вверх», но следствием становится недоиспользование ресурсов со всеми вытекающими последствиями. Решением этой проблемы может быть виртуализация, например, с использованием технологий VMware. Они позволяют разместить приложения в отдельных гибких виртуальных серверах-контейнерах, разделенных логически, но физически объединенных в одной платформе.
Во-вторых, поставка ИТ-ресурсов в виде разрозненных компонентов, а не в форме организованных функций, готовых для непосредственного потребления, становится барьером в отношениях между производителями и потребителями. Сейчас наблюдается новая рыночная тенденция, она ярче проявляется в действиях небольших компаний-«стартапов», которые поставляют готовые под ключ решения, такие как, например, шлюзы для Web-сервисов, криптографические машины, мониторы сетевого трафика. Эти функциональные компоненты являются самодостаточными (self-contained), они без сложностей включаются в существующие системы, оптимизированы с точки зрения использования ресурсов и предельно просто управляются, поскольку имеют встроенные элементы управления. Массовость подобных решений возможна при широком распространении функциональных виртуальных приставок (functional virtual appliance).

А как согласуются реальные требования пользователей с предложениями со стороны вендоров?

В этой области тоже есть немало нерешенных проблем, прежде всего, пока не существует адекватных средств для представления ИТ-ресурсов. Такие организации, как DMTF (Distributed Management Task Force) и SNIA (Storage Networking Industry Association) разрабатывают общую информационную модель Common Information Model (CIM), DMTF к тому же разрабатывает модель управления ресурсами Multi-Technology Network Management (MTMN), а Microsoft разрабатывает свою собственную модель System Definition Model. Но эти подходы не являются полноценным решением проблемы, потому что они моделируют такие ресурсы, которые можно начать «вещами», а не «использование вещей», то есть функции. Отчасти альтернативный подход реализуется в инициативе Data Center Markup Language (DCML), предложенной OASIS, но его распространение потребует еще немало времени.

Какие признаки будущего вы считаете наиболее реальными?

В ближайшие несколько лет произойдет радикальное изменение в способах поставки информационных технологий от монолитных статических, ресурсо-центричных инфраструктур в сторону слабосвязанных сервисно-ориентированных инфраструктур. Следующее поколение информационных технологий будет комбинацией двух типов архитектур, управляемой/стимулированной (driven) моделью бизнес-процессов и ориентированной на сервисы. Ресурсы будут агрегированы в разделяемые пулы, они будут динамически перераспределяться между нагрузками с использованием технологий виртуализации и grid. К 2010 году в сферы деятельности ИТ-индустрии войдут и потребительская электроника, и индустрии, являющиеся поставщиками контента. Рост объемов данных продолжится, особенно из-за расширяющихся взаимодействий между устройствами и дальнейшим географическим ростом Internet.