IBM развивает кластерную файловую систему

Новая архитектура, демонстрирующая в два раза более высокое быстродействие по сравнению с существующими кластерными файловыми системами, обеспечивает эффективное управление и расширенные возможности репликации данных.

По словам представителей IBM, архитектура General Parallel File System-Shared Nothing Cluster (GPFS-SNC) призвана повысить уровень готовности современных кластерных систем.

Прасенджит Саркар, главный конструктор средств анализа и обеспечения устойчивости систем хранения в исследовательском подразделении IBM Research, заявил, что предложенная IBM архитектура отличается линейной масштабируемостью. Если файловая система, объединяющая 40 узлов, обладает пропускной способностью на уровне 12 Гбайт/с, то система из 400 узлов демонстрирует пропускную способность, достигающую 120 Гбайт/с.

«Отличное соотношение между стоимостью и эффективностью, — заметил Саркар. — Вы получаете 1 Мбайт/с за доллар. Если попытаться заменить это сетью хранения, выйдет гораздо дороже. Новая архитектура предназначена для приложений, которые поддерживают высокопроизводительный анализ, хранилища данных и облака".

Саркар характеризует GPFS как кластерную технологию без разделения ресурсов, потому что каждый ее узел на базе сервера стандартной x86-архитектуры получает доступ к своим собственным метаданным, кэш-памяти, системе хранения и инструментам управления. Одновременно через порты Gigabit Ethernet поддерживается связь с любым другим узлом кластера.

"В отличие от файловой системы Google, имеющей единственный доменный узел, каждый аспект нашей файловой системы распределен — будь то метаданные, механизм выделения ресурсов, управления блокировками или управления маркерами, — подчеркнул Саркар. — Даже если из кластера убрать целую серверную стойку, наша система все равно будет продолжать работать".

При отсутствии совместного использования ресурсов кластерная файловая система покоряет новые вершины готовности, производительности и масштабируемости. Каждый узел архитектуры GPFS-SNC самодостаточен. Задачи делятся между независимыми компьютерами, и никто не ждет друг друга.

Код GPFS-SNC поддерживает спецификацию POSIX, что позволяет выполнять поверх кластерной файловой системы широкий спектр приложений, разрешая операции как чтения, так и записи.

"Можно открыть файл, прочитать его, добавить к нему какую-то порцию информации и переписать любой раздел, — отметил Саркар. — В распределенной файловой системе Google Hadoop вы не сможете добавить файл, не сможете переписать произвольные разделы и вообще окажетесь весьма ограничены в своих возможностях".

Архитектура GPFS-SNC поддерживает широкий спектр корпоративных механизмов хранения данных: средств создания моментальных снимков, резервного копирования, архивации, управления жизненным циклом информации, кэширования данных, репликации в распределенных сетях и выработки управленческих политик. Архитектура имеет единое глобальное доменное пространство имен, позволяя перемещать виртуальные машины между узлами гипервизора.

"В нашем кластере, например, вы можете запустить Hadoop, а также кластерные СУБД DB2 или Oracle, — сообщил Саркар. — Это позволяет нам использовать файловую систему общего назначения, к которой обращается большое количество пользователей".

В IBM не сообщили, когда файловая система GPFS-SNC выйдет за пределы лабораторий и начнет осваивать рыночное пространство. Саркар сказал лишь, что она охватит три основных направления: хранилища данных, приложения Hadoop MapReduce и облачные технологии.

"Возможно, использование облаков в параллельной архитектуре вызывает вопросы, но на каждом узле гипервизора у нас запущено множество виртуальных машин, а узлы гипервизоров работают параллельно, — подчеркнул он. — Каждая виртуальная машина обращается к своему хранилищу независимо от других виртуальных машин. В результате вы получаете множество параллельных обращений к хранилищу».

Технология GPFS считается в IBM базовой при построении высокопроизводительных систем Information Archive, Scale-Out Network-Attached Storage (SONAS) и Smart Business Compute Cloud.

Поддержка технологией GPFS-SNC запуска приложений Hadoop в кластере в реальном времени помогла корпорации IBM получить первую премию на недавней конференции Supercomputing 2010, прошедшей в Новом Орлеане.

IBM развивает кластерную файловую систему

Первый Data Sapience Data Day объединил экспертов data-индустрии