Неуязвимый кластер

Программное обеспечение Compaq TruCluster Server и базовые концепции конфигурирования кластерного аппаратного обеспечения

TruCluster Server

Он формирует единое пространство имен файлов и каталогов в рамках всего кластера, в том числе единую корневую файловую систему, которую разделяют члены кластера. Он также позволяет использовать для адресации кластера в IP-сетях общий псевдоним, благодаря чему для своих сетевых клиентов кластер выступает как единая система.

Конечно, TruCluster Server поддерживает функции обеспечения готовности и производительности, имеющиеся в более ранних продуктах серии TruCluster.

Как и TruCluster Available Server Software и TruCluster Production Server, система TruCluster Server позволяет развертывать приложения высокой готовности, которые не являются специально адаптированными к выполнению в кластере. Они могут обращаться к своим данным на диске с любого сервера в кластере.
Как и TruCluster Production Server Software, система TruCluster Server позволяет в параллель запускать компоненты распределенных приложений, обеспечивая высокую готовность и в то же время используя специальные механизмы синхронизации кластера и оптимизации производительности.

TruCluster Server обладает более широкой функциональностью, чем его предшественники, поскольку предоставляет возможность узлам кластера обращаться ко всем без исключения файловым системам и всем устройствам хранения в кластере, вне зависимости от того, где они размещаются. Как с точки зрения клиентских систем, так и с точки зрения администратора кластер TruCluster Server представляет собой единую систему. Поскольку TruCluster Server не имеет внутренних зависимостей от архитектур, протоколов межсоединений узлов кластера, каналов доступа к разделяемой памяти, аппаратную конфигурацию кластера легко менять или расширять с появлением новых более совершенных технологий.

Аппаратная конфигурация для TruCluster Server

Аппаратная конфигурация TruCluster Server состоит из нескольких компонентов.

Сейчас TruCluster Server поддерживает от одной до восьми систем в кластере.
Необходимые для хранения данных приложений внешние и внутренние контроллеры и диски SCSI.
Общекластерные файловые системы: root (/), /usr и /var должны размещаться на разделяемой шине SCSI. Мы рекомендуем устанавливать на той же шине и все загрузочные диски систем, входящих в кластер.
Чтобы клиент мог обращаться к кластеру, необходимо зарезервировать несколько адресов в одной IP-подсети. Подсеть должна быть видима для клиента напрямую или через маршрутизатор. Минимальное число зарезервированных адресов должно на один превышать количество систем, входящих в кластер, в зависимости от конфигурации псевдонима кластера. Этот дополнительный адрес используется для псевдонима кластера.

Для организации клиентского доступа TruCluster Server позволяет сконфигурировать любое число управляемых сетевых адаптеров, используя механизм массива избыточных независимых сетевых адаптеров (NetRAIN) и службу Network Interface Failure Finder (NIFF), входящую в состав операционной системы Tru64 UNIX.

TruCluster Server требует установки по крайней мере одного PCI-адптера Memory Channel на каждом узле. Адаптеры Memory Channel составляют кластерные межсоединения для TruCluster Server, поддерживая коммуникации между хостами. Для кластера из двух систем концентратор Memory Channel не обязателен, адаптеры могут быть связаны с помощью кабеля.

Если в кластере больше двух узлов, необходим концентратор Memory Channel, к которому подключается адаптер Memory Channel каждого из узлов.

С TruCluster Server могут использоваться один или два адаптера Memory Channel, которые подменяют друг друга в случае сбоя при межкластерных коммуникациях.

Требования к памяти и системам хранения

Каждая из систем, входящих в кластер, должна иметь оперативную память емкостью не менее 128 Мбайт. Ниже описаны минимальные требования к файловой системе и диску для кластера, состоящего из двух узлов.

Необходимо зарезервировать:

один или несколько частных дисков на первой системе, входящей в кластер, для операционной системы Tru64 UNIX;
один или несколько дисков на разделяемой шине SCSI для размещения кластерных файловых систем корневой (/), /usr и /var AdvFS;
один диск для каждого члена кластера, как правило, на разделяемой шине SCSI, для размещения загрузочных разделов систем, входящих в кластер;
дополнительно один диск на разделяемой шине SCSI, который выступает в роли "диска голосования" (quorum disk).

Рис. 1

На рисунке 1 показана общая структура кластера из двух систем с требуемыми файловыми системами. Необязательный диск голосования отделен пунктирной линией.

Диск для операционной системы

Операционная система Tru64 UNIX устанавливается с помощью файловых систем AdvFS на одном или нескольких локальных дисках в системе, которая будет выбрана в качестве первого члена кластера.

Диск ОС не может использоваться в качестве разделяемого диска для кластера, диска загрузки члена кластера или диска голосования.

При создании кластера процедура установки копирует файловые системы Tru64 UNIX root (/), /usr и /var с диска Tru64 UNIX на выбранные администратором диски. Рекомендуется для общекластерных файловых систем использовать диски, размещаемые на системной шине SCSI, так, чтобы к ним могли обращаться все члены кластера.

Во время установки администратор указывает имена дисковых устройств и разделы, которые будут содержать общекластерные файловые системы root (/), /usr и, дополнительно, /var.

Если какой-либо раздел на диске используется общекластерной файловой системой, то на этом диске могут размещаться только общекластерные файловые системы и этот диск не может применяться в качестве диска загрузки узла кластера или диска голосования.

Диск загрузки узла кластера

Каждый узел кластера имеет загрузочный диск, который содержит загрузочный раздел, область подкачки и раздел с информацией о статусе кластера.

Процедуры установки переформатируют загрузочный диск каждого узла кластера, определяя три раздела: раздел a для файловой системы root (/), раздел b для области подкачки, раздел h для информации о статусе кластера. (Разделы для файловых систем /usr или /var на загрузочном диске узла кластера отсутствуют).

Ни один из загрузочных дисков узлов кластера не может содержать общекластерные файловые системы root (/), /usr и /var, а также не может использоваться в качестве диска голосования.

Диск голосования

Диск голосования позволяет обеспечить более высокий уровень готовности для кластеров, состоящих из двух членов. В его разделе h содержится информация о статусе кластера и данные для обеспечения избыточности.

Диск голосования должен удовлетворять следующим ограничениям.

Кластер может иметь только один диск голосования.
Диск голосования должен размещаться на разделяемой шине, к которой напрямую подключены все узлы кластера.
Диск голосования не должен содержать никаких данных, поскольку при его инициализации информация полностью перезаписывается и после сбоя на любом из членов кластера целостность размещаемых там данных не гарантируется. Таким образом, загрузочные диски членов кластера и диск, содержащий общекластерную файловую систему root (/) не могут использоваться в качестве дисков голосования.
Диск голосования может иметь довольно небольшую емкость. Кластерные подсистемы используют только 1 Мбайт дискового пространства.
Диск голосования может иметь не более одного "голоса" и этот голос, как правило, оказывается "решающим".
На диске не может использоваться Logical Storage Manager.

Кластер из двух узлов

Кластер из двух узлов должен иметь как минимум четыре диска. Дополнительные диски могут потребоваться для приложений высокой готовности. На рисунке показан общий кластер из двух узлов с минимальным набором дисков.

Общекластерные системы root (/), /usr, /var
Загрузочный диск первого узла кластера
Загрузочный диск второго узла кластера
Диск Tru64 UNIX

Минимальная конфигурация кластера может обеспечивать минимальный уровень готовности из-за отсутствия диска голосования (на рисунке он обведен пунктиром), поскольку "кворум" достигается только при работе обоих узлов в кластере. За счет добавления диска голосования кластер может быть сконфигурирован таким образом чтобы работали оба узла, либо чтобы работал один узел и диск голосования. Этот кластер будет иметь более высокую степень готовности.

Устранение критически уязвимых мест

Ниже приводятся этапы преобразования кластера в минимальной конфигурации в кластер без критически уязвимых мест, или "без единой точки отказа" (no-single-point-of-failure, NSPOF).

Кластер с минимальным объемом памяти для критически важных приложений.
Кластер с большим объемом памяти, но с одной шиной SCSI имеет критически уязвимое место.
Добавление второй шины SCSI позволяет применять LSM для зеркалирования файловых систем /usr и /var и дисков с данными, но не поддерживает эту возможность для root (/), загрузочного диска и области подкачки узлов кластера, диска голосования, то есть полной избыточности не достигается.
Использование контроллера массива RAID в режиме восстановления после сбоя позволяет применять аппаратное обеспечение этого массива для зеркалирования дисков. Но без второй шины SCSI, второго соединения Memory Channel и избыточных сетей эта конфигурация по-прежнему не является кластером без критически уязвимых мест.
Используя HSZ70 или HSZ80 с несколькими шинами, поддерживающими восстановление после сбоев, позволяют использовать две разделяемые шины SCSI для доступа к памяти. Аппаратное обеспечение RAID применяется для зеркалирования файловых систем root (/), /usr и /var, загрузочного диска членов кластера, дисков с данными и диска голосования (если он есть). Второй канал Memory Channel, избыточность соединений с локальной сетью и резервный источник питания также устанавливаются для реализации кластера NSPOF.

Кластеры из двух узлов с минимальной конфигурацией дисков

В этом разделе общий кластер усовершенствован за счет выбора требуемого шлейфа памяти, каковым может быть BA350, BA356 (без UltraSCSI) или UltraSCSI BA356.

Рис. 2

На рисунке 2 представлена конфигурация TruCluster Server, использующая модуль хранения UltraSCSI BA356. Персональный модуль DS-BA35X-DA, используемый в модуле UltraSCSI BA356, представляет собой конвертор, который позволяет принимать различные входные сигналы.

Рис. 3

На рисунке 3 представлена типичная конфигурация системы для небольшого офиса или системы, используемой для обучения, с дисками TruCluster Server Version 5.0. В данной конфигурации с учетом требований к дискам версии TruCluster Server Version 5.0, будет только два диска, которые можно применять для приложений высокой готовности.

Отметим, что при использовании кластерной файловой системы, общекластерные каталоги root (/), /usr и /var могут размещаться на частной шине любой системы — узла кластера. Но если эта система не доступна, то другие узлы кластера не смогут получить доступ к общекластерным файловым системам. Та же ситуация и с диском голосования. Размещение диска голосования на локальной шине узла кластера создает в кластере критически уязвимое место.

Индивидуальные разделы загрузки и подкачки кластера также могут устанавливаться на любом из узлов кластера. Если загрузочный диск первого узла кластера размещается на шине SCSI, внутренней для этой системы, в случае сбоя на диске узел станет недоступен, а другие узлы в кластере не смогут обратиться к диску для выполнения необходимых корректирующих действий.

Разместив раздел подкачки на внутренней шине SCSI узла, можно сократить общий трафик на разделяемой шине на объем, эквивалентный размеру системного раздела подкачки.

Кластеры из двух узлов с расширенной дисковой конфигурацией

На рисунке 2 представлена минимальная конфигурация, в которой отсутствует дисковое пространство для приложений высокой готовности. Начиная с версии Tru64 UNIX Version 5.0, шина SCSI поддерживает 16 устройств, в силу чего на одной и той же шине теперь можно размещать множество модулей хранения BA356, что позволяет подключать большое число устройств.

На рисунке 3 показана та же конфигурация, что и на рисунке 2, но со вторым модулем памяти UltraSCSI BA356, благодаря чему в кластере можно установить семь дополнительных дисков для приложений высокой готовности.

Эта конфигурация имеет единую шину SCSI, которая становиться критически уязвимым местом.

Кластеры из двух узлов с модулями хранения UltraSCSI BA356 и двумя шинами SCSI

Наличие второй шины SCSI даст возможность использовать Logical Storage Manager (LSM) для зеркалирования файловых систем /usr и /var, а также дисков с данными через шины SCSI, благодаря чему шина SCSI уже не является единственным уязвимым местом для файловых систем.

Благодаря таким возможностям зеркалирования достигается более высокий уровень готовности. Но даже при наличии второго Memory Channel и избыточных сетей, поскольку мы не можем использовать LSM для зеркалирования общекластерной файловой системы (/), диска голосования или загрузочных дисков членов кластера, данную конфигурацию нельзя назвать кластером без критически уязвимых мест.

Использование дисковых массивов RAID

Дисковый массив с любыми поддерживаемыми контроллерами RAID может применяться для зеркалирования общекластерной операционной системы (/), диска голосования и загрузочных дисков узлов кластера. Контроллеры дискового массива могут быть сконфигурированы как пара с двойной избыточностью, что позволяет переключаться на другой контроллер, в случае сбоя. Кроме того, необходимо установить режим восстановления после сбоев.

Рис. 4

В конфигурации, представленной на рисунке 4, контроллеры HSZ40, HSZ50, HSZ70 или HSZ80 поддерживают прозрачный режим восстановления после сбоя, при котором оба контроллера подключены к одной и той же разделяемой шине SCSI и шинам устройств. Эти контроллеры обслуживают полностью всю группу модулей хранения, однодисковые модули или другие устройства хранения, причем любой из контроллеров может по-прежнему обслуживать все модули в том случае, если другой контроллер выходит из строя.

Подчеркнем, что даже при зеркалировании общекластерной операционной системы root и дисков загрузки членов кластера единая разделяемая шина SCSI остается критически уязвимым местом.

Создание кластера NSPOF

Для того чтобы создать кластер без критически уязвимых мест, следует выполнить следующие действия.

Используйте массив RAID для зеркалирования общекластерных файловых систем root (/), /usr и /var, диска голосования (если таковой есть), загрузочных дисков узлов кластера и дисков с данными.
Обязательно установите по крайней мере две разделяемые шины SCSI для доступа к двум дублирующим друг друга контроллерам RAID, настроенных на режим восстановления после сбоя для нескольких шин
Установите второй канал Memory Channel для поддержки избыточности
Установите резервные источники питания
Установите избыточные соединения с локальной сетью
Подключите узлы кластера и модули хранения к источнику бесперебойного питания

Поддержка Tru64 UNIX инфраструктур с обходными путями позволяет реализовать восстановление после сбоев в архитектуре с несколькими шинами.

Разбитые на разделы группы модулей хранения или однодисковые модули не могут работать в такой конфигурации. Вам придется удалить все разделы перед конфигурацией контроллеров в режиме восстановления после сбоев в архитектуре с несколькими шинами.

Рис. 5

На рисунке 5 показана конфигурация кластера с двумя разделяемыми шинами SCSI и массивом хранения с двумя избыточными шинами HSZ70. Если на одной из шин SCSI возник сбой, системы — члены кластера могут обратиться к дискам по другой шине SCSI.