Безотказные сети и системы

В современных высококритичных сетевых средах краткий простой может привести к значительным финансовым потерям. Что же сделать, чтобы защитить информационные активы вашей компании?

КЛАСТЕРНЫЕ СИСТЕМЫ

ЗАЩИТА ВАШЕЙ СЕТИ

ВПЕРЕД, К ТИРАЖИРОВАНИЮ

ИСПОЛЬЗОВАНИЕ СЕРВИСОВ ТИРАЖИРОВАНИЯ

ДОСТОЙНОЕ ВЛОЖЕНИЕ СРЕДСТВ

Десять лет назад отказоустойчивость вряд ли занимала ваше внимание - если только у вас не было специализированного приложения для обработки финансовых транзакций, продажи акций или резервирования авиабилетов, где малейший простой мог привести к значительным финансовым потерям. Сегодня вы, вероятно, тратите много времени и денег на развертывание отказоустойчивых и постоянно доступных технологий, если даже ваша компания не очень велика.

Основной причиной того, что отказоустойчивость и постоянная готовность стоят во главе списка задач администратора сети, - большая цена простоев. Согласно исследованию, проведенному International Data Corp. (IDC), простои обходятся в среднем в 78 000 долларов в час, что составляет свыше 1 млн долларов в год - даже для обычного среднего предприятия. Поэтому все большее число организаций, несмотря на бюджетные ограничения, берут эти цифры на вооружение, понимая, что "это может случиться здесь", и инвестируя средства в отказоустойчивые, постоянно готовые к работе системы и сети.

В данной статье мы рассмотрим различные способы сохранения функциональности компьютерных систем вашей компании невзирая на аппаратные и программные сбои. Среди таких подходов - автономные отказоустойчивые системы, зеркальные или кластерные системы, а также отказоустойчивые и постоянно доступные технологии для локально-сетевых инфраструктур, глобальных соединений и конкретных сервисов или приложений.

СТАРЫЕ ДРУЗЬЯ

Старейшими, и наиболее фундаментальными, формами отказоустойчивости являются те, что относятся к компьютеру как таковому. Наиболее распространенные из них - это избыточные массивы независимых дисков (Redundant Arrays of Independent Disks, RAID).

В RAID несколько жестких дисков функционируют как одно устройство. В результате конфигурации RAID повышают как производительность, так и надежность за счет параллельного чтения и записи сразу нескольких дисков, а также благодаря сохранению избыточных данных для контроля четности на одном или нескольких дисках. Эти данные позволяют системе RAID восстановить утерянную в случае сбоя жесткого диска информацию.

Официально уровней RAID пять: от RAID 1 до RAID 5. Дисковые подсистемы, обеспечивающие высокую производительность, но не гарантирующие надежность, часто классифицируются как RAID 0. RAID 0 не является частью оригинальной спецификации RAID и, в общем-то, не заслуживает названия RAID, так как не обладает избыточностью. Исторически RAID 5 - наиболее популярная конфигурация, так как этот уровень лучше всего подходит для обмена небольшими блоками данных, что типично для трафика в локальной сети. (Пояснение относительно типов RAID дано в Таблице 1.)

ТАБЛИЦА 1 - ФУНКЦИИ ТИПИЧНЫХ СИСТЕМ RAID
Уровень RAID	Конфигурация накопителей	Повышение производительности	Повышение надежности	Эффективность по затратам
0	Несколько дисков для данных, нет диска для записи информации о четности	Максимальное	Нет	Наилучшая. Вся доступная емкость используется для хранения данных.
1	Два зеркальных диска	Ускорение чтения, но не записи.	Данные не теряются при выходе из строя любого из двух дисков.	Наихудшая. Вы платите за емкость вдвое большую, чем фактически получаете.
3	Несколько дисков для данных, один для информации о четности	Обычно быстрее, чем RAID 1 или 5, особенно в случае крупных блоков данных. Ускорение записи может быть незначительным, особенно в случае малых блоков данных.	Данные не будут потеряны при выходе из строя любого из дисков.	Лучше, чем у RAID 1 и 5, так как информация о четности занимает минимум места.
5	Несколько дисков для данных, информация о четности записывается на все диски	Наибольшее в случае небольших блоков данных, что типично для трафика локальной сети	Данные не будут потеряны при выходе из строя любого из дисков.	Лучше, чем у RAID 1, но несколько хуже, чем у RAID 3.

RAID дороже однодисковых систем, потому что ему нужен специальный контроллер. Кроме того, во всех настоящих массивах RAID (с 1 по 5) часть емкости уходит на запись информации о четности. RAID становятся все более доступными по цене. Если взять оборудование старшего класса, то в последние годы стоимость систем RAID оставалась практически неизменной, несмотря на их растущую емкость. Таким образом, цена в расчете на мегабайт значительно упала (см. Таблицу 2).

ТАБЛИЦА 2 - ТЕНДЕНЦИЯ ИЗМЕНЕНИЯ ЦЕН НА СИСТЕМЫ RAID
Год	Модель Storage Dimensions	Емкость	Цена (долларов)	Цена в расчете на мегабайт
1992	LANStor Continua	4 Гбайт	37 950	9,04
1993	LANStor Continua	6,4 Гбайт	23 620	3,69
1994	LANStor Continua	12,6 Гбайт	25 580	2,03
1995	SuperFlex	25,5 Гбайт	29 805	1,18
1996	SuperFlex	25,2 Гбайт	19 360	0,77
1997	SuperFlex 3000 DGR Ultra	54,6 Гбайт	24 535	0,45
Источник: Storage Dimensions

Кроме того, производители все ниже опускают нижнюю планку цен на системы RAID младшего класса. Например, Adaptec продает RAID-контроллер ARO-1130SA всего за 299 долларов. При таких более низких, чем когда-либо прежде, ценах за мегабайт даже серверы начального уровня и рабочие станции оснащаются RAID. RAID служит обычно первым шагом при обеспечении постоянной доступности и отказоустойчивости любой системы.

RAID не поможет при одновременном выходе из строя двух дисков, поэтому данные с дисков RAID все равно придется резервировать. Магнитная лента по-прежнему является наиболее дешевым и популярным носителем для резервного копирования, несмотря на наличие других, например оптических, носителей, имеющих больший срок жизни.

Для обеспечения постоянной доступности необходимо иметь возможность заменять диски в работающей системе. Таким образом, если диск в массиве RAID выходит из строя, то для его замены останавливать всю систему не придется.

Другое необходимое устройство, даже при минимальном уровне отказоустойчивости, - источник бесперебойного питания (ИБП). ИБП обеспечивает временное питание в случае перебоев с электричеством, давая вам время отключить компьютеры без потери последних введенных данных.

Если нужна гарантированная надежность, то придется приобрести систему с избыточными источниками питания, вентиляторами, ЦПУ, памятью и дополнительными платами, так как выход из строя любого из этих компонентов может привести к остановке всей системы. Но и этого может оказаться недостаточно, тогда потребуется "двухпортовая" периферия, например дисковая подсистема, подключаемая к компьютеру через два разных порта. Если массивы RAID с возможностью горячей замены дисков, ИБП и ленточные системы резервного копирования являются необходимым минимумом для любой отказоустойчивой системы, то избыточность в других компонентах менее существенна, так как сбои в них происходят значительно реже, чем сбои дисков и перебои в электропитании.

Вы можете пойти еще дальше в обеспечении защиты автономной системы, если приложения того требуют. Компания Lycos известна своим поисковым узлом. Для нее реклама в Web - хлеб насущный, и она гарантирует рекламодателям, что их рекламные объявления будут доступны 99,99% времени, утверждает Рон Реинвил, директор Lycos по операциям. Для достижения этой цели каждый сервер имеет два порта для доступа к двум массивам RAID, причем каждый массив имеет запасной диск, автоматически заменяющий вышедший из строя. Кроме того, под рукой у администраторов всегда есть сменные диски, чтобы тут же заменить вышедшие из строя (при этом сервер отключать не надо).

Большинство серверов Lycos - это Digital AlphaServer 8400 с 12 ЦПУ каждый и автоматическим перераспределением функций между ЦПУ в случае выхода из строя одного из них. Что касается защиты электропитания, то помимо двух ИБП оборудование Lycos подключено к двум различным энергосетям и автоматически переключается на другую сеть, если пропадает напряжение.

КЛАСТЕРНЫЕ СИСТЕМЫ

Вроде бы системы Lycos предельно надежны, однако компания собирается улучшить их. Каким образом? Используя кластерные продукты, в том числе TruCluster и Clusters for NT от Digital Equipment.

Кластеры - это шаг вперед по сравнению с зеркальными серверами, такими как SFT III компании Novell. При наличии зеркальных серверов второй сервер находится обычно в резерве, подменяя основной и обслуживая приложения, только когда тот выходит из строя. В кластерах же серверы заняты выполнением своей задачи и подменяют друг друга в том случае, когда один из них выходит из строя. Кластеры позволяют также осуществлять распределение нагрузки между компьютерами; однако приложения необходимо модифицировать, чтобы они могли воспользоваться этой возможностью.

Объявив о начале разработки кластерной технологии Wolfpack в 1995 году, Microsoft поставила кластеризацию на повестку дня в мире микрокомпьютеров. До этого кластеризация считалась прерогативой главным образом UNIX и хост-систем. Сначала Microsoft собиралась выпустить продукт, поддерживающий данную технологию, в первом квартале 1997 года, но появился он только в октябре, когда компания представила Microsoft Cluster Server (MCS) как часть Windows NT 4.0 Enterprise Edition. Тем временем Microsoft удалось создать значительный ажиотаж вокруг кластерной технологии, так что другие производители не замедлили предложить свои решения. В результате конечные пользователи имеют теперь несколько вариантов реализации кластерной технологии, некоторые из них отражены в Таблице 3.

ТАБЛИЦА 3 - ПРЕДЛАГАЕМЫЕ КЛАСТЕРНЫЕ РЕШЕНИЯ
Производитель	Продукт	Максимальное число узлов в кластере	Операционная система	Серверная платформа	Цена
Compaq	Online Recover Server	2	Windows NT	Compaq	1499 долларов за комплект для двух серверов (программное обеспечение, коммутатор, SCSI-кабель); 3000 долларов за контроллер SmartArray.
Digital Equipment	Clusters for Windows NT	2	Windows NT	Digital AlphaServer or Prioris server	Программное обеспечение стоит 995 долларов за сервер.
Digital Equipment	TruCluster	8	Unix, VMS	Digital AlphaServer	Стоимость программного обеспечения от 4000 долларов за сервер.
Distributed Processing Technology	ServerOnCall	4	Windows NT, SCO OpenServer^*	Сертифицированное аппаратное обеспечение	Программное обеспечение стоит от 899 долларов за первый сервер, 325 долларов за последующие серверы RAID; 1495 долларов за контроллер PM3334UW.
Microsoft	Cluster Server	2	Windows NT	Сертифицированное аппаратное обеспечение	Программное обеспечение в пакете с NT 4.0 Enterprise Edition.
NCR	LifeKeeper	2	Windows NT	NCR WorldMark	1500 долларов за сервер (в том числе сценарии восстановления для TCP/IP, LAN Manager, SQL Server).
Novell	Orion^**	16	Moab (кодовое название), версия NetWare/IntranetWare	Сертифицированное аппаратное обеспечение	Нет сведений.
Octopus Technologies	OctopusHA+	Неограниченное	Windows NT	Сертифицированное аппаратное обеспечение для NT	1499 долларов за сервер.
Sun Enterprise	Cluster	4	Solaris	Серверы Sun Ultra Enterprise	Программное обеспечение стоит от 2000 до 50 000 долларов за сервер.
Примечания. ^* Поддержка NetWare и SCO UnixWare должна была появиться в 1997 году. ^** кодовое название, бета-тестирование в первой половине 1998 года.

Помимо указанной в Таблице 3 базовой информации о различных кластерных продуктах (например, о поддерживаемой операционной системе, серверной платформе, числе узлов в кластере и цене) при выборе решения вы должны будете рассмотреть и другие их характеристики. В частности, что собой представляет кластерная архитектура (с общими дисками, без каких-либо общих компонентов или смешанная)? Все ли серверы выполняют полезные задачи в нормальном режиме работы (так называемая "активная-активная конфигурация")? Возможно ли установить один резервный сервер для защиты нескольких активных серверов? Какие приложения поддерживает кластер?

Кроме того, вы должны узнать, какие клиенты поддерживаются, какие из них автоматически подключаются заново после сбоя и сколько времени занимает подмена сервера. Наконец, кластерное решение должно в идеале обеспечивать автоматический возврат к прежнему состоянию (возврат приложений на временно недоступный сервер после возобновления его работы), удаленные конфигурацию и администрирование, а также реконфигурацию кластера без перезагрузки.

Другой важный вопрос - каким образом машины в кластере связаны между собой. Масштабируемость кластера без общих (разделяемых) компонентов зависит от эффективности технологии межсоединения серверов внутри кластера. Межcоединение осуществляется, как правило, по ATM или Ethernet, популярность приобретает и Fibre Channel. Однако эти технологии могут оказаться чересчур медленными или, наоборот, давать слишком большую нагрузку на процессор сервера. Для решения этой проблемы компания Tandem разработала ServerNet, коммутирующую структуру с производительностью 1,3 Гбит/с, позволяющую любым компонентам кластера (серверам, дискам или устройствам ввода/вывода) взаимодействовать с любым другим компонентом без вмешательства сервера. Microsoft включает драйверы ServerNet в каждую копию MCS.

Кластеризация - чрезвычайно привлекательная концепция, а если исходить из цены (MCS поставляется с NT 4.0 бесплатно), то отказаться от нее просто невозможно. Но потенциальные пользователи должны знать о незрелости многих кластерных продуктов, в частности для NT. Это становится особенно заметно при рассмотрении их функциональных возможностей. Например, MCS обеспечивает в случае сбоя подмену сервера, но не распределение нагрузки. Кроме того, у разработчиков приложений не было времени полноценно протестировать свои программы в кластерной среде, поэтому многочисленные ошибки в приложениях просто неизбежны. Более того, кластерные решения весьма капризны в отношении аппаратных платформ.

"Кластерное решение должно быть всесторонне протестировано, чтобы можно было быть уверенным, что в случае сбоя подмена вышедшего из строя компонента пройдет гладко, - говорит Эрик Скотт, старший менеджер по продуктам в Digital Equipment. - Пользователи первых версий новых кластерных продуктов могут - вне зависимости от производителя - столкнуться с ошибками в кластерном программном обеспечении, операционной системе, микропрограммном обеспечении жестких дисков или контроллеров ввода/вывода. Большинство имеющихся компьютеров было рассчитано на автономную работу. Заложенный в них код, вплоть до микропрограммного обеспечения, не тестировался в предположении, что два устройства будут работать в тандеме".

Если только данная конкретная аппаратная/программная конфигурация не тестировалась для кластерного решения, которое вы собираетесь реализовать, то скорее всего вы покупаете кота в мешке. Период "утряски" новых кластерных продуктов займет по крайней мере несколько лет. К сожалению, к этому времени многие из сегодняшних решений могут кануть в небытие, главным образом из-за MCS. Несмотря на то что MCS делает пока лишь первые шаги, он способен вырасти в грозного конкурента за два или три года, отчасти по той причине, что трудно конкурировать с чем бы то ни было, что поставляется бесплатно с операционной системой.

Неопределенное состояние рынка кластеризации принуждает конечных пользователей покупать наилучший продукт, который они могут найти (а он может стоить десятки тысяч долларов и предназначаться для хост-систем), зная, что через несколько лет он может исчезнуть с рынка, или связывать себя с менее зрелым, но бесплатным MCS. Поэтому многие компании пока не идут дальше тестирования кластерных систем. В настоящее время только организации, имеющие приложения, которым необходим высочайший уровень отказоустойчивости и доступности, с большой осторожностью реализуют кластеры.

Если вашей организации хотелось бы иметь кластерные продукты, то наилучшей стратегией является реализация зрелых решений (например, от Digital), прошедших обширное тестирование. Кроме того, вы должны строго придерживаться рекомендаций производителя в отношении аппаратного/программного обеспечения. Зрелые системы будут работать хорошо, если они тщательно реализованы и прошли полноценное тестирование.

ЗАЩИТА ВАШЕЙ СЕТИ

Описанные выше методики позволяют создавать отказоустойчивые островки вычислительной мощи, состоящие из одного или более серверов, систем хранения и устройств ввод/вывода. Однако сети, связывающие эти островки воедино, должны быть не менее надежны. Достичь этого можно посредством применения к сетевому оборудованию тех же принципов обеспечения отказоустойчивости, что и для компьютеров. Например, коммутаторы ATM и другие магистральные устройства оснащаются ИБП, избыточными источниками питания и вентиляторами, сменными компонентами, не требующими отключения всего устройства (источниками питания, вентиляторами, ЦПУ, коммутирующими модулями). Эти коммутаторы могут также поддерживать два и более каналов связи друг с другом.

Некоторые из топологий локальных сетей отказоустойчивы по самой своей природе. Например, FDDI реализуется обычно как двойное оптическое кольцо, где второе кольцо является резервным для первого. Топологии с концентраторами также обеспечивают отказоустойчивость: интеллектуальный концентратор для локальной сети способен изолировать отказавшего клиента, предотвращая таким образом засорение сети искаженными данными.

Протоколы маршрутизации позволяют решать проблемы сбоя маршрутизаторов, коммутаторов, концентраторов или сетевых каналов за счет направления трафика в обход вышедшего из строя компонента сети. Во многих случаях пользователи даже не замечают, что где-то в сети произошел сбой.

Другой способ сделать сеть отказоустойчивой - объединить ключевые серверы и другие критически важные сетевые узлы в ячеистую топологию, где каждый узел подключен напрямую ко всем остальным. Кроме того, серверы можно подключить к двум концентраторам или коммутаторам с помощью двух сетевых плат. Если какая-либо плата, концентратор или коммутатор выйдет из строя, то сервер все равно останется в сети.

Затраты на отказоустойчивую сеть могут варьироваться в широких пределах, все зависит от того, кто является собственником среды передачи - вы или телефонная компания. Например, реализация избыточных каналов ATM позволяет с небольшими затратами создать резервную магистраль в локальной сети. При этом реализация избыточных каналов удаленного доступа из филиала в центральный офис окажется дорогим удовольствием. Чтобы избежать излишних затрат, вы можете приобрести два канала удаленного доступа, например соединение ATM, на которое ложится основная нагрузка по передаче трафика в нормальных условиях, и одно или более коммутируемых соединений ISDN, используемых, когда трафик очень велик или когда соединение ATM оказывается по тем или иным причинам недоступно.

Если организации нужно несколько каналов удаленного доступа, то она может обратиться к нескольким операторам связи и провайдерам Internet или подключиться к нескольким точкам входа своего оператора связи либо провайдера Internet в целях повышения уровня отказоустойчивости. Lycos, например, имеет каналы к нескольким провайдерам Internet. Когда все работает нормально, такая конфигурация позволяет обеспечить прекрасную производительность тем пользователям, кто имеет бюджеты у этих провайдеров Internet. Если канал к этому провайдеру выйдет из строя, то его подписчики могут тем не менее попасть на сервер Lycos, хоть и "кружным путем".

Пользователи, имеющие несколько каналов Т-1 к одному оператору связи, могут повысить их надежность за счет применения инверсного мультиплексирования для ATM (Inverse Multiplexing for ATM, IMA). IMA предназначен для создания канала промежуточного размера посредством объединения нескольких соединений ATM в один пул. Например, четыре канала T-1 будут выглядеть для пользователя как один канал ATM на 6 Мбит/с. Дополнительным достоинством IMA является отказоустойчивость, потому что инверсное мультиплексирование позволяет перераспределить трафик между функционирующими каналами в случае недоступности одного из них. Скажем, если офис имеет один канал T-1 для голоса и один для данных, то, в случае выхода одного из них из строя, критический ресурс - либо голос, либо данные - окажется недоступным. При использовании IMA оставшийся дееспособный канал Т-1 может передавать одновременно и трафик данных, и телефонные разговоры, при этом, правда, доступная для каждого из видов сервиса пропускная способность уменьшится наполовину.

ВПЕРЕД, К ТИРАЖИРОВАНИЮ

Отказоустойчивость может быть реализована не только на уровне систем и сетей, но также на уровне приложений (для баз данных, электронной почты и т. п.) и сервисов (например, для Web, защиты информации и службы каталогов). Она может быть также реализована на уровне промежуточного ПО, такого как программное обеспечение обработки транзакций.

Отказоустойчивость на уровне приложений или сервисов весьма привлекательна по трем причинам: она позволяет до некоторой степени обойти сбои на более низких уровнях; предлагается зачастую бесплатно вместе с приложением или операционной системой (например, Novell Directory Services) и решает проблему, имеющую для вас главенствующее значение, - чтобы приложения и сервисы в сети продолжали функционировать при любых сбоях системы.

Одним из способов повышения уровня отказоустойчивости приложений является их адаптация к таким аппаратным решениям, как кластеры. Например, приложения должны всегда хранить на диске любую информацию, которая может им потребоваться при восстановлении. В этом случае, если сервер выходит из строя или узлу в кластере необходимо передать свои функции другому узлу, искомая информация всегда может быть найдена. Одно из преимуществ таких приложений, как браузеры, состоит в том, что им не надо сохранять информацию на диске; они всегда запускаются из одного и того же состояния.

Кроме того, приложения должны, насколько возможно, корректно справляться с временными разрывами соединений между клиентом и сервером. В кластерной среде NT, например, клиенты теряют связь с сервером при подмене его другим на срок от 20 с до 20 мин. Возобновление соединения осуществляется обычно с помощью специфического для приложения сценария восстановления. В случае приложения для базы данных сценарий восстановления может предусматривать сначала откат на основании журнала транзакций с целью обеспечения непротиворечивости базы данных и только затем возобновления соединений пользователей с приложением. При ином сценарии пользователю может потребоваться ввести заново свое имя и пароль и перезапустить приложение.

Главное преимущество кластеризации в том, что она обеспечивает всеобъемлющую защиту за счет синхронизации нескольких машин в реальном времени и тиражирования данных, находящихся на диске и в оперативной памяти. Такое приложение функционирует, как правило, в пределах одного центра обработки информации, потому что кластерам необходимы высокоскоростные соединения между узлами.

Альтернативой кластеризации является тиражирование данных, когда информация с диска копируется по определенному администратором расписанию от нескольких секунд до нескольких дней. Ввиду того, что тиражируются только данные с диска и что это происходит через предопределенные интервалы времени, данная процедура не гарантирует сохранности информации: при выходе системы из строя все данные, находящиеся в этот момент в оперативной памяти, а также все изменения, сделанные со времени последнего тиражирования, будут потеряны. Однако немаловажным преимуществом тиражирования является его эффективность при работе по каналам глобальной сети - даже по весьма медленным каналам.

Если кластеризация представляет собой системный сервис, то тиражирование может быть реализовано на прикладном уровне. Базы данных старшего класса, такие как Informix и Oracle, идут здесь впереди остальных, предлагая гибкие схемы тиражирования данных. Например, базы данных можно тиражировать, полностью или частично, на один или более серверов, планировать моменты тиражирования и создавать реплики как только для чтения, так и для чтения/записи.

Приложения Lotus Notes построены на основе базы данных, имеющей сложную и масштабируемую схему тиражирования. Например, Notes позволяет копировать только определенные поля, что существенно сокращает сетевой трафик.

Тиражировать можно и серверы Web. Если основной сервер выходит из строя, то пользователи могут быть перенаправлены на его реплику.

При выборе схемы администратор должен решить, какие данные должны тиражироваться в обязательном порядке, чтобы в случае недоступности конкретного сервера или сети пользователи имели доступ к критически важной информации. Потенциальная опасность здесь в том, что если тиражируемые данные модифицируются, то это может привести к конфликтам, когда два пользователя модифицируют одни и те же данные по-разному в разных репликах. Многие программы позволяют разрешать такие конфликты автоматически или вручную. Например, более позднее обновление может иметь приоритет над более ранним. Или автор более позднего обновления может получить предупреждение, что данные были изменены после их прочтения и что ранее внесенные изменения будут стерты. Пользователь может выбрать - стирать или не стирать сделанные другим пользователем изменения.

Кроме того, тиражирование может использоваться при плановых отключениях. Например, оно позволяет перенести всю информацию в удаленный офис, прежде чем начнутся эксплуатационные работы в основном офисе. (В качестве варианта необходимость в плановых отключениях можно свести к минимуму за счет выбора приложений, позволяющих настраивать параметры, например увеличивать число пользователей или выделять больше памяти, без остановки приложения.)

ИСПОЛЬЗОВАНИЕ СЕРВИСОВ ТИРАЖИРОВАНИЯ

Некоторые операционные системы предлагают тиражирование как сервис или как функцию других сервисов. NDS, например, имеет сложную схему тиражирования с поддержкой как архитектуры "главный-подчиненный", так и архитектуры с несколькими главными серверами. Novell предлагает также службу тиражирования Novell (Novell Replication Services, NRS) для избирательного копирования группы файлов с одного сервера на один или несколько серверов в том же дереве NDS. Серверы тиражируются попарно, но изменения попадают в конце концов по сети на все серверы.

NRS осуществляет синхронизацию главных серверов и модифицирует все копии файла при изменении какой-либо одной из них. Например, вы можете хранить копию раздела, где установлен ваш почтовый сервер. Если он выйдет из строя, то его можно будет запустить на сервере с репликой. Однако, из-за отсутствия тесной интеграции NRS с NetWare, такая функция, как автоматический переход на имеющуюся реплику в случае недоступности основного сервера, не поддерживается в принципе. Поэтому сервер с репликой придется запускать вручную. (Информацию об NRS можно найти на узле www.novell.com/nrs.) Этот недостаток будет исправлен в ожидаемой распределенной файловой системе, известной так же, как Advanced File System (AFS). Тесно интегрированная с NetWare, AFS будет обеспечивать автоматическое и прозрачное переключение на реплику в случае недоступности основного узла.

С отказоустойчивыми приложениями и сетевыми сервисами тесно связано промежуточное программное обеспечение. Непосредственное отношение к обеспечению отказоустойчивости имеет такая разновидность промежуточного программного обеспечения, как монитор обработки транзакций (Transaction Processing, TP), например система Tuxedo компании Novell или Customer Information Control System компании IBM. Монитор обработки транзакций отслеживает транзакции (определенные для каждого приложения), так что в случае каких-либо проблем незавершенные транзакции могут быть отменены. Незавершенные транзакции чреваты порчей базы данных или других компонентов приложения непредсказуемым и, возможно, невосстановимым образом.

ДОСТОЙНОЕ ВЛОЖЕНИЕ СРЕДСТВ

К сожалению, отказоустойчивые приложения по большей части недешевы и сложны в реализации. С другой стороны, они зачастую более управляемы и имеют меньшую общую стоимость владения в долгосрочной перспективе, чем их более зависимые от ошибок конкуренты. Технически сведущие руководители предпочитают потратить больше однажды, чтобы сэкономить деньги и избежать проблем в дальнейшем.

Принцип "потрать сейчас, чтобы сэкономить впоследствии" применим ко всем отказоустойчивым технологиям. Этот принцип настолько универсален, что некоторые виды отказоустойчивых систем, например RAID, ИБП и ленточные накопители, стали столь же привычны как ремни безопасности в автомобилях. Отдача от этого и других видов избыточности, скажем кластеризации, зависит от размеров потерь от простоев и времени, которое отдел ИС экономит в результате.

Обеспечиваете ли вы непрерывность работы сотрудников, избавляетесь ли от жалоб клиентов, экономите ли труд сетевых инженеров, сохраняете ли ценные данные, - наверняка можете позволить себе больше отказоустойчивости, чем кажется, особенно если вспомнить, что, по данным IDC, средняя компания в США теряет из-за простоев свыше миллиона долларов ежегодно.

Майк Гурвиц - публицист и консультант. С ним можно связаться по адресу: mhurwisz@attmail.com. Некоторые из его работ можно найти на узле www.durrassociates.com.