Как насчет перезагрузки?

Вообще не очень? Понятно. Но выбора-то нет. Любому известно, что операционная система Windows время от времени "зависает", что неизбежно влечет за собой нажатие древней как мир комбинации из трех клавиш (Ctrl-Alt-Del) или вынуждает полностью перезагрузить ПК.

Большинство попросту мирится с подобными неудобствами, но для серверов, на которых работают критически важные приложения, скажем поддерживающие систему связи, конвейер на производстве или медицинское оборудование в клинике, такой вариант не подходит.

Высоконадежные избыточные компьютерные архитектуры известны давно, но чтобы создать системы, которые действительно не сбоят, необходимо очень дорогое аппаратное обеспечение, специальным образом модифицированные операционные системы и тщательно спроектированные нестандартные приложения. Однако в Texas Micro сообщили о создании практически не ломающегося, по их словам, ПК-сервера, который оснащается Windows NT Server и стандартными приложениями.

Представители компании, которая была создана в 1980-х годах и занималась проектированием надежных ПК для работы на буровых станциях, заявили, что их серверы соответствуют уровню "пяти девяток", то есть будут работать 99,999% времени. Другими словами, время простоя этих систем составляет не более 5 минут в год.

В Texas Micro, которая намерена выпустить свои серверы к концу года, для достижения поставленной цели используют три компонента.

Во-первых, свое собственные высоконадежные ПК, имеющие надежную архитектуру и избыточные компоненты, в частности источники питания. Почти все их модули дублируются, поддерживая возможность горячей замены.

Во-вторых, Intelligent Platform Management Interface (IPMI) — инструментальное ПО управления системой, которые сочетают в себе аппаратные и программные функции для автоматического и непрерывного контроля серверного оборудования. IPMI позволяет предотвратить сбой, а кроме того, выявляет и восстанавливает систему после возникновения различных ошибок.

В-третьих, в архитектуре Texas Micro задействована технология System Directed Checkpointing (SDC). Обычная система SDC состоит из двух серверов Windows NT, каждый из которых оснащен специальной коммуникационной платой и подключается с помощью отдельного кабеля, а не через основную сеть. Жесткий диск второго сервера постоянно зеркалирует основной сервер.

Такое зеркалирование — традиционное решение для двухсерверных систем. Но SDC выполняет не только зеркалирование жесткого диска. Она обеспечивает идентичность информации, хранящейся в памяти обоих серверов. Критически важные системные параметры, которые скопировать не так-то просто, в частности содержимое кэш-памяти сервера и состояние внутренних регистров процессоров, размещаются в "моментальных фотографиях" (контрольных точках), которые делаются 20 раз в секунду и передаются на второй сервер. Если второй сервер перестает получать эти мгновенные снимки, он "понимает", что произошел сбой, и за доли секунды после того, как возникла ошибка, берет на себя роль первичного сервера.

Защита от сбоя?

Конечно же, систему нельзя считать полностью избыточной, пока ошибка, возникшая на первом сервере, не устранена. Что же произойдет, если программная ошибка, проявившаяся на первом сервере, сразу же возникнет и на втором?

По словам представителя Texas Micro, широкомасштабные исследования, проведенные в компании, показали, что действительно катастрофические ошибки такого типа на серверах возникают крайне редко, и большинство сбоев очень быстро автоматически устраняются. В случае, описанном выше, вся избыточная система восстанавливается сама и может вернуться в нормальное состояние через несколько секунд. (Ряд программных ошибок и аппаратных сбоев тем не менее требуют вмешательства человека.) В случае возникновения проблемы контрольная система посылает уведомление системным администраторам.

Не для всех... пока

Представители компании не сообщили, насколько подорожает полностью избыточная двухсерверная система, если в нее будет добавлена SDC, но поспешили отметить, что требуемые для этого аппаратные компоненты относительно дешевы. Какое именно аппаратное обеспечение необходимо для ПК высокой готовности — это другой вопрос. Компания отказалась сообщить, насколько дороже будут стоить отказоустойчивые ПК по сравнению со стандартными серверами.

Хотя Texas Micro на первом этапе будет предлагать свои системы уровня "пять девяток" постоянным клиентам, компания надеется сотрудничать с крупнейшими производителями ПК, чтобы в конечном итоге можно было использовать эту технологию в серверах, предназначенных для небольших и среднего размера фирм.

Между тем мы с вами, работая на обычных ПК, должны делать резервные копии и в любой момент быть готовыми нажать три заветные клавиши.

Поделитесь материалом с коллегами и друзьями