Разная степень доступности

Не все приложения критически важны для предприятия. Условия, актуальные для Exchange или SAP, вовсе не обязательны для программы расчета отпускных. Часто приемлемым оказывается восстановление работоспособности приложения не через несколько секунд после сбоя, а в пределах нескольких минут. Предприятиям необходимо заранее продумать приоритет приложений с учетом вытекающих из этого требований, чтобы затем соотнести их с подходящими классами систем хранения и серверов, а также назначить надлежащие уровни сервиса. Разные классы систем хранения и серверов с соответствующими уровнями сервиса предполагают различные защитные мероприятия. Отличительным признаком может быть, к примеру, период работоспособности (Uptime).

Например, предприятие устанавливает индивидуальные контрольные значения для повторного пуска после сбоя системы. Так называемое целевое время восстановления (Recovery Time Objective, RTO) определяет промежуток времени, требуемый для восстановления потерянных или поврежденных данных. Целевая точка восстановления (Recovery Point Objective, RPO) характеризует максимально допустимую потерю данных. Мерой этого служит временной интервал между двумя резервными копированиями или тиражированием: в случае его продолжительности возможна большая потеря данных. Для баз данных, к примеру, тиражирование может быть обязательным. Чем важнее доступность базы данных, тем вероятнее применение механизма синхронизации, позволяющего свести риск простоев и потери информации к минимуму.

АРХИТЕКТУРА ХРАНЕНИЯ

С повышением требований к доступности растут затраты на поддержание уровня сервиса (Service Level), а кроме того, усложняется инфраструктура ИТ, что приводит к увеличению количества потенциальных источников ошибок. Чаще всего простои возникают из-за ошибок управления и сбоев приложений (восемь из десяти случаев объясняются именно этим, см. Рисунок 1).

Консолидация данных в максимально однородной архитектуре систем хранения позволяет упростить рабочую среду и инфраструктуру аварийного восстановления (Disaster Recovery). Так, сетевые системы хранения (Networked Storage) в сочетании с виртуализацией серверов предоставляют значительные преимущества по сравнению с непосредственно подключенными устройствами хранения (Direct Attached Storage), хотя и требуют более крупных капиталовложений: однородная архитектура обеспечивает независимую от протоколов консолидацию данных для FC SAN, IP SAN и NAS, а также однородные, простые и автоматизируемые средства и процессы управления, позволяющие максимально снизить вероятность человеческих ошибок.

ИЗБЫТОЧНОСТЬ

Для обеспечения доступности системы хранения на аппаратном уровне следует избегать появления точек общесистемного отказа (Single Points of Failure). В первую очередь это касается оснащенности компонентов. Бракованные вентиляторы и блоки питания, а также ошибки в главном устройстве хранения могут привести к незапланированным сбоям. Избыточное исполнение важнейших компонентов и, по возможности, автоматическое преодоление отказа (Failover) помогают исключить этот риск.

Дополнительно система резервного копирования должна оснащаться массивами RAID. Для обеспечения высокой доступности уровень RAID должен быть выше RAID 5, что особенно актуально в случае применения дисков SATA. Этот тип дисков достаточно выгоден и обладает большой емкостью, однако, в отличие от дисков FC, не так стабилен в работе. Поэтому имеет смысл реализовать, к примеру, RAID 6. Такие системы способны выдержать до двух одновременных отказов дисков в одной группе RAID до завершения восстановления.

МАСШТАБИРУЕМОСТЬ «НА ЛЕТУ»

Без расширения, обновления или замены компонентов в существующих системах не обойтись, однако должна быть возможность осуществления подобных действий без планового простоя. Для систем хранения масштабируемость «на лету», то есть без прерывания работы, является стандартом. Такие технологии виртуализации, как динамическое выделение емкости (Thin Provisioning), позволяют распределять дисковое пространство в зависимости от потребностей приложений, не оказывая влияния на текущее функционирование системы. Пороговые значения позволяют оптимизировать этот процесс, и сообщения вроде «нехватка места на диске», скорее всего, останутся в прошлом.

Дисковые корзины (disk shelf) заменяются так же быстро и расширяются без простоя. При особенно высоких требованиях к доступности система с двумя контроллерами хранения является простым и надежным методом для обновления аппаратного и программного обеспечения. Пока один контроллер обновляется, второй берет на себя обработку данных, и наоборот. Так можно расширять или заменять аппаратные компоненты, не отключая систему, и актуализировать программное обеспечение с минимальными перерывами в работе.

КЛАСТЕРЫ

На системном уровне кластеры — стандартная мера для обеспечения высокой доступности и отказоустойчивости. Максимальная защита обеспечивается в конфигурации, при которой контроллеры, данные и соединения дважды защищены. Как аппаратное, так и программное обеспечение высокодоступных кластеров должно быть лишено отдельных точек общесистемного отказа. Такие кластеры применяются, в первую очередь, в критических средах, где допускается лишь несколько минут простоя за год.

ВОССТАНОВЛЕНИЕ ПОСЛЕ СБОЕВ

По финансовым причинам предприятия часто относят к «абсолютно» критически важным инструментам лишь 5-10% своих приложений и только их интегрируют в решения восстановления после катастроф с синхронным тиражированием, которые обеспечивают максимальную степень защиты. Речь идет о наилучшей возможной защите. Категория «просто» критически важных приложений здесь во внимание не принимается, поэтому при сбое придется обращаться к резервным копиям. На это тратится ценное время (продолжительность зависит от приложения), особенно если перед импортом данных администратору необходимо запустить среду восстановления. Зачастую такая классификация не соответствует однажды установленным уровням доступности и показателям RPO. Если бы инфраструктура хранения отражала эти требования, то удалось бы добиться более высокой доступности.

Синхронное тиражирование позволяет противостоять локальным сбоям, обеспечивая пространственное разделение кластера между двумя ЦОД в одной территориальной среде или в одном населенном пункте (см. Рисунок 2). На рынке представлены решения, позволяющие комбинировать кластеры высокой доступности с преодолением отказа всего местоположения. Если продукт способен не только поддерживать приложения, претендующие на высокую доступность, но и справляется с менее требовательными задачами обеспечения защиты данных, то он подходит на роль комплексного решения с единым интерфейсом управления.

Чем больше расстояние между источником и целевой системой, тем настоятельнее рекомендуется использовать технологию асинхронного зеркалирования. Из-за задержки в кластере, составляющей несколько секунд, этот метод используется при RPO от одной минуты до одного дня и обеспечивает высокую отказоустойчивость приложений даже при серьезных системных сбоях. Благодаря асинхронному зеркалированию данных администратору удается осуществлять их тиражирование с первичного хранилища Fibre Channel на более дешевые диски SATA. Из-за больших расстояний система должна работать с технологией снимков (Snapshot), поскольку последняя предусматривает передачу по сети лишь инкрементальных изменений данных и позволяет экономить пропускную способность сети.

За исключением немногих критически важных для предприятия приложений, требующих наличия кластеров хранения как в первичном, так и во вторичном ЦОД, асинхронное зеркалирование данных — выгодное решение для большинства прило-жений.

ЗАКЛЮЧЕНИЕ

Высокая доступность приложений зависит от двух важных аспектов архитектуры хранения: с одной стороны, она должна вовремя распо-знать возникновение ошибок и системных сбоев и уметь предотвратить их благодаря саморегулирующимся процессам. С другой, она должна располагать быстрой и безотказной функцией оперативного восстановления после сбоев, которая гарантировала бы ограниченность нанесенного ущерба в случае допущенных ошибок или произошедших сбоев. Из-за огромного роста объемов данных имеет смысл выбирать решения, защищающие хранилища и приложения от сбоев, а также поддающиеся гибкой настройке при изменении условий.

Роберт Хазенштаб — менеджер отдела маркетинга компании Network Appliance.