Обеспечение непрерывности бизнеса как управляемая услуга

Объяснять важность обеспечения непрерывности бизнеса и постоянной доступности сервисов в ходе происходящей цифровой трансформации вряд ли имеет смысл. Понимание проблемы, как гласит народная мудрость, –— это уже половина решения, однако нужно сделать и оставшийся шаг. И вот здесь возникают сложности ввиду элементарной нехватки ресурсов — финансовых, человеческих, временных...

Несмотря на то что современные центры обработки данных проектировались в расчете на обеспечение высокого уровня отказоустойчивости, от неприятных инцидентов никто не застрахован. К тому же, например, от финансовых организаций на нормативном уровне требуется наличие комплексного плана по обеспечению непрерывности бизнеса.

Как результат, со стороны рынка возникает спрос на создание резервной площадки по модели аутсорсинга. Для его реализации компании могут пойти разными путями. Один из них — создание такой резервной инфраструктуры в форме управляемого сервиса «Защита от сбоев ИТ-инфраструктуры», который предлагает «КРОК» на базе собственной сети отказоустойчивых дата-центров.

Обеспечение непрерывности бизнеса как управляемая услуга

Павел Горюнов, технический директор сети дата-центров «КРОК»: В рамках управляемого сервиса мы создали катастрофоустойчивую платформу для международной компании AVON. Устойчивая к сбоям инфраструктура организована на базе двух аутсорсинговых территориально распределенных дата-центров уровня Tier 3. В частности, она обеспечивает непрерывную работу онлайн-магазина для конечных покупателей, портала для представителей AVON, системы управления заказами, включая модули отчетности и биллинг представительства AVON в России.

ВОССТАНОВЛЕНИЕ ПОСЛЕ АВАРИЙ КАК УПРАВЛЯЕМАЯ УСЛУГА

Управляемые услуги включают в себя набор сервисов, направленных на обеспечение работоспособности информационных систем. В зависимости от решаемой задачи, состав таких услуг может отличаться и предусматривать разный уровень обслуживания и обеспечения доступности ИТ-инфраструктуры. Управляемый сервис позволяет заказчику избавиться от забот по обслуживанию ИТ-систем и необходимости держать для этого в штате специалистов и в итоге снизить капитальные и операционные затраты, в том числе на обучение и сертификацию таких специалистов.

Чем управляемая услуга отличается от услуг, скажем, по обслуживанию программного и аппаратного обеспечения? «Характерное отличие управляемых услуг — это комплекс мероприятий, направленный на решение конкретной бизнес-задачи, — объясняет Павел Горюнов, технический директор сети дата-центров «КРОК». — Данный комплекс мероприятий может включать в себя услуги по техническому сопровождению аппаратного и программного обеспечения, при котором все задачи по управлению инфраструктурой передаются провайдеру, а оплата за потребляемые услуги происходит по факту их использования».

В случае восстановления после аварий управляемая услуга выглядит следующим образом. DR-план включает в себя реализацию механизмов, позволяющих переключать нагрузку с основного в резервный ЦОД. Необходимый для принятия нагрузки программно-аппаратный комплекс заранее подготавливается, проверяется на отказоустойчивость, подвергается нагрузочному тестированию, обслуживается и т. д. Таких образом, управляемая услуга по восстановлению после аварии предусматривает реализацию и поддержание всех мер и средств, позволяющих добиться требуемой степени отказоустойчивости ИТ-сервиса.

За все подобные операции отвечают специалисты «КРОК». В этом случае заказчику не приходится беспокоиться о наличии необходимых компетенций у своих специалистов — в частности, о знании ими программного обеспечения, с помощью которого осуществляется переключение в моменты аварии. ИТ-специалистам заказчика не придется заботиться и о готовности площадки, о проведении ежеквартальных проверок, мониторинге состояния инфраструктуры и так далее — все это уже есть в составе управляемой услуги.

ЕСТЬ ЛИ У ВАС ПЛАН?

Любой проект по обеспечению непрерывности бизнеса и восстановления после аварий предполагает обязательный аудит всех существующих систем независимо от их масштаба. После комплексного анализа всех бизнес-систем организации выделяются наиболее критичные и для каждой формулируются требуемые условия доступности и отказоустойчивости. Затем прорабатывается отдельно план восстановления (Disaster Recovery Plan, DRP) наряду с планом по тестированию. В первую очередь в таких планах заинтересованы банки, где их наличие предписано требованиями ЦБ. «Для «Банка Интеза», дочернего банка итальянской банковской группы «Интеза Санпаоло», мы создали резервный ЦОД на базе сети дата-центров «КРОК», — рассказывает Павел Горюнов. — В ходе проекта мы спроектировали надежный комплекс с учетом индивидуальных требований заказчика по отказоустойчивости, поставили и смонтировали необходимые системы, синхронизировали РЦОД с другими дата-центрами банка, в том числе в Италии».

Поэтапно процедура составления плана выглядит следующим образом: формируется список систем, выясняется уровень их критичности, устанавливается требуемый уровень доступности каждой из них, идентифицируются механизмы, которые нужны для обеспечения этой доступности, и в завершение эти механизмы тестируются. И все эти мероприятия учитываются в плане восстановления после аварии.

В случае критичных для бизнеса систем переключение между основным и резервным ЦОД может производиться без простоя таким образом, чтобы конечные пользователи ИТ-сервисов даже не почувствовали, что они работают с программным обеспечением, которое запущено в резервном ЦОД. Это предполагает реализация архитектуры высокой доступности, когда основная и резервная площадки работают в активном режиме (active-active) и в случае недоступности одной из площадок ее нагрузку сразу может взять на себя вторая.

Целевое время восстановления зависит от конкретных бизнес-требований. Схема active-active позволяет обеспечить мгновенное переключение, но это необходимо далеко не всегда — зачастую бывает достаточно, если резервный ЦОД можно запустить в течение часа-двух (схема active-standby). Для этого на резервной площадке должны иметься полные слепки всех информационных систем с актуальными копиями данных. В случае необходимости восстановления целиком всей инфраструктуры, эти хранимые «золотые копии» извлекаются и с их помощью запускаются необходимые системы, на что требуется определенное время.

Задача обеспечения актуальности данных решается за счет дополнительных сервисов — например, с помощью периодического резервного копирования. Само по себе оно может рассматриваться как резервный ЦОД в минимальном варианте, когда время восстановления не столь важно — главное, избежать полной потери бизнеса в результате утери данных.

РЕЗЕРВНЫЙ ЦОД В ОБЛАКЕ

Для реализации резервного ЦОД необязательно создавать полную или уменьшенную копию основного ЦОД «в железе». Решение по обеспечению катастрофоустойчивости и высокой доступности (High Availability, HA) можно развернуть на облачных платформах «КРОК». Облако построено на базе сети распределенных дата-центров, что позволяет добиться высокой отказоустойчивости размещаемой ИТ-инфраструктуры. К тому же за счет использования облачных ресурсов можно существенно повысить экономическую эффективность резервного дата-центра.

Заказчику услуги облачного резервного ЦОД не придется дублировать вычислительные мощности и приобретать дополнительные лицензии на программное обеспечение. Облачные ресурсы можно будет динамически наращивать и урезать — их не надо заранее резервировать в полном объеме. Когда происходит сбой, необходимое количество ресурсов запускается в облаке, при этом ресурсы и сервисы тарифицируются в почасовом режиме — предоставляются по схеме pay-as-you-use, то есть оплата производится по факту.

В случае использования облачной платформы для развертывания резервного ЦОД (Disaster Recovery as a Service, DRaaS) заказчику соответствующей услуги важно быть уверенным в достаточности вычислительных ресурсов для запуска информационных систем. Команда специалистов «КРОК» отслеживает как общую загрузку облачной платформы, так и загрузку компонентов инфраструктуры, на которой она базируется, — серверного оборудования, систем хранения данных, каналообразующего оборудования и так далее.

Если система мониторинга показывает, что загрузка приближается к критичным значениям, то есть заказчики не смогут запустить оговоренное количество виртуальных машин, то вычислительные ресурсы, на которых развернуто облако, своевременно масштабируются. Для облачной платформы «КРОК» зарезервированы дополнительные мощности ЦОД, так что при необходимости их всегда можно нарастить.

УЧЕБНАЯ ТРЕВОГА

План восстановления после аварии в обязательном порядке включает в себя процедуру тестирования, в рамках которой производится переключение на резервную площадку. Такие «учебные тревоги» осуществляются регулярно с периодичностью раз в квартал или раз в год. Они могут отличаться по своему масштабу, когда проверяется корректность перевода в резервный ЦОД только части или всех систем, но тестирование должно проводиться обязательно.

Проверка может производиться как силами специалистов заказчика (если они к этому готовы технически), так и силами специалистов «КРОК». Как показывает практика, специалисты, которые разрабатывали план восстановления, несут ответственность и за его реализацию. В случае управляемой услуги DR, «КРОК» отвечает не только за подготовку плана, но и за программные и аппаратные решения по восстановлению после аварии. Поэтому, как правило, специалисты «КРОК» берут на себя ответственность в том числе и за проведение подобных тестирований.

Заказчику предоставляются подробные результаты тестирования в понятных метриках: какое время потребуется на переключение, какие нагрузки были выдержаны, справилась ли резервная площадка с пиковой нагрузкой. А устанавливаемая под заказчика система мониторинга позволяет ему проконтролировать результаты тестирования самостоятельно. Таким образом, заказчик может подтвердить состоятельность спроектированного плана восстановления после аварий и обеспечение непрерывности работы бизнеса.

Это позволяет бизнесу быть уверенным в том, что информационные системы будут доступны даже при критической аварии.

КОНТРОЛЬ НА ВХОДЕ В СТОЙКУ

Чтобы обеспечить бесперебойное и надежное функционирование ИТ-оборудования, в центрах обработки данных необходимо соблюдать соответствующие требования к подаче энергопитания и охлаждения. Особое внимание уделяется отказоустойчивости системы охлаждения, функционирование которой определяется достаточно жесткими параметрами по температуре и влажности на входе в стойку, куда устанавливаются серверы и СХД.

Для контроля температурно-влажностных параметров во всех ЦОД «КРОК» была реализована комплексная система контроля состояния микроклимата в ЦОД собственной разработки на базе беспроводных датчиков температуры и влажности. Как поясняет Павел Горюнов, хотя на рынке имеются похожие решения для мониторинга, они не устраивали компанию с точки зрения их гибкости и ценообразования. За полгода были созданы собственные датчики, причем большая часть времени ушла на метрологические и нагрузочные испытания для достижения требуемой точности измерений.

Датчики разрабатывались с целью обеспечения точечного, а соответственно, и более точного контроля параметров на входе в стойку. Мониторинг таких параметров в ЦОД требует наличия достаточно обширной системы коммуникаций, которые в том числе необходимо проводить на стойках или внутри стоек заказчиков, что по соображениям безопасности не всегда возможно. Между тем «КРОК» как оператору ЦОД важно обеспечить качественное энергоснабжение и охлаждение стоек в соответствии с заключенными соглашениями об уровне сервиса услуг ЦОД (Service Level Agreement, SLA). Решение на базе разработанных датчиков позволяет гибко решить вопрос с охлаждением.

Решение для мониторинга микроклимата в ЦОД — это не только датчики, но и целый комплекс, направленный на контроль состояния воздуха в помещении. Сами датчики беспроводные, они подключаются к базе, которая собирает от них данные и обрабатывает их в облаке «КРОК» на базе специально разработанной IoT-платформы. Помимо аппаратной части, специалисты «Крок» разработали и программное обеспечение для сбора данных датчиков, агрегации собранных данных и их передачи в систему мониторинга. К разработанной системе могут подключаться и другие датчики, так что она может применяться и для контроля состояния других объектов, а не только ЦОД — см. врезку «Экономия с помощью системы мониторинга микроклимата в ЦОД «КРОК»». А доступ к услуге может быть реализован также и по модели управляемого сервиса.

Благодаря тому, что датчики беспроводные, для их подключения не надо прокладывать кабели. Отсутствие привязки к физическим соединениям позволяет легко масштабировать инсталляцию — достаточно просто прикрепить датчики на магните к стойке и установить необходимое количество баз для их подключения. Передача осуществляется в частотном диапазоне, обеспечивающем высокую дальность радиосвязи.

Датчики имеют компактный форм-фактор — всего 7 см в высоту. Они могут без проблем работать в автономном режиме от установленнных батарей более двух лет. Если датчик перестает передавать показатели, то его меняют. В ЗИПе всегда хранится достаточное для замены количество комплектующих — датчиков и батареек к ним.

ДУШЕВНОЕ СПОКОЙСТВИЕ

Управляемые сервисы отличаются от других видов продуктов и сервисов тем, что заказчик получает не просто решение — он по сути приобретает отлаженный бизнес-процесс. Вместе с тем, чтобы быть полностью спокойным за получаемый сервис, заказчику необходима уверенность в его надежности.

Компания «КРОК» располагает сетью центров обработки данных, надежность которых подтверждается их безостановочной работой с момента ввода в эксплуатацию на протяжении вот уже пяти лет. Кроме того, ЦОД «Компрессор», на базе которого предоставляется услуги DR, cертифицирован Uptime Institute на соответствие уровню Tier III, в том числе по стандартам Constructed Facility и Operational Sustainability уровня Gold.

Экономия с помощью решения для мониторинга микроклимата в ЦОД на основе Интернета вещей

Вентиляционное оборудование и системы кондиционирования — достаточно «прожорливое» оборудование в смысле электропотребления, так что на него приходится достаточно крупная доля затрат в расходах на эксплуатацию ЦОД (и не только ЦОД). Знание параметров температуры и влажности на входе в каждую стойку позволяет более точно оценить состояние охлаждения по всему машинному залу и в дальнейшем принимать решение по корректировке работы системы кондиционирования для достижения оптимальных параметров. В конечном счете это помогает обеспечивать оптимальный микроклимат в машинных залах и поддерживать непрерывную работу ИТ-приложений.

«КРОК» предлагает услугу по аудиту серверных помещений и центров обработки данных. Установив подобные комплексы мониторинга в помещении заказчика, специалисты компании могут сделать вывод о том, какие из установок, обеспечивающих охлаждение помещения, неэффективны.

Видя фактическую картину и зная релевантные параметры, можно скорректировать работу оборудования и тем самым снизить потребление электроэнергии, например, когда холодопроизводительность избыточна. При достаточном охлаждении в конкретных зонах можно перевести часть оборудования в резерв. Таким образом, оборудование не будет работать вхолостую, а затраты на его эксплуатацию и обслуживание снизятся.

Экономический эффект состоит в том, что благодаря поддержанию надлежащего микроклимата удается избежать перегрева оборудования, что чревато его преждевременным выходом из строя. Когда температура и влажность постоянно находятся в пределах, установленных их производителем, средний срок службы серверов и другого ИТ-оборудования увеличивается, что позволяет реже его менять.