Бизнес должен продолжаться

Непрерывность бизнеса реализуется на разных уровнях – от кластеризации, виртуализации и построения резервных ЦОД до резервного копирования и организационных методов. При этом, как и в случае человеческого здоровья, профилактика важнее аварийных мер.

В условиях кризиса, вопреки расхожему мнению, требования к непрерывности бизнеса не снижаются, а растут: возрастает ценность каждого клиента, а значит, и каждой операции в системе, которая помогает его обслуживать. От корпоративных систем и, следовательно, и от «железа», их поддерживающего, требуются большая надежность, отказоустойчивость, скорость.

«Единственным способом обеспечить надежную, стабильную работу всех сервисов являются облака и полный аутсорсинг ИТ-функций. Так достигается защита бизнеса от себя самого во время кризиса», – считает Иван Бирюков, директор департамента ИТ компании «Рольф». Подписанные контракты нельзя легко разорвать и быстро сократить, в отличие от собственных ресурсов. Было много примеров, когда в погоне за экономией сокращались команды, поддерживающие критичную инфраструктуру.

Автодилер «Рольф» известен как один из пионеров использования облачных сервисов в России. Выбрав стратегию полного аутсорсинга наиболее критичных элементов инфраструктуры, включая само оборудование и его обслуживание, в 2010 году компания перенесла все бизнес-системы в облако HP в Германии.

Бизнес должен продолжаться

Забота о поставщике

С точки зрения непрерывности бизнеса у аутсорсинга есть и плюсы, и минусы, но плюсов все же больше и они более весомы. Все риски, связанные с отказом оборудования или недоступностью ресурсов, берет на себя поставщик. Расчеты показывают, что затраты на содержание команды приемлемого качества сопоставимы со ставками внешних подрядчиков, ведь кроме заработной платы нужно учитывать обучение, мотивацию и пр. С другой стороны, возрастает зависимость от выбранного интегратора, поэтому при аутсорсинге основная работа – это управление взаимоотношениями с поставщиком.

Подписание официального договора об уровне обслуживания (Service Level Agreement, SLA) с нужными бизнесу показателями обойдется очень дорого. Ни один интегратор за разумные деньги не подпишет его. Поэтому приходится идти на смягчение формальных условий, фактически речь идет о джентльменском соглашении – провайдер из-за хороших отношений поддерживает качество на уровне выше оговоренного. Очевидно, что в такой ситуации нужно очень внимательно отслеживать лояльность поставщика услуг – его состояние и настроение, заботиться о его ресурсах, не допускать «перегибов» по цене, чтобы не сделать проект убыточным и не спровоцировать негативного эффекта.

Иван Бирюков, директор департамента ИТ компании «Рольф»:
«Нужно не только снижать число аварий, но и учиться быстро восстанавливать сервисы после них. Чтобы оптимально решить проблему, не обязательно сразу же кидаться устранять поломку. Переход на резервный сервис зачастую гораздо быстрее»

«Может быть, нам повезло с поставщиком, но я склонен думать, что это результат многолетнего кропотливого труда, – говорит Бирюков. – Моя работа заключается, в частности, в том, чтобы наш контракт был для поставщика прибыльным, иначе немедленно пострадают качество работ и отношения между компаниями. В НР относятся к нам как к партнеру, мы для них не менее важны, чем они для нас».

В 2015 году был проведен масштабный проект миграции бизнес-приложений в облако HP на российской площадке.

Сейчас это уже совсем другие облака, по сравнению с теми, что использовались пять лет назад. Были арендованы более мощные процессоры, что привело к ускорению работы систем на 20-40%, упростилась поддержка, время восстановления большинства систем в случае отказа удалось сократить до 7-9 минут. Еще одним плюсом смены площадки стало ускорение работы благодаря отказу от международного канала данных. Что касается экономии, то в рублевом эквиваленте она была почти двукратной.

Сервисы с резервом

Для обеспечения непрерывности процессов мало просто иметь надежный ЦОД и множество резервных серверов – нужно построить структуру, умеющую воплощать резервные схемы в жизнь. При этом применяется весь спектр технических и организационных решений, кроме резервного ЦОД, наличие которого в «Рольфе» не считают экономически эффективным при нынешней безопасности ЦОД уровня Tier III.

«Подход у нас простой: абсолютно все, что делают ИТ, осуществляется в рамках оказания бизнесу какой-либо услуги», – говорит Бирюков. Под «услугой» понимается работа какого-либо модуля ERP-системы, корпоративной почты, выход в Интернет, обслуживание пользовательской техники или доступ к сетевым дискам – все связанные с ИТ сервисы, используемые на местах. У каждой услуги в ИТ-департаменте есть владелец, отвечающий за ее оказание в полном объеме и отсутствие проблем с ней.

Недавно в компании был проведен глубокий технический аудит всех ИТ-систем, выявлены точки отказа и узкие места. По каждой проблеме либо были проведены работы по резервированию, либо проработан и оттестирован план скорейшего восстановления услуги (Disaster Recovery Plan, DRP).

В идеале у каждой услуги должен быть свой план восстановления в случае отказа. Одним из KPI владельцев услуг являются наличие и работоспособность такого плана, обкатанного хотя бы раз в тестовой среде. Пока он есть не везде, а лишь в местах наиболее частых отказов.

Основным критерием работы систем является абсолютно формальный KPI – частота аварий. Авария – это недоступность одного или нескольких процессов в рамках услуги на протяжении более 10 минут. Если таких процессов много, время сокращается до одной минуты или даже подразумевается мгновенная реакция. Важно вести учет всех аварий и следить, чтобы из каждой извлекались уроки.

Две основные причины аварий – это выпуск релизов бизнес-приложений и проблемы с каналами связи. Третья причина, которой не удается избежать, – человеческий фактор, причем в первую очередь в области инфраструктуры.

Нужно не только снижать число аварий, но и учиться быстро восстанавливать сервисы после них. Чтобы оптимально решить проблему, не обязательно сразу же кидаться устранять поломку; переход на резервный сервис зачастую гораздо быстрее

«Нужно не только снижать число аварий, но и учиться быстро восстанавливать сервисы после них. Чтобы оптимально решить проблему, не обязательно сразу же кидаться устранять поломку; переход на резервный сервис зачастую гораздо быстрее», – подчеркивает Бирюков. В компании есть четкий критерий: если спустя 15 минут после аварии неизвестен срок исправления неполадок, обязательно надо переходить на резервный сервис. По крайней мере, это дает предсказуемое время восстановления.

«Конечно, профилактика важнее аварийных мер по восстановлению услуги. К ней можно отнести и мониторинг всех важных параметров услуги, и регулярную “тонкую” настройку», – продолжает Бирюков. Проводя аналогию с автомобилем, можно сформулировать так: чтобы не доводить до вызова эвакуатора и долгого дорогостоящего ремонта, правильнее делать регулярное стандартное техобслуживание, не забывая иногда проверять и другие показатели. ИТ-отдел должен действовать так же – не допускать аварий, заниматься профилактикой. Система мониторинга ежедневно рассылает множество уведомлений о потенциальных проблемах – например, что заканчивается место на диске.

В качестве «последнего рубежа» обеспечения работоспособности систем используется решение для резервного копирования и восстановления данных HP Data Protector. Однако до его применения на практике уже много лет дело не доходит.

«Да, все данные с глубиной около месяца резервируются и сохраняются, а более старые на лентах отправляются в удаленный архив. Но ни разу за последние пять лет мы ничего не восстанавливали из бэкапа, такой вариант даже не рассматривался», – отмечает Бирюков. Причина проста: утраченные за последние сутки данные для бизнеса гораздо важнее, чем все остальные, вместе взятые. Это связано с тем, что большинство текущей работы по незакрытым сделкам находится в текущем дне, поэтому ни разу руководство не согласилось потерять самые свежие данные. Восстановление может потребоваться только в случае, если ошибка в системе привела к повреждению самих данных, неправильному их сохранению и нарушению внутренней целостности. Теоретически такое возможно, и потому от резервного копирования полностью отказываться не следует.

Выше договоров

«В настоящее время формальный SLA с руководством бизнеса существует, но он не отражает наших реальных обязательств перед пользователями, а поэтому мы его не придерживаемся, – признает Бирюков. – Фактически ожидания бизнеса от ИТ всегда выше, чем любой SLA. И даже выше, чем ИТ в принципе могут обеспечить». Приходится отталкиваться не столько от формальных показателей, сколько от обратной связи пользователей. Если по совокупности своих оценок ИТ-департамент видит необходимость инициировать проект, чтобы решить проблему, то идет с предложением к руководству.

«Никакого секрета нет: надо измерять эффект от каждого нововведения, повышающего отказоустойчивость или сокращающего время восстановления какой-либо услуги», – говорит Бирюков. Предполагаемые эффекты измеряются в сравнении со статистикой по трем основным показателям: количество отказов в год, время восстановления услуги в случае аварии и влияние отказа на пользователей. Третий показатель имеет коэффициенты для критичных бизнес-процессов.

На другой чаше весов лежат затраты. Окончательное решение о целесообразности инвестиции принимается совместно с заказчиком, на базе полноценного бизнес-кейса с описанием рисков, влияния и стоимости.

Во многих компаниях диалог с бизнесом строится на запугивании, иначе руководство не желает вкладывать хоть какие-то средства ни в безопасность, ни в непрерывность. «Единственный способ уйти от такого запугивания – это продумывать и продавать каждый проект не только как обязательную страховку на случай беды, но и как нововведение, несущее дополнительные плюсы для бизнеса», – предлагает Бирюков.

В каждом решении должны быть созданы, продуманы и просчитаны те преимущества, которые получит бизнес. Например, при закупке резервного сервера или канала данных надо сделать так, чтобы они использовались в штатной работе, приводили к ускорению работы пользователей. В нештатной же ситуации – в случае отказа основного сервера – новый поможет предотвратить инцидент.

Не быть якорем

Большие надежды с точки зрения как непрерывности бизнеса, так и его общей гибкости возлагаются на технологию виртуальных рабочих мест (Virtual Desktop Infrastructure, VDI), которая будет применяться во всех новых дилерских центрах, а затем и в масштабах всей компании. Сейчас такое решение прорабатывается совместно с IBS Platformix.

«Непозволительно много ресурсов тратится на поддержку парка компьютеров с уникальными конфигурациями. После внедрения VDI все пользователи перейдут на работу с тонкими клиентами, то есть со стандартным оборудованием», – делится Бирюков. Это обеспечит мобильность сотрудников в пределах дилерского центра, а в случае поломки оборудования позволит сократить время восстановления рабочего места до минимума – достаточно будет просто получить у администратора новый тонкий клиент. Не менее важно обеспечить сохранность пользовательских данных, а также выявлять утечки конфиденциальной и коммерческой информации.

Наконец, люди все меньше привязаны к своему рабочему месту. В идеале все сотрудники должны работать на планшетах, обеспечивая опрятность демонстрационных залов, чему уделяют все большее внимание автопроизводители. VDI – прямой путь к полной корпоративной мобильности.

Компания планирует экспансию, и ИТ-департамент хочет к моменту появления официальных планов по развитию уже иметь на столе согласованное решение по VDI, которое радикально ускорит развертывание ИТ в новых офисах. Бизнес очень динамичен: мелкие дилеры быстро выставляются на торги и очень быстро покупаются. Чем быстрее удастся развернуть у них свою инфраструктуру и начать получать прибыль, тем лучше. И ни в коем случае ИТ не должны в этом процессе быть сдерживающим фактором.