Качественная поддержка современной ИТ-инфраструктуры — многоплановый процесс, сложный для любой средней и уж тем более крупной компании. На этом пути необходимо преодолеть немало препятствий, чтобы достичь стабильно высоких результатов, но получается это далеко не у всех. Среди многих проблем выделяется одна — отсутствие целостного подхода к мониторингу ИТ-инфраструктуры. А между тем на основе такого подхода выстраивается вся система реагирования на инциденты и их предотвращения.

С этой проблемой постоянно сталкиваются большинство компаний независимо от их размера и сферы деятельности. Причем ее важность и даже наличие не всегда осознаются, поэтому борьба идет со следствиями, а не с причиной. Результат — нестабильность и низкое качество работы не только самой ИТ-инфраструктуры, но и ИС в целом. Более того, под угрозой оказываются основная деятельность, финансовое положение и репутация организации. К счастью, сегодня проблему можно не только идентифицировать, но и эффективно решить. Этому и посвящен данный материал.

Традиционный подход к мониторингу ИТ-инфраструктуры не соответствует ее сложности, изменчивости и степени влияния на работу всей организации. Это ставит под угрозу все уровни поддержки ИТ-инфраструктуры: от планирования (ошибки при выделении необходимых ресурсов, неадекватные затраты на отдельные сервисы и т. д.) до оперативной деятельности (долгое выяснение причин инцидентов и их неверная классификация, снижение уровня доступности сервисов, устранение последствий вместо определения причин, отсутствие проактивности).

Зачастую на сложившееся несоответствие начинают реагировать, когда оно уже принимает крайне болезненные формы, но даже в этом случае мало кто пытается решить проблему кардинально! Почему? И что можно сделать уже сегодня, чтобы все это осталось в прошлом? Ниже я постараюсь ответить на эти вопросы. Но сначала давайте разберемся, какие именно устаревшие идеи (стереотипы) не дают реализовать потенциал технологий мониторинга.

ЧЕТЫРЕ СТЕРЕОТИПА ОТНОСИТЕЛЬНО МОНИТОРИНГА

Мониторинг ИТ-инфраструктуры воспринимается как побочный, а не основной процесс. Он не продумывается и не планируется стратегически. В лучшем случае этот тонкий инструмент служит только для «латания дыр», причем исключительно на оперативном уровне (в итоге сложные или трудноопределимые ИТ-проблемы будут повторяться). Между тем система мониторинга способна предоставить достаточно точных и актуальных данных, чтобы можно было проактивно выявлять проблемы, дорого обходящиеся бизнесу, и предотвращать их.

Но даже если данные собираются в нужном объеме, их необходимо своевременно обрабатывать и анализировать. А этого как раз и не происходит. Загвоздка состоит в том, что развитие мониторинга ИТ — почти всегда непрофильный и дополнительный для владельца компании процесс, который обычно никак не планируется и не развивается. В результате система мониторинга устанавливается, но не дорабатывается и совсем не улучшается. А это не тот инструмент, который можно оставить без внимания.

Мониторинг ИТ-инфраструктуры затрагивает только технический контур. Поэтому обычно имеется лишь возможность оповещать ИТ-персонал об уже случившихся проблемах по почте или SMS, а также получать скудные статистические данные о нагрузке на оборудование и об использовании вычислительных ресурсов. Но даже эти потенциально ценные сведения, скорее всего, будут лежать мертвым грузом — ниже будет показано, почему.

Не хватает компетенций и экспертизы для правильной интерпретации собираемых данных. Даже внедрив довольно развитую и недешевую систему мониторинга (от HP, IBM или Microsoft), можно не получить желаемого результата из-за недостатка квалификации персонала. За аксиому принимается утверждение, что для работы с такими системами особых компетенций не требуется, но это в корне неверно. Нужно иметь специфический опыт, чтобы не просто «выхватывать» самые очевидные проблемы «верхнего уровня», а уметь выявлять их еще на этапе зарождения и своевременно предотвращать, пока они еще не повлияли на работу критичных бизнес-сервисов и не обернулись дорогостоящими (и постоянно повторяющимися!) сбоями и простоями, вводящими в ступор и ИТ-службу, и бизнес-подразделения.

В ИТ-службе, занятой одновременно и мониторингом, и устранением инцидентов и проблем, неизбежно наблюдается конфликт интересов. Такое положение дел складывается, когда за проведение мониторинга, выдачу рекомендаций и коррекцию ситуации отвечают одни и те же специалисты. Например, если ИТ-специалист должен гарантировать доступность CRM в течение 95% времени, то оповещение о проблеме «портит» ему статистику.

В итоге оповещение просто не зарегистрируют в системе, хотя проблему, возможно, устранят. Или более банальный, но не менее печальный пример: специалисту всего лишь «неохота» разбираться с обнаруженным инцидентом, особенно непродолжительным и не слишком заметным. Следовательно, ошибки будут повторяться и копиться, приводя к появлению слабых мест в инфраструктуре, а на их устранение будет требоваться все больше сил и средств.

Нештатные ситуации, возникающие в результате небрежности или влияния человеческого фактора, тоже зачастую остаются незарегистрированными. Все это может скрывать системные проблемы — причем не только в инфраструктуре, но и в самом процессе ИТ-поддержки (особенно в тех компаниях, где ИТ-служба вынуждена обслуживать большое число филиалов). Такие проблемы могут оставаться незамеченными до тех пор, пока мониторинг не станет окончательно бесполезным.

Эту ситуацию можно изменить путем внедрения не просто технической системы, а полноценного сервиса централизованного мониторинга и контроля (СЦМК).

Интерфейс сервиса централизованного мониторинга и контроля
Интерфейс сервиса централизованного мониторинга и контроля

 

СЕРВИС ЦЕНТРАЛИЗОВАННОГО МОНИТОРИНГА И КОНТРОЛЯ

СЦМК — это сервис, состоящий не только из технического, но и из экспертного контура, то есть он подкрепляется регулярно пополняемой базой знаний из экспертного центра и мощной экспертизой выделенной многопрофильной команды. Специалисты последней непрерывно анализируют поток данных, предоставляемых средствами мониторинга, и могут заблаговременно предупредить о проблемах, предложив способы их решения. Так что же принципиально меняется в этой надоевшей всем схеме?

Корпоративный заказчик получает готовый бизнес-процесс мониторинга и контроля состояния ИТ. Этот процесс достаточно просто и быстро (подключение и автоматическая настройка занимают всего несколько часов) адаптируется в соответствии с потребностями конкретной организации. Инкорпорированная внутрь процесса технология обкатана на сотнях корпоративных клиентов. Более того, в процессе задействуется такой объем компетенций и экспертизы, которым даже крупная компания почти наверняка не располагает (нанимать и удерживать в штате специалистов такого уровня слишком дорого, поскольку в одной организации не реализуется столько релевантных для их уровня проектов).

Начало сбора и накопления нужных данных не откладывается на неопределенный срок. Заказчику не придется рассматривать и согласовывать отдельный бюджет на закупку лицензий, долго внедрять продукт, собирать и обучать специалистов, так как при создании СЦМК ставка делается на использование собственных наработок и компонентов, функционирующих на базе свободного ПО. Вся настройка уже автоматизирована, за нее отвечают выделенные ИТ-менеджеры и специалисты.

Первые результаты можно получить уже через несколько дней или недель (многое зависит от масштаба компании, целей и задач бизнеса, а также от текущего состояния инфраструктуры). Большие затраты и неочевидные результаты просто исключены, причем независимо от того, подключается ли СЦМК время от времени (например, перед сезонными пиками продаж или для поддержки сложного и дорогого внедрения) или постоянно (для экономного регулярного ИТ-аудита инфраструктуры или части инфраструктуры, например региональной).

Процесс мониторинга и контроля ИТ все время актуализируется. Сервис автоматически и безошибочно обнаруживает новые объекты мониторинга. Он позволяет решить проблемы, которые только что проявились (вместе с внедрением новых ИТ-продуктов или угрозами ИБ), или закрыть те, которые решены и больше никогда не проявятся в инфраструктуре клиента.

Отчет о триггерах ИТ-инцидентов в Zabbix
Отчет о триггерах ИТ-инцидентов в Zabbix

 

Заказчик получает возможность более объективно регистрировать не только ИТ-инциденты (мгновенный и правильный результат), но и — по мере накопления данных — любую информацию об узких местах в серверном ландшафте (отложенный, стратегический результат). Кроме того, он получит всю информацию о самых проблемных ИТ-сервисах, на которые нужно обратить внимание в первую очередь. Все сведения собираются и объединяются опытными специалистами и экспертами, для которых эта деятельность является основной. Предложения, формируемые на основе полученной информации, позволяют более эффективно использовать имеющиеся средства и точнее планировать ИТ-бюджет.

Вместе с СЦМК заказчик получает готовую базу лучших практик. Несмотря на специфику, свойственную каждой компании, большинство имеющихся ИТ-сервисов построено на основе хорошо изученных и во многом стандартизированных решений, особенно если это типовые предложения вендоров или аутсорсеров, что позволяет консолидировать опыт, полученный при работе с разными организациями. В результате решение даже сложной, уникальной, с точки зрения клиента, проблемы окажется, скорее всего, уже глубоко проработанным. Иначе говоря, заказчик перестает быть «площадкой для экспериментов», он начинает пользоваться плодами опыта тех, кто подключил для него СЦМК — неважно, на постоянной основе или временно.

СЦМК ориентируется на недопущение проблем, а не на устранение уже возникших сбоев. Особенно, если речь идет о сбоях и простоях, вызванных некачественными или устаревшими архитектурными решениями. Такой подход позволяет минимизировать потери благодаря раннему обнаружению и исправлению потенциальных недостатков и проблем разной степени критичности еще до того момента, когда они могли бы нанести урон бизнесу.

СЦМК может быть не революционным, а дополнительным решением, поддерживающим и контролирующим работу внутренней ИТ-службы. Например, такой подход выгоден фармацевтическим или торгово-розничным компаниям, то есть тем отраслям, где финансовая ответственность бизнеса крайне высока и действуют глобальные ограничения, делающие невозможной или болезненной смену модели ИТ-поддержки. Для таких предприятий чрезвычайно важны двойной контроль качества работы ИТ, отсутствие конфликта интересов, грамотная техническая и организационная экспертиза, широкий диапазон знаний (за счет возможностей сильного экспертного центра).

СЦМК может стать временной страховкой для бизнеса. Если, например, не устраивает работа внутренней ИТ-службы или поставщика внешних ИТ-услуг, очень полезной может оказаться возможность опереться на плечи команды экспертов, которая уже знает все об инфраструктуре компании и в любой момент способна прийти на помощь.

Таким образом, встраивание СЦМК в фундамент организационно-технической системы поддержки ИТ-инфраструктуры организации не только позволяет за сравнительно небольшие деньги решить указанные выше проблемы, но и дает дополнительные преимущества: качественный, хорошо спланированный и грамотно реализованный процесс по поиску, правильному определению, классификации, регистрации и решению ИТ-проблем; необходимые технические и экспертные инструменты, гарантирующие результат, причем без создания зачастую неэффективных внутренних механизмов мониторинга и контроля ИТ.

Павел Рыцев, ИТ-директор, руководитель Центра компетенции по импортозамещению и Open Source в ALP Group