Большие Данные для управления ИТ

Инструментарий управления ИТ-инфраструктурой развивается уже более 20 лет, и сегодня соответствующим системам отводится важная роль в упорядочении сложности, которую неминуемо порождают разнообразные технологические компоненты, лежащие в основе практически любого крупного бизнеса. Контролировать работоспособность распределенной сетевой инфраструктуры, следить за состоянием серверов и систем хранения и автоматизировать рутинные операции управления ЦОД, обеспечивать доступность и надлежащую производительность бизнес-приложений, которые общаются с облаками и используют мобильные интерфейсы, — все эти и многие другие задачи реализуются системами управления ИТ. Однако насколько эффективно?

Ответ определяется многими факторами, но очевидно, что в крупных ИТ-инфраструктурах средства мониторинга и автоматизации управления генерируют и накапливают огромные массивы данных, потенциал которых по большей части остается нераскрыт. Разнообразные метрики состояния компонентов инфраструктуры, данные лог-файлов, информация о событиях и другая телеметрия от средств мониторинга и управления серверами, системами хранения, сетевой и мобильной инфраструктурами и приложениями поступают практически непрерывно и в очень больших количествах. В среднем инфраструктура из 5 тыс. серверов генерирует ежедневно около 1,3 Тбайт данных, из них 33 Гбайт — метрики и 1 Тбайт — неструктурированные данные, например записи лог-файлов. При этом корпоративная ИТ-инфраструктура становится все более динамичной и очень высока скорость изменений в среде, где приложения развертываются на базе виртуализованных серверных инфраструктур, изменяя свою топологию в реальном времени, а данные постоянно мигрируют между хостами, где по требованию подключаются облачные ресурсы, а доступ к приложениям пользователи получают с различных мобильных устройств в нужный им момент времени.

Основные признаки Больших Данных налицо. Системы ИТ-управления порождают огромные объемы и непрерывные потоки данных различной природы, что побудило даже ввести новый термин — Большие Операционные Данные (Big Operational Data), вместе с которым появилась и новая задача аналитики. Как и в случае Больших Данных из других областей, Большие Операционные Данные — это, преимущественно, «сырые» данные, для извлечения пользы из которых нужны развитые средства аналитики. Необходим аналитический инструментарий, который позволит агрегировать данные систем управления инфраструктурой в разных доменах, выявлять зависимости и корреляции, предсказывать сбои и падение производительности, давать информацию для оперативного и наиболее эффективного разрешения проблем, прогнозировать потребности информационных сервисов в различных ресурсах.

Руководителям разного уровня сегодня уже не обойтись без бизнес-аналитики как ключевого инструмента поддержки принятия решений, но оказывается, что и ИТ-менеджерам в не меньшей степени необходимы аналитические инструменты для поддержки оптимальных решений по восстановлению, обеспечению производительности и развитию инфраструктуры, а в конечном итоге — для лучшего понимания того, как ИТ-среда влияет на процессы предоставления сервисов бизнесу.

Ответом на эту потребность стал новый класс программных средств — IT Operations Analytics (ITOA). Рынок ITOA только зарождается, но, по оценкам аналитиков, будет развиваться очень активно. В конце 2013 года его объем превысил 800 млн долл., что вдвое больше прошлогоднего показателя, и такие темпы роста сохранятся и в 2014 году.

Рынок на старте

В конце 2012 года аналитики Forrester отмечали, что ландшафт рынка ИТ-аналитики типичен для активно формирующегося сегмента. Наиболее активны на нем небольшие компании, предлагающие инновационные решения в новой области: BlueStripe Software, Netuitive, Splunk, Boundary, Prelert и VMTurbo. Например, компания Netuitive реализует систему машинного обучения и прогнозной аналитики для задач управления производительностью приложений. В основе системы лежит собственная разработка компании, Behavior Learning Engine, реализованная на базе запатентованных аналитических технологий.

Поскольку оперативная ИТ-аналитика работает с метриками производительности инфраструктуры, в группу потенциальных игроков рынка ITOA аналитики Forrester включили известных разработчиков средств управления производительностью, таких как как NetScout, OPNET и SolarWinds. Все они уже имеют базовые аналитические инструменты, и от них можно ожидать реализации более сложных алгоритмов.

Новый рынок не может не привлекать ключевых игроков в области ИТ-управления. В результате приобретения других компаний на него уже вышли BMC Software, CA, EMC, VMware и Compuware. Компании IBM и HP сочетают внутренние разработки с покупками внешних технологий обработки и анализа Больших Данных. Обе в 2013 году сделали анонсы в области ITOA. Компания HP представила платформу HAVEn, объединившую продукты HP Autonomy, Vertica, ArcSight и Operations Management с технологиями Hadoop. Первым решением на базе HAVEn стала система HP Operations Analytics, реализующая средства аналитики данных ИТ-управления и безопасности и входящая в семейство решений HP BSM для управления бизнес-сервисами.

Корпорация IBM в ноябре 2013 года анонсировала инструментарий Predictive Insights для анализа данных лог-файлов, конфигураций, метрик производительности, данных различных систем мониторинга и управления производительностью приложений. В системе используются инструментарий аналитической платформы Cognos, средства предсказательной аналитики и машинного обучения SPSS, а также платформа обработки потоковых Больших Данных InfoSphere Streams.

Алгоритмы

Аналитики Forrester определяют операционную ИТ-аналитику как «использование математических алгоритмов и других методов для извлечения осмысленной информации из больших объемов сырых данных, собираемых с помощью технологий управления и мониторинга», отмечая, что эта формирующаяся область аналитических средств берет наработки и инструменты из бизнес-аналитики и других областей (геофизика, экономика, генетика), где давно существует развитый инструментарий анализа. Это связано с тем, что многие проблемы, порождаемые современными ИТ-системами, схожи с проблемами других областей, и потому для их решения можно использовать аналогичные математические подходы. Но есть и особенности, а главное — разнообразие аналитических потребностей в управлении ИТ-инфраструктурой настолько велико, что не может быть покрыто одним решением или универсальным алгоритмом. В конце 2012 года аналитики отмечали активизацию исследований и разработок в сфере ITOA, предсказывая, что в ближайшие годы это направление ИТ будет одним из самых интересных с точки зрения появления новых решений.

Можно выделить шесть типов аналитических алгоритмов, актуальных для оперативной ИТ-аналитики: корреляция событий; выявление топологических зависимостей; построение статистических шаблонов; построение текстовых шаблонов; анализ конфигураций; экономическое моделирование.

Инструментарий корреляции событий — наиболее зрелый вид операционной ИТ-аналитики. В том или ином виде эти алгоритмы изначально присутствовали в решениях для управления ИТ — уже первые системы мониторинга генерировали большие потоки данных о событиях в компонентах инфраструктуры, которые требовали фильтрации, поскольку значительная часть событий оказывалась несущественной. Средства корреляции событий обрабатывают потоки из множества источников, анализируют зависимости между данными и пытаются отделить ложные и незначительные события от тех, которые могут вызвать реальные проблемы инфраструктуры и потому требуют корректирующих воздействий.

Пережив бум в конце 90-х — начале 2000-х, средства корреляции событий во второй половине нулевых стали вызывать скептицизм у пользователей: по ряду причин завышенные ожидания не оправдались. Как правило, наиболее функциональными в предлагаемых решениях были средства корреляции событий сетевого мониторинга, а для других инфраструктурных доменов корреляция не демонстрировала достаточной эффективности. Не оправдались надежды на поддержку кросс-доменной корреляции путем фильтрации на базе зависимостей между событиями в разных областях инфраструктуры — здесь требовалась поддержка очень сложных моделей. Не появилась возможность корреляции событий и на уровне приложений. Кроме того, росла потребность в корреляции не только бинарных событий — «работает/не работает», но и более тонких градаций работоспособности компонентов. Фатальные сбои оборудования сегодня достаточно редки, но для эффективного управления ИТ-сервисами важна своевременная информация даже о небольшом падении производительности сервера или сетевой инфраструктуры. Однако традиционные алгоритмы корреляции продолжают анализировать доступность, а не производительность.

Все это является предпосылкой для развития аналитических инструментов корреляции событий нового поколения — анализ взаимосвязей происходящего в инфраструктуре является основой ITOA, тесно связанной с другими ее компонентами. Инструменты операционной ИТ-аналитики могут упорядочивать входные данные для корреляции, обрабатывая потоки сырых данных и создавая итоговое событие, или формировать определенный контекст, влияющий на модели корреляции, как это делают, например, программные средства отображения зависимостей между приложениями (Application Dependency Mapping, ADM).

Средства выявления топологических зависимостей строят визуальную карту взаимосвязей между компонентами инфраструктуры. Этот инструментарий, в частности, используется наиболее развитыми решениями по корреляции событий для более эффективной обработки поступающих данных. Анализ связей позволяет определить с той или иной долей вероятности узел инфраструктуры, ставший причиной проблемы. Системы могут предлагать различные уровни сложности топологического анализа, ограничиваясь построением карты физических межсетевых соединений или обеспечивая более полную картину логических взаимосвязей — между приложениями, между виртуальными и физическими серверами и т. д. Чем сложнее поддерживаемая топологическая модель, тем более изощренные понадобятся средства визуализации, способные отображать многомерные топологические карты.

Инструментарий топологического анализа уже получил распространение в средствах сетевого управления — например, в EMC IT Operations Intelligence и IBM Tivoli Network Manager. Появляются и поставщики, распространяющие возможности выявления топологических зависимостей на другие домены ИТ-инфраструктуры, — например, компания BlueStripe Software реализует такой инструментарий для анализа зависимостей между приложениями.

Если топологические зависимости не могут быть обнаружены явным образом или неоднозначны, на помощь приходят средства построения статистических шаблонов, определяющих корреляции метрик компонентов ИТ-инфраструктуры путем сравнения колебаний метрик и выявления схожих отклонений. Для компонентов с близкими шаблонами поведения предполагается наличие неявной зависимости. Базовые средства статистического анализа выявляют аномалии, сравнивая текущее состояние метрик с шаблонами «нормального» поведения, которые строятся на основе исторического анализа поведения компонента инфраструктуры (см. рисунок). Процессы построения статистических шаблонов могут потребовать сложной математической обработки и часто связаны с большой вычислительной нагрузкой. Пионерами статистического анализа в ИТ-управлении являются компании Netuitive, ProactiveNet (куплена BMC Software в 2007 году) и Integrien (куплена VMware в 2010 году).

Статистический анализ определяет шаблоны производительности компонентов ИТ-инфраструктуры

Еще одним аналитическим инструментом, применимым в задачах управления ИТ, является текстовая аналитика. Текстовые лог-файлы или журналы, протоколирующие все действия, происходящие с системой, могут стать ценным источником информации для средств управления, но для этого надо иметь возможность в непрерывном потоке записей выделять полезное и важное для понимания состояния инфраструктуры. Средства текстовой аналитики сканируют и анализируют текстовые файлы и строят шаблоны, которые могут использоваться для идентификации определенных условий и поведения систем. Наиболее известным примером подобных решений на рынке являются продукты компаний Splunk, SumoLogic, LogLogic (куплена Tibco) и Pattern Insight (куплена VMware).

Чем сложнее ИТ-среда, тем важнее для предоставления работоспособного, надежного ИТ-сервиса становится анализ конфигураций. Конфигурационные единицы — базовые блоки сервиса: серверы, сетевые компоненты, базы данных и приложения. В ходе анализа конфигураций проверяются конфигурационные данные на соответствие заданным политикам в отношении ИТ-сервисов и составляющих их компонентов инфраструктуры, выявляются системы и сервисы, не соответствующие стандартным конфигурациям.

Новая для ИТ-управления область аналитики — экономические модели — предлагает инструменты оценки факторов «спроса и предложения» для построения оптимальных моделей использования ресурсов ИТ-инфраструктуры, задействованных в реализации определенных сервисов. По оценке Forrester, первой с такой функциональностью на рынок вышла компания VMTurbo в 2009 году. Сейчас экономические модели используются преимущественно для виртуализованной инфраструктуры, но аналитики рассчитывают на то, что в скором времени эти модели станут востребованы в задачах планирования ресурсов облачных сервисов, сетевой маршрутизации и высокопроизводительных вычислений.

Интеллект для управления сервисами

Задачи оперативной ИТ-аналитики охватывают три основных направления. Во-первых, это получение детального представления о текущем состоянии ИТ-инфраструктуры, выявление шаблонов использования и поведения ее различных компонентов. Этот круг вопросов иногда обозначают как аналитика доступности (availability analytics). Следующим по уровню сложности является проактивный анализ, который позволяет заблаговременно выявить возможные проблемы, например за час до возможного сбоя. Для этого типа аналитических задач можно встретить обозначение — аналитика производительности (performance analytics) ИТ-среды. Третий уровень ИТ-аналитики — предсказательный — обеспечивает прогноз событий и потребностей в ресурсах инфраструктуры на срок от дней и недель до года. Аналитические задачи этого типа иногда обобщают термином аналитика мощностей (capacity analytics).

Наибольший эффект от применения ITOA можно получить, если поставить анализ в контекст ИТ-сервисов, а не отдельных компонентов инфраструктуры. Такие решения могут обеспечить серьезную интеллектуальную поддержку эффективной реализации процессов управления ИТ-сервисами, в особенности, если будут интегрированы с системами автоматизации ITSM. Средства ИТ-аналитики помогают получить общую картину использования сервиса, обрабатывая данные о поведении конечных пользователей, включая их доступ с различных типов устройств и выполнение бизнес-транзакций. С помощью аналитического инструментария можно повысить оперативность реакции ИТ-службы на проблемы и инциденты — анализ всех событий и изменений конфигураций, произошедших в инфраструктуре с момента, когда все работало нормально, позволяет быстро выявлять корневые причины сбоев и значительно сокращать среднее время восстановления. Имея модели зависимости сервисов от компонентов инфраструктуры, построенные на основе базы данных управления конфигурациями и данных мониторинга в реальном времени, ITOA может идентифицировать, какие сервисы оказываются затронуты тем или иным сбоем, предоставляя ИТ-службе возможность расставлять приоритеты в своей работе.

Следующим шагом становится предупреждение проблем с помощью аналитики изучения поведения (behavior learning analytics), которая собирает метрики производительности со всех компонентов «экосистемы» сервиса, «обучается» нормальному поведению сервиса и дает сигнал о возникновении возможных отклонений от нормы.

Большое значение аналитика приобретает в процессах управления изменениями, предоставляя возможность на основе метрик производительности, анализа конфигураций и модели сервиса быстро и исчерпывающе оценить последствия внесения изменения в компоненты инфраструктуры для сервиса в целом.

Переходя к более сложной предсказательной аналитике, ИТ-менеджеры получают возможность оптимизировать использование ресурсов инфраструктуры в рамках реализации определенных сервисов. Недостаточность мощностей приводит к перегрузке используемых платформ, снижению производительности приложений и проблемам в обеспечении заданного уровня сервисов. С другой стороны, непродуманное приобретение избыточных ресурсов выливается в лишние расходы. Предсказательная аналитика помогает избежать таких проблем — соответствующий инструментарий позволяет строить сценарии «что-если» на основе анализа текущих и исторических трендов использования компонентов инфраструктуры и дает возможность загодя планировать потребности инфраструктуры и сервисов в ресурсах, оценивая вероятность успеха внесения различных изменений в ИТ-среду.

Советы администратору

Администраторы корпоративных сетей имеют дело с огромным объемом данных о трафике, каналах связи и сетевых устройствах, собираемых стандартными системами управления с различных датчиков, а также получаемых от программного обеспечения сетевого уровня на клиентском и серверном оборудовании. Извлечь из этого гигантского пула данных осмысленную информацию, полезную для решения текущих задач управления доступностью, конфигурациями, производительностью и безопасностью сетевой инфраструктуры, помогают инструменты анализа Больших Данных.

Прежде всего необходимо выстроить четкую временную шкалу сетевых событий, с которой должны быть соотнесены все элементы пула данных сетевого мониторинга. Только при условии такой синхронизации удастся получить правильный контекст анализа происходящего в сети, где непрерывно происходит изменение условий и взаиморасположения событий. На полученную ось времени можно отображать проблемы, возникающие в сети, и выполнять корреляцию между проблемными точками и метриками, собранными за определенный период, предшествующий появлению инцидента. Эта оценка имеет колоссальное значение для определения корневых причин сетевых сбоев — инструменты анализа Больших Данных позволяют находить корреляции миллионов элементов данных с проблемными точками и затем анализировать их на предмет выявления причины нарушений в работе.

Ключевое направление использования Больших Данных в сетевом мониторинге — определение базовых нормальных условий работы сети. Точное сопоставление проблемных точек со всеми сетевыми данными на временной шкале позволяет выявить промежутки, когда проблем нет вообще. Анализ данных, собранных в такие благоприятные периоды, позволит администратору квалифицировать в терминах собранных данных условия штатного поведения сети. Эти базовые нормальные условия могут использоваться при анализе периодов работы сети, когда явных проблем нет, но сеть работает нестабильно.

Пристального внимания может потребовать ситуация, когда аналитика выявляет поведение сети, явно близкое к проблемному, но при этом сигналов о сбоях от оборудования не поступает. Аналитические инструменты в этом случае помогут понять, что мешает проблеме реально проявить себя, и предложить способы восстановления полностью нормальных условий.

Важно исследовать влияние событий, происходящих с сетевым оборудованием, приложениями, серверами и пользовательским трафиком — на любое существенное изменение в состоянии этих ресурсов сеть должна реагировать предсказуемо. Например, значительный рост трафика от приложения должен привести к заметному увеличению времени отклика, более частой потере передаваемых пакетов и другим проблемам. Если подобное происходит, но не связано с увеличением трафика, то можно сделать вывод о перегрузке сети. И наоборот, если существенный рост трафика не имеет выраженных последствий, это может свидетельствовать об избыточности сетевых мощностей. И в том и в другом случае анализ может стать базой для принятия решений об оптимизации расходов на инфраструктуру.

***

Сотрудники ИТ-служб и ИТ-менеджеры всегда в той или иной форме пытались решать аналитические задачи для оптимизации управления инфраструктурой и сервисами. Современный уровень сложности ИТ-сред уже не оставляет места ручному управлению — новое поколение средств ITOA обещает справиться с проблемами обработки постоянно растущих объемов разнородных и изменчивых данных, поступающих из всех доменов инфраструктуры, и позволит построить точную картину состояния и развития ИТ-сервисов.

Наталья Дубова (osmag@osp.ru) — научный редактор, «Открытые системы.СУБД» (Москва).