Все больше компаний сегодня применяют развивающиеся инструменты исследования больших данных, чтобы инициировать переход на новый цифровой технологический уклад в коммуникациях, принятии решений, оценке ситуации и сопровождении бизнес-процессов. Особые надежды возлагаются на математические методы и алгоритмы искусственного интеллекта, в ряде случаев позволяющие понять, как можно усовершенствовать бизнес-процессы, сократить издержки или получить дополнительную прибыль. В этом ряду машинное обучение зачастую принимается за «серебряную пулю» для достижения заявленных бизнес-целей — промышленные предприятия заинтересованно присматриваются к подобным методам и активно инициируют пилотные проекты, которые, однако, нередко оказываются весьма ограниченными, несут большие риски и оказываются провальными. Как же довести такие проекты до победного завершения?

Современное промышленное производство обычно предполагает наличие автоматизированного технологического процесса и бизнес-процессов, за которыми стоят такие важные экономические показатели предприятия, как: затраты на единицу выпускаемой товарной продукции; издержки, связанные с браком, поломками, простоями оборудования, доставкой и хранением как сырья, так и продукции; производительность и общая эффективность использования оборудования. Непрерывные улучшения, действия на основе анализа фактических данных предприятия проходят сквозь многие известные концепции и методологии менеджмента: «шесть сигм» (six sigma), кайдзен, бережливое производство (lean manufacturing) и др., однако, несмотря на глубину проработки, эти и аналогичные методологии опираются при обработке данных на базовый статистический анализ, как правило, связанный с небольшими выборками. В этой связи машинное обучение выглядит мощным инструментом, дополняющим классические подходы к оптимизации производства.

Можно перечислить наиболее распространенные типы проектов на базе технологий машинного обучения, нацеленных на получение промышленным предприятием дополнительной выручки или на сокращение издержек:

  • повышение производительности технологического процесса за счет подбора оптимальных режимов работы оборудования, загрузок сырья и т. д.;
  • повышение качества продукции путем выявления критических факторов в производственном процессе, влияющих на конечный результат;
  • оптимизация технологического обслуживания и ремонта (ТОиР) дорогостоящего производственного оборудования, прогноз поломок и деградации оборудования;
  • оптимизация расходов на испытание продукции посредством цифровой модели изделий и виртуальных датчиков;
  • управление ценообразованием и цепочками поставок — оптимизация и прогнозирование по процессам закупок, доставки, хранения, спроса и предложения;
  • комплексное улучшение производственных показателей за счет выявления латентных факторов, влияющих на производственные процессы, и применения моделирования ситуаций в цифровых средах.

При выполнении любого из этих проектов следует учитывать нюансы, с которыми неизбежно столкнется предприятие, а также основные факторы, определяющие успех проектов машинного обучения (см. рисунок).

Факторы успеха проектов машинного обучения

Понимание бизнеса: постановка задачи и целеполагание. Представим, что у предприятия возникает идея применить инструменты анализа данных и моделирования на базе алгоритмов машинного обучения, чтобы получить дополнительную прибыль за счет увеличения объема выпускаемой продукции. Предприятие выступает «заказчиком» проекта, который помог бы улучшить производительность «Установки А», так как по ней в систему АСУ ТП в большом объеме поступают различные данные: история с журналами и отчетами операторов, технические регламенты, описывающие технологический процесс, и т. д. Однако, для этой установки отсутствуют готовые математические модели улучшения процесса, а также имеются неизвестные факторы, каким-то образом влияющие на процесс.

Итак, есть проблема, не решаемая очевидным способом; есть набор накопленных за несколько лет данных, собираемых автоматизированно; есть неизвестные причины деградации производительности; имеется персонал, знакомый с установкой и готовый работать над улучшением технологического процесса; есть понимание «потолка» улучшения и невозможности его достижения традиционными методами, например путем анализа технологом логики процесса или с помощью переналадки оборудования.

Исполнитель такого проекта должен в первую очередь совместно с заказчиком согласовать максимально точную формулировку задачи, которую можно выразить в виде целевой функции. Часто первоначальная постановка неточная, слишком общая, не имеет экономического обоснования и методики измерения результатов, для нее нет описания функционального назначения модели и преимуществ использования решения для конечного пользователя. Уточнение задачи позволяет определиться с показателем, который даст наибольший прирост прибыли в случае успешной оптимизации. Целевая метрика должна быть измерима и достижима на имеющихся данных, должна учитывать особенности и ограничения текущего технологического процесса.

Тщательная работа на данном этапе — это половина успеха проекта, однако особенности работы с большими данными (погрешности измерений, пределы точности модели, выбросы или калибровки, оптимальная частота выгрузки данных и пр.) таковы, что даже тщательная проработка формулировки задачи не избавляет от возможности сменить ее в процессе работы над проектом или изменить целевую метрику. Например, анализ погрешностей измерений показал невозможность достижения цели проекта в первоначальной постановке задачи, но в то же время изучение данных и предварительное моделирование указывают, что важно не абсолютное значение показателя на выходе модели, а точное описание функции поведения процесса — важно, например, где сейчас находится оператор и какой режим работы оборудования ему необходимо выбрать. К этому надо быть готовым. Чтобы минимизировать вероятность смены цели проекта, рекомендуется запускать предварительный этап исследования с анализом данных, постановки задачи и составления подробного технического задания.

Изучение данных и прототипирование. Классическим языком статистической обработки данных традиционно считался R, хотя сегодня набирает популярность Python ввиду удобства разработки, наглядности кода, доступности библиотек. В каждом конкретном случае стоит ориентироваться на существующую ИТ-инфраструктуру, стоимость интеграции с ней и особенности данных. Бытует заблуждение относительно того, что, применяя методы машинного обучения, можно не погружаться в предметную область решаемой задачи, однако на практике все выглядит несколько иначе. Для успеха проекта необходимо на его ранней стадии провести проверку гипотез, что невозможно сделать без понимания специфики данных: того, как они измеряются и используются, где границы достоверности измерений и т. п. Для качественной очистки и обработки набора данных важно понимать погрешности измерений, пределы точности модели, правильно распознавать выбросы или калибровки, оптимально подбирать частоту выгрузки данных.

Для максимально быстрого погружения в исследуемую область специалистам по исследованию данных и разработчикам моделей требуется не только провести анализ технологического регламента, нормативов, аварийных сигнализаций, но и изучить опыт других предприятий данной отрасли, проанализировать различные источники научной литературы. Ускорить этот процесс поможет, например, предлагаемая компанией Visiology аналитическая платформа (см. врезку), призванная интегрировать подгружаемые данные, документацию, мнемосхемы для создания актуальной базы знаний моделируемого процесса.

Регулярная работа на объекте. Слаженность и сплоченность коллектива при работе над проектом — залог его успеха. Часто проект реализуется совокупной командой заказчика и исполнителя, где первый предоставляет инженеров-технологов, операторов, отраслевых экспертов — людей с производства, практиков, а второй — программистов, математиков, исследователей данных. Здесь важно выстраивать коммуникацию между всеми участниками команды, в которую входят специалисты, рассматривающие объект с разных точек зрения. Регулярное посещение подрядчиком площадки, общение с представителями производства, различные опросы с целью выявления функциональных потребностей и особенностей, скрытых знаний о технологическом процессе, а также регулярная отчетность, разъяснения, в каком виде и как будет работать модель, участие в экспериментах — все это создает атмосферу вовлеченности конечных пользователей в процесс создания решения, повышает ответственность за конечный результат и гарантирует, что разработанная модель будет использоваться.

Платформа промышленной аналитики

Для анализа больших объемов потоковых данных, поступающих от сенсоров промышленных устройств, требуются масштабируемые инструменты агрегации, предварительной обработки, построенные на базе современных средств программирования, включая языки R и Python, а также системы мониторинга и визуализации. Аналитическая платформа Visiology позволяет интегрировать данные из разных источников и выполнять их анализ для формирования консолидированных рекомендаций, позволяющих принимать взвешенные решения на всех уровнях управления. Операторы и руководители имеют возможность в реальном времени осуществлять мониторинг ключевых показателей промышленных установок, а аналитики и технологи предприятия — проводить анализ исторических данных, разметку, работать с настройками обученных моделей и, пользуясь базой алгоритмов, конструировать новые модели, оценивая их эффективность на основе базы знаний. Платформа интегрирована с системами АСУ ТП, MES, ERP и платформами Промышленного интернета вещей (рис. А).

Машинное обучение в промышленности — формула успеха
Рис. А. Архитектура аналитической платформы

Эксперимент. Классический цикл разработки модели предполагает два этапа оценки достаточности ее точности на тестовых выборках: валидация и «слепое» тестирование — опробование модели на выборке неизвестных ранее данных, получаемой от заказчика для проверки выбранного прототипа и содержащей целевую переменную. Задача «слепого» тестирования — убедиться, насколько точно модель описывает поведение технологического процесса и как точно она рассчитывает итоговое значение по заданной метрике.

Для проведения эксперимента на промышленном объекте необходимо интегрировать модель в технологический процесс и по ее рекомендациям осуществлять управляющие воздействия. Модель в таком случае начнет работать с реальными данными и в реальном времени, тогда как при осуществлении управляющего воздействия от оператора в нее поступают данные с учетом изменений, процесс начинает идти иным способом, а значит, меняются поступающие на вход модели параметры. Особенно это важно в непрерывных процессах — например, при химическом синтезе производных продуктов газовых смесей. Эксперимент позволяет определить узкие места в исходной выборке данных. Например, может оказаться, что одних только методов машинного обучения недостаточно для обработки всех массивов данных по функционированию оборудования во всех режимах, несмотря на то что разработанная модель с успехом прошла «слепое» тестирование и показала высокую точность. В таком случае нужно умело применять эвристики, сочетать физико-математические модели с ML-алгоритмами. Предварительный эксперимент поможет адаптировать архитектуру модели уже на ранней стадии разработки.

Небольшие эксперименты рекомендуется регулярно проводить на всех стадиях проекта, оценивая реальный объем данных, пригодных для моделирования, это позволяет максимально быстро перестраивать процесс разработки модели, концентрируясь лишь на алгоритмах, применимых в реальном производстве.

***

Успех проектов машинного обучения в промышленности определяется множеством факторов: слаженностью и опытом команды, пониманием данных и технологических процессов, оптимальным распределением ресурсов в ходе проекта и др. Четкое следование бизнес-цели проекта машинного обучения позволяет исследовать данные, строить гипотезы и проверять их, выбрав оптимальные прототипы моделей и спланировав поэтапное тестирование. Такой подход позволяет сэкономить ресурсы и на ранних этапах исключить проекты, не приносящие экономической выгоды.

Ольга Плосская (plosskaya@visiology.com) — руководитель проектов отдела анализа данных, компания Visiology (Москва). Статья подготовлена на основе материалов выступления автора на конференции «Технологии машинного обучения 2018».