Необходимость внедрения цифровых технологий в государственном управлении и сфере государственных услуг, в том числе в интересах населения, отмечается среди приоритетных национальных целей стратегического развития России [1], причем уровень удовлетворенности граждан Российской Федерации качеством предоставления государственных и муниципальных услуг начиная с 2018 года должен составлять не менее 90% [2]. В связи с этим стала актуальной задача получения объективной информации об уровне удовлетворенности граждан качеством предоставления государственных и муниципальных услуг. Речь идет не только о сведениях из социологических опросов, но и о данных, полученных неинвазивными способами — например, с помощью компьютерного зрения и технологий Интернета вещей. Предложенная специалистами Финансового университета система автоматизированного мониторинга данных видеонаблюдения с использованием методов машинного обучения позволяет определить степень удовлетворенности граждан качеством предоставления услуг в многофункциональных центрах.

Подобные работы в стране уже проводились. Например, в системе мониторинга вовлеченности студентов в учебный процесс [3, 4] в качестве основных факторов для модели машинного обучения использовались: направление взгляда, поворот и наклон головы, синтетический признак «групповой взгляд», расстояние от студента до преподавателя. Модель машинного обучения для анализа удовлетворенности граждан получением госуслуг основывается прежде всего на идентификации эмоций посетителей МФЦ, а кроме того, в ней учитывается тип оказываемых услуг. Система мониторинга вовлеченности студентов — это сервис на базе облака Microsoft Azure, а система анализа удовлетворенности должна работать в локальном периметре — без подключения к Сети и без использования проприетарного ПО.

Рис. 1. Архитектура системы

На рис. 1 представлена архитектура предлагаемого программно-аппаратного комплекса. Видеопоток с камер в зале МФЦ поступает на сервер для анализа с помощью модели машинного обучения. Для этого вначале используется модель Mini XCeption (github.com/caixhstrive/Mini_Xception/blob/master/README.md), обученная на 28 тыс. фото и способная в реальном времени классифицировать эмоции: happiness (счастье); sadness (грусть); scare (страх); angry (гнев); disgust (отвращение); contempt (презрение); surprise (удивление); neutral (нейтральность — отсутствие проявления эмоций). На следующем уровне используются модели классического машинного обучения: линейная модель, «случайный лес» или градиентный бустинг над деревьями решений. Каждая из них обладает своими преимуществами и недостатками. Линейные модели быстро обучаются и устойчивы к переобучению, что делает их более стабильными, однако предсказательная способность у них обычно ниже, чем у моделей, основанных на деревьях решений. Градиентный бустинг, наоборот, показывает высокие показатели обучения, но склонен к переобучению и менее стабилен. Модель «случайный лес» хорошо обучается, не склонна к переобучению, но скорость ее обучения в классических реализациях (например, на базе открытой библиотеки sklearn на языке Python) достаточно низкая.

Для задачи определения уровня удовлетворенности посетителей МФЦ имеет смысл использовать градиентный бустинг над деревьями: данный класс моделей достаточно популярен и, что особенно важно, имеет большое количество высокоскоростных реализаций. В отличие от линейных моделей, градиентный бустинг способен выявлять сложные нелинейные зависимости. Его единственный недостаток — склонность к переобучению. Поэтому необходимо следить за сложностью модели и использовать регуляризацию — при условии достаточно большой обучающей выборки, переобучения можно избежать, выбрав необходимые параметры.

Сегодня наиболее популярны три реализации градиентного бустинга: xgboost, lightgbm и catboost. Основное преимущество последнего — возможность использовать категориальные данные без предварительной обработки, но в рассматриваемой задаче нет необходимости в категориальных данных. Кроме того, catboost показывает минимальную скорость. Реализации xgboost и lightgbm имеют схожую производительность и качество классификации, однако для выбора модели и определения стартовых параметров в задаче использовался тестовый набор данных, на котором лучший результат показала модель xgboost.

Для обучения выбранной модели xgboost.XGBClassifier были подобраны следующие значения основных параметров, позволяющие получить наилучшие результаты: максимальная глубина дерева (max_depth) — 3; коэффициент скорости обучения (learning_rate) — 0,05; доля наблюдений из обучающей выборки, используемая при построении одного дерева (subsample), — 0,8; доля признаков, используемых при построении одного дерева (colsample_bytree), — 0,6; доля признаков, используемых на каждом уровне разбиения дерева (colsample_bylevel), — 0,7; количество деревьев (n_estimators) — 200. С учетом популярности xgboost, применение именно таких параметров в ряде случаев может существенно повысить качество модели и при решении других задач классификации.

Сервер обработки видеопотоков автономно размещается либо в защищенном периметре локальной вычислительной сети МФЦ, либо без доступа к локальным ресурсам. В системе сохраняются только данные по измеренному уровню удовлетворенности и используется лишь открытое ПО, поэтому применения дополнительных мер для обеспечения защиты информации не требуется. Для построения интерактивных панелей визуализации уровня удовлетворенности посетителей МФЦ используется фреймворк Shiny для языка R (www.rstudio.com/products/shiny), позволяющего применять внешние инструменты анализа данных и через веб-приложения выводить результаты работы (например, для организации удаленной оценки работы конкретного МФЦ).

Рис. 2. Иерархия интерактивных панелей

На рис. 2 приведена структура иерархии интерактивных панелей системы анализа удовлетворенности граждан получением услуг в МФЦ, которая позволяет анализировать ситуацию на уровне федеральных округов, регионов, населенных пунктов и конкретных МФЦ, причем как в целом по всем услугам, так и по их отдельным типам. Основная вкладка интерактивной панели включает общую агрегированную информацию по всей стране, а наиболее важные показатели выводятся на отдельные панели. Общий обзор уровня удовлетворенности граждан качеством услуг отображается на географической карте, что позволяет выявить территориальные различия. Интерактивность этой карты обеспечивает детальный анализ по уровням агрегации в соответствии с административно-территориальным устройством: РФ — субъект РФ — объекты административно-территориального деления — муниципальные образования. Выбор определенного уровня позволяет ограничить визуализацию — можно выводить только данные по уровню удовлетворенности граждан в МФЦ, находящихся в пределах выбранной территории.

Для каждого уровня агрегации предусмотрен вывод информации по каждому из подуровней данного уровня, в том числе по динамике удовлетворенности в зависимости от времени. Содержательные графики и гистограммы, демонстрирующие динамику уровня удовлетворенности относительно других показателей (помимо территориальных), позволяют провести более детальный анализ. Например, возможна детализация по типу услуги, категории граждан, времени суток или времени ожидания. Кроме того, интерактивная панель помогает отслеживать изменение показателей на анимированных графиках, что дает возможность наблюдать за динамикой и выявлять отклонения, незаметные в статичных отчетах.

Уровень удовлетворенности рассчитывается как среднее значение при выбранных фильтрах. Класс удовлетворенности присваивается каждому распознанному лицу. Соответственно, сумма в сгруппированной таблице будет отражать количество лиц, распознанных как удовлетворенных. Отношение числа всех удовлетворенных граждан к их общему числу в МФЦ и есть средний показатель удовлетворенности в интервале от нуля до единицы.

Кроме этого главного показателя удовлетворенности, используются уровни распознанных эмоций, которые также приводятся к среднему значению для заданных срезов.

***

Предложенное решение можно использовать в любых организациях, сотрудники которых связаны с обслуживанием клиентов по схеме «окон»: в МФЦ, отделениях банков и страховых компаний, автосервисах и предприятиях бытовых услуг, поликлиниках и т. д.

Литература

1. Указ Президента Российской Федерации от 07.05.2018 № 204 «О национальных целях и стратегических задачах развития Российской Федерации на период до 2024 года». [Электронный ресурс] URL: http://www.kremlin.ru/events/president/news/57425 (дата обращения: 15.02.2020).

2. Указ Президента Российской Федерации от 07.05.2012 № 601 «Об основных направлениях совершенствования системы государственного управления» [Электронный ресурс]. URL: https://base.garant.ru/70170942/ (дата обращения: 15.02.2020).

3. Владимир Соловьев, Дарья Куклина, Артем Славгородский, Илья Пухов, Михаил Титко. Мониторинг вовлеченности студентов в учебный процесс // Открытые системы. СУБД. — 2018. — № 2. — С. 28–30. URL: www.osp.ru/os/2018/2/13054177 (дата обращения: 15.03.2020).

4. Соловьев В. И., Макрушин С. В., Феклин В. Г. и др. Парадигмы цифровой экономики: Технологии искусственного интеллекта в финансах и финтехе / Под ред. М.А. Эскиндарова и В. И. Соловьева. М.: Когито-Центр, 2019. — 325 с. URL: http://www.fa.ru/org/div/uoonir/Documents/том_4_print2.pdf (дата обращения: 15.02.2020).

Владимир Соловьев (vsoloviev@fa.ru)  —  директор департамента анализа данных, принятия решений и финансовых технологий, Финансовый университет при Правительстве РФ (Москва). Статья подготовлена по результатам исследований, выполненных за счет бюджетных средств по государственному заданию Финансовому университету.