Инструменты речевой аналитики на практике

Нейросети позволяют сегодня анализировать все коммуникации компании со своими клиентами по любым каналам: записи телефонных разговоров, диалоги в соцсетях, мессенджерах и пр. На основе получаемых данных нейросети способны определить наиболее результативные модели коммуникации для конкретного клиента и, например, предсказать его поведение после той или иной реплики сотрудника провайдера. Неудивительно, что растет интерес к аналитике коммуникаций — по разным оценкам, к 2026 году объем рынка речевой аналитики вырастет до 4,5 млрд долл. при среднегодовом темпе роста в 20%.

Искусственный интеллект: теория и практика

Классический пример применения решений ИИ — классификация изображений, например определение по фотографии вида животного. Классический подход был бы крайне сложным: нужно придумать способ выделения элементов изображения (пиксели для этого не подходят), например, носов, ушей, глаз, хвостов и пр. Затем научиться использовать эти элементы для решения задачи классификации. Люди легко и точно справляются с задачей классификации изображений, хотя и не могут объяснить, как именно они это делают, а чтобы научить сервис решать задачу, не имея алгоритма, нужно создать модель, имитирующую требуемое распределение данных: фотографии, тексты, таблицы, звуковые дорожки и пр. Для этого нужны сами данные. Классическим подходом машинного обучения является обучение с учителем (supervised learning), когда имеются данные X и метки для этих данных Y, например, изображения кошек и собак и метки, в которых указано, что за животное на изображении.

Затем надо определиться с функцией, которая будет получать на вход данные X и выдавать метку Y. Наиболее простой функцией является линейная функция, в которой выход Y зависит от взвешенной линейной комбинации входных данных X. Существуют и другие виды функций (решающие деревья, нейронные сети и др.), которые лучше подходят для моделирования распределения. Линейная функция плохо подходит для классификации изображений, так как результат будет формироваться как взвешенная линейная комбинация пикселей, при этом не учитывается их взаимное расположение. Тем не менее линейные функции часто используются, например, при анализе табличных данных или в некоторых задачах обработки естественного языка (Natural Language Processing, NLP). Также к плюсам линейных функций можно отнести хорошую интерпретируемость результатов ее работы человеком.

Далее подбираются веса модели — параметры, значения которым присваиваются в процессе обучения. Надо подобрать веса таким образом, чтобы метки, выдаваемые моделью, максимально совпадали с разметкой нового объекта, подаваемого на ее вход. Такой подход называется методом максимального правдоподобия (maximum likelihood). Считается, что разметка — это следствие некоторого распределения вероятности и требуется, чтобы модель максимально с ним совпадала. Для этого определяется функция, минимум которой и будет максимальным правдоподобием; в машинном обучении такая функция называется функцией потерь (loss function). В случае если нужно решить задачу классификации (например, отличаем кошек от собак), подойдет перекрестная энтропия (cross entropy). Перекрестная энтропия между двумя распределениями вероятности измеряет среднее число бит, необходимых для опознания события из набора возможностей, если используемая схема кодирования базируется на заданном распределении вероятностей q вместо «истинного» распределения p. Можно показать, что минимизация перекрестной энтропии приводит к максимизации правдоподобия.

Итак, есть данные, модель, функция потерь — осталось только подобрать такие параметры модели, чтобы с ними функция потерь была минимальной. Имеется множество различных способов подбора параметров модели, но на сегодняшний день наиболее популярен метод градиентного спуска (gradient descent) [1]. Градиент — вектор, указывающий направление наибольшего роста функции. Поскольку нужно минимизировать функцию потерь, то следует двигаться в сторону антиградиента (поэтому метод и называется градиентный спуск).

Суть метода в следующем: представьте, что вы находитесь в долине, где есть возвышенности и низменности, а вам надо в низменность (мы ищем минимум функции потерь). Тогда, находясь в любой точке долины, вы осматриваетесь и делаете шаг в направлении с наибольшим уклоном вниз, попадаете в новую точку и повторяете процедуру. Именно так работает градиентный спуск: на каждом шаге параметры модели немного меняются в направлении, указанном антиградиентом; шаги повторяются, пока значения не стабилизируются, — это называется сходимостью алгоритма оптимизации.

Для обучения модели классификации все размеченные данные делятся на три подмножества: подмножество обучения (train) — используется для обучения модели; подмножество оценки модели (dev) — используется для оценки того, насколько хорошо модель работает на данных, которые она «не видела» во время обучения; подмножество подбора гиперпараметров (test) — его используют для подбора необучаемых параметров модели.

Существуют две основных проблемы при обучении моделей. Первая — недообучение (underfitting), когда модель не способна обобщить данные ввиду своей простоты. Хороший пример — использование линейной модели для анализа изображений. Чтобы понять, что имеет место недообучение, надо посмотреть, насколько хорошо модель справляется с решением задач на датасете, предназначенном для обучения, — если справляется плохо, то налицо недообучение. Бороться с недообучением можно, увеличивая сложность модели, добавляя обучаемые параметры, меняя архитектуру, например, для классификации изображений вместо линейной модели использовать сверточную нейросеть [2].

Вторая проблема — переобучение (overfitting), и заключается она в том, что модель хорошо обучилась на обучающем датасете, однако не смогла обобщить это знание, лишь просто «запомнив» обучающий набор. Понять, что имеет место переобучение, можно, сравнив качество модели на обучающем датасете и датасете для оценки модели — если качество лучше на датасетах в пользу обучающего, то налицо переобучение. Бороться с переобучением можно с помощью добавления данных в обучающий датасет, а также применяя различные техники регуляризации (L1, L2, dropout и пр.).

Датасет для подбора гиперпараметров необходим, чтобы не «переобучиться» при подборе гиперпараметров (шаг градиентного спуска, количество слоев нейросети и пр.) уже на датасете для оценки модели.

К сожалению, сегодня нет классических алгоритмов, которые с высокой точностью решали бы задачу классификации изображений.

Нейросеть для языкового анализа

В рамках обучения нейросетей для партнеров MTS AI используется несколько ML-моделей в зависимости от задач: простые классификаторы — распределяют материалы по заранее определенным классам; кластеризаторы — определяют кластеры в исходных материалах и разделяют тексты по ним; ABSA-модели (aspect based sentiment analysis) — анализ текста с выделением аспектов. Как правило, стандартное обучение классификатора происходит по следующему сценарию:

сбор требований от заказчика и анализ поставленной задачи; на этом этапе решается, по каким именно классам нейросеть будет распределять тексты — например, «позитив» или «негатив»;
подготовка дата-сета на материалах заказчика и ручная разметка материалов по отобранным ранее классам;
подготовка golden dataset — размеченного текста, который не будет использоваться для обучения нейросети; по нему будет определяться качество работы нейросети;
обучение нейросети на дата-сетах;
проверка точности работы классификатора; нейросеть распределяет по классам материалы из golden dataset, а специалисты сверяют результаты с ручной разметкой этих же текстов.

Качество работы модели во многом зависит от точности разметки дата-сетов, поэтому для этого процесса есть перечень внутренних правил: разметка не должна быть субъективной — один и тот же текст размечает несколько человек; чем больше примеров для каждого класса, тем лучше. Минимальный объем дата-сета для удовлетворительного качества работы нейросети — около 3 тыс. размеченных примеров на каждый класс. Кроме этого количество примеров на каждый класс разметки должно быть примерно одинаковым.

WordPulse

Технологии речевой аналитики необходимы сегодня любым компаниям, у которых есть каналы коммуникации с клиентами: сфера обслуживания, ретейл, транспорт и пр. Сервисы для анализа голосового и текстового взаимодействия с клиентами, такие как WordPulse компании MTS AI, призваны на основе методов машинного обучения автоматически анализировать до 100% всех коммуникаций операторов по любым каналам: телефон, сайт, чаты мобильных приложений, соцсети и мессенджеры. После обработки данных бизнес-аналитику предоставляется отчет о каждом диалоге вместе с оценками эффективности работы сотрудников или ботов. Вручную и без существенных инвестиций в сотрудников сегодня можно обработать лишь 1–2% всех звонков, чатов и отзывов.

Сервис WordPulse можно развернуть на серверах заказчиков или в облаке. ИИ контролирует, не отклоняется ли сотрудник от структуры разговора, а также оценивает речь оператора на наличие стоп-слов и длинных пауз, не говорит ли он слишком быстро и не перебивает ли собеседника. Для анализа переписок в чатах достаточно в классификатор загрузить логи, а для проверки записей разговоров их необходимо преобразовать в текст — для этого используется решение Audiogram, также построенное на основе нейросети. При использовании специфической и профессиональной лексики модель можно дообучить на размеченных дата-сетах заказчика.

В рамках партнерских проектов сервис WordPulse анализирует все диалоги с клиентами, выявляет новые тематики и динамику роста обращений по ним, изменение показателей удовлетворенности клиента по каждому диалогу и сотруднику центра обслуживания, количество и смену тональности диалогов. Интеграция сервиса позволяет автоматизировать оценку влияния новых скриптов диалога на удовлетворенность клиентов и настроить сегментацию чатов с клиентским негативом. Также система позволяет до 100% увеличить объемы аналитики чатов с точностью разметки 80% и выявить инциденты при обращении клиентов в компанию.

Снижение балла оператору за критику компании и ее услуг

Модели для WordPulse

В WordPulse применяются различные ML-модели, дообученные на размеченных данных.

Первая — модель анализа тональности (sentiment analysis), применяется для анализа тональности в текстах. Это классификатор, который делит поданный в него текст на три класса: позитивный, негативный и нейтральный. Такая модель используется для анализа отзывов клиента о продукте или сервисе, а также при анализе диалогов клиентов и операторов центров обслуживания.

Вторая — модель аспектного анализа тональности (aspect based sentiment analysis). Это также классификатор, но, в отличие от предыдущего, он классифицирует не весь поданный в него текст целиком, а отдельные слова. В поданном тексте выделяются аспекты (aspect), мнения (opinion term) и определяется тональность. Например, получив текст «Суши мне не понравились, а вот вид на гору запоминающийся», модель выделит два аспекта «суши» и «вид на гору», два мнения «не понравились» и «запоминающийся» и определит тональность первого как негативную, а второго как позитивную. Данная модель нужна для более глубокого анализа отзывов, чтобы понимать, что именно в продукте и услуге нравится пользователям, а что нет.

На текущий момент модель ABSA — одна из наиболее трудных для обучения. В этом процессе сохраняется тот же принцип работы, что и при разработке классификатора, однако качественная разметка дата-сетов становится еще более критичной. Для этого исследователи вручную выписывают все аспекты высказываний в примерах и указывают оценку для них. Этот процесс проходит по специальной методологии, которой обязан следовать каждый эксперт, работающий над разметкой.

Исследователи стремятся автоматизировать обучение ABSA-моделей — в 2022 году специалисты из научно-технического Аньхойского университета в Китае (https://www.tandfonline.com/doi/full/10.1080/09540091.2023.2189119) представили модель LMIAN (lightweight multilayer interactive attention network), в которой степень корреляции аспектов и их контекста устанавливается несколькими вычислительными слоями с использованием нейронных моделей внимания. По результатам исследования, точность распознавания эмоций и аспектов модели превышает 90%, при этом она позволяет обеспечить высокую производительность при относительно небольших затратах вычислительных ресурсов.

Третья — модель извлечения признаков, она извлекает из текста вектор признаков и сама по себе мало интересна конечному пользователю. Тем не менее ее пользу сложно переоценить, так как она позволяет решать широкий круг задач речевой аналитики. Именно благодаря работе этой модели в WordPulse выполняется кластеризация. Кластер — нечеткое множество, которое объединяет объекты по схожим признакам, например, диалоги в службе поддержки, где пользователи жалуются на качество работы интернета, попадут в один кластер, а диалоги, касающиеся баланса счета, в другой.

Таким образом появляется возможность без какой-либо разметки понять, какие в целом запросы попадают в центр обслуживания абонентов. Также благодаря этой модели можно осуществлять семантический поиск. Например, набрав «автомобили и мотоциклы», пользователь получит все тексты, связанные с автомобилями и мотоциклами. В отличие от поиска, к которому все привыкли в поисковых системах, таких как Яндекс, которые просто ранжируют (сортируют) документы по релевантности запросу, семантический поиск WordPulse отделяет релевантные документы от нерелевантных, благодаря чему можно понять, например, сколько именно было обращений, связанных с интернетом.

Другая опция, которая работает благодаря модели извлечения признаков, называется few shot learning и позволяет пользователю самому обучать модели классификации, предоставив несколько примеров. Пользователь задает описание тематики тремя примерами, например, «Инет не работает», «проблемы с сетью», «не ловит модем», и все входящие обращения, которые будут подходить под класс, описанный этими примерами, будут попадать в этот класс. При этом качество такой классификации зачастую не сильно уступает моделям, обученным на большом количестве данных с помощью градиентного спуска.

Решения MTS AI на базе упомянутых моделей могут не только распознавать речь, но и анализировать тональность каждого высказывания, кластеризовать материалы по схожести и контекстам. Использование этих технологий позволяет автоматизировать работу центров обслуживания и повысить эффективность управленческих решений на основе рекомендаций от аналитической системы.

Анализ тональности и эмоций

Сейчас ML-модель MTS AI способна выделять в тексте три базовых тональности: позитив, негатив и нейтральность. Бизнес может контролировать разговор сотрудника центра обслуживания и клиента, определяя эмоции собеседников. В случае конфликтной ситуации система может вмешаться в действия сотрудника, предложив сменить оператора. На текущий момент такой функционал доступен для транскрипции голосовых диалогов и текстовой переписки с клиентами — расшифровка телефонного разговора ведется с помощью платформы синтеза и распознавания речи Audiogram.

Для эффективной работы бизнеса применяется четыре вида аналитики тональности.
Тональность конкретных реплик. Анализируются слова сотрудника или клиента в реальном времени.
Тональность аспектов высказывания. ИИ может выделить конкретные темы разговора и определить, о чем именно говорит клиент и что ему понравилось или вызвало дискомфорт. Например, система может понять, что клиент высоко оценил «разнообразные тарифы», но возмутился «качеством обслуживания» при подключении.
Тональность всего фрагмента речи. Система анализирует разговоры целиком, собирает статистику эффективности и конфликтности оператора, а также передает эту информацию для подготовки корпоративной статистики.

Аналитика разговора по этим параметрам поможет понять, какие слова сотрудника привели к той или иной реакции собеседника.

Переход в негатив

Переход из негатива в позитив

Информацию о том, как те или иные реплики влияют на результат разговора, можно использовать для корректировки скриптов операторов центров обслуживания, исключив произношения потенциально конфликтных слов или фраз. Все такие выявленные ситуации заносятся в «личное дело» каждого оператора — если сотрудник регулярно не может найти общий язык с клиентами, то система может рекомендовать провести для него дополнительное обучение.

***

Для эффективной работы любого бизнеса крайне важно анализировать обратную связь от клиентов — если компании в своих управленческих решениях игнорируют данные речевой аналитики, то они неизбежно будут терять большой объем информации о своих клиентах и продуктах. Инструменты ИИ-аналитики коммуникаций не только помогают выявить слабые и сильные стороны продуктов, проанализировать отзывы о них, но и, как показывает наш опыт, в ряде случаев на 80% повысить производительность отдела контроля обслуживания, увеличить продажи на 20% и на 15% снизить непрофильную нагрузку на операторов.

Литература

1. Жианчанг Мао, Энил Джейн. Введение в искусственные нейронные сети // Открытые системы.СУБД. — 1997. — № 4. — С. 16-24. URL: https://www.osp.ru/os/1997/04/179189 (дата обращения: 21.12.2023).

2. Павел Велихов. Машинное обучение для понимания естественного языка // Открытые системы.СУБД. — 2016. — № 1. — С. 18-21. URL:

https://www.osp.ru/os/2016/01/13048649 (дата обращения: 21.12.2023).

Галина Прохорова (g.prokhorova@mts.ai) — менеджер продукта WordPulse, Антон Кабаев (a.kabaev@mts.ai) — технический лидер группы WordPulse, компания MTS AI (Москва).