Нейросети могут распознавать эмоции по голосу не хуже человека

25.03.2024

2859 прочтений

Чтобы распознать радость, гнев, печаль, страх, отвращение, достаточно аудиозаписи длительностью всего в полторы секунды.

Современные методы машинного обучения позволяют создавать нейронные сети, способные распознавать эмоции по записи голоса человека длиной всего в полторы секунды — столько же, сколько в среднем требуется человеку. Статья исследователей из Института человеческого развития Общества Макса Планка опубликована в журнале Frontiers in Psychology.

В экспериментах использовались записи на немецком и английском языках, сделанные актерами и выражающие радость, гнев, печаль, страх, отвращение и нейтральное состояние. Исследователи обучали три типа нейронных сетей: глубокие нейронные сети (DNN), анализирующие общие особенности записи — громкость или высоту звуков, сверточные нейронные сети (CNN), анализирующие спектральное представление и гибридные модели (C-DNN) использующие оба метода. Сети DNN и C-DNN показали лучшие результаты, но во всех случаях обучение позволило добиться точности распознавания, сравнимой с точностью, которую показывают на аналогичных образцах люди. Это, как считают исследователи, подтверждает гипотезу о том, что люди и нейросети распознают эмоции по сходным шаблонам.

Нейросети могут распознавать эмоции по голосу не хуже человека

Zero Trust и Data Governance: как управление данными превращает дата-каталог в ядро контура безопасности