Российские ученые разработали новую модель искусственного интеллекта, способную распознавать эмоции в человеческой речи с высоким уровнем точности. Разработка исследователей значительно превзошла почти все существующие аналоги при работе с самыми сложными формами контента.

«Исходный код модели доступен в открытом виде, поэтому другие ученые могут использовать инструмент в своих исследованиях, чтобы провести дополнительные эксперименты для проверки работы модели с другими языками и датасетами, повысить её универсальность и применимость в реальных условиях. Так, модель можно обучать на русскоязычных эмоциональных корпусах и затем применять в голосовых помощниках и контакт-центрах», — говорится в сообщении.
Новый алгоритм, получивший название CA-SER, был разработан группой исследователей из лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ. Созданная ими система искусственного интеллекта построена на базе парадигмы самообучения (SSL) и объединяет в себе сразу несколько подходов, которые сегодня активно используются при анализе устной речи и для распознавания эмоций.
Сначала система детектирует важные характеристики речи, а затем добавляет к ним данные о звуках голоса, в том числе их громкость и тональность, с учетом того, какую часть аудиоспектра лучше всего воспринимает человек. Эти два типа информации объединяются с помощью специального механизма, эффективно соединяя общие характеристики речи с её детальными особенностями, что помогает точнее определять эмоции говорящего человека.
Работу данной системы ИИ и ещё девяти других аналогичных проектов российские ученые проверили при помощи образцов из базы данных IEMOCAP. Она включает в себя обширный набор аудиозаписей, видеоклипов, расшифровок текстов и других мультимедиа-данных, связанных с большим числом человеческих эмоций.
Эти тесты показали, что разработка российских ученых значительно превзошла почти все другие системы ИИ и оказалась сопоставима с более сложно устроенной нейросетью-трансформером HuBERT.
Читайте также:
Российские учёные создали универсальную систему машинного зрения для распознавания объектов
Подобно глазу человека: в России научили нейросеть распознавать информацию в документах
История редактирования комментария