Científicos rusos desarrollan una IA que reconoce emociones en el habla con alta precisión

El algoritmo CA-SER fue desarrollado por un grupo de investigadores del laboratorio de IA de Sberbank, el Instituto AIRI y el MIPT

Científicos rusos han desarrollado un nuevo modelo de inteligencia artificial capaz de reconocer emociones en el habla humana con un alto nivel de precisión. El desarrollo de los investigadores superó significativamente a casi todos los análogos existentes al trabajar con las formas más complejas de contenido.

Fuente de la imagen сгенерировано нейросетью DALL•Е 3

«El código fuente del modelo está disponible abiertamente, por lo que otros científicos pueden utilizar la herramienta en sus investigaciones para realizar experimentos adicionales para verificar el funcionamiento del modelo con otros idiomas y conjuntos de datos, aumentar su universalidad y aplicabilidad en condiciones reales. Así, el modelo se puede entrenar en corpus emocionales en ruso y luego aplicarse en asistentes de voz y centros de contacto», se dice en el comunicado.

El nuevo algoritmo, llamado CA-SER, fue desarrollado por un grupo de investigadores del laboratorio de inteligencia artificial de Sberbank, el Instituto AIRI y el MIPT. El sistema de inteligencia artificial creado por ellos se basa en el paradigma del autoaprendizaje (SSL) y combina varios enfoques que se utilizan activamente en el análisis del habla y para el reconocimiento de emociones.

Primero, el sistema detecta las características importantes del habla y luego agrega datos sobre los sonidos de la voz, incluido su volumen y tonalidad, teniendo en cuenta qué parte del espectro de audio percibe mejor el ser humano. Estos dos tipos de información se combinan mediante un mecanismo especial, que conecta eficazmente las características generales del habla con sus características detalladas, lo que ayuda a determinar con mayor precisión las emociones de la persona que habla.

El trabajo de este sistema de IA y otros nueve proyectos similares fue verificado por científicos rusos utilizando muestras de la base de datos IEMOCAP. Incluye un amplio conjunto de grabaciones de audio, videoclips, transcripciones de texto y otros datos multimedia relacionados con una gran cantidad de emociones humanas.

Estas pruebas demostraron que el desarrollo de los científicos rusos superó significativamente a casi todos los demás sistemas de IA y resultó comparable con la red neuronal transformadora HuBERT, que es más compleja.