Técnicas computacionales que ayudan a reconocer emociones en el habla

Actualmente el Instituto de Ciencias de la Computación (ICC) cuenta con un Grupo de procesamiento del habla, que se ocupa de mejorar el análisis del lenguaje escrito y hablado o de complementar diversas tareas manuales de procesamiento con modelos computacionales más eficientes.

En este sentido, el procesamiento del lenguaje natural combina técnicas de las ciencias de la computación con la lingüística aplicada, para ayudar en temas de traducción automática, sistemas de diálogo interactivos, análisis de opiniones y sentimientos, entre otras.

Uno de los tópicos del grupo consiste en extraer e interpretar clases de información de señales de audio. De este modo se puede reconocer, por ejemplo, la identidad del hablante, el estado de ánimo (si está enojado o no), la edad del hablante, el idioma presente en la señal, el tipo de canal de transmisión y qué palabras son más utilizadas.

“Utilizamos múltiples modelos computacionales que aprenden de distribuciones estadísticas de datos. Lo que hacemos es entrenar el modelo para que pueda cumplir una tarea específica y compleja trabajando con el habla humana”, destaca Luciana Ferrer, Investigadora del ICC en el Grupo de procesamiento del habla. Clásicamente estos modelos suelen ser matemáticos (aprenden una función de los datos y devuelven una probabilidad o decisión concreta) y pueden tomar la forma de redes neuronales (con diferentes funciones y parámetros).

Algunos de los modelos de reconocimiento de habla pueden estar orientados al análisis de llamadas telefónicas en un call center de atención al cliente, por ejemplo, donde hay millones de casos de personas que conversan con el operador de manera normal y relajada o y otras pocas que están enojadas. ¿Cómo se logra detectar si la persona está enojada o no? Los investigadores afirman que es una tarea muy compleja pero que entrenando correctamente a un modelo de software, éste puede tener un rendimiento parecido al humano en muchos casos.

“Las emociones se reflejan en diversos aspectos del habla: la intensidad (volumen), la frecuencia fundamental (tono), el espectro y la velocidad. Usando esas características se puede intentar clasificar las emociones. Cada fonema o sonido de la voz tiene cierto espectro característico y además hay variaciones propias de las características específicas del hablante y del momento en que habla. La gente enojada en general sube el volumen y el tono, aunque esto no siempre ocurre”, puntualiza Ferrer. Y especifica cómo funciona el modelo actualmente, “los sistemas de software y reconocimiento que desarrollamos aprenden de una enorme cantidad de datos, que ya están procesados, y pueden ir aprendiendo cuáles son los patrones del enojo de una persona”.

Las emociones se reflejan en diversos aspectos del habla: la intensidad (volumen), la frecuencia fundamental (tono), el espectro y la velocidad. Usando esas características se puede intentar clasificar las emociones.

Incluso la investigadora especialista en procesamiento de habla y aprendizaje de máquinas, comenta que están comenzando a desarrollar trabajos para detección de engaño o de confianza a partir del análisis de lenguaje natural.

Al mismo tiempo, los modelos desarrollados en el ICC sirven para mejorar la naturalidad de los diálogos humano-computadora, controlar el acceso de un usuario a un cierto sistema o plataforma, reconocer rápidamente la identidad de la persona y detectar el idioma hablado a partir de una señal de audio.

En este sentido, el reconocimiento automático del hablante puede utilizarse en pericias judiciales o casos forenses. Si se cuenta con el habla de la persona que en teoría podría haber cometido el crimen y el habla del acusado, a través de este modelo computacional se podría saber si son la misma persona o no. Aunque aún los sistemas automáticos de reconocimiento del hablante no están regulados por la justicia (pero el tema legislativo se está discutiendo en los tribunales de todo el mundo), se sabe que el uso de redes neuronales ha igualado la performance en esta tarea comparada con el desempeño humano.

“Los peritos humanos escuchan las dos señales de cada conversación y las comparan manualmente con técnicas difíciles de evaluar y replicar. Se ha comparado el rendimiento de humanos expertos con el de sistemas de reconocimiento de habla y se ha concluido que, en muchos casos, el desempeño de estos sistemas es similar que el de un humano para identificar la identidad del hablante”, explica Ferrer. Esto hace que se esté considerando incorporar de manera sistemática técnicas de inteligencia artificial para reconocimiento de voz al ámbito forense o judicial.

¿En qué otros proyectos están trabajando?

“Estamos elaborando un tutor virtual para aprendizaje de idiomas, en particular del inglés. Junto a nuestros tesistas de licenciatura, trabajamos en una herramienta interactiva que sirva para practicar pronunciación, a la que le digas palabras en inglés y que te responda si lo dijiste correctamente o no y si lo dijiste mal te corrija muy específicamente qué es lo que dijiste mal. El sistema evalúa la calidad de pronunciación usando dos modelos para cada fonema, entrenados con casos pronunciados correctamente y casos pronunciados incorrectamente”.

Cuando hacen procesamiento de lenguaje natural, ¿en qué idioma lo hacen y cómo influye en la tarea el idioma del hablante?

“La mayor parte del trabajo se hace en inglés, porque es donde mayor datos hay disponibles. Aunque también existe una enorme cantidad de datos en castellano, ésta es mucho menor. En cuanto a cómo influye el idioma, el reconocimiento del hablante es relativamente independiente del idioma, en cambio la transcripción de audio o el análisis de texto es muy dependiente del idioma.”, concluye la investigadora.