Transductores diferenciables para sistemas híbridos: una alternativa para mejorar el reconocimiento automático del habla

Los sistemas híbridos de reconocimiento del habla humana se caracterizan por combinar redes neuronales con transductores de estados finitos y buscan transcribir la voz a texto de una manera más controlada, reduciendo la aparición de errores. En este contexto, investigadores del ICC están trabajando en el desarrollo de algoritmos aplicados a estos sistemas para poder facilitar su uso y que posteriormente se puedan entrenar de forma conjunta las redes y los transductores.

Sin lugar a dudas, con el notorio avance de la inteligencia artificial y el desarrollo de asistentes virtuales cada vez más sofisticados, como por ejemplo ChatGPT, el procesamiento del habla humana pasó a ser uno de los tópicos críticos de investigación dentro de esta disciplina.

Actualmente el procesamiento del habla combina técnicas de las ciencias de la computación con la lingüística aplicada, para ayudar en temas usuales de traducción automática, sistemas de diálogo interactivos, identificación de hablantes y reconocimiento de emociones, entre muchas otras aplicaciones.

El mejoramiento de la naturalidad de los sistemas de diálogo hablado, donde una persona interactúa con una computadora mediante la voz, pasó a ser una de las funciones más comunes de los asistentes virtuales, por ejemplo para pedir información de búsqueda a los smartphones. Para ello comúnmente se utilizan herramientas de aprendizaje automático (machine learning) y de redes neuronales. No obstante, lograr que estas tareas se realicen con cada vez más precisión y performance no es nada trivial, por los problemas que acarrean. Por ejemplo, es muy posible que un traductor automático de la voz se equivoque al interpretar la palabra o frase que nosotros mismos como hablantes quisimos decir y debamos adaptar nuestra manera de pronunciarla para que el asistente virtual identifique los términos correctamente. O incluso que en el proceso de transcripción a texto, escriba palabras muy distintas a las habladas en los sonidos que identificó.

Considerando este escenario, investigadores del Grupo de Procesamiento del Habla del Laboratorio de Inteligencia Artificial Aplicada (LIAA-ICC), están trabajando para desarrollar modelos y algoritmos aplicados que permitan mejorar el reconocimiento automático del habla humana.

“Las redes neuronales end-to-end para reconocimiento de habla son sistemas que se entrenan tomando de entrada el audio y generan el texto como salida, es la tecnología más directa para encarar este problema. No obstante su dificultad es que generan ‘alucinaciones’, comportamientos erráticos comunes cuando transcriben automáticamente contenido totalmente ajeno al que contiene el audio”, puntualiza Pablo Riera, Investigador del LIAA y Doctor en Ciencias Físicas..

Riera aclara que recientemente la empresa OpenAI -encargada de desarrollar ChatGPT- lanzó un nuevo sistema que se llama Whisper, que funciona como un transcriptor de voz a texto, y lo liberó en versión open source para que cualquier persona lo pueda utilizar. Lo paradójico es que si bien el software funciona muy bien en algunas situaciones, en otros escenarios muestra comportamientos completamente erráticos llegando a confundirse palabras comunes. Por ejemplo, un error común es que puede generar transcripciones con muchas más palabras de las que se dijeron. La falta de control sobre estas redes neuronales y el hecho de no poder intervenir con reglas gramaticales o de pronunciación para procesar el texto y realizar correcciones al sistema en el desarrollo de estas mismas operaciones, es una de sus principales limitaciones.

Ante los obstáculos evidentes, se están queriendo volver a utilizar los “transductores de estados finitos” (finate-state transducers); se trata de herramientas asociadas a conceptos teóricos de Ciencias de la Computación (entendidas como máquinas de estado finito o autómatas) que suelen ser muy útiles para hacer trabajos de edición y procesamiento de texto.

“Hasta hace muy pocos años este era el método tradicional para procesamiento del habla y con la llegada de las redes neuronales end-to-end este método de transductores quedó en segundo plano. Sin embargo, ante los problemas mencionados, nosotros estamos recuperando el uso de estos transductores, y desarrollando los algoritmos para poder utilizar los transductores con la misma flexibilidad que se utilizan las redes neuronales”, explica Riera.

¿Cómo funcionan estos sistemas? Usan tanto redes neuronales como transductores de estado finitos, pero de manera encadenada. Primero utilizan una red neuronal para analizar el sonido y después el transductor, el cual se encarga de la parte de decodificación para tratar de llegar al texto final, es decir, tiene que dar el OK sobre una palabra, después determinar cuál seguiría en esa misma cadena y así sucesivamente. “En este caso es donde uno puede tener totalmente el control, porque podemos adaptar el tipo de vocabulario y definir qué queremos realmente que diga el sistema. En un sistema end-to-end hay que volver a entrenar si se quiere incluir una nueva palabra”, afirma Riera.

¿Cuál es el principal desafío en la investigación científica del uso de transductores? En este caso se busca lograr que la versión actualizada de los sistemas con transductores tenga la misma performance que un modelo end-to-end, sin perder la potencia de las redes neuronales, es decir, reunir lo mejor de ambos mundos.

Hacer convivir las redes neuronales con los transductores, implica poder expresar las operaciones de estos mismos transductores pero no con algoritmos clásicos (que eran los que usaban tradicionalmente) sino con algoritmos que posean la misma tecnología que comúnmente usan las redes neuronales.

“Este trabajo implica recurrir a operaciones de álgebra lineal con tensores y ejecutarlas en las arquitecturas de hardware donde trabajan las redes neuronales, que son las GPUs, y al mismo tiempo lograr el mismo procedimiento cuando se entrena una red neuronal, que es un proceso de optimización de parámetros automático, que se llama ‘descenso por gradiente’, donde para lograr eso hay que contar con un cómputo que sea diferenciable, para poder calcular cómo mover los parámetros del sistema para mejorar la performance”, sostiene el investigador del ICC.

Otra ventaja de los transductores es que permiten generar una representación en formato de máquina de estados, donde la información sea mucho más fácil de acceder y de alguna manera tener una representación que sea más rica que sólo la salida de una red neuronal, la cual muchas veces no es comprensible. En este punto, cabe recalcar que las redes neuronales se entrenan por parámetros que se multiplican y después se realizan muchísimas operaciones; pero por su nivel de abstracción es muy difícil modificar los parámetros o saber qué rol cumple cada parámetro. Mientras que los estados de los transductores o las transiciones tienen una interpretación en general, entonces concretamente se podrían modificar a mano para tener el control de una transición y ver cómo cambia el resultado, para que el propósito final sea corregir errores en la decodificación.

“Desde ya los transductores presentan una buena alternativa donde tenemos algunas representaciones que ya no son las representaciones neuronales completamente abstractas sino que son representaciones intermedias tipo máquinas de estado, que las podríamos usar para diferentes tareas. Nosotros veníamos aplicando técnicas de análisis de similaridad de representaciones neuronales para comparar espacios vectoriales de sonidos, y ahora podemos pensar en el uso de estas representaciones que generan los transductores no sólo para transcribir texto sino para otras tareas de audio más complejas, por ejemplo identificar sonidos de fondo mientras alguien está hablando, reconocer la emoción o la salud en el audio, entre otras”, complementa Riera.

Dr. Pablo Riera.

Pero aclara que aún no están realizando ningún entrenamiento con datos de hablantes, porque están enfocados en el desarrollo de la tecnología propiamente dicha, en particular en la eficiencia de los algoritmos basados en álgebra lineal. También el investigador explica que una posible ventaja de estos sistemas es incorporar las disfluencias en el habla (interrupciones o bloqueos, que consisten en repetir sonidos, sílabas o palabras; estirar un sonido o detenerse repentinamente en medio de una sílaba o palabra), que comúnmente los asistentes de voz eliminan o limpian para obtener el mensaje final y que, en este sentido, estos sistemas serían más eficientes para el análisis del habla en niños. “Estamos trabajando en otro proyecto con análisis de habla de niños para ver cómo hablan,y medir la fluidez del habla a medida que crecen, y para hacer encuestas de monitoreo del desempeño de lectura del niño o niña. Para eso necesitamos unas transcripciones que contengan todos los detalles y la mejor forma de lograrlo es con transductores”, concluye Riera.

Participación en un workshop internacional y publicaciones destacadas

En el marco de JSALT 2023 (Jelinek Summer Workshop on Speech and Language Technology), el CLSP (Center for Language and Speech Processing) organizó y recibió a algunos equipos internacionales para un Workshop intensivo de investigación de seis semanas sobre tecnologías del habla y el lenguaje. Estos workshops se realizan desde hace más de 20 años y, en sus diferentes ediciones, han tenido un impacto generalizado en la comunidad de tecnología del lenguaje humano, convocando a los principales expertos en el área. En 2023, en su 30ª edición, el Workshop se llevó a cabo en Le Mans, Francia, del 26 de junio al 4 de agosto y fue organizado por el LIUM (Laboratoire Informatique de l’Université du Mans).

“En los workshops JSALT se viene trabajando desde sus comienzos en el desarrollo de sistemas de reconocimiento del habla y fue uno de los ámbitos donde se impulsó el uso de transductores. En esta ocasión participaron también del workshop dos investigadoras del grupo, Jazmín Vidal y Lara Gauder. Habría que averiguar, pero es probable que hayamos sido los primeros investigadores de la UBA que participamos de este encuentro ”, comenta entusiasmado Riera.

Al mismo tiempo, el grupo publicó el paper sobre representaciones autosupervisadas del habla “Phone and Speaker Spatial Organization in Self-Supervised Speech Representations” en una conferencia internacional del área (ICASSPW) organizada por IEEE.