Conversando con las computadoras

Actualmente el ICC cuenta con un área de Inteligencia Artificial que, entre muchos otros temas, trabaja específicamente en el Procesamiento del Lenguaje Natural y del Habla. Tal es así que uno de sus tópicos de investigación son los sistemas de diálogo, que posibilitan una interacción entre el humano y la computadora a través del habla. Algunos de los desafíos del área consisten en cómo lograr darle naturalidad al diálogo con métodos computacionales y, en particular, entender en mejor medida el fenómeno de mimetización, que es la tendencia de una persona a adaptarse a la forma de hablar de su interlocutor

¿Pueden hablar las computadoras? La pregunta resuena permanentemente porque estamos habituados a que distintos sistemas logren, por medio del software, tareas que un ser humano puede hacer, desde jugar al ajedrez o al Go, o bien reconocer objetos con precisión. En el campo de la Inteligencia Artificial se intentan reproducir todas las funciones que definen a la inteligencia del ser humano, entre ellas, la complejidad del lenguaje oral. “Nuestra línea principal de trabajo son los sistemas de diálogo hablado, cuyo ejemplo más actual son los asistentes virtuales”, puntualiza Agustín Gravano, investigador del ICC y profesor de Exactas-UBA.

Entre estos asistentes se encuentran Siri de Apple, Alexa de Amazon, Cortana de Microsoft, o Google Now en Google. Con todos ellos se puede hablar para pedirles cosas, desde poner música, pedir una receta de cocina o llamar al médico. Sin embargo, según comenta el investigador, estos sistemas de diálogo hablado funcionan mediante comandos: el usuario pide algo y la computadora contesta, no hay un “ida y vuelta” tal como sucede en la conversación humano-humano y tampoco adquieren la naturalidad de los diálogos entre dos personas. A lo sumo se produce una mínima interacción cuando hay ambigüedad y la computadora necesita aclarar si la canción que el usuario quiere escuchar pertenece a un artista u otro o si se confunde el nombre de la canción.

“El foco de la tarea que desarrollamos en el área de Procesamiento del Lenguaje Natural consiste en entender las características del diálogo humano, aprender de interacciones para que luego la computadora pueda codificarlas en sistemas de diálogo y darle la mayor naturalidad posible, es decir, que se asemeje a un diálogo real entre seres humanos”, precisa Gravano, quien es doctor en ciencias de la computación.

Gravano considera que aún se está a años de trabajo para que las computadoras logren dialogar tal como lo hacen los humanos. En este sentido, existen múltiples factores sociales, culturales y psicológicos del hablante; e incluso lingüísticos, por ejemplo una correcta interpretación de la prosodia, es decir, las inflexiones de la voz. No obstante, el investigador aclara que se han hecho avances significativos respecto a hace 10 o 15 años atrás. “Con el surgimiento reciente de Deep Learning o aprendizaje profundo, contamos con redes neuronales que pueden iterar eficientemente sobre millones de datos, gracias al procesamiento paralelo, retropropagando sus errores de predicción hasta converger a sistemas con mínimas tasas de error. Los resultados de esto se aprecian cuando un sistema es capaz de reconocer con niveles de eficacia -nunca vistos anteriormente- las palabras en el habla, o los objetos en un video”, precisa el investigador. En ese sentido, aporta algo sorprendente: actualmente en algunas subtareas, como la verificación del hablante, la computadora ya muestra una tasa de error menor a la de un ser humano.

Para resolver los interrogantes que plantean los sistemas de diálogo hablado, el equipo del ICC trabaja interdisciplinariamente en colaboración con profesionales de otras áreas, como lingüistas y psicólogos, tanto de Argentina como del exterior. El grupo de investigadores suele utilizar grabaciones de conversaciones en una cámara acustizada para evitar interferencias que perjudiquen el posterior análisis. Se estudian los atributos como el volumen, el tono o la intensidad de la voz que tiene la señal de audio y con ellos se entrenan algoritmos para que aprendan distintas combinaciones de ellos. El objetivo es poder reconocer patrones que indiquen diferentes modos de hablar (si habla en tono muy elevado, si cambia la entonación de acuerdo a su interlocutor o no, si habla enojado o nervioso, etc.) utilizando técnicas de aprendizaje automático (machine learning), o en otras palabras, construcción automática de sistemas a partir de datos. Un desafío adicional es que estos desarrollos sean aplicables a todos los lenguajes y culturas.

Los juegos como experimentos de habla
Cabe recalcar que el grupo liderado por Gravano está implementando algunos juegos, principalmente de ingenio, para estudiar situaciones de habla humano-computadora y poder validar sus hipótesis de trabajo. Un ejemplo es el juego de cartas Go Fish (en español el grupo lo denominó «A Freír Churros»), donde el usuario le pide consejos en forma verbal a la asistente virtual (que aparece a la derecha de la imagen principal). Cada asistente virtual tiene un protocolo distinto de mimetización (entrainment), esto significa que el programa va adaptando su forma de hablar (entonación, velocidad, intensidad, etc.) de acuerdo a la forma en que habla el usuario. El experimento con este software busca indagar el efecto de cada política de comportamiento del sistema en las elecciones de los sujetos.

Algunos de estos avances fueron publicados en la tesis de licenciatura de Florencia Savoretti y están siendo profundizados en el trabajo del doctorando Ramiro Gálvez, a través de diversos experimentos tanto en el laboratorio como online (cuyo objetivo es poder incrementar la cantidad de datos obtenidos). Por otra parte, el trabajo del doctorando Pablo Brusco busca estudiar los turnos conversacionales en el habla para entender la naturalidad del diálogo y mejorarla en los sistemas de habla artificial.

Por último, el investigador del ICC aclara que utilizan “juegos como experimentos” porque al ser entretenidos el nivel de atención y de compromiso de los sujetos se mantiene alto. Cuanto más duran los juegos, más datos de habla se generan. Hasta el momento los resultados son preliminares, debido a la complejidad del diálogo humano y al hecho de que los sistemas pueden esbozar cierta “personalidad” al hablar -ninguna conversación es idéntica a la otra y se observa una amplia variabilidad entre cada uno de los diálogos entre sí-. Al mismo tiempo, la necesidad de contar con cientos de individuos para participar en el juego y hacer que los resultados del experimento sean estadísticamente significativos, vuelve aún más dificultosa la tarea. Sin embargo, una de las conclusiones importantes que han encontrado hasta ahora es que los resultados experimentales generados mediante el juego descripto fueron sumamente parecidos en los distintos idiomas analizados: español, inglés y eslovaco. Esto fue corroborado con los lingüistas que colaboran con el proyecto del ICC, quienes trabajan en institutos y universidades del exterior (Nueva York y Eslovaquia) y también han investigado la mimetización del habla.