Investigadores del Laboratorio de Inteligencia Artificial Aplicada (LIAA) del DC/ICC desarrollan estudios claves sobre procesamiento del habla humana, cuyo propósito es mejorar el análisis del lenguaje y complementar diversas tareas manuales de procesamiento con modelos computacionales más eficientes. En este sentido, el procesamiento del habla combina técnicas de las ciencias de la computación con la lingüística aplicada, para ayudar en temas de traducción automática, sistemas de diálogo interactivos, reconocimiento de emociones, entre muchas otras aplicaciones. Para conocer más sobre estos proyectos, conversamos con Jazmín Vidal Domínguez y Pablo Riera, investigadores del grupo de Procesamiento del Habla del LIAA.
El mejoramiento de la naturalidad de los sistemas de diálogo hablado, en los cuales una persona interactúa con una computadora mediante la voz, pasó a ser una de las funciones más comunes de los asistentes virtuales, por ejemplo para pedir información de búsqueda a los smartphones. Para ello se utilizan herramientas de aprendizaje automático (machine learning), una subdisciplina dentro de la inteligencia artificial que es relativamente nueva. El aprendizaje automático busca, dada una determinada cantidad de datos, aprender automáticamente a partir de la construcción de modelos computacionales. En el caso del habla se analizan grabaciones de audio de decenas de hablantes distintos para aprender qué sonidos corresponden a determinados fonemas del lenguaje, luego el sistema aprende las palabras, luego las oraciones y frases más comunes y así sucesivamente. También de acuerdo a cómo se habla, el software puede detectar metainformación tal como la emoción del hablante, la identidad de la persona que está dialogando, el idioma o el género del hablante entre un grupo más grande de personas.
Uno de los tópicos en los que se trabaja en el Laboratorio de Inteligencia Artificial Aplicada (LIAA), perteneciente al DC/ICC, es el desarrollo de un sistema de calificación automática de la pronunciación del idioma inglés para hablantes de Argentina, apoyado en técnicas de aprendizaje automático. El objetivo final es poder implementarlo como una herramienta de apoyo para el aprendizaje en las escuelas de nuestro país.
El otro de los tópicos tiene que ver con el reconocimiento de emociones presentes en el habla, a través de modelos de aprendizaje automático que pueden analizar las señales de audio e intentar clasificar las emociones. Las técnicas se engloban en la denominada Paralingüística Computacional que estudia la forma en que las personas se expresan, ayudado con el procesamiento automático del habla. Las aplicaciones fundamentales tienen que ver con la detección de emociones comunes como confianza o engaño como así también al apoyo de diagnóstico de patologías neurodegenerativas cuyos indicios pueden encontrarse en la forma particular en que hablan los pacientes.
Desafíos en calificación automática de la pronunciación
El proyecto de calificación automática de la pronunciación en inglés, desarrollado en el LIAA, presenta un gran problema que tiene que ver con la recolección de los datos de hablantes que están estudiando inglés. “Durante un año trabajamos en poder diseñar una base de datos que nos permitiera desarrollar esta línea de trabajo, ya que suele ser muy caro obtenerla o las empresas de enseñanza de idiomas no comparten los datos. Entonces nos enfocamos en programar una aplicación virtual para recolectar muchos datos y no depender de llevar voluntarios a nuestro laboratorio”, precisa Jazmín Vidal Domínguez, becaria doctoral del LIAA bajo la dirección de Luciana Ferrer. Para ello, y con la colaboración de un tesista de licenciatura que desarrolló la aplicación, lograron juntar datos de unos 50 hablantes de Argentina, con distintos niveles de inglés, y poder analizar los audios.
“El trabajo particular consistió en construir una base de datos de habla para poder desarrollar sistemas de calificación de la pronunciación que resuelvan la tarea de decir si, dada una grabación de un estudiante de idioma, lo que se dijo estuvo bien o mal pronunciado. Esto implica diferentes pasos. Primero, es importante diseñar las frases que se van a grabar. Para eso hay que tener en cuenta cuáles son los sonidos del español, cuáles son los sonidos del inglés, cómo interactúan, qué sonidos del inglés son difíciles para los estudiantes del español, qué tan largas tienen que ser las frases (para poder involucrar tanto a estudiantes que recién empiezan como a los más avanzados), cómo unir una cantidad mínima de frases que tenga todos los sonidos posibles que queremos calificar y cómo se van a anotar esas frases. Y segundo, anotar, qué significa que alguna persona con conocimiento de lingüística y de idioma (inglés en este caso), escuche cada sonido y diga qué se pronunció. Este es un trabajo muy subjetivo y es importante que lo haga más de una persona para tener muchos puntos de vista”, puntualiza Vidal Domínguez. (Ver paper con avances del trabajo).
La tesis de doctorado de Vidal Domínguez se centra en el desarrollo de la base de datos para la calificación automática de la pronunciación en inglés, más el desarrollo del sistema tutor virtual de aprendizaje. Para el grupo de Procesamiento del Habla, uno de los desafíos centrales es la orientación del proyecto desde la parte pedagógica. En este contexto, la investigadora en formación no solo ha podido dialogar con diversos docentes y directivos de escuelas, sino que también cuenta con la colaboración de Sofía Romanello, investigadora de la Universidad Nacional de Mar Del Plata, quien se dedica a estudiar el aprendizaje de segundas lenguas (español a extranjeros), y cuyo aporte pedagógico trata de pensar cómo estas tecnologías pueden resultar realmente útiles en el aula.
Problemas del reconocimiento de emociones a partir del habla
Los investigadores del LIAA utilizan múltiples modelos computacionales que aprenden de distribuciones estadísticas de datos. Para ello entrenan diversos modelos de modo que puedan cumplir una tarea específica y compleja trabajando con el habla humana. Clásicamente estos modelos suelen ser matemáticos (aprenden una función de los datos y devuelven una probabilidad o decisión concreta) y pueden tomar la forma de redes neuronales (con diferentes funciones y parámetros) o de algoritmos tradicionales.
Algunos de los modelos de reconocimiento de habla pueden estar orientados al análisis de llamadas telefónicas en un call center de atención al cliente, por ejemplo, donde hay millones de casos de personas que conversan con el operador de manera normal y relajada u otras pocas que están enojadas. ¿Cómo se logra detectar si la persona está enojada o no y desarrollar un patrón de reconocimiento relacionado al enojo? Los investigadores afirman que es una tarea muy compleja pero que entrenando correctamente a un modelo de software, éste puede tener un rendimiento parecido al humano en muchos casos.
“Actualmente estamos investigando en temas de paralingüística computacional, ya que a partir de todas las señales que están en el habla nos enfocamos en cómo el hablante se expresa. No es necesariamente el contenido lingüístico de las palabras en sí, sino cómo se dicen esas palabras”, explica Pablo Riera, investigador posdoctoral del LIAA.
El investigador aclara que las emociones se reflejan en diversos aspectos del habla: la altura tonal o melodía que es una frecuencia grave-agudo, la ritmicidad con la que se habla que son los tiempos, las pausas que se hacen y la acentuación. “Usando esas características, que son las señales principales de la prosodia, se puede intentar clasificar las emociones. Cada fonema o sonido de la voz tiene cierto espectro característico y además hay variaciones propias de las características específicas del hablante y del momento en que habla. La gente enojada en general sube el volumen y el tono, aunque esto no siempre ocurre y la gente que habla con cierta inseguridad o titubeo podría estar mintiendo”, puntualiza.
Riera comenta que el trabajo de machine learning implica tomar los audios de una base de datos de grabaciones de diversos orígenes, a veces son grabaciones naturales y a veces son actuadas o impostadas. Teniendo en cuenta los problemas de recolección masiva, la idea es que dichas grabaciones tengan la mayor calidad posible y eliminar las distorsiones o filtros en el habla que pueden presentar los audios. Con ese objetivo se pretende generar un diálogo enojado, triste o alegre; a veces se hace con palabras sueltas o pequeñas frases, que le den mayor heterogeneidad a la base de datos. También se realizan trabajos para detección de engaño o confianza en el habla humana. “En nuestros estudios usamos diferentes escalas para clasificar una lista de audios de diversos hablantes. Cada audio está asociado a un valor numérico, que es una categoría con una valencia más positiva o negativa. Después se hace el típico trabajo de machine learning donde se genera un análisis de estos sonidos, uno transforma el sonido en una lista gigante de descriptores o atributos que tratan de resumir la información de una manera que luego son ingresados en un modelo a la par que la información a predecir . Dependiendo de la complejidad del trabajo usamos redes neuronales o algoritmos más tradicionales con conocimiento experto”, resume el investigador.
Al mismo tiempo, el grupo de Procesamiento del Habla del LIAA está colaborando con el Centro de Neurociencias Cognitivas de la Universidad de San Andrés, para desarrollar el análisis de habla humana como apoyo al diagnóstico de patologías neurodegenerativas (ej. Alzheimer o Parkinson). Se trata de analizar señales paralingüísticas para hallar las dificultades de estas personas en el habla más allá del contenido, ya sea que hablen más lento o pausado, en comparación a una persona que no presenta la patología.
“Con Lara Gauder, Leonardo Pepino y Luciana Ferrer, probamos con nuestros datos un tipo de tecnología que recientemente liberó Facebook que se llama Wav2vec, una red neuronal que está entrenada con miles de horas de hablantes. Esta tecnología transforma un sonido en una representación que de alguna manera mitiga todos los problemas asociados a la heterogeneidad de los hablantes y maneras de hablar, ya que queremos que el sistema sea lo más general posible para detectar emociones o detectar Alzheimer”, puntualiza Riera. (Ver paper con avances del trabajo).
Interdisciplina en la frontera de la inteligencia artificial
Una de las notorias características que tiene el Laboratorio de Inteligencia Artificial Aplicada es la participación de colaboradores que no necesariamente se formaron en Computación y que, desde su disciplina específica, pueden agregar un enorme valor a las aplicaciones computacionales.
En este sentido, Jazmín Vidal Domínguez es Licenciada en Letras de la UBA y al momento de comenzar como becaria del laboratorio se fue formando en los diversos temas relacionados con la inteligencia artificial, más allá de que ya había cursado el CBC de Física. No obstante, su aporte actual como lingüista resulta fundamental. “Hay un punto donde todo se conecta. En la carrera de Letras existen materias de fonología, morfología, sintaxis, semántica, teoría léxica y análisis más formal sobre cómo se forman las palabras. También hay otras materias como lingüística chomskiana o lógica, que son materias que van más hacia el lado de Exactas. Y hay una materia en particular que se llama ‘Modelos formales no transformacionales’, que es muy hermana de una materia de Computación que se llama ‘Teoría de lenguajes’. Es muy curioso porque tanto en Computación como en Letras vemos una jerarquía de lenguajes, que es la jerarquía de Chomsky, temas muy parecidos solo que sin la parte de Programación. Y lo mismo pasa con Lógica”, describe Vidal Domínguez, quien resalta que cuando encontró los trabajos del LIAA que relacionaban lingüística con computación, descubrió realmente su vocación.
Por su parte, Pablo Riera es Licenciado y Doctor en Física de la UBA. Pero además es músico y tiene una fascinación por la aplicación de la música a diversas disciplinas de las ciencias exactas. “Hice mi doctorado en temas de acústica y pude realizar muchas investigaciones que combinan física, música y neurociencia computacional. En el caso del habla, existen principios como la melodía, la ritmicidad y la intensidad que se aplican claramente al análisis de la voz. Desde mi formación como músico, prácticamente los aplico de manera inconsciente. Posiblemente haya muchas partes del cerebro que trabajen tanto cuando uno escucha a alguien a hablar como cuando escucha música, de alguna manera es el sistema auditivo que recicla la información presente en esas dimensiones del sonido”, afirma Riera, quien además está impresionado por la cantidad de avances científicos que todos los días se producen en el campo de la música computacional.
Sin dudas que las aplicaciones de reconocimiento automático del habla se están multiplicando cada vez más, un fenómeno que puede apreciarse tanto en el desarrollo masivo de software de procesamiento y de asistentes virtuales como así también en aplicaciones industriales destinadas a mejorar la interacción humana con las computadoras.