Secciones
Servicios
Destacamos
Luis Alfonso Gámez
Lunes, 17 de enero 2022
Si Champollion hubiera tenido a mano miles de textos en griego y en escritura jeroglífica y los ordenadores con los que trabajan Mikel Artetxe y Eneko Agirre, no hubiera necesitado de la piedra de Rosetta para descifrar los jeroglíficos egipcios. Los investigadores vascos han conseguido ... enseñar a las máquinas a traducir sin necesidad de textos bilingües, sin 'rosettas' en las cuales, como en la estela egipcia del museo Británico, aparezca un mismo texto en varias lenguas y pueda descifrarse una desconocida a partir de otra conocida. Sólo, haciendo que lean enormes cantidades de textos diferentes en cada idioma deseado. La creación de esos sistemas capaces de aprender solos a traducir ha hecho a Artetxe y Agirre merecedores de dos de los Premios de Investigación concedidos por la Sociedad Científica Informática de España (SCIE) y la Fundación BBVA.
«Los humanos tendemos a hablar de lo mismo, independientemente del idioma. En euskera o en árabe, hablamos de lo que nos interesa a los humanos», indica Eneko Agirre (Eibar, 1968), catedrático de Lenguajes y Sistemas Informáticos en la Universidad el País Vasco (UPV). El jurado le concedió el Premio Nacional de Informática Aritmel «por sus contribuciones de excepcional valor en el ámbito del procesamiento del lenguaje natural». El lenguaje natural es el que usamos en textos y conversaciones. Agirre, director de HiTZ Centro Vasco de Tecnología del Lenguaje, lleva 30 años investigando cómo hacer que las máquinas lo entiendan.
MIKEL ARTETXE
Recuerda que a principios de siglo parecía algo lejano que una máquina nos entendiera. «Sin embargo, en los últimos cinco años, con las redes neuronales profundas, la gran capacidad de cómputo y los grandes volúmenes de texto y voz, han cambiado las reglas del juego y se pueden hacer cosas impensables hace veinte años», reconoce, sorprendido todavía de que nos hayamos acostumbrado a hablar con el móvil y con el coche. «Lo que no tenemos enfrente es a HAL, el ordenador de '2001: una odisea del espacio', esa máquina que entiende nuestro mundo».
«La idea de que los ordenadores podían aprender a traducir sin supervisión la tuvimos hace cinco o seis años», dice Mikel Artetxe (Zarautz, 1992), investigador actualmente en Facebook AI Research. Su tesis doctoral, dirigida por Agirre, «ha revolucionado el campo de la traducción automática, demostrando que es posible realizar traducciones de forma no supervisada, es decir, sin que la máquina disponga de textos bilingües de los que aprender», aseguraba la Sociedad Española para el Procesamiento del Lenguaje Natural en su nominación a los premios en la modalidad de Investigadores Jóvenes Informáticos. Antes, cuenta el galardonado a este periódico desde Londres, a los ordenadores se les daba el equivalente a diccionarios para que aprendieran cómo se dice las palabras en cada idioma.
eneko agirre
El enfoque de los investigadores vascos es radicalmente diferente. «Es como si a una persona le das un montón de libros en un idioma y otro montón de libros distintos en otro, y le dices que tiene que aprender a traducir. La máquina lo consigue no por magia, sino encontrando patrones en los textos», explica Artetxe. «La solución son las grandes masas de texto porque, sea el idioma que sea, tendemos a hablar de las mismas cosas. Con grandes masas de texto, la máquina es capaz de detectar que, por ejemplo, mesa va con silla y con ordenador, y aprende unos patrones que son iguales para el euskera, el árabe y el castellano, porque tendemos a hablar de lo mismo. Es la cultura en común la que hace que las máquinas puedan engarzar los patrones de un idioma a otro idioma», apunta Agirre.
Para aprender así lenguas y traducir de unas a otras, el ordenador tiene que leer mucho, tiene que tener muchos textos a su disposición. ¿Cuántos? «Los resultados mejoran cuanto más lea. Mil libros no son suficientes. Tienen que ser cientos de miles», dice el catedrático de la UPV. Ya no hace falta que existan diccionarios entre dos idiomas ni siquiera a través de uno tercero -que haya uno de maltés e inglés y otro de inglés a español- para que las máquinas puedan traducir un texto. «Para traducir entre el árabe y el chino, basta con que el ordenador lea muchos textos en esos dos idiomas».
¿Ya eres suscriptor/a? Inicia sesión
Publicidad
Publicidad
Te puede interesar
Publicidad
Publicidad
Esta funcionalidad es exclusiva para suscriptores.
Reporta un error en esta noticia
Comentar es una ventaja exclusiva para suscriptores
¿Ya eres suscriptor?
Inicia sesiónNecesitas ser suscriptor para poder votar.