Aclaraciones sobre motores de traducción automática

Posted on February 1, 2021 by ataspd

Escrito por Rubén de la Fuente

Recientemente, tuve el placer de impartir un webinario para la ATA sobre traducción automática y posedición: Post-Editing: How to Make Machine Translation Work for You. En él daba consejos sobre posedición, pero también hacía hincapié en otras oportunidades profesionales relacionadas con la traducción automática, que suelen pasar desapercibidas, como la evaluación de traducción automática y la consultoría lingüística o el entrenamiento de motores personalizados, bien sea para uno mismo o para terceros. Y es un hecho que me parece necesario repetir una y mil veces, así que lo diré una vez más: el valor que pueden aportar (y ganar) los traductores en este nuevo modelo va mucho más allá de limitarse a corregir los errores de la máquina.

La propuesta era ambiciosa en cuanto a los temas por cubrir y el tiempo limitado, por lo que inevitablemente quedaron en el tintero algunas preguntas que intentaré resolver en el presente artículo. La mayoría estaban centradas en la cuestión del entrenamiento de motores personalizados, que es a la vez el más desconocido para los traductores en general y el más ventajoso desde un punto de vista financiero.

❝El valor que pueden aportar (y ganar) los traductores en este nuevo modelo va mucho más allá de limitarse a corregir los errores de la máquina._❞

No quedó muy claro, creo, qué es exactamente un motor de traducción automática y de esa confusión inicial derivan seguramente algunas de las dudas pendientes. Simplificando bastante, podemos hacer una analogía con las memorias de traducción y decir que un motor es similar a una memoria, con la salvedad de que la memoria encuentra las equivalencias a partir de oraciones completas, mientras que un motor lo hace a partir de fragmentos más pequeños que luego va ensamblando para dar una sugerencia de traducción. Siguiendo con la analogía de las memorias, podemos hacer la distinción entre continente y contenido: no se puede decir que una memoria de traducción sea mejor o peor por venir de, por ejemplo, Trados o MemoQ (continente), el aspecto fundamental es la calidad de las traducciones almacenadas (contenido). Pues lo mismo pasa con los motores de traducción automática. Los programas que se hayan utilizado para el entrenamiento, para descubrir las equivalencias en corpus bilingües y aprender a traducir, son importantes, pero el factor determinante para la calidad final son los datos (corpus, memorias) utilizados y el control de calidad al que se hayan sometido. Dicho de otra manera, la traducción automática aprende a partir de ejemplos preexistentes; si estos no son buenos, ni el mejor algoritmo genera una buena traducción.

Otra de las preguntas era cuál es el mejor motor de traducción automática según la especialidad. En realidad, aunque hay proveedores como SDL y su Language Cloud que ofrecen motores para sectores específicos (automoción, electrónica), los mejores resultados se van a obtener siempre con motores personalizados a partir de memorias propias. Por poner un ejemplo sencillo, Symantec, McAfee y Karpersky se enmarcan en la temática de seguridad informática y antivirus, pero utilizan terminología y estilos diferentes. Por tanto, resulta mucho más eficaz entrenar motores especializados para cada una de estas empresas, en lugar de uno común. Yendo más allá, dentro de una misma empresa los contenidos pueden ser muy diferentes: podemos tener, por un lado, documentación técnica y, por otro, documentos legales, como licencias. Así que hay ocasiones en las que para una misma empresa sería conveniente incluso entrenar distintos motores según la temática.

“Inteligencia artificial”. [Imagen de vecteezy.com. En línea. 24 de enero de 2021.]

Me lleva esto a la siguiente pregunta pendiente, ¿cuál es el volumen de datos necesario para crear un motor personalizado? Depende del servicio que vayamos a utilizar para el entrenamiento. Soluciones que permiten la personalización como SDL Language Cloud, Microsoft Custom Translator o Google AutoML Translation ya de por sí cuentan con un volumen ingente de datos, por consiguiente, la cantidad de datos propios que debemos aportar es relativamente baja, por ejemplo, en torno a 10.000 segmentos. Otras soluciones no cuentan con esta base inicial, por lo que requerirán un aporte mayor, pero es importante mencionar que hay corpus públicos que se pueden emplear, como los recogidos en el corpus paralelo OPUS. En el caso de utilizar soluciones en la nube, es fundamental revisar cuidadosamente las condiciones de uso y asegurarse de que los datos estén debidamente protegidos.

Por último, había una pregunta muy interesante sobre recomendaciones para configurar el entrenamiento iterativo de motores, de forma que el motor vaya aprendiendo de sus errores. Es una pregunta que me agrada especialmente, porque entiendo que un motor de traducción automática es como uno de fórmula uno: nunca está finalizado del todo, siempre hay ajustes y mejoras que hacer. Hay distintas formas de abordar esta cuestión. La más avanzada tecnológicamente es la traducción automática adaptativa, en la que el motor aprende de las correcciones en tiempo real. Otras alternativas más modestas, pero también muy eficaces, son el reentrenamiento de motores periódico (mensual, trimestral) o la automatización de la corrección de errores frecuentes a partir de búsquedas y reemplazos, utilizando por ejemplo Okapi Rainbow.Espero que este artículo haya respondido varias de las preguntas que no pudieron atenderse durante el webinario o que sirva para complementarlo.

[Correctora de este artículo: Rosario ‘Charo’ Welle, revisora de Intercambios.]

Rubén de la Fuente es licenciado en traducción por la Universidad de Granada. Ha trabajado en localización de programas informáticos y páginas web en distintos puestos, como traductor, revisor, gestor de proyectos y especialista en traducción automática. En la actualidad, trabaja como científico de datos, con el objetivo de mejorar la experiencia de usuario mediante el uso de la lingüística computacional y la visualización de datos.

tagged with ATA, ATA Spanish Language Division, Entrenamiento de motores, Inteligencia Artificial, Motores de traducción automática, Posedición, Rosario Charo Welle, Rubén De la Fuente