Meta lanza IA de traducción para 200 idiomas

| |

El nuevo sistema de traducción de Meta puede traducir 200 idiomas diferentes. El traductor universal automático también debería eliminar obstáculos en el metaverso en el futuro.

La traducción automática ha mejorado mucho en los últimos años gracias a los avances en el procesamiento del lenguaje natural. Empresas como DeepL ahora compiten con los traductores humanos con sus traducciones de alta calidad.

Los gigantes tecnológicos como Google o Meta también están desarrollando sus propios sistemas de IA para la traducción, cuyo objetivo principal es hacer que el contenido de sus propias plataformas, como YouTube, Facebook o Instagram, sea más accesible.

Pero los sistemas capacitados para la traducción de IA necesitan datos, y los datos son escasos para gran parte de los datos hablados del mundo. En la investigación, por lo tanto, se hace una distinción entre los llamados idiomas ricos en recursos y los idiomas débiles en recursos, aquellos para los que ya hay muchas traducciones en Internet, como el inglés, y aquellos para los que casi no hay traducciones.

Publicación Destacada

Metas «No Language Left Behind» busca al traductor universal

El jefe de Meta, Mark Zuckerberg, que quiere conectar a tantas personas como sea posible, actualmente todavía en Facebook e Instagram, en el futuro en Metaverse, por lo tanto, ve el desarrollo de un «Traductor de voz universal» como una tarea importante para su propia empresa.

De hecho, Meta lleva años investigando la traducción automática. En 2018, por ejemplo, hubo un gran éxito con los sistemas de IA entrenados sin supervisión y las traducciones inversas. En 2020, Meta mostró M2M-100, un sistema que podía traducir 100 idiomas. En 2021, un sistema de IA basado en este fue el primer modelo de IA multilingüe en superar los puntajes más altos en el punto de referencia de traducción WMT2021.

Dichos modelos de IA capacitados multilingües se consideran el futuro de la traducción automática: a diferencia de los sistemas más antiguos, estos se entrenan con docenas o cientos de idiomas al mismo tiempo para luego transferir el rendimiento logrado a través de este entrenamiento con lenguajes ricos en recursos. al rendimiento de la traducción de idiomas con pocos recursos. Google también está investigando tales sistemas de inteligencia artificial multilingües.

Meta-Chf Zuckerberg también ve el futuro de los traductores universales en Metaverse, donde podrían romper las barreras del idioma, eliminar las barreras de entrada y promover la creación de redes internacionales. | Imagen: Meta

Impulsado por el éxito de los modelos multilingües, Meta lanzó el proyecto «No Language Left Behind» en febrero de 2022, cuyo objetivo es permitir traducciones universales en tiempo real incluso para idiomas raros.

Zuckerberg llamó a esta capacidad multilingüe «un superpoder con el que la gente siempre ha soñado». Tal traductor podría romper las barreras del idioma y brindar a miles de millones de personas acceso a la información en su idioma preferido, según los investigadores de Metas AI.

Meta rompe la barrera de los 200 idiomas

Ahora Meta presenta NLLB-200, un modelo de IA multilingüe que se dice que puede traducir 200 idiomas en alta calidad. Para garantizar la calidad de la traducción, el equipo también creó un conjunto de datos de evaluación de 200 idiomas (FLORES-200) y lo utilizó para probar NLLB-200.

En comparación con otros modelos multilingües, el NLLB-200 supera el estado actual de la técnica en un promedio del 44 por ciento. En algunos idiomas africanos e índicos, el sistema de Meta incluso supera a los sistemas más antiguos en un 70 por ciento.

Los traductores actuales admiten menos de 25 idiomas africanos, muchos de los cuales son de mala calidad. El nuevo modelo de IA de Meta, por otro lado, admite 55 idiomas africanos y está destinado a ofrecer resultados de alta calidad.

Meta lanza IA de traducción para 200 idiomas
Metas NLLB-200 claramente supera a los sistemas comparables. | Imagen: Meta

Esto es posible gracias a los avances en la recopilación de recursos de capacitación, un modelo de IA más grande y una mejor evaluación y optimización del modelo con FLORES-200. Gracias a una nueva versión del kit de herramientas LASER para la transferencia de tiro cero en lingüística computacional, basado en un modelo de Transformer, Meta pudo escalar la cobertura lingüística de LASER3, generar grandes conjuntos de pares de oraciones incluso para idiomas con pocos recursos y usar el LID-200 -Mejor modelo de filtro, así como un conjunto de datos para lenguaje tóxico.

Meta también colabora con expertos humanos, especialmente en idiomas con pocos recursos, tanto para recopilar los datos de formación como para evaluar la calidad de la traducción.

El modelo NLLB-200 en sí se basa en una arquitectura de combinación de expertos en la que áreas específicas de la red neuronal procesan lenguajes específicos. Eso evitó que el sistema se sobrecargara con tantos datos de voz, dice Meta. La inteligencia artificial también se entrenó primero a partir de pares de idiomas ricos en recursos y luego pobres en recursos.

NLLB-200 tiene 54 mil millones de parámetros y fue entrenado en la nueva supercomputadora de IA Research SuperCluster (RSC) de Meta.

El NLLB-200 de Meta es de código abierto

Las técnicas y conocimientos desarrollados para NLLB-200 ahora se utilizarán para optimizar y mejorar las traducciones en Facebook e Instagram. Ya hay más de 25 mil millones de traducciones todos los días. La disponibilidad de traducciones sin errores en más idiomas también facilitaría la identificación de contenido peligroso y desinformación, protegería la integridad de las elecciones y frenaría la propagación del abuso sexual y la trata de personas en línea, escribe la compañía.

Hacer clic aquí para ver vídeo de Meta

Además, la traducción de AI también debería estar disponible para los editores de Wikipedia. Meta también fabrica los modelos NLLB-200 completamente entrenados, el conjunto de datos de evaluación FLORES-200, el código de entrenamiento del modelo y el código para replicar el conjunto de datos de entrenamiento disponibles bajo una licencia de código abierto.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.