Deepmind: La inteligencia artificial está lejos de ser completa

| |

¿Los modelos de lenguaje de IA gigantes como GPT-3 o PaLM están poco entrenados? Deepmind muestra que podríamos esperar más saltos en el rendimiento.

Los grandes modelos de lenguaje como OpenAIs GPT-3, Deepminds Gopher o recientemente el poderoso PaLM de Google dependen de una gran cantidad de datos y redes neuronales gigantes con cientos de miles de millones de parámetros. Con 540 000 millones de parámetros, PaLM es la inteligencia artificial más densamente entrenada para el habla hasta la fecha.

La tendencia hacia más y más parámetros proviene del conocimiento previo de que el Capacidades de escala de grandes modelos de IA con su tamaño. En algunos casos, las enormes redes pueden resolver tareas que sus desarrolladores no anticiparon.

Google PaLM, por ejemplo, puede explicar chistes y tiene una capacidad rudimentaria para sacar conclusiones lógicas: basándose en algunos ejemplos en el aviso (aprendizaje de «pocas tomas»), el modelo aprende a explicar su propia respuesta lógicamente. Los investigadores llaman a este proceso «incitación de la cadena de pensamientos».

Publicación Destacada

Incluso antes de la introducción de PaLM, los investigadores de Deepmind mostraron el modelo de lenguaje Chinchilla. El equipo examinó la Interacción del tamaño del modelo en parámetros y cantidad de datos de texto medido en la unidad procesada más pequeña, los llamados tokens.

La chinchilla de Deepmind muestra el potencial de más datos de entrenamiento

Mientras que en los últimos años los investigadores de IA se han centrado en más parámetros para un mejor rendimiento, Deepmind for Chinchilla redujo el tamaño de la red y, en cambio, aumentó significativamente la cantidad de datos de entrenamiento. Dado que la potencia informática requerida para el entrenamiento de IA depende del tamaño del modelo y de los tokens de entrenamiento, se mantuvo al nivel de Gopher, que también fue publicado por Deepmind.

Gopher tiene 280 mil millones de parámetros y ha sido entrenado con 300 mil millones de tokens. Chinchilla es cuatro veces más pequeña con solo 70 mil millones de parámetros, pero fue entrenada con aproximadamente cuatro veces más datos: 1,3 billones de tokens.

En casi todos los puntos de referencia de idiomas, Chinchilla está por delante de modelos de IA significativamente más grandes.

A pesar de los mismos costos de capacitación para chinchilla y tuza, la pequeña IA se desempeña mejor que su predecesora en casi todas las tareas lingüísticas. Chinchilla también coloca otros modelos de lenguaje significativamente más grandes, como GPT-3 o el enorme modelo Megatron-Turing NLG de Nvidia y Microsoft con 530 mil millones de parámetros en sus lugares. Solo PaLM de Google con sus 540 mil millones de parámetros y 768 mil millones de tokens de entrenamiento está por delante de Chinchilla.

El PaLM de Google está muy poco capacitado

Publicación Destacada

La chinchilla de Deepmind muestra que los modelos de lenguaje de IA gigantes no están bien entrenados y que los modelos de IA más pequeños entrenados con grandes cantidades de datos también pueden lograr un alto rendimiento. Los modelos más pequeños, como la chinchilla, son más rentables para operar después del entrenamiento y se pueden optimizar para aplicaciones específicas con solo un poco de información adicional.

Con este enfoque, una variante PaLM «pequeña» de 140 000 millones puede lograr el mismo rendimiento que la versión PaLM grande con 540 000 millones de parámetros, según los investigadores de Deepmind. Sin embargo: Mini-PaLM requeriría muchos más datos de entrenamiento: la friolera de tres billones de tokens de entrenamiento en lugar de solo 768 mil millones de tokens.

O, y esta variante debería estar en el plan de investigación: Google acepta los costos de capacitación más altos y entrena la versión más grande de PaLM con significativamente más datos. Esto se debe a que la curva de escala de PaLM es similar a la de los modelos de lenguaje más antiguos, como GPT-3. Por lo tanto, el equipo de investigación de Deepmind asume que «la mejora del rendimiento a través del escalado aún no se ha detenido».

Sin embargo, según Deepmind, un modelo de lenguaje tan completo requiere más de diez billones de tokens para el entrenamiento de IA, más de diez veces el conjunto de datos de entrenamiento más grande para modelos de lenguaje hasta la fecha.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.