Google explora habilidades emergentes en grandes modelos de IA

| |

Cuando se escalan los modelos de lenguaje, esporádicamente aparecen nuevas habilidades que no se encuentran en los modelos más pequeños. Un trabajo de investigación examina este efecto.

En diversas disciplinas como la filosofía, las ciencias clásicas, la ciencia cognitiva, la teoría de sistemas e incluso en el arte, la emergencia se refiere a la situación en la que un objeto de estudio exhibe propiedades que sus elementos individuales no poseen por sí mismos. Estos son, por ejemplo, comportamientos o habilidades que solo emergen a través de la interacción de las partes individuales.

El término proviene del latín emergere, palabra que se traduce como “aparecer”, “llegar” o “levantarse”. Algunas teorías consideran que la conciencia, por ejemplo, es una propiedad emergente de los cerebros biológicos. Un ejemplo de emergencia en los sistemas físicos es la aparición de patrones simétricos y fractales complejos en los copos de nieve.

Publicación Destacada

Los modelos de lenguaje grande exhiben habilidades emergentes

Los modelos de lenguaje grande, como GPT-3 de OpenAI, han definido recientemente el procesamiento del lenguaje natural (NLP) y han permitido grandes saltos en el rendimiento. Estos modelos mostraron que escalar los modelos de lenguaje mediante el uso de más datos y parámetros de entrenamiento conduce a un mejor rendimiento en las tareas de PNL. Mediante el estudio de las «leyes de escalado», los investigadores pudieron predecir los efectos del escalado en el rendimiento en numerosos casos.

Sin embargo, con el escalado, se dio cuenta de que el rendimiento del modelo en ciertas tareas no aumenta continuamente con el escalado. Los saltos observados en el rendimiento de tales tareas no siempre pueden predecirse por adelantado. Por el contrario, las habilidades se encuentran en modelos de lenguaje grandes que no se encuentran en modelos más pequeños.

Un nuevo artículo de investigadores de Google Research, la Universidad de Stanford, UNC Chapel Hill y Deepmind ahora está explorando estas habilidades emergentes en modelos de lenguaje a gran escala.

Los investigadores estudian el fenómeno impredecible de las habilidades emergentes

Según el equipo, estas habilidades emergentes incluyen, por ejemplo, la capacidad de controlar los resultados del modelo de lenguaje con indicaciones de pocos disparos o realizar cálculos matemáticos básicos como la suma y la resta con tres o la multiplicación con dos dígitos.

En estos y otros casos, se puede demostrar que cuando se visualiza utilizando una curva de escala, el rendimiento es casi aleatorio al principio y, en un determinado umbral crítico de la escala del modelo, el rendimiento salta muy por encima del azar.

Google explora habilidades emergentes en grandes modelos de IA
En numerosos puntos de referencia, claramente hay una transición en la que un modelo de lenguaje con escala adquiere capacidades emergentes.

Este cambio cualitativo también se conoce como transición de fase: un cambio dramático en el comportamiento general que no podría haberse predicho cuando el sistema se estudió a una escala más pequeña.

Más allá de las indicaciones de pocas tomas, existen otras estrategias de indicaciones y ajustes que mejoran las capacidades de los modelos de lenguaje grandes. Un ejemplo son las indicaciones de cadena de pensamientos, que realizan inferencias de forma más fiable.

Para algunos de estos métodos, los investigadores también observaron efectos emergentes: en modelos más pequeños, el rendimiento sigue siendo el mismo o incluso se deteriora a pesar del uso de un método. Solo en modelos más grandes, los métodos conducen a saltos de rendimiento.

Google explora habilidades emergentes en grandes modelos de IA
Ciertos métodos de indicación y ajuste fino solo producen mejoras en modelos más grandes.

Las habilidades emergentes siguen sin explicación por ahora

En su artículo, los investigadores también se refieren a varias explicaciones del fenómeno de las habilidades emergentes en los grandes modelos de lenguaje. Sin embargo, concluyen que aún no se puede explicar de manera concluyente.

Además de escalar el tamaño del modelo y los conjuntos de datos, en algunos casos, los modelos más pequeños con arquitecturas más modernas, datos de mayor calidad o procedimientos de entrenamiento mejorados pueden desarrollar capacidades similares. Por lo tanto, escalar no es el único factor que permite una nueva habilidad.

Sin embargo, a menudo es la escala la que muestra que tales habilidades emergentes son posibles en primer lugar. El modelo GPT-3 de 175 000 millones, por ejemplo, no había mostrado un rendimiento por encima del azar en indicaciones de una sola vez. Algunos investigadores sospecharon que la causa era la arquitectura modelo utilizada por GPT-3 y el objetivo de entrenamiento. Más tarde, sin embargo, el modelo PaLM de 540 mil millones de parámetros demostró que el escalado por sí solo puede ser suficiente para lograr un rendimiento superior al promedio en esta tarea sin cambiar la arquitectura fundamentalmente.

La aparición de nuevas habilidades, por lo tanto, plantea si una mayor escala permitirá modelos de lenguaje más grandes con habilidades novedosas. Según los investigadores, hay docenas de tareas en el punto de referencia BIG-Bench para PNL que ningún modelo de lenguaje grande ha descifrado aún, muchas de las cuales involucran razonamiento abstracto, como el ajedrez o las matemáticas avanzadas.

El equipo considera que los siguientes puntos son relevantes para futuras investigaciones:

  • mayor escalado del modelo
  • arquitecturas de modelo mejoradas y entrenamiento
  • escalado de datos
  • mejores técnicas y comprensión de las indicaciones
  • tareas fronterizas al límite de la capacidad de los modelos lingüísticos actuales
  • comprendiendo la emergencia

Hemos discutido las habilidades emergentes de los modelos de lenguaje, para los cuales hasta ahora solo se ha observado un rendimiento significativo en una cierta escala computacional. Las habilidades emergentes pueden abarcar una variedad de modelos de lenguaje, tipos de tareas y escenarios experimentales. Tales habilidades son un resultado descubierto recientemente de la ampliación de los modelos de lenguaje, y las preguntas sobre cómo emergen y si una mayor escala permitirá nuevas habilidades emergentes parecen ser importantes direcciones de investigación futuras para el campo de la PNL.

the paper

Resumen

  • Cuando los modelos grandes de IA se escalan con más datos y capacitación, pueden desarrollar nuevas habilidades, como resolver problemas matemáticos muy simples.
  • En este contexto, los investigadores hablan de emergencia: comportamientos o habilidades que solo emergen con la escala. Exactamente cómo ocurre la emergencia no está claro.
  • Un equipo de investigadores ha estudiado intensamente el fenómeno de las habilidades emergentes en grandes modelos de lenguaje y ahora está publicando sus resultados.
Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.