GLM-130B: El mejor modelo lingüístico viene de China

| |

Un modelo de idioma chino depende de GPT-3 de OpenAI y PaLM de Google. Huawei muestra una alternativa Codex.

Los grandes modelos de IA para datos de texto, código e imagen juegan un papel central en la difusión de la inteligencia artificial en nuestra vida cotidiana. Los investigadores de la Universidad de Stanford incluso quieren llamar a estos modelos «modelos fundamentales».

La pionera del desarrollo hacia modelos grandes es la empresa estadounidense de IA OpenAI, cuyo modelo de lenguaje GPT-3 ilustró por primera vez la utilidad de tales sistemas de IA.

Publicación Destacada

Además de muchas tareas de texto diferentes, GPT-3 también mostró habilidades de código rudimentarias. Luego, OpenAI utilizó la estrecha cooperación con Microsoft para entrenar el gran modelo de código Codex con datos de Github. Codex también sirve como base para CoPilot de Github.

Las empresas de IA de China están desarrollando poderosas alternativas a los modelos occidentales de IA

La lista de los principales modelos de lenguaje de las empresas e instituciones occidentales ahora es larga: además de GPT-3, está PaLM de Google, Jurassic-1 de AI21 Lab, los modelos OPT de Meta, BigScience BLOOM y Luminous de Aleph Alpha. También hay modelos de código de Google, Amazon, Deepmind y Salesforce.

Sin embargo, estos modelos se entrenan principalmente con datos occidentales y, por lo tanto, no son adecuados para su uso en China, siempre que el acceso sea posible o esté permitido.

Por lo tanto, las empresas e instituciones de investigación chinas comenzaron a producir sus propias alternativas a más tardar cuando se presentó GPT-3. En 2021, por ejemplo, Huawei demostró PanGu-Alpha, un modelo de lenguaje de 200 mil millones de parámetros entrenado en 1,1 terabytes de datos en idioma chino. En el mismo año, la Academia de Inteligencia Artificial de Beijing (BAAI) presentó Wu Dao 2.0, un modelo multimodal de 1,75 billones de parámetros.

El modelo de idioma GLM-130B depende de GPT-3

Ahora, investigadores de la Universidad Tsinghua de China han presentado GLM-130B, un modelo de lenguaje bilingüe que, según los puntos de referencia del equipo, supera a OPT de Meta, BLOOM y GPT-3 de OpenAI. El rendimiento de pocos disparos de los modelos en chino e inglés superó el nivel del anterior GPT-3 de primera línea en el punto de referencia Massive Multi-Task Language Understanding (MMLU).

GLM-130B: El mejor modelo lingüístico viene de China
El modelo de 130 mil millones de parámetros supera a GPT-3 y PaLM. | Imagen: http://keg.cs.tsinghua.edu.cn/glm-130b/posts/glm-130b/

El equipo también probó GLM-130B con LAMBADA, un punto de referencia de tiro cero para predecir la última palabra de una frase. El punto de referencia se utiliza para evaluar las capacidades de modelado de lenguaje de modelos de lenguaje grandes. Aquí, el modelo chino incluso dejó atrás al líder anterior PaLM, a pesar de 410 mil millones menos de parámetros.

Para la formación, el equipo se basó en un método desarrollado en la Universidad de Tsinghua (GLM) con 400 GPU Nvidia A100.

Esta es la primera vez que un modelo de idioma grande de China ha superado a los modelos occidentales. GLM-130B está encendido github y HuggingFace disponible.

El codificador del modelo de código PanGu logra el rendimiento del Codex

Como un desarrollo adicional constante de PanGu, Noah’s Ark Lab y Huawei Cloud de Huawei también presentaron recientemente una alternativa china a Copilot, Codex y otros modelos de código. Al igual que los modelos occidentales, PanGu-Coder completa el código y se basa en el trabajo preparatorio realizado en PanGu. La principal diferencia son los datos de entrenamiento: código en lugar de texto.

El codificador PanGu viene en varios modelos que van desde 317 millones hasta 2600 millones de parámetros. Según Huawei, los modelos chinos están a la par con el Codex, AlphaCode y las alternativas en las evaluaciones humanas, y en algunos casos los superan.

La empresa también muestra una variante (PanGu-Coder-FT) entrenada con un conjunto de datos seleccionados, que funciona aún mejor. PanGu-Coder llega casi un año después del lanzamiento del Codex de OpenAI. Huawei sigue el patrón de PanGu-Alpha, que también se lanzó casi un año después de GPT-3.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.