Modelo de IA BLOOM: auténtica alternativa de código abierto a GPT-3

| |

BigScience Bloom es un nuevo competidor de GPT-3 que es mucho más que otro modelo de lenguaje importante.

Los modelos de lenguaje grande se encuentran entre las tecnologías de IA más exitosas de los últimos años: las grandes empresas estadounidenses como OpenAI, Google, Nvidia o Meta los utilizan para sus productos o venden acceso a las capacidades de texto de la inteligencia artificial.

También en China existen numerosos modelos de idiomas grandes de diferentes proveedores. En marzo, por ejemplo, investigadores del Grupo Alibaba presentaron un modelo con 1,93 billones de parámetros. El marco BaGuaLu utilizado para el entrenamiento teóricamente permite modelos de IA con hasta 174 billones de parámetros.

Publicación Destacada

Las empresas en Israel y Europa también ofrecen modelos de idiomas. La startup israelí de inteligencia artificial AI21 Labs obtuvo recientemente $ 64 millones para desarrollar más modelos de inteligencia artificial como el Jurassic-1 Jumbo. La empresa alemana Aleph Alpha lanzó Luminous y recientemente anunció una cooperación con el fabricante de chips británico Graphcore para otros proyectos.

Estos enormes modelos de lenguaje a menudo sirven a los clientes como base para sus propias aplicaciones de IA, para las cuales ajustan el modelo grande con poca capacitación adicional. Las tecnologías subyacentes también se utilizan en sistemas multimodales como DALL-E 2, Imagen o Parti.

EleutherAI, Hugging Face y Meta traen modelos de código abierto

Pero modelos como el GPT-3 de OpenAI o el LaMDA de Google son secretos bien guardados, su código no es de libre acceso. Por lo tanto, los investigadores independientes han estado trabajando en alternativas de código abierto durante varios años, lo que debería abrir el acceso a grandes modelos de lenguaje para su uso e investigación.

Los pioneros incluyen el colectivo de investigación EleutherAI, que lanzó el GPT-NeoX-20B de 20 mil millones de parámetros a principios de este año, y la startup de IA Hugging Face, que permite el desarrollo, capacitación e implementación de modelos de IA de código abierto.

Probablemente también impulsado por estos éxitos, Meta lanzó el modelo de 175 mil millones de parámetros OPT-175B en mayo, pero solo para investigadores y solo a pedido. Es el modelo de lenguaje abierto más grande hasta la fecha, aunque con acceso limitado.

BigScience Bloom es ciencia abierta y código abierto

Ahora hay BigScience Bloom es una verdadera alternativa de código abierto a GPT-3, que es de libre acceso con fines comerciales y de investigación. Bloom fue entrenado durante 117 días en el centro de supercomputación del Centro Nacional de Investigación Científica de Francia y tiene un tamaño de 176 mil millones de parámetros.

El desarrollo involucró a más de 1000 investigadores voluntarios, organizados en el proyecto BigScience, coordinado por Hugging Face y cofinanciado por el gobierno francés.

Bloom se puede descargar gratis en Hugging Face y debe estar al nivel de GPT-3 en términos de precisión, y también de toxicidad. Una diferencia clave de GPT-3 es el mayor enfoque en idiomas distintos del idioma inglés, que de otro modo sería dominante.

Bloom puede manejar 46 idiomas diferentes, incluidos francés, vietnamita, mandarín, indonesio, catalán, 13 idiomas índicos (como el hindi) y 20 idiomas africanos. BigScience recopiló numerosos conjuntos de datos nuevos y publica todos los detalles sobre los conjuntos de datos, el desarrollo y la capacitación de Bloom.

El lanzamiento está bajo el desarrollado por BigScience Licencia de IA responsable, que prohíbe el uso de Bloom en áreas como la aplicación de la ley, la atención médica o el engaño. A diferencia de OpenAI, por ejemplo, BigScience no tiene forma de prevenir de manera efectiva el mal uso, ya que el modelo está disponible directamente en lugar de a través de una interfaz.

Bloom debería servir ahora como base para numerosas aplicaciones y, sobre todo, proyectos de investigación que creen aplicaciones alternativas de IA alejadas de las grandes empresas tecnológicas.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.