Meta lanza la alternativa gratuita GPT 3

| |

El departamento de inteligencia artificial de Meta lanza un modelo de lenguaje altamente capacitado para avanzar en la investigación, especialmente sobre las debilidades de la inteligencia artificial del lenguaje. El uso comercial no esta permitido.

El Speech AI GPT-3 de OpenAI fue un hito en el desarrollo de sistemas de IA de lenguaje natural. Por primera vez, un modelo de IA pudo formular textos cortos de manera tan creíble y coherente que las personas ya no pueden reconocerlos como generados por IA. En el período que siguió, el modelo demostró ser de uso flexible para muchas otras áreas de aplicación, como la generación de código. El reentrenamiento menor fue suficiente para OpenAI.

En consecuencia, OpenAI vio un modelo de negocio en GPT-3 por primera vez y ofrece el lenguaje AI a través de una interfaz, entre otras cosas. El modelo real no está disponible para los investigadores, lo que beneficiaría el progreso científico.

Meta ahora se está posicionando en esta brecha y ofrece a los investigadores y socios seleccionados un gran modelo de lenguaje de IA para la investigación gratuita.

Publicación Destacada

Meta OPT: gran modelo de lenguaje de IA para investigación

Según los investigadores de Metas, el «Transformador preentrenado abierto» (OPT) es comparable al GPT-3 de OpenAI en términos de rendimiento y tamaño. La versión más grande de OPT tiene 175 mil millones de parámetros, como GPT-3. Sin embargo, según Meta, el entrenamiento de IA fue significativamente más eficiente: se dice que causó solo una séptima parte de la huella de CO₂ de GPT-3.

Ese el modelo OPT más grande con 175 mil millones de parámetros pondrá Meta a disposición de socios seleccionados de la investigación, la industria, los gobiernos y la sociedad civil que lo soliciten. Deben poder analizar las ponderaciones y conexiones de la red neuronal durante el procesamiento del lenguaje.

Meta hace que los modelos OPT más pequeños de 125 millones a 30 mil millones de parámetros estén disponibles gratuitamente. Junto con los modelos, Meta también publica el código para el entrenamiento y la documentación del historial de entrenamiento. Los modelos están permitidos no comercial ser usado (Acuerdo de licencia).

Cerrando la brecha entre la industria y la investigación

Meta espera que la comunidad científica encuentra «directrices claras» para abordar los problemas de los grandes modelos de lenguaje de IA en particular como el sesgo y la toxicidad en el lenguaje generado por IA. El trabajo de investigación en el pasado ha demostrado, entre otras cosas, que GPT-3 no solo refuerza los prejuicios existentes en el entrenamiento de datos, sino que también genera otros nuevos.

“Sin acceso directo a estos modelos, los investigadores tienen una capacidad limitada para desarrollar estrategias para detectar y mitigar daños potenciales, dejándolo solo en manos de aquellos con el capital para acceder a modelos de esta escala”, escribe Meta.

Los problemas descritos retrasan o dificultan el uso generalizado de modelos de lenguaje de IA en la práctica. Meta, por otro lado, está muy interesada en usar los modelos correspondientes de la manera más rápida y segura posible en sus propias plataformas, por ejemplo, para moderación de redes sociales o asistencia de voz con VR, AR y con sus propios dispositivos domésticos inteligentes.

Publicación Destacada

Como tal, lanzar OPT para Meta tiene sentido para acelerar el progreso científico. Además, la compañía se está posicionando positivamente con la rara descendencia científica de IA a través de la publicación.

«Creemos que toda la comunidad de IA (investigadores académicos, sociedad civil, legisladores e industria) debe trabajar en conjunto para desarrollar pautas claras para una IA responsable en general y LLM responsables en particular, ya que son fundamentales para muchas aplicaciones de lenguaje posteriores», escribe El equipo de investigación de Meta.

Un segmento mucho más amplio de la comunidad de IA necesita acceso a grandes modelos de lenguaje de IA para «realizar investigaciones reproducibles y avanzar colectivamente en el campo».

Los modelos OPT más pequeños están disponibles en Github , se puede realizar una solicitud de acceso al modelo 175B aquí.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.