Deepmind Flamingo: la nueva IA tiene una mejor comprensión visual

Foto del autor

By Lina

Deepminds Flamingo combina un modelo de IA visual con un modelo de lenguaje. Por lo tanto, la inteligencia artificial debería obtener una mejor comprensión visual.

Los grandes modelos de lenguaje, como GPT-3 de OpenAI, son aprendices de pocas oportunidades: aprenden a completar una tarea con solo unos pocos ejemplos. Si GPT-3 es para traducir alemán a inglés, por ejemplo, el modelo se puede configurar en consecuencia con dos o tres traducciones de ejemplo.

Publicación Destacada

Este aprendizaje de pocos disparos funciona porque GPT-3 está preentrenado con una gran cantidad de datos. El post-entrenamiento con algunos ejemplos es entonces comparable a un ajuste fino.

Deepmind ahora cuenta con Flamingo, una inteligencia artificial que combina un modelo de lenguaje y un modelo visual, aplicando la capacidad de pocas tomas al análisis de imágenes.

Deepmind Flamingo confía en chinchilla y perceptor

En lugar de ejemplos de texto puro, el modelo de lenguaje visual de Flamingo procesa pares de imágenes y texto de ejemplo en la entrada, como preguntas y respuestas esperadas a una imagen. Luego, el modelo puede responder preguntas sobre nuevas imágenes o videos.

Como ejemplo, Deepmind cita la identificación y el conteo de animales, como tres cebras en una imagen. Un modelo visual tradicional que no está conectado a un modelo de lenguaje tendría que volver a entrenarse para esta tarea utilizando miles de imágenes de ejemplo. Flamingo, por otro lado, solo necesita unas pocas imágenes de muestra con la salida de texto adecuada.

Deepmind Flamingo Training 860x525.jpg
Flamingo aprende a usar el ejemplo del perro para completar la oración sobre el gato.

Flamingo combina un codificador ResNet entrenado con imágenes y texto con una variante del modelo de lenguaje Chinchilla de Deepmind. La conexión es posible gracias al perceptor de Deepmind, que procesa la salida del modelo visual y la pasa a las capas de atención frente al modelo de lenguaje.

Recomendado:  Ironhack Vs Le Wagon: ¿Qué bootcamp de codificación es mejor?

Durante el entrenamiento de Flamingo, el modelo visual y el modelo de lenguaje se congelan para preservar su capacidad. Solo se entrena el receptor y la capa de atención.

Flamingo demuestra comprensión básica de imágenes

En 16 puntos de referencia de comprensión de imágenes probados, Flamingo supera a otros enfoques de pocos disparos. En estas pruebas, Flamingo tiene que reconocer el discurso de odio en los memes, identificar y describir objetos o nombrar eventos en un video.

Con solo 32 ejemplos y sin ajustar los pesos en los modelos, Flamingo también supera a los mejores métodos actuales en siete tareas, que se han perfeccionado con miles de ejemplos anotados.

1652102774 343 Deepmind Flamingo combina lenguaje y vision
Flamingo supera a los sistemas comparables.

Flamingo también puede mantener conversaciones más o menos significativas, procesando información de imágenes y texto. En diálogo con un ser humano, el modelo puede corregirse por sí mismo, por ejemplo, cuando se le pregunta sobre un posible error.

Según los investigadores, los resultados representan una paso importante en el camino hacia una comprensión visual general de la inteligencia artificial. No importa qué tan lejos sea este camino, la vinculación de grandes modelos de IA para tareas multimodales probablemente jugará un papel importante.

Lina es una experta apasionada por el mundo de la tecnología, con un enfoque especial en smartphones, aplicaciones móviles y el emocionante universo gaming. Con años de experiencia en la industria, Lina ha explorado a fondo la evolución de los dispositivos móviles, desde los primeros teléfonos hasta los sofisticados smartphones actuales. Su profundo conocimiento de las últimas tendencias en aplicaciones y juegos la convierte en una escritora competente y apasionada. Cuando no está probando los últimos smartphones o sumergiéndose en emocionantes aventuras de juego, Lina comparte sus conocimientos y entusiasmo con la comunidad tecnológica a través de su escritura.