La IA de imágenes de Google supera a DALL-E 2, pero Google tiene dudas

| |

Con la imagen generativa AI Imagen, Google también demuestra tras OpenAI que la inteligencia artificial puede generar imágenes creíbles y útiles.

Imagen es la respuesta de Google a la imagen AI DALL-E 2 recientemente presentada por OpenAI. Con una diferencia: OpenAI presentó DALL-E 2 directamente como un producto que incluye una prueba beta, que debería estar disponible para más personas a partir del verano.

Según los investigadores de Google, Imagen supera a DALL-E 2 en términos de precisión y calidad, pero la IA generativa actualmente solo está disponible como trabajo científico. Por razones éticas, esto probablemente no cambiará en un futuro cercano, más sobre esto más adelante.

Publicación Destacada

La IA de imágenes de Google supera a DALL-E 2, pero Google tiene dudas
Imagen genera imágenes que coinciden con la entrada de texto.

El texto se convierte en imagen

Imagen se basa en un gran equipo preentrenado Modelo de lenguaje transformador (T5), que produce una representación de imagen numérica (incrustación de imagen) a partir de la cual un modelo de difusión crea una imagen. Los modelos de difusión ven imágenes que gradualmente se vuelven ruidosas durante el entrenamiento. Después del entrenamiento, los modelos pueden revertir este proceso, es decir, generar una imagen a partir del ruido.

La IA de imágenes de Google supera a DALL-E 2, pero Google tiene dudas
El proceso de generación de Imagen. La generación de imágenes se origina a partir de la comprensión del texto de un gran modelo de lenguaje Transformer. En teoría, se podría usar un modelo de lenguaje diferente para la entrada, lo que a su vez debería afectar la calidad de las imágenes.

Luego, la imagen original de baja resolución (64 x 64) se aumenta mediante el escalado de IA hasta 1024 x 1024 píxeles, la misma resolución que DALL-E 2. Similar a Nvidia DLSS, el escalado de IA agrega nuevos detalles apropiados en términos de contenido , por lo que también ofrece una gran nitidez en la resolución objetivo. A través de este proceso de ampliación, Imagen ahorra una gran cantidad de potencia informática que sería necesaria si el modelo generara directamente resoluciones altas.

Imagen funciona mejor que DALL-E 2 en evaluación humana

Un hallazgo clave del equipo de inteligencia artificial de Google es que un gran modelo de lenguaje previamente entrenado es «sorprendentemente efectivo» para codificar texto para la síntesis de imágenes posterior. Para una generación de imágenes más realistas también tiene la La ampliación del modelo lingüístico tiene un mayor efecto como un entrenamiento más extenso del modelo de difusión que crea la imagen real.

El equipo desarrolló el Punto de referencia «DrawBench», donde las personas califican la calidad de una creatividad generada y qué tan bien la creatividad coincide con el texto de entrada. Comparan las salidas de varios sistemas en paralelo.

La IA de imágenes de Google supera a DALL-E 2, pero Google tiene dudas
En el banco de pruebas DrawBench, las imágenes humanas generadas por Imagen y DALL-E 2 se evaluaron en términos de precisión de ajuste a la entrada y la calidad del motivo. Según Google Imagen, los probadores humanos los prefirieron “claramente”.

En esta prueba, Imagen se desempeñó significativamente mejor que DALL-E 2, lo que los investigadores atribuyen a una mejor comprensión del lenguaje del modelo de texto, entre otras cosas. En la mayoría de los casos, Imagen puede traducir la instrucción «Un panda haciendo arte latte» al motivo correcto: un panda vertiendo leche perfectamente en una taza de café. DALL-E 2 crea una cara de panda en la espuma de leche.

La IA de imágenes de Google supera a DALL-E 2, pero Google tiene dudas
A la izquierda están las imágenes generadas por Imagen, que muestran un motivo que coincide con la entrada en tres de los cuatro casos. A la derecha, la interpretación errónea de DALL-E 2 en cuatro de los cuatro casos.

Incluso con un punto de referencia basado en el Conjunto de datos COCO (objeto común en contexto) Imagen logró un nuevo récord (7,27) y superó a DALL-E (17,89) y DALL-E 2 (10,39). Los tres modelos de imagen no se entrenaron previamente con los datos de Coco. Sólo Crear una escena de Meta (7.55) actúa en pie de igualdad con Imagen, pero la IA de imagen de Meta fue entrenada con datos de Coco.

Muévete despacio y deja que las cosas se curen

Actualmente no está prevista una publicación del modelo por razones éticas, ya que el modelo de texto subyacente contiene «distorsiones y restricciones sociales», por lo que Imagen podría crear «estereotipos nocivos».

Además, Imagen actualmente tiene «limitaciones significativas» para generar imágenes con personas, incluida «una tendencia general a generar imágenes de personas con tonos de piel más claros y una tendencia a que las imágenes que representan diferentes ocupaciones sean consistentes con los estereotipos de género occidentales».

Por esta razón, Google no quiere lanzar Imagen o tecnología similar “sin más medidas de protección”. DALL-E 2 también tiene estos problemas. Por lo tanto, OpenAI está implementando muy lentamente la IA de imagen para alrededor de 1000 probadores por mes. Una conclusión provisional reciente después de tres millones de imágenes generadas mostró que actualmente solo una fracción de los motivos DALL-E violan las pautas de contenido de OpenAI.

Jeff Dean, investigador sénior de IA en Google AI, ve el potencial de la IA para fomentar la creatividad en la colaboración entre humanos y computadoras. Imagen es «una dirección» que sigue Google. decano comparte numerosos ejemplos de imágenes en Twitter. Más información y una demostración interactiva están disponibles en Página del proyecto Imagen.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.