La última IA de imágenes de Google es mejor que la anterior, que sólo tiene cuatro semanas

| |

La última imagen AI Parti de Google genera imágenes a partir de descripciones particularmente extensas. Esto permite controlar los resultados de forma aún más precisa.

Google presentó recientemente la imagen AI Imagen, que genera imágenes con una arquitectura similar (difusión) a Open AIs DALL-E 2, pero utiliza un gran modelo de lenguaje de IA para la entrada y, gracias a su mayor comprensión del lenguaje, mejores resultados de imagen a partir del texto. las descripciones pueden generar.

El modelo de IA Parti (Pathways Autoregressive Text-to-Image) presentado ahora por Google está probando una arquitectura alternativa (autoregresiva) que está aún más cerca de la función de los modelos de lenguaje grandes, por ejemplo, para la traducción.

Publicación Destacada

Estos modelos de lenguaje predicen la coincidencia de nuevas palabras en función de las palabras anteriores y en el contexto de la oración o el párrafo. Parti aplica este principio a las imágenes, con éxito.

Escalas parciales – y tiene conocimiento del mundo según Google

Al igual que con los modelos de lenguaje grande, Parti también muestra que la IA de imágenes logra resultados significativamente mejores con un entrenamiento más completo y más parámetros. En pocas palabras: el modelo de IA se escala, y cómo. Además, puede convertir con precisión entradas de texto particularmente largas y complejas en imágenes, lo que habla de una comprensión aún mejor de la conexión entre el lenguaje y los motivos.

Parti puede generar imágenes detalladas basadas en una entrada de texto particularmente detallada. Cuanto más capacitado esté el modelo, mejor funcionará. El modelo más grande puede incluso escribir. La entrada para esta imagen es: «Una foto de retrato de un canguro con una sudadera con capucha naranja y gafas de sol azules de pie sobre el césped frente a la Ópera de Sídney con un cartel en el pecho que dice ¡Bienvenidos amigos!» | Imagen: Google

La imagen de arriba muestra la diferencia de calidad en el mismo indicador para cuatro modelos de Parti entrenados en diferentes niveles. El modelo más grande con 20 mil millones de parámetros genera la imagen más libre de errores adecuada para la entrada de texto extenso. A diferencia de DALL-E 2, Parti puede incluso deletrear correctamente las palabras en la versión más grande («Bienvenidos amigos»).

«El modelo 20B es particularmente adecuado para tareas abstractas que requieren conocimiento del mundo, perspectivas específicas o la escritura y representación de símbolos», escribe el equipo de investigación de Google.

La última IA de imágenes de Google es mejor que la anterior, que sólo tiene cuatro semanas
Entrada: «Una foto de un astronauta montando a caballo en el bosque. Hay un río frente a ellos con nenúfares.» | Imagen: Parti/Google

Los evaluadores humanos prefirieron los resultados del modelo más grande en comparación con el modelo de tres mil millones alrededor del 63 por ciento del tiempo. En alrededor del 76 por ciento de los casos, otorgaron al modelo de 20 mil millones la salida de imagen que mejor coincidía con el texto.

La última IA de imágenes de Google es mejor que la anterior, que sólo tiene cuatro semanas
Descripción: «Un letrero verde que dice ‘Aprendizaje muy profundo’ y está al borde del Gran Cañón. Nubes blancas hinchadas están en el cielo.» | Imagen: Parti/Google

Las imágenes se generan con una resolución de 256 x 256 píxeles y luego se escalan hasta 1024 x 1024 píxeles.

Incluso Parti no puede contar

Parti también puede generar imágenes fantásticas de temas que no formaban parte del material de capacitación y que no existen. Los investigadores atribuyen a la IA de imágenes la capacidad de reproducir con precisión el conocimiento del mundo, ensamblar muchos protagonistas y objetos con gran detalle e interacción, y adherirse a un formato y estilo de imagen específicos.

La última IA de imágenes de Google es mejor que la anterior, que sólo tiene cuatro semanas
Al igual que Imagen o DALL-E 2, Parti domina muchos estilos de imagen diferentes. Para ello basta con incluir el estilo deseado en la descripción del texto. | Imagen: Google

Sin embargo, el sistema todavía tiene numerosos problemas, por ejemplo, con la representación de proporciones significativas o con la diferenciación y, como DALL-E 2, conteo de objetos dentro de una imagen.

Para la entrada de imagen «Dos pelotas de béisbol yacen a la izquierda de tres pelotas de tenis», el sistema genera dos pelotas de tenis ya la derecha otra pelota de tenis con la costura de una pelota de béisbol. También hay errores técnicos como la fuga de colores.

La última IA de imágenes de Google es mejor que la anterior, que sólo tiene cuatro semanas
Imagen: Parti/Google

Al equipo de investigación le preocupa la generación de estereotipos, un problema con el que también luchan Imagen y DALL-E 2. Por ejemplo, se refuerzan los estereotipos de trabajos típicos de hombres y mujeres. Además, existe un riesgo adicional de falsificación profunda debido a la posible generación fotorrealista de personas. Por esta razón, los investigadores inicialmente se abstuvieron de publicar el modelo, el código y otros datos. Quiere seguir trabajando en los problemas.

Es Parti Google’s Image AI for Pathways

El nombre también es interesante: la P en Parti significa Pathways, la arquitectura de inteligencia artificial de próxima generación de Google, que el jefe de inteligencia artificial de Google, Jeff Dean, presentó por primera vez a fines de 2021.

El objetivo de Pathways es un sistema de IA inteligente y multipropósito que algún día podrá generalizar «a través de millones de tareas». El hecho de que Parti tenga Pathway en su nombre podría ser una indicación de que está asumiendo la parte de la imagen en esta arquitectura futura. Según el equipo de investigación de Google, las combinaciones de arquitectura Parti e Imagen son concebibles.

El equipo muestra muchos más ejemplos interactivos positivos y negativos de las imágenes de Parti en un sitio web y explica la estructura del sistema en detalle.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.