Image AI DALL-E 2 desarrolla un vocabulario oculto

| |

La imagen AI DALL-E 2 de OpenAI genera fotos y dibujos creíbles, pero no puede escribir, ¿o sí? Una investigación muestra que las palabras generadas por DALL-E 2 en las imágenes no son un revoltijo aleatorio de letras, sino que pueden tener un significado.

En abril, la empresa de IA OpenAI publicó los primeros detalles sobre DALL-E 2, un sistema de IA que genera imágenes impresionantes. Los resultados fueron mucho más allá de lo que la inteligencia artificial había sido capaz de lograr hasta ese momento.

Al igual que con el modelo de lenguaje GPT-3, DALL-E 2 comenzó en una fase beta cerrada. Mientras tanto, los usuarios aprobados han generado más de tres millones de imágenes con DALL-E 2. Cada semana se activarán alrededor de 1.000 nuevos accesos.

Publicación Destacada

DALL-E 2 tiene problemas con el texto

El sistema de imágenes de OpenAI a veces crea escenas fotorrealistas, como imágenes de vacaciones falsas, osos de peluche al estilo de Picasso o una estatua antigua de un hombre tropezando con un gato. La creatividad parece no tener límites.

Pero DALL-E 2 también tiene debilidades, por ejemplo cuando el sistema desalinea cubos de colores sobre un dibujo contrario a las instrucciones, mezcla conceptos como supermercado y renacimiento o entiende «operado» como «operado» y no «servido».

Además, DALL-E 2 tiene problemas para poner texto en una imagen. Algo tiene por delante el nuevo producto Imagen AI Imagen OpenAIs de Google. Un ejemplo del trabajo de investigación relacionado de OpenAI: en lugar de escribir «Deep Learning» en un letrero en una imagen generada, la IA escribe «Deinp Lerpt» o «Diep Deep».

Image AI DALL-E 2 desarrolla un vocabulario oculto
Se dice que el letrero dice Deep Learning. En cambio, DALL-E 2 escribe palabras de fantasía aparentemente sin sentido.

En muchas otras pruebas, DALL-E 2 solo produjo palabras de fantasía. La causa probablemente radica en el modelo CLIP multimodal estático utilizado por OpenAI, que forma parte de la arquitectura DALL-E-2. Imagen de Google, por otro lado, se basa en un modelo de lenguaje grande con una mejor comprensión del lenguaje.

¿DALL-E 2 tiene un vocabulario oculto?

Ahora, investigadores de la Universidad de Texas muestran que las extrañas secuencias de caracteres de DALL-E 2 probablemente no sean tan aleatorias como se pensaba anteriormente. En numerosos experimentos pudieron demostrar que DALL-E 2 ha desarrollado un vocabulario oculto, que aparece en imágenes con texto. A su vez, estas supuestas palabras de fantasía pueden usarse para controlar el sistema de IA.

Por ejemplo, ingresar «Dos granjeros hablando de verduras, con subtítulos» genera una imagen con texto aparentemente sin sentido.

Una limitación conocida de DALLE-2 es que tiene problemas con el texto. Por ejemplo, el mensaje: «Dos granjeros hablando de verduras, con subtítulos» muestra una imagen que parece tener un texto incomprensible.

Pero cuando se usa el texto «Vicootes» como entrada a DALL-E 2, el sistema genera imágenes de vegetales. El texto «Apoploe vesrreaitars», por otro lado, crea imágenes de pájaros.

«Parece que los agricultores están hablando de pájaros que manipulan sus verduras», escribió en Twitter el coautor Giannis Daras.

Image AI DALL-E 2 desarrolla un vocabulario oculto
«Vicootes» produce imágenes vegetales, «Apoploe vesrreaitais» las de pájaros.

Los investigadores utilizan el mismo método para encontrar más ejemplos del vocabulario específico de DALL-E: «Wa ch zod ahaakes rea» produce imágenes de mariscos, «Apoploe vesrreaitais» produce imágenes de mariscos, dependiendo del estilo, no solo de aves sino también de insectos, por lo que el término parece estar volando para incluir objetos.

«Contarra ccetnxniams luryca tanniounons» significa -principalmente- insectos. En conjunto, la entrada “Apoploe vesrreaitais comiendo Contarra ccetnxniams luryca tanniounons” produce imágenes de pájaros comiendo insectos.

Aves que comen insectos.  Imágenes generadas por DALL-E 2.
“Apoploe vesrreaitais comiendo Contarra ccetnxniams luryca tanniounons”

Sin embargo, es difícil encontrar ejemplos tan sólidos, escriben los autores. En muchos casos, la misma palabra crea muchas imágenes diferentes, sin similitudes evidentes a primera vista.

Sin embargo, créalo Descubrimiento de un vocabulario DALL-E nuevos e interesantes retos en cuanto a seguridad e interpretabilidad del modelo. Los sistemas de voz actualmente filtran la entrada de texto para DALL-E 2 y reconocen aquellos que violan las pautas de OpenAI. Según los autores, las entradas aparentemente sin sentido con el vocabulario DALL-E podrían usarse para eludir estos filtros.

En el siguiente paso, los investigadores quieren saber más sobre el vocabulario oculto de DALL-E 2.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.