Ya está disponible DALL-E «Open Diffusion» de código abierto

| |

Actualizado el 21 de agosto de 2022:

Open Diffusion ahora está disponible a través de una interfaz web. Después de iniciar sesión, puede usar comandos de texto para generar imágenes, similar a DALL-E 2, y tiene una serie de opciones de ajuste fino adicionales. Al igual que con DALL-E 2, existen restricciones para ingresar comandos como imágenes sexuales o violentas.

El modelo de difusión abierta, que puede ejecutarse localmente o en la nube, ya no tendría estas restricciones. Se espera que el modelo se publique en Github en los próximos días.

Puedes probar Web Open Diffusion gratis. Por el equivalente a poco menos de 12 euros puedes comprar alrededor de 1000 comandos de imagen. El número real de comandos de imagen disponibles depende de la complejidad de los cálculos y la resolución involucrada en su imagen.

Aquí tienes acceso a Dreamstudio, la interfaz web para Open Diffusion.

Publicación Destacada

Artículo original del 14 de agosto de 2022:

La competencia DALL-E de código abierto se ejecuta en su tarjeta gráfica

DALL-E 2 de OpenAI obtiene competencia libre. Detrás hay un movimiento de código abierto de IA y la start-up Stability AI.

La inteligencia artificial que puede generar imágenes a partir de descripciones de texto ha progresado rápidamente desde principios de 2021. En ese entonces, OpenAI mostró resultados impresionantes con DALL-E 1 y CLIP. La comunidad de código abierto utilizó CLIP para numerosos proyectos alternativos durante el año. Luego, en 2022, OpenAI lanzó el impresionante DALL-E 2, Google mostró Imagen y Parti, Midjourney llegó a millones de personas y Craiyon inundó las redes sociales.

La startup Stability AI acaba de anunciar el lanzamiento de Difusión estableotro sistema similar a DALL-E-2 que inicialmente estará disponible gradualmente para nuevos investigadores y otros grupos a través de un servidor Discord.

Después de una fase de prueba, Stable Diffusion se lanzará de forma gratuita: el código y un modelo completamente entrenado se publicarán como fuente abierta. También habrá una versión alojada con una interfaz web que los usuarios pueden usar para probar el sistema.

Stability AI financia gratis a los competidores de DALL-E 2

Stable Diffusion se creó en una cooperación entre investigadores de Stability AI, RunwayML, LMU Munich, así como EleutherAI y LAION. El colectivo de investigación EleutherAI es conocido por sus modelos de lenguaje de código abierto GPT-J-6B y GPT-NeoX-20B, entre otras cosas, y también realiza investigaciones sobre modelos multimodales.

La organización sin fines de lucro LAION (Red Abierta de Inteligencia Artificial a Gran Escala) proporcionó los datos de entrenamiento con el conjunto de datos de fuente abierta LAION 5B, que el equipo filtró con retroalimentación humana en una primera fase de prueba y así creó el conjunto de datos de entrenamiento final LAION-Estética .

Patrick Esser de Runway y Robin Rombach de LMU Munich dirigieron el proyecto, basándose en su trabajo en el grupo CompVis de la Universidad de Heidelberg. Ahí es donde surgieron los de uso frecuente. VQGAN y difusión latente. Este último sirvió como base para una difusión estable con investigaciones de OpenAI y Google Brain.

El matemático e informático Emad Mostaque está detrás de Stability AI, que se fundó en 2020. Trabajó como analista para varios fondos de cobertura durante varios años antes de dedicarse a la obra pública. En 2019, ayudó a fundar Symmitree, un proyecto que busca reducir el costo de los teléfonos inteligentes y el acceso a Internet para las poblaciones vulnerables.

Con Stability AI y su fortuna privada, Mostaque quiere promover la comunidad de fuente abierta de investigación de IA. Su puesta en marcha anteriormente apoyó la creación del conjunto de datos «LAION 5B», por ejemplo. Para entrenar el modelo de difusión estable, Stability AI proporcionó servidores con 4000 GPU Nvidia A100.

“Nadie más que nuestros 75 empleados tiene derecho a voto: no hay multimillonarios, grandes fondos, gobiernos o cualquier otra persona que controle la empresa o las comunidades a las que apoyamos. Somos totalmente independientes», dijo Mostaque a TechCrunch. «Usamos nuestra potencia informática para acelerar la IA de código abierto».

Stable Diffusion es un hito del código abierto

Actualmente se está ejecutando una prueba de difusión estable, las nuevas incorporaciones se distribuyen en oleadas. Los resultados, que se pueden ver en Twitter, por ejemplo, muestran que aquí está surgiendo un verdadero competidor de DALL-E-2.

Ya está disponible DALL-E "Open Diffusion" de código abierto
Stable Diffusion es más diversa que Midjourney, pero tiene una resolución ligeramente más baja que DALL-E 2. | Imagen: github

A diferencia de DALL-E 2, Difusión estable fotos de personajes destacados y generar otros motivos que OpenAI prohibe en DALL-E 2. Otros sistemas, como Midjourney o Pixelz.ai, pueden hacer esto, pero ninguno de ellos logra una calidad comparable con la gran variedad visible en Stable Diffusion, y ninguno de los otros sistemas es de código abierto.

Se dice que Stable Diffusion ya se ejecuta en una sola tarjeta gráfica con 5,1 gigabytes de VRAM: el proyecto lleva la tecnología de inteligencia artificial al límite que anteriormente solo estaba disponible a través de servicios en la nube.

Stable Diffusion ofrece así a los investigadores y a las partes interesadas sin acceso a servidores GPU la oportunidad de experimentar con modelos modernos de IA generativa. El modelo también debería funcionar en MacBooks con el chip M1 de Apple. Sin embargo, la generación de imágenes tarda varios minutos en lugar de segundos.

Ya está disponible DALL-E "Open Diffusion" de código abierto
DALL-E 2 de OpenAI obtiene competencia de código abierto. Detrás están la comunidad de código abierto y la startup Stability AI. | Imagen: github

Publicación Destacada

Stability AI también quiere permitir que las empresas entrenen su propia variante de difusión estable. Los modelos multimodales están siguiendo así el camino que ya han tomado los grandes modelos lingüísticos: lejos de un único proveedor hacia la amplia disponibilidad de numerosas alternativas a través del código abierto.

Runway ya está investigando la edición de texto a video habilitada por difusión estable.

Difusión Estable: Caja de Pandora y Beneficios Netos

Por supuesto, con el acceso abierto y la capacidad de ejecutar el modelo en una GPU ampliamente utilizada, la posibilidad de uso indebido aumenta drásticamente.

«Un cierto porcentaje de personas son torpes y raras, pero eso es humano», dijo Mostaque. “Estamos convencidos de que esta tecnología va a despegar y la actitud paternalista y algo condescendiente de muchos aficionados a la IA es un error porque no confían en la sociedad”.

Sin embargo, Mostaque enfatiza que la libre disponibilidad permite a la comunidad desarrollar contramedidas.

«Tomamos amplias medidas de seguridad, incluido el desarrollo de herramientas modernas, para mitigar el daño potencial al uso compartido y a nuestros propios servicios. Con cientos de miles trabajando en este modelo, estamos seguros de que los beneficios netos serán inmensamente positivos y con miles de millones de personas usando esta tecnología, los daños pasarán a un segundo plano”.

Más información está disponible en Estable-Difusión-Github. Se pueden encontrar muchos ejemplos de las capacidades de generación de imágenes de Stable Diffusion en el Subreddit de difusión estable. Aquí va a Registro Beta para Stable Diffusion.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.