OpenAI quiere que DALL-E sea seguro y se encuentra con un efecto secundario inesperado

| |

DALL-E 2 de OpenAI se basa en una amplia gama de medidas de seguridad para detener el posible uso indebido. Ahora OpenAI brinda una visión profunda del proceso de capacitación.

En abril, OpenAI brindó los primeros conocimientos sobre DALL-E 2, el nuevo modelo de IA de generación de imágenes de la compañía. Desde entonces, se ha estado ejecutando una prueba beta cerrada con resultados impresionantes. Plantean preguntas sobre el papel de DALL-E 2 en el futuro del trabajo creativo o hacen que los fotógrafos teman la muerte de la fotografía.

Un objetivo central de la fase beta cerrada es preparar la inteligencia artificial para su uso como un producto disponible gratuitamente. Con este fin, OpenAI quiere asegurarse de que DALL-E 2 en particular no genere ningún contenido violento o sexual. Hasta ahora, DALL-E 2 ha demostrado ser bastante compatible.

Publicación Destacada

Para ello, la compañía ha tomado una serie de medidas como filtros de entrada y subida para la máscara de entrada del sistema, restricciones en el número de imágenes que se pueden generar simultáneamente, una política de contenido integral y un control activo del contenido generado, incluidas las revisiones humanas. de contenido cuestionable.

OpenAI filtra automáticamente los datos de entrenamiento

Aparte de estas medidas, OpenAI se centra en una Mitigación de contenido potencialmente peligroso en el conjunto de datos de entrenamiento. Para la capacitación de DALL-E 2, OpenAI recopiló cientos de millones de imágenes y etiquetas asociadas en Internet. Por lo tanto, el conjunto de datos recopilados automáticamente contenía numerosas imágenes con contenido no deseado.

Para identificar y eliminar este contenido, OpenAI utiliza un proceso semiautomatizado: una red neuronal para la clasificación de imágenes se entrena con unos pocos cientos de imágenes que se clasificaron manualmente como problemáticas. Luego, otro algoritmo usa este clasificador para encontrar algunas imágenes en el conjunto de datos principal que podrían mejorar el rendimiento del clasificador. Luego, estas imágenes son procesadas por humanos y, si corresponde, se utilizan para el entrenamiento adicional del clasificador. Este proceso se realiza para varios clasificadores especializados.

OpenAI quiere que DALL-E sea seguro y se encuentra con un efecto secundario inesperado
OpenAI entrena clasificadores con datos etiquetados por humanos. Un algoritmo de aprendizaje ayuda a filtrar los datos. | Imagen: OpenAI

El clasificador entrenado puede filtrar automáticamente imágenes problemáticas de cientos de millones de imágenes. yo tengo eso El filtrado de datos problemáticos tiene prioridad sobre la preservación de datos no problemáticos, escribe OpenAI. Es mucho más fácil refinar un modelo más tarde con más datos que hacer que el modelo olvide algo que ya ha aprendido.

Debido al cuidadoso proceso de filtrado, aprox. descartó el cinco por ciento de todo el conjunto de datos de entrenamiento, incluidas numerosas imágenes que no muestran contenido problemático, dijo la compañía. Mejores clasificadores podrían recuperar algunos de estos datos perdidos en el futuro y mejorar aún más el rendimiento de DALL-E 2.

Para probar la eficiencia de su enfoque, OpenAI entrenó dos modelos GLIDE, uno filtrado y otro sin filtrar. GLIDE es un predecesor directo de DALL-E 2. Como era de esperar, el modelo filtrado generó significativamente menos contenido sexual y violento.

El filtro de datos aumenta el sesgo en el modelo de IA

el exitoso Sin embargo, el proceso de filtrado tiene un efecto secundario inesperado.: Crea o refuerza el sesgo del modelo hacia determinados grupos demográficos. Este sesgo también es un gran desafío, pero el proceso de filtro realmente positivo empeora el problema, según OpenAI.

Como ejemplo, la empresa cita la entrada «un CEO»: el modelo sin filtrar tiende a generar más imágenes de hombres que de mujeres; gran parte de este sesgo se debe a los datos de capacitación. Pero con el modelo filtrado, este efecto se amplificó: mostraba casi exclusivamente imágenes de hombres. En comparación con el modelo sin filtrar, la frecuencia de la palabra «mujer» en el conjunto de datos se reduce en un 14 por ciento, mientras que para «hombre» es solo un seis por ciento.

Presumiblemente, hay dos razones para esto: a pesar de que aproximadamente la misma representación de hombres y mujeres en el conjunto de datos original, puede contener mujeres con más frecuencia en contextos sexualizados. Por lo tanto, los clasificadores eliminan más imágenes de mujeres, lo que aumenta el desequilibrio. Además, los propios clasificadores pueden estar sesgados por ciertas definiciones o implementaciones de clase, eliminando más imágenes de mujeres.

OpenAI corrige el sesgo al volver a ponderar los datos de entrenamiento

Sin embargo, el equipo de OpenAI pudo reducir significativamente este efecto: los datos de entrenamiento restantes para el modelo se volvieron a ponderar, por ejemplo, haciendo que las imágenes menos comunes de mujeres tuvieran una mayor influencia en el entrenamiento del modelo. Para palabras probadas como «mujer» y «hombre», los valores de frecuencia cayeron a alrededor de uno y menos uno por ciento en lugar de 14 y seis por ciento.

OpenAI quiere que DALL-E sea seguro y se encuentra con un efecto secundario inesperado
Una representación simplificada de cómo el reequilibrio de los datos de entrenamiento puede compensar los efectos de sesgo del proceso de filtrado. | Imagen: OpenAI

En una publicación de blog, OpenAI también muestra que A veces memoriza modelos como GLIDE y DALL-E 2, es decir, reproducir imágenes de entrenamiento en lugar de crear nuevas imágenes. La empresa identificó imágenes que se repiten con frecuencia en el conjunto de datos de entrenamiento como la causa. El problema se puede resolver eliminando imágenes visualmente similares.

A continuación, OpenAI quiere mejorar aún más los filtros para el entrenamiento, combatir aún más el sesgo en DALL-E 2 y comprender mejor el efecto observado de la memorización.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.