Deepfakes: cómo empezó todo y adónde podría llevar

| |

Las imágenes y videos falsos de IA, los llamados deepfakes, se han desarrollado rápidamente en los últimos años. Trazamos la historia y describimos los hitos más importantes.

¿Qué tienen en común todas las personas de la foto de portada? Ellos no existen. Se le ocurrió una IA. Para ser más precisos: los generó usando millones de estructuras de píxeles similares como ejemplo.

He creado las imágenes en el sitio web thispersondoesnotexist.com. Cualquiera que sepa hacer clic con el ratón puede hacerlo. También funciona con los gatos.

Tales retratos falsos realistas son posibles gracias a la invención de las llamadas «Redes generativas antagónicas» (GAN). Estas redes consisten en dos agentes de IA: uno falsifica una imagen, el otro intenta detectar la falsificación. Si se expone la falsificación, la IA falsificadora se adapta y mejora.

De esta manera, ambos agentes se vuelven cada vez más eficientes en sus respectivas disciplinas a lo largo de la capacitación y las imágenes generadas se vuelven más creíbles.

GAN no es igual a GAN

En la práctica, existe una gran diferencia entre los resultados de la GAN original y los de las variantes GAN actuales.

Una publicación en Twitter de Ian Goodfellow, recientemente nombrado director de IA de Apple, muestra el desarrollo de los últimos años. A Goodfellow se le atribuye la invención del primer proceso GAN.

Una breve historia de GAN

Una mirada al trabajo científico vinculado por Goodfellow deja en claro cómo las nuevas arquitecturas de IA en combinación con mayores cantidades de datos y computadoras más rápidas han llevado al rápido desarrollo de los llamados deepfakes.

2014: El nacimiento de la tecnología deepfake

Goodfellow publica uno con colegas trabajo científico, en el que se presenta por primera vez una GAN. Es el nacimiento de las GAN-AI y la base técnica de los deepfakes, de lo que estamos hablando intensamente hoy.

Ya en 2014, hubo indicios de que las GAN pueden crear rostros creíbles. Imagen: Goodfellow et al. 2014

2015: las GAN están mejorando

Los investigadores combinan las GAN con las redes neuronales convolucionales (CNN) de varias capas optimizadas para el reconocimiento de imágenes, que pueden procesar muchos datos en paralelo y funcionan especialmente bien en las tarjetas gráficas. Sustituyen a las redes más sencillas que antes manejaban los agentes GAN. Los resultados son cada vez más creíbles.

CNN-GAN 2015
La estructura más compleja de las redes convolucionales permite personas falsas más creíbles. Los retratos de 2015 aún no son realistas.

2016: Gafas falsas y manipulación facial

Los investigadores combinan dos GAN: los agentes de las distintas redes comparten información entre sí. De este modo, aprenden en paralelo.

Los datos aprendidos son ligeramente modificados por cada agente. Por ejemplo, es posible generar una persona con y sin gafas de sol. Los retratos falsos vuelven a ser más creíbles, pero aún son claramente reconocibles como falsos.

GAN acoplado 2016
Con las GAN acopladas, los humanos artificiles ahora también pueden ponerse gafas de sol o usar joyas. Las caras en sí todavía tienen muchos errores de imagen.

2017: el salto de calidad de Nvidia y los primeros vídeos deepfake

Los investigadores de Nvidia han dado un gran salto en calidad al resolver un problema importante de las GAN anteriores:

Los agentes generadores a menudo producían imágenes de baja resolución porque son más difíciles de detectar como falsas por parte del agente verificador: más píxeles significan potencialmente más fuentes de error. Por lo tanto, tiene sentido que la IA del falsificador evite las resoluciones altas para pasar al agente examinador.

La solución de Nvidia: La red se entrena por etapas. Primero, la IA del falsificador aprende a crear imágenes de baja resolución. Luego, la resolución se incrementa gradualmente.

GAN progresivo 1
La GAN se introduce paso a paso a las altas resoluciones.

La GAN, que está creciendo gradualmente, produce retratos falsos en una calidad antes desconocida: las imágenes todavía tienen errores, pero definitivamente pueden engañar a las personas que no miran muy de cerca.

GAN progresivo 2
Los rostros generados en 2017 superan los resultados anteriores y algunos de ellos difícilmente pueden ser reconocidos como un producto de IA.

Si bien Nvidia aún está mejorando sus propias GAN, el usuario de Reddit «deepfakes» está incorporando la tecnología a la corriente principal: en otoño de 2017, apareció la primera pornografía deepfake que lleva su nombre, en la que las caras de actrices porno se intercambian con las de mujeres prominentes.

Desde entonces, el término deepfake ha sido sinónimo de imágenes y videos generados por IA. «Profundo» se refiere a las redes neuronales de varias capas (aprendizaje profundo) que ayudan a generar la imagen.

Aunque la pornografía deepfake todavía es fácilmente reconocible como falsa, el esfuerzo de producción es tan bajo que, en poco tiempo, miles de usuarios se unieron en Reddit y otras plataformas en línea para crear videos explícitos.

Publicación Destacada

La conocida actriz estadounidense Scarlett Johansson, cuyo rostro se usó con especial frecuencia para la pornografía de IA, describió más tarde Internet en este contexto como un «agujero de gusano oscuro».

2018: más control GAN ​​y canales de YouTube falsos

Una vez más, los investigadores de Nvidia consiguen controlar mejor su GAN: pueden preestablecer específicamente características individuales de la imagen, por ejemplo «pelo oscuro» y «sonrisa» en los retratos.

De esta forma, las propiedades de las imágenes de entrenamiento se pueden transferir específicamente a imágenes generadas por IA. La llamada transferencia de estilo (ver video a continuación) será una parte importante de muchos proyectos de IA posteriores.

Transferencia GAN
A través de la transferencia de estilo, la imagen AI se puede controlar de manera específica, por ejemplo, para crear solo imágenes de personas sonrientes.

Por supuesto, el principio GAN no solo funciona para retratos: a la IA no le importa qué tipo de estructura de píxeles genera. Solo requiere datos de entrenamiento apropiados.

A fines de 2018, la hermana de IA de Google, Deepmind, por ejemplo, muestra alimentos, paisajes y animales generados por IA que parecen impresionantemente creíbles.

El software Deep Video Portrait mejora la manipulación de vídeos mediante GANs, y están surgiendo los primeros canales de YouTube especializados en deepfakes: ya no solo se falsifica porno, sino todo tipo de vídeos, por ejemplo de políticos o grandes películas de Hollywood. Por primera vez se habla de que los procesos de IA podrían revivir digitalmente a actores que ya han muerto.

Y la pornografía falsa está en aumento: en el primer trimestre de 2018, Pornhub, Twitter, Gfycat y Reddit prohibieron la pornografía falsa en sus plataformas. El sitio web de la aplicación deepfake ampliamente utilizada se desconecta.

2019: Deepfake llega a la corriente principal

Los investigadores de Samsung presentan un GAN-AI capaz de falsificar humanos y obras de arte. Por ejemplo, los investigadores evocaron una sonrisa animada en el rostro de Mona Lisa. La IA profunda falsa de Samsung solo necesita un puñado de fotos para obtener resultados decentes.

Unos meses más tarde, los investigadores israelíes presentan Face Swapping GAN (FSGAN), una IA que, de manera creíble, intercambia rostros en video en vivo en tiempo real. La nueva IA ha aprendido a intercambiar cada cara directamente sin entrenamiento individual previo. Sin embargo, aún no alcanza la calidad de los deepfakes elaborados y elaborados.

Dejando a un lado los avances técnicos, 2019 es el año en que los deepfakes finalmente llegaron a la corriente principal. Las herramientas de deepfake como DeepFaceLab, lanzadas por primera vez en 2018, aceleran la producción de deepfake. Los canales de YouTube que se especializan en deepfakes llegan a millones de espectadores y la cantidad de deepfakes en la web se duplica en los primeros nueve meses. Los deepfakes están evolucionando más rápido de lo esperado, dice el experto en deepfakes Hao Li, prediciendo: «Los deepfakes serán perfectos en dos o tres años».

La rápida difusión de videos falsos es preocupante dada la próxima Elección estadounidense 2020 Política estadounidense. Los miembros del Congreso de los EE. UU., el Comité de Inteligencia de los EE. UU., AI y expertos legales advierten sobre un exceso de falsificaciones y piden una regulación. Twitter es la primera plataforma social en presentar nuevas medidas contra los deepfakes: Twitter quiere marcar los tuits sospechosos y mostrar advertencias a los usuarios.

Los políticos fuera de los EE. UU. también están tomando una posición: China está criminalizando las falsificaciones de IA y el gobierno federal está emitiendo una declaración sobre la tecnología.

Dice: «Los deepfakes pueden debilitar la confianza del público en la autenticidad fundamental de las grabaciones de audio y video y, por lo tanto, la credibilidad de la información disponible públicamente». Por lo tanto, podrían representar un «gran peligro para la sociedad y la política». Sin embargo, el riesgo no debe ser permitido ser sobrevalorado.

2020: regulación de deepfake y deepfakes de megapíxeles de Disney

Al comienzo de la campaña electoral estadounidense de 2020, Facebook anunció que prohibiría las falsificaciones profundas en su propia plataforma, con la excepción de las falsificaciones profundas satíricas o paródicas. YouTube está haciendo lo mismo con políticas similares, y Twitter está comenzando a hacer cumplir sus reglas anti-falsificación profunda anunciadas el año pasado. En agosto, TikTok también prohibió las falsificaciones profundas de su propia plataforma de video.

Con «Assembler», la empresa hermana de Google, Jigsaw, publica una herramienta compatible con IA para periodistas que se supone que los ayuda en la detección de falsificaciones profundas. Qualcomm está apoyando a una empresa emergente que pretende marcar irrevocablemente las fotos y los videos originales como originales cuando se crean, lo que simplifica la identificación de falsificaciones profundas más adelante.

Mientras tanto, continúa el desarrollo de mejores y mejores deepfakes: Microsoft presenta FaceShifter, una IA que genera deepfakes creíbles incluso a partir de rostros originales borrosos. FaceShifter se basa en dos redes.

Publicación Destacada

Uno crea la cara falsa y toma la pose de la cabeza, la expresión facial, la iluminación, el color, el fondo y otros atributos de la foto original para la foto falsa. La segunda red HEAR-Net compara la foto generada por la primera red con la foto original.

Si HEAR-Net encuentra partes de la cara que están ocultas por el pelo, las gafas de sol o la escritura, corrige posibles errores en la primera red. Las caras vuelven a desaparecer detrás del cabello, las letras se pueden descifrar y el maquillaje es lo que corresponde.

FaceShifter (extremo derecho) puede incluso procesar imágenes originales borrosas en falsificaciones creíbles y, por lo tanto, está por delante del algoritmo de falsificación profunda más poderoso FSGAN (segunda imagen desde la derecha) hasta la fecha.

El gigante del entretenimiento Disney comienza a desarrollar deepfakes para la pantalla grande, presentando el primer deepfake de megapíxeles: 1024 por 1024 píxeles las grabaciones producidas por la IA deepfake de Disney son grandes.

En el momento en que se publicó la patente de Disney, alternativas como DeepFaceLab solo manejan 256 por 256 píxeles, e incluso a principios de 2021 la resolución máxima de DeepFaceLab 2.0 es de 448 por 448 píxeles.

La técnica del deepfake de Disney eventualmente podría reemplazar los métodos tradicionales de efectos especiales que a menudo requieren meses de trabajo para unos pocos segundos de metraje.

Los fanáticos de Disney aún esperan el primer uso del deepfake de megapíxeles: la aparición más reciente de un personaje legendario de Star Wars en The Mandalorian tuvo que prescindir de la tecnología. Una oportunidad perdida: los deepfakes posteriores de YouTube de la misma escena funcionaron mejor que los artistas CGI de Disney.

2021: Cruise Deepfake, transmisiones en vivo y alquiler de rostros

El año comienza con un deepfake particularmente creíble de Tom Cruise. El deepfaker «Deeptomcruise» sube videos a Tik-Tok, que solo son reconocibles como falsos si miras de cerca. Los videos virales atraen al canal cientos de miles de seguidores y la atención del verdadero Tom Cruise, quien crea un canal verificado en Tik-Tok. Detrás de Deeptomcruise está el especialista en efectos visuales Chris Umé, quien afirma haber trabajado en cada video durante varias semanas.

Poco después de las falsificaciones del crucero, la aplicación Wombo AI conquistó la web: con solo unos pocos clics, la foto de cada persona se puede transformar en un breve videoclip en el que interpretan una de las muchas canciones conocidas.

Las grabaciones de video de artistas reales, que cantan una de las canciones con expresiones faciales adecuadas, sirven como base para la inteligencia artificial de Wombo AI. Wombo AI entrenado con los datos de video luego transfiere estas animaciones a cada foto en la que reconoce una cara.

Disney contrata a un YouTuber muy conocido, lo que alimenta los rumores de que podría haber más personajes falsos en Star Wars, por ejemplo. De hecho, estas especulaciones se confirmaron con la serie Boba Fett, que se estrenó a finales de 2021.

Lejos de Disney, el rostro de Bruce Willis se está convirtiendo en un comercial ruso y una nueva empresa está comprando los derechos de licencia de rostros reales para luego usarlos en videos de marketing a través de tecnología deepfake.

Publicación Destacada

Nvidia lanzará una versión mejorada de StlyeGAN2 en 2021 con Alias-Free GAN, que permite resultados más consistentes al cambiar de perspectiva. Unos meses más tarde, se lanza una versión optimizada con el nombre StyleGAN3.

Los creadores de DeepFaceLab también mostrarán DeepFaceLive por primera vez en 2021: después de la capacitación adecuada o con los modelos de IA preentrenados suministrados, el programa puede intercambiar rostros en videos en vivo. Para el intercambio en vivo, necesita una tarjeta gráfica rápida, como las que se encuentran en las PC para juegos actuales.

En 2021, los llamados modelos de difusión también alcanzarán por primera vez la calidad de imagen de las GAN invictas anteriormente. La tecnología aún no se ha utilizado para deepfakes, pero forma la base de la herramienta de generación de imágenes GLIDE de OpenAI, que se presentará a fines de 2021.

2022: 3D-GAN, DALL-E 2 y un deepfake de Zelenskyj

Enero trae dos mejoras impresionantes de GAN: los investigadores de IA de la Universidad de Tel Aviv muestran una variante de StyleGAN2 que puede manipular rostros en videoclips cortos sin capacitación adicional en video, como agregar una sonrisa o rejuvenecer a un personaje.

Investigadores de Nvidia y Stanford demuestran el método Efficient Geometry-aware 3D Generative Adversarial Networks (EG3D), que puede generar consistentemente imágenes de una persona (o gato) desde diferentes ángulos y una reconstrucción 3D coincidente.

Por el contrario, 3D-GAN también puede generar una reconstrucción 3D a partir de una sola imagen de una persona real. Por lo tanto, EG3D puede generar falsificaciones significativamente más creíbles, ya que las personas generadas también parecen consistentes desde diferentes perspectivas.

En 2022, los investigadores del Observatorio de Internet de Stanford encontraron más de 1000 perfiles falsos sospechosos en la red de carreras de LinkedIn en un estudio de dos semanas. Se dice que más de 70 empresas enumeraron los perfiles falsos como empleados y los usaron principalmente para el contacto inicial de nuevos clientes potenciales. Si el primer contacto tiene éxito, la persona se reenvía a una persona real que se refiere al perfil falso en el curso de la conversación.

En la guerra de agresión contra Ucrania, aparece un deepfake posiblemente histórico: una variante falsa del presidente ucraniano Volodymyr Zelenskyj llama a su pueblo a deponer las armas. A pesar de la baja resolución del video, la falsificación es fácil de reconocer y no tiene ningún efecto. No se ha probado definitivamente si se trata realmente de un deepfake, es decir, un video falsificado con tecnología de IA. Muchos medios y numerosos expertos así lo dan por hecho.

OpenAI DALL-E 2 se mostrará en abril de 2022. El sistema de IA genera imágenes a partir de descripciones de texto, debería estar disponible en el verano de 2022 y realmente revolucionará la escena artística.

Incluso si DALL-E 2 y los modelos de difusión subyacentes no se utilizan para falsificaciones profundas y OpenAI prohíbe la generación de rostros humanos por el momento, la tecnología permitirá imágenes sintéticas aún mejores en el futuro.

La década falsa de la IA y cómo lidiar con los deepfakes

Cuando el inventor de GAN, Goodfellow, presentó su trabajo en 2014, probablemente no previó el rápido desarrollo de las imágenes falsas de IA. Hoy, en cualquier caso, advierte que en el futuro ya no se permitirá a la gente creer en las imágenes y videos en Internet como algo natural.

Deepfakes, que ya no son reconocibles como tales incluso para los algoritmos anti-deepfake, finalmente podrían cambiar las reglas del juego, socialmente y en el entretenimiento. El experto en deepfake Hao Li cree que este desarrollo es posible, ya que las imágenes no son más que píxeles de colores apropiados: una copia perfecta es solo cuestión de tiempo. Además, los deepfakes se están volviendo comunes debido a su rápida difusión en YouTube y a través de aplicaciones como Reface o Impressions.

Según Goodfellow, históricamente la humanidad ha prescindido de videos y fotos para informarse y formarse una opinión: “En este caso, la inteligencia artificial cierra algunas puertas que solían estar abiertas a nuestra generación”.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.