Google AI genera avatares 3D creíbles a partir de una sola foto

| |

El modelo de IA de Google PHORUM muestra cómo se podrían crear impresionantes avatares en 3D a partir de una sola foto en el futuro.

Los escaneos 3D de personas de alta calidad y rápidamente disponibles tienen numerosas aplicaciones, como en el procesamiento de imágenes, el comercio en línea de accesorios virtuales, la telepresencia y como avatares digitales en AR y VR.

Sin embargo, hasta ahora, los modelos humanos en 3D de alta calidad se han basado en el escaneo automático mediante una configuración de múltiples cámaras, la creación manual por artistas o una combinación de ambos; incluso las mejores configuraciones de cámara todavía producen artefactos que deben limpiarse a mano. .

La inteligencia artificial tiene como objetivo simplificar este proceso y permitir avatares 3D de alta calidad a partir de unas pocas o incluso de una sola foto. Para ello, los modelos correspondientes tienen que reconstruir la geometría 3D y numerosas propiedades superficiales como el color, la reflectividad, el sombreado o los vectores normales.

Publicación Destacada

PHORUM de Google supera a los modelos alternativos de IA

Numerosos proyectos intentan esta tarea, pero no proporcionan todas las propiedades de la superficie relevantes y, a menudo, aún dependen de módulos individuales en el proceso que no se aprenden.

Los investigadores de Google ahora muestran PHORUM, un sistema para reconstruir avatares en 3D a partir de una sola foto. PHORUM es un sistema de inteligencia artificial que se puede entrenar continuamente y calcula numerosas propiedades, como el albedo (brillo de un cuerpo) y la información de sombreado que los sistemas alternativos no han tenido en cuenta hasta ahora.

PHORUM se entrenó con una mezcla de imágenes calculadas frente a un fondo de imagen HDR y mallas asociadas. En total, el equipo usó 217 escaneos de personas en varias poses, atuendos y ocasionalmente sosteniendo bolsos u otros objetos. Otros cambios, como diferentes colores para la ropa, significan que el conjunto de datos contiene casi 190.000 imágenes.

Los datos de entrenamiento también incluyen imágenes de albedo, mapas normal y alfa, y una malla 3D.

PHORUM produce resultados más realistas que métodos alternativos como PIFu y agrega detalles ocultos a la ropa, como la parte trasera de un par de pantalones. Debido a las numerosas propiedades de la superficie que también se calculan, los avatares 3D también se pueden insertar en nuevos entornos digitales. Por ejemplo, la iluminación de la nueva imagen se puede transferir al avatar 3D y este se puede insertar en una foto de grupo.

Las reconstrucciones de PHORUM se pueden utilizar en el procesamiento de imágenes para una iluminación adecuada. Las sombras todavía tienen que ser reelaboradas a mano.

Sistemas como PHORUM requieren más datos

Publicación Destacada

Los avatares 3D reconstruidos por PHORUM también se pueden animar posteriormente: el sistema de IA también tendría el potencial de simplificar el trabajo con escaneos 3D para CGI y videojuegos.

Después de la generación, los avatares de PHORUM se pueden animar en un segundo paso.

Según los investigadores, PHORUM todavía tiene limitaciones en la reconstrucción de ropa suelta, de gran tamaño y no occidental. En algunos casos, el anverso y el reverso de una persona digital no coinciden. Un par de pantalones, por ejemplo, tiene un tejido diferente en la parte delantera que en la parte trasera. Estos problemas podrían abordarse con conjuntos de datos más diversos geográfica y culturalmente, señala la publicación.

La resolución de los avatares 3D calculados también es bastante baja: las imágenes de entrenamiento tienen una resolución de 512 por 512 píxeles y los resultados tienen una resolución similar. Por el momento, no es posible un uso práctico de PHORUM en la industria, pero la tecnología probablemente podría lograr una mejor calidad de imagen en el futuro con escaladores de IA, mejores datos de entrenamiento y otras arquitecturas. Se puede ver un desarrollo similar en el uso de GAN o modelos de difusión como DALL-E 2.

Se pueden encontrar más detalles sobre el proyecto y más ejemplos en el Página del proyecto de PHORUM.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.