Meta lanza IA de audio de código abierto para VR y AR

| |

Meta anuncia nueva investigación sobre inteligencia artificial para audio metaverso realista. Los sistemas de audio capacitados multimodalmente deben evaluar la información visual y dar forma automática a los sonidos de manera adecuada.

El laboratorio de investigación de Meta, Reality Labs, junto con la Universidad de Texas, presenta nuevos modelos de IA que están destinados a optimizar el sonido en VR y AR utilizando datos de imagen. La compañía escribe que la IA es crucial para una calidad de sonido realista en Metaverse.

Publicación Destacada

IA multimodal para hacer coincidir el sonido con la imagen

Meta está lanzando tres nuevos modelos de IA de código abierto: coincidencia visual-acústica, dereverberación informada visualmente (reducción de la reverberación) y voz visual. Los tres modelos son, en última instancia, sobre una cosa AI da forma automáticamente al sonido para que coincida con la información visual. Esta interacción multimodal de audio, video y texto es el foco de la investigación recién presentada.

“Los modelos de IA existentes hacen un buen trabajo en la comprensión de imágenes y están mejorando en la comprensión de videos. Sin embargo, si queremos crear nuevas experiencias inmersivas para AR y VR, necesitamos modelos de IA que sean multimodales, modelos que puedan procesar señales de audio, video y texto a la vez y crear una comprensión mucho más completa del entorno», escribe Metas. equipo de investigación.

Por ejemplo, si una IA reconoce que un sonido proviene de una cueva, puede agregar automáticamente una reverberación adecuada (Coincidencia visual-acústica). un ejemplo para dereverberación informada visualmente es que el sonido del contenido existente se adapta a la sala actual en lugar de sonar como la sala en la que se grabó originalmente el contenido.

El paisaje sonoro de una representación teatral grabada se puede procesar como si se escenificara en vivo en la sala actual con una proyección AR. La IA también debería poder eliminar automáticamente el ruido de fondo no deseado de la banda sonora original.

Mejores experiencias de conciertos en el Metaverse

Según Meta, otro ejemplo de aplicación es una visita virtual a un concierto. En el Metaverso, los avatares pueden escuchar inicialmente sonidos amortiguados frente a la sala de conciertos, que se vuelven más claros a medida que se acercan al escenario.

El truco del Metaverso: los diálogos podían permanecer claramente audibles a pesar del aumento del volumen ambiental, como si estuvieran parados uno al lado del otro sin música de fondo alta. El audio AI también puede enfocar el audio alrededor de grupos pequeños, por ejemplo, para que las voces no se superpongan (voz visible).

Trabajando juntos, estos sistemas de audio algún día también podrían permitir que los «asistentes inteligentes» entiendan mejor lo que les estamos diciendo, incluso en un concierto o una fiesta ruidosa.

Meta publica los tres modelos de IA como código abierto. Papel, modelos y más información están en El blog de IA de Meta está disponible.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.