“CTRL+F para el mundo”: Google está trabajando en Search Everywhere

| |

Google muestra el papel central que desempeñarán los grandes modelos de IA en el futuro del grupo tecnológico. La visión es la búsqueda en todas partes que conecta el mundo digital y el real.

Incluso antes de que Google muestre nuevo hardware como Pixel 7, Pixel 6a o Google Buds Pro, el CEO Sundar Pichai habló en detalle sobre los últimos logros de IA de la compañía: los modelos de traducción monolingüe permiten 24 nuevos idiomas para Google Translate y los edificios reconocidos por inteligencia artificial ahora hacen hasta el 20 por ciento de todos los edificios enumerados en Google Maps.

Desde julio de 2020, AI ha quintuplicado el número de estructuras detectadas en el continente africano de 50 a 300 millones. El modelo de IA desarrollado por Google también está disponible gratuitamente y es utilizado por las Naciones Unidas y el Banco Mundial, por ejemplo.

Visualmente particularmente impresionante: gracias a la fusión automática de imágenes aéreas y satelitales, así como fotos, Immersive View permite copias en 3D de grandes ciudades como una transmisión en vivo desde Google Cloud en cualquier dispositivo. Para el viaje virtual al restaurante que también se muestra, Google también se basa en técnicas de renderizado neuronal. Google está convirtiendo los mapas en la base de la nube de realidad aumentada.

Publicación Destacada

Tecnología Deepmind para YouTube

El año pasado, Google lanzó capítulos generados automáticamente para los videos de YouTube; este año, Pichai anuncia más mejoras en los videos gracias a los modelos de IA multimodal de Deepmind. La tecnología analiza el texto, el audio y las imágenes de los videos para generar sugerencias de capítulos aún mejores.

El reconocimiento de voz para transcripciones automáticas de videos de YouTube ahora también está disponible para todos los usuarios de Android e iOS. Las traducciones generadas automáticamente también están disponibles para YouTube en plataformas móviles, y se espera que en breve aparezca una actualización para el idioma ucraniano.

Para los productos Workspace de Google, Pichai muestra la función de resumen lanzada recientemente para Google Docs: un modelo de lenguaje genera resúmenes para documentos más largos con solo tocar un botón. Esta función pronto estará disponible para otros productos como Google Chat y Google Meet. Meet también se beneficia de los nuevos modelos de IA que mejoran la calidad del video y la iluminación.

Búsqueda multimodal: El CTRL+F para el mundo

El vicepresidente sénior, Prabhakar Raghavan, responsable de la Búsqueda de Google, entre otras cosas, muestra las próximas actualizaciones de la función de búsqueda múltiple recientemente lanzada del motor de búsqueda. Con Multisearch, los usuarios pueden combinar búsquedas de imágenes y texto, como fotografiar una botella y buscar una variante con un motivo floral.

Más adelante este año, Multisearch tendrá una función de búsqueda local: si busca una foto de una pizza con la función «cerca de mí», podrá encontrar pizzerías cercanas. Lo mismo debería funcionar para numerosos objetos, desde alimentos hasta utensilios.

La próxima evolución de la búsqueda múltiple debe ser la exploración de escenas: en lugar de una sola imagen, los usuarios deben mover la cámara sobre una escena y obtener respuestas a las preguntas que coincidan con el contexto de la imagen.

Raghavan muestra un ejemplo de un chocolate negro sin nueces de alta calidad que se filtra de una gama de productos en el supermercado. La tecnología tiene numerosas aplicaciones, por ejemplo, en la conservación de la naturaleza para identificar rápidamente plantas raras o en farmacias para encontrar una crema específica.

Raghavan se refiere a la Exploración de Escenas como un «CTRL+F para el mundo»una idea que probablemente desplegará todo su efecto con las gafas AR, que Google también ha reconocido claramente.

LaMDA 2: pruebas beta para el futuro de Google

El año pasado, Google ya dio una idea del desarrollo de los grandes modelos de IA LaMDA y MUM. Si bien MUM está destinado a servir como base para la búsqueda multimodal, LaMDA es uno de los grandes modelos de lenguaje. A principios de 2022 ya había una actualización sobre las capacidades y problemas de LaMDA. Según Pichai, miles de empleados de Google han probado el modelo de lenguaje desde el comienzo del desarrollo.

En la conferencia de desarrolladores de este año, Google presentó LaMDA 2, una versión mejorada del modelo de lenguaje grande. Como se anunció el año pasado, Google se resiste a publicarlo por el momento.

En cambio, a lo largo del año, LaMDA 2 pretende informar a más y más personas seleccionadas sobre el Aplicación de cocina de prueba AI Para proveer. La aplicación se lanzará en los EE. UU. en los próximos meses y estará disponible a través de invitaciones por el momento.

Por el momento, hay tres aplicaciones LaMDA-2 disponibles en la aplicación, que representan aplicaciones diferentes y, a veces, particularmente desafiantes. En «Imagine it» LaMDA genera descripciones interesantes y es probablemente la más disponible gratuitamente.

Vídeos: Google

En «Talk About It», se supone que LaMDA solo habla sobre un tema determinado, como los perros en la «Edición para perros». Para preguntas fuera de tema, LaMDA debería volver a llevar la conversación a los perros.

Vídeos: Google

Publicación Destacada

En List It, el modelo de lenguaje genera una lista de ideas útiles o subtareas. En una demostración, LaMDA crea instrucciones para crear un huerto.

Vídeos: Google

En la aplicación, los usuarios pueden dar su opinión que debería mejorar el modelo a largo plazo. Google quiere trabajar con investigadores de diversas disciplinas, activistas de derechos humanos y tomadores de decisiones políticas y recopilar comentarios.

En el futuro, se podrían probar otros modelos de IA en la aplicación. De esta forma, Google puede utilizar la infraestructura móvil existente para probar y desarrollar aún más sus propios productos de IA en un entorno controlable.

Hacia el final de la presentación de LaMDA, Pichai habla sobre las impresionantes capacidades del modelo de lenguaje grande PaLM y muestra un ejemplo en el que el modelo responde correctamente una pregunta en bengalí y la traduce al inglés. Él enfatiza que PaLM nunca aprendió explícitamente a responder preguntas o traducir.

Los modelos de idiomas grandes probablemente desempeñarán un papel aún más central en los productos de Google en el futuro: «Somos muy optimistas sobre el potencial de los modelos de idiomas. Esperamos que algún día podamos responder preguntas sobre más temas en todos los idiomas hablados, mejorando aún más el acceso al conocimiento en la búsqueda y en Google en general”, concluye Pichai.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.