Monólogo interior: el robot de Google habla solo

| |

El nuevo sistema de robot de Google se basa en un modelo de lenguaje para el control. Gracias a los monólogos internos, el sistema puede interactuar de manera más flexible con su entorno.

Los robots flexibles que van a realizar múltiples tareas en el mundo real deben tener un amplio repertorio de habilidades básicas y poder planificar su uso. Esto también incluye reconocer cuándo necesitan cambiar su enfoque porque una determinada acción o plan no tiene éxito.

Esta planificación, la retroalimentación perceptiva constante y el control del sistema en todos los niveles son algunas de las subtareas que un agente encarnado debe combinar a la perfección para actuar de manera inteligente en su entorno.

Los investigadores de IA intentan resolver estos desafíos con diferentes enfoques. Muchos confían en el aprendizaje por refuerzo para enseñar a los robots a moverse, pero se necesita más planificación y flexibilidad.

Publicación Destacada

El jefe de IA de Meta, Yann LeCun, presentó sus planes para la inteligencia artificial autónoma alrededor de marzo. No se supone que esté ubicado en un robot por el momento, pero por lo demás tiene todos los componentes básicos para un agente flexible que tiene la capacidad de planificar.

Grandes modelos de lenguaje para agentes encarnados

El elemento central del modelo de LeCun es un modelo mundial en el que se debe ubicar una comprensión fundamental del mundo dentro del sistema de IA. Estos modelos mundiales aún no existen.

Una razón para suponer que serán técnicamente posibles es que se han proporcionado grandes modelos de lenguaje en los últimos años. Estos modelos pueden generar y procesar texto. Al entrenar con cantidades gigantescas de texto, tienen un gran conocimiento sobre el mundo. En algunos ejemplos, también muestran una capacidad rudimentaria, aunque no estable, para razonar, como en los experimentos PaLM de Google.

Por lo tanto, los investigadores de IA del departamento de robótica de Google, entre otros, se preguntan: ¿Pueden los modelos de lenguaje servir como modelos de argumentación que combinen múltiples fuentes de retroalimentación y se conviertan en solucionadores de problemas interactivos para tareas de IA incorporadas en robots, por ejemplo?

Otro trabajo ya ha demostrado que los modelos de lenguaje se pueden usar para planificar acciones en robots. El equipo de Google ahora se pregunta si las capacidades de los modelos de lenguaje también se pueden usar para reprogramar cuando las cosas van mal.

Google muestra monólogos de robots internos

Que sirve de modelo «Pensar en lenguaje» denominado. Como ejemplo, el equipo cita un monólogo interno que podría desarrollarse cuando una persona intenta abrir una puerta: “Tengo que abrir la puerta; Estoy tratando de tomar esta llave y ponerla en la cerradura… no, espera, no encaja, estoy probando con otra… funcionó, ahora puedo girar la llave».

Este proceso de pensamiento incluye decisiones sobre acciones inmediatas para resolver la tarea general (recoger la llave, abrir la puerta), observaciones sobre los resultados de las acciones intentadas (la llave no encaja) y acciones correctivas en respuesta a esas observaciones (intentar una clave diferente). Tal monólogo interno es, por lo tanto, un marco natural para la integración de retroalimentación para grandes modelos de lenguaje, según los investigadores. Llaman al enfoque «Monólogo interior».

Mientras que los enfoques más antiguos generan directamente un plan complejo para un objetivo a partir de un modelo de lenguaje y, por lo tanto, no tienen oportunidad de realizar correcciones, el equipo de Google alimenta continuamente el modelo de lenguaje con más información a medida que el robot interactúa con el entorno.

Esta información incluye, por ejemplo, una descripción de los objetos visibles en una escena o comentarios sobre si una acción se realizó correctamente o no. Según esta información, el modelo de lenguaje también puede hacer preguntas a las personas si una instrucción no es clara o ya no se puede ejecutar.

Google Inner Monologue controla robots en simulación y realidad

El equipo de Google está probando Inner Monologue en simulación y realidad. El modelo de lenguaje también genera comandos que controlan el robot. El modelo solo se preparó para esto con algunos ejemplos (aprendizaje de pocos disparos).

En la simulación, un brazo robótico virtual clasifica objetos virtuales, mientras que en realidad un brazo robótico real clasifica bananas de plástico y botellas de ketchup. Si una acción no tiene éxito, el modelo de lenguaje vuelve a emitir el mismo comando.

El uso de robots por parte de Google en un entorno de prueba real es impresionante, en el que un brazo robótico en movimiento tiene que recoger, almacenar o tirar latas o bocadillos y tiene que lidiar con la intervención humana en el proceso. Repite acciones fallidas, describe escenas y hace preguntas apropiadas.

Gracias a las capacidades del lenguaje, el sistema puede adaptarse continuamente a nuevas instrucciones y establecer nuevos objetivos cuando los anteriores no se pueden alcanzar. También comprende varios idiomas, puede usar acciones pasadas y comentarios ambientales para comprender mejor una escena y puede manejar errores tipográficos. Hay ejemplos de video de esto en el Página del proyecto Monólogo interior.

En el futuro, el equipo planea reducir la dependencia del modelo de la retroalimentación humana, por ejemplo, mediante el uso de subtítulos avanzados de imágenes/videos y respuestas visuales a preguntas.

Lina
Lina García ha escrito sobre tecnología y marketing, cubriendo todo, desde la analítica hasta la realidad virtual, desde 2010. Antes de eso, obtuvo un doctorado en inglés, enseñó a escribir a nivel universitario y lanzó y publicó una revista en formato impreso y digital. Ahora es escritora, editora y consultora de marketing a tiempo completo.