¿Imaginas una inteligencia artificial capaz de moverse y actuar dentro de páginas web igual que lo haría un humano, haciendo clic, arrastrando objetos y escribiendo donde haga falta? Pues ese futuro ya está tomando forma, y Google está un paso por delante con su nuevo y flamante modelo Gemini 2.5 Computer Use.
Gemini 2.5 Computer Use: el salto visual de la IA a la acción
Hasta ahora, los modelos de IA lo tenían crudo para interactuar de verdad con el software al nivel al que lo hacemos las personas. Piensa en el clásico de los robots: saben responder preguntas, sí. Algunos incluso rellenan formularios, pero casi siempre lo hacían vía APIs y atajos más que usando botones, menús y entornos visuales como un usuario real. Lo que no han logrado –hasta ahora– es moverse por una página web con todo el desparpajo de un internauta cualquiera, pinchando, escribiendo, arrastrando o navegando en apps móviles.
Google ha entendido la importancia de este paso: muchos procesos digitales siguen exigiendo interacción con interfaces gráficas de usuario. Y claro, si una IA quiere sustituir de verdad a un humano en tareas cotidianas del navegador o de apps, tiene que poder mimetizar ese comportamiento.
Así funciona Gemini 2.5 Computer Use por dentro
En esencia, Gemini 2.5 Computer Use es la evolución lógica de la serie Gemini de modelos multitarea. Pero hay algo revolucionario en esta versión: ahora el modelo razona y comprende en vivo lo que ocurre en la pantalla, interpretando capturas del entorno y el historial de acciones para decidir su próximo movimiento. Literalmente, se comporta como si tuviera un ratón virtual y una mano “invisible” dispuesta a completar acciones reales, desde rellenar compras hasta mover archivos por la interfaz con gestos humanos.
- Puede desplazarse por webs y apps móviles.
- Hace clic en lo que necesita, escribe, selecciona menús…
- Rellena y envía formularios mucho más allá del clásico “nombre y apellidos”.
- Incluso arrastra, suelta o interactúa con elementos complejos que antes estaban fuera del alcance para una IA.
¿Lo mejor? Todo esto es posible gracias a la nueva herramienta computer_use disponible en la API de Gemini. El flujo es sencillo: el modelo recibe la tarea a ejecutar, ve el entorno (mediante una captura de pantalla), repasa qué ha hecho hasta ahora y decide el siguiente paso. Un auténtico asistente multitarea, capaz de operar en web y móvil con una precisión notable.
¿Y la seguridad? Google pone el listón bien alto
Claro, surge la duda: ¿y si la IA quiere darle a “comprar” sin permiso, o usurpar nuestra identidad digital sin darnos cuenta? Aquí, todo movimiento importante puede quedar a la espera de la autorización humana. Gemini 2.5 Computer Use está diseñado para pedir confirmación al usuario en acciones delicadas, como pasar por caja en una web. Además, todas estas acciones están revisadas por un sistema de seguridad externo –la típica doble capa de Google para evitar sustos.
Rendimiento que supera a su competencia
Google presume de que, en sus pruebas, Gemini 2.5 arrasa: altísima precisión, latencia mínima y liderazgo en evaluaciones independientes y benchmarks propios, tanto en control web como móvil. Por fin una IA que no solo comprende lo que ve, sino que actúa en consecuencia sin atascarse.
Desarrollo y usos: de la teoría a la práctica
La vista previa de Gemini 2.5 Computer Use ya está disponible para desarrolladores a través de Google AI Studio y Vertex AI. Y sí, algunas funciones ya empiezan a asomar en productos reales, como el cada vez más omnipresente Modo IA de Búsqueda y proyectos de automatización avanzada como Project Mariner. En ambos casos, la IA no se limita a leer sino que “toca” e interactúa con la web, poniéndose las botas como un navegante virtual sin miedo a equivocarse.
¿Estamos ante el futuro del trabajo digital?
Esto no es solo una anécdota tecnológica. El salto de la IA de responder preguntas a operar visualmente en la web abre la puerta a asistentes cada vez más autónomos y potentes. Automatización real a pie de pantalla.
- Simplificará tareas rutinarias y repetitivas en internet.
- Resuelve trámites que implican formularios o portales gubernamentales complejos.
- Facilita la compra y gestión digital a personas mayores o con dificultades técnicas.
- Revoluciona la interacción con apps móviles y web sin depender de accesos directos ni APIs.
Por ahora, no veremos a Gemini 2.5 Computer Use controlar sistemas operativos de escritorio como un experto, pero todo llega. Y cuando lo haga, el salto cualitativo será enorme. Así que, estés donde estés: atento, porque la frontera entre humano y asistente digital nunca ha estado tan desdibujada.
¿Listo para dejar que la IA se meta de lleno en tu pantalla y actúe por ti? El futuro de la interacción digital ya está aquí. Y Google, de nuevo, pisa fuerte el acelerador.