Hasta hace no mucho tiempo, la inteligencia artificial era poco más que ese asistente al que se le preguntaba para obtener información. Un intercambio en el que su funcionamiento se limitaba a arrojar un resultado mediante el habla o la escritura, más o menos amplio y más o menos exacto. Ahora, esto evoluciona y cambia. Mucho.

No hablamos solo de avances como puede ser la generación de vídeos que ha traído OpenAI de la mano de Sora, ni tampoco nos referimos al hecho de que el usuario pueda ahora llevar a cabo compras desde el propio ChatGPT. Hablamos de la posibilidad de llegar a un navegador, abrir una pestaña y que la inteligencia artificial se encargue de manera autónoma de realizar tareas. Eso es lo que ofrece Gemini 2.5 Computer Use.

Gemini 2.5 Computer Use, todo un asistente digital

Google ha presentado esta misma semana al asistente capaz de hacerlo prácticamente todo por el usuario: abrir una página web, buscar información, completar un formulario y dejarlo todo listo para la aprobación final. Para ello, le basta con aprender a usar el navegador web para realizar las tareas que el usuario llevaría a cabo. Casi todo. La aprobación final de determinadas acciones seguirá en manos del usuario.

Gemini 2.5 Computer Use se encuentra disponible en vista previa para desarrolladores en plataformas como Google AI Studio y Vertex AI. Este modelo de inteligencia artificial desarrollado por la compañía de Mountain View aprovecha las capacidades de comprensión y razonamiento visual de Gemini 2.5 Pro y puede interactuar de forma autónoma -dentro de límites de seguridad- con una ventana del navegador web: abrir páginas, hacer clic, desplazarse o escribir, tal cual lo haría el usuario.

Que nadie se asuste por el hecho de esa autonomía o por la posibilidad de que pueda escapar del navegador en cuestión, puesto que las capacidades de Gemini 2.5 Computer Use se ciñen al control del navegador, no de todo el sistema operativo de los dispositivos. De igual modo, presenta una limitación de acciones sobre las que operar: abrir el navegador, escribir, cumplimentar formularios por ejemplo o arrastrar y soltar elementos.

El modo agente de Gemini confiere a la inteligencia artificial de Google una serie de capacidades que la convierten, en su desempeño dentro del navegador, en un piloto automático fiable y que llega en el momento justo, pues los avances en la competencia como OpenAI y su integración del uso de aplicaciones dentro de ChatGPT muestran la clara evolución hacia agilizar tareas sin salir del mismo entorno.

Se trata, por tanto, de un asistente digital que no solo sugiere opciones o genera texto, sino que él mismo tiene la capacidad de usar el navegador para hacer tareas por el usuario: desde buscar vuelos y cumplimentar formularios (hasta cierto punto) a la extracción de información de una página web.

Un modo de automatizar tareas repetitivas y mejorar la experiencia con asistentes digitales, haciendo que sean más útiles e independientes, pero sin perder el control final sobre las acciones que realizan.