Google ha presentado la vista previa pública de Gemini 2.5 Computer Use, un modelo especializado desarrollado dentro del Proyecto Mariner e integrado en AI Mode para funciones agenticas. Este Gemini está diseñado para interactuar directamente con interfaces gráficas, enfocándose especialmente en navegadores y sitios web. Su propósito principal es permitir la automatización de tareas mediante ciclos repetitivos de interacción, optimizando procesos que hasta ahora requerían intervención manual constante.

El flujo de trabajo de Gemini 2.5 Computer Use se basa en un bucle continuo de pasos. En primer lugar, el modelo recibe como entrada la solicitud del usuario, una captura de pantalla que refleja el estado actual de la interfaz y un historial de las últimas acciones realizadas. A partir de estos datos, el sistema genera una respuesta que generalmente consiste en llamadas a funciones para ejecutar acciones en la interfaz, como clics o escritura. Tras ejecutar el comando, el sistema captura una nueva pantalla y actualiza la URL, retroalimentando así al modelo para evaluar y ejecutar los siguientes pasos hasta completar la tarea.

Gemini 2.5 Computer Use: control avanzado de interfaces

Más allá de operaciones básicas como hacer clic o escribir texto, este Gemini incorpora soporte para controles avanzados de la interfaz de usuario: navegación con comandos de retroceso y avance, búsquedas en la web, entrada directa de URLs, posicionamiento del cursor, atajos de teclado, desplazamientos y operaciones de arrastrar y soltar. Google ha mostrado ejemplos donde el modelo realiza flujos complejos a gran velocidad. En uno de ellos, se extraen detalles de mascotas desde un formulario específico para residentes en California, trasladando luego la información a un sistema CRM para spas y programando citas de seguimiento. Otro ejemplo ilustra la organización de tareas en un tablero digital de notas adhesivas, clasificándolas mediante arrastre en secciones predeterminadas.

El modelo está principalmente optimizado para navegadores web, aunque también demuestra capacidad en controles de interfaces móviles, como lo evidencia el benchmark AndroidWorld de Google. Aun así, no está adaptado para operar a nivel de sistemas operativos de escritorio. Las pruebas de rendimiento indican que Gemini 2.5 Computer Use supera en tareas de control web y móvil a alternativas similares de Claude y OpenAI, destacando por su baja latencia en manipulación de navegadores, algo fundamental para una experiencia fluida y eficiente.

Aplicaciones y acceso a Gemini 2.5 Computer Use

La base tecnológica que aporta Gemini 2.5 Computer Use para entender la información visual y razonar proviene de la versión Gemini 2.5 Pro, cuyos derivados impulsan el Proyecto Mariner y forman parte de las capacidades agenticas de AI Mode. Google ya utiliza esta versión internamente para acelerar procesos de pruebas de interfaz y desarrollo de software. Además, ha lanzado un programa de acceso temprano dirigido a desarrolladores externos interesados en crear asistentes inteligentes y automatizaciones de flujos de trabajo.

Gemini 2.5 Computer Use está disponible a través de la API de Gemini, accesible desde Google AI Studio y Vertex AI. Para quienes quieran probar sus funcionalidades, Google ha habilitado un entorno demo que permite experimentar con sus capacidades de interacción automatizada en navegadores.

Fuente

¿Quieres montarte tu propio sistema Smart Home?¿Te gustaría empezar poco a poco teniendo Google Home, Alexa o Home Assistant para controlar las luces, calefacción y otros electrodomésticos de la casa? ¡Te ayudamos! Entra en nuestro Grupo de Telégram de Domótica y también puedes entrar a nuestro Foro de Domótica donde podrás empezar a leer y preguntar tus dudas. Además, si quieres estar al tanto de las ofertas de domótica que salen a diario para poder hacerte un sistema de domótica low cost, entra a nuestro Canal de ofertas de domótica y no te perderás ni una o si lo prefieres y no tienes Telegram, puedes entrar a nuestra página de ofertas de domótica o Smart Home en Facebook. ¡Síguenos también en nuestro Facebook, Twitter o Instagram! ¡Te esperamos! Si también buscas otro tipo de ofertas, puedes echar un ojo a nuestros otros canales: * Tecnología en general * * Juguetes / consolas / Juegos de mesa * * Manualidades * Si no tienes Telegram puedes consultar todas las ofertas en Megabazar.es