Microsoft Copilot Studio, la plataforma de orquestación de agentes de IA, ha incorporado una innovadora capacidad llamada Computer Use, que en la práctica permite a sus agentes usar la interfaz de un ordenador como lo haría una persona. Gracias a modelos de IA multimodales especializados —como el Computer-Using Agent de OpenAI y Claude Sonnet 4.5 de Anthropic—, los agentes de Copilot Studio pueden interactuar con aplicaciones web y de escritorio, incluyendo sistemas heredados sin APIs, realizando acciones reales de teclado y ratón respaldadas por visión artificial y razonamiento secuencial.
A continuación, este artículo examina la arquitectura técnica de esta integración, describe el bucle iterativo Think–See–Act que guía la ejecución del agente, detalla cómo Copilot Studio desencadena sesiones de Computer Use en entornos aislados, y analiza los mecanismos de seguridad y control que garantizan un uso empresarial seguro.
Arquitectura técnica: Orquestador + herramientas con IA multimodal
En Copilot Studio, un agente se construye combinando tres pilares: un modelo de lenguaje (LLM) central, un conjunto de instrucciones (prompts y reglas) y un repertorio de herramientas conectadas. El LLM (por ejemplo, GPT-4 de Microsoft a través de Azure OpenAI) gestiona el diálogo y el razonamiento principal del agente, mientras que las herramientas le permiten realizar acciones especializadas.
Desde consultar APIs y bases de datos (vía los más de 1.500 conectores de Power Platform) hasta ejecutar flujos de trabajo (Power Automate Agent Flows) o incluso código Python seguro (Code Interpreter), todo ocurre dentro de la conversación.
En este ecosistema, Computer Use destaca por aportar al agente “ojos” y “manos” digitales. Con esta capacidad, un agente puede percibir lo que aparece en la pantalla y manipularlo: abrir aplicaciones, hacer clic en botones, escribir en formularios o leer datos.
Para lograrlo, Copilot Studio integra modelos de IA multimodales de última generación:
- Computer-Using Agent (CUA) de OpenAI
- Claude Sonnet 4.5 de Anthropic
Estos modelos permiten interpretar interfaces gráficas, planificar acciones y ejecutarlas de forma autónoma, todo mediante instrucciones en lenguaje natural.
Lógica de ejecución: el bucle Think–See–Act
Los agentes con Computer Use siguen un ciclo iterativo de razonamiento y acción:
- Think (planificación): el agente analiza la petición y define el siguiente paso.
- See (observación): captura la pantalla y comprende el estado actual.
- Act (ejecución): interactúa con la interfaz mediante teclado y ratón virtuales.
- Reevaluación: verifica el resultado y continúa si es necesario.
Este bucle proporciona una retroalimentación constante, haciendo al agente adaptativo y resiliente.
A diferencia de la automatización tradicional (RPA), que falla ante pequeños cambios, estos agentes detectan variaciones en la interfaz y se ajustan dinámicamente. Esto supone un salto cualitativo en la automatización de sistemas legacy.
Integración en Copilot Studio: sesiones bajo demanda
Cuando un agente necesita interactuar con una interfaz, Copilot Studio lanza una sesión virtual aislada de Windows, donde el modelo ejecuta la tarea sin afectar al entorno del usuario.
Las instrucciones se proporcionan en lenguaje natural (por ejemplo: URL, credenciales o parámetros dinámicos), y el agente ejecuta el ciclo completo hasta finalizar la tarea.
Modos de ejecución disponibles
- Hosted Browser: navegador aislado en la nube (Windows 365 for Agents)
- Cloud PC Pool: escritorio corporativo en la nube integrado con Azure AD e Intune
- BYOM (Bring Your Own Machine): uso de infraestructura propia
Todos los modos garantizan un entorno controlado y seguro, con un modelo de pago por uso basado en créditos Copilot.
Control total en entornos aislados
La automatización mediante IA exige un enfoque robusto de seguridad. Copilot Studio incorpora:
- Entornos 100% aislados (sandbox)
- Restricciones de acciones del agente
- Supervisión humana en tiempo real
- Gestión segura de credenciales (Azure Key Vault)
- Registro detallado de actividad (logs y screenshots)
Estas medidas permiten un uso empresarial confiable, auditado y gobernado.
Conclusión
La integración de Copilot Studio con Computer Use abre un nuevo horizonte en la automatización: agentes capaces de combinar lenguaje natural y manipulación directa de interfaces gráficas, incluso en sistemas sin API.
Esto permite eliminar tareas manuales y crear “colegas digitales” capaces de operar en entornos complejos. No obstante, su adopción requiere diseño, control y gobernanza adecuados para maximizar beneficios sin comprometer la seguridad.
En Bravent, ayudamos a las organizaciones a aprovechar todo el potencial de la automatización inteligente con IA y Copilot Studio, integrando estas capacidades en entornos reales de negocio de forma segura y escalable.
Si quieres transformar tus procesos legacy y dar el salto a la automatización avanzada, contáctanos en info@bravent.net y te ayudaremos a diseñar la solución adecuada para tu organización.




