La IA al mando de la interfaz: Copilot Studio y Computer Use para automatizar lo legacy

Microsoft Copilot Studio, la plataforma de orquestación de agentes de IA, ha incorporado una innovadora capacidad llamada Computer Use, que en la práctica permite a sus agentes usar la interfaz de un ordenador como lo haría una persona. Gracias a modelos de IA multimodales especializados —como el Computer-Using Agent de OpenAI y Claude Sonnet 4.5 de Anthropic—, los agentes de Copilot Studio pueden interactuar con aplicaciones web y de escritorio, incluyendo sistemas heredados sin APIs, realizando acciones reales de teclado y ratón respaldadas por visión artificial y razonamiento secuencial.

A continuación, este artículo examina la arquitectura técnica de esta integración, describe el bucle iterativo Think–See–Act que guía la ejecución del agente, detalla cómo Copilot Studio desencadena sesiones de Computer Use en entornos aislados, y analiza los mecanismos de seguridad y control que garantizan un uso empresarial seguro.

Arquitectura técnica: Orquestador + herramientas con IA multimodal

En Copilot Studio, un agente se construye combinando tres pilares: un modelo de lenguaje (LLM) central, un conjunto de instrucciones (prompts y reglas) y un repertorio de herramientas conectadas. El LLM (por ejemplo, GPT-4 de Microsoft a través de Azure OpenAI) gestiona el diálogo y el razonamiento principal del agente, mientras que las herramientas le permiten realizar acciones especializadas.

Desde consultar APIs y bases de datos (vía los más de 1.500 conectores de Power Platform) hasta ejecutar flujos de trabajo (Power Automate Agent Flows) o incluso código Python seguro (Code Interpreter), todo ocurre dentro de la conversación.

En este ecosistema, Computer Use destaca por aportar al agente “ojos” y “manos” digitales. Con esta capacidad, un agente puede percibir lo que aparece en la pantalla y manipularlo: abrir aplicaciones, hacer clic en botones, escribir en formularios o leer datos.

Para lograrlo, Copilot Studio integra modelos de IA multimodales de última generación:

  • Computer-Using Agent (CUA) de OpenAI
  • Claude Sonnet 4.5 de Anthropic

Estos modelos permiten interpretar interfaces gráficas, planificar acciones y ejecutarlas de forma autónoma, todo mediante instrucciones en lenguaje natural.

Lógica de ejecución: el bucle Think–See–Act

Los agentes con Computer Use siguen un ciclo iterativo de razonamiento y acción:

  • Think (planificación): el agente analiza la petición y define el siguiente paso.
  • See (observación): captura la pantalla y comprende el estado actual.
  • Act (ejecución): interactúa con la interfaz mediante teclado y ratón virtuales.
  • Reevaluación: verifica el resultado y continúa si es necesario.

Este bucle proporciona una retroalimentación constante, haciendo al agente adaptativo y resiliente.

A diferencia de la automatización tradicional (RPA), que falla ante pequeños cambios, estos agentes detectan variaciones en la interfaz y se ajustan dinámicamente. Esto supone un salto cualitativo en la automatización de sistemas legacy.

Integración en Copilot Studio: sesiones bajo demanda

Cuando un agente necesita interactuar con una interfaz, Copilot Studio lanza una sesión virtual aislada de Windows, donde el modelo ejecuta la tarea sin afectar al entorno del usuario.

Las instrucciones se proporcionan en lenguaje natural (por ejemplo: URL, credenciales o parámetros dinámicos), y el agente ejecuta el ciclo completo hasta finalizar la tarea.

Modos de ejecución disponibles

  • Hosted Browser: navegador aislado en la nube (Windows 365 for Agents)
  • Cloud PC Pool: escritorio corporativo en la nube integrado con Azure AD e Intune
  • BYOM (Bring Your Own Machine): uso de infraestructura propia

Todos los modos garantizan un entorno controlado y seguro, con un modelo de pago por uso basado en créditos Copilot.

Control total en entornos aislados

La automatización mediante IA exige un enfoque robusto de seguridad. Copilot Studio incorpora:

  • Entornos 100% aislados (sandbox)
  • Restricciones de acciones del agente
  • Supervisión humana en tiempo real
  • Gestión segura de credenciales (Azure Key Vault)
  • Registro detallado de actividad (logs y screenshots)

Estas medidas permiten un uso empresarial confiable, auditado y gobernado.

Conclusión

La integración de Copilot Studio con Computer Use abre un nuevo horizonte en la automatización: agentes capaces de combinar lenguaje natural y manipulación directa de interfaces gráficas, incluso en sistemas sin API.

Esto permite eliminar tareas manuales y crear “colegas digitales” capaces de operar en entornos complejos. No obstante, su adopción requiere diseño, control y gobernanza adecuados para maximizar beneficios sin comprometer la seguridad.

En Bravent, ayudamos a las organizaciones a aprovechar todo el potencial de la automatización inteligente con IA y Copilot Studio, integrando estas capacidades en entornos reales de negocio de forma segura y escalable.

Si quieres transformar tus procesos legacy y dar el salto a la automatización avanzada, contáctanos en info@bravent.net y te ayudaremos a diseñar la solución adecuada para tu organización.

gema

Gema Molina Vaquero

AI Employee Experience Technical Lead - Bravent
    Resumen de privacidad

    Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

    Cookies estrictamente necesarias

    Las cookies estrictamente necesarias tiene que activarse siempre para que podamos guardar tus preferencias de ajustes de cookies.

    Cookies de terceros

    Esta web utiliza cookies analíticas para recopilar información anónima tal como el número de visitantes del sitio, o las páginas más populares.

    Dejar esta cookie activa nos permite mejorar nuestra web.