La proliferación de agentes de software autónomos, desde asistentes de codificación hasta sistemas de soporte y herramientas de investigación, está generando una demanda sin precedentes de capacidad de cómputo distribuida. El modelo tradicional de 'una aplicación sirve a muchos usuarios' no es adecuado para la escala de 'muchos agentes por usuario' que se proyecta, donde cada trabajador del conocimiento podría ejecutar múltiples agentes en paralelo. Esto requiere una reevaluación fundamental de la infraestructura de la nube, pasando de un paradigma centrado en aplicaciones a uno centrado en agentes.

Cloudflare aborda este desafío transformando su plataforma serverless Workers en una 'nube agéntica'. La tesis central es que la arquitectura de Workers, basada en isolates ligeros y sin contenedores, es inherentemente adecuada para la ejecución de agentes. La compañía está construyendo sobre esta base para ofrecer primitivas de cómputo, seguridad, herramientas de IA y adaptaciones de la web que permitan a los desarrolladores construir, desplegar y escalar agentes de manera eficiente y segura.

Arquitectura del Sistema

La arquitectura propuesta por Cloudflare para la 'nube agéntica' se extiende a través de varias capas del stack. En la capa de cómputo, se introducen 'Artifacts' para almacenamiento versionado compatible con Git, y 'Cloudflare Sandboxes' que ofrecen entornos de ejecución aislados y persistentes con shell y sistema de archivos. Los 'Durable Objects' se mejoran con 'Facets' para permitir bases de datos SQLite aisladas por instancia, facilitando la persistencia de estado para código generado dinámicamente. El control plane de 'Workflows' se ha reestructurado para soportar alta concurrencia y tasas de creación, esencial para agentes de fondo duraderos.

En seguridad, 'Cloudflare Mesh' proporciona acceso de red privado y seguro para agentes, integrándose con 'Workers VPC' para acceso granular a bases de datos y APIs. 'Managed OAuth for Access' adopta RFC 9728 para la autenticación de agentes sin cuentas de servicio inseguras, complementado con tokens API escaneables y permisos con ámbito de recurso para una arquitectura de menor privilegio. La 'Agent Toolbox' incluye 'Agent Memory' (servicio de memoria persistente), 'AI Search' (motor de búsqueda con recuperación híbrida) y una 'AI platform' unificada para inferencia de modelos de más de 14 proveedores. Se destaca 'Unweight', un sistema de compresión de LLM sin pérdidas para optimizar el uso de memoria GPU. Finalmente, la capa de red se optimiza con la migración del request handling a una arquitectura basada en Rust ('FL2') y soporte para diccionarios de compresión compartidos para mejorar los tiempos de carga.

Flujo de Ejecución de Agente Persistente

  1. 1 Solicitud de Agente Un usuario o sistema externo invoca un agente.
  2. 2 Cloudflare Workers El Worker inicializa o reanuda el contexto del agente.
  3. 3 Durable Object Facet Instancia un Durable Object con su propia base de datos SQLite aislada para e...
  4. 4 Cloudflare Sandboxes Provee un entorno de ejecución aislado con shell y filesystem para el agente.
  5. 5 Agent Memory Accede a memoria persistente gestionada para recordar interacciones pasadas.
  6. 6 AI Platform Realiza inferencia de modelos de lenguaje grandes (LLMs) o multimodales.
  7. 7 Cloudflare Mesh Acceso seguro a recursos privados (APIs, DBs) con políticas de confianza cero.
  8. 8 Respuesta/Acción El agente completa su tarea y devuelve un resultado o realiza una acción.
CapaTecnologíaJustificación
compute Cloudflare Workers Plataforma serverless base para la ejecución de agentes en isolates ligeros. vs AWS Lambda, Google Cloud Functions, Azure Functions, Kubernetes
storage Artifacts Almacenamiento versionado compatible con Git para código y datos de agentes. vs GitLab, GitHub, AWS CodeCommit
compute Cloudflare Sandboxes Entornos de ejecución aislados y persistentes con shell y filesystem para agentes que requieren un OS completo. vs VMs, Contenedores Docker
storage Durable Objects + SQLite Proporciona persistencia de estado y bases de datos aisladas para código generado dinámicamente por agentes. vs Redis, PostgreSQL, MongoDB
orchestration Cloudflare Workflows Motor de ejecución duradero para aplicaciones multi-paso, escalado para agentes de fondo. vs AWS Step Functions, Temporal, Cadence 50,000 concurrencia, 300 creaciones/segundo
security Cloudflare Mesh Acceso de red privado y seguro para agentes, integrándose con Workers VPC. vs VPNs tradicionales, SD-WAN, Zero Trust Network Access (ZTNA) de terceros
security Managed OAuth for Access Autenticación segura de agentes en aplicaciones internas sin cuentas de servicio inseguras. vs Tokens de API estáticos, Credenciales de servicio Adopción de RFC 9728
data-processing Cloudflare AI platform Capa unificada de inferencia para agentes, soportando modelos de múltiples proveedores. vs OpenAI API, Anthropic API, Hugging Face Inference API Soporte para 14+ proveedores, Workers binding
data-processing Unweight Sistema de compresión de LLM sin pérdidas para reducir la huella de memoria GPU y mejorar la inferencia. vs Cuantificación de modelos, Poda de modelos, Destilación de modelos Hasta 22% de reducción de huella
cache Cloudflare Agent Memory Servicio de memoria persistente gestionada para agentes de IA. vs Redis, Memcached, Bases de datos NoSQL
data-processing AI Search Primitiva de búsqueda para agentes, con recuperación híbrida y boosting de relevancia. vs Elasticsearch, Solr, Pinecone
networking FL2 (Rust-based architecture) Nueva arquitectura de capa de manejo de solicitudes para mejorar el rendimiento de la red. vs Arquitecturas basadas en C/C++, Go 60% de mejora de rendimiento sobre redes top

Trade-offs

Ganancias
  • Escalabilidad de cómputo para agentes
  • Seguridad de red y autenticación para agentes
  • Eficiencia de inferencia de LLM
  • Persistencia de estado para agentes
  • Rendimiento de la red
Costes
  • Complejidad de la plataforma
  • Curva de aprendizaje para nuevas primitivas

Fundamentos Teóricos

El concepto de agentes autónomos tiene raíces profundas en la inteligencia artificial y la computación distribuida, remontándose a los sistemas multi-agente y la computación ubicua. La necesidad de entornos de ejecución aislados y persistentes para agentes resuena con principios de sistemas operativos y máquinas virtuales, donde la virtualización (como en los isolates de Workers) es clave para la seguridad y el aislamiento de recursos. La gestión de estado persistente para agentes, como se aborda con Durable Objects y SQLite, se alinea con los desafíos de consistencia y durabilidad explorados en bases de datos distribuidas y sistemas de archivos tolerantes a fallos, como los descritos en trabajos sobre replicación y consenso (ej. Paxos, Raft).

La seguridad de la comunicación entre agentes y servicios internos, mediante mecanismos como Cloudflare Mesh y OAuth, se basa en principios de criptografía y autenticación de redes, fundamentales en la seguridad informática desde los trabajos iniciales sobre Kerberos y SSL/TLS. La optimización de la inferencia de modelos de lenguaje grandes (LLMs) con técnicas como la compresión de modelos ('Unweight') se conecta con la investigación en eficiencia computacional y optimización de algoritmos, buscando reducir la complejidad espacial y temporal de modelos complejos, un campo activo en la investigación de IA y aprendizaje automático.