21 de abril de 2026 4 min lectura

Cloudflare's Internal AI Engineering Stack: A Deep Dive into Agentic Development at Hyperscale

Lecciones clave

→ Priorizar un plano de control centralizado (ej. proxy Worker) para la gestión de IA desde el inicio, incluso si la conexión directa parece más simple, para habilitar futuras funcionalidades sin reconfiguración de clientes.
→ Implementar autenticación Zero Trust (ej. Cloudflare Access) para todas las interacciones con IA, asegurando que el acceso a modelos y herramientas esté estrictamente controlado.
→ Utilizar un grafo de conocimiento (ej. Backstage) para proporcionar contexto organizacional estructurado a los agentes de IA, mejorando su efectividad y reduciendo errores.
→ Establecer un mecanismo para contextualizar agentes a nivel de repositorio (ej. AGENTS.md) para guiar su comportamiento según las convenciones y límites específicos del codebase.
→ Diseñar un sistema de 'enforcement layer' (ej. AI Code Reviewer, Engineering Codex) para automatizar la revisión de código y el cumplimiento de estándares, integrando la IA en el ciclo de vida de la calidad.
→ Considerar la optimización de costos de inferencia mediante el uso estratégico de modelos open-source en infraestructura propia (ej. Workers AI) para cargas de trabajo donde la latencia y el costo son críticos.
→ Mitigar el 'context window bloat' en interacciones con agentes mediante patrones como Code Mode, que reduce la cantidad de esquemas de herramientas que deben cargarse en cada solicitud.

La integración de herramientas de IA en el ciclo de vida del desarrollo de software a escala de hyperscaler presenta un desafío fundamental: cómo mantener la seguridad, la observabilidad y la calidad del código, al tiempo que se maximiza la velocidad de los ingenieros. Este artículo describe la solución de Cloudflare, que aborda la gestión de acceso y costos de LLM, la contextualización de agentes de IA con conocimiento organizacional y la automatización de la revisión de código y el cumplimiento de estándares.

El problema se agrava con la proliferación de modelos de IA y la necesidad de orquestar múltiples agentes especializados. La solución de Cloudflare se centra en un plano de control centralizado para el enrutamiento de LLM y la autenticación, un sistema de conocimiento estructurado para proporcionar contexto relevante a los agentes, y un enforcement layer para asegurar la calidad y el cumplimiento normativo. Esto permite que los agentes de IA operen de manera efectiva en un entorno de miles de repositorios y cientos de equipos, transformando la productividad del desarrollo.

Históricamente, la automatización en el desarrollo se ha centrado en CI/CD y pruebas unitarias. La novedad aquí es la extensión de esta automatización a la fase de ideación y codificación asistida por IA, con mecanismos para gobernar y asegurar la salida de los agentes, conectando la IA directamente con los sistemas de conocimiento y cumplimiento de la organización.

Arquitectura del Sistema

La arquitectura se divide en tres capas principales: plataforma, conocimiento y cumplimiento. La capa de plataforma se basa en Cloudflare Access para la autenticación Zero Trust y AI Gateway para el enrutamiento centralizado de LLM, el seguimiento de costos y las políticas de retención de datos. AI Gateway actúa como un proxy inverso, inyectando claves de API y metadatos de usuario anónimos, y enrutando solicitudes a proveedores externos o a Workers AI para inferencia on-platform. Workers AI ejecuta modelos open-source en GPUs de la red global de Cloudflare, optimizando latencia y costos para cargas de trabajo específicas.

La configuración del cliente se simplifica mediante un Worker de proxy que sirve un endpoint de descubrimiento (.well-known/opencode), configurando automáticamente proveedores, modelos y permisos. Este Worker también gestiona un catálogo de modelos fresco y anónimo el seguimiento de usuarios mediante D1 y KV. El MCP Server Portal unifica el acceso a múltiples herramientas internas (Backstage, GitLab, Jira) a través de un único endpoint y flujo de OAuth, utilizando McpAgent del Agents SDK. Code Mode, implementado en el portal, reduce el overhead de tokens al consolidar múltiples esquemas de herramientas en dos herramientas de portal (portal_codemode_search, portal_codemode_execute).

La capa de conocimiento utiliza Backstage como un grafo de conocimiento de la organización, rastreando servicios, APIs, bases de datos y equipos. Un servidor MCP de Backstage permite a los agentes consultar esta información. AGENTS.md es un archivo estructurado por repositorio que proporciona contexto local (runtime, comandos de prueba, convenciones, límites) a los agentes. Un pipeline genera estos archivos a escala, extrayendo metadatos de Backstage y analizando la estructura del repositorio, y luego abre merge requests para revisión por los equipos propietarios.

La capa de cumplimiento incluye el AI Code Reviewer, un componente de GitLab CI que utiliza un coordinador multi-agente para clasificar merge requests y delegar a agentes especializados (calidad, seguridad, cumplimiento de codex, documentación, rendimiento). Estos agentes acceden a modelos vía AI Gateway, consultan reglas del Engineering Codex y leen AGENTS.md. Los resultados se publican como comentarios estructurados en el MR. El Engineering Codex es un sistema de estándares de ingeniería interno, destilado por IA en reglas y habilidades de agente, que se citan en las revisiones de código. La orquestación de agentes de larga duración se realiza con Durable Objects y el Agents SDK, utilizando Sandbox SDK para entornos de ejecución aislados.

Flujo de Solicitud de LLM con Autenticación y Enrutamiento

1 OpenCode Client Envía solicitud LLM con JWT de Cloudflare Access.
2 Proxy Worker Valida JWT, reescribe headers (añade cf-aig-authorization, cf-aig-metadata), ...
3 AI Gateway Recibe solicitud, enruta a proveedor de LLM (Frontier Labs o Workers AI) basa...
4 LLM Provider Procesa la solicitud de inferencia.
5 AI Gateway Reenvía respuesta sin buffering.
6 Proxy Worker Reenvía respuesta al cliente.

Flujo de Generación y Actualización de AGENTS.md

1 Generador de AGENTS.md Extrae metadatos de Backstage (propiedad, dependencias).
2 Generador de AGENTS.md Analiza estructura del repositorio (lenguaje, build system, test framework).
3 Generador de AGENTS.md Mapea stack detectado a estándares del Engineering Codex.
4 Modelo LLM Genera el documento AGENTS.md estructurado.
5 Sistema Abre un Merge Request con el AGENTS.md generado.
6 Equipo Propietario Revisa y refina el AGENTS.md.
7 AI Code Reviewer Flaggea cambios en el repositorio que sugieren actualización de AGENTS.md.

Capa	Tecnología	Justificación
security	Cloudflare Access	Autenticación Zero Trust y aplicación de políticas para todas las solicitudes LLM y acceso a herramientas internas.
networking	AI Gateway	Proxy centralizado para enrutamiento de LLM, gestión de claves de proveedor, seguimiento de costos y políticas de retención de datos (Zero Data Retention). `Inyección de API keys server-side, metadatos de usuario anónimos.`
compute	Workers AI	Plataforma de inferencia serverless para modelos open-source en GPUs de la red global de Cloudflare, optimizando costos y latencia para cargas de trabajo internas. vs Modelos propietarios de Frontier Labs (OpenAI, Anthropic, Google) `Kimi K2.5 para tareas de documentación y seguridad.`
orchestration	Agents SDK (McpAgent, Durable Objects)	Orquestación de agentes de IA, gestión de sesiones de larga duración y construcción de MCP servers.
orchestration	Sandbox SDK	Entornos de ejecución aislados para código generado por agentes, permitiendo clonar repos, instalar dependencias y ejecutar tests de forma segura.
data-processing	Backstage (OSS)	Servicio de catálogo interno y grafo de conocimiento para estructurar datos sobre servicios, infraestructura, equipos y dependencias, proporcionando contexto a los agentes. `Self-hosted, no en productos Cloudflare.`
observability	D1	Almacenamiento persistente para mapear emails de usuario a UUIDs anónimos para seguimiento de costos y uso.
cache	Workers KV	Caché de lectura para mapeos de usuario a UUIDs y para el catálogo de modelos LLM.

Trade-offs

Ganancias

▲ Developer Velocity (Merge Requests)
▲ Costos de inferencia
▲ Seguridad (Zero Trust, Zero Data Retention)
▲ Consistencia de estándares de código

Costes

△ Complejidad inicial de la infraestructura de proxy
△ Overhead de tokens por esquemas de herramientas MCP (mitigado por Code Mode)

Fundamentos Teóricos

La arquitectura descrita se alinea con principios de sistemas distribuidos y seguridad de la información. El uso de un proxy centralizado (AI Gateway) para la gestión de LLM y la autenticación Zero Trust (Cloudflare Access) es una aplicación práctica del patrón de 'gatekeeper' o 'API Gateway', fundamental para la seguridad y la observabilidad en arquitecturas de microservicios. Este patrón fue popularizado en la década de 2000 y es un pilar en la seguridad perimetral y la gestión de tráfico.

La estrategia de contextualización de agentes mediante Backstage y AGENTS.md se relaciona con el concepto de 'knowledge representation' en IA y la importancia de los 'ontologies' o 'grafos de conocimiento' para sistemas inteligentes. La idea de proporcionar a los agentes un modelo estructurado del entorno en el que operan es un principio básico en la investigación de IA desde los años 70, permitiendo un razonamiento más efectivo y reduciendo la necesidad de inferencia heurística. La gestión de la consistencia de AGENTS.md mediante el AI Code Reviewer es un ejemplo de 'feedback loop' automatizado, un concepto clave en sistemas de control y mejora continua de procesos.

Fuente original: https://blog.cloudflare.com/internal-ai-engineering-stack/

Publicado originalmente: 20 de abril de 2026

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest