14 de mayo de 2026 4 min lectura

Cloudflare Browser Run: Escalando Navegadores Headless con Contenedores y D1

Lecciones clave

→ La eventual consistencia es un trade-off aceptable para muchos casos de uso, pero es un cuello de botella crítico para la gestión de estado en tiempo real y la asignación de recursos exclusivos.
→ Priorizar la atomicidad y consistencia (ACID) es fundamental para sistemas que gestionan recursos con estado y requieren garantías de exclusividad, incluso a escala de hyperscaler.
→ El batching de operaciones de escritura es una técnica efectiva para mejorar el throughput de bases de datos distribuidas y sistemas de mensajería, amortizando el costo de I/O y red.
→ La localidad de datos y la minimización de la latencia de red son críticas en arquitecturas distribuidas globalmente; los 'regional pools' son un patrón efectivo para lograrlo.
→ Diseñar para la resiliencia es clave: los fallbacks a regiones de respaldo para colas con backlog son un ejemplo práctico.
→ La retroalimentación temprana como 'Customer Zero' en plataformas en desarrollo puede acelerar mejoras significativas para todos los usuarios.
→ Desacoplar servicios con patrones de uso distintos (ej. sesiones largas vs. 'spiky') es crucial para evitar cuellos de botella de escalabilidad y permitir optimizaciones específicas.

La gestión de recursos efímeros y con estado, distribuidos globalmente, presenta desafíos inherentes de consistencia y latencia. En el contexto de los navegadores headless, que son recursos computacionales intensivos y con un ciclo de vida corto, la asignación eficiente y la actualización de su estado en tiempo real son críticas para la escalabilidad y la experiencia del usuario. Este artículo aborda cómo Cloudflare resolvió estos problemas al desacoplar Browser Run de una infraestructura compartida y adoptar un enfoque de contenedores dedicados, gestionando el estado con una base de datos transaccional distribuida y un sistema de colas para actualizaciones asíncronas.

El problema fundamental es cómo mantener una vista consistente y de baja latencia del estado de miles de recursos distribuidos globalmente, especialmente cuando la demanda es volátil y "spiky". La eventual consistencia de sistemas como Workers KV se convierte en un cuello de botella, introduciendo condiciones de carrera y sobre-asignación. La solución requiere un sistema que garantice la atomicidad en la asignación de recursos y permita actualizaciones de estado de alto throughput sin sacrificar la consistencia.

Arquitectura del Sistema

La arquitectura de Browser Run se basa en Cloudflare Workers para la lógica de enrutamiento y en Cloudflare Containers para ejecutar las instancias de navegadores headless. Inicialmente, Browser Run compartía infraestructura con Browser Isolation (BISO), lo que generaba problemas de latencia, distribución y contención de recursos debido a patrones de uso dispares. La migración clave fue hacia contenedores dedicados, habilitados por Durable Objects (DO)-enabled Containers, que permiten la creación de instancias de navegador cerca del punto de entrada de la solicitud.

Para mitigar la latencia entre Durable Objects y los contenedores que pueden estar geográficamente distantes, se implementaron 'regional pools' de contenedores pre-calentados. Esto asegura que un Durable Object y su contenedor asociado estén lo suficientemente cerca para mantener baja la latencia de comunicación. La gestión del estado de estos contenedores, incluyendo su disponibilidad y asignación, fue inicialmente manejada por Workers KV. Sin embargo, la eventual consistencia de KV (con TTLs de caché de hasta 30 segundos) resultó ser un cuello de botella crítico, causando condiciones de carrera y limitando la escalabilidad.

La solución a este problema de estado fue migrar de Workers KV a D1, la base de datos distribuida de Cloudflare basada en SQLite. D1 proporciona transacciones ACID, lo que permite una asignación atómica de navegadores a usuarios, eliminando las condiciones de carrera. Para manejar el alto volumen de actualizaciones de estado (cada contenedor actualiza su estado cada 5 segundos), se implementó un patrón de batching de escrituras utilizando Cloudflare Queues. Cada contenedor envía su estado a una cola regional, y un Worker consumidor procesa estos mensajes en lotes de hasta 100, con un timeout de 1 segundo, logrando un throughput de hasta 500,000 actualizaciones de contenedores por ubicación con una latencia P95 de 0.1ms para escrituras en lote. En caso de backlog en una cola, se implementa un fallback a una región de respaldo. Las 'Quick Actions' ahora se ejecutan enviando todos los parámetros en una única solicitud HTTP al contenedor, eliminando la comunicación WebSocket paso a paso y reduciendo significativamente la latencia.

Flujo de Asignación de Navegador

1 Usuario Inicia solicitud de navegador headless
2 Cloudflare Worker Recibe solicitud, determina región óptima
3 Durable Object Coordina la asignación dentro de la región
4 D1 (SQLite) Consulta pool de contenedores disponibles, realiza UPDATE transaccional para ...
5 Cloudflare Container Instancia de navegador headless asignada al usuario

Flujo de Actualización de Estado de Contenedor

1 Cloudflare Container Calcula su estado actual (cada 5 segundos)
2 Cloudflare Queue Añade mensaje de estado a la cola de su ubicación
3 Worker Consumer Procesa mensajes de la cola en lotes (max 100, timeout 1s)
4 D1 (SQLite) Actualiza el estado de los contenedores en lote

Capa	Tecnología	Justificación
orchestration	Cloudflare Containers	Ejecución aislada y escalable de navegadores headless, con distribución global y pre-calentamiento. vs Infraestructura compartida con Browser Isolation (BISO)
compute	Cloudflare Workers	Lógica de enrutamiento de solicitudes, coordinación de Durable Objects, y consumidores de Queues para procesamiento de estado.
storage	Cloudflare D1 (SQLite)	Almacenamiento transaccional del estado de los contenedores, garantizando atomicidad en la asignación y consistencia. vs Cloudflare Workers KV `Sharding por ubicación, batching de escrituras.`
messaging	Cloudflare Queues	Buffer asíncrono para actualizaciones de estado de contenedores, permitiendo batching de escrituras a D1 y desacoplando productores de consumidores. `max_batch_size: 100, max_batch_timeout: 1s`
orchestration	Cloudflare Durable Objects	Coordinación de estado y persistencia de sesión para instancias de navegador, garantizando que un navegador esté cerca de la solicitud entrante.

Trade-offs

Ganancias

▲▲ Capacidad de navegadores concurrentes
▲ Latencia de Quick Actions
▲ Flexibilidad de actualización de imagen de navegador
▲ Consistencia del estado de asignación
▲▲ Throughput de actualizaciones de estado

Costes

△ Complejidad arquitectónica (regional pools, D1, Queues)
△ Fricción inicial con plataforma Containers en beta

WITH candidate_pool AS (
-- candidate pool logic to pick based on latency and other rules
)
UPDATE containers
SET status = 'picked'
WHERE sessionId IN (
SELECT sessionId
FROM candidate_pool
ORDER BY RANDOM()
LIMIT ?5
)
RETURNING data

Consulta SQL para seleccionar y asignar atómicamente un navegador de un pool de candidatos, previniendo condiciones de carrera.

{
...
"queues": {
"consumers": [
{
"queue": "production-core-containers-queue-weur",
"max_batch_size": 100,
"max_batch_timeout": 1,
"max_retries": 1
}
]
}
}

Configuración de un consumidor de Cloudflare Queue para procesar mensajes en lotes, especificando tamaño máximo y timeout.

Fundamentos Teóricos

El desafío de mantener la consistencia del estado en sistemas distribuidos es un tema central en la informática distribuida, abordado por el Teorema CAP (Consistency, Availability, Partition Tolerance). La elección de D1 sobre Workers KV para la gestión del estado de los contenedores ilustra una priorización de la Consistencia (C) y la Disponibilidad (A) sobre la eventual consistencia, especialmente en un contexto donde las condiciones de carrera son inaceptables. D1, al ser una base de datos transaccional, se alinea con los principios de sistemas que requieren fuertes garantías de consistencia, similares a los discutidos en trabajos sobre bases de datos distribuidas y protocolos de consenso como Paxos o Raft, aunque D1 utiliza SQLite con un enfoque de replicación y consistencia diferente.

La implementación de 'regional pools' para reducir la latencia entre componentes distribuidos es una aplicación práctica de los principios de localidad de datos y minimización de la latencia de red, un problema fundamental en sistemas distribuidos a gran escala. La técnica de batching de escrituras para mejorar el throughput en D1 es una optimización común en sistemas de bases de datos y mensajería, donde se busca amortizar el costo fijo de las operaciones de I/O y de red, un concepto bien conocido en la optimización de sistemas de almacenamiento y procesamiento de eventos.

Fuente original: https://blog.cloudflare.com/browser-run-containers/

Publicado originalmente: 13 de mayo de 2026

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

Starship V3: Evolución de la Arquitectura de Cohetes Reutilizables y su Impacto en la Economía Espacial

La iteración rápida con pruebas de hardware en el entorno real es fundamental para el desarrollo de sistemas complejos, incluso si implica fallos controlados.

Consensus Replication Databases LSM-Tree

13 may 2026

Quack: Protocolo Cliente-Servidor para DuckDB

La flexibilidad arquitectónica es clave: un sistema in-process puede evolucionar para soportar modelos cliente-servidor si la necesidad del usuario lo justifica, incluso si contradice la filosofía inicial.

Databases Replication Performance Profiling

13 may 2026

Quack: Habilitando Arquitecturas Cliente-Servidor para DuckDB con un Nuevo Protocolo HTTP

La elección entre arquitecturas in-process y cliente-servidor es un trade-off fundamental entre latencia/simplicidad y concurrencia/escalabilidad.

Databases Replication Performance Profiling