1 de mayo de 2026 3 min lectura

Escalabilidad de Escritura en PostgreSQL para Workflows Duraderos

Lecciones clave

→ No subestimar la escalabilidad de bases de datos relacionales monolíticas; pueden manejar cargas significativas con la configuración adecuada.
→ El Write-Ahead Log (WAL) es un componente crítico para el rendimiento de escritura y la durabilidad; su latencia de `fsync` es a menudo el cuello de botella principal.
→ La contención de bloqueos en puntos calientes (hot spots) de datos puede limitar el throughput incluso con optimizaciones como `SKIP LOCKED`; la distribución de trabajo es clave.
→ La elección del tipo de clave primaria (ej. UUIDv7) puede impactar el rendimiento de inserción al reducir la contención en índices.
→ Monitorear las métricas internas de la base de datos (ej. `pg_stat_activity`) es esencial para identificar cuellos de botella reales, más allá de la CPU o IOPS generales.
→ Considerar el número de escrituras por operación lógica (ej. workflow) al estimar el throughput; más escrituras implican menor throughput de operaciones de alto nivel.
→ Para cargas extremas, la fragmentación (sharding) de la base de datos sigue siendo una estrategia válida para escalar horizontalmente.

La persistencia de estado es un requisito fundamental en sistemas distribuidos, especialmente para la ejecución de workflows duraderos que deben sobrevivir a fallos. Tradicionalmente, la percepción es que las bases de datos relacionales monolíticas, como PostgreSQL, no escalan a las tasas de escritura requeridas por sistemas de alta concurrencia. Sin embargo, este análisis desafía esa noción, demostrando que un único servidor PostgreSQL, configurado y optimizado, puede manejar un volumen significativo de escrituras, superando las expectativas comunes y resolviendo el problema de durabilidad para una amplia gama de aplicaciones.

El problema fundamental de la computación que se aborda es cómo garantizar la durabilidad y atomicidad de las operaciones de estado en un sistema transaccional, minimizando el impacto en el rendimiento. La solución se centra en la arquitectura interna de PostgreSQL, específicamente en su implementación del Write-Ahead Log (WAL), que permite desacoplar las escrituras lógicas de las actualizaciones físicas de datos en disco, optimizando la latencia de commit y el throughput general.

Arquitectura del Sistema

El sistema bajo análisis es un único servidor PostgreSQL ejecutándose en una instancia db.m7i.24xlarge de AWS RDS, con 96 vCPUs, 384 GB de RAM y 120K IOPS provisionadas en un volumen io2. La arquitectura de PostgreSQL se basa en un modelo de procesos donde cada conexión de cliente es manejada por un proceso backend dedicado. Las escrituras se realizan a través de transacciones ACID.

La clave de la durabilidad y el rendimiento de escritura en PostgreSQL reside en el Write-Ahead Log (WAL). Cuando una transacción realiza una escritura, PostgreSQL no modifica directamente las páginas de datos en disco. En su lugar, primero registra una descripción de la escritura en el WAL. Este registro se almacena en memoria y luego se fuerza a disco mediante una llamada fsync antes de que la transacción sea confirmada al cliente. Las actualizaciones reales de las páginas de datos en disco se realizan de forma asíncrona en segundo plano por procesos como el checkpoint writer y el background writer. Este diseño, conocido como 'log-structured storage' o 'write-ahead logging', minimiza la latencia de commit al requerir solo una escritura secuencial al WAL, que es más rápida que las escrituras aleatorias a las páginas de datos. El cuello de botella principal identificado es la velocidad a la que el WAL puede ser vaciado a disco, a menudo limitado por la latencia de fsync y la contención del 'WAL lock' durante los 'group commits'.

Para las cargas de trabajo de workflows duraderos, se utilizan tablas con un UUIDv7 como clave primaria, campos TEXT para datos y TIMESTAMP para metadatos. En el caso de colas duraderas, se observa contención de bloqueos en las primeras filas de la tabla de cola, incluso con optimizaciones como SKIP LOCKED, lo que sugiere un cuello de botella en la concurrencia de acceso a datos específicos en lugar del WAL. La distribución de trabajo a través de múltiples colas o particiones mitiga este problema, volviendo a desplazar el cuello de botella hacia el WAL.

Flujo de Escritura de Transacción en PostgreSQL

1 Cliente Envía comando INSERT/UPDATE
2 PostgreSQL Backend Recibe comando, inicia transacción
3 WAL Buffer Añade registro de cambio a buffer en memoria
4 WAL Writer Vacía WAL buffer a disco (fsync)
5 PostgreSQL Backend Confirma transacción al cliente
6 Background Writer Actualiza páginas de datos en disco (asíncrono)

Flujo de Workflow Duradero (con Cola)

1 Cliente Encola workflow (INSERT)
2 Worker Desencola workflow (UPDATE con SKIP LOCKED)
3 Worker Inicia ejecución (UPDATE)
4 Worker Completa ejecución (UPDATE)

Capa	Tecnología	Justificación
storage	PostgreSQL	Base de datos relacional principal para persistencia de estado de workflows. vs MySQL, Cassandra, MongoDB `AWS RDS db.m7i.24xlarge, 96 vCPUs, 384 GB RAM, 120K provisioned IOPS (io2 volume)`
compute	Python (async clients)	Clientes de prueba para generar carga concurrente y medir throughput. vs Go, Java
observability	pg_stat_activity	Herramienta interna de PostgreSQL para monitorear la actividad de los procesos backend y diagnosticar cuellos de botella.

Trade-offs

Ganancias

▲ Throughput de escrituras
▲ Durabilidad de workflows

Costes

△ Latencia de fsync del WAL
▲ Contención de bloqueos en colas de un solo punto

CREATE TABLE writes (
    id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
    data TEXT NOT NULL,
    created_at TIMESTAMP WITH TIME ZONE DEFAULT NOW()
);

Definición de una tabla simple para benchmarking de escrituras, utilizando UUIDv7 para evitar contención de índices.

SELECT pid, usename, application_name, client_addr, backend_start, state, wait_event_type, wait_event, query
FROM pg_stat_activity
WHERE state IS NOT NULL
ORDER BY backend_start DESC;

Uso de la vista `pg_stat_activity` para identificar cuellos de botella de rendimiento y estados de espera.

Fundamentos Teóricos

El concepto de Write-Ahead Logging (WAL) es un pilar fundamental en el diseño de sistemas de gestión de bases de datos transaccionales, con raíces en la investigación académica de los años 70 y 80. Principios como el de 'ARIES' (Algorithms for Recovery and Isolation Exploiting Semantics), desarrollado por C. Mohan et al. en IBM Research (1992), formalizaron gran parte de la teoría detrás de la recuperación de bases de datos y la gestión de logs. ARIES, y sus predecesores, establecieron el modelo de 'redo/undo logging' que permite la recuperación de fallos y garantiza la atomicidad de las transacciones.

La observación de que el fsync del WAL es un cuello de botella para cargas de trabajo intensivas en escritura es consistente con la teoría de sistemas de almacenamiento, donde la latencia de I/O síncrona es un factor limitante crítico. La estrategia de 'group commit', donde múltiples transacciones esperan a que un único fsync vacíe sus entradas del WAL, es una optimización directa para mitigar este problema, tal como se describe en la literatura sobre sistemas transaccionales distribuidos y bases de datos de alto rendimiento.

Fuente original: https://www.dbos.dev/blog/benchmarking-workflow-execution-scalability-on-postgres

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

Comparativas

PostgreSQL vs CockroachDB →

Implementación de Criptografía Post-Cuántica Híbrida en IPsec a Escala de Internet

Priorizar la estandarización y la interoperabilidad en la adopción de nuevas tecnologías de seguridad, especialmente en entornos distribuidos.

Cryptography Consensus

27 abr 2026

Optimización de Memoria en Rust: Deserialización de Estructuras Dispersas con Serde y Box

El layout de memoria de las estructuras de datos es crítico para el consumo de RAM en lenguajes de sistemas como Rust; no asuma que `Option<T>` siempre es eficiente en espacio.

Performance Profiling Databases

26 abr 2026

DeepSeek-V4: Optimización de Inferencia y RL para Modelos con Atención Híbrida y FP4

El co-diseño de hardware/software es crítico para modelos de IA de vanguardia; las arquitecturas de modelos novedosas requieren adaptaciones profundas en la pila de sistemas.

Databases LSM-Tree CPU Architecture GPU Architecture