7 de marzo de 2026 4 min lectura

Evolución de la Durabilidad y Consistencia en Bases de Datos Distribuidas de AWS: De Dynamo a DSQL

Lecciones clave

→ Los trade-offs de CAP/PACELC no son absolutos; los avances en hardware y algoritmos pueden mitigar sus impactos prácticos.
→ La consistencia fuerte es alcanzable a escala de hyperscaler con alta disponibilidad y baja latencia mediante algoritmos de consenso y MVCC.
→ Desacoplar la replicación del almacenamiento (como en DSQL) puede ofrecer mayor flexibilidad y escalabilidad independiente.
→ La infraestructura de tiempo de alta precisión es crítica para la consistencia global en sistemas distribuidos avanzados.
→ Priorizar la durabilidad y la consistencia fuerte por defecto simplifica el modelo de programación para los desarrolladores de aplicaciones.
→ La evolución de los sistemas distribuidos muestra una tendencia hacia la abstracción de la complejidad subyacente de la consistencia para el usuario final.
→ Las decisiones de sharding (hash-based vs. range-based) tienen implicaciones significativas en el modelo de datos y la capacidad transaccional.

El problema fundamental que abordan Amazon Dynamo, DynamoDB y Aurora DSQL es la gestión de datos distribuidos a escala, garantizando durabilidad y consistencia frente a fallos de hardware y red. Históricamente, el diseño de sistemas distribuidos ha estado dominado por los trade-offs entre consistencia, disponibilidad y tolerancia a particiones (CAP theorem). El paper original de Dynamo (2007) fue pionero en mostrar cómo un sistema de clave-valor podía priorizar la alta disponibilidad y la durabilidad eventual en entornos de gran escala, aceptando una consistencia más débil. Sin embargo, la evolución de la infraestructura de la nube, las mejoras en el rendimiento del hardware (ej. SSDs) y el desarrollo de algoritmos de consenso más eficientes han permitido a las generaciones posteriores de bases de datos distribuidas de AWS (DynamoDB y DSQL) ofrecer garantías de consistencia más fuertes sin sacrificar significativamente la disponibilidad o la latencia.

Esta evolución demuestra un cambio de paradigma: de la aceptación de la consistencia eventual como una necesidad inherente a la escala, a la capacidad de ofrecer consistencia fuerte por defecto, incluso para transacciones complejas, manteniendo al mismo tiempo una alta disponibilidad y rendimiento. La clave reside en la sofisticación de los mecanismos de replicación, el uso de algoritmos de consenso como Paxos y la integración de infraestructuras de tiempo de alta precisión, que permiten a estos sistemas superar las limitaciones percibidas en la era de Dynamo.

Arquitectura del Sistema

Amazon Dynamo utiliza un esquema de sharding basado en consistent hashing, replicando cada ítem N veces en nodos sucesores en el anillo. La durabilidad se logra manteniendo N copias de datos, y la consistencia es eventual, aunque se permite a los clientes ajustar R (lecturas) y W (escrituras) para influir en la fuerza de la consistencia. La resolución de conflictos se maneja con vector clocks.

DynamoDB, por otro lado, abandona la replicación en el anillo por grupos de réplicas (replica groups) que utilizan un variante de Paxos para la replicación del Write-Ahead Log (WAL) a través de múltiples Availability Zones (AZs). Cada ítem se asigna a un grupo de réplicas, no a un nodo individual en el anillo. Las escrituras son fuertemente consistentes, requiriendo un quorum de réplicas para persistir el registro del WAL antes de la confirmación. Las lecturas pueden ser fuertemente consistentes (servidas solo por el líder) o eventualmente consistentes (servidas por cualquier réplica). Este diseño mejora la durabilidad y la capacidad de escalar sin degradar la consistencia.

Aurora DSQL representa una evolución adicional. También utiliza un variante de Paxos para replicar un log de cambios, pero lo hace a través de un componente independiente llamado 'Journal', desacoplando la replicación del almacenamiento. Esto permite el escalado independiente de lecturas y escrituras y el commit atómico de transacciones multi-shard. DSQL utiliza un esquema de sharding basado en rangos y emplea una combinación de tiempo físico (Precision Time Infrastructure de EC2) y Multi-Version Concurrency Control (MVCC) para ofrecer consistencia fuerte para todas las lecturas y escrituras, incluso en transacciones interactivas de larga duración. Las transacciones se inician con un timestamp ($ au_{start}$) y todas las lecturas se realizan a partir de ese punto en el tiempo, garantizando la serializabilidad sin bloquear a los escritores.

Flujo de Escritura en DynamoDB

1 Cliente Envía solicitud de escritura
2 Líder de Réplica Genera registro WAL y lo envía a pares
3 Réplicas Persisten registro WAL localmente
4 Líder de Réplica Espera quorum de confirmaciones
5 Líder de Réplica Confirma escritura al cliente

Flujo de Lectura Fuerte en DSQL

1 Cliente Inicia transacción
2 DSQL Query Processor Obtiene $\tau_{start}$ de Precision Time Infrastructure
3 DSQL Query Processor Envía solicitud de lectura a almacenamiento con $\tau_{start}$
4 Nodos de Almacenamiento Devuelven versión del dato válida a $\tau_{start}$ (MVCC)
5 DSQL Query Processor Devuelve resultado al cliente

Capa	Tecnología	Justificación
storage	Consistent Hashing	Distribución de datos y replicación en Amazon Dynamo.
storage	Paxos (variante)	Mecanismo de consenso para replicación de WAL y durabilidad en DynamoDB y DSQL. vs Raft
storage	Write-Ahead Log (WAL)	Registro de cambios para durabilidad y replicación en DynamoDB y DSQL.
compute	Multi-Version Concurrency Control (MVCC)	Manejo de concurrencia y consistencia en DSQL, permitiendo lecturas consistentes sin bloqueo de escritores. vs Two-Phase Locking
observability	EC2 Precision Time Infrastructure	Fuente de tiempo de alta precisión para ordenar transacciones y garantizar consistencia global en DSQL. vs NTP

Trade-offs

Ganancias

▲ Consistencia Fuerte
▲ Durabilidad
▲ Disponibilidad
▲ Latencia

Costes

▲ Complejidad del Sistema
△ Dependencia de Infraestructura de Tiempo Precisa

Fundamentos Teóricos

El paper original de Dynamo, 'Dynamo: Amazon’s Highly Available Key-value Store' (SOSP 2007), es un hito en la literatura de sistemas distribuidos, popularizando el concepto de consistencia eventual y el uso de consistent hashing para la distribución de datos. Se basa en principios teóricos como el teorema CAP, que establece que un sistema distribuido no puede garantizar simultáneamente consistencia, disponibilidad y tolerancia a particiones. Dynamo priorizó la disponibilidad y la tolerancia a particiones sobre la consistencia fuerte.

La evolución hacia DynamoDB y DSQL, con su énfasis en la consistencia fuerte y la durabilidad, se conecta con la investigación en algoritmos de consenso como Paxos (Lamport, 1998) y Raft, que permiten construir sistemas distribuidos que mantienen la consistencia incluso frente a fallos de nodos. La capacidad de DSQL para ofrecer consistencia fuerte con MVCC y tiempo físico se alinea con los avances en bases de datos distribuidas que buscan la serializabilidad sin sacrificar el rendimiento, a menudo inspirándose en trabajos como 'A Critique of ANSI SQL Isolation Levels' (Berenson et al., 1995) y sistemas como Google Spanner, que utilizan relojes de alta precisión para la ordenación global de eventos y transacciones distribuidas.

Fuente original: http://brooker.co.za/blog/2025/08/15/dynamo-dynamodb-dsql.html

Publicado originalmente: 15 de agosto de 2025

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

Emergent: Arquitectura de Sistemas Event-Driven con Tres Primitivas Restringidas

Las restricciones bien elegidas pueden simplificar radicalmente la arquitectura y mejorar la predictibilidad de sistemas distribuidos.

Rust

12 mar 2026

Meta MTIA: Estrategia de Silicio Personalizado para Inferencias de IA a Escala Hyperscaler

La especialización de hardware es clave para la eficiencia a escala: para cargas de trabajo masivas y repetitivas, el silicio personalizado puede ofrecer ventajas significativas sobre el hardware de propósito general en términos de rendimiento/vatio y TCO.

CPU Architecture GPU Architecture LLM Inference Performance Profiling

12 mar 2026

Parametricidad vs. Comptime: Implicaciones en el Diseño de Lenguajes Genéricos

Priorizar la parametricidad en el diseño de APIs genéricas para mejorar la comprensibilidad y la mantenibilidad del código a escala.

Performance Profiling