5 de junio de 2026 3 min lectura

Rediseñando Bases de Datos Relacionales para la Era de NVMe y la Nube Distribuida

Lecciones clave

→ Reevaluar supuestos de diseño de sistemas basados en el rendimiento del hardware antiguo; NVMe y redes de datacenter cambian los cuellos de botella.
→ Priorizar la durabilidad y alta disponibilidad como propiedades distribuidas, no de un solo nodo, para sistemas modernos.
→ Optimizar el tamaño de las operaciones de E/S para el medio de almacenamiento subyacente (ej. 32kB para NVMe SSDs).
→ Diseñar para minimizar la latencia de red en operaciones críticas, agrupando costos de replicación síncrona al final de la transacción (COMMIT).
→ Considerar SNAPSHOT isolation como el nivel de aislamiento por defecto para un equilibrio óptimo entre consistencia y rendimiento en sistemas distribuidos.
→ Utilizar relojes de alta calidad para habilitar lecturas escalables y fuertemente consistentes en arquitecturas distribuidas.
→ La 'Regla de los Cinco Minutos' sigue siendo relevante; adaptar los parámetros de costo y rendimiento a la infraestructura actual para dimensionar cachés.

La tesis central es que las bases de datos relacionales actuales, diseñadas en la era de los discos giratorios, no aprovechan óptimamente las capacidades del hardware moderno como los NVMe SSDs y las redes de datacenter de baja latencia. Este desfase exige una reevaluación de decisiones de diseño fundamentales, especialmente en torno a la gestión de E/S, la durabilidad y la replicación.

El problema fundamental que se aborda es cómo reconciliar los principios de diseño de bases de datos transaccionales, que priorizan ACID y la consistencia fuerte, con las nuevas realidades de rendimiento y disponibilidad que ofrecen las infraestructuras distribuidas. La oportunidad radica en diseñar sistemas que trasladen la durabilidad y la alta disponibilidad de preocupaciones de un solo nodo a preocupaciones distribuidas, mejorando así el rendimiento y la resiliencia.

Históricamente, la optimización se centró en minimizar las costosas operaciones de E/S a disco. Hoy, con NVMe ofreciendo mejoras de 1000x en throughput y latencia, y redes de datacenter con latencias de microsegundos, el cuello de botella se desplaza, requiriendo un nuevo enfoque en cómo se gestionan los datos a través de la red y el almacenamiento distribuido.

Arquitectura del Sistema

Una base de datos relacional moderna, diseñada para 2025, mantendría el modelo relacional, SQL, transacciones interactivas y propiedades ACID (con SNAPSHOT como aislamiento por defecto). Sin embargo, la durabilidad, escalabilidad de lectura/escritura y alta disponibilidad se gestionarían como preocupaciones distribuidas, no de un solo sistema.

La gestión de caché se optimizaría para mantener en RAM páginas con una expectativa de reuso de 30 segundos a 5 minutos, ajustándose dinámicamente al costo marginal de la memoria. Las transferencias a disco se optimizarían para bloques de 32kB, el punto de equilibrio entre IOPS y throughput para NVMe SSDs. Las transferencias de red se optimizarían para bloques de 8kB.

La durabilidad se lograría mediante replicación síncrona off-box, idealmente a través de zonas de disponibilidad (AZs) distintas. Esto implica incurrir en latencia cross-AZ solo en el momento del COMMIT, evitando round-trips durante las escrituras. El Write-Ahead Log (WAL) tradicional, centrado en la durabilidad de un solo nodo, sería reemplazado por un log distribuido que garantice la durabilidad multi-máquina y multi-AZ, facilitando la recuperación mediante replay en cualquier réplica. Se utilizarían relojes de alta calidad para lograr lecturas escalables y fuertemente consistentes en un entorno distribuido.

Flujo de Transacción Distribuida con Durabilidad Cross-AZ

1 Cliente Inicia transacción con escrituras
2 Leader DB (AZ1) Procesa escrituras, las añade a log local
3 Leader DB (AZ1) Envía entradas de log a réplicas síncronas
4 Réplica DB (AZ2) Recibe y persiste entradas de log
5 Réplica DB (AZ2) Confirma persistencia a Leader
6 Leader DB (AZ1) Recibe confirmación, marca transacción como durable
7 Leader DB (AZ1) Confirma COMMIT al cliente

Capa	Tecnología	Justificación
storage	NVMe SSD	Almacenamiento primario de baja latencia y alto throughput para datos calientes y logs locales. vs Spinning Disks, SATA SSDs `Optimización para transferencias de 32kB para balancear IOPS y throughput.`
networking	Datacenter Network (100Gb/s)	Conectividad de alta velocidad y baja latencia entre nodos y zonas de disponibilidad para replicación síncrona y logs distribuidos. vs Redes de menor ancho de banda `Latencia cross-AZ de microsegundos a milisegundos.`
compute	Multi-core CPUs (Cientos de cores)	Procesamiento de transacciones y gestión de concurrencia en bases de datos distribuidas. vs CPUs de menor conteo de cores
cache	DRAM (miles de GB)	Caché de páginas de base de datos para reducir accesos a disco, optimizada por la 'Regla de los 30 segundos'. vs Cachés más pequeñas o más grandes sin optimización de costo/reuso `Tamaño de caché para retener páginas con reuso esperado en 30 segundos a 5 minutos.`

Trade-offs

Ganancias

▲▲ Latencia de E/S a almacenamiento
▲▲ Throughput de E/S a almacenamiento
▲ Durabilidad y Alta Disponibilidad

Costes

△ Latencia de commit para replicación síncrona cross-AZ

Fundamentos Teóricos

El artículo se apoya directamente en el paper seminal 'The 5 Minute Rule for Trading Memory for Disk Accesses and the 10 Byte Rule for Trading Memory for CPU Time' de Jim Gray y Franco Putzolu (1987). Este trabajo estableció un marco cuantitativo para optimizar el tamaño de las cachés de bases de datos, balanceando el costo de la memoria RAM contra el costo y la latencia del acceso a disco. La aplicación de esta regla en el artículo actual, actualizando los parámetros de costo y rendimiento para 2025 (NVMe SSDs y RAM moderna), demuestra la validez duradera de los principios de optimización de recursos.

La discusión sobre la durabilidad distribuida y la replicación síncrona se relaciona con los principios de sistemas distribuidos y algoritmos de consenso como Raft o Paxos, aunque no se mencionan explícitamente. La necesidad de coordinación en el commit para aislamiento más fuerte que READ COMMITTED, y la optimización de latencia cross-AZ, reflejan los trade-offs inherentes a la consistencia distribuida, como los descritos por el teorema CAP y sus extensiones como PACELC.

Fuente original: http://brooker.co.za/blog/2025/12/15/database-for-ssd.html

Publicado originalmente: 15 de diciembre de 2025

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

Comparativas

Redis vs Valkey → Redis vs Dragonfly →

Croissant: Un Formato de Metadatos Estándar para Conjuntos de Datos ML

La estandarización de metadatos es crítica para la interoperabilidad y la escalabilidad en sistemas complejos, especialmente en dominios de datos intensivos como ML.

Databases ML Training

4 jun 2026

Estrategias de Contención para Agentes de IA en Sistemas Distribuidos

Priorizar la contención a nivel de entorno como la defensa más robusta para agentes de IA, ya que es determinista frente a la naturaleza probabilística de los modelos.

Kubernetes Distributed Tracing

4 jun 2026

Merkle Tree Certificates: Un Enfoque Post-Cuántico para la Web PKI

Priorizar la eficiencia del protocolo de red: incluso mejoras de seguridad significativas pueden ser inviables si degradan el rendimiento de la red a escala web.

Cryptography