Amazon Web Services (AWS)

Los desafíos de la consistencia eventual en sistemas distribuidos y cómo Aurora DSQL garantiza la consistencia fuerte

architectural-limitation

causa raíz

Timeline del incidente

· Sistema EC2

Problemas de consistencia eventual observados en el control plane de EC2 basado en MySQL con replicación statement-based.

· Desarrolladores de aplicaciones

Desarrolladores de aplicaciones experimentan comportamientos inesperados (ej. 'id does not exist' después de una creación) debido a la consistencia eventual de las réplicas de lectura.

· Desarrolladores de aplicaciones

Implementación de lógica de reintentos con sleeps y routing específico para el primario como workaround, introduciendo complejidad y latencia.

· Arquitectos de sistemas

Problemas de consistencia eventual impactan la efectividad de la escalabilidad de lectura y las operaciones read-modify-write.

· Equipo de Aurora DSQL

Diseño e implementación de Aurora DSQL para ofrecer consistencia fuerte en todas las lecturas, incluso con réplicas de lectura escalables.

Análisis técnico

Este artículo no describe un incidente puntual, sino una clase de problemas recurrentes y fundamentales que surgen de la consistencia eventual en arquitecturas de bases de datos distribuidas con réplicas de lectura. La causa raíz es la inherente latencia de la replicación asíncrona y la falta de garantías de monotonicidad en las lecturas cuando se distribuyen entre múltiples réplicas. Esto lleva a que diferentes réplicas puedan tener estados ligeramente distintos en un momento dado, y las solicitudes de lectura pueden ser enrutadas a cualquiera de ellas, resultando en la "sensación de que el tiempo retrocede" para el cliente.

Las salvaguardas tradicionales, como la lógica de reintentos en el cliente o el enrutamiento manual de ciertas lecturas al primario, fallan al escalar o introducen una complejidad y latencia inaceptables. Por ejemplo, los reintentos con sleep requieren un "número mágico" y pueden llevar a bucles infinitos si la lógica de negocio no es robusta. Además, la falta de "monotonic reads" significa que incluso dos lecturas consecutivas del mismo cliente pueden ir a réplicas diferentes y ver datos inconsistentes, invalidando la suposición de que "tus escrituras" son visibles inmediatamente.

El problema se agrava en patrones de microservicios con flujos de trabajo que implican lecturas seguidas de escrituras (read-modify-write), donde la consistencia eventual puede llevar a datos incompletos o incorrectos. La necesidad de enrutar selectivamente las lecturas al primario para garantizar la consistencia reduce la eficacia de las réplicas de lectura para escalar, negando parcialmente su propósito. Aurora DSQL aborda esto mediante un diseño donde cada réplica de almacenamiento se actualiza desde "journals" con escrituras estrictamente monótonas, y los procesadores de consultas bloquean las lecturas hasta que las réplicas han visto todos los updates hasta un timestamp de inicio de transacción específico, garantizando así la consistencia fuerte.

Remediaciones y action items

✓ Diseño de Aurora DSQL para garantizar consistencia fuerte en todas las lecturas a través de un mecanismo de timestamp y bloqueo hasta que las réplicas de almacenamiento se pongan al día con los journals.
✓ Eliminación de la necesidad de lógica compleja de reintentos o enrutamiento manual de lecturas al primario en las aplicaciones que usan Aurora DSQL.

Lecciones para arquitectos

→ La consistencia eventual introduce una complejidad significativa en la lógica de la aplicación y puede llevar a comportamientos inesperados para los usuarios.
→ Las garantías de consistencia deben ser cuidadosamente consideradas al diseñar arquitecturas de bases de datos distribuidas, especialmente con réplicas de lectura.
→ La falta de "monotonic reads" en arquitecturas de réplicas de lectura puede ser más insidiosa que la simple consistencia eventual.
→ Las operaciones read-modify-write son particularmente vulnerables a la consistencia eventual y requieren garantías más fuertes.
→ Invertir en consistencia fuerte a nivel de base de datos puede simplificar drásticamente el desarrollo de aplicaciones y mejorar la experiencia del usuario.
→ El enrutamiento inteligente de lecturas y la gestión de timestamps son clave para lograr consistencia fuerte en sistemas escalables.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp