Dropbox

Dropbox Magic Pocket: Cómo una nueva estrategia de codificación de borrado llevó a una fragmentación severa y un aumento del overhead de almacenamiento

configuration-drift

causa raíz

Timeline del incidente

· Dropbox engineering

Se implementa un nuevo servicio (Live Coder) para la codificación de borrado on-the-fly en nuevas regiones.

· Live Coder service

Durante semanas, los volúmenes creados por Live Coder están severamente sub-llenos (menos del 5% de capacidad con datos vivos).

· Magic Pocket storage system

Aumento significativo de la fragmentación y el overhead de almacenamiento debido a la creación de muchos volúmenes casi vacíos.

· Monitoring systems

Se observan señales tempranas de impacto en el factor de replicación efectivo, indicando un mayor consumo de almacenamiento raw.

· Dropbox SRE/engineering

Investigación para identificar la causa raíz del aumento del overhead.

· Dropbox SRE/engineering

Se comprende que la estrategia de compactación L1 existente no puede manejar la larga cola de volúmenes severamente sub-llenos de manera eficiente.

· Dropbox SRE/engineering

Diseño e implementación de nuevas estrategias de compactación (L2 y L3) para abordar diferentes distribuciones de llenado de volúmenes.

· Dropbox SRE/engineering

Implementación de un control dinámico para el umbral de elegibilidad del host y optimización del orden de los candidatos.

· Dropbox SRE/engineering

L2 y L3 se implementan y ejecutan concurrentemente con L1, reduciendo el overhead de compactación y restaurando los niveles de almacenamiento.

· Dropbox SRE/engineering

Se añaden nuevas métricas y monitoreo para una mejor visibilidad del rendimiento de la compactación y la distribución de datos.

Análisis técnico

El incidente en Magic Pocket de Dropbox fue desencadenado por un efecto secundario no intencionado de un nuevo servicio, Live Coder, diseñado para la codificación de borrado on-the-fly. Aunque el objetivo era reducir la amplificación de escritura para las escrituras en segundo plano, el servicio introdujo un "configuration drift" significativo en la forma en que se llenaban los volúmenes. Los volúmenes creados a través de este nuevo camino estaban severamente sub-llenos, a veces con menos del 5% de su capacidad asignada conteniendo datos vivos. Esto llevó a una fragmentación masiva y un aumento desproporcionado del overhead de almacenamiento, ya que los datos vivos se dispersaron en muchos más volúmenes de lo previsto, cada uno consumiendo la misma asignación de disco que un volumen lleno.

Las salvaguardas existentes, específicamente la estrategia de compactación L1, fallaron en mitigar el problema de manera oportuna. L1 estaba optimizada para un estado estacionario donde la mayoría de los volúmenes estaban casi llenos y la fragmentación se acumulaba gradualmente. Su lógica de selección de volúmenes y su enfoque de "empaquetamiento" incremental no eran adecuados para consolidar rápidamente una gran cantidad de volúmenes severamente sub-llenos. Esto significó que, aunque L1 seguía funcionando, no podía reducir el overhead a la velocidad necesaria, lo que prolongó el impacto en los costos de infraestructura y capacidad.

La causa raíz fue una falta de validación exhaustiva del impacto del nuevo servicio en la distribución de llenado de volúmenes y la interacción con los mecanismos de gestión de espacio existentes. El problema pasó desapercibido durante semanas, lo que permitió que la fragmentación se acumulara a una escala significativa. La detección inicial se basó en el "effective replication factor", una métrica de alto nivel, pero la identificación de la causa raíz específica y la magnitud del problema requirieron una investigación considerable. La lección clave es que los cambios en los patrones de escritura o en los servicios de bajo nivel pueden tener efectos en cascada en la eficiencia del almacenamiento, especialmente en sistemas inmutables a exabytes de escala, y requieren una monitorización y estrategias de remediación adaptativas.

Remediaciones y action items

✓ Implementación de la estrategia de compactación L2, que utiliza programación dinámica para agrupar volúmenes moderadamente sub-llenos y combinarlos en nuevos volúmenes casi llenos, acelerando la recuperación de espacio.
✓ Implementación de la estrategia de compactación L3, que utiliza el servicio Live Coder como un pipeline de streaming para drenar continuamente los blobs vivos de los volúmenes más dispersos, priorizando la recuperación de espacio con la menor reescritura de datos.
✓ Desarrollo de un control dinámico para el umbral de elegibilidad del host de compactación, ajustándolo automáticamente en función de las señales de la flota para optimizar la eficiencia de la compactación y la respuesta al overhead.
✓ Optimización del orden de los candidatos para cada estrategia de compactación (L1, L2, L3) para equilibrar la velocidad de recuperación de espacio con la carga en los sistemas de metadatos y almacenamiento.
✓ Habilitación de la ejecución concurrente de L1, L2 y L3 con límites de elegibilidad claros y rate-limiting para proteger los servicios downstream y mantener la localidad del tráfico dentro de cada celda.
✓ Adición de nuevas métricas y monitoreo para rastrear la producción de datos de Live Coder, el llenado de volúmenes en toda la flota y los cambios semanales en el overhead de almacenamiento, con alertas tempranas para detectar desviaciones.

Lecciones para arquitectos

→ Los sistemas inmutables requieren estrategias de compactación multifacéticas y adaptativas para gestionar la fragmentación y el overhead de almacenamiento de manera eficiente en diferentes distribuciones de datos.
→ La monitorización de métricas de eficiencia de almacenamiento (ej. overhead, factor de replicación efectivo, llenado de volúmenes) es crítica para detectar problemas de fragmentación temprana en sistemas de blobs inmutables.
→ Los cambios en los patrones de escritura o en los servicios de bajo nivel pueden tener efectos en cascada no obvios en la eficiencia del almacenamiento y deben ser validados rigurosamente.
→ La sintonización manual de parámetros operativos en sistemas a escala de exabytes es insostenible; se requieren bucles de control dinámicos y adaptativos basados en señales del sistema.
→ La capacidad de los sistemas de metadatos es a menudo un cuello de botella crítico durante la compactación y la reescritura de datos; las estrategias deben considerar y limitar la carga de metadatos.
→ La localidad del tráfico y el rate-limiting son esenciales para evitar la sobrecarga de la red y los servicios downstream durante operaciones intensivas como la compactación a gran escala.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp