El incidente en Magic Pocket de Dropbox fue desencadenado por un efecto secundario no intencionado de un nuevo servicio, Live Coder, diseñado para la codificación de borrado on-the-fly. Aunque el objetivo era reducir la amplificación de escritura para las escrituras en segundo plano, el servicio introdujo un "configuration drift" significativo en la forma en que se llenaban los volúmenes. Los volúmenes creados a través de este nuevo camino estaban severamente sub-llenos, a veces con menos del 5% de su capacidad asignada conteniendo datos vivos. Esto llevó a una fragmentación masiva y un aumento desproporcionado del overhead de almacenamiento, ya que los datos vivos se dispersaron en muchos más volúmenes de lo previsto, cada uno consumiendo la misma asignación de disco que un volumen lleno.
Las salvaguardas existentes, específicamente la estrategia de compactación L1, fallaron en mitigar el problema de manera oportuna. L1 estaba optimizada para un estado estacionario donde la mayoría de los volúmenes estaban casi llenos y la fragmentación se acumulaba gradualmente. Su lógica de selección de volúmenes y su enfoque de "empaquetamiento" incremental no eran adecuados para consolidar rápidamente una gran cantidad de volúmenes severamente sub-llenos. Esto significó que, aunque L1 seguía funcionando, no podía reducir el overhead a la velocidad necesaria, lo que prolongó el impacto en los costos de infraestructura y capacidad.
La causa raíz fue una falta de validación exhaustiva del impacto del nuevo servicio en la distribución de llenado de volúmenes y la interacción con los mecanismos de gestión de espacio existentes. El problema pasó desapercibido durante semanas, lo que permitió que la fragmentación se acumulara a una escala significativa. La detección inicial se basó en el "effective replication factor", una métrica de alto nivel, pero la identificación de la causa raíz específica y la magnitud del problema requirieron una investigación considerable. La lección clave es que los cambios en los patrones de escritura o en los servicios de bajo nivel pueden tener efectos en cascada en la eficiencia del almacenamiento, especialmente en sistemas inmutables a exabytes de escala, y requieren una monitorización y estrategias de remediación adaptativas.