Kanjideck 31 de marzo de 2024

Fallo en el servicio de descarga de archivos debido a agotamiento de disco por buffering de Nginx y configuración incorrecta

140

minutos

configuration-drift

causa raíz

Timeline del incidente

T+0 · Usuario

Anuncio de disponibilidad de archivos y afluencia masiva de usuarios.

20:43 UTC · Sistema de correo

El servidor comienza a reportar 'Insufficient system storage' en logs de email.

T+~5m · Sistema de monitoreo

Grafana y 'df -h' muestran 100% de uso de disco en /dev/sda.

T+~15m · on-call SRE

Intento fallido de 'nix-collect-garbage -d' debido a falta de espacio.

T+~20m · on-call SRE

Ejecución de 'journalctl --vacuum-time=1s' libera espacio temporalmente.

T+~25m · on-call SRE

Intento fallido de 'TRUNCATE TABLE system.query_log' en ClickHouse debido a falta de espacio.

T+~30m · on-call SRE

Decisión de montar /nix/store en un volumen separado.

T+~120m · on-call SRE

Migración de /nix/store a un nuevo volumen y reinicio del servidor. El servicio se restablece parcialmente.

Día siguiente · Usuarios

Reportes de usuarios sobre descargas incompletas del archivo grande (2.2GB).

Día siguiente · on-call SRE

Identificación y corrección de 'proxy_max_temp_file_size' en Nginx para permitir descargas de archivos grandes.

Día siguiente · Sistema de monitoreo

Observación de picos de uso de disco al 100% nuevamente.

Día siguiente · on-call SRE

Uso de 'lsof +L1' revela 14.5 GB de archivos temporales 'deleted' retenidos por Nginx.

Día siguiente · on-call SRE

Identificación y corrección de 'proxy_buffering off' y 'proxy_max_temp_file_size 0' en Nginx.

Día siguiente · Sistema de monitoreo

Uso de disco se estabiliza en 20-25%.

Análisis técnico

El incidente inicial fue causado por un agotamiento de espacio en disco en el servidor principal, desencadenado por una afluencia repentina de usuarios intentando descargar archivos. La causa raíz de este agotamiento fue una configuración predeterminada de Nginx ('proxy_buffering on' y 'proxy_max_temp_file_size 1024m') que llevó al proxy a almacenar en caché archivos temporales en el disco raíz para cada descarga. Cuando múltiples usuarios intentaron descargar el archivo de 2.2GB, Nginx creó múltiples copias temporales, superando rápidamente la capacidad del disco de 40GB.

Las salvaguardas fallaron porque el monitoreo de disco, aunque presente (Grafana), solo alertó una vez que el disco ya estaba al 100%, sin dar tiempo para una intervención proactiva. Además, los intentos de liberar espacio fallaron inicialmente porque las herramientas como 'nix-collect-garbage' y las operaciones de ClickHouse requerían espacio temporal para ejecutarse, lo que no estaba disponible. La reubicación del /nix/store a un volumen separado fue una medida paliativa que alivió la presión inmediata, pero no resolvió la causa raíz del consumo de espacio por Nginx.

La segunda fase del incidente, la incapacidad de descargar archivos grandes, fue una consecuencia directa de 'proxy_max_temp_file_size' siendo menor que el tamaño del archivo, lo que impedía que Nginx manejara el archivo completo. La persistencia del problema de espacio en disco, incluso después de las correcciones iniciales, se debió a que los archivos temporales de Nginx, aunque 'deleted' del filesystem, seguían siendo referenciados por procesos de Nginx, ocupando espacio físico hasta que Nginx los liberara o se reiniciara. Esto es un comportamiento conocido de Linux con archivos abiertos y eliminados ('unlinked open files').

Remediaciones y action items

✓ Configurar 'proxy_buffering off' en Nginx para evitar el almacenamiento en caché de respuestas en disco.
✓ Configurar 'proxy_max_temp_file_size 0' en Nginx para deshabilitar explícitamente los archivos temporales de proxy.
✓ Reubicar el /nix/store a un volumen de disco separado para aislar el sistema operativo y sus dependencias del almacenamiento de datos de la aplicación.
✓ Implementar monitoreo proactivo de uso de disco con alertas en umbrales más bajos (ej. 70%, 85%) para permitir una respuesta temprana.
✓ Revisar y optimizar la configuración de logs de ClickHouse y Journald para limitar su crecimiento en disco.

Lecciones para arquitectos

→ No asumir defaults: Siempre revisar las configuraciones predeterminadas de componentes críticos (ej. Nginx) en entornos de producción, especialmente en relación con el uso de recursos.
→ Aislamiento de recursos: Separar los volúmenes de disco para el sistema operativo, logs y datos de aplicación para evitar que el agotamiento de un recurso afecte a otros.
→ Monitoreo granular: Implementar monitoreo de uso de disco que incluya la detección de 'unlinked open files' para identificar fugas de espacio no visibles con 'df -h'.
→ Capacidad de respuesta bajo presión: Diseñar sistemas para que las operaciones de mantenimiento y recuperación (ej. limpieza de logs) puedan ejecutarse incluso bajo condiciones de recursos limitados.
→ Entender el flujo de datos: Comprender cómo los proxies y balanceadores de carga manejan los cuerpos de las solicitudes/respuestas, especialmente para archivos grandes, para evitar problemas de buffering y almacenamiento temporal.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp