Cloudflare

Cloudflare: Reducción de 4 horas a 3 minutos en el tiempo de arranque de servidores por optimización de la secuencia de boot UEFI

configuration-drift

causa raíz

Timeline del incidente

T+0 · Sistema de automatización

Se realiza una actualización rutinaria de firmware en la flota de servidores Gen12 (casi 2,000 unidades).

T+pocos minutos · Monitoreo interno

Primeros reportes de servidores que no vuelven a estar online en el tiempo esperado. Los dashboards de monitoreo muestran máquinas atascadas en estado pre-OS.

T+~20 minutos por intento · Ingenieros de Cloudflare

Análisis de la consola serial revela que el servidor intenta un arranque de red IPv4 HTTPS, luego IPv4 iPXE, y repite, antes de finalmente alcanzar la interfaz IPv6 HTTPS correcta. Cada intento fallido consume ~5 minutos.

T+~4 horas · Ingenieros de Cloudflare

Se determina que el tiempo total de arranque para una actualización de firmware (múltiples reboots secuenciales) se extiende a casi 4 horas debido a la búsqueda lineal de interfaces de arranque de red.

T+varios días · Ingenieros de Cloudflare

El despliegue de firmware en toda la flota, que debería durar un día, se alarga debido a los largos tiempos de arranque y la necesidad de supervisión manual.

T+después del análisis · Ingenieros de Cloudflare

Se identifica la causa raíz: una búsqueda lineal 'ciega' de interfaces de arranque de red UEFI, exacerbada por peculiaridades del firmware y configuraciones de vendor.

T+implementación · Ingenieros de Cloudflare

Se reestructura el flujo de automatización para declarar la interfaz de arranque de red correcta al principio del proceso PXE, reduciendo el tiempo de arranque en aproximadamente una hora por cada actualización de firmware.

T+implementación · Ingenieros de Cloudflare

Se implementa un paso de validación de estado para asegurar la persistencia de la configuración de arranque después de las actualizaciones de firmware, abordando problemas de soporte de versiones antiguas de UEFI y reseteo de configuraciones.

T+colaboración con vendor · Ingenieros de Cloudflare y vendors

Se trabaja con los vendors para habilitar tokens específicos en el 'Boot Order Module' para forzar el descubrimiento programático de la interfaz de arranque de red, superando la carga perezosa de la estructura de datos EFI_IFR_REF3.

T+colaboración con vendor · Ingenieros de Cloudflare y vendors

Se obtiene una nueva versión de BIOS del vendor para superar una configuración inmutable que impedía cambiar el orden de arranque.

T+implementación · Ingenieros de Cloudflare

Se mejora la herramienta CfHIIConfig_App para permitir la configuración del orden de arranque usando wildcards debido a las diferencias de strings entre vendors de NIC.

T+implementación · Ingenieros de Cloudflare

Se implementa un flag booleano 'uefi-same-hex' para optimizar la verificación de cambios de configuración en iPXE, reduciendo la necesidad de comandos 'show' antes de 'set'.

T+final · Sistema de automatización

El tiempo de arranque para actualizaciones de firmware se reduce de casi 4 horas a 3 minutos. El tiempo de arranque individual posterior se reduce de 20 minutos a menos de un minuto.

Análisis técnico

El incidente en Cloudflare fue causado por una interacción compleja entre una actualización de firmware, el comportamiento por defecto del UEFI y la automatización de arranque de red. La causa raíz principal fue la búsqueda lineal y exhaustiva de interfaces de arranque de red por parte del firmware UEFI después de una actualización. Cada intento fallido de arranque de red (IPv4 HTTPS, IPv4 iPXE) tenía un timeout de aproximadamente cinco minutos, lo que resultaba en una penalización de 20 minutos por cada ciclo de arranque hasta que se encontraba la interfaz IPv6 HTTPS correcta. Esta penalización se multiplicaba en los procesos de actualización de firmware que requerían múltiples reinicios secuenciales, extendiendo el tiempo total de actualización a casi cuatro horas por servidor.

Las salvaguardas existentes fallaron porque la lógica de arranque de red del firmware no estaba optimizada para el entorno de Cloudflare. La automatización de Cloudflare esperaba un comportamiento de arranque rápido y predecible, pero el firmware, por defecto, realizaba una búsqueda exhaustiva. Además, la capacidad de configurar programáticamente el orden de arranque estaba limitada por peculiaridades del firmware (carga perezosa de estructuras de datos, configuraciones inmutables del vendor) y la falta de estandarización en los strings de identificación de las NICs entre diferentes vendors. Esto impidió que la automatización declarara directamente la interfaz de arranque correcta, forzando la costosa búsqueda lineal.

La cascada de fallo se manifestó en la ralentización masiva de los despliegues de firmware, el aumento de las ventanas de mantenimiento, la necesidad de intervención manual por parte de los ingenieros y la ineficiencia en la puesta en marcha de nueva capacidad. La falta de visibilidad y control programático sobre el proceso de arranque UEFI fue un factor clave, ya que la automatización no podía influir en la decisión del firmware sobre qué interfaz de red usar primero. La interacción con los vendors para modificar el firmware y la adaptación de las herramientas internas fueron cruciales para resolver el problema, destacando la importancia de la colaboración con los proveedores de hardware en entornos de infraestructura bare-metal a gran escala.

Remediaciones y action items

✓ Reestructuración de la secuencia de automatización de arranque para declarar el orden de la interfaz de arranque de red al principio de la etapa PXE.
✓ Implementación de un paso de validación de estado en la automatización del firmware para re-aplicar configuraciones si se detectan cambios o reseteos post-actualización.
✓ Colaboración con los vendors de hardware para habilitar tokens específicos en el 'Boot Order Module' del BIOS, forzando el descubrimiento programático de la interfaz de arranque de red.
✓ Obtención de una nueva versión de BIOS del vendor para permitir la modificación de una configuración de orden de arranque previamente inmutable.
✓ Mejora de la herramienta CfHIIConfig_App para permitir la configuración del orden de arranque utilizando wildcards, mitigando las diferencias en los strings de identificación de NIC entre vendors.
✓ Implementación de un flag booleano 'uefi-same-hex' en iPXE para optimizar la verificación de cambios de configuración y reducir el número de comandos necesarios.

Lecciones para arquitectos

→ No asumir el comportamiento de arranque por defecto del firmware; validar y optimizar las secuencias de boot en entornos bare-metal.
→ La automatización debe ser capaz de influir y controlar configuraciones de bajo nivel, como el orden de arranque UEFI.
→ La estandarización de interfaces y configuraciones es crítica, especialmente con múltiples vendors de hardware.
→ La carga perezosa de configuraciones puede obstaculizar la automatización programática; buscar formas de forzar la inicialización temprana.
→ La colaboración estrecha con los vendors de hardware es esencial para desbloquear capacidades y resolver problemas de firmware a escala.
→ Los timeouts en procesos críticos pueden tener un impacto desproporcionado en la duración total de las operaciones.
→ Implementar validación post-cambio para configuraciones críticas que pueden ser reseteadas por actualizaciones de firmware.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp