GitHub

Mitigación de dependencias circulares en despliegues de GitHub usando eBPF para aislamiento de red y DNS

configuration-drift

causa raíz

Timeline del incidente

Hipótesis

Ocurre una interrupción de MySQL, impidiendo que GitHub sirva datos de release.

Hipótesis · equipo de SRE

Se intenta desplegar un cambio de configuración para resolver el incidente de MySQL.

Hipótesis · script de despliegue

El script de despliegue de MySQL intenta descargar una herramienta de GitHub (dependencia directa), falla debido a la interrupción.

Hipótesis · herramienta de servicio

El script de despliegue usa una herramienta existente que verifica actualizaciones en GitHub (dependencia oculta), falla o se cuelga.

Hipótesis · servicio interno

El script de despliegue llama a un servicio interno que a su vez intenta obtener un binario de GitHub (dependencia transitoria), propagando el fallo.

Histórico · equipos de ingeniería

Identificación de dependencias circulares se realizaba manualmente por equipos, a menudo durante un incidente.

Diseño · equipo de ingeniería

Evaluación de eBPF para monitorear y bloquear selectivamente llamadas de red desde scripts de despliegue.

PoC · equipo de ingeniería

Desarrollo de un PoC usando BPF_PROG_TYPE_CGROUP_SKB para filtrar egress de red en cGroups.

PoC · equipo de ingeniería

Desarrollo de un PoC usando BPF_PROG_TYPE_CGROUP_SOCK_ADDR para interceptar y reescribir consultas DNS a un proxy en userspace.

PoC · equipo de ingeniería

Implementación de un proxy DNS en userspace para evaluar dominios contra una lista de bloqueo y usar eBPF Maps para comunicar decisiones al programa CGROUP_SKB.

PoC · equipo de ingeniería

Correlación de solicitudes DNS bloqueadas con el PID y la línea de comando del proceso que las inició usando eBPF Maps y /proc/{PID}/cmdline.

Rollout · GitHub

Lanzamiento del nuevo proceso de detección de dependencias circulares en un periodo de seis meses.

Análisis técnico

Este artículo describe cómo GitHub abordó un problema crítico de fiabilidad: las dependencias circulares en sus sistemas de despliegue. La causa raíz subyacente de estos incidentes hipotéticos es la 'configuration drift' o la introducción inadvertida de nuevas dependencias en los scripts de despliegue que, en un escenario de fallo de GitHub.com, impedirían la recuperación. El problema se agrava por la naturaleza de GitHub como su propio cliente, donde la indisponibilidad de la plataforma bloquea el acceso al código fuente y las herramientas necesarias para repararla.

Las salvaguardas existentes, que dependían de la revisión manual de scripts, fallaron porque muchas dependencias no se identificaban hasta que ocurría un incidente, retrasando la recuperación. La solución obvia de bloquear github.com por completo en las máquinas de despliegue no era viable, ya que estos hosts también servían tráfico de clientes y necesitaban acceso a la red. Esto llevó a la búsqueda de una solución más granular y dinámica.

La solución implementada utiliza eBPF para crear un aislamiento de red a nivel de proceso para los scripts de despliegue. Mediante BPF_PROG_TYPE_CGROUP_SKB, se filtra el tráfico de red saliente de cGroups específicos, y con BPF_PROG_TYPE_CGROUP_SOCK_ADDR, se interceptan y redirigen las consultas DNS a un proxy en userspace. Este proxy evalúa los dominios solicitados contra una lista de bloqueo y utiliza eBPF Maps para comunicar las decisiones de permitir/denegar al kernel. Además, se correlacionan las solicitudes bloqueadas con el PID y la línea de comando del proceso, proporcionando una visibilidad crucial para la depuración y la prevención proactiva. Este enfoque permite detectar y prevenir dependencias problemáticas antes de que causen un impacto en la producción, mejorando la estabilidad y el MTTR.

Remediaciones y action items

✓ Implementación de un sistema de detección y bloqueo de dependencias circulares basado en eBPF para scripts de despliegue.
✓ Uso de cGroups para aislar scripts de despliegue y aplicar políticas de red a nivel de proceso.
✓ Redirección de consultas DNS de scripts de despliegue a un proxy en userspace para evaluación y bloqueo de dominios no permitidos.
✓ Correlación de solicitudes DNS bloqueadas con el PID y la línea de comando del proceso para facilitar la depuración y la identificación de la causa raíz.
✓ Generación de un registro de auditoría de todos los dominios contactados durante un despliegue.
✓ Aplicación de límites de CPU y memoria a scripts de despliegue usando cGroups para prevenir el consumo excesivo de recursos.

Lecciones para arquitectos

→ Las dependencias circulares son un riesgo de fiabilidad crítico que debe abordarse proactivamente, especialmente en sistemas que se autodespliegan.
→ El aislamiento a nivel de proceso con tecnologías como cGroups y eBPF permite aplicar políticas de seguridad y fiabilidad granulares sin impactar otras cargas de trabajo.
→ La observabilidad profunda del kernel con eBPF puede transformar la capacidad de depuración y prevención de incidentes, identificando comportamientos inesperados en tiempo real.
→ Un DNS proxy inteligente combinado con eBPF puede ser una herramienta poderosa para controlar el acceso a la red basado en nombres de dominio, no solo en IPs.
→ La automatización de la detección de anti-patrones (como dependencias circulares) es superior a la revisión manual, que es propensa a errores y a menudo reactiva.
→ Diseñar sistemas de despliegue para operar en un estado degradado (sin acceso a la propia plataforma) es fundamental para la resiliencia.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp