Netflix

De Silos a Topología de Servicio: Cómo Netflix Construyó un Mapa de Servicios en Tiempo Real para la Observabilidad de Microservicios

human-error

causa raíz

Timeline del incidente

T+0 · automated alerting

Ingeniero de guardia recibe una alerta por tasas de error elevadas en un servicio crítico.

T+5 · on-call SRE

El ingeniero intenta diagnosticar el problema, enfrentando dificultades para entender las dependencias entre miles de microservicios.

T+X · on-call SRE

Se identifica una brecha en las herramientas: abundancia de señales pero falta de una vista unificada de las conexiones del sistema.

T+Y · Netflix Engineering

Análisis de miles de solicitudes de soporte revela patrones consistentes de preguntas sobre dependencias.

T+Z · Netflix Engineering

Decisión de construir un 'mapa vivo' de la infraestructura, actualizándose en tiempo real con despliegues y cambios de tráfico.

T+A · Netflix Engineering

Implementación de Service Topology, combinando datos de eBPF, métricas IPC y tracing distribuido.

Presente · Netflix Engineering

Los ingenieros utilizan Service Topology para visualizar dependencias, entender el blast radius y acelerar la investigación de incidentes.

Análisis técnico

El artículo describe un problema recurrente en Netflix: la dificultad de los ingenieros para comprender las dependencias en un sistema de miles de microservicios, especialmente durante incidentes. La causa raíz no es un fallo técnico específico, sino una deficiencia en la observabilidad y las herramientas existentes. Las herramientas tradicionales (métricas, logs, traces) proporcionaban fragmentos de información, pero ninguna ofrecía una vista unificada y en tiempo real de la topología de servicios y sus interconexiones.

Esta falta de una 'vista de mapa' llevaba a un diagnóstico lento y propenso a errores, aumentando el tiempo de resolución de incidentes (MTTR) y el estrés de los ingenieros. Las salvaguardas existentes, como las alertas y las herramientas de observabilidad individuales, fallaron en proporcionar el contexto necesario para responder rápidamente a preguntas fundamentales como '¿quién depende de mí?', '¿cuál es la causa raíz?' o '¿cuál es el blast radius?'. La naturaleza dinámica del entorno de Netflix, con despliegues continuos y cambios constantes en las dependencias, exacerbaba el problema, haciendo que los diagramas estáticos quedaran obsoletos rápidamente.

La solución de Netflix, Service Topology, aborda esto mediante la creación de un mapa vivo y multi-capa. Combina tres fuentes de verdad: flujos de red eBPF para cobertura completa a nivel de red, métricas IPC para contexto de aplicación detallado, y tracing distribuido para rutas de solicitud reales. Cada fuente compensa las limitaciones de las otras, proporcionando una visión integral y contextualizada. La arquitectura distribuida con agregación en tres etapas y almacenamiento en una base de datos de grafos permite consultas rápidas y actualizaciones en tiempo real, esenciales para un entorno de hyperscaler.

Remediaciones y action items

✓ Desarrollo e implementación de Service Topology, un mapa de servicios en tiempo real que consolida dependencias de múltiples fuentes.
✓ Integración de datos de eBPF para obtener una topología de red completa y de bajo nivel.
✓ Recolección y uso de métricas IPC para una topología de aplicación con detalles de endpoints y protocolos.
✓ Agregación de datos de tracing distribuido para visualizar rutas de solicitud reales y comportamiento en tiempo de ejecución.
✓ Creación de una arquitectura de ingestión y procesamiento distribuida (Apache Pekko Streams) para manejar millones de registros de flujo por segundo.
✓ Implementación de una base de datos de grafos personalizada para almacenamiento y consultas rápidas de la topología.
✓ Exposición de la topología a través de una API gRPC para acceso programático y una UI para exploración visual.
✓ Capacidad de 'time travel' para consultar la topología en puntos específicos del pasado.

Lecciones para arquitectos

→ La observabilidad de la topología de servicios es crítica en sistemas distribuidos a gran escala.
→ Ninguna fuente de datos única es suficiente para una comprensión completa de las dependencias; la combinación de múltiples perspectivas (red, aplicación, request) es esencial.
→ Las herramientas de observabilidad deben ser en tiempo real y dinámicas para reflejar la naturaleza cambiante de los microservicios.
→ La capacidad de consultar el estado histórico de la topología (time travel) es invaluable para la investigación de incidentes.
→ Las soluciones de observabilidad deben integrarse con el ecosistema de herramientas existente para facilitar la adopción y el flujo de trabajo del ingeniero.
→ La automatización del análisis de causa raíz requiere una base de conocimiento de grafos de dependencias precisa y actualizada.
→ El diseño de sistemas de procesamiento de datos distribuidos debe considerar la latencia, el volumen y la capacidad de manejar hot spots.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp