El artículo describe un problema recurrente en Netflix: la dificultad de los ingenieros para comprender las dependencias en un sistema de miles de microservicios, especialmente durante incidentes. La causa raíz no es un fallo técnico específico, sino una deficiencia en la observabilidad y las herramientas existentes. Las herramientas tradicionales (métricas, logs, traces) proporcionaban fragmentos de información, pero ninguna ofrecía una vista unificada y en tiempo real de la topología de servicios y sus interconexiones.

Esta falta de una 'vista de mapa' llevaba a un diagnóstico lento y propenso a errores, aumentando el tiempo de resolución de incidentes (MTTR) y el estrés de los ingenieros. Las salvaguardas existentes, como las alertas y las herramientas de observabilidad individuales, fallaron en proporcionar el contexto necesario para responder rápidamente a preguntas fundamentales como '¿quién depende de mí?', '¿cuál es la causa raíz?' o '¿cuál es el blast radius?'. La naturaleza dinámica del entorno de Netflix, con despliegues continuos y cambios constantes en las dependencias, exacerbaba el problema, haciendo que los diagramas estáticos quedaran obsoletos rápidamente.

La solución de Netflix, Service Topology, aborda esto mediante la creación de un mapa vivo y multi-capa. Combina tres fuentes de verdad: flujos de red eBPF para cobertura completa a nivel de red, métricas IPC para contexto de aplicación detallado, y tracing distribuido para rutas de solicitud reales. Cada fuente compensa las limitaciones de las otras, proporcionando una visión integral y contextualizada. La arquitectura distribuida con agregación en tres etapas y almacenamiento en una base de datos de grafos permite consultas rápidas y actualizaciones en tiempo real, esenciales para un entorno de hyperscaler.