Railway 19 de mayo de 2026

Suspensión de cuenta de GCP causa interrupción de servicio en Railway, exponiendo dependencia crítica del control plane

598

minutos

dependency-failure

causa raíz

Timeline del incidente

22:10 UTC · automated monitoring

Monitoreo automatizado detecta fallos en health checks de API y alerta a SREs de guardia.

22:11 UTC

Dashboard devuelve errores 503. Usuarios no pueden iniciar sesión.

22:19 UTC · on-call SRE

Causa raíz identificada: Google Cloud Platform ha suspendido la cuenta de producción de Railway.

22:22 UTC · Railway SRE

Se abre un ticket P0 con Google Cloud. El gestor de cuenta de GCP de Railway es contactado directamente.

22:29 UTC · Railway SRE

Incidente declarado.

22:29 UTC · Google Cloud

Acceso a la cuenta de GCP restaurado. Todas las instancias de cómputo permanecen detenidas y los discos persistentes inaccesibles.

22:35 UTC · load balancer

Las rutas de red en caché comienzan a expirar; las cargas de trabajo en Railway Metal y AWS empiezan a devolver errores 404 ya que la red ya no puede resolver rutas.

23:09 UTC · Google Cloud

Primer disco persistente vuelve a estar en línea.

23:54 UTC · Google Cloud

Todos los discos persistentes restaurados a estado listo. La red sigue caída.

00:39 UTC (May 20) · Railway SRE

Discos confirmados listos. Recuperación bloqueada por la restauración de la red de Google Cloud.

01:30 UTC (May 20) · Google Cloud

Las instancias de cómputo comienzan a recuperarse.

01:38 UTC (May 20) · Google Cloud

El tráfico de borde se sirve de nuevo. Red restaurada.

01:57 UTC (May 20) · Railway SRE

Infraestructura de orquestación y compilación restaurada. Despliegues temporalmente pausados para evitar sobrecargar los sistemas.

02:04 UTC (May 20) · Railway SRE

Hosts de cómputo siendo puestos en línea incrementalmente.

02:47 UTC (May 20) · GitHub

GitHub comienza a aplicar rate-limiting a las integraciones de OAuth y webhook de Railway; algunos usuarios no pueden iniciar sesión, compilaciones bloqueadas.

02:55 UTC (May 20) · Railway SRE

Dashboard accesible de nuevo.

03:59 UTC (May 20) · Railway SRE

Los despliegues comienzan a procesarse de nuevo en todos los niveles.

04:00 UTC (May 20) · Railway SRE

API, dashboard y endpoints de OAuth confirmados operacionales. Las cargas de trabajo restantes continúan restaurándose.

06:14 UTC (May 20) · Railway SRE

Incidente movido a monitoreo.

07:58 UTC (May 20) · Railway SRE

Incidente resuelto.

Análisis técnico

El incidente se originó por una suspensión incorrecta y automatizada de la cuenta de producción de Railway en Google Cloud Platform (GCP). Esta acción, que afectó a múltiples cuentas en GCP, deshabilitó instantáneamente la infraestructura crítica de Railway alojada en GCP, incluyendo su API, control plane y bases de datos, así como la infraestructura de cómputo.

La causa raíz principal fue una dependencia crítica del control plane de red de Railway, alojado en GCP. Aunque Railway opera una infraestructura multi-cloud (GCP, AWS, Railway Metal) con una red de malla, el control plane de red en GCP era el único punto de verdad para poblar las tablas de enrutamiento de los proxies de borde. Inicialmente, las cargas de trabajo en AWS y Railway Metal continuaron sirviendo tráfico gracias a las rutas en caché. Sin embargo, una vez que estas cachés expiraron (aproximadamente 15 minutos después de la suspensión inicial), los proxies de borde ya no pudieron resolver rutas a las instancias activas, lo que provocó que el impacto se extendiera a todas las cargas de trabajo, independientemente de su ubicación.

Las salvaguardas existentes, como la infraestructura multi-AZ y las conexiones de red redundantes, no pudieron mitigar completamente el impacto debido a la naturaleza de la falla: una interrupción completa de la cuenta de un proveedor clave. La recuperación fue prolongada porque la restauración del acceso a la cuenta no implicó la restauración automática de los servicios individuales (discos persistentes, instancias de cómputo, red), que requirieron una recuperación manual y secuencial. Además, la recuperación masiva de servicios y la limpieza de cachés provocaron un aumento en las solicitudes a GitHub, lo que resultó en rate-limiting y bloqueos temporales para inicios de sesión y compilaciones, extendiendo aún más la duración del incidente.

Remediaciones y action items

✓ Eliminar la dependencia del control plane de red de GCP, transformándolo en una verdadera malla multi-cloud donde cualquier interconexión puede fallar sin afectar la resolución de rutas.
✓ Extender los shards de bases de datos de alta disponibilidad a través de AWS y Railway Metal para garantizar el quorum y el failover instantáneo en caso de pérdida de instancias en una nube.
✓ Remover los servicios de Google Cloud del 'hot path' del data plane, relegándolos a roles secundarios/failover.
✓ Implementar una nueva arquitectura para el data plane y el control plane que asegure que los servicios core, especialmente los componentes de cara al usuario, no dependan de un único proveedor o plataforma.

Lecciones para arquitectos

→ Evitar puntos únicos de fallo (SPOF) en el control plane, incluso en arquitecturas multi-cloud.
→ Diseñar sistemas de enrutamiento y descubrimiento de servicios con resiliencia a la pérdida completa de un proveedor de nube.
→ Implementar estrategias de caché con tiempos de vida (TTL) y mecanismos de revalidación que consideren escenarios de interrupción prolongada del control plane.
→ Asegurar que la recuperación de un proveedor de nube no dependa de pasos manuales secuenciales para cada servicio.
→ Anticipar y mitigar efectos secundarios de la recuperación, como el rate-limiting de APIs de terceros debido a la ráfaga de reintentos.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp