Railway 19 de mayo de 2026

Suspensión de cuenta de GCP causa interrupción de servicio en Railway y cascada de fallos por dependencia de control plane

598

minutos

dependency-failure

causa raíz

Timeline del incidente

May 19, 22:10 UTC · automated monitoring

Monitoreo automatizado detecta fallos en health checks de API y alerta a SREs de guardia.

May 19, 22:11 UTC

Dashboard devuelve errores 503. Usuarios no pueden iniciar sesión.

May 19, 22:19 UTC · on-call SRE

Causa raíz identificada: Google Cloud Platform ha suspendido la cuenta de producción de Railway.

May 19, 22:22 UTC · on-call SRE

Ticket P0 abierto con Google Cloud. El gestor de cuenta de GCP de Railway es contactado directamente.

May 19, 22:29 UTC · on-call SRE

Incidente declarado. Acceso a la cuenta de GCP restaurado, pero instancias de cómputo detenidas y discos persistentes inaccesibles.

May 19, 22:35 UTC · load balancer

Las rutas de red en caché empiezan a expirar; las cargas de trabajo en Railway Metal y AWS comienzan a devolver errores 404.

May 19, 23:09 UTC

Primer disco persistente vuelve a estar en línea.

May 19, 23:54 UTC

Todos los discos persistentes restaurados a estado listo. La red sigue caída.

May 20, 00:39 UTC

Discos confirmados listos. Recuperación bloqueada por la restauración de la red de Google Cloud.

May 20, 01:30 UTC

Las instancias de cómputo comienzan a recuperarse.

May 20, 01:38 UTC

El tráfico de borde (edge traffic) se sirve de nuevo. Red restaurada.

May 20, 01:57 UTC

Infraestructura de orquestación y compilación restaurada. Despliegues pausados temporalmente.

May 20, 02:04 UTC

Hosts de cómputo se están volviendo a poner en línea incrementalmente.

May 20, 02:47 UTC · GitHub

GitHub comienza a aplicar rate-limiting a las integraciones OAuth y webhook de Railway; algunos usuarios no pueden iniciar sesión, compilaciones bloqueadas.

May 20, 02:55 UTC

Dashboard accesible de nuevo.

May 20, 03:59 UTC

Los despliegues comienzan a procesarse de nuevo en todos los niveles.

May 20, 04:00 UTC

API, dashboard y endpoints OAuth confirmados como operativos. Las cargas de trabajo restantes continúan restaurándose.

May 20, 06:14 UTC

Incidente pasa a estado de monitoreo.

May 20, 07:58 UTC

Incidente resuelto.

Análisis técnico

El incidente se originó por una suspensión incorrecta y automatizada de la cuenta de producción de Railway en Google Cloud, afectando su infraestructura crítica alojada en GCP, incluyendo la API, el control plane y las bases de datos. Aunque el acceso a la cuenta fue restaurado rápidamente, la recuperación de los servicios individuales (discos persistentes, instancias de cómputo y red) fue un proceso manual y prolongado, extendiendo la duración del incidente.

La causa raíz de la cascada de fallos fue una dependencia crítica del control plane de red, alojado en GCP, para poblar las tablas de enrutamiento de los proxies de borde de Railway. A pesar de que las cargas de trabajo en Railway Metal y AWS permanecieron operativas inicialmente, la expiración de las cachés de rutas en los proxies de borde provocó que estas cargas de trabajo se volvieran inaccesibles, resultando en errores 404. Esto demuestra una falla en la resiliencia de la arquitectura de red, donde una dependencia única en un proveedor de nube pudo derribar todo el servicio.

Durante la recuperación, la restauración de los servicios fue gradual y por capas. La reanudación de los despliegues fue pausada para evitar sobrecargar los sistemas. Adicionalmente, la limpieza de cachés y el subsiguiente aumento en el volumen de reintentos de solicitudes causaron que GitHub aplicara rate-limiting a las integraciones OAuth y webhook de Railway, lo que bloqueó temporalmente inicios de sesión y compilaciones. Esto resalta cómo un incidente primario puede desencadenar problemas secundarios con dependencias externas debido a patrones de reintento o la falta de idempotencia.

La arquitectura de red de malla de Railway, aunque diseñada para alta disponibilidad con interconexiones entre múltiples proveedores, no era una 'verdadera malla' en el sentido de que la descubribilidad de las cargas de trabajo dependía de un único punto de fallo en el control plane de red de GCP. La falta de un mecanismo de failover robusto para el control plane de red entre nubes fue una vulnerabilidad crítica que permitió que la suspensión de una cuenta en GCP tuviera un impacto global en la plataforma. La restauración de los servicios de red y cómputo de GCP fue la clave para la recuperación, pero la duración de esta restauración subraya la necesidad de una mayor independencia del proveedor para los componentes críticos.

Remediaciones y action items

✓ Eliminar la dependencia del control plane de red de GCP para la descubribilidad de las cargas de trabajo, creando una verdadera arquitectura de red de malla entre proveedores.
✓ Extender los shards de bases de datos de alta disponibilidad a través de AWS y Railway Metal para asegurar el quorum y el failover instantáneo en caso de pérdida de instancias en una nube.
✓ Remover los servicios de Google Cloud del 'hot path' del data plane, utilizándolos solo para propósitos secundarios/failover.
✓ Implementar una nueva arquitectura para el data plane y el control plane que asegure que los servicios críticos no dependan de un único proveedor o plataforma.

Lecciones para arquitectos

→ Evitar Single Points of Failure (SPOF) en el control plane, especialmente cuando se distribuyen cargas de trabajo en múltiples proveedores de nube.
→ Diseñar arquitecturas de red de malla verdaderamente redundantes, donde la pérdida de un proveedor no impida la resolución de rutas en otros.
→ Implementar estrategias de failover y quorum multi-cloud para bases de datos y otros componentes críticos.
→ Considerar el impacto de la expiración de cachés en arquitecturas distribuidas y cómo la falta de un control plane puede llevar a una cascada de fallos.
→ Anticipar y mitigar los efectos de rate-limiting de dependencias externas durante la recuperación de un incidente a gran escala.

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

compartir: X / Twitter LinkedIn WhatsApp