Este artículo aborda los desafíos fundamentales de operar agentes de IA autónomos en Kubernetes, destacando cómo sus características intrínsecas (dependencias dinámicas, credenciales multi-dominio, consumo de recursos impredecible y flujos de ejecución no deterministas) rompen los modelos de seguridad tradicionales de Kubernetes. La causa raíz de los problemas iniciales radica en la aplicación de suposiciones de seguridad diseñadas para microservicios estáticos a una categoría de carga de trabajo inherentemente dinámica y de alto riesgo. Esto lleva a un 'blast radius' ampliado en caso de compromiso y a una gestión ineficaz de recursos y fallos.
Las salvaguardas tradicionales fallan porque no están diseñadas para la naturaleza adaptativa de los agentes de IA. Por ejemplo, las Network Policies estáticas no pueden acomodar dependencias dinámicas, y los límites de recursos fijos son inadecuados para el uso de memoria y CPU fluctuante. La gestión de secretos mediante variables de entorno o volúmenes estáticos expone un amplio conjunto de credenciales críticas si un contenedor es comprometido. La falta de un modelo de confianza graduado impide una adopción segura y controlada, aumentando el riesgo organizacional.
La solución propuesta se basa en la adaptación de patrones cloud-native existentes. El uso de Kubernetes Jobs proporciona aislamiento por defecto para cada investigación del agente, mitigando problemas de 'resource starvation' y 'failure propagation'. HashiCorp Vault se emplea para gestionar credenciales dinámicas y de corta duración, reduciendo drásticamente el 'blast radius' de un contenedor comprometido. Un modelo de confianza graduada de cuatro fases, respaldado por políticas de RBAC, Vault y Network Policies parametrizadas por fase, permite una progresión segura y auditable. Finalmente, la observabilidad se redefine para enfocarse en métricas a nivel de investigación y el comportamiento del LLM, crucial para monitorear cargas de trabajo no deterministas y atribuir costos de manera efectiva.