Este incidente demuestra un ataque de 'knowledge base poisoning' en un sistema RAG (Retrieval Augmented Generation), clasificado bajo LLM08:2025 – Vector and Embedding Weaknesses en el OWASP LLM Top 10. La causa raíz es la falta de validación y detección de anomalías en la capa de ingesta de documentos en la base de conocimiento. El atacante no explotó una vulnerabilidad de software ni realizó un 'prompt injection' directo, sino que manipuló la fuente de verdad del LLM añadiendo documentos fabricados.

La cascada de fallo se inicia con la ingesta de documentos maliciosos que, mediante 'vocabulary engineering' y 'authority framing', logran una alta similitud semántica con las consultas objetivo y una mayor 'autoridad' percibida por el LLM. Estos documentos desplazan o invalidan los documentos legítimos en el 'top-k retrieval', incluso cuando los datos correctos están presentes en la ventana de contexto del LLM. El LLM, al evaluar múltiples fuentes, prioriza la narrativa de 'corrección' y 'autorización CFO' de los documentos envenenados sobre la información original no adornada.

Las salvaguardas tradicionales fallaron porque el ataque es persistente, invisible y de bajo umbral de entrada. La sanitización de ingesta básica no detecta contenido que parece legítimo. El control de acceso solo limita la colocación, no el solapamiento semántico. El 'prompt hardening' reduce modestamente el éxito, pero no lo elimina. La monitorización de salida basada en patrones es insuficiente porque la respuesta envenenada parece un resumen financiero normal. La debilidad fundamental reside en la confianza implícita en la integridad de la base de conocimiento sin una validación semántica robusta en el punto de ingesta.