La integración de sistemas de inteligencia artificial (IA) probabilísticos en entornos de software tradicionalmente deterministas presenta un desafío fundamental para la arquitectura de sistemas. Durante décadas, los sistemas de software se han basado en la premisa de que una entrada dada siempre producirá la misma salida, una característica que persistió incluso con la adopción de arquitecturas cloud-native y microservicios. Sin embargo, los sistemas de IA, especialmente aquellos que emplean agentes y orquestación de herramientas, operan de manera no determinista, generando respuestas variables, infiriendo intenciones y adaptándose a señales contextuales, incluso con entradas similares. Esta 'química de aceite y agua' no se trata de la eficacia del modelo, sino de una tensión inherente en las suposiciones arquitectónicas.
La tesis central es que la arquitectura de IA no se define por las herramientas utilizadas, sino por la capacidad de gestionar la 'intención bajo no determinismo'. Esto implica un cambio de paradigma donde los arquitectos deben diseñar sistemas que puedan operar de manera confiable y predecible a pesar de la naturaleza probabilística de sus componentes de IA. La necesidad de este cambio es urgente, ya que la adopción de IA a gran escala es una realidad ineludible, y sin un marco claro, la integración resultará en fricción operativa y riesgos sistémicos no anticipados.
Arquitectura del Sistema
La arquitectura de sistemas de IA requiere un enfoque que aborde la expansión de la 'superficie de decisión'. En sistemas deterministas, las decisiones se codifican explícitamente en la lógica del negocio, permitiendo un rastreo claro de las rutas de ejecución. En contraste, en sistemas de IA, los límites de decisión se distribuyen a través de parámetros del modelo, estructuras de prompt, alcance de recuperación de información y restricciones de políticas. Esto dificulta la enumeración anticipada de todos los estados de ejecución posibles y exige un diseño para nuevas clases de riesgo, como ataques de 'prompt injection', problemas de integridad del contexto y uso indebido de herramientas.
La observabilidad también evoluciona, pasando de métricas tradicionales (latencia, errores, throughput) a la 'observabilidad conductual', que rastrea el linaje de los prompts, las fuentes de contexto, la varianza de la salida y los niveles de confianza. La gobernanza se transforma de una actividad de diseño a una disciplina continua en tiempo de ejecución, con políticas adaptativas, capas de clasificación de salida y gestión de versiones de modelos. El 'V-Impact Canvas' propone una estructura de tres capas: 'Architectural Intent' (principios no negociables, varianza conductual aceptable, restricciones éticas), 'Design Governance' (gestión de trade-offs de autonomía, privacidad y cumplimiento mediante límites de contexto, segmentación de memoria y filtros de salida) e 'Impact and Value' (medición de resultados en calidad de decisión, estabilidad operativa y costo por inferencia). Un componente clave es la 'economía de tokens y contexto', donde la gestión eficiente de la ventana de contexto de los LLMs (ej. 128,000 tokens en GPT-4 Turbo) es crucial para controlar costos, latencia y precisión, similar a cómo los arquitectos de la nube gestionan la utilización de cómputo y el almacenamiento.
Flujo de Procesamiento de Consulta en Sistema RAG con IA
- 1 Usuario Envía una consulta al sistema.
- 2 Sistema RAG Recibe la consulta y prepara el contexto.
- 3 Recuperación de Documentos Busca documentos relevantes (ej. 6 chunks de 1,500 tokens).
- 4 Construcción de Prompt Combina instrucciones del sistema, historial de chat, documentos y consulta d...
- 5 LLM (GPT-4 Turbo) Procesa el prompt dentro de la ventana de contexto (ej. 128,000 tokens).
- 6 Generación de Respuesta El LLM genera una respuesta basada en el contexto.
- 7 Evaluación de Salida Se aplican filtros y políticas de gobernanza a la respuesta.
- 8 Usuario Recibe la respuesta final.
| Capa | Tecnología | Justificación |
|---|---|---|
| compute | LLMs (e.g., GPT-4 Turbo) | Componente central de inferencia probabilística, responsable de generar respuestas y seleccionar herramientas dinámicamente. Define la 'ventana de contexto' y la 'economía de tokens'. vs SLMs (Small Language Models), Otros modelos de IA frontera Ventana de contexto de 128,000 tokens, impactando directamente el costo y la latencia. |
| data-processing | RAG (Retrieval Augmented Generation) | Mecanismo para inyectar información relevante en el contexto del LLM, crucial para la precisión y la reducción de alucinaciones. Implica la gestión de chunks de documentos. vs Fine-tuning de modelos, Prompt engineering puro Optimización del número y tamaño de los chunks recuperados para ajustarse al presupuesto de tokens. |
| orchestration | Agentes de IA y Tool Orchestration Frameworks | Permiten que los sistemas de IA seleccionen y encadenen herramientas dinámicamente, introduciendo complejidad en las rutas de ejecución y requiriendo nuevos guardrails. vs Flujos de trabajo deterministas basados en reglas, Integraciones de API directas Diseño de límites de contexto, segmentación de memoria y vías de escalada para la gobernanza. |
Trade-offs
Ganancias
- ▲ Flexibilidad y adaptabilidad del sistema
- ▲▲ Capacidad de inferencia y generación de contenido
Costes
- ▲ Predictibilidad del comportamiento del sistema
- ▲ Simplicidad de la gobernanza y la observabilidad
- ▲ Costo por inferencia (economía de tokens)
Fundamentos Teóricos
La tensión entre sistemas deterministas y probabilísticos puede conectarse con los fundamentos de la computación teórica y la lógica. Mientras que los sistemas deterministas se alinean con modelos computacionales como las Máquinas de Turing, que producen una salida única para una entrada dada, los sistemas de IA probabilísticos se acercan a conceptos de computación estocástica o probabilística. La gestión de la incertidumbre y la no determinismo ha sido un tema recurrente en la investigación de sistemas distribuidos, por ejemplo, en la búsqueda de consenso (Paxos, Raft) donde la fiabilidad se construye sobre la tolerancia a fallos y la eventual consistencia, no sobre la predictibilidad absoluta de cada paso individual. La necesidad de 'guardrails' adaptativos y la gestión de riesgos emergentes en sistemas complejos también resuena con los principios de resiliencia en la ingeniería de sistemas, donde se reconoce que los sistemas complejos pueden exhibir comportamientos emergentes no previstos por el diseño de sus componentes individuales, un concepto explorado por Sidney Dekker en su trabajo sobre la seguridad y los sistemas complejos.