Context Window — KernelDigest

La 'Context Window' (o ventana de contexto) es un parámetro fundamental en los Large Language Models (LLMs) que define la longitud máxima de la secuencia de entrada que el modelo puede considerar para generar su salida. Esta secuencia incluye tanto el 'prompt' del usuario como cualquier historial de conversación previo o documentos de referencia. Se mide típicamente en tokens, que son unidades de texto procesadas por el modelo. Un modelo con una ventana de contexto de 4096 tokens, por ejemplo, puede procesar un prompt y generar una respuesta basándose en hasta 4096 tokens de información combinada.

En el mundo real, la 'Context Window' es una característica distintiva de modelos como GPT-3.5, GPT-4 de OpenAI, Claude de Anthropic (con versiones que alcanzan ventanas de 100K y 200K tokens), y Gemini de Google. Estos modelos utilizan arquitecturas Transformer, donde la atención cuadrática es un factor clave en la limitación de la ventana de contexto debido a su costo computacional. Por ejemplo, un modelo como GPT-4-32k indica una ventana de contexto de 32,768 tokens, permitiendo procesar documentos extensos o mantener conversaciones prolongadas. La implementación de 'sliding windows' o 'attention mechanisms' con complejidad sub-cuadrática son esfuerzos para extender esta capacidad sin incurrir en costos prohibitivos.

Para un Arquitecto de Sistemas, la 'Context Window' es una consideración crítica que impacta directamente el diseño de aplicaciones basadas en LLMs. Una ventana de contexto más grande permite al modelo mantener un estado conversacional más rico, procesar documentos más extensos para tareas de 'summarization' o 'question answering', y reducir la necesidad de técnicas complejas de 'prompt engineering' o 'retrieval-augmented generation' (RAG). Sin embargo, ventanas de contexto mayores implican mayores costos computacionales (CPU/GPU y memoria), latencia incrementada y, a menudo, un costo económico superior por inferencia. El arquitecto debe sopesar estos 'trade-offs' para elegir el modelo adecuado, diseñar estrategias de 'context management' eficientes (ej. 'summarization' de historial, 'semantic search' para recuperar fragmentos relevantes) y optimizar la experiencia del usuario frente a las restricciones de recursos y presupuesto.

Papers fundacionales