Token Budget — KernelDigest

El Token Budget se refiere a la cantidad máxima de tokens que un modelo de lenguaje grande (LLM) o un sistema basado en ellos puede manejar dentro de una ventana de contexto. Un token puede ser una palabra, parte de una palabra, un carácter de puntuación o incluso un espacio, dependiendo del tokenizador utilizado. Este presupuesto define la longitud combinada de la entrada (prompt) y la salida (respuesta) que el modelo puede procesar en una sola inferencia. Exceder este presupuesto resulta en truncamiento de la entrada, errores o respuestas incompletas, ya que el modelo solo tiene acceso a la información que cabe dentro de su ventana de contexto.

En el mundo real, el Token Budget es una consideración fundamental en la arquitectura de aplicaciones que utilizan LLMs. Por ejemplo, OpenAI's GPT-3.5 y GPT-4 tienen diferentes Token Budgets (e.g., 4k, 8k, 16k, 32k, 128k tokens para distintas variantes), lo que impacta directamente la cantidad de texto que un chatbot puede 'recordar' de una conversación previa o la extensión de un documento que puede resumir. Sistemas de RAG (Retrieval Augmented Generation) deben gestionar cuidadosamente el tamaño de los chunks de documentos recuperados para asegurar que, junto con el prompt del usuario, no excedan el Token Budget del LLM. Herramientas como LangChain o LlamaIndex ofrecen utilidades para gestionar y optimizar el uso de tokens, como estrategias de truncamiento o sumarización progresiva.

Para un arquitecto, el Token Budget es un trade-off crítico que influye en el diseño de sistemas basados en IA. Un presupuesto mayor permite contextos más ricos y respuestas más detalladas, pero generalmente implica mayores costos computacionales (inferencia más lenta y cara) y financieros (costo por token). Los arquitectos deben balancear la necesidad de contexto con las limitaciones de rendimiento y costo, eligiendo modelos con Token Budgets adecuados para cada caso de uso. Esto puede implicar diseñar estrategias para resumir conversaciones, dividir documentos grandes, o implementar técnicas de 'context window management' para mantener la relevancia y coherencia sin exceder los límites, optimizando así la eficiencia y la experiencia del usuario.