La evolución de las arquitecturas de Large Language Models (LLMs) está impulsada por la necesidad de escalar la capacidad de los modelos (medida en miles de millones o billones de parámetros) mientras se gestionan las restricciones inherentes de latencia y throughput en la inferencia y el entrenamiento. El problema fundamental de la computación que se aborda es cómo procesar secuencias de entrada extremadamente largas y generar respuestas coherentes de manera eficiente, un desafío que se intensifica con el aumento del tamaño del modelo.
Históricamente, los modelos Transformer densos, como el original propuesto por Vaswani et al. (2017), establecieron un estándar de oro para el procesamiento de lenguaje natural. Sin embargo, su escalabilidad lineal con el número de parámetros y la longitud de la secuencia en términos de memoria y cómputo de atención, ha llevado a la exploración de alternativas. La atención cuadrática (O(N^2) donde N es la longitud de la secuencia) se convierte rápidamente en un cuello de botella para contextos largos.
Esto ha catalizado la investigación en dos direcciones principales: la esparsificación de la atención y la introducción de arquitecturas Mixture-of-Experts (MoE). Las arquitecturas MoE permiten escalar el número total de parámetros del modelo a niveles sin precedentes (cientos de miles de millones o incluso billones) mientras mantienen un número relativamente pequeño de parámetros 'activos' por token durante la inferencia, lo que reduce el costo computacional por token. Paralelamente, las innovaciones en los mecanismos de atención, como la atención de ventana deslizante (sliding-window attention), Grouped-Query Attention (GQA), Multi-Query Attention (MQA), Multi-Head Attention (MHA), y enfoques híbridos con modelos de estado (como Mamba), buscan mitigar la complejidad cuadrática de la atención tradicional, permitiendo manejar contextos más largos con mayor eficiencia.
Arquitectura del Sistema
Las arquitecturas de LLMs se pueden clasificar en tres categorías principales: densas, Sparse Mixture-of-Experts (MoE) y híbridas. Los modelos densos, como Llama 3 y Gemma 3, utilizan una pila de decodificadores Transformer donde cada token pasa por todas las capas y todos los parámetros. Estos modelos suelen emplear Grouped-Query Attention (GQA) o Multi-Head Attention (MHA) para la atención, a menudo combinadas con Relative Positional Embeddings (RoPE) o QK-Norm para mejorar la estabilidad y el rendimiento. La normalización (pre-norm o post-norm) también es una decisión de diseño clave que afecta la estabilidad del entrenamiento.
Las arquitecturas Sparse MoE, ejemplificadas por DeepSeek V3, Qwen3 y Mistral 3 Large, introducen un router que selecciona un subconjunto de 'expertos' (generalmente capas feed-forward) para procesar cada token. Esto permite que el modelo tenga un número total de parámetros mucho mayor que los parámetros activos por token, lo que mejora la capacidad sin aumentar proporcionalmente el costo de inferencia. Estos modelos a menudo utilizan GQA o Multi-Query Attention (MLA) y pueden incorporar estrategias de atención dispersa (DeepSeek Sparse Attention) o de ventana deslizante para manejar contextos largos de manera más eficiente. La presencia o ausencia de un 'shared expert' y el número de expertos activados por token son configuraciones críticas.
Las arquitecturas híbridas, como Nemotron 3 Nano y Qwen3 Next, combinan elementos de los Transformers con modelos de estado o mecanismos de atención lineal. Por ejemplo, Nemotron 3 Nano intercala bloques Mamba-2 con capas GQA, utilizando la atención solo esporádicamente para capturar dependencias de largo alcance de manera más eficiente que la atención cuadrática. Otros híbridos, como Kimi Linear y Qwen3 Next, integran Gated DeltaNet o Lightning Attention con MLA, buscando un equilibrio entre la expresividad de la atención completa y la eficiencia computacional de los modelos lineales o de estado. Estas arquitecturas a menudo experimentan con diferentes ratios de atención lineal/completa y mecanismos de gating para optimizar el rendimiento en contextos muy largos.
| Capa | Tecnología | Justificación |
|---|---|---|
| compute | Transformer Decoder | Bloque fundamental para el procesamiento secuencial de tokens, con variaciones densas, MoE e híbridas. vs RNNs, LSTMs, GRUs |
| compute | Grouped-Query Attention (GQA) | Mecanismo de atención que agrupa múltiples cabezas de consulta para compartir proyecciones de clave/valor, reduciendo el costo de inferencia y memoria. vs Multi-Head Attention (MHA), Multi-Query Attention (MQA) |
| compute | Multi-Query Attention (MLA) | Variante de atención donde todas las cabezas de consulta comparten una única proyección de clave/valor, maximizando la eficiencia de inferencia. vs Multi-Head Attention (MHA), Grouped-Query Attention (GQA) |
| compute | Sparse Mixture-of-Experts (MoE) | Arquitectura que permite escalar el número total de parámetros del modelo mientras mantiene un número constante de parámetros activos por token, mejorando la capacidad sin un aumento lineal en el costo de inferencia. vs Modelos densos con mayor número de parámetros activos Número de expertos, número de expertos activados por token, presencia de shared expert. |
| compute | Sliding-Window Attention | Mecanismo de atención que restringe el cálculo de atención a una ventana local de tokens, reduciendo la complejidad cuadrática para contextos largos. vs Atención global completa, Atención dispersa (Sparse Attention) Tamaño de la ventana (ej. 128 tokens). |
| compute | Rotary Positional Embeddings (RoPE) | Método para incorporar información posicional en los vectores de consulta y clave, mejorando la capacidad del modelo para manejar secuencias largas. vs Absolute Positional Embeddings, Relative Positional Embeddings (T5-style) |
| compute | QK-Norm | Normalización aplicada a las consultas y claves antes del cálculo de la atención, mejorando la estabilidad del entrenamiento y el rendimiento. vs LayerNorm post-atención, sin normalización específica de QK |
| compute | Mamba-2 | Modelo de espacio de estados estructurado que ofrece eficiencia lineal en la longitud de la secuencia, utilizado en arquitecturas híbridas para manejar contextos largos. vs Transformers con atención completa, Transformers con atención dispersa |
Fundamentos Teóricos
El concepto de Mixture-of-Experts (MoE) tiene raíces profundas en la investigación de redes neuronales, remontándose a trabajos como el de Jacobs et al. (1991) y Jordan y Jacobs (1994), que propusieron combinar múltiples redes expertas con un gating network para dividir el espacio de entrada. Este principio se ha adaptado a la era de los Transformers para abordar la escalabilidad, permitiendo modelos con billones de parámetros que son computacionalmente viables en inferencia, como se exploró en trabajos más recientes por Shazeer et al. (2017) con Sparse MoE Layers para Transformers.
La atención, el mecanismo central de los Transformers, fue introducida por Vaswani et al. (2017) en el paper "Attention Is All You Need". La complejidad cuadrática de la atención ha sido un foco constante de investigación, dando lugar a variantes como la atención de ventana deslizante (sliding-window attention), que se inspira en el concepto de convoluciones locales en redes neuronales convolucionales (CNNs) para reducir el costo computacional. La Grouped-Query Attention (GQA) y Multi-Query Attention (MQA) son optimizaciones de la atención que reducen la redundancia computacional en las claves (K) y valores (V) al compartir proyecciones entre múltiples cabezas de atención, un concepto que se alinea con la búsqueda de eficiencia en el procesamiento de datos a gran escala. La exploración de modelos de estado como Mamba (Gu & Dao, 2023) representa un retorno a los principios de las redes recurrentes (RNNs) y los modelos de espacio de estados, buscando combinar la eficiencia de los modelos lineales con la capacidad de modelar dependencias de largo alcance, un desafío que ha sido fundamental en el campo del procesamiento de secuencias desde los primeros días de la inteligencia artificial.