La evolución de las arquitecturas de Large Language Models (LLMs) está impulsada por la necesidad de escalar el número de parámetros manteniendo la eficiencia computacional y la capacidad de manejar contextos extremadamente largos. Este desafío fundamental de la computación, que se manifiesta en la explosión combinatoria de operaciones en los modelos Transformer tradicionales, ha llevado a la exploración de dos grandes ramas de diseño: las arquitecturas densas optimizadas y las arquitecturas dispersas basadas en Mixture-of-Experts (MoE).

Históricamente, los primeros LLMs se basaron en arquitecturas Transformer densas, donde cada token en cada capa interactúa con todos los demás tokens a través de mecanismos de autoatención. Si bien esto es potente, la complejidad cuadrática de la atención con respecto a la longitud del contexto y el costo computacional lineal con el número de parámetros se vuelven prohibitivos a medida que los modelos crecen. La introducción de MoE, que permite activar solo un subconjunto de expertos (redes neuronales feed-forward) por token, y las innovaciones en los mecanismos de atención, como la atención de ventana deslizante o las arquitecturas híbridas, son respuestas directas a estas limitaciones, buscando un equilibrio entre capacidad de modelado y eficiencia de inferencia.

Arquitectura del Sistema

Las arquitecturas de LLMs se pueden clasificar en tres categorías principales: densas, MoE dispersas e híbridas. Las arquitecturas densas, como Llama 3 y OLMo 3, utilizan un conjunto fijo de parámetros para cada token. Las optimizaciones clave en estos modelos incluyen Grouped-Query Attention (GQA) para reducir el costo de memoria de las claves y valores en la atención, y técnicas de normalización como pre-norm o post-norm, junto con RoPE (Rotary Positional Embeddings) o YaRN para el manejo de la posición. La atención de ventana deslizante (sliding-window attention) se implementa para limitar la complejidad cuadrática de la atención a un contexto local, complementada a veces con atención global esporádica.

Las arquitecturas MoE dispersas, ejemplificadas por DeepSeek V3, Qwen3 y Mistral 3 Large, introducen un router que selecciona dinámicamente un pequeño número de 'expertos' (generalmente capas feed-forward) para procesar cada token. Esto permite escalar el número total de parámetros del modelo a cientos de miles de millones o incluso billones, mientras que el costo computacional por token se mantiene relativamente bajo (determinado por el número de expertos activos). Variantes como DeepSeek V3.2 y GLM-5 incorporan Sparse Attention o MLA (Multi-Query Attention con un solo head para keys y values) para mejorar la eficiencia del contexto largo. Algunos diseños MoE, como GLM-4.5, utilizan capas densas iniciales antes de la ruta MoE. La ausencia o presencia de un 'shared expert' también es una decisión de diseño relevante.

Las arquitecturas híbridas, como Qwen3 Next y Nemotron 3 Nano, combinan elementos de Transformers con modelos de estado estructurado (SSMs) como Mamba-2, o integran atención lineal (Lightning Attention, Kimi Delta Attention) con atención Transformer tradicional. Estos diseños buscan aprovechar las fortalezas de diferentes mecanismos: la capacidad de modelado de la atención y la eficiencia de contexto largo de los SSMs o la atención lineal. La relación de capas de atención lineal a capas de atención completa (ej. 7:1 en Ling 2.5) es una métrica clave. La normalización QK-Norm y el uso de NoPE (No Positional Embeddings) en capas MLA son otras innovaciones para gestionar la latencia y el consumo de memoria.

CapaTecnologíaJustificación
compute Transformer Decoder Bloque fundamental para el procesamiento secuencial de tokens, con variaciones en la atención y la estructura de las capas feed-forward. vs RNNs, LSTMs, SSMs puros (Mamba)
compute Grouped-Query Attention (GQA) Optimización del mecanismo de atención para reducir el consumo de memoria y mejorar la eficiencia de inferencia, especialmente en modelos grandes. vs Multi-Head Attention (MHA), Multi-Query Attention (MQA)
compute Mixture-of-Experts (MoE) Permite escalar el número total de parámetros del modelo manteniendo un costo computacional por token manejable, activando solo un subconjunto de expertos. vs Modelos densos con más capas o mayor ancho Número de expertos totales vs. expertos activos, presencia de shared expert.
compute Sliding-Window Attention Reduce la complejidad cuadrática de la atención al limitar el contexto a una ventana local, mejorando la eficiencia para secuencias largas. vs Atención global completa, Atención dispersa (Sparse Attention) Tamaño de la ventana (ej. 128 tokens), relación con atención global.
compute Rotary Positional Embeddings (RoPE) Método para incorporar información posicional en los embeddings de consulta y clave, permitiendo la extrapolación a contextos más largos. vs Absolute Positional Embeddings, Relative Positional Embeddings, ALiBi
compute QK-Norm Normalización aplicada a las consultas y claves en el mecanismo de atención para mejorar la estabilidad y el rendimiento del entrenamiento. vs LayerNorm, RMSNorm
compute Mamba-2 Modelo de estado estructurado (SSM) utilizado en arquitecturas híbridas para manejar eficientemente contextos largos con complejidad lineal. vs Transformers puros, Atención lineal

Fundamentos Teóricos

El concepto de Mixture-of-Experts (MoE) tiene raíces profundas en la investigación de redes neuronales, remontándose a trabajos como el de Jacobs et al. (1991) y Jordan y Jacobs (1994), que propusieron combinar múltiples redes neuronales especializadas con un gating network para mejorar la capacidad de modelado. Este principio se ha adaptado y escalado para los LLMs modernos, abordando el problema de la capacidad vs. el costo computacional.

El mecanismo de atención, central en los Transformers (Vaswani et al., 2017), es el fundamento de la mayoría de estos modelos. Las optimizaciones como Grouped-Query Attention (GQA) y Multi-Query Attention (MQA) se basan en la observación de que las claves y valores pueden ser compartidos entre múltiples heads de consulta para reducir la huella de memoria y el ancho de banda, un principio explorado en trabajos como Shazeer (2019) para MQA. La atención de ventana deslizante y la atención dispersa son intentos de mitigar la complejidad cuadrática de la atención, inspirándose en ideas de localidad y eficiencia computacional presentes en algoritmos de procesamiento de señales y estructuras de datos jerárquicas.