16 de marzo de 2026 4 min lectura

Análisis Comparativo de Arquitecturas de LLMs: Dense, Sparse MoE y Híbridas

Lecciones clave

→ La escalabilidad de los LLMs no es solo una cuestión de aumentar parámetros, sino de optimizar la eficiencia computacional y de memoria por token. MoE es una estrategia clave para esto.
→ Las decisiones sobre el mecanismo de atención (MHA, GQA, MLA, sliding-window, sparse, lineal) tienen implicaciones directas en la latencia de inferencia, el throughput y la capacidad de contexto largo.
→ La elección de la normalización (pre-norm, post-norm, QK-Norm) y los métodos de embedding posicional (RoPE, YaRN, NoPE) impactan la estabilidad del entrenamiento y la capacidad de extrapolación del contexto.
→ Las arquitecturas híbridas que combinan Transformers con SSMs o atención lineal representan un trade-off entre la expresividad de la atención y la eficiencia lineal de otros mecanismos para contextos muy largos.
→ La eficiencia de inferencia en LLMs a escala de hyperscaler requiere una comprensión profunda de cómo cada componente arquitectónico afecta el uso de memoria (KV cache), el ancho de banda y las operaciones de cómputo.
→ Considerar el 'active path' de parámetros en MoE es más relevante para el costo de inferencia que el número total de parámetros del modelo.
→ La modularidad de los componentes (ej. expertos en MoE) facilita la experimentación y la optimización de partes específicas del modelo sin rediseñar todo el sistema.

La evolución de las arquitecturas de Large Language Models (LLMs) está impulsada por la necesidad de escalar el número de parámetros manteniendo la eficiencia computacional y la capacidad de manejar contextos extremadamente largos. Este desafío fundamental de la computación, que se manifiesta en la explosión combinatoria de operaciones en los modelos Transformer tradicionales, ha llevado a la exploración de dos grandes ramas de diseño: las arquitecturas densas optimizadas y las arquitecturas dispersas basadas en Mixture-of-Experts (MoE).

Históricamente, los primeros LLMs se basaron en arquitecturas Transformer densas, donde cada token en cada capa interactúa con todos los demás tokens a través de mecanismos de autoatención. Si bien esto es potente, la complejidad cuadrática de la atención con respecto a la longitud del contexto y el costo computacional lineal con el número de parámetros se vuelven prohibitivos a medida que los modelos crecen. La introducción de MoE, que permite activar solo un subconjunto de expertos (redes neuronales feed-forward) por token, y las innovaciones en los mecanismos de atención, como la atención de ventana deslizante o las arquitecturas híbridas, son respuestas directas a estas limitaciones, buscando un equilibrio entre capacidad de modelado y eficiencia de inferencia.

Arquitectura del Sistema

Las arquitecturas de LLMs se pueden clasificar en tres categorías principales: densas, MoE dispersas e híbridas. Las arquitecturas densas, como Llama 3 y OLMo 3, utilizan un conjunto fijo de parámetros para cada token. Las optimizaciones clave en estos modelos incluyen Grouped-Query Attention (GQA) para reducir el costo de memoria de las claves y valores en la atención, y técnicas de normalización como pre-norm o post-norm, junto con RoPE (Rotary Positional Embeddings) o YaRN para el manejo de la posición. La atención de ventana deslizante (sliding-window attention) se implementa para limitar la complejidad cuadrática de la atención a un contexto local, complementada a veces con atención global esporádica.

Las arquitecturas MoE dispersas, ejemplificadas por DeepSeek V3, Qwen3 y Mistral 3 Large, introducen un router que selecciona dinámicamente un pequeño número de 'expertos' (generalmente capas feed-forward) para procesar cada token. Esto permite escalar el número total de parámetros del modelo a cientos de miles de millones o incluso billones, mientras que el costo computacional por token se mantiene relativamente bajo (determinado por el número de expertos activos). Variantes como DeepSeek V3.2 y GLM-5 incorporan Sparse Attention o MLA (Multi-Query Attention con un solo head para keys y values) para mejorar la eficiencia del contexto largo. Algunos diseños MoE, como GLM-4.5, utilizan capas densas iniciales antes de la ruta MoE. La ausencia o presencia de un 'shared expert' también es una decisión de diseño relevante.

Las arquitecturas híbridas, como Qwen3 Next y Nemotron 3 Nano, combinan elementos de Transformers con modelos de estado estructurado (SSMs) como Mamba-2, o integran atención lineal (Lightning Attention, Kimi Delta Attention) con atención Transformer tradicional. Estos diseños buscan aprovechar las fortalezas de diferentes mecanismos: la capacidad de modelado de la atención y la eficiencia de contexto largo de los SSMs o la atención lineal. La relación de capas de atención lineal a capas de atención completa (ej. 7:1 en Ling 2.5) es una métrica clave. La normalización QK-Norm y el uso de NoPE (No Positional Embeddings) en capas MLA son otras innovaciones para gestionar la latencia y el consumo de memoria.

Capa	Tecnología	Justificación
compute	Transformer Decoder	Bloque fundamental para el procesamiento secuencial de tokens, con variaciones en la atención y la estructura de las capas feed-forward. vs RNNs, LSTMs, SSMs puros (Mamba)
compute	Grouped-Query Attention (GQA)	Optimización del mecanismo de atención para reducir el consumo de memoria y mejorar la eficiencia de inferencia, especialmente en modelos grandes. vs Multi-Head Attention (MHA), Multi-Query Attention (MQA)
compute	Mixture-of-Experts (MoE)	Permite escalar el número total de parámetros del modelo manteniendo un costo computacional por token manejable, activando solo un subconjunto de expertos. vs Modelos densos con más capas o mayor ancho `Número de expertos totales vs. expertos activos, presencia de shared expert.`
compute	Sliding-Window Attention	Reduce la complejidad cuadrática de la atención al limitar el contexto a una ventana local, mejorando la eficiencia para secuencias largas. vs Atención global completa, Atención dispersa (Sparse Attention) `Tamaño de la ventana (ej. 128 tokens), relación con atención global.`
compute	Rotary Positional Embeddings (RoPE)	Método para incorporar información posicional en los embeddings de consulta y clave, permitiendo la extrapolación a contextos más largos. vs Absolute Positional Embeddings, Relative Positional Embeddings, ALiBi
compute	QK-Norm	Normalización aplicada a las consultas y claves en el mecanismo de atención para mejorar la estabilidad y el rendimiento del entrenamiento. vs LayerNorm, RMSNorm
compute	Mamba-2	Modelo de estado estructurado (SSM) utilizado en arquitecturas híbridas para manejar eficientemente contextos largos con complejidad lineal. vs Transformers puros, Atención lineal

Fundamentos Teóricos

El concepto de Mixture-of-Experts (MoE) tiene raíces profundas en la investigación de redes neuronales, remontándose a trabajos como el de Jacobs et al. (1991) y Jordan y Jacobs (1994), que propusieron combinar múltiples redes neuronales especializadas con un gating network para mejorar la capacidad de modelado. Este principio se ha adaptado y escalado para los LLMs modernos, abordando el problema de la capacidad vs. el costo computacional.

El mecanismo de atención, central en los Transformers (Vaswani et al., 2017), es el fundamento de la mayoría de estos modelos. Las optimizaciones como Grouped-Query Attention (GQA) y Multi-Query Attention (MQA) se basan en la observación de que las claves y valores pueden ser compartidos entre múltiples heads de consulta para reducir la huella de memoria y el ancho de banda, un principio explorado en trabajos como Shazeer (2019) para MQA. La atención de ventana deslizante y la atención dispersa son intentos de mitigar la complejidad cuadrática de la atención, inspirándose en ideas de localidad y eficiencia computacional presentes en algoritmos de procesamiento de señales y estructuras de datos jerárquicas.

Fuente original: https://sebastianraschka.com/llm-architecture-gallery/

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

Comparativas

Redis vs Valkey → Redis vs Dragonfly →

Análisis Comparativo de Arquitecturas de LLMs: Dense, MoE y Híbridos

La escalabilidad de los LLMs no es solo una cuestión de tamaño de parámetros, sino de eficiencia computacional por token, especialmente en inferencia.

LLM Inference CPU Architecture GPU Architecture Distributed Tracing

15 mar 2026

Deep Dive: Arquitectura y Mecanismos de los Anti-Cheats a Nivel de Kernel

La seguridad en sistemas distribuidos requiere un modelo de confianza explícito y la operación en el nivel de privilegio más bajo posible para el atacante.

ML Training

15 mar 2026

La Escalera de Optimización de Python: Desmitificando el Rendimiento en Cargas de Trabajo Computacionales

Prioriza la actualización de CPython: las versiones 3.11+ ofrecen mejoras de rendimiento "gratuitas" que deben ser la primera línea de optimización.

Performance Profiling Databases Distributed Tracing Rust