16 de marzo de 2026 4 min lectura

Análisis Comparativo de Arquitecturas de LLMs: Dense, MoE y Híbridos

Lecciones clave

→ La escalabilidad de los LLMs no es solo una cuestión de tamaño de parámetros, sino de eficiencia computacional por token, especialmente en inferencia.
→ Las arquitecturas Mixture-of-Experts (MoE) son una estrategia clave para desacoplar el tamaño total del modelo del costo de inferencia por token, permitiendo modelos con billones de parámetros.
→ La elección del mecanismo de atención (MHA, GQA, MLA, sliding-window, sparse, DeltaNet, Mamba) es un trade-off crítico entre capacidad de modelado de contexto largo y eficiencia computacional/memoria.
→ La normalización (pre-norm vs. post-norm, QK-Norm) y las incrustaciones posicionales (RoPE, NoPE, YaRN) son detalles de implementación que impactan significativamente la estabilidad del entrenamiento y el rendimiento.
→ Las arquitecturas híbridas que combinan Transformers con modelos de estado o atención lineal representan una dirección prometedora para superar las limitaciones de los enfoques puramente Transformer-basados en contextos muy largos.
→ Comprender el 'active path' de un modelo (parámetros activos por token) es más relevante para la eficiencia de inferencia que el número total de parámetros, especialmente en MoE.
→ Las decisiones de diseño arquitectónico deben considerar el balance entre la capacidad del modelo, la latencia de inferencia, el throughput y el costo de entrenamiento, reflejando los trade-offs de PACELC.

La evolución de las arquitecturas de Large Language Models (LLMs) está impulsada por la necesidad de escalar la capacidad de los modelos (medida en miles de millones o billones de parámetros) mientras se gestionan las restricciones inherentes de latencia y throughput en la inferencia y el entrenamiento. El problema fundamental de la computación que se aborda es cómo procesar secuencias de entrada extremadamente largas y generar respuestas coherentes de manera eficiente, un desafío que se intensifica con el aumento del tamaño del modelo.

Históricamente, los modelos Transformer densos, como el original propuesto por Vaswani et al. (2017), establecieron un estándar de oro para el procesamiento de lenguaje natural. Sin embargo, su escalabilidad lineal con el número de parámetros y la longitud de la secuencia en términos de memoria y cómputo de atención, ha llevado a la exploración de alternativas. La atención cuadrática (O(N^2) donde N es la longitud de la secuencia) se convierte rápidamente en un cuello de botella para contextos largos.

Esto ha catalizado la investigación en dos direcciones principales: la esparsificación de la atención y la introducción de arquitecturas Mixture-of-Experts (MoE). Las arquitecturas MoE permiten escalar el número total de parámetros del modelo a niveles sin precedentes (cientos de miles de millones o incluso billones) mientras mantienen un número relativamente pequeño de parámetros 'activos' por token durante la inferencia, lo que reduce el costo computacional por token. Paralelamente, las innovaciones en los mecanismos de atención, como la atención de ventana deslizante (sliding-window attention), Grouped-Query Attention (GQA), Multi-Query Attention (MQA), Multi-Head Attention (MHA), y enfoques híbridos con modelos de estado (como Mamba), buscan mitigar la complejidad cuadrática de la atención tradicional, permitiendo manejar contextos más largos con mayor eficiencia.

Arquitectura del Sistema

Las arquitecturas de LLMs se pueden clasificar en tres categorías principales: densas, Sparse Mixture-of-Experts (MoE) y híbridas. Los modelos densos, como Llama 3 y Gemma 3, utilizan una pila de decodificadores Transformer donde cada token pasa por todas las capas y todos los parámetros. Estos modelos suelen emplear Grouped-Query Attention (GQA) o Multi-Head Attention (MHA) para la atención, a menudo combinadas con Relative Positional Embeddings (RoPE) o QK-Norm para mejorar la estabilidad y el rendimiento. La normalización (pre-norm o post-norm) también es una decisión de diseño clave que afecta la estabilidad del entrenamiento.

Las arquitecturas Sparse MoE, ejemplificadas por DeepSeek V3, Qwen3 y Mistral 3 Large, introducen un router que selecciona un subconjunto de 'expertos' (generalmente capas feed-forward) para procesar cada token. Esto permite que el modelo tenga un número total de parámetros mucho mayor que los parámetros activos por token, lo que mejora la capacidad sin aumentar proporcionalmente el costo de inferencia. Estos modelos a menudo utilizan GQA o Multi-Query Attention (MLA) y pueden incorporar estrategias de atención dispersa (DeepSeek Sparse Attention) o de ventana deslizante para manejar contextos largos de manera más eficiente. La presencia o ausencia de un 'shared expert' y el número de expertos activados por token son configuraciones críticas.

Las arquitecturas híbridas, como Nemotron 3 Nano y Qwen3 Next, combinan elementos de los Transformers con modelos de estado o mecanismos de atención lineal. Por ejemplo, Nemotron 3 Nano intercala bloques Mamba-2 con capas GQA, utilizando la atención solo esporádicamente para capturar dependencias de largo alcance de manera más eficiente que la atención cuadrática. Otros híbridos, como Kimi Linear y Qwen3 Next, integran Gated DeltaNet o Lightning Attention con MLA, buscando un equilibrio entre la expresividad de la atención completa y la eficiencia computacional de los modelos lineales o de estado. Estas arquitecturas a menudo experimentan con diferentes ratios de atención lineal/completa y mecanismos de gating para optimizar el rendimiento en contextos muy largos.

Capa	Tecnología	Justificación
compute	Transformer Decoder	Bloque fundamental para el procesamiento secuencial de tokens, con variaciones densas, MoE e híbridas. vs RNNs, LSTMs, GRUs
compute	Grouped-Query Attention (GQA)	Mecanismo de atención que agrupa múltiples cabezas de consulta para compartir proyecciones de clave/valor, reduciendo el costo de inferencia y memoria. vs Multi-Head Attention (MHA), Multi-Query Attention (MQA)
compute	Multi-Query Attention (MLA)	Variante de atención donde todas las cabezas de consulta comparten una única proyección de clave/valor, maximizando la eficiencia de inferencia. vs Multi-Head Attention (MHA), Grouped-Query Attention (GQA)
compute	Sparse Mixture-of-Experts (MoE)	Arquitectura que permite escalar el número total de parámetros del modelo mientras mantiene un número constante de parámetros activos por token, mejorando la capacidad sin un aumento lineal en el costo de inferencia. vs Modelos densos con mayor número de parámetros activos `Número de expertos, número de expertos activados por token, presencia de shared expert.`
compute	Sliding-Window Attention	Mecanismo de atención que restringe el cálculo de atención a una ventana local de tokens, reduciendo la complejidad cuadrática para contextos largos. vs Atención global completa, Atención dispersa (Sparse Attention) `Tamaño de la ventana (ej. 128 tokens).`
compute	Rotary Positional Embeddings (RoPE)	Método para incorporar información posicional en los vectores de consulta y clave, mejorando la capacidad del modelo para manejar secuencias largas. vs Absolute Positional Embeddings, Relative Positional Embeddings (T5-style)
compute	QK-Norm	Normalización aplicada a las consultas y claves antes del cálculo de la atención, mejorando la estabilidad del entrenamiento y el rendimiento. vs LayerNorm post-atención, sin normalización específica de QK
compute	Mamba-2	Modelo de espacio de estados estructurado que ofrece eficiencia lineal en la longitud de la secuencia, utilizado en arquitecturas híbridas para manejar contextos largos. vs Transformers con atención completa, Transformers con atención dispersa

Fundamentos Teóricos

El concepto de Mixture-of-Experts (MoE) tiene raíces profundas en la investigación de redes neuronales, remontándose a trabajos como el de Jacobs et al. (1991) y Jordan y Jacobs (1994), que propusieron combinar múltiples redes expertas con un gating network para dividir el espacio de entrada. Este principio se ha adaptado a la era de los Transformers para abordar la escalabilidad, permitiendo modelos con billones de parámetros que son computacionalmente viables en inferencia, como se exploró en trabajos más recientes por Shazeer et al. (2017) con Sparse MoE Layers para Transformers.

La atención, el mecanismo central de los Transformers, fue introducida por Vaswani et al. (2017) en el paper "Attention Is All You Need". La complejidad cuadrática de la atención ha sido un foco constante de investigación, dando lugar a variantes como la atención de ventana deslizante (sliding-window attention), que se inspira en el concepto de convoluciones locales en redes neuronales convolucionales (CNNs) para reducir el costo computacional. La Grouped-Query Attention (GQA) y Multi-Query Attention (MQA) son optimizaciones de la atención que reducen la redundancia computacional en las claves (K) y valores (V) al compartir proyecciones entre múltiples cabezas de atención, un concepto que se alinea con la búsqueda de eficiencia en el procesamiento de datos a gran escala. La exploración de modelos de estado como Mamba (Gu & Dao, 2023) representa un retorno a los principios de las redes recurrentes (RNNs) y los modelos de espacio de estados, buscando combinar la eficiencia de los modelos lineales con la capacidad de modelar dependencias de largo alcance, un desafío que ha sido fundamental en el campo del procesamiento de secuencias desde los primeros días de la inteligencia artificial.

Fuente original: https://sebastianraschka.com/llm-architecture-gallery/

Publicado originalmente: 15 de marzo de 2026

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

Deep Dive: Arquitectura y Mecanismos de los Anti-Cheats a Nivel de Kernel

La seguridad en sistemas distribuidos requiere un modelo de confianza explícito y la operación en el nivel de privilegio más bajo posible para el atacante.

ML Training

15 mar 2026

La Escalera de Optimización de Python: Desmitificando el Rendimiento en Cargas de Trabajo Computacionales

Prioriza la actualización de CPython: las versiones 3.11+ ofrecen mejoras de rendimiento "gratuitas" que deben ser la primera línea de optimización.

Performance Profiling Databases Distributed Tracing Rust

15 mar 2026

Deep Dive: Arquitectura y Mecanismos de los Anti-Cheats a Nivel de Kernel en Windows

La seguridad en sistemas distribuidos es una carrera armamentista asimétrica; los defensores deben anticipar y cubrir todas las superficies de ataque, mientras que los atacantes solo necesitan una brecha.

Distributed Tracing Performance Profiling