Mega MoE — KernelDigest

Mega MoE, o 'Mixture of Experts' a escala masiva, es una arquitectura de modelo de lenguaje que descompone un modelo monolítico en una colección de redes neuronales más pequeñas y especializadas, denominadas 'expertos'. En lugar de procesar todas las entradas a través de una única red densa, un mecanismo de 'routing' o 'gating' aprende a dirigir cada token de entrada a un subconjunto específico de estos expertos. Esto permite que el modelo escale a un número mucho mayor de parámetros (billones o incluso trillones) sin incurrir en un costo computacional proporcionalmente mayor durante la inferencia, ya que solo una fracción de los expertos se activa para cada entrada. La clave reside en la capacidad del 'gate' para distribuir la carga de trabajo de manera inteligente, permitiendo que cada experto se especialice en diferentes aspectos del lenguaje o tipos de datos.

La implementación de arquitecturas MoE a gran escala ha sido pionera en modelos de lenguaje de vanguardia. Google ha sido un actor clave, utilizando MoE en modelos como GLaM (Generalist Language Model) y, más recientemente, en la familia de modelos Gemini. Otro ejemplo prominente es el modelo Mixtral 8x7B de Mistral AI, que emplea una arquitectura Sparse MoE, donde cada token se enruta a dos de ocho expertos. Estos sistemas demuestran cómo los Mega MoE pueden lograr un rendimiento competitivo con modelos densos mucho más grandes, pero con una fracción del costo computacional durante la inferencia, lo que los hace atractivos para aplicaciones en producción que requieren alta capacidad y eficiencia.

Para un arquitecto de sistemas, la adopción de Mega MoE implica consideraciones estratégicas significativas. Ofrece un trade-off crucial: la capacidad de escalar el número de parámetros del modelo a niveles sin precedentes (billones) sin aumentar linealmente los requisitos de cómputo y memoria en tiempo de inferencia, lo que reduce el TCO (Total Cost of Ownership) operativo. Sin embargo, introduce complejidad en la distribución y orquestación de los expertos, requiriendo sistemas de 'serving' distribuidos que puedan gestionar eficientemente la carga y el 'routing' dinámico. La paralelización de datos y modelos se vuelve más intrincada, y la latencia puede verse afectada por la comunicación entre expertos y el 'gate'. La elección de un Mega MoE es estratégica cuando se busca maximizar la capacidad del modelo y la eficiencia de inferencia en entornos de producción a gran escala, balanceando la complejidad de la infraestructura con los beneficios de rendimiento y costo.

Papers fundacionales