Mixture-of-Experts (MoE)

Mixture-of-Experts (MoE) es una arquitectura de red neuronal que, en lugar de usar una única red densa, distribuye la carga computacional y el conocimiento entre múltiples 'expertos' especializados. Un 'router' o 'gating network' aprende a dirigir cada entrada (o token en el caso de Transformers) a uno o varios de estos expertos, que son redes neuronales más pequeñas y especializadas. La salida final se obtiene combinando las predicciones de los expertos seleccionados, ponderadas por la red de enrutamiento. Esto permite construir modelos con un número masivo de parámetros (billones) sin incurrir en un costo computacional proporcionalmente alto, ya que solo un subconjunto de expertos se activa para cada entrada, logrando una 'activación escasa'.

En el mundo real, MoE ha ganado una tracción significativa en el campo de los Large Language Models (LLMs) y otros modelos de Transformers. Ejemplos notables incluyen el modelo Switch Transformer de Google, que demostró cómo escalar modelos a billones de parámetros de manera eficiente. Más recientemente, modelos como Mixtral 8x7B de Mistral AI han popularizado el uso de MoE en modelos de código abierto, ofreciendo un rendimiento competitivo con modelos densos mucho más grandes, pero con menores requisitos de inferencia. También se ha explorado en sistemas de recomendación y visión por computadora para manejar la diversidad de datos y tareas.

Para un arquitecto de sistemas, MoE es crucial porque ofrece un camino para escalar modelos de Machine Learning a una magnitud sin precedentes, abordando el trade-off entre tamaño del modelo, rendimiento y eficiencia computacional. Permite desplegar modelos con capacidades avanzadas que de otra manera serían inviables debido a los costos de inferencia y entrenamiento. Sin embargo, introduce desafíos en la distribución y orquestación de los expertos a través de múltiples dispositivos o nodos, requiriendo estrategias sofisticadas de sharding y balanceo de carga para la red de enrutamiento y los expertos. La gestión de la memoria y el ancho de banda de red se vuelven consideraciones críticas, ya que, aunque solo un subconjunto de expertos se activa, todos los parámetros deben estar potencialmente disponibles. La elección entre un modelo denso y un MoE dependerá de los requisitos de latencia, throughput, presupuesto y la complejidad inherente del dominio del problema.

Papers fundacionales