Energy-based models — KernelDigest

Los Energy-based models (EBMs) son un marco unificador para el aprendizaje supervisado, no supervisado y de refuerzo, que se distinguen por definir una función de energía escalar E(x, y) que mide la compatibilidad entre una entrada 'x' y una salida 'y'. A diferencia de los modelos probabilísticos que requieren una función de normalización (partición) a menudo intratable, los EBMs evitan esta restricción al centrarse en aprender una función de energía que asigna valores bajos a configuraciones 'correctas' o 'probables' y valores altos a configuraciones 'incorrectas' o 'improbables'. La inferencia se realiza buscando 'y' que minimice E(x, y), mientras que el aprendizaje ajusta los parámetros de E para que las configuraciones observadas tengan energías más bajas que las no observadas. Esto los hace particularmente flexibles para tareas donde la distribución de datos es compleja y multimodal.

En el mundo real, los EBMs han encontrado aplicaciones en diversas áreas. Un ejemplo notable es en la visión por computadora, donde se han utilizado para tareas de síntesis de imágenes, denoising y completado de imágenes, como en algunos enfoques de 'inpainting'. También son la base teórica de los 'Contrastive Divergence' (CD) y 'Persistent Contrastive Divergence' (PCD) utilizados para entrenar 'Restricted Boltzmann Machines' (RBMs) y 'Deep Belief Networks' (DBNs), que fueron pioneros en el aprendizaje profundo. Más recientemente, los principios de los EBMs se han aplicado en el desarrollo de modelos generativos como 'Generative Adversarial Networks' (GANs) y 'Diffusion Models', donde la función de energía puede ser implícita o explícita, guiando el proceso de generación hacia muestras de alta calidad y baja energía.

Para un arquitecto, comprender los EBMs es crucial por varias razones estratégicas. Primero, ofrecen una alternativa potente a los modelos probabilísticos explícitos, eliminando la necesidad de calcular la constante de normalización, lo que simplifica el diseño de sistemas generativos complejos y escalables. Segundo, su flexibilidad permite modelar distribuciones multimodales y relaciones complejas entre datos, lo que es vital en dominios como la visión artificial, el procesamiento del lenguaje natural y la robótica, donde las soluciones basadas en EBMs pueden superar a los enfoques tradicionales. Sin embargo, el entrenamiento de EBMs puede ser computacionalmente intensivo, especialmente al requerir muestreo de la distribución de energía (ej., mediante 'MCMC'), lo que implica consideraciones significativas en la infraestructura de hardware (GPUs, TPUs) y el diseño de algoritmos de optimización distribuida. La elección de un EBM implica un 'trade-off' entre la expresividad del modelo y la complejidad computacional de su entrenamiento e inferencia, lo que requiere una evaluación cuidadosa de los recursos disponibles y los requisitos de rendimiento del sistema.

Papers fundacionales