Feed-Forward Network (FFN)

Una Feed-Forward Network (FFN), también conocida como Multi-Layer Perceptron (MLP), es la forma más simple de red neuronal artificial. Se caracteriza por un flujo unidireccional de información, donde las neuronas de una capa solo se conectan con las neuronas de la siguiente capa, sin conexiones de retroalimentación o ciclos. Consiste en una capa de entrada, una o más capas ocultas y una capa de salida. Cada neurona en una capa oculta o de salida calcula una suma ponderada de las salidas de la capa anterior, aplicando luego una función de activación no lineal a este resultado. La FFN es la base de arquitecturas más complejas y es fundamental para el aprendizaje supervisado, donde se entrena para mapear un conjunto de entradas a un conjunto de salidas deseado.

Las FFNs son componentes esenciales en una multitud de sistemas de Machine Learning. En el contexto de los 'Transformers', cada bloque de 'Transformer' contiene una FFN que opera de forma independiente sobre cada posición de la secuencia, aplicando una transformación idéntica a cada 'token' o 'embedding'. Esto es crucial para la capacidad de los 'Transformers' de modelar relaciones complejas en datos secuenciales como el lenguaje natural. Fuera de los 'Transformers', las FFNs se utilizan en sistemas de recomendación, clasificación de imágenes (como capas densas finales en CNNs), y en tareas de regresión y clasificación en una amplia gama de aplicaciones de 'Machine Learning' tradicionales, sirviendo como bloques constructivos básicos para modelos predictivos.

Para un arquitecto de sistemas, entender las FFNs es crucial debido a su ubicuidad y sus implicaciones en el diseño de sistemas de IA. Su naturaleza 'feed-forward' simplifica la paralelización del cálculo, lo que es una consideración clave para el rendimiento en hardware moderno (GPUs, TPUs). Sin embargo, su capacidad para capturar dependencias a largo plazo es limitada en comparación con redes recurrentes o 'Transformers' puros, lo que lleva a decisiones sobre cuándo y dónde integrar FFNs frente a otras arquitectaciones. Al diseñar sistemas basados en 'Transformers', el arquitecto debe considerar el tamaño y la complejidad de las FFNs internas, ya que impactan directamente el consumo de memoria y la latencia de inferencia. La elección de funciones de activación y la profundidad de las FFNs son 'trade-offs' críticos entre la capacidad del modelo y la eficiencia computacional, afectando la escalabilidad y el costo operativo de las soluciones de IA.

Papers fundacionales