El problema fundamental que aborda este enfoque es la ineficiencia económica y técnica de procesar imágenes directamente con modelos multimodales en cada consulta dentro de un sistema RAG a escala. Los modelos de visión son costosos y tienen limitaciones de payload, lo que los hace inviables para millones de consultas diarias, especialmente cuando la mayoría de las imágenes son ilustrativas y no requieren un análisis pixel a pixel en tiempo real. La tesis es que la información contenida en las imágenes, ya sea ilustrativa o portadora de datos críticos (load-bearing), puede ser efectivamente transformada en texto una única vez durante la indexación, desacoplando así el procesamiento visual de la inferencia en tiempo de consulta.

Históricamente, los sistemas de recuperación de información se han centrado en texto. La explosión de los LLMs y los modelos multimodales ha abierto nuevas posibilidades, pero también ha expuesto cuellos de botella de rendimiento y costo en la integración de datos no textuales. Este trabajo propone una solución pragmática que alinea la naturaleza de la información visual en documentación técnica con las capacidades y limitaciones actuales de los sistemas de IA a gran escala, priorizando la eficiencia sobre la complejidad de un enfoque puramente multimodal en tiempo real.

Arquitectura del Sistema

La arquitectura propuesta invierte el flujo de procesamiento tradicional de RAG multimodal. En lugar de enviar imágenes crudas al modelo en tiempo de consulta, se introduce una fase de pre-procesamiento intensiva en la etapa de indexación. Durante la indexación, cada imagen se somete a un proceso de filtrado inicial para eliminar ruido (logos, avatares, banners decorativos) mediante heurísticas (formato, tamaño, relación de aspecto) y un clasificador zero-shot basado en embeddings multimodales. Las imágenes que superan este filtro son luego procesadas por un modelo de lenguaje de visión (Vision Language Model, VLM) de bajo costo (ej. GPT 5.4 mini) para generar una descripción textual o una transcripción de su contenido.

Crucialmente, este VLM recibe contexto textual circundante (párrafos antes y después de la imagen) para generar descripciones más precisas y útiles. Estas descripciones se almacenan como chunks de texto separados en el índice de recuperación, en lugar de incrustarse directamente en los chunks de texto originales. En tiempo de consulta, el retriever recupera los chunks de texto relevantes junto con las descripciones de imágenes relevantes. El LLM final solo interactúa con texto, viendo las descripciones de las imágenes y citando la imagen original por su URL. Este diseño desacopla el costo computacional del procesamiento de imágenes, que es un costo único de ingestión, del costo recurrente por consulta, que se mantiene bajo al operar solo con texto. La decisión de almacenar las descripciones como chunks separados es clave para la eficiencia, ya que solo se recuperan y procesan si son relevantes, evitando inflar el contexto de cada chunk de texto.

Flujo de Indexación de Imágenes para RAG

  1. 1 Ingesta de Documentos Documentos técnicos con texto e imágenes.
  2. 2 Filtrado Heurístico Elimina formatos no soportados, imágenes pequeñas, relaciones de aspecto extr...
  3. 3 Clasificador Zero-Shot Identifica y descarta imágenes de 'ruido' (logos, avatares) usando embeddings...
  4. 4 Extracción de Contexto Recupera párrafos de texto antes y después de cada imagen.
  5. 5 Captioning VLM Modelo de visión-lenguaje (ej. GPT 5.4 mini) genera descripción/transcripción...
  6. 6 Almacenamiento de Chunks Descripciones de imágenes almacenadas como chunks de texto separados en el ín...

Flujo de Consulta RAG con Descripciones de Imágenes

  1. 1 Consulta de Usuario Pregunta del usuario.
  2. 2 Recuperación (Retriever) Recupera chunks de texto y descripciones de imágenes relevantes del índice.
  3. 3 Re-ranking (Opcional) Reordena los chunks recuperados, promoviendo descripciones de imágenes releva...
  4. 4 Generación (LLM) El LLM procesa solo texto (chunks y descripciones) para generar la respuesta.
  5. 5 Respuesta al Usuario Respuesta generada, citando imágenes por su URL original si son relevantes.
CapaTecnologíaJustificación
data-processing Vision Language Model (VLM) Generación de descripciones textuales o transcripciones de imágenes durante la indexación. Se priorizan modelos de bajo costo como GPT 5.4 mini por su eficiencia. vs GPT 5.1, Claude 4.6 Sonnet, GPT 5.4 nano Se alimenta con contexto textual circundante (párrafos antes y después de la imagen) para mejorar la calidad de la descripción.
data-processing Zero-shot Classifier Filtrado de imágenes irrelevantes (ruido) antes del captioning, basado en embeddings multimodales para eficiencia.
storage Vector Database / Search Index Almacenamiento de chunks de texto y descripciones de imágenes como entidades separadas para su recuperación eficiente. vs Almacenamiento inline de descripciones dentro de chunks de texto Las descripciones de imágenes se almacenan como chunks independientes para optimizar costos y relevancia en la recuperación.
compute Large Language Model (LLM) Generación de respuestas a consultas, operando exclusivamente sobre texto (chunks de documentos y descripciones de imágenes). vs GPT 5.1, Claude 4.6 Sonnet

Trade-offs

Ganancias
  • Costo por consulta
  • Calidad de respuesta (LLM judge)
  • ▲▲ Capacidad de payload (número de imágenes)
Costes
  • Costo de indexación
  • Latencia (time to first token)
  • Precisión en clasificación de imágenes ambiguas

Fundamentos Teóricos

Este enfoque resuena con principios de sistemas de información y recuperación de datos que priorizan la pre-computación y el almacenamiento eficiente para optimizar el rendimiento en tiempo de consulta. Conceptos como la indexación invertida, fundamental en motores de búsqueda desde los trabajos de Salton y McGill en la década de 1980, se aplican aquí al transformar contenido visual en un formato textual indexable. La idea de enriquecer los datos en la ingesta para facilitar la recuperación posterior es un patrón bien establecido en la construcción de bases de datos y sistemas de información.

La distinción entre imágenes 'ilustrativas' y 'load-bearing' también tiene paralelismos con la teoría de la información y la semiótica, donde se analiza cómo diferentes tipos de representaciones visuales transmiten significado. La necesidad de transcribir fielmente el contenido de tablas y diagramas (load-bearing) para mantener la integridad de los datos es un desafío que recuerda a los problemas de extracción de información estructurada de documentos no estructurados, un campo activo de investigación en procesamiento de lenguaje natural y visión por computador. La optimización de costos mediante el uso de modelos más pequeños y la contextualización de la entrada al VLM se alinea con la investigación en eficiencia de modelos de IA, buscando el punto óptimo entre calidad y costo computacional, un tema recurrente en la literatura de aprendizaje automático a gran escala.