2 de junio de 2026 4 min lectura

Escalado de Evaluación de Relevancia en Búsqueda Empresarial con LLMs y Juicio Humano

Lecciones clave

→ Los LLMs son herramientas potentes para escalar tareas de juicio y etiquetado, pero requieren calibración y validación humana para asegurar la calidad y consistencia.
→ Considerar los LLMs en roles offline ('maestro') para generar datos de entrenamiento cuando las restricciones de latencia o ventana de contexto impiden su uso en tiempo real.
→ La calidad del prompt es crítica para el rendimiento del LLM; invertir en optimización de prompts y frameworks como DSPy puede reducir la complejidad y mejorar la consistencia.
→ Priorizar la evaluación y el refinamiento en los 'casos difíciles' (donde el sistema comete errores) ofrece el mayor retorno de inversión en mejora de calidad.
→ Establecer un conjunto de referencia humano persistente y revisado es fundamental para anclar la evaluación a lo largo del tiempo, permitiendo detectar regresiones y medir mejoras a medida que los modelos y requisitos evolucionan.
→ La integración de contexto adicional (ej. herramientas de investigación para LLMs) puede mejorar significativamente la precisión de los juicios automatizados, especialmente en dominios con terminología ambigua o específica de la organización.
→ La filosofía de 'menos hype, más stack' se aplica a los LLMs: entender sus limitaciones y fortalezas permite integrarlos estratégicamente en la arquitectura para resolver problemas de escalabilidad.

El problema fundamental que aborda este artículo es la escalabilidad y calidad de la generación de datos de entrenamiento para modelos de ranking de búsqueda en sistemas de Recuperación Aumentada por Generación (RAG). En entornos empresariales con millones o miles de millones de documentos, la capacidad de un Large Language Model (LLM) para generar respuestas precisas depende directamente de la calidad y relevancia de los documentos recuperados por el sistema de búsqueda subyacente. Entrenar modelos de ranking de búsqueda de alto rendimiento requiere grandes volúmenes de datos de relevancia etiquetados, un proceso que históricamente ha sido costoso, lento y difícil de escalar con solo evaluadores humanos.

La tesis central es que los LLMs pueden actuar como un multiplicador de fuerza para el juicio humano, permitiendo la generación de etiquetas de relevancia a escala sin sacrificar la calidad. Esto se logra mediante un enfoque híbrido donde un pequeño conjunto de datos etiquetados por humanos de alta calidad se utiliza para calibrar y validar el rendimiento de un LLM, que luego se encarga de generar un volumen mucho mayor de etiquetas de entrenamiento. Este método aborda la limitación de los LLMs para operar en tiempo real en el ranking de búsqueda debido a restricciones de latencia y ventana de contexto, reubicándolos en un rol de 'maestro' offline para modelos de ranking más pequeños y eficientes.

Arquitectura del Sistema

El sistema de búsqueda de Dropbox Dash sigue un patrón de Recuperación Aumentada por Generación (RAG). Cuando un usuario realiza una consulta, el sistema primero interpreta la necesidad de información y recupera un conjunto de documentos candidatos del índice de búsqueda empresarial. Este índice puede contener millones o miles de millones de documentos. Los resultados de búsqueda se ordenan mediante un modelo de relevancia entrenado con técnicas de Machine Learning, como XGBoost. Este modelo asigna una puntuación a cada documento basándose en su coincidencia con la consulta, ajustando los pesos de diferentes señales para minimizar errores de ranking.

La clave de la arquitectura reside en cómo se generan los datos de entrenamiento para este modelo de relevancia. Se utiliza un enfoque híbrido de etiquetado humano y asistido por LLM. Inicialmente, un pequeño conjunto de evaluadores humanos etiqueta un dataset de alta calidad. Este dataset se utiliza para ajustar el prompt del LLM y sus parámetros. Una vez que el rendimiento del LLM cumple con los umbrales de calidad, se despliega para generar cientos de miles o millones de etiquetas de relevancia. El LLM actúa como un 'maestro' offline, generando datos de entrenamiento para modelos de ranking más pequeños y eficientes que operan en producción. La evaluación del rendimiento del LLM como juez de relevancia se realiza comparando sus calificaciones con los juicios humanos, utilizando métricas como el Mean Squared Error (MSE). Para mejorar la eficiencia, se priorizan las muestras de entrenamiento donde es más probable que el LLM cometa errores, identificando discrepancias entre el comportamiento del usuario y la relevancia predicha por el LLM. Además, se proporcionan herramientas a los LLMs para investigar el contexto de la consulta, permitiéndoles realizar juicios de relevancia más precisos y conscientes del contexto, especialmente con terminología interna o acrónimos. La optimización de prompts se gestiona con frameworks como DSPy, que refinan automáticamente los prompts contra objetivos de evaluación definidos.

Flujo de Etiquetado de Relevancia Híbrido

1 Evaluación Humana Inicial Pequeño grupo de evaluadores humanos etiqueta un dataset de alta calidad (1-5).
2 Calibración de LLM Dataset humano usado para ajustar prompt y parámetros del LLM.
3 Validación de Rendimiento Se compara la salida del LLM con juicios humanos (MSE) hasta umbral de calidad.
4 Generación de Etiquetas a Escala LLM genera cientos de miles/millones de etiquetas de relevancia.
5 Entrenamiento Modelo de Ranking Las etiquetas generadas se usan para entrenar el modelo de ranking (XGBoost).
6 Análisis de Discrepancias Se identifican errores del LLM (ej. clicks vs. baja relevancia predicha).
7 Refinamiento de Prompt/Modelo Discrepancias priorizadas para revisión humana y ajuste de prompt.
8 Iteración El proceso se repite hasta que los errores se abordan o las mejoras se estabi...

Capa	Tecnología	Justificación
data-processing	XGBoost	Algoritmo de Machine Learning utilizado para entrenar el modelo de ranking de búsqueda, optimizando la asignación de puntuaciones de relevancia a los documentos. vs LambdaMART, RankNet, LightGBM
data-processing	Large Language Models (LLMs)	Utilizados offline para generar etiquetas de relevancia a escala, actuando como 'maestros' para modelos de ranking más pequeños y eficientes. También se usan para investigar el contexto de la consulta. `Optimización de prompts, modelos optimizados para razonamiento.`
data-processing	DSPy	Framework de meta-prompting para optimizar programáticamente los prompts de LLMs contra objetivos de evaluación definidos, mejorando la consistencia y precisión de las etiquetas generadas.

Trade-offs

Ganancias

▲▲ Escalabilidad del etiquetado de relevancia
▲ Costo de etiquetado
▲ Consistencia en la evaluación de relevancia
▲ Capacidad de evaluar contenido sensible/propietario

Costes

▲ Dependencia de la calidad del prompt y del modelo LLM
△ Necesidad de calibración y validación humana continua
△ Complejidad en la gestión de prompts y su evolución

Fundamentos Teóricos

La problemática de la evaluación de relevancia y el entrenamiento de modelos de ranking tiene profundas raíces en la investigación de Recuperación de Información (Information Retrieval, IR). Los fundamentos de los sistemas de ranking se remontan a modelos como el de espacio vectorial y BM25, que cuantifican la similitud entre consultas y documentos. La transición de reglas heurísticas a modelos de Machine Learning para el ranking, conocida como 'Learning to Rank' (LTR), ha sido un área activa de investigación desde principios de los 2000, con trabajos seminales de autores como Christopher Burges (Microsoft Research) en 2005 sobre RankNet y LambdaMART, y el desarrollo de algoritmos de boosting como XGBoost por Tianqi Chen en 2016. Estos algoritmos buscan optimizar métricas de ranking como NDCG (Normalized Discounted Cumulative Gain) o MAP (Mean Average Precision).

La idea de utilizar sistemas automatizados para generar datos de entrenamiento no es nueva; técnicas como el bootstrapping o la auto-supervisión han sido exploradas en diversos campos del Machine Learning. Sin embargo, la aplicación de Large Language Models para generar etiquetas de relevancia a escala, y la metodología de calibración con juicio humano, representa una evolución directa de estos principios. La analogía con la evaluación de funciones en motores de ajedrez, como describe Garry Kasparov en 'Deep Thinking', resalta la importancia de una función de evaluación precisa para guiar la optimización, un principio que se aplica directamente a la optimización basada en gradientes en Machine Learning y a la calibración de LLMs como jueces de relevancia. La necesidad de contexto adicional para la evaluación de relevancia también resuena con la investigación en IR contextual y la desambiguación semántica.

Fuente original: https://dropbox.tech/machine-learning/llm-human-labeling-improving-search-relevance-dropbox-dash

Publicado originalmente: 26 de febrero de 2026

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

Optimizando Inferencia de LLM en Hardware Legacy: Un Deep Dive en ik_llama.cpp

El 'memory wall' es el cuello de botella dominante en la inferencia de LLM en CPUs; las optimizaciones deben priorizar el ancho de banda de memoria y el uso eficiente de la caché.

LLM Inference CPU Architecture Performance Profiling

1 jun 2026

Cuantificación de Modelos de Difusión para Inferencia Local en Dispositivos Edge

La cuantificación de modelos es una estrategia efectiva para habilitar la inferencia de IA en el edge, pero requiere una evaluación cuidadosa del trade-off entre footprint y calidad.

LLM Inference Edge Computing Performance Profiling

1 jun 2026

dav2d: Un Decodificador de Software de Alto Rendimiento para el Codec AV2

La disponibilidad de implementaciones de software eficientes es crítica para la adopción temprana de nuevos estándares, incluso con la promesa de hardware dedicado.

Performance Profiling CPU Architecture