BM25 — KernelDigest

BM25, o Okapi BM25, es una familia de funciones de ranking que opera bajo el modelo de "bolsa de palabras" (bag-of-words). Calcula una puntuación de relevancia para cada documento en un corpus con respecto a una consulta dada. La fórmula combina la frecuencia de términos (TF) en el documento y la frecuencia inversa de documentos (IDF) de cada término en la consulta, ajustando estas métricas por la longitud del documento y la longitud promedio de los documentos en el corpus. Sus parámetros clave, 'k1' y 'b', permiten ajustar la saturación de la frecuencia de términos y la normalización por longitud, respectivamente, haciéndolo adaptable a diferentes tipos de colecciones de documentos y consultas.

BM25 es el algoritmo de ranking predeterminado o una opción fundamental en muchos motores de búsqueda y sistemas de recuperación de información. Ejemplos concretos incluyen Elasticsearch y Apache Lucene (y por extensión, Solr), donde BM25 es la base para la puntuación de relevancia en la mayoría de las búsquedas textuales. También se utiliza en sistemas de recomendación basados en contenido, motores de búsqueda internos de empresas y plataformas de e-commerce para clasificar productos o artículos relevantes. Su robustez y buen rendimiento en una amplia gama de escenarios lo han consolidado como un estándar de facto en la industria.

Para un Arquitecto de Sistemas, BM25 es crucial porque impacta directamente la calidad de la experiencia del usuario en cualquier sistema que involucre búsqueda textual. Entender BM25 permite optimizar la relevancia de los resultados de búsqueda, lo cual es vital para la adopción y satisfacción del usuario. Los trade-offs incluyen la necesidad de indexación previa para calcular TF/IDF eficientemente, el ajuste de los parámetros 'k1' y 'b' para equilibrar la influencia de la frecuencia de términos y la longitud del documento (lo que a menudo requiere experimentación y A/B testing), y su limitación a la semántica explícita de las palabras (no maneja sinónimos o contexto semántico avanzado sin capas adicionales como word embeddings o modelos de lenguaje). La elección de BM25 frente a modelos más complejos (como los basados en aprendizaje profundo) implica un balance entre rendimiento computacional, latencia de consulta y la sofisticación de la relevancia deseada.

Papers fundacionales