McNemar's Test — KernelDigest

El Test de McNemar es una prueba de hipótesis no paramétrica diseñada para analizar datos categóricos dicotómicos (binarios) cuando se comparan dos medidas relacionadas o dependientes. Se aplica comúnmente para evaluar si hay un cambio significativo en las proporciones de respuestas entre dos condiciones o tratamientos en el mismo grupo de sujetos, o para comparar la concordancia y discordancia entre dos clasificadores binarios sobre el mismo conjunto de datos. La prueba se basa en una tabla de contingencia 2x2 que cuenta los casos donde un clasificador acierta y el otro falla, o viceversa, ignorando los casos donde ambos aciertan o ambos fallan. La hipótesis nula es que las proporciones de discordancia son iguales, es decir, no hay diferencia sistemática entre los dos clasificadores.

En el mundo real, el Test de McNemar es fundamental en el desarrollo y evaluación de sistemas de Machine Learning y AI. Por ejemplo, se utiliza para comparar el rendimiento de dos modelos de clasificación binaria (e.g., un Logistic Regression vs. un Support Vector Machine) sobre el mismo conjunto de datos de prueba, determinando si un modelo es significativamente mejor que el otro en términos de sus predicciones correctas/incorrectas. También es prevalente en el ámbito médico para comparar la efectividad de dos pruebas de diagnóstico para la misma enfermedad en los mismos pacientes. En el desarrollo de software, podría usarse para evaluar si una nueva versión de un algoritmo de detección de anomalías es significativamente mejor que la versión anterior en la identificación de eventos específicos.

Para un Arquitecto de Sistemas, comprender el Test de McNemar es crucial al diseñar y evaluar pipelines de Machine Learning y sistemas basados en AI. Permite tomar decisiones informadas sobre la selección de modelos, justificando la adopción de un clasificador sobre otro basándose en evidencia estadística rigurosa, más allá de métricas agregadas como la precisión global. Esto es vital para optimizar recursos computacionales y de almacenamiento, ya que un modelo más complejo solo se justificará si demuestra una mejora estadísticamente significativa. Además, ayuda a identificar si las mejoras percibidas en el rendimiento de un sistema son genuinas o meras fluctuaciones aleatorias, lo que impacta directamente en la confianza y fiabilidad del sistema en producción y en la estrategia de evolución del producto.

Papers fundacionales