Cardinality — KernelDigest

En el contexto de sistemas distribuidos y bases de datos, la cardinalidad es una medida del número de elementos únicos dentro de un conjunto. Específicamente, para una columna en una tabla de base de datos, la cardinalidad es el número de valores distintos que contiene esa columna. En el ámbito de la observabilidad y las métricas, se refiere al número de combinaciones únicas de etiquetas (tags) o dimensiones asociadas a una serie temporal o un punto de datos. Una alta cardinalidad implica una gran diversidad de valores, mientras que una baja cardinalidad indica que los valores se repiten frecuentemente.

La cardinalidad es un concepto fundamental en diversas herramientas y sistemas. En bases de datos relacionales (como PostgreSQL o MySQL), la cardinalidad de una columna influye en la elección de índices y la optimización de consultas. Por ejemplo, una columna con baja cardinalidad (ej. 'estado_civil') puede no beneficiarse tanto de un índice como una con alta cardinalidad (ej. 'ID_usuario'). En sistemas de monitoreo y observabilidad como Prometheus, Datadog o Grafana, la cardinalidad de las métricas (número de series temporales únicas generadas por combinaciones de etiquetas) es crítica. Una alta cardinalidad puede llevar a un consumo excesivo de memoria, CPU y almacenamiento, impactando el rendimiento y la escalabilidad de los servidores de métricas. En sistemas de procesamiento de datos distribuidos como Apache Spark o Apache Flink, la cardinalidad de las claves de partición afecta la distribución de la carga y el rendimiento de las operaciones de 'shuffle'.

Para un arquitecto de sistemas, comprender la cardinalidad es crucial para el diseño y la optimización. Una alta cardinalidad descontrolada puede ser una fuente significativa de problemas de rendimiento y costos en sistemas de monitoreo, bases de datos y análisis de datos. En bases de datos, una cardinalidad adecuada guía la estrategia de indexación y particionamiento. En observabilidad, el arquitecto debe diseñar esquemas de etiquetado de métricas que equilibren la granularidad necesaria con el impacto de la cardinalidad, evitando la explosión de series temporales ('cardinality explosion'). Esto a menudo implica tomar decisiones sobre qué dimensiones son realmente necesarias, cómo agregar datos o si se deben utilizar técnicas como 'sketches' probabilísticos (ej. HyperLogLog) para estimar la cardinalidad sin almacenar todos los elementos únicos. Ignorar la cardinalidad puede llevar a sistemas ineficientes, costosos y difíciles de escalar.