Apache Iceberg — KernelDigest

Apache Iceberg es un formato de tabla de código abierto que añade una capa de abstracción y gestión a los archivos de datos almacenados en sistemas de object storage (como S3, ADLS, GCS) o HDFS. A diferencia de los formatos de archivo subyacentes (Parquet, ORC), Iceberg no es un formato de archivo en sí mismo, sino una especificación que define cómo organizar y gestionar colecciones de archivos de datos en tablas. Proporciona características de nivel de base de datos como transacciones ACID (Atomic, Consistent, Isolated, Durable) para operaciones de escritura concurrentes, evolución de esquema segura (añadir, renombrar, reordenar columnas sin reescribir datos), y "time travel" (consultar versiones anteriores de la tabla) y "branching" (crear ramas de la tabla para experimentación).

En el mundo real, Apache Iceberg es adoptado por una variedad de plataformas de procesamiento de datos para modernizar sus data lakes. Empresas como Netflix y Apple lo utilizan para gestionar sus vastos conjuntos de datos analíticos. Herramientas y motores de consulta populares como Apache Spark, Trino (antes PrestoSQL), Flink, Dremio, y Hive tienen soporte nativo para Iceberg, permitiendo a los usuarios leer y escribir datos en tablas Iceberg. Plataformas de data warehousing en la nube como Snowflake y Google BigQuery también están integrando o considerando la integración con Iceberg para ofrecer mayor interoperabilidad y evitar el "vendor lock-in" en sus ecosistemas de data lake.

Para un arquitecto, Apache Iceberg es crucial porque aborda desafíos fundamentales en la construcción de data lakes escalables y fiables. Permite desacoplar el almacenamiento del cómputo, ofreciendo flexibilidad para elegir el motor de consulta más adecuado sin comprometer la integridad de los datos. La capacidad de transacciones ACID y la evolución de esquema segura reducen la complejidad operativa y los riesgos de corrupción de datos, facilitando la construcción de pipelines de datos robustos. El "time travel" es invaluable para auditorías, recuperación de errores y análisis de tendencias históricas. La elección de Iceberg implica un trade-off: añade una capa de metadatos que requiere gestión, pero el beneficio en fiabilidad, flexibilidad y capacidades avanzadas para data lakes a gran escala supera con creces esta complejidad adicional, permitiendo construir arquitecturas de datos más resilientes y preparadas para el futuro.

Papers fundacionales