22 de marzo de 2026 3 min lectura

Tansu: Un Broker de Mensajería Kafka-Compatible con Durabilidad Delegada a Almacenamiento Externo

Lecciones clave

→ Desacoplar la lógica de procesamiento de la persistencia de datos puede simplificar la arquitectura y mejorar la elasticidad.
→ Delegar la durabilidad a sistemas de almacenamiento externos probados reduce la complejidad operativa de los componentes de procesamiento.
→ La validación de datos en el punto de ingesta (broker-side) puede garantizar la consistencia de los datos, aunque con un posible trade-off de latencia.
→ Optimizar la interacción con el backend de almacenamiento (ej. `COPY FROM` en PostgreSQL) es crucial para el rendimiento en sistemas de alto throughput.
→ Considerar la integración directa con formatos de tabla abiertos (Iceberg, Delta Lake) para simplificar los pipelines de datos analíticos.
→ Evaluar el costo operativo de 'pets' vs. 'cattle' en la toma de decisiones de diseño de sistemas distribuidos.
→ La compatibilidad de protocolos existentes (ej. Kafka) puede acelerar la adopción de nuevas soluciones.

El problema fundamental que Tansu aborda es la complejidad operativa y la rigidez de escalado inherente a los sistemas de mensajería distribuidos que gestionan su propia durabilidad y replicación, como Apache Kafka. Estos sistemas, aunque robustos, requieren una gestión intensiva de 'pets' (brokers con estado), lo que dificulta la elasticidad y el escalado a cero.

Tansu propone una arquitectura donde los brokers son 'cattle' sin estado, delegando la durabilidad y la resiliencia a sistemas de almacenamiento externos ya existentes y optimizados para ello (como S3 o PostgreSQL). Esta separación de responsabilidades permite que el broker se enfoque únicamente en la lógica del protocolo de mensajería, simplificando la operación y permitiendo una escalabilidad elástica y un consumo de recursos significativamente menor. La relevancia actual radica en la creciente demanda de arquitecturas serverless y el uso eficiente de la infraestructura en la nube, donde la gestión de estado distribuido es un desafío constante.

Arquitectura del Sistema

La arquitectura de Tansu se basa en brokers sin estado que implementan el protocolo Apache Kafka. La clave de su diseño es la pluggability del backend de almacenamiento, que puede ser S3 (o compatible como Tigris, R2), SQLite o PostgreSQL. Esta elección se realiza mediante un parámetro URL, permitiendo adaptar la persistencia a diferentes escenarios de uso.

Para la integración con PostgreSQL, Tansu optimiza la ingesta de datos utilizando el protocolo COPY FROM de PostgreSQL, que permite el streaming de filas sin la necesidad de confirmaciones individuales por cada INSERT, mejorando sustancialmente el throughput para la ingesta por lotes. Esto convierte una operación de produce en una serie de COPY DATA y un COPY DONE, y un fetch en un SELECT.

Una característica distintiva es la validación de esquemas en el broker. A diferencia de Kafka, donde la validación es opcional y se delega al cliente o a un Schema Registry externo, Tansu valida cada registro (Avro, JSON, Protobuf) antes de escribirlo, garantizando la consistencia de los datos. Esta capacidad de interpretación de esquemas también permite a Tansu escribir datos validados directamente en formatos de tabla abiertos como Apache Iceberg, Delta Lake o Parquet, actuando como un pipeline directo de productores Kafka-compatibles a datos listos para análisis. En este modo, una configuración de 'sink topic' omite el almacenamiento normal y escribe exclusivamente al formato de tabla abierta.

Flujo de Producción de Mensajes con Tansu (PostgreSQL Backend)

1 Cliente Kafka Envía mensaje al broker Tansu usando protocolo Kafka.
2 Broker Tansu Recibe mensaje, valida esquema (si configurado).
3 Broker Tansu Utiliza protocolo COPY FROM de PostgreSQL para streaming de datos.
4 PostgreSQL Almacena el mensaje de forma duradera.
5 Broker Tansu Confirma la producción al cliente (después de COPY DONE).

Flujo de Consumo de Mensajes con Tansu (PostgreSQL Backend)

1 Cliente Kafka Solicita mensajes al broker Tansu.
2 Broker Tansu Ejecuta una consulta SELECT en PostgreSQL.
3 PostgreSQL Retorna los mensajes solicitados.
4 Broker Tansu Envía mensajes al cliente Kafka.

Capa	Tecnología	Justificación
messaging	Tansu	Broker de mensajería compatible con Apache Kafka, sin estado y con durabilidad delegada. vs Apache Kafka, Redpanda, NATS Streaming
storage	PostgreSQL	Backend de almacenamiento duradero para mensajes, aprovechando COPY FROM para alta ingesta. vs Apache Kafka (almacenamiento interno), Cassandra, MongoDB `Uso del protocolo COPY FROM para ingesta en batch.`
storage	Amazon S3 (o compatible)	Backend de almacenamiento duradero para operación sin disco, ideal para entornos serverless. vs HDFS, Google Cloud Storage, Azure Blob Storage
storage	SQLite	Backend de almacenamiento para entornos de desarrollo y pruebas locales. vs H2 Database, Hsqldb
data-processing	Apache Iceberg / Delta Lake / Parquet	Formatos de tabla abiertos para la escritura directa de datos validados desde Tansu, facilitando el análisis. vs Avro, ORC `Configuración de 'sink topic' para escritura directa.`

Trade-offs

Ganancias

▲ Elasticidad y escalabilidad a cero
▲▲ Menor consumo de memoria por broker
▲ Simplificación operativa (brokers sin estado)
▲ Garantía de consistencia de datos (validación de esquema en broker)
▲ Integración directa con bases de datos y formatos de tabla abiertos

Costes

△ Mayor latencia en la validación de esquema (descompresión y validación)
▲ Funcionalidades aún no implementadas (throttling, ACLs, share groups, compactación S3)

Fundamentos Teóricos

La separación de la capa de computación (broker) de la capa de almacenamiento (storage backend) en Tansu resuena con principios fundamentales de los sistemas distribuidos que buscan desacoplar componentes para mejorar la escalabilidad y la resiliencia. Este patrón se observa en arquitecturas de bases de datos modernas que separan el plano de control y el plano de datos, o la lógica de procesamiento de transacciones del almacenamiento de datos. Conceptos como el 'shared-nothing architecture' (aunque Tansu usa almacenamiento compartido, los brokers son shared-nothing) y la delegación de responsabilidades a servicios especializados son pilares en la construcción de sistemas a gran escala.

La idea de brokers sin estado que dependen de un almacenamiento duradero externo puede verse como una aplicación práctica de los principios de diseño de sistemas distribuidos tolerantes a fallos, donde la persistencia se externaliza para simplificar la lógica del componente de procesamiento. Esto se alinea con la evolución de los sistemas de bases de datos que han pasado de arquitecturas monolíticas a modelos donde el almacenamiento es un servicio independiente, como se discute en trabajos sobre la evolución de los sistemas de almacenamiento en la nube y bases de datos distribuidas que utilizan objetos de almacenamiento como S3 para su durabilidad subyacente.

Fuente original: https://www.infoq.com/news/2026/03/tansu-stateless-kafka-compatible/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

Publicado originalmente: 21 de marzo de 2026

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

Comparativas

PostgreSQL vs CockroachDB →

Optimización de Parsers en el Navegador: Más Allá de Rust y WASM

Prioriza el perfilado de rendimiento en el sistema completo, no solo en componentes aislados. Los cuellos de botella pueden estar en la interoperabilidad, no en la lógica de negocio.

WebAssembly Performance Profiling

21 mar 2026

Jerarquías de Seguridad de Red en Kubernetes a Escala

Los modelos de seguridad de red planos no escalan en entornos Kubernetes complejos; la jerarquía es fundamental para la gestión de políticas.

Kubernetes

21 mar 2026

NumKong: Optimización de Operaciones Numéricas de Precisión Mixta en CPUs Modernas

La precisión numérica es un trade-off crítico: priorizar la estabilidad (ej. Dot2) puede reducir el throughput, pero es esencial para la escala de hyperscaler donde los errores se acumulan.

CPU Architecture Performance Profiling Distributed Tracing LLM Inference