27 de marzo de 2026 4 min lectura

gnata: Reimplementación de JSONata en Go para Optimización de Evaluación de Políticas

Lecciones clave

→ Identificar y eliminar 'language boundaries' y RPCs innecesarios es una estrategia de optimización de rendimiento de orden de magnitud en sistemas distribuidos de alto volumen.
→ La co-ubicación de la lógica de negocio crítica con los datos que procesa puede reducir drásticamente la latencia y el costo computacional.
→ Una arquitectura de evaluación de dos niveles (fast path/full path) es efectiva para optimizar el rendimiento en cargas de trabajo con una distribución de complejidad variable.
→ Las suites de pruebas exhaustivas son un activo invaluable, no solo para la validación, sino también como 'especificación ejecutable' para la reimplementación asistida por IA.
→ La IA generativa, cuando se aplica con un enfoque metódico y guiado por pruebas, puede ser un multiplicador significativo para ingenieros senior en tareas de refactorización y reimplementación.
→ Considerar el patrón de 'request coalescing' y el procesamiento por lotes (batching) para optimizar el uso de recursos en pipelines de eventos, incluso después de resolver cuellos de botella primarios.
→ La implementación de 'shadow mode' y 'mismatch detection' es crucial para un despliegue seguro de cambios de infraestructura críticos, especialmente con código generado automáticamente.

El problema fundamental que gnata aborda es la ineficiencia inherente a la evaluación de expresiones en un lenguaje de dominio específico (DSL) cuando la implementación de referencia reside en un entorno de ejecución diferente al del sistema principal. En sistemas distribuidos a escala, la latencia y el costo computacional asociados con los límites de lenguaje (language boundaries) y las llamadas a procedimiento remoto (RPC) se convierten en cuellos de botella significativos. Este problema se agrava cuando se procesan miles de millones de eventos, donde cada microsegundo de latencia se acumula en costos operativos sustanciales y limitaciones de escalabilidad.

La decisión de reimplementar JSONata en Go, el lenguaje principal de la pipeline de datos de Reco, se alinea con el principio de 'colocation' de la lógica de negocio crítica para minimizar la sobrecarga de comunicación. Históricamente, este tipo de reimplementaciones manuales son costosas y propensas a errores. Sin embargo, la emergencia de modelos de lenguaje grandes (LLMs) como herramientas de asistencia para la generación de código, especialmente cuando se guían por suites de pruebas exhaustivas, ha cambiado la ecuación, permitiendo la creación rápida y precisa de implementaciones equivalentes en diferentes lenguajes. Este caso de estudio demuestra cómo la IA puede actuar como un multiplicador para ingenieros senior, permitiendo abordar problemas de optimización de rendimiento que antes eran prohibitivamente caros o lentos de resolver.

Arquitectura del Sistema

gnata es una implementación pura en Go del lenguaje JSONata 2.x, diseñada para ser incrustada como una librería dentro de los servicios Go existentes de Reco. Su arquitectura principal se basa en un sistema de evaluación de dos niveles:

1. Fast Path (Ruta Rápida): Para expresiones JSONata simples (ej. búsquedas de campo, comparaciones, funciones integradas en rutas puras como $exists(a.b)), gnata evalúa directamente contra los bytes JSON crudos sin necesidad de un parseo completo del documento. Esto elimina las asignaciones de heap y minimiza el procesamiento, logrando latencias en el orden de nanosegundos para operaciones que de otro modo incurrirían en microsegundos de overhead de RPC. Este enfoque se inspira en evaluadores de expresiones como GJSON, que operan directamente sobre bytes.

2. Full Path (Ruta Completa): Para expresiones JSONata más complejas que requieren la semántica completa del lenguaje, gnata emplea un parser y evaluador completo. Sin embargo, incluso en este caso, el parseo se realiza de forma perezosa, solo sobre los subárboles del JSON que son estrictamente necesarios para la evaluación, evitando el parseo completo de documentos grandes.

Además de esta arquitectura de dos niveles, gnata incorpora una capa de streaming (StreamEvaluator) optimizada para la carga de trabajo específica de Reco: evaluar N expresiones compiladas contra cada evento, donde los eventos son estructuralmente similares. Esta capa fusiona todas las rutas de campo de todas las expresiones en un único escaneo, asegurando que los bytes del evento se lean solo una vez, independientemente del número de expresiones. Utiliza un caché inmutable de planes de evaluación, computados una vez por esquema de evento, lo que permite lecturas lock-free (carga atómica única) después del calentamiento. La gestión de memoria del caché es acotada, con una capacidad configurable y una política de desalojo de las entradas más antiguas (LRU o similar). La corrección se asegura mediante la portabilidad de la suite de pruebas oficial de JSONata-JS (1,778 casos) y 2,107 pruebas de integración adicionales.

Flujo de Evaluación de Expresiones en gnata

1 Expresión JSONata Regla de política o transformación
2 gnata.Compile() Análisis y clasificación de la expresión
3 Cache de Planes Almacena planes de evaluación por esquema de evento
4 Evento JSON (bytes) Datos de entrada en formato JSON
5 StreamEvaluator Fusiona rutas de campo, escanea bytes una vez
6 Fast Path Evaluación directa sobre bytes para expresiones simples
7 Full Path Parseo parcial y evaluación AST para expresiones complejas
8 Resultado Booleano o JSON transformado

Capa	Tecnología	Justificación
compute	Go	Lenguaje de implementación principal para la pipeline de datos y gnata, elegido por su rendimiento, concurrencia y facilidad de integración en el ecosistema existente. vs Node.js (JSONata-JS), V8 embedding
orchestration	Kubernetes	Plataforma para orquestar los pods de jsonata-js, cuya alta demanda de réplicas llevó a problemas de asignación de IP y costos elevados.
data-processing	JSONata	Lenguaje de consulta y transformación JSON utilizado para definir reglas de detección y políticas. vs jq
data-processing	GJSON	Librería Go para parseo y manipulación de JSON, sirvió de inspiración para el 'fast path' de gnata al operar directamente sobre bytes.

Trade-offs

Ganancias

▲▲ Costo computacional
▲▲ Latencia de evaluación
▲ Complejidad de la infraestructura
▲ Rendimiento del motor de reglas

Costes

△ Costo de tokens de IA para desarrollo
△ Tiempo de ingeniería para revisión y QA de código generado por IA

expr, _ := gnata.Compile(`user.role = "admin" and user.loginCount > 100`)
json := []byte(`{
"user": {
"email": "admin@example.com",
"role": "admin",
"loginCount": 247
}
}`)
result, _ := expr.EvalBytes(ctx, json)
fmt.Println(result) // true

Ejemplo de uso de gnata para compilar y evaluar una expresión JSONata directamente sobre un slice de bytes JSON, demostrando la API de bajo nivel.

Fundamentos Teóricos

El problema de la evaluación eficiente de expresiones y consultas sobre datos semiestructurados como JSON tiene raíces profundas en la investigación de bases de datos y lenguajes de consulta. Conceptos como la optimización de consultas, la evaluación perezosa (lazy evaluation) y la compilación just-in-time (JIT) son fundamentales. La idea de un 'fast path' para consultas simples y un 'full path' para las complejas se asemeja a las optimizaciones en motores de bases de datos, donde los planificadores de consultas eligen entre diferentes estrategias de ejecución basadas en la complejidad de la consulta y los índices disponibles.

La eliminación de la sobrecarga de RPC y la serialización/deserialización es un tema recurrente en sistemas distribuidos de alto rendimiento, abordado por trabajos como 'The End-to-End Argument in System Design' de Saltzer, Reed y Clark (1984), que sugiere que ciertas funciones son mejor implementadas en los extremos de un sistema de comunicación. En este caso, mover la lógica de evaluación al mismo proceso que el procesamiento de eventos elimina la necesidad de una capa de comunicación intermedia. La optimización de la lectura de bytes crudos sin parseo completo para el 'fast path' se relaciona con técnicas de 'zero-copy' y 'data-oriented programming', buscando minimizar el movimiento y la transformación de datos en memoria, un principio clave en sistemas de procesamiento de eventos de baja latencia.

Fuente original: https://www.reco.ai/blog/we-rewrote-jsonata-with-ai

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

turbolite: SQLite VFS para Almacenamiento de Objetos con Latencia Optimizada

Diseñar sistemas distribuidos requiere una comprensión profunda de las características del almacenamiento subyacente (ej. latencia de S3 vs. disco local).

Databases Performance Profiling

27 mar 2026

OpenTelemetry Profiles: Estandarización del Profiling Continuo con eBPF

La estandarización de señales de observabilidad es crítica para la interoperabilidad y la reducción de la complejidad en sistemas distribuidos.

eBPF Performance Profiling Linux Scheduler

27 mar 2026

ATLAS V3: Optimización de Modelos LLM Pequeños para Rendimiento de Código con Refinamiento Iterativo Local

La inteligencia de la infraestructura puede compensar el tamaño del modelo: un LLM más pequeño con un pipeline de inferencia inteligente puede superar a modelos más grandes sin dicha orquestación.

LLM Inference Performance Profiling Distributed Tracing Kubernetes