4 de marzo de 2026 4 min lectura

pg_jitter: JIT de Baja Latencia para PostgreSQL

Lecciones clave

→ Evaluar el costo de compilación JIT: No todo JIT es igual; la latencia de compilación puede anular los beneficios de ejecución, especialmente en cargas de trabajo de baja latencia.
→ Considerar backends JIT especializados: Diferentes backends pueden sobresalir en distintos tipos de cargas de trabajo (ej. sljit para general, AsmJIT para filas anchas).
→ La flexibilidad en tiempo de ejecución es clave: Permitir el cambio de configuración (ej. backends JIT) sin reinicios mejora la operabilidad y la capacidad de adaptación.
→ Integrar la gestión de recursos: Asegurar que los recursos generados dinámicamente (código JIT) se gestionen y liberen correctamente dentro del ciclo de vida del sistema anfitrión.
→ Optimización por niveles: Aplicar diferentes estrategias de optimización (ej. Tier 1 vs. Tier 2) según la naturaleza y el costo de las operaciones.
→ No subestimar el impacto de la caché: Incluso con JIT rápido, la presión de la caché del procesador y la memoria pueden introducir latencia.
→ Validar la compatibilidad de versiones: Diseñar la compatibilidad con múltiples versiones de la plataforma subyacente (PostgreSQL 14-18) mediante guardas condicionales.

El problema fundamental que pg_jitter aborda es el cuello de botella de rendimiento en la ejecución de consultas de bases de datos relacionales, específicamente en la interpretación de expresiones y la conversión de tipos de datos (deformación de tuplas) en PostgreSQL. Históricamente, los sistemas de bases de datos han dependido de intérpretes para la ejecución de expresiones, lo que introduce una sobrecarga significativa debido a la naturaleza genérica y la falta de optimización específica del contexto. La introducción de la compilación Just-In-Time (JIT) en PostgreSQL 11 fue un paso para mitigar esto, permitiendo la generación de código nativo optimizado en tiempo de ejecución.

Sin embargo, la implementación JIT por defecto basada en LLVM, aunque potente en optimización, sufre de tiempos de compilación elevados (decenas a cientos de milisegundos). Esta latencia de compilación anula los beneficios de la ejecución optimizada para la mayoría de las consultas OLTP, donde el tiempo de ejecución es a menudo menor que el tiempo de compilación. pg_jitter resuelve este dilema al ofrecer backends JIT alternativos que logran tiempos de compilación de microsegundos, haciendo que la optimización JIT sea viable y rentable para un espectro mucho más amplio de cargas de trabajo, desde OLAP hasta OLTP.

La relevancia actual de esta solución radica en la creciente demanda de bases de datos de alto rendimiento y baja latencia. A medida que las aplicaciones se vuelven más interactivas y los volúmenes de datos aumentan, la capacidad de ejecutar consultas de manera eficiente, incluso las más pequeñas, es crítica. pg_jitter democratiza el JIT, extendiendo sus beneficios a escenarios donde antes era prohibitivo, y permitiendo a los arquitectos de sistemas ajustar el equilibrio entre el tiempo de compilación y el tiempo de ejecución de manera más granular.

Arquitectura del Sistema

pg_jitter se integra con PostgreSQL a través de la interfaz JitProviderCallbacks, un mecanismo de extensión que permite a proveedores externos registrarse como compiladores JIT. Cuando PostgreSQL determina que una consulta debe ser compilada JIT, invoca el método compile_expr() del proveedor configurado. Este método es el corazón de la lógica de generación de código de pg_jitter.

Internamente, compile_expr() itera sobre el array ExprState->steps[], que representa los opcodes de evaluación de expresiones de PostgreSQL. Para aproximadamente 30 opcodes de "hot-path" (operaciones aritméticas, comparaciones, acceso a variables, deformación de tuplas, agregación, lógica booleana, saltos), pg_jitter emite código máquina nativo directamente utilizando el backend JIT seleccionado (sljit, AsmJIT o MIR). Los opcodes restantes se delegan a una función de fallback (pg_jitter_fallback_step()) que invoca las funciones C ExecEval* correspondientes de PostgreSQL. Una vez compilada, la función se instala con un "validation wrapper" que maneja la invalidación debido a cambios de esquema (ej. ALTER COLUMN TYPE).

La arquitectura de pg_jitter también incorpora una optimización de funciones de dos niveles: el Tier 1 maneja operaciones de paso por valor (ej. int, float, bool) compilándolas como llamadas nativas directas con verificación de desbordamiento en línea, eliminando la sobrecarga de FunctionCallInfo. El Tier 2 se ocupa de operaciones de paso por referencia (ej. numeric, text) a través de wrappers C DirectFunctionCall, que opcionalmente pueden ser optimizados con LLVM o c2mir en tiempo de compilación. El "meta provider" (jit_provider = 'pg_jitter') actúa como un dispatcher que permite el cambio de backend en tiempo de ejecución sin necesidad de reiniciar el servidor, cargando las librerías compartidas de los backends de forma perezosa y cacheándolas. La gestión de memoria para el código JIT compilado se integra con el sistema ResourceOwner de PostgreSQL, asegurando que el código se libere (sljit_free_code(), JitRuntime::release(), MIR_gen_finish()) cuando se libera el ResourceOwner de la consulta.

Flujo de Compilación JIT con pg_jitter

1 PostgreSQL Decide compilar JIT una consulta basada en `jit_above_cost`.
2 JitProviderCallbacks Invoca `compile_expr()` del proveedor JIT configurado (pg_jitter).
3 pg_jitter Recorre `ExprState->steps[]` (opcodes de PostgreSQL).
4 Backend JIT (sljit/AsmJIT/MIR) Emite código máquina nativo para opcodes de 'hot-path'.
5 pg_jitter_fallback_step() Delega opcodes no manejados a funciones C `ExecEval*`.
6 Función Compilada Se instala con un 'validation wrapper' para invalidación de esquema.
7 ResourceOwner Registra la función compilada para liberación de memoria.
8 PostgreSQL Ejecuta la consulta usando el código JIT compilado.

Capa	Tecnología	Justificación
compute	PostgreSQL JITProviderCallbacks	Interfaz de extensión para proveedores JIT externos.
compute	sljit	Backend JIT de bajo nivel, C, rápido, para cargas de trabajo generales. vs LLVM, AsmJIT, MIR
compute	AsmJIT	Backend JIT de bajo nivel, C++, optimizado para filas anchas y deformación de tuplas. vs LLVM, sljit, MIR
compute	MIR	Backend JIT de nivel medio, C, portable, para casos de uso específicos. vs LLVM, sljit, AsmJIT
compute	LLVM	Backend JIT por defecto de PostgreSQL, usado para comparación y optimización opcional de Tier 2. vs sljit, AsmJIT, MIR

Trade-offs

Ganancias

▲▲ Latencia de compilación JIT
▲ Rendimiento de ejecución de consultas
▲ Rango de aplicabilidad de JIT

Costes

△ Aumento de presión de memoria y cache de procesador en frío

Fundamentos Teóricos

El concepto de compilación Just-In-Time (JIT) tiene profundas raíces en la ciencia de la computación, emergiendo como una técnica para combinar la flexibilidad de los lenguajes interpretados con la eficiencia del código compilado. Los fundamentos teóricos se remontan a los trabajos iniciales sobre máquinas virtuales y compiladores dinámicos, como los sistemas Lisp y Smalltalk en las décadas de 1960 y 1970, que ya exploraban la generación de código en tiempo de ejecución. El paper seminal "Self-modifying code in a Smalltalk-80 system" de Krasner (1983) es un ejemplo temprano de cómo la generación dinámica de código puede mejorar el rendimiento.

La optimización de consultas en bases de datos, que es el dominio principal de pg_jitter, ha sido un área activa de investigación desde los inicios de los sistemas de gestión de bases de datos. El trabajo de Selinger et al. (1979) sobre el optimizador de System R, "Access Path Selection in a Relational Database Management System", sentó las bases para la optimización basada en costos, que es fundamental para decidir cuándo y cómo aplicar técnicas como JIT. La idea de generar código específico para una consulta en lugar de interpretarla se alinea con los principios de especialización y optimización de programas, un campo explorado por trabajos como "Partial Evaluation and Program Transformation" de Jones et al. (1993). pg_jitter, al optimizar la "deformación de tuplas" y la evaluación de expresiones, se basa en estos principios para reducir la sobrecarga de la abstracción y la generalidad inherentes a los sistemas de bases de datos.

Fuente original: https://github.com/vladich/pg_jitter

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

Comparativas

PostgreSQL vs CockroachDB →

Emergent: Arquitectura de Sistemas Event-Driven con Tres Primitivas Restringidas

Las restricciones bien elegidas pueden simplificar radicalmente la arquitectura y mejorar la predictibilidad de sistemas distribuidos.

Rust

12 mar 2026

Meta MTIA: Estrategia de Silicio Personalizado para Inferencias de IA a Escala Hyperscaler

La especialización de hardware es clave para la eficiencia a escala: para cargas de trabajo masivas y repetitivas, el silicio personalizado puede ofrecer ventajas significativas sobre el hardware de propósito general en términos de rendimiento/vatio y TCO.

CPU Architecture GPU Architecture LLM Inference Performance Profiling

12 mar 2026

Parametricidad vs. Comptime: Implicaciones en el Diseño de Lenguajes Genéricos

Priorizar la parametricidad en el diseño de APIs genéricas para mejorar la comprensibilidad y la mantenibilidad del código a escala.

Performance Profiling