3 de mayo de 2026 3 min lectura

C3: La Transición a Tamaños Firmados y sus Implicaciones en el Diseño de Lenguajes de Sistemas

Lecciones clave

→ La elección de tipos de datos primitivos, como `signed` vs. `unsigned` para tamaños, tiene un impacto fundamental en la seguridad y la complejidad del código en lenguajes de sistemas.
→ Priorizar la previsibilidad del comportamiento aritmético sobre el rango máximo de valores puede reducir significativamente la superficie de bugs.
→ Las conversiones implícitas, aunque convenientes, pueden ocultar problemas de tipo y llevar a comportamientos inesperados, especialmente en expresiones mixtas.
→ El diseño de lenguajes debe considerar cómo los operadores aritméticos (ej. `%`, `/`) interactúan con diferentes tipos de enteros para evitar "trampas" (footguns).
→ La experiencia de lenguajes como Java y Go, que optaron por tipos con signo para tamaños, ofrece una validación empírica de esta decisión de diseño.
→ La resistencia al cambio en patrones de codificación arraigados (como el uso de `unsigned` para tamaños) puede ser alta, incluso frente a evidencia de mejora en la corrección y simplicidad.
→ En sistemas de 64 bits, el rango de `signed long long` es generalmente suficiente, haciendo que el argumento del "doble de rango" para `unsigned` sea menos relevante que los problemas de seguridad que introduce.

La elección del tipo de dato para representar tamaños y longitudes en lenguajes de programación de sistemas, como size_t en C, tiene profundas implicaciones en la seguridad, la legibilidad y la propensión a errores del código. Históricamente, muchos lenguajes han optado por tipos sin signo (unsigned) bajo la premisa de que los tamaños no pueden ser negativos y para maximizar el rango de valores positivos. Sin embargo, esta decisión introduce una serie de "trampas" (footguns) relacionadas con el desbordamiento (overflow), la promoción de tipos en expresiones mixtas y la dificultad de manejar operaciones aritméticas como el módulo, que se manifiestan en bugs sutiles y difíciles de depurar.

El problema fundamental radica en que la aritmética sin signo se comporta como aritmética modular por definición, lo que es útil para ciertos casos criptográficos o de hashing, pero contraproducente para la representación de cantidades físicas o lógicas como tamaños y offsets, donde un desbordamiento o un valor negativo inesperado debería ser una condición de error clara. La decisión de C3 de adoptar tipos con signo por defecto para tamaños es una reevaluación de este compromiso, priorizando la seguridad y la previsibilidad del comportamiento aritmético sobre la maximización del rango, alineándose con las decisiones de diseño de lenguajes como Java y Go.

Arquitectura del Sistema

El cambio en C3 implica la redefinición del tipo por defecto para tamaños y longitudes de usz (anteriormente usize) a sz (equivalente a ssize_t en POSIX). Esta modificación afecta directamente la API de las funciones que operan con colecciones, buffers y estructuras de datos que requieren indexación o cálculo de offsets. La arquitectura del compilador de C3 se adapta para eliminar las conversiones implícitas entre tipos con y sin signo, forzando la explicitud cuando tales conversiones son necesarias. Esto reduce la superficie de ataque para errores de promoción de tipos, donde una expresión signed + unsigned podría comportarse de manera inesperada.

La decisión también simplifica el manejo de operaciones como el operador módulo (%), que en C y C++ puede tener un comportamiento diferente para operandos negativos (produciendo un resto en lugar de un módulo matemático). Al trabajar predominantemente con tipos con signo, el manejo de offsets negativos en estructuras como ring buffers se vuelve más intuitivo y menos propenso a errores, ya que la aritmética de complemento a dos para enteros con signo maneja naturalmente los valores negativos hasta el límite de INT_MIN. La eliminación de conversiones implícitas y la preferencia por sz simplifican el razonamiento sobre el flujo de datos y el comportamiento aritmético en el código base, reduciendo la necesidad de patrones de codificación complejos para mitigar los problemas de unsigned.

Trade-offs

Ganancias

▲ Reducción de bugs relacionados con desbordamientos y comparaciones de tipos
▲ Simplificación de la aritmética de enteros, especialmente con el operador módulo
▲ Mayor claridad y previsibilidad en el comportamiento del código

Costes

△ Menor rango máximo de valores positivos para tamaños (en máquinas de 32 bits)
△ Necesidad de conversiones explícitas para casos donde se requiere aritmética modular o un rango extendido

/* Con signed (sz) */
idx = (offset + capacity) % capacity;

/* Con unsigned (usz) - incorrecto para offsets negativos */
idx = (offset + capacity) % capacity;

/* Con unsigned (usz) - correcto, pero más complejo */
idx = (offset % capacity + capacity) % capacity;

Ilustra la complejidad de manejar offsets negativos en un ring buffer con tipos sin signo versus la simplicidad con tipos con signo. El patrón `(offset + capacity) % capacity` es robusto con signed, pero problemático con unsigned.

Fundamentos Teóricos

La discusión sobre los tipos con y sin signo y sus implicaciones en la seguridad y corrección del software se remonta a los orígenes de los lenguajes de programación de sistemas. El estándar C original, y posteriormente C++, adoptó size_t como un tipo sin signo para la salida del operador sizeof, una decisión que, como se argumenta en el artículo, introdujo la aritmética sin signo en el uso común. Este problema se relaciona con la teoría de tipos y la seguridad de tipos, donde un sistema de tipos robusto busca prevenir clases enteras de errores en tiempo de compilación o ejecución.

La elección de Java de eliminar completamente los tipos sin signo, y la de Go de usar tipos con signo para tamaños, son ejemplos de cómo los principios de diseño de lenguajes pueden priorizar la seguridad y la simplicidad sobre la flexibilidad o el rango máximo. Conceptos como la aritmética modular (que subyace a la aritmética sin signo) son bien conocidos en criptografía y teoría de números, pero su aplicación indiscriminada a la representación de tamaños en la programación de sistemas ha demostrado ser una fuente de errores. La dificultad de razonar sobre el desbordamiento de enteros y las reglas de promoción de tipos en expresiones mixtas es un tema recurrente en la investigación de lenguajes de programación y la verificación formal de software, donde se busca garantizar la corrección de programas a través de propiedades matemáticas.

Fuente original: https://c3-lang.org/blog/unsigned-sizes-a-five-year-mistake/

Publicado originalmente: 2 de mayo de 2026

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

Control de Sistemas AI Autónomos: Fast Paths, Slow Paths y Feedback

Priorizar la disponibilidad y la latencia para la mayoría de las operaciones ('fast paths'), aceptando una consistencia 'eventual' en la gobernanza, compensada por mecanismos de retroalimentación.

Distributed Tracing Kubernetes Consensus

2 may 2026

Evolución de la Arquitectura de Enrutamiento en el Servido de Modelos ML a Escala: De Switchboard a Lightbulb en Netflix

Priorizar la separación de responsabilidades entre el plano de control y el plano de datos para optimizar la latencia y la fiabilidad en sistemas de alto rendimiento.

Distributed Tracing Kubernetes Performance Profiling

2 may 2026

Dynamic Workflows: Ejecución Durable Multi-Tenant en Cloudflare Workers

Priorizar el aislamiento de procesos ligero (ej. V8 Isolates) para arquitecturas multi-tenant con código de usuario, optimizando el costo y la latencia de arranque.

Consensus Replication Databases WAL