3 de abril de 2026 3 min lectura

Ingeniería de Harness para Agentes de Codificación: Controles Feedforward y Feedback en Sistemas de Desarrollo Asisti...

Lecciones clave

→ Diseñar sistemas de control para agentes de IA con una combinación explícita de guías (feedforward) y sensores (feedback) para gestionar la no determinismo.
→ Distinguir entre controles computacionales (rápidos, deterministas) e inferenciales (semánticos, no deterministas) y aplicarlos estratégicamente según el costo y el valor.
→ Integrar los controles de calidad lo más temprano posible en el ciclo de desarrollo ('shift left') para reducir el costo de los defectos y mejorar la eficiencia del agente.
→ Considerar la 'harnessability' del codebase al tomar decisiones de arquitectura y tecnología, favoreciendo lenguajes tipados y límites de módulo claros.
→ Utilizar 'Fitness Functions' como base para los harnesses de aptitud arquitectónica, asegurando que las características no funcionales se mantengan a lo largo del tiempo.
→ Reconocer que los harnesses no eliminan la necesidad de supervisión humana, sino que la dirigen a donde el juicio humano es más crítico.
→ Evaluar la cobertura y calidad del harness de manera similar a cómo se evalúa la cobertura de código y las pruebas de mutación para las pruebas tradicionales.

La integración de agentes de codificación basados en Large Language Models (LLMs) en el ciclo de desarrollo de software presenta un desafío fundamental: la naturaleza no determinista y la falta de contexto inherente a los LLMs socavan la confianza ingenieril en el código generado. Este problema se agrava por la necesidad de escalar la productividad sin comprometer la calidad del sistema. La solución propuesta es la 'ingeniería de harness', un marco que externaliza y sistematiza la experiencia humana a través de controles explícitos.

Históricamente, la automatización en el desarrollo de software ha evolucionado desde compiladores y linters hasta sistemas de integración continua. Sin embargo, la generación de código semánticamente complejo por IA introduce una nueva capa de incertidumbre. La ingeniería de harness busca mitigar esta incertidumbre aplicando principios de cibernética y control de sistemas, donde guías (feedforward) anticipan y dirigen el comportamiento del agente, y sensores (feedback) observan y permiten la autocorrección. Este enfoque es crucial para transformar los agentes de codificación de herramientas experimentales a componentes confiables en pipelines de entrega continua.

Arquitectura del Sistema

Un harness para agentes de codificación se compone de dos tipos principales de controles: guías (feedforward) y sensores (feedback). Las guías son mecanismos que anticipan y dirigen el comportamiento del agente antes de que actúe, aumentando la probabilidad de un resultado correcto inicial. Los sensores son mecanismos que observan el resultado de la acción del agente y facilitan la autocorrección, idealmente produciendo señales optimizadas para el consumo del LLM (ej., mensajes de linter personalizados con instrucciones de corrección).

Estos controles pueden ser de dos tipos de ejecución: computacionales o inferenciales. Los controles computacionales son deterministas y rápidos, ejecutándose en CPU, e incluyen herramientas como tests unitarios, linters, type checkers y análisis estructural. Proporcionan resultados fiables y son adecuados para ejecución frecuente. Los controles inferenciales, por otro lado, son más lentos, costosos y no deterministas, ejecutándose típicamente en GPU o NPU. Incluyen análisis semántico, revisión de código por IA ('LLM as judge') y permiten una guía más rica y un juicio semántico adicional. La combinación de ambos tipos de controles, distribuidos estratégicamente a lo largo del ciclo de vida del desarrollo (desde pre-commit hasta monitoreo continuo post-integración), forma un bucle de dirección que mejora iterativamente el harness y reduce la supervisión humana.

El sistema se categoriza en harnesses de mantenibilidad (ej., detección de código duplicado, complejidad ciclomática), harnesses de aptitud arquitectónica (ej., funciones de aptitud para requisitos de rendimiento, estándares de observabilidad) y harnesses de comportamiento (ej., especificaciones funcionales, suites de pruebas generadas por IA). La 'harnessability' de un codebase depende de sus propiedades intrínsecas, como el uso de lenguajes fuertemente tipados o límites de módulo bien definidos, lo que influye en la facilidad de construir estos controles.

Bucle de Dirección del Agente de Codificación

1 Humano Define/Mejora el Harness (Guías y Sensores)
2 Harness (Feedforward) Guía al Agente antes de la acción (ej. prompts, reglas)
3 Agente de Codificación Genera/Modifica código
4 Harness (Feedback) Evalúa el código generado (ej. tests, linters, LLM as judge)
5 Agente de Codificación Autocorrige basado en feedback (si es posible)
6 Humano Revisa el resultado final y refina el Harness

Capa	Tecnología	Justificación
compute	CPU-based tools	Ejecución de controles computacionales deterministas y rápidos como linters, type checkers, tests unitarios y análisis estructural. Esencial para feedback 'shift left'.
compute	GPU/NPU-based systems	Ejecución de controles inferenciales que requieren alta capacidad de procesamiento para análisis semántico, 'LLM as judge' y revisión de código por IA. Permite juicio contextual.
data-processing	Custom Linters	Sensores de feedback computacionales que aplican reglas de estilo y estructura. Pueden ser optimizados para LLM, incluyendo instrucciones de autocorrección. vs Generic linters sin personalización para agentes
data-processing	Structural Tests (e.g., ArchUnit)	Sensores de feedback computacionales para verificar límites de módulos y reglas arquitectónicas, previniendo el 'architectural drift'.
orchestration	Pre-commit Hooks / CI/CD Pipelines	Plataformas para integrar y ejecutar controles computacionales y, en algunos casos, inferenciales, en diferentes etapas del ciclo de desarrollo ('shift left').
data-processing	Mutation Testing	Sensor de feedback computacional avanzado para evaluar la calidad de las pruebas generadas por el agente, inyectando fallos para ver si las pruebas los detectan.

Fundamentos Teóricos

El concepto de 'harness' y su distinción entre controles feedforward y feedback tiene profundas raíces en la teoría de control y la cibernética, popularizada por Norbert Wiener en su obra 'Cybernetics: Or Control and Communication in the Animal and the Machine' (1948). Wiener sentó las bases para entender cómo los sistemas, tanto biológicos como mecánicos, se regulan a sí mismos a través de la comunicación y el control. Los sistemas de control feedforward buscan anticipar perturbaciones y ajustar la entrada para mantener el estado deseado, mientras que los sistemas de feedback miden la salida y ajustan la entrada para corregir desviaciones.

En el contexto de la ingeniería de software, los principios de 'shift left' en la calidad, donde los defectos se detectan y corrigen lo antes posible en el ciclo de desarrollo, se alinean con la optimización de los bucles de feedback. Conceptos como 'Fitness Functions' de Neal Ford y Rebecca Parsons (2017) en 'Building Evolutionary Architectures' proporcionan un marco para definir y verificar continuamente las características arquitectónicas de un sistema, lo que se traduce directamente en los 'harnesses de aptitud arquitectónica' mencionados. La aplicación de estos principios al dominio de los agentes de codificación extiende la teoría de control a un nuevo paradigma de desarrollo de software asistido por IA, donde la 'regulación' del agente es clave para su fiabilidad y utilidad.

Fuente original: https://martinfowler.com/articles/harness-engineering.html

Publicado originalmente: 2 de abril de 2026

compartir: X / Twitter LinkedIn WhatsApp

¿Te ha gustado este análisis? Recibe los 5 mejores de la semana →

Suscribirme al digest

KernelEvolve: Optimización Autónoma de Kernels para Aceleradores Heterogéneos en Escala Hyperscaler

La optimización de bajo nivel es un cuello de botella crítico en sistemas de IA a escala, especialmente con hardware heterogéneo y modelos en evolución.

LLM Inference GPU Architecture CPU Architecture Performance Profiling

3 abr 2026

Optimización de la Entrega de Video en Vivo a Escala: Transición a VBR en Netflix

La optimización de la eficiencia a nivel de componente (ej. codificación VBR) puede introducir desafíos de estabilidad a nivel de sistema distribuido si no se reevalúan las suposiciones de diseño.

Performance Profiling

3 abr 2026

Re-evaluando la Arquitectura de Cache CDN para Tráfico de IA

Los patrones de acceso de carga de trabajo son dinámicos; las arquitecturas de sistemas deben evolucionar para adaptarse a nuevos comportamientos (ej. IA vs. humano).

Databases Performance Profiling