Saltar al contenido
Nm NoumorDevs

Práctica · 06

Ingeniería de calidad asistida por IA

La IA no reemplaza al Quality Engineer: le devuelve su rol original. Con asistencia, su trabajo deja de ser ejecutar pruebas y pasa a ser diseñar estrategias, detectar huecos en las specs y validar el comportamiento de los agentes.

Estrategia

Pirámide de pruebas revisada

L1

Unitarias

Rápidas, deterministas, próximas al dominio. Cubren reglas.

L2

Integración

Módulos reales comunicados; base de datos, cola, adaptadores.

L3

Contrato

Verifican APIs y eventos con consumidores y productores.

L4

E2E

Escenarios completos. Pocas, estables, críticas.

L5

Eval / Semántica

LLM-as-judge con rúbrica sobre specs y salidas de agentes.

Tipos de prueba

Catálogo práctico

Funcional

Verifica que se cumplen los casos de uso.

Apoyo de IA

Generación de casos a partir de la spec y priorización por riesgo.

Regresión

Protege lo que antes funcionaba.

Apoyo de IA

Detección de cambios semánticos sutiles entre versiones.

Integración

Valida la colaboración entre módulos reales.

Apoyo de IA

Propuesta de escenarios cross-servicio basados en dependencias.

Contrato

Evita drift entre productor y consumidor.

Apoyo de IA

Diff semántico de contratos y sugerencia de versión compatible.

Rendimiento

Mide latencia y throughput bajo carga.

Apoyo de IA

Diseño de perfiles de carga realistas desde métricas de producción.

Seguridad

Previene y detecta vectores de ataque.

Apoyo de IA

SAST asistido, fuzzing dirigido y análisis de nuevos CVEs.

Exploratoria

Descubre lo que nadie previó.

Apoyo de IA

Generación de variantes creativas y adversarias para provocar fallos.

Agentes

Valida comportamiento de agentes y workflows.

Apoyo de IA

Rúbrica, dataset dorado, red-teaming y regresión semántica.

IA para QA

Cómo la IA ayuda a detectar huecos en la spec

Un QA experimentado sabe que las specs nunca están completas: faltan casos límite, estados implícitos, comportamientos asumidos. La IA acelera esa detección: dado el contrato y los criterios, sugiere casos que no están cubiertos, formula preguntas ambiguas y propone invariantes.

Lo importante no es que la IA invente pruebas — es que force a la spec a ser más explícita. Cada ambigüedad detectada se corrige en la spec, no en el test.

eval/orders-create.eval.ts — LLM-as-judge sobre la spectypescript
import { evaluate } from 'nm/eval';

export default evaluate({
  spec: 'spec/orders/create-order.spec.md',
  dataset: 'eval/data/orders-create.jsonl',
  judges: [
    { kind: 'schema', rule: 'output.orderId is uuid' },
    { kind: 'property', rule: 'total === sum(items.price * qty)' },
    { kind: 'llm', rubric: 'rubric/orders-create.rubric.md' },
  ],
  budget: { maxCostUsd: 1.5, maxLatencyMs: 4000 },
});

Agentes bajo prueba

Red-teaming y regresión semántica

Un agente no se valida como una función pura: su salida varía, su contexto cambia y su coste debe estar acotado. Necesitas un dataset dorado, una rúbrica y pruebas de estrés que incluyan prompts adversarios, inputs malformados y escenarios de rechazo.

Además, cada cambio de modelo, prompt o herramienta dispara una regresión semántica: comparar la calidad frente al estado anterior. La regresión no se detecta con asserts, se detecta con eval.

Rol del QA

De ejecutor a diseñador de calidad

Antes

Escribir casos manuales, mantener regresión frágil, reportar bugs.

Ahora

Diseñar estrategia, validar specs, instrumentar eval continua.

Además

Red-team de agentes, auditoría de rúbricas, gobierno de calidad.