Funcional
Verifica que se cumplen los casos de uso.
Apoyo de IA
Generación de casos a partir de la spec y priorización por riesgo.
Práctica · 06
La IA no reemplaza al Quality Engineer: le devuelve su rol original. Con asistencia, su trabajo deja de ser ejecutar pruebas y pasa a ser diseñar estrategias, detectar huecos en las specs y validar el comportamiento de los agentes.
Estrategia
L1
Rápidas, deterministas, próximas al dominio. Cubren reglas.
L2
Módulos reales comunicados; base de datos, cola, adaptadores.
L3
Verifican APIs y eventos con consumidores y productores.
L4
Escenarios completos. Pocas, estables, críticas.
L5
LLM-as-judge con rúbrica sobre specs y salidas de agentes.
Tipos de prueba
Verifica que se cumplen los casos de uso.
Apoyo de IA
Generación de casos a partir de la spec y priorización por riesgo.
Protege lo que antes funcionaba.
Apoyo de IA
Detección de cambios semánticos sutiles entre versiones.
Valida la colaboración entre módulos reales.
Apoyo de IA
Propuesta de escenarios cross-servicio basados en dependencias.
Evita drift entre productor y consumidor.
Apoyo de IA
Diff semántico de contratos y sugerencia de versión compatible.
Mide latencia y throughput bajo carga.
Apoyo de IA
Diseño de perfiles de carga realistas desde métricas de producción.
Previene y detecta vectores de ataque.
Apoyo de IA
SAST asistido, fuzzing dirigido y análisis de nuevos CVEs.
Descubre lo que nadie previó.
Apoyo de IA
Generación de variantes creativas y adversarias para provocar fallos.
Valida comportamiento de agentes y workflows.
Apoyo de IA
Rúbrica, dataset dorado, red-teaming y regresión semántica.
IA para QA
Un QA experimentado sabe que las specs nunca están completas: faltan casos límite, estados implícitos, comportamientos asumidos. La IA acelera esa detección: dado el contrato y los criterios, sugiere casos que no están cubiertos, formula preguntas ambiguas y propone invariantes.
Lo importante no es que la IA invente pruebas — es que force a la spec a ser más explícita. Cada ambigüedad detectada se corrige en la spec, no en el test.
import { evaluate } from 'nm/eval';
export default evaluate({
spec: 'spec/orders/create-order.spec.md',
dataset: 'eval/data/orders-create.jsonl',
judges: [
{ kind: 'schema', rule: 'output.orderId is uuid' },
{ kind: 'property', rule: 'total === sum(items.price * qty)' },
{ kind: 'llm', rubric: 'rubric/orders-create.rubric.md' },
],
budget: { maxCostUsd: 1.5, maxLatencyMs: 4000 },
});
Agentes bajo prueba
Un agente no se valida como una función pura: su salida varía, su contexto cambia y su coste debe estar acotado. Necesitas un dataset dorado, una rúbrica y pruebas de estrés que incluyan prompts adversarios, inputs malformados y escenarios de rechazo.
Además, cada cambio de modelo, prompt o herramienta dispara una regresión semántica: comparar la calidad frente al estado anterior. La regresión no se detecta con asserts, se detecta con eval.
Rol del QA
Escribir casos manuales, mantener regresión frágil, reportar bugs.
Diseñar estrategia, validar specs, instrumentar eval continua.
Red-team de agentes, auditoría de rúbricas, gobierno de calidad.