21 aprile 2026
Un modello mentale per testare funzionalità basate su LLM: evals, giudici e layering
Quando un’app frontend delega parti del comportamento a un LLM, i test tradizionali non bastano: alcune proprietà sono verificabili con regole, altre richiedono valutazioni qualitative. Vediamo un modello mentale pratico per progettare evals, usare un LLM come giudice e stratificare i test per ottenere una pipeline affidabile e automatizzata, con un ultimo passaggio di validazione umana.