Come funziona Microsoft ASSERT per testare progetti AI

Microsoft lancia ASSERT, framework open source che converte descrizioni testuali in test automatici per verificare il comportamento di agenti AI specifici per prodotto o servizio
Il sistema genera scenari, esegue test, assegna punteggi e registra il percorso dell'agente per individuare dove si verificano errori o violazioni delle regole
Può essere usato in fase di sviluppo, dopo il rilascio e in modalità di monitoraggio continuo degli agenti AI in produzione

Microsoft ha presentato ASSERT, un framework open source pensato per chi sviluppa prodotti e servizi basati sull’intelligenza artificiale e ha bisogno di verificare che il proprio sistema si comporti esattamente come previsto. Il nome è un acronimo: Adaptive Spec-driven Scoring for Evaluation and Regression Testing. Ma come funziona Microsoft ASSERT? In breve, permette di scrivere in linguaggio naturale quello che un agente AI dovrebbe o non dovrebbe fare, e ottenere in automatico una batteria di test strutturati e misurabili.

Come funziona Microsoft ASSERT nei progetti AI

Il punto di partenza è una descrizione ad alto livello: obiettivi, politiche di utilizzo, comportamenti attesi. ASSERT prende quelle istruzioni in testo libero, le trasforma in un insieme strutturato di comportamenti accettabili e inaccettabili, genera scenari problematici e casi di test, li esegue sul sistema target e assegna un punteggio ai risultati. Non si limita a dire se un test è passato o fallito: registra anche il percorso seguito dall’agente AI, comprese le azioni intermedie e le chiamate agli strumenti, così gli sviluppatori possono individuare con precisione dove si verificano i problemi.

È possibile fornire al framework anche contesto di sistema, strumenti disponibili e vincoli specifici, per calibrare le valutazioni sul caso d’uso reale. Un esempio concreto: uno sviluppatore può specificare che un agente AI per la ricerca documentale non deve inviare email a persone esterne all’azienda, deve limitare l’accesso alle informazioni riservate ai dirigenti di livello C e deve produrre riepiloghi concisi tenendo conto del contesto precedente. ASSERT usa quelle regole per generare test che verificano continuamente il rispetto di quelle condizioni, anche dopo il rilascio.

Sarah Bird, chief product officer di Responsible AI in Microsoft, ha chiarito la logica alla base dello strumento: senza una comprensione precisa del comportamento del sistema, è impossibile sapere se soddisfa gli standard dell’organizzazione. E le valutazioni generali, per quanto utili, non bastano quando il contesto applicativo introduce politiche e vincoli specifici che un modello generico non conosce.

Perché le valutazioni generali non bastano più

Il problema che ASSERT cerca di risolvere è reale e cresce con la diffusione degli agenti AI nei prodotti commerciali. Strumenti come Stanford HELM, AILuminate di MLCommons o i benchmark di METR misurano le capacità generali dei modelli in condizioni standardizzate. Ma un agente AI integrato in un gestionale aziendale, in un assistente clienti o in una piattaforma di analisi documentale deve rispettare regole molto più granulari, che dipendono dal prodotto, dal settore e spesso da obblighi normativi specifici.

ASSERT si posiziona quindi come livello aggiuntivo di valutazione, complementare ai benchmark esistenti. Può essere usato nelle tre fasi principali del ciclo di vita di un sistema: durante lo sviluppo, dopo il rilascio in produzione e in modalità di monitoraggio continuo. Quest’ultimo punto è particolarmente rilevante in un contesto in cui i modelli vengono aggiornati di frequente e un comportamento corretto oggi non è necessariamente garantito dopo il prossimo aggiornamento.

Come ha mostrato anche il dibattito recente sui costi degli agenti AI e sulla difficoltà di giustificarne l’adozione su larga scala, la maturità operativa di questi sistemi dipende non solo dalla loro capacità bruta, ma dalla possibilità di verificarne il comportamento in modo ripetibile e affidabile. ASSERT è una risposta diretta a quella maturità: non più solo potenza, ma controllo.

Il rilascio come progetto open source suggerisce che Microsoft punti sulla collaborazione con la comunità degli sviluppatori per allargare i casi d’uso e migliorare il framework nel tempo. La domanda più interessante per i mesi a venire è se strumenti di questo tipo diventeranno uno standard de facto nei processi di sviluppo AI, oppure resteranno un’opzione per chi ha già una cultura interna di testing strutturato. Con la pressione crescente verso sistemi AI affidabili e documentabili, la risposta probabilmente arriverà presto.

The Clipboard

The Clipboard è una pubblicazione tech italiana indipendente fondata da Enrico Andreoli e Niccolò Proietti Savina, due blogger che vivono il settore tech da oltre 15 anni. Copriamo intelligenza artificiale, hardware, economia della tecnologia, privacy digitale e cultura internet con un approccio editoriale che privilegia l’analisi e la spiegazione piuttosto che la notizia fine a sé stessa.

Come funziona Microsoft ASSERT per testare il comportamento AI con testo semplice

Come funziona Microsoft ASSERT nei progetti AI

Perché le valutazioni generali non bastano più

ASUS ROG Strix Aiolos: specifiche e prezzo del nuovo case per SSD M.2

Zero-day su WordPress: come un’intelligenza artificiale ha creato un exploit RCE in 10 ore spendendo solo 25$

HONOR Pad X9 Max: il nuovo tablet da 13 pollici che unisce multimedialità e produttività leggera

Anche Google alza i prezzi: Pixel 11 costerà 100 dollari in più

Il J-space di Claude: Anthropic svela come ragiona l’AI