L'AI in medicina d'urgenza batte gli umani con il 67% di diagnosi corrette: lo studio di Harvard

Studio di Harvard confronta modelli IA di OpenAI (o1 e 4o) con medici in pronto soccorso su 76 pazienti reali, valutando diagnosi sulla base di cartelle cliniche elettroniche
Nella fase di triage iniziale, il modello o1 raggiunge il 67% di diagnosi corrette, superando i medici specializzati in medicina interna (55% e 50%)
Lo studio sottolinea però importanti limitazioni: l'IA non è pronta per decisioni autonome di vita o morte, è stata testata solo su dati testuali e manca un quadro formale di responsabilità

Un nuovo studio pubblicato sulla rivista Science ha messo a confronto le capacità diagnostiche di medici in carne ed ossa con quelle di alcuni modelli di AI in medicina d’urgenza, nell’ambito di scenari reali di pronto soccorso. La ricerca, condotta da un team di Harvard Medical School e del Beth Israel Deaconess Medical Center, ha analizzato le performance dei modelli o1 e 4o di OpenAI rispetto a quelle di medici specializzati in medicina interna. I risultati hanno sollevato un dibattito importante sul ruolo che l’IA potrebbe ricoprire in ambito clinico.

Come è stato condotto lo studio

Il team di ricerca ha progettato una serie di esperimenti per valutare le prestazioni dei modelli di linguaggio in diversi contesti medici. Al centro dell’analisi ci sono stati 76 pazienti arrivati al pronto soccorso del Beth Israel, per i quali due medici di medicina interna avevano formulato delle diagnosi.

Le stesse diagnosi sono state poi confrontate con quelle generate dai modelli di OpenAI, il tutto valutato da altri due medici che non sapevano distinguere le risposte umane da quelle prodotte dall’IA. Un dettaglio fondamentale: i modelli hanno ricevuto esattamente le stesse informazioni presenti nelle cartelle cliniche elettroniche, senza alcuna pre-elaborazione dei dati.

I numeri del confronto

I risultati più significativi riguardano la fase di triage iniziale, ovvero il momento in cui le informazioni disponibili sul paziente sono ancora limitate e la necessità di una diagnosi rapida è massima. In questa fase, il modello o1 ha fornito una diagnosi esatta o molto vicina a quella corretta nel 67% dei casi.

I due medici umani si sono fermati rispettivamente al 55% e al 50%. Arjun Manrai, responsabile di un laboratorio di IA alla Harvard Medical School e tra gli autori principali dello studio, ha sottolineato come il modello abbia superato sia i benchmark precedenti sia le prestazioni dei medici coinvolti nell’analisi.

Le limitazioni dell’AI in medicina d’urgenza (che lo studio non nasconde)

Gli autori sono stati chiari nel precisare che lo studio non sostiene che l’IA sia pronta a prendere decisioni autonome di vita o di morte in un pronto soccorso. Il documento sottolinea piuttosto la necessità di avviare studi prospettici per valutare queste tecnologie in contesti clinici reali.

Tra i limiti riconosciuti c’è anche il fatto che i modelli sono stati testati esclusivamente su dati testuali, mentre le loro capacità su input non testuali, come immagini mediche o segnali audio, risultano ancora inferiori. Adam Rodman, medico del Beth Israel e coautore dello studio, ha evidenziato l’assenza di un quadro formale di responsabilità per le diagnosi generate dall’IA, ricordando che i pazienti continuano a voler essere guidati da esseri umani nelle decisioni più delicate.

Le critiche degli esperti del settore

Non sono mancate voci critiche. Kristen Panthagani, medico d’urgenza, ha definito alcuni titoli emersi dalla notizia come eccessivamente enfatizzati, sottolineando un punto metodologico rilevante: il confronto è avvenuto con medici di medicina interna, non con specialisti del pronto soccorso.

Panthagani ha fatto notare che l’obiettivo principale di un medico d’emergenza non è formulare una diagnosi definitiva, ma identificare le condizioni potenzialmente letali nel minor tempo possibile. Un confronto più significativo, secondo lei, richiederebbe di misurare le performance dell’IA contro quelle dei professionisti che effettivamente operano nella specialità valutata.

Il futuro del medico e le sfide etiche

Il vero nodo del futuro non sarà la sostituzione del medico, ma la creazione di un modello ibrido che potremmo definire medico centauro. L’intelligenza artificiale potrebbe diventare il copilota perfetto, uno strumento capace di filtrare il rumore di fondo dei dati ospedalieri per suggerire possibilità che l’occhio umano, appesantito dalla stanchezza di un turno di dodici ore, potrebbe scartare. Resta però il tema della fiducia: se un medico decidesse di ignorare un suggerimento dell’IA e il paziente peggiorasse, chi ne risponderebbe davanti alla legge? Allo stesso modo, seguire ciecamente un algoritmo che soffre di allucinazioni digitali potrebbe portare a interventi chirurgici non necessari. La tecnologia o1 di OpenAI, grazie alla sua capacità di mostrare i passaggi logici del ragionamento, sta cercando di ridurre questa opacità, rendendo il processo finalmente verificabile dall’uomo.

Verso una nuova era della diagnostica digitale

In attesa che l’Europa e gli Stati Uniti definiscano norme precise per l’uso clinico degli algoritmi, la sperimentazione prosegue a ritmo serrato. Per rendere la AI in medicina d’urgenza uno standard globale, serviranno database ancora più vasti e, soprattutto, una formazione medica che insegni ai futuri professionisti come interrogare queste macchine senza diventarne dipendenti. Il rischio è che la perdita di abilità diagnostiche manuali renda i medici incapaci di agire in assenza di tecnologia, un paradosso che la medicina moderna deve evitare a ogni costo. Lo studio di Science è un punto di partenza fondamentale, un segnale che ci dice che il tempo della pura curiosità è finito ed è iniziato quello della responsabilità tecnologica.

Fonte

L’AI in medicina d’urgenza batte gli umani con il 67% di diagnosi corrette: lo studio di Harvard

Come è stato condotto lo studio

I numeri del confronto

Le limitazioni dell’AI in medicina d’urgenza (che lo studio non nasconde)

Le critiche degli esperti del settore

Il futuro del medico e le sfide etiche

Verso una nuova era della diagnostica digitale

Getty Images porta le sue foto su ChatGPT: accordo pluriennale con OpenAI

Cos’è Swaptopus, la joint venture tra Octopus Energy e CATL per il battery swap sui camion europei

Google Pixel Audio Memory: la funzione che ascolta tutto il giorno

Tata Electronics hackerata: a rischio più di 200.000 documenti riservati Apple e Tesla

Polymarket sotto esame: avrebbe usato video falsi per truffare gli utenti