Il modello di intelligenza artificiale ha ottenuto buoni risultati nel quiz di diagnostica medica, ma ha commesso errori nello spiegare le risposte

I ricercatori del National Institutes of Health (NIH) hanno scoperto che un modello di intelligenza artificiale (IA) ha risolto le domande di quiz medici, progettate per testare la capacità dei professionisti sanitari di diagnosticare i pazienti in base a immagini cliniche e un breve riassunto di testo, con elevata accuratezza. Tuttavia, i valutatori medici hanno scoperto che il modello di IA ha commesso errori nel descrivere le immagini e spiegare come il suo processo decisionale ha portato alla risposta corretta. I risultati, che hanno fatto luce sul potenziale dell’IA in ambito clinico, sono stati pubblicati in npj Digital Medicine . Lo studio è stato condotto da ricercatori della National Library of Medicine (NLM) del NIH e della Weill Cornell Medicine, New York City.

“L’integrazione dell’intelligenza artificiale nell’assistenza sanitaria è molto promettente come strumento per aiutare i professionisti medici a diagnosticare i pazienti più rapidamente, consentendo loro di iniziare il trattamento prima”, ha affermato il direttore ad interim della NLM, Stephen Sherry, Ph.D. “Tuttavia, come dimostra questo studio, l’intelligenza artificiale non è ancora abbastanza avanzata da sostituire l’esperienza umana, che è fondamentale per una diagnosi accurata”.

Il modello AI e i medici umani hanno risposto alle domande dell’Image Challenge del New England Journal of Medicine (NEJM). La sfida è un quiz online che fornisce immagini cliniche reali e una breve descrizione testuale che include dettagli sui sintomi e la presentazione del paziente, quindi chiede agli utenti di scegliere la diagnosi corretta tra le risposte a scelta multipla.

I ricercatori hanno incaricato il modello AI di rispondere a 207 domande di sfida sulle immagini e di fornire una motivazione scritta per giustificare ogni risposta. Il prompt specificava che la motivazione avrebbe dovuto includere una descrizione dell’immagine, un riepilogo delle conoscenze mediche pertinenti e fornire un ragionamento passo dopo passo su come il modello ha scelto la risposta.

Sono stati reclutati nove medici di diverse istituzioni, ognuno con una diversa specializzazione medica, e hanno risposto alle domande assegnate prima in un contesto “a libro chiuso” (senza fare riferimento a materiali esterni come risorse online) e poi in un contesto “a libro aperto” (utilizzando risorse esterne). I ricercatori hanno quindi fornito ai medici la risposta corretta, insieme alla risposta del modello di IA e alla relativa motivazione. Infine, ai medici è stato chiesto di valutare la capacità del modello di IA di descrivere l’immagine, riassumere le conoscenze mediche rilevanti e fornire il suo ragionamento passo dopo passo.

I ricercatori hanno scoperto che il modello AI e i medici hanno ottenuto punteggi elevati nella selezione della diagnosi corretta. È interessante notare che il modello AI ha selezionato la diagnosi corretta più spesso dei medici in contesti a libro chiuso, mentre i medici con strumenti a libro aperto hanno ottenuto risultati migliori del modello AI, soprattutto quando hanno risposto alle domande classificate come più difficili.

È importante notare che, in base alle valutazioni dei medici, il modello AI ha spesso commesso errori nel descrivere l’immagine medica e nello spiegare il ragionamento alla base della diagnosi, anche nei casi in cui ha fatto la scelta finale corretta. In un esempio, al modello AI è stata fornita una foto del braccio di un paziente con due lesioni. Un medico avrebbe facilmente riconosciuto che entrambe le lesioni erano causate dalla stessa condizione. Tuttavia, poiché le lesioni erano presentate da angolazioni diverse, causando l’illusione di colori e forme diversi, il modello AI non è riuscito a riconoscere che entrambe le lesioni potevano essere correlate alla stessa diagnosi.

I ricercatori sostengono che questi risultati rafforzano l’importanza di valutare ulteriormente la tecnologia di intelligenza artificiale multimodale prima di introdurla in ambito clinico.

” Questa tecnologia ha il potenziale per aiutare i medici ad aumentare le loro capacità con approfondimenti basati sui dati che possono portare a un migliore processo decisionale clinico”, ha affermato il ricercatore senior NLM e autore corrispondente dello studio, Zhiyong Lu, Ph.D. “Comprendere i rischi e i limiti di questa tecnologia è essenziale per sfruttarne il potenziale in medicina”.

Lo studio ha utilizzato un modello di intelligenza artificiale noto come GPT-4V (Generative Pre-trained Transformer 4 with Vision), che è un “modello di intelligenza artificiale multimodale” in grado di elaborare combinazioni di più tipi di dati, tra cui testo e immagini. I ricercatori sottolineano che, sebbene si tratti di uno studio di piccole dimensioni, getta luce sul potenziale dell’intelligenza artificiale multimodale per aiutare i medici nel processo decisionale in ambito medico. Sono necessarie ulteriori ricerche per comprendere come tali modelli si confrontino con la capacità dei medici di diagnosticare i pazienti.

Lo studio è stato condotto in collaborazione con il National Eye Institute e il NIH Clinical Center dell’NIH, l’Università di Pittsburgh, l’UT Southwestern Medical Center di Dallas, la New York University Grossman School of Medicine di New York City, la Harvard Medical School e il Massachusetts General Hospital di Boston, la Case Western Reserve University School of Medicine di Cleveland, l’Università della California di San Diego a La Jolla e l’Università dell’Arkansas a Little Rock.