L’introduzione della diagnosi automatizzata nella pratica di routine non ha migliorato l’accuratezza della mammografia. Sembra essere associata a un aumento dei tassi di falsi positivi, con conseguente sovradiagnosi e richiesta di esami di approfondimento non necessari.
Essendo del medico la responsabilità della diagnosi, si tende a preferire un atteggiamento prudenziale che spesso coincide con la richiesta di esami aggiuntivi o con la diagnosi di falsi positivi.
Occorre chiedersi che cosa un modello di algoritmo sia in grado di fare e quanto possa essere utile nel setting di implementazione: un algoritmo in grado di pronunciarsi in modo corretto sui casi più semplici sarebbe molto utile in un ospedale generalista ma non così in una struttura specializzata, dove vale forse il contrario.
Però, se usati in modo corretto, questi strumenti possono portare a reali vantaggi anche in termini di maggiore accesso e democratizzazione dei servizi di qualità.
Quando si pensa all’uso dell’intelligenza artificiale (AI) in medicina spesso si associa il concetto di questa tecnologia a qualcosa di rivoluzionario, in completa rottura rispetto agli strumenti che i professionisti hanno avuto a disposizione fino ad oggi. Eppure, come si legge sul JAMA, questo non è del tutto vero.
Prendendo in esame, in particolare, il caso della diagnosi del tumore al seno, Joann G. Elmore della David Geffen school of medicine della California university, Los Angeles, e Christoph I. Lee della School of medicine della Washington university paragonano la rapida crescita che caratterizza l’AI oggi a quella degli strumenti di diagnosi automatizzata (computer aided detection) a cui si è assistito ormai un paio di decenni fa. Infatti, nonostante un’accoglienza non priva di entusiasmo, alla prova pratica questi strumenti possono rivelarsi meno efficaci del previsto, quando non addirittura inutili. Per questo, sottolineano gli autori dell’articolo, è cruciale imparare dagli errori fatti in passato.
La diagnosi automatizzata ha ricevuto l’autorizzazione dalla Food and drug administration statunitense come strumento aggiuntivo per la mammografia nel 1998. Nel giro di pochi anni, la quasi totalità delle strutture statunitensi si è dotata di questa tecnologia. Alla fine del primo decennio degli anni 2000, tuttavia, gli studi hanno dimostrato che la sua introduzione nella pratica di routine non ha migliorato l’accuratezza della mammografia. Gli strumenti di diagnosi automatizzata sono associati a un aumento dei tassi di falsi positivi, con conseguente sovradiagnosi e richiesta di esami di approfondimento non necessari.
Quando, nel 2018, si è deciso negli Stati Uniti di smettere di finanziare la diagnosi automatizzata, la sua adozione aveva ormai comportato più di 400 milioni di dollari all’anno in spese sanitarie non necessarie. Come possiamo impedire che la storia si ripeta?
L’obiettivo dovrebbe essere quello di riuscire a instaurare una forma di dialogo tra l’intelligenza artificiale e il medico.
Salvatore Rinzivillo, Isti-Cnr
Per prima cosa, dobbiamo ricordare che tra il medico e la macchina si instaurano delle relazioni complesse. Nel caso della diagnosi automatizzata, si è visto che i radiologi preferivano non rischiare e tendevano a richiedere test aggiuntivi o addirittura diagnosticare dei falsi positivi. Questo può dipendere anche da come sono disegnate le interfacce della macchina e da come questa presenta i risultati al medico. “Teniamo presente che la responsabilità della diagnosi, anche da un punto di vista legale, ce l’ha sempre il medico” riflette Salvatore Rinzivillo, ricercatore presso l’Istituto di scienza e tecnologie dell’informazione del Cnr. “Dobbiamo implementare questi sistemi pensandoli come dei collaboratori del professionista e non dei sostituti. E chi di noi si affiderebbe a un collaboratore senza conoscerlo bene né sapere come ragiona?”. Ecco perché è importante sviluppare interfacce che permettano al medico di capire perché la macchina suggerisce determinate diagnosi. “Per esempio, l’interfaccia di un algoritmo chiamato a pronunciarsi su una mammografia potrebbe evidenziare quali sono le zone dell’immagine che lo hanno spinto a propendere per una certa diagnosi”. In questo modo il medico non si affida totalmente alla macchina, ma riesce a capire che cosa essa sta osservando. “L’obiettivo dovrebbe essere quello di riuscire a instaurare una forma di dialogo tra l’intelligenza artificiale e il medico”.
In secondo luogo, le nuove tecnologie di intelligenza artificiale dovrebbero dimostrare di apportare dei vantaggi reali. Ad esempio, l’uso dell’AI nella mammografia dovrebbe corrispondere a una maggiore individuazione di tumori al seno anche in presenza di scarsi marcatori. E questo dovrebbe valere non solo sulla piccola scala degli esperimenti, ma anche in ampi contesti di screening del mondo reale.
Federico Cabitza, professore associato dell’Università degli studi di Milano Bicocca e ricercatore dell’Irccs Istituto ortopedico Galeazzi osserva: “Sarebbe importante valutare l’accuratezza del sistema non solo sui dati estratti dalla popolazione con cui si sia addestrato il modello, ma anche sui dati di altri pazienti che provengano da bacini diversi, anche geograficamente”. Cabitza spiega come non sia raro osservare un progressivo peggioramento delle prestazioni degli algoritmi quando si coinvolgono pazienti di ospedali diversi o addirittura di altri Paesi del mondo.
Ciò può dipendere da vari fattori, dovuti sia al modo in cui vengono raccolti i dati (dalla sensibilità dell’operatore al modello di macchinario) sia alle differenze tra le varie popolazioni oggetto degli studi. “In questo momento il machine learningè utilizzato con successo nella diagnosi della retinopatia diabetica. Eppure è stato dimostrato che alcuni di questi modelli, nel momento in cui escono dagli Stati Uniti per essere adottati in strutture ospedaliere dell’India subiscono un calo rilevante delle prestazioni, dovuto a diversi fattori tra cui la differente qualità delle foto da analizzare”.
Se si riesce a utilizzarli nel modo corretto, questi strumenti possono portare a reali vantaggi anche in termini di maggiore accesso e democratizzazione dei servizi di qualità.
Federico Cabitza, Università Milano Bicocca
C’è poi la questione della misura dell’utilità. “Si tratta di un parametro tecnico molto importante. Dobbiamo chiederci che cosa un modello sia in grado di fare e quanto ciò può essere utile nel singolo ospedale. Per esempio, un algoritmo in grado di pronunciarsi in modo corretto sui casi più semplici sarebbe molto utile in un ospedale generalista ma non così in una struttura specializzata, dove vale forse il contrario”. Infine, si dovrebbe considerare anche la sostenibilità economica: se il modello funziona e quindi si riesce a fornire più velocemente gli esiti di una risonanza magnetica è possibile anche smaltire più velocemente le liste di attesa e rendere l’offerta del servizio più sostenibile al crescere della domanda.
“Se si riesce a utilizzarli nel modo corretto, questi strumenti possono portare a reali vantaggi anche in termini di maggiore accesso e democratizzazione dei servizi di qualità, nel senso che i modelli di intelligenza artificiale possono aiutare i professionisti dei centri non specialistici a raggiungere le prestazioni che caratterizzano gli esperti sub specialisti che operano in centri terziari e specializzati”, conclude Cabitza.