Gli scienziati hanno creato un modello statistico che li aiuta a prevedere quando si verificheranno malattie come l’ipertensione, malattie cardiache e diabete di tipo 2.
Una miriade di fattori genetici possono influenzare l’insorgenza di malattie come l’ipertensione, malattie cardiache e diabete di tipo 2. Se dovessimo sapere come il DNA influenza il rischio di sviluppare tali malattie, potremmo passare da cure reattive a cure più preventive, non solo migliorando la qualità di vita dei pazienti ma anche risparmiando denaro nel sistema sanitario. Tuttavia, tracciare le connessioni tra il DNA e l’insorgenza della malattia richiede modelli statistici solidi che funzionino in modo affidabile su set di dati molto grandi di diverse centinaia di migliaia di pazienti.
Matthew Robinson, professore assistente presso l’Istituto di scienza e tecnologia (IST) Austria, insieme a un team internazionale di ricercatori ha ora sviluppato un nuovo modello matematico che migliora la qualità predittiva ottenuta da ampi set di dati genomici dei pazienti. Questo metodo potrebbe aiutare a sviluppare previsioni personalizzate sui rischi per la salute, simili a ciò che fa un medico quando discute la storia medica di una famiglia.
Campionamento da miliardi
Il DNA umano è costituito da diversi miliardi di paia di basi che codificano la nostra struttura e le nostre funzioni biologiche. Nel loro studio, gli scienziati hanno selezionato diverse centinaia di migliaia di marcatori genetici – brevi parti della sequenza del DNA – per le loro indagini. Utilizzando il loro modello statistico, hanno quindi collegato la composizione di questi marcatori all’insorgenza di ipertensione, malattie cardiache o diabete di tipo 2 nei pazienti nel database. I ricercatori erano particolarmente interessati all’età dei pazienti all’esordio della malattia. Con queste informazioni, possono quindi utilizzare il loro modello per prevedere le probabilità di quando potrebbe verificarsi una malattia.
Tuttavia, questo modello statistico non può costruire relazioni dirette tra alcuni geni e l’insorgenza della malattia, ma fornisce solo una migliore previsione delle probabilità di insorgenza della malattia. C’è anche un’importante differenza tra i modelli di scatola nera comunemente usati per gli studi sui big data e questo metodo di Robinson e dei suoi colleghi: i modelli di scatola nera producono previsioni, ma il loro funzionamento interno non può essere facilmente compreso dagli esseri umani a causa dei molti strati di astrazione usano. Al contrario, il modello di Robinson e dei suoi colleghi fornisce calcoli statistici tracciabili.
Essere in grado di comprendere il funzionamento interno di un modello matematico per produrre previsioni sulla salute e sull’insorgenza della malattia è una parte importante di un approccio etico all’uso di grandi set di dati sensibili dei pazienti. Con questo, il ricercatore può spiegare come sono state generate le previsioni.
Utilizzo dei dati del paziente
Sfruttare il pieno potenziale di tali metodi predittivi richiede sia modelli efficaci che la raccolta di grandi set di dati genomici che vengono forniti con le proprie preoccupazioni di sicurezza dei dati e privacy che sia i ricercatori che il sistema sanitario devono affrontare.
Quando si utilizzano i dati dei pazienti è necessario rispettare rigorose misure di sicurezza dei dati. Solo con il permesso dei rispettivi comitati etici, i ricercatori sono stati in grado di accedere ai dati anonimi dei pazienti dalle biobanche finanziate dallo stato – ampie raccolte di dati genetici dei pazienti – sia nel Regno Unito che in Estonia. Hanno utilizzato i dati del Regno Unito per costruire il loro modello e i dati dell’Estonia per testarne il potere predittivo. Quest’ultimo ha anche prodotto alcune prime valutazioni personalizzate del rischio di insorgenza della malattia. Questi verranno poi ritrasmessi ai pazienti attraverso il sistema sanitario estone, dando loro l’incentivo a prendere misure preventive.
Il nuovo modello statistico di Robinson e colleghi è solo un passo verso l’utilizzo del pieno potenziale di grandi set di dati genomici per l’assistenza sanitaria preventiva. Sia i modelli che l’infrastruttura dei dati delle biobanche, insieme a un sistema di protezione dei dati robusto e sicuro, sono necessari per mantenere le promesse della medicina predittiva personalizzata.