Il genoma è il manuale di istruzioni del corpo. Contiene l’informazione grezza – sotto forma di DNA – che determina tutto da un animale che cammina su quattro zampe o due, al rischio potenziale di una persona per la malattia. Ma questo manuale è scritto nel linguaggio della biologia, quindi dare un senso a tutto ciò che codifica dimostra d’essere impegnativo. Ora, i ricercatori della Columbia University hanno sviluppato uno strumento computazionale che fa luce sui segmenti più difficili da tradurre del genoma. Con questo strumento in mano, gli scienziati possono avvicinarsi alla comprensione del modo in cui il DNA guida tutto, dalla crescita e dallo sviluppo all’invecchiamento e alle malattie.
I ricercatori hanno recentemente pubblicato le loro scoperte negli Act of National Academy of Sciences .
“I genomi degli organismi anche semplici come la mosca della frutta contengono 120 milioni di lettere di DNA, molte delle quali non sono ancora state decodificate perché le indicazioni fornite sono troppo sottili per gli strumenti esistenti da raccogliere”, ha detto Richard Mann, PhD , investigatore principale del Mortimer B. Zuckerman Mind Brain Behaviour Institute della Columbia e autore senior del testo. “Ma il nostro nuovo algoritmo ci consente di esplorare queste milioni di linee di codice genetico e raccogliere anche i segnali più deboli, dando luogo a un quadro molto più completo di ciò che il DNA codifica.”
I genetisti hanno a lungo cercato modi per decifrare i misteri nascosti nel DNA. Uno di questi misteri ha coinvolto una classe di geni particolarmente pervasiva conosciuta come i geni Hox.
“I geni Hox sono i principali architetti del corpo, guidano alcuni dei primi e più critici aspetti della crescita e della differenziazione, come nel caso in cui in un embrione in via di sviluppo la testa e gli arti dovrebbero essere posizionati”, ha detto il dott. Mann, che è anche Professore di Biochimica e Biofisica molecolare presso la Columbia University Irving Medical Center. “I geni Hox fanno questo producendo proteine ??chiamate fattori di trascrizione, che si legano a sequenze di DNA per accendere o spegnere grandi gruppi di geni, come far girare migliaia di interruttori esattamente nel giusto ordine”.
Ma decenni di ricerca sui geni Hox hanno portato alla luce un paradosso: anche se ogni singolo gene Hox guidava una diversa caratteristica della crescita, i fattori di trascrizione Hox erano tutti strettamente vincolanti e visibilmente allo stesso insieme di sequenze di DNA facilmente identificabili.
Nel 2015, il Dr. Mann e il suo team hanno scoperto che i fattori di trascrizione Hox erano anche vincolanti in molte altre località, solo in modo più discreto nei cosiddetti “siti a bassa affinità”. Gli scienziati ritenevano che questi siti di legame a bassa affinità fossero la chiave per i fattori di trascrizione Hox in grado di guidare un aspetto dello sviluppo rispetto ad un altro. Rimase il problema di come decifrare questi siti dal genoma.
Per affrontare questa sfida, il Dr. Mann e il suo laboratorio hanno unito le loro forze con il laboratorio di Harmen Bussemaker, PhD, professore nel Dipartimento di Scienze Biologiche e Biologia dei Sistemi della Columbia e esperto nella costruzione di modelli computazionali dell’attività genetica.
Alcuni anni fa, i due laboratori hanno sviluppato un metodo di sequenziamento genetico chiamato SELEX-seq per caratterizzare sistematicamente tutti i siti di legame Hox. Ma il loro approccio aveva ancora dei limiti: richiedeva che lo stesso frammento di DNA fosse sequenziato più e più volte. Con ogni nuovo round, sono stati rivelati più pezzi del puzzle, ma le informazioni su questi siti di legame a bassa affinità sono rimaste nascoste.
“È stato come gestire più volte lo stesso paragrafo con Google traducendo più volte, ma alla fine solo il dieci percento delle parole viene tradotto accuratamente”, ha affermato il dott. Mann.
Per superare questa sfida, il Dr. Bussemaker e il suo team hanno sviluppato un nuovo sofisticato algoritmo informatico che è stato in grado di spiegare, per la prima volta, il comportamento di tutte le sequenze di DNA nell’esperimento SELEX-seq. Hanno chiamato questo algoritmo No Read Left Behind o NRLB.
“In termini semplici, NRLB ci consente di coprire l’intero spettro dei siti di legame, dall’affinità più elevata a quella più bassa, con un grado molto maggiore di sensibilità e accuratezza rispetto a qualsiasi metodo esistente, inclusi algoritmi di apprendimento approfondito all’avanguardia” disse il dottor Bussemaker, che era l’altro autore senior del testo. “Basandoci su questo riferimento, ora speriamo di sviluppare modelli biologici e computazionali più approfonditi per aiutare a rispondere alle domande più complicate sul genoma”.
“Ad esempio, malattie come la schizofrenia, il morbo di Parkinson e l’autismo sono state mappate su particolari regioni del DNA che non sembrano avere una chiara funzione”, ha detto il dott. Mann. “Con NRLB, gli scienziati potrebbero potenzialmente mettere insieme come i fattori di trascrizione si legano e attivare quelle regioni. Questo sarà fondamentale per trovare modi per manipolare quell’attività per ridurre un giorno il rischio di malattia.”