Ricerca

La prima sequenza completa e senza interruzioni di un genoma umano rivela regioni nascoste

Adv

Parti del genoma umano ora disponibili per lo studio per la prima volta sono importanti per comprendere le malattie genetiche, la diversità umana e l’evoluzione

La prima sequenza veramente completa di un genoma umano, che copre ciascun cromosoma da un capo all’altro senza lacune e con una precisione senza precedenti, è ora accessibile tramite l’ UCSC Genome Browser ed è descritta in sei articoli pubblicati il ??31 marzo su Science .

Adv

Da quando la prima bozza di lavoro di una sequenza del genoma umano è stata assemblata presso l’UC Santa Cruz nel 2000, la ricerca genomica ha portato a enormi progressi nella nostra comprensione della biologia e delle malattie umane. Tuttavia, le regioni cruciali che rappresentano circa l’8% del genoma umano sono rimaste nascoste agli scienziati per oltre 20 anni a causa dei limiti delle tecnologie di sequenziamento del DNA.

Karen Miga, assistente professore di ingegneria biomolecolare presso la UC Santa Cruz, e Adam Phillippy presso il National Human Genome Research Institute (NHGRI) hanno organizzato un team internazionale di scienziati, il Consortium Telomere-to-Telomere (T2T), per riempire i pezzi mancanti . I loro sforzi ora sono stati ripagati.

Il nuovo genoma di riferimento, chiamato T2T-CHM13, aggiunge quasi 200 milioni di paia di basi di nuove sequenze di DNA, inclusi 99 geni che potrebbero codificare per proteine ??e quasi 2.000 geni candidati che necessitano di ulteriori studi. Corregge anche migliaia di errori strutturali nella sequenza di riferimento corrente.

Le lacune ora colmate dalla nuova sequenza includono l’intero braccio corto di cinque cromosomi umani e coprono alcune delle regioni più complesse del genoma. Questi includono sequenze di DNA altamente ripetitive che si trovano dentro e intorno a importanti strutture cromosomiche come i telomeri alle estremità dei cromosomi e i centromeri che coordinano la separazione dei cromosomi replicati durante la divisione cellulare. La nuova sequenza rivela anche duplicazioni segmentali precedentemente non rilevate, lunghi tratti di DNA che sono duplicati nel genoma e sono noti per svolgere ruoli importanti nell’evoluzione e nella malattia.

“Queste parti del genoma umano che non siamo stati in grado di studiare per oltre 20 anni sono importanti per la nostra comprensione di come funziona il genoma, le malattie genetiche e la diversità e l’evoluzione umana”, ha affermato Miga.

Molte delle regioni appena rivelate hanno importanti funzioni nel genoma anche se non includono geni attivi.

Ci è voluto quasi il doppio del tempo per completare l’ultimo 8% del genoma umano che per sequenziare il primo 92%. Le nuove tecnologie di laboratorio e computazionali hanno finalmente consentito ai ricercatori genomici di superare ostacoli come sequenze di DNA altamente ripetitive e di colmare le lacune rimanenti.
CREDITO: NHGRI

“C’è un profondo vantaggio nel vedere l’intero genoma come un sistema completo. Ci mette nella posizione di svelare come funziona quel sistema”, ha affermato David Haussler, direttore dell’UC Santa Cruz Genomics Institute. “Abbiamo ottenuto un’enorme comprensione della biologia umana e delle malattie dall’avere circa il 90 percento del genoma umano, ma c’erano molti aspetti importanti che erano nascosti, fuori dalla vista della scienza, perché non avevamo la tecnologia per leggere quelle parti del genoma. Ora possiamo stare in cima alla montagna e vedere tutto il paesaggio sottostante e avere un quadro completo del nostro patrimonio genetico umano”.

La sequenza del genoma T2T, che rappresenta il genoma CHM13 finito più il cromosoma T2T Y recentemente terminato (CHM13 include un cromosoma X ma non Y), è ora un nuovo genoma di riferimento nell’UCSC Genome Browser. La sequenza T2T è completamente annotata nel browser, fornendo agli scienziati un modo efficiente per accedere e visualizzare una vasta gamma di informazioni associate ai geni e ad altri elementi del genoma.

“Volevamo divulgare le informazioni in un modo che fosse accessibile e familiare ai ricercatori in modo che possano iniziare a costruirci sopra e utilizzare tutti gli strumenti e le risorse fornite dal browser”, ha spiegato Miga.

Il nuovo genoma di riferimento T2T integrerà il genoma di riferimento umano standard, noto come Genome Reference Consortium build 38 (GRCh38), che ha avuto origine nel progetto Human Genome Project, finanziato con fondi pubblici, ed è stato continuamente aggiornato dalla prima bozza nel 2000.

“Stiamo aggiungendo un secondo genoma completo, e poi ce ne saranno altri”, ha spiegato Haussler. “La fase successiva è pensare che il riferimento per il genoma dell’umanità non sia una singola sequenza genomica. Questa è una transizione profonda, il presagio di una nuova era in cui alla fine cattureremo la diversità umana in modo imparziale”.

Il Consorzio T2T si è ora unito al Consorzio di riferimento del pangenoma umano, che mira a creare un nuovo “riferimento del pangenoma umano” basato sulle sequenze complete del genoma di 350 individui.

“La pangenomica consiste nel catturare la diversità della popolazione umana e si tratta anche di garantire di aver catturato correttamente l’intero genoma”, ha affermato Benedict Paten, professore associato di ingegneria biomolecolare presso l’UCSC, coautore degli articoli T2T e leader di lo sforzo pangenomico. “Senza avere una mappa di queste regioni del genoma difficili da sequenziare su più individui, ci perdiamo gran parte della variazione presente nella nostra popolazione. T2T ci consente di esaminare centinaia di genomi da telomero a telomero. Sarà fantastico!”

Il genoma di riferimento standard (GRCh38) non rappresenta un individuo ma è stato assemblato da più donatori. Unendoli in una sequenza lineare ha creato strutture artificiali nella sequenza. Il progetto Human Pangenome consentirà di confrontare i genomi appena sequenziati con più genomi completi che rappresentano una gamma di antenati umani.

Un risultato importante della nuova sequenza T2T sta consentendo valutazioni più accurate delle varianti genetiche. Quando i genomi umani vengono sequenziati per studi clinici per comprendere il ruolo delle varianti genetiche nella malattia o per studiare la diversità genetica all’interno e tra le popolazioni umane, vengono quasi sempre analizzati allineando i risultati del sequenziamento con il genoma di riferimento per il confronto. Il team delle varianti T2T ha documentato importanti miglioramenti nell’identificazione e nell’interpretazione delle varianti genetiche utilizzando la nuova sequenza T2T rispetto al genoma di riferimento umano standard.

Karen Miga, assistente professore di ingegneria biomolecolare presso l’UC Santa Cruz, ha co-fondato il consorzio Telomere-to-Telomere (T2T) per perseguire un assemblaggio completo e senza interruzioni di una sequenza del genoma umano.
CREDITO
Carolyn Lagattuta/UCSC

“Il nuovo genoma umano è incredibilmente accurato a livello di base, consentendoci di contrassegnare centinaia di migliaia di varianti che erano state interpretate erroneamente mappandole sul riferimento standard. Molte di queste nuove varianti sono in geni noti per contribuire alla malattia. Ora possiamo individuarli perché abbiamo un genoma di riferimento più completo e accurato”, ha affermato Miga.

La ricerca di Miga si è concentrata sul DNA satellite, i lunghi tratti di sequenze di DNA ripetitive che si trovano principalmente all’interno e intorno a telomeri e centromeri. I centromeri separano ciascun cromosoma in un braccio corto e un braccio lungo e tengono insieme i cromosomi duplicati prima della divisione cellulare.

“I centromeri svolgono un ruolo fondamentale nel modo in cui i cromosomi si segregano correttamente durante la divisione cellulare e sappiamo da tempo che sono mal regolati in tutti i tipi di malattie umane. Ma non siamo mai stati in grado di studiarli a livello di sequenza “, ha detto Miga. “Di gran lunga la porzione più grande delle nuove sequenze aggiunte al riferimento sono i DNA dei satelliti centromeri. Per la prima volta, possiamo studiare ‘base per base’ le sequenze che definiscono il centromero e possiamo iniziare a capire come funziona”.

Le tecnologie di sequenziamento del DNA a “lettura lunga”, come il sequenziamento dei nanopori sperimentato all’Università di Santa Cruz , erano strumenti essenziali per il consorzio T2T. Due set di dati di sequenziamento a lettura lunga – letture ad alta fedeltà (dati HiFi dai sistemi PacBio) e letture estremamente lunghe che raggiungono regolarmente lunghezze superiori a 100.000 coppie di basi (dati ultra lunghi da dispositivi Oxford Nanopore) – hanno consentito ai ricercatori T2T di abbracciare regioni ripetitive e sviluppare strategie per garantire che l’assemblaggio fosse altamente accurato. Miten Jain e altri ricercatori dell’UCSC Genomics Institute hanno contribuito a stabilire il protocollo di lettura ultra lungo .

L’UC Santa Cruz ha una lunga storia di leadership nella genomica, a partire da un incontro seminale nel 1985 per discutere il sequenziamento del genoma umano organizzato all’UCSC dall’allora cancelliere Robert Sinsheimer. Haussler è stato invitato a partecipare al progetto pubblico sul genoma umano nel 1999 e il suo team ha svolto un ruolo cruciale nel suo completamento. A quel tempo, James Kent, ora ricercatore presso il Genomics Institute e direttore del progetto UCSC Genome Browser, era uno studente laureato della UCSC. Ha scritto il codice che ha assemblato la prima bozza di lavoro del genoma umano dai dati ottenuti dall’International Human Genome Sequencing Consortium e l’UCSC ha pubblicato la bozza online per l’accesso a tutto il mondo. Kent ha quindi creato l’UCSC Genome Browser, ancora la piattaforma più utilizzata per accedere al genoma umano.

L’UC Santa Cruz Genomics Institute ha continuato a essere all’avanguardia nella ricerca sulla genomica e svolge un ruolo di primo piano negli sforzi di T2T e pangenomica.

“Il lavoro di T2T riflette gli sforzi sostenuti e dedicati di molte persone all’UC Santa Cruz e altrove. Karen Miga ha lavorato duramente per ottenere sequenze di centromeri reali negli assiemi del genoma umano per un decennio, e questo è finalmente arrivato a buon fine! disse Kent. “Sono molto entusiasta di vedere questo lavoro combinato con gli sforzi per ottenere sequenze da telomeri a telomeri da altri antenati umani. Ci stiamo muovendo rapidamente verso una rappresentazione veramente completa del genoma umano”.

Miga è co-autore corrispondente del principale articolo di Science , “The complete sequence of a human genome”, insieme ad Adam Phillippy presso NHGRI ed Evan Eichler presso l’Università di Washington. È anche co-autrice degli articoli su “Complete genomic and epigenetic maps of human centromeres” e “Epigenetic patterns in a complete human genome” e coautrice degli articoli su “Segmental duplications and their variazione in a complete human genoma”, “Un genoma di riferimento completo migliora l’analisi della variazione genetica umana” e “Dal telomero al telomero: lo stato trascrizionale ed epigenetico degli elementi ripetuti umani”.

Altri ricercatori dell’UC Santa Cruz Genomics Institute che sono coautori degli articoli includono Benedict Paten, Mark Diekhans, Erik Garrison (ora presso l’Università del Tennessee Health Science Center), Marina Haukness, Miten Jain e Kishwar Shafin. Questo lavoro è stato sostenuto dal National Institutes of Health.

Categorie:Ricerca

Con tag:,,