Top Banner
Sequenziamento esomico: analisi dati e casi di studio Maria Valentini 18 Novembre 2015 1
33

Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

Jan 16, 2017

Download

Science

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

Sequenziamento esomico: analisi dati e casi di studio

Maria Valentini 18 Novembre 2015

1

Page 2: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

• Cosa e’ l’esoma, come si studia e perche’.

• Cosa e’ una variante, quante ce ne sono e il genoma di riferimento

• Next Generation Sequencing e analisi dei dati generati.

• Caso studio 1

• Caso studio 2

• Conclusioni

2

Introduzione

Page 3: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

3

Cosa e’ l’esoma

• Il genoma umano è costituito da 3 miliardi di nucleotidi o “lettere”. Solo una piccola percentuale – 1,5% - di queste lettere è effettivamente tradotta in proteine, le molecole funzionali negli esseri viventi.

• L’esoma è costituito da tutti gli esoni del genoma, che sono, appunto, le porzioni codificanti dei geni.

Page 4: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

4

Cosa e’ l’exome sequencing

Exome sequencing (o Whole-Exome Sequencing - WES) è il sequenziamento dell'intera regione codificante del genoma di un individuo.

Il termine esone deriva da “regione espressa” (o ‘exon’, EXpressed regiON), poiché sono queste le regioni che vengono tradotte, o espresse come proteine. L’esoma e’ la porzione di genoma che codifica le proteine.

Page 5: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

5

Perche’ l’exome sequencing

Ciò è di estremo interesse sia per la dignostica di routine che per la ricerca scientifica. Infatti, anche se la regione codificante rappresenta soltanto l'1% di tutto il genoma, si stima che fino all'85% di tutte le mutazioni patogene siano contenute in questa regione.

Identificando le varianti di un gene possiamo capire se la proteina e’ “mal funzionante” e fare delle ipotesi sui meccanismi biologici che provocano la malattia!

Page 6: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

Attraverso il sequenziamento esomico ottengo una lista di mutazioni geniche.

6

Cosa ottengo da un exome sequencing

mutazioni silenti: non c’è alterazione della proteina prodotta (si è determinata la formazione di un codone sinonimo)mutazioni di senso: la proteina prodotta dal gene è alterata nella sua sequenza amminoacidica.mutazioni non senso: si forma un codone di stop e la proteina prodotta è tronca rispetto al normale.

SVN

Single

Nuc

leotid

e Vari

ation

Short Indels

Page 7: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

7

Quando usarlo ?

}R

apidamente si sta passando ad un uso di

exome sequencing per tutti questi casi !

Page 8: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

8

Vi sono situazioni cliniche in cui la valutazione dell’intero esoma è praticamente l’unica strada percorribile! • Condizioni patologiche in cui è probabile un’elevata eterogeneità

genetica e variabilità fenotipica (numerosi geni candidati e/o sintomatologia riconducibile a una tra diverse condizioni);

• Quadro sintomatologico compatibile con la presenza di più condizioni genetiche distinte nello stesso paziente;

• Situazioni compatibili con la presenza di mutazioni de novo o comunque non ereditate attraverso la linea germinale parentale (assenza di altri familiari affetti, assenza di specifiche mutazioni patogeniche nei genitori, ecc);

Quando e’ inevitabile usarlo?

Page 9: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

Fino a pochi anni fa il test genetico per eccellenza consisteva nel sequenziamento di singolo gene (o di un ristretto gruppo di geni) tramite la metodica dell'elettroforesi capillare o sequenziamento Sanger.

9

L’avvento delle nuove tecnologie di sequenziamento (Next Generation Sequencing - NGS o High-Throughput sequencing) ha trasformato lo studio della genetica delle malattie umane portando ad un'epoca di produttività senza precedenti.

Grazie ai costi e ai tempi ridotti, tramite NGS è possibile analizzare un elevato numero di frammenti di DNA in parallelo fino ad ottenere la sequenza dell'intera regione codificante di un individuo o dell’intero genoma.

Metodi Next Generation Sequencing

Page 10: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

10

L’exome sequencing e’ un metodo NGS

Tutti i metodi NGS sono caratterizzati da una pipeline di questo tipo!

Grande potenza di calcolo e spazio disco necessaria !

Bio

logi

a Bioinform

atica

Illumina HiSEQ 2000

Page 11: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

11

Timeline del testing genetico

2011 FDA approves NGS for Clinical Diagnostic Application.

2007 HuRef Venter Diploid

Page 12: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

2015 Cao et al. : De-Novo assembly of a haplotype resolved human genome.

12

Il futuro

Page 13: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

• Quanto sono differenti due genomi umani? Più’ due persone sono imparentate piu’ i loro genomi sono simili.

• Si stima che per persone senza legami familiari , due persone prese a caso per strade ad esempio, i genomi differiscono di 1 ogni 1200 o 1500 basi di DNA.

• Quindi ci sono piu’ di tre milioni di differenze tra un genoma umano e un altro. D’altra parte e’ anche vero che siamo simili al 99,9%.

• Ma siamo uguali solo al 99% ai nostri parenti genetici piu’ vicini: gli scimpanze! :)

13

Variazione e Similitudine del genoma

Page 14: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

14

Variazione e Similitudine del genoma

• Se ogni genoma umano e’ diverso che cosa vuol dire sequenziare “IL genoma umano”?

• E che cosa vuol dire cercare varianti ? Varianti rispetto a cosa?

Page 15: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

• La sequenza completa del genoma umano, sia quella completata nel 2001 che le successive, e’ in effetti una sequenza “rappresentativa” ottenuta dal DNA di diversi individui.

• Ad esempio la versione 19 del genoma umano , GRCh37 the Genome Reference Consortium human genome (build 37), e’ derivata da 13 donatori anonimi di Buffalo, New York.

• Un avviso e’ stato messo sul giornale locale ed i primi 10 maschi e 10 femmine che hanno risposto all’annuncio sono stati invitati ad un incontro con il consigliere genetico del progetto ed a donare il loro DNA.

• Come risultato finale si ha che circa l’80% del genoma di riferimento viene da 8 persone ed in particolare circa il 66% proviene da un maschio designato come RP11.

15

Genoma di riferimento

Page 16: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

• In effetti quindi il genoma di riferimento e’ solo una referenza che ci serve per mappare le nostre sequenze.

• Non ci sono assunzioni medico o biologiche sulla sua sequenza ! Quindi anche trovando una variante rispetto al genoma di riferimento bisogna sempre validarla prima di dichiararla mutazione patogena!

16

Genoma di riferimento

Esistono molti database pubblici e metodi di predizione di mutazioni patogene da utilizzare per validare le varianti.

Page 17: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

17

Primary processing

Initial Quality Control (QC)

Mapping

Variant Calling

Secondary Analysis (Filtering )

Variant annotation

Filtering by effect

Filtering by MAF

Filtering by family segregation

Knowledge Based Prioritazition

Proximity to other known disease gene

Functional proximity

Network proximity

Other prioritisation methods

FASTQ file

BAM file

VCF file

Standard per annotare le varianti trovate !

Pipeline della analisi dati

Page 18: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

• VCF Variant Calling File

18

File VCF

Page 19: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

19

2. Per rimuovere varianti gia’ note si usano databases pubblici come: dbSNP, 1000 Genomes Project . Attenzione: una variante puo’ essere nota come causativa di una altra patologia ma non per quella che stiamo studiando!

1

2

3

1. Si rimuovono le mutazioni sinonime.

3. Si fanno ipotesi sul modello di ereditarieta’ della malattia e si cercano le varianti che sono in accordo con il modello. Attenzione: la mutazione potrebbe essere de-novo (vedi caso studio II)!

L’analisi dei dati: filtering

Page 20: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

20

Modello di ereditarieta’

Si cercano le varianti eterozigoti (aA) e in omozigosi (AA) nei malati (ma aa nei sani)

Si cercano le varianti in omozigosi (aa) nei malati ma in eterozigosi nei familiari sani.(AA,aA)

Questa analisi si svolge tramite scripts di analisi del file VCF scritti ad hoc, perche’ comunque coinvolge almeno qualche centinaio di varianti!!

Riguardo al punto 3 del filtering

Page 21: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

1. Pazienti con fenotipo di Osteopetrosi ma poi rivalutati a Pycnodysostosis

21

Due casi studio di exome sequencing

2. Un caso di una sindrome molto rara e non ancora geneticamente descritta al momento in cui abbiamo iniziato lo studio.

Page 22: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

22

Fenotipo: Intermediate Osteopetrosis recessive osteopetrosis with no recognized genotype

Caso Studio I

Autosomal Recessive Osteopetrosis (ARO) e’ una malattia genetica rara che affligge l'osso, il quale ha una densità maggiore del normale (e’ nota anche come malattia delle ossa di marmo).

Page 23: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

23

Caso Studio I

Abbiamo usato una lista di geni per prioritizzare le varianti passando da 165 a 3. Fondamentale il lavoro dei biologi e medici per ottenere questo risultato !!!

Abbiamo svolto lo studio di sequenziamento esomico nelle 2 sorelle affette e raggiunto per entrambi i campioni un coverage medio di 69x sulle 62 MB di target, raggiungendo un 94% di coverage.

Page 24: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

24

Family 1: e’ stata identificata la mutazione omozigote nell’ esone 3 del gene CTSK di un singolo nucleotide (g.2128C > T) causante la mutazione p.Arg46Trp; questa mutazione era presente nei genitori come eterozigote.

Usato per rivalutare altri 4 casi come Pycnodysostosis, patologia sempre molto rara ma a prognosi relativamente benigna. Il fenotipo dei pazienti non era tipico da Pycnodysostosis.

Page 25: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

• Attraverso lo studio e’ stata identificata una mutazione patogena omozigote nel gene CTSK che fino allo studio non si conosceva.

• Importante il fatto che due campioni fossero di due sorelle affette dalla stessa patologia!

• Sono stati quindi testati attraverso sequenziamento Sanger altri 25 pazienti diagnosticati come “recessive osteopetrosis” ed in 4 e’ stata trovata la mutazione nel gene CTSK.

• E’ stata raccomandata l’inclusione del gene CTSK nella lista di geni da controllare per una diagnosi di patologia di accresciuta densita’ ossea.

25

Caso Studio I : Conclusioni

Page 26: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

26

Caso Studio II

Progeria o no? Un paziente con una patologia recessiva molto rara.

Page 27: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

27

Fenotipo e’ un caso di sindrome progeroide. La ricerca di mutazioni nel gene LMNA non ha dato risultati!!

Genitori consanguinei : per questo motivo si sono cercate le varianti omozigoti nella paziente e eterozigoti nei genitori ipotizzando che la mutazione causale fosse ereditata da un antenato comune.

Sono quindi stati analizzati con il sequenziamento esomico i campioni del trio (cioe’ i 2 genitori e la paziente).

Caso Studio II

Page 28: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

• Nel 2013 viene pubblicato un articolo che descrive una sindrome con fenotipo simile in 4 pazienti! La stessa variante in POLD1 e’ presente nel nostro caso.

28

Geni su cui avevamo focalizzato l’attenzione!

Page 29: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

29

Anche se i genitori sono consanguinei la mutazione causale e’ di tipo de-novo! La avevamo scartata perche’ ci eravamo focalizzati su un modello di malattia autosomico recessivo.

Mutazione nel gene POLD1

Caso Studio II

Page 30: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

30

Caso Studio II

Meccanismo patogenico: la delezione nella sequenza del gene POLD1 e’ stata legata alla presenza di una sequenza di stop della DNA polimerasi che puo’ dare origine ad un’arresto della sintesi del DNA.

Page 31: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

• Attraverso lo studio di exome sequencing e’ stato trovato il quinto paziente di MDPL con la stessa mutazione de novo pSer605del nel gene POLD1.

• e’ stata data ulteriore prova genetica che questa e’ una mutazione che provoca la malattia;

• e’ stata ipotizzata una spiegazione del possibile meccanismo per cui insorge la malattia.

• bisogna sempre considerare l’eventualita’ di una mutazione de novo anche se in una malattia molto rara e con genitori consanguinei! Ricordarsi di svolgere di routine la ricerca di mutazioni de novo.

31

Caso Studio II : conclusioni

Page 32: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

• Il sequenziamento esomico funziona e permette di guadagnare molto tempo nello studio di patologie di vario tipo.

• I costi stanno velocemente diminuendo e il suo utilizzo diventa sempre maggiore anche in ambito clinico.

• Per uno studio di successo e’ necessario avere una sinergia di competenze (medico+biologo+bioinformatico) durante ogni fase dello studio.

• La mole di dati prodotti (come anche i campioni raccolti per lo studio) deve essere conservata e disponibile per studi futuri. Necessita’ di organizzare biobanche!

32

Conclusioni

Page 33: Sequenziamento Esomico. Maria Valentini (CRS4), Cagliari, 18 Novembre 2015

• Ringrazio i miei (ex) colleghi del gruppo di bioinformatica del CRS4 , Fred Reinier, Riccardo Berutti, Ilenia Zara.

• Ringrazio i colleghi del CNR -IRGB con cui abbiamo iniziato questo tipo di studi e con cui abbiamo fatto innumerevoli riunioni: Serena Sanna, Laura Crisponi, Carlo Sidore e molti altri…

• Ringrazio i biologi con cui abbiamo lavorato per la pazienza dimostrata con chi come me di biologia conosce ben poco. In particolare Alessandro Puddu, Manuela Oppo, Roberto Cusano.

33

Ringraziamenti