Bioinformatica Marin Vargas, Sergio Paul 2013
Bioinformatica
Marin Vargas, Sergio Paul
2013
� Wikipedia: La bioinformatica è una disciplina scientifica dedicata alla risoluzionedi problemi biologici a livello molecolare con metodi informatici.
� La bioinformatica è la disciplina scientifica che cerca di risolvere problemibiologici mediante l’elaborazione informatica dell’informazione provenientediretta o indirettamente da essere viventi.
� Tipi di informazione:� Sequenze genomiche (DNA genomico:
genomi, esomi o alcune regionigenomi, esomi o alcune regioniparticolari del genoma).
� Sequenze proteiche (cDNA cioè DNAretrotrascritto a partire da un mRNA).
� Strutture 3D di proteine (NMR,Cristallografia), biologia strutturale.
� Immagini (RX, TAC, MRI, US, ecc).� Concentrazioni di particelle nel
sangue.� Informazione di interazione tra
molecole (systems biology).� Informazione evoluzionistica.� Pulsazioni, respiri, battiti cardiaci,
ecc...
� La genomica è una branca della biologia molecolare che si occupa dello studiodel genoma degli organismi viventi. In particolare si occupa della struttura,contenuto, funzione ed evoluzione del genoma. È una scienza che si basasulla bioinformatica per l'elaborazione e la visualizzazione dell'enorme quantità didati che produce.
� Estrazione e/o cattura di DNA da essere viventi.� Sequenziamento del DNA con tecniche all’avanguardia come NGS
(Next Generation Sequencing).� Assemblaggio di genomi a partire da milioni di frammenti di DNA.� Ri-sequenziamento di genomi.
Allineamento di frammenti di DNA a un genoma di riferimento.� Allineamento di frammenti di DNA a un genoma di riferimento.� Annotazione di genomi.� Annotazione funzionale di geni all’interno di un genoma.� Analisi di espressione genica mediante sequenziamento dei
trascritti (RNA-Seq).� GWAS (Genome Wide Association Studies).� Analisi di varianti tra genomi (Variant calling o Chiamata delle
varianti).� …
Ottimizzazione del protocollo bioinformatico
per l’annotazione di geni codificanti proteine
in genomi complessi
Marin Vargas, Sergio Paul
2012
in genomi complessi
� Con l’avvento del sequenziamento NGS acosti sempre più contenuti, il numero digenomi sequenziati si sta incrementandoconsiderevolmente.
� Lo scopo di conoscere la sequenza� Lo scopo di conoscere la sequenzagenomica è principalmente indirizzato acapire la funzionalità dei geni.
� In passato l’annotazione di un genomaera molto dispendiosa.
� Oggi con le nuove tecnologie, è diventataalla portata di un singolo laboratorio.
� Rimane comunque un compito moltoimpegnativo.
� Annotare un genoma significa conoscere lalocalizzazione, la struttura e la funzionalità di tutti glielementi che compongono l’intero genoma:
• Geni codificanti proteine
• Geni non codificanti proteine
• Elementi regolatori
• Elementi ripetuti
• Pseudogeni
• Altri elementi
� L’annotazione dei geni codificanti proteine, viene suddivisa in:
� Annotazione funzionale, consiste nel caratterizzare ognisingolo gene, assegnando una funzione biologica a ogni proteinacodificata dal gene stesso.
� Annotazione genica o semplicemente annotazione, consistenel definire all’interno del genoma:
• La localizzazione di ciascun gene.
• La struttura di ciascun gene (esoni,
CDS, UTR).
• Gli eventuali trascritti alternativi.
AAAAAA
5’ 3’mRNA maturoCap Poly-A
CDSUTR UTR
5’ 3’
5’3’
ATG STOP!
DNA
Esone 1 Esone 2 Esone 3
Un gene codificante proteine è composto da diversi elementi:� Esone: regione che viene mantenuta dopo la maturazione.� Introne: regione che viene eliminata durante la maturazione.� mRNA: RNA maturo, composto da esoni.� CDS: regione codificante dell‘mRNA.� UTR: regione non tradotta dell’mRNA.
� Metodi basati sull’allineamento delleevidenze sperimentali.Metodi basati sulla predizione genica ab� Metodi basati sulla predizione genica ab
initio.
� Metodi basati sulla predizione genica ab
initio guidata da evidenze sperimentali.� Metodi basati sul confronto tra genomi.
5
� Si possono utilizzare diverse evidenze sperimentali, cheopportunamente elaborate e allineate al genomapermettono di identificare le regioni codificanti proteine:
• cDNA full-length: sequenze di RNA maturi (mRNA)retrotrascritti a cDNA, quindi completo di UTR e CDS.
• EST (Expressed Sequence Tags): brevi frammenti parziali, tra400-800 bp, di mRNA retrotrascritti a cDNA.400-800 bp, di mRNA retrotrascritti a cDNA.
• Proteine omologhe: sequenze aminoacidiche corrispondenti aproteine omologhe di organismi evolutivamente vicini.
• Tiling arrays: microarray con sonde equamente spaziate sututto il genoma, permettono l’identificazione di regioneespresse mediante l’ibridazione di campione marcati.
• MPSS: Massively Parallel Signature Sequencing, piattaformache analizza il livello di espressione e identifica una regione di17-20 bp degli mRNA tramite sequenziamento.
• RNA-seq: frammenti di cDNA di lunghezza tra 50-150 bp chederivano dal sequenziamento shotgun di un intero trascrittoma.
� Sono dei brevi frammenti di lunghezza tra 400-800 bp di cDNA ottenuto dalla retrotrascrizione di un frammento di RNA maturo.
� Dalla sequenza proteica delle proteine si può risalire alla sequenza nucleotidica e quindi alla zona codificante (CDS) del gene che l’ha codificata.
� Sono sequenze di lughezza tra 50-150 bp che derivano dal sequenziamento shotgun di un intero trascrittoma, cioè dalla retro-trascrizione di tutto l’RNA in cDNA di un particolare momento cellulare, poi spezzato e sequenziato con tecnologie NGS.
� Per identificare le regioni codificanti i predittori utilizzano algoritmi e modellimatematici specifici che utilizzando informazione intrinseca dell’organismoanalizzato cercano di identificare la localizzazione e la struttura dei geni.
� Sensori di segnale (signal sensors): permettono di identificare le giunzioniesone-introne e le estremità delle regioni codificanti.
� Sensori di contenuto (content sensors): permettono di identificare le� Sensori di contenuto (content sensors): permettono di identificare leregioni codificanti di lunghezza variabile.
� I predittori hanno bisogno di dati di esempio per imparare le caratteristiche
dell’organismo analizzato (dati di training) e dei dati di prova per valutare
l’accuratezza delle predizioni (dati di test).
PredittorePredizione
ab initio
Predizione di
geni
eucarioti
Training in
locale per
nuovi
genomi
Utilizzo di
EST e
Proteine per
la predizione
Utilizzo di
RNA-Seq per
la predizione
Predizione
degli UTR
Predizione
dei trascritti
alternativi
Augustus SI SI SI SI SI SI SI
Snap SI SI SI NO NO NO NO
GeneMark-ES SI SI NO NO NO NO NO GeneMark-ES SI SI NO NO NO NO NO
GeneID SI SI SI SI SI SI SI
FGenesh SI SI SI NO NO NO NO
Genescan SI SI NO SI SI SI NO
MZEF SI SI NO NO NO NO NO
mGene.NGS SI SI SI SI SI SI NO
Contrast SI SI SI SI NO SI NO
GrailExp SI SI NO SI NO SI NO
TwinScan/N-Scan SI SI SI SI NO NO SI
� Predizione genica ab initio: utilizza dati di training che potrebbero nonessere rappresentativi di tutti i geni del genoma.
� Evidenze sperimentali: non coprono mai tutto il genoma, quindi nonpermettono l’annotazione completa di tutti i geni codificanti proteine.
� I migliori metodi di predizione genica utilizzano una metodologiaibrida tra predizione genica ab initio e l’utilizzo degli allineamenti delleibrida tra predizione genica ab initio e l’utilizzo degli allineamenti delleevidenze sperimentali:
� cDNA
� EST
� Proteine
� RNA-Seq
� Creazione di un consensus utilizzando le evidenzesperimentali e le predizioni geniche.
� Ciascuna evidenza viene pesata dando un peso maggiore aidati sperimentali rispetto alle predizioni.
� Principali programmidi integrazione:• Evidence Modeller• JIGSAW• GAZE
� Basate su automazione di programmi di predizione eallineamento esistenti.
� Vantaggio: relativamente semplici da utilizzare.� Svantaggio: consentono un controllo limitato dei passaggi
intermedi dell’annotazione.intermedi dell’annotazione.� Pipeline di annotazione più utilizzate:
• PASA
• MAKER
� L’ottimizzazione del protocollo bioinformaticoper l’annotazione dei geni codificanti proteinein genomi complessi.
� A questo scopo non verrà utilizzata unapipeline automatica di annotazione ma,attraverso la scelta di metriche adeguate,verrà valutato ogni singolo passaggiointermedio dell’annotazione in modo dafornire una procedura ottimizzata sulla basedelle evidenze sperimentali a disposizione.
� Genoma dell’organismo eucariote Vitis
vinifera, versione V1 PN40024 12X delconsorzio French-Italian PublicConsortium for Grapevine Genome, conuna dimensione di 487 Mb.una dimensione di 487 Mb.
� Motivi di questa scelta:
• Il genoma è disponibile.
• Ci sono dati sperimentali disponibili(EST, 454, RNA-Seq, cDNA full-length).
� 16.054 contig di cDNA full-length prodotte dal consorzio French-Italian Public Consortium for Grapevine Genome � 3752 cDNAnon ridondanti.
� Rimozione delle sequenze con ORF non completa � 3.436sequenze.Le 3.436 sequenze sono state suddivise in due gruppi in maniera� Le 3.436 sequenze sono state suddivise in due gruppi in manieradel tutto casuale:
• 936 sequenze di cDNA full-length� training.
• 2.500 sequenze di cDNA full-length� test.
� EST:• 2.713.343 sequenze EST pubbliche (NCBI,
Sequenziamento 454 + banca dati del consorzio).• Allineamento e generazione modelli genici con Gmap.• � 1.649.082 trascritti putativi ridondati (56.630 non
ridondanti).
� Proteine omologhe:• Allineamento al genoma delle sequenze proteiche di• Allineamento al genoma delle sequenze proteiche di
tutto il database SWISSPROT utilizzando Blat, Blast eGenewise.
• � 22.355 trascritti putativi ridondanti (5.808 nonridondanti).
� RNA-seq:• 114.726.580 reads RNA-seq sequenziati dal laboratorio
di genomica dell’Università di Verona (pool di 45campioni provenienti da 15 tessuti e organi a diversistadi di sviluppo).
• Allineamento e generazione modelli genici con suiteBowtie + Tophat + Cufflinks.
• � 40.324 trascritti putativi ridondanti (17.444 nonridondanti).
Statistiche generali EST Proteine omologhe RNA-seq
Numero di modelli genici allineati 56.630 5.808 17.444
Numero di modelli genici multi esonici 19.485 3.175 17.366
Media della lunghezza dei modelli genici 1.034,12 874,42 2.236,89
N50 della lunghezza dei modelli genici 2.257 1.563 2.751
Media del numero di esoni per modello genico 3,30 4,39 6,75
Statistiche generali degli allineamenti delle evidenze sperimentali
Media del numero di esoni per modello genico 3,30 4,39 6,75
Distribuzione della percentuale di sovrapposizione di nucleotidi tra allineamenti e riferimento
� Ho scelto i seguenti programmi di predizione genica, nei quali è stato realizzato il trainingcon dati sperimentali di Vitis vinifera:
• Augustus: supporta suggerimenti da evidenze sperimentali.
• GeneID: supporta suggerimenti da evidenze sperimentali.
• SNAP: realizza solo predizione ab initio.
Sono state realizzate le seguenti predizioni:� Sono state realizzate le seguenti predizioni:
• Augustus ab initio
• GeneID ab initio
• SNAP ab initio
• Augustus con suggerimenti RNA-seq
• GeneID con suggerimenti RNA-seq
� I risultati delle predizioni sono state filtrati secondo:
• Eliminazione di tutte le predizioni di geni monoesonici (predizioni meno affidabili rispetto alle predizioni di geni multiesonici).
• Eliminazione di tutte le predizioni di geni con lunghezza della regione esonica inferiore a 200 basi.
Statistiche generali delle predizioni ab initio
Statistiche generali Augustus ab initio GeneID ab initio SNAP ab initio
Numero di geni predetti 30.510 48.751 64.431
Media della lunghezza dei geni 1.122,73 977,81 1.020,27
N50 della lunghezza dei geni 1.455 1.386 1.563
Media del numero di esoni per gene 4,44 4,34 6,14
Distribuzione della percentuale di sovrapposizione tra predizioni e riferimento
Statistiche generali Augustus con RNA-seq GeneID con RNA-seq
Numero di geni predetti 26.694 52.245
Media della lunghezza dei geni 1.134,61 1.060,43
N50 della lunghezza dei geni 1.437 1.536
Media del numero di esoni per gene 4,74 4,30
Statistiche generali delle predizioni guidate da evidenze sperimentali
Distribuzione della percentuale di sovrapposizione di nucleotidi tra predizioni e riferimento
� Le statistiche generali da sole non consentono di valutare adeguatamente ledifferenze tra le predizioni, si rende quindi necessario fare una valutazionequantitativa dell’accuratezza.
� Sensibilità (SN) ed Specificità (SP):• Sensibilità misura quanto il predittore è in grado di fare predizioni.• Specificità misura quanto il predittore predice in modo corretto.• Specificità misura quanto il predittore predice in modo corretto.
� Accuratezza (AC):
• AC = (SN + SP) / 2
� Tre livelli d’indagine:
• Locus genico: misura la capacitàdi rilevare la presenza di un locus.di rilevare la presenza di un locus.
• Regioni esoniche, misura lacapacità di distinguere tra esoni eintroni.
• Giunzioni esone-introne, misurala capacità di predire in manieracorretta la struttura dei geni.
Evidenze Sensibilità Specificità Accuratezza
EST 0,5680 0,6428 0,6054
Proteine omologhe 0,1872 0,6047 0,3960
Confronto degli allineamenti e delle predizioni contro il dataset di riferimento (loci genici)
RNA-seq 0,6140 0,7362 0,6751
Augustus ab initio 0,4612 0,5644 0,5128
GeneID ab initio 0,4852 0,4632 0,4742
SNAP ab initio 0,5640 0,4297 0,4969
Augustus con suggerimenti RNA-seq 0,5656 0,6727 0,6192
GeneID con suggerimenti RNA-seq 0,4884 0,4639 0,4762
Evidenze Sensibilità Specificità Accuratezza
EST 0,9342 0,6054 0,7698
Proteine omologhe 0,1732 0,9203 0,5468
Confronto degli allineamenti e delle predizioni contro il dataset di riferimento (r. esoniche)
RNA-seq 0,7334 0,6413 0,6874
Augustus ab initio 0,4489 0,8022 0,6256
GeneID ab initio 0,5245 0,7744 0,6495
SNAP ab initio 0,5459 0,6688 0,6074
Augustus con suggerimenti RNA-seq 0,5078 0,8502 0,6790
GeneID con suggerimenti RNA-seq 0,5296 0,7413 0,6355
Evidenze Sensibilità Specificità Accuratezza
EST 0,5566 0,4747 0,5157
Proteine omologhe 0,2493 0,8794 0,5644
Confronto degli allineamenti e delle predizioni contro il dataset di riferimento (giunzioni)
Proteine omologhe 0,2493 0,8794 0,5644
RNA-seq 0,8723 0,9507 0,9115
Augustus ab initio 0,6260 0,8347 0,7304
GeneID ab initio 0,6881 0,7536 0,7209
SNAP ab initio 0,5840 0,4538 0,5189
Augustus con suggerimenti RNA-seq 0,7875 0,9112 0,8494
GeneID con suggerimenti RNA-seq 0,6943 0,7521 0,7232
� Annotazione finale realizzata con Evidence Modeller, che permette di combinare i risultati dellepredizioni e delle evidenze sperimentali in un’unica annotazione finale mediante l’assegnazione di pesi.
Pesi EVM assegnati Annotazione 1 Annotazione 2 Annotazione 3
EST 3 3 3
Proteine 5 5 5
RNA-seq 3 0 0
Augustus ab initio 1 0 0
GeneID ab initio 1 1 0
Statistiche generali Annotazione 1 Annotazione 2 Annotazione 3
Numero di geni 26.814 26.243 26.211
Media della lunghezza dei geni 1.119,90 1.145,90 1.130,56
N50 della lunghezza dei geni 1.452 1.446 1.434
Media dei numero di esoni per gene 4,34 4,77 4,72
Livelli d’indagineAnnotazione 1 Annotazione 2 Annotazione 3
Sensibilità Specificità Accuratezza Sensibilità Specificità Accuratezza Sensibilità Specificità Accuratezza
Identificare i loci genici 0,4396 0,6276 0,5336 0,5620 0,6768 0,6194 0,5600 0,6760 0,6180
Identificare le regione esoniche 0,4119 0,8110 0,6115 0,5012 0,8492 0,6752 0,5008 0,8544 0,6776
Identificare le giunzioni esone-introne 0,5698 0,8383 0,7041 0,7768 0,9093 0,8431 0,7769 0,9132 0,8451
GeneID ab initio 1 1 0
SNAP ab initio 1 1 0
Augustus con suggerimenti RNA-seq 0 2 2
GeneID con suggerimenti RNA-seq 0 0 0
� Le statistiche generali non sono sufficienti a valutare le differenze trale diverse predizioni, è necessario valutarne l’accuratezza.
� È importate definire metriche adeguate per valutare l’accuratezza diuna predizione sotto diversi aspetti. Predittori con accuratezzasimile per alcuni aspetti, mostrano un grado di accuratezzasimile per alcuni aspetti, mostrano un grado di accuratezzacompletamente diverso per altri.
� Utilizzare RNA-Seq, che sono ottenibili a costi ridotti e in tempibrevi, come suggerimento per i predittori può miglioraresostanzialmente la predizione a seconda del software utilizzato.
� È possibile realizzare un’annotazione finale con poche predizioniaccurate, consentendo un significativo risparmio di tempocomputazionale.
� Valutare ogni singolo passaggio del protocollo di annotazionepermette di avere un’annotazione finale ottimizzata.