BLAST: Basic Local Alignment Search Tool • Sviluppato per rendere ancora più veloci le ricerche nelle banche dati rispetto a FASTA, senza perdere in sensibilità e selettività • Metodo euristico per allineamenti locali • Pensato specificamente per ricerche in database • Basato sulle stesse assunzioni di FASTA: un buon allineamento contiene corti frammenti di match esatti Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997
22
Embed
BLAST: Basic Local Alignment Search Toolm.docente.unife.it/.../dispense-corsi/BAG_BLAST.pdf · · 2014-11-19BLAST: Basic Local Alignment Search Tool •Sviluppato per rendere ancora
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
BLAST: Basic Local Alignment Search Tool
• Sviluppato per rendere ancora più veloci le ricerche nelle banche dati rispetto a FASTA, senza perdere in sensibilità e selettività
• Metodo euristico per allineamenti locali
• Pensato specificamente per ricerche in database
• Basato sulle stesse assunzioni di FASTA: un buon allineamento contiene corti frammenti di match esatti
Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997
BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997
• Input: – Query sequence Q
– Database of sequences DB
– Minimal score S
• Output: – Sequences from DB (Seq), such that Q and Seq
have scores > S
3
Six-frame translation
Il materiale che segue è parte di una lezione del ciclo
Current Topics in Genome Analysis 2014
http://www.genome.gov/12514288
Del National Human Genome Research Institute (NHGRI, NIH)
Stringa centrale: Lettera ripetuta: match +: sostituzione conservativa Nessun simbolo: mismatch non conservativo
Numero di posizioni incluse nell’allineamento
Som
ma
de
i pu
nte
ggi d
i mat
che
s,
mis
mat
che
s et
c. s
eco
nd
o la
mat
rice
sc
elta
Score threshold
Neighborhood score threshold
Massimo punteggio: lunghezza del HSP
In altre parole: quante sequenze mi aspetto che abbiano per caso uno score maggiore o uguale a quello che ho osservato (falsi positivi!)
Scegliere il tipo di ricerca sulla base delle nostre esigenze
Dopo aver deciso se cerchiamo nucleotidi contro nucleotidi, proteine contro proteine etc, possiamo anche decidere in che specifico db cercare, ad esempio Refseq
E’ possibile limitare la ricerca ad uno specifico gruppo tassonomico o ad uno specifico organismo
E’ possibile definire specifici parametri per la ricerca
Verranno presentate tutte le hits (sequenze trovate) sotto questa soglia di E values (cioè con E < 10) https://www.youtube.com/watch?v=nO0wJgZRZJs
Ricordiamo che l’E risponde alla domanda: quante sequenze mi aspetto che abbiano per caso uno score maggiore o uguale a quello che ho osservato (falsi positivi!)
Ricordiamo che l’E risponde alla domanda: quante sequenze mi aspetto che abbiano per caso uno score maggiore o uguale a quello che ho osservato (falsi positivi!)
Vedi lezioni precedenti per matrice e gap Questa terza voce permette di controllare per la composizione AA delle sequenze analizzate Questo filtro è importante: permette di effettuare ricerche escludendo regioni con molte ripetizioni come omopolimeri
Esercizi con BLAST
• Proviamo ad effettuare una ricerca con le sequenze disponibili nel file