2. Vorlesung WS 2004/05 Softwarewerkzeuge der Bioinformatik 1 Paarweises Sequenzalignment • Methoden des Sequenzalignments • Áustauschmatrizen • Bedeutsamkeit von Alignments • BLAST, Algorithmus – Parameter – Ausgabe http://www.ncbi.nih.gov Diese Vorlesung lehnt sich eng an das BLAST Tutorial- Buch (links) an, Kapitel 3-9 siehe auch Vorlesung Bioinformatik I von Prof. Lenhof, Wochen 3 und 5
54
Embed
2. Vorlesung WS 2004/05Softwarewerkzeuge der Bioinformatik 1 Paarweises Sequenzalignment Methoden des Sequenzalignments Áustauschmatrizen Bedeutsamkeit.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 1
Paarweises Sequenzalignment• Methoden des Sequenzalignments
Amino Acid SimilarityDayhoff represented the similarity (observed exchange frequences between related
sequences) between amino acids as a log2 odds ratio, or lod score.
Lod score of an amino acid: take the log2 of the ratio of a pairing’s observed
frequency divided by the pairing’s randomly expected frequency.
Lod score = 0 → observed and expected frequencies are equal
> 0 → a pair of letters is common
< 0 → unlikely pairing
General formula for the score sij of two amino acids i and j.
ji
ijij pp
qs log With: individual properties pi and pj,
pairing frequency qjj,
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 7
Ähnlichkeit der Aminosäuren
Beispiel: die relative Häufigkeit von Methionin und Leucin seien 0.01 und 0.1.
Durch zufällige Paarung erwartet man 1/1000 Austauschpaare Met – Leu.
Wenn die beobachtete Paarungshäufigkeit 1/500 ist, ist das Verhältnis der
Häufigkeiten 2/1.
Im Logarithmus zur Basis 2 ergibt sich ein lod score von +1 or 1 bit.
If the frequency of Arginine is 0.1 and its frequency of pairing with Leu is 1/500,
the lod score of an Arg – Leu pair is -2.322 bits.
Usually one uses nats, multiplies the values by a scaling factor and rounds them
to integer values → scoring matrices PAM and BLOSUM.
These integer values are called raw scores.
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 8
Towards Karlin-Altschul statistical theoryRaw scores can be misleading because scaling factors are arbitrary.
More useful measure: normalized scores.
Converting a raw score to a normalized score requires a matrix-specific constant,
called lambda.
Lambda is approximately the inverse of the original scaling factor.
The observed frequencies for all pairs sum up to 1:
n
i
i
jijq
1 1
1
Write
as
where Sij are now the raw scores (integer values).
ji
ijij pp
qs 2log
ji
ijeij pp
qS log
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 9
ji
ijeij pp
qS log
Towards Karlin-Altschul statistical theory
Thus, a pairwise frequency (qij) is implied from individual amino acid frequencies
(pi und pj) and a normalized score (λSij).
Need to find λ so that:
ijSjiij eppq
n
i
i
j
Sji
n
i
i
jij
ijeppq1 11 1
1
Once λ is estimated, it is used to calculate the E-value of every BLAST hit.
The expected score of a scoring matrix is the sum of its raw scores weighted by their frequencies of occurrence.
20
1 1i
i
jijji sppE
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 10
Karlin-Altschul Statistik
Karlin und Altschul leiteten daraus nun die Bewertung der Signifikanz eines Alignments ab
(hier ohne Herleitung):
Fünf zentrale Annahmen:- eine positive Bewertung muß möglich sein- die erwartete Bewertung muß negativ sein- die Buchstaben einer Sequenz sind voneinander unabhängig und gleichverteilt - die Sequenzen sind unendlich lang sequences- Alignments enthalten keine gaps
SkmneE Die Anzahl an Alignments (E), die man während einer Suche in einer
Sequenzdatenbank zufällig erhält, ist eine Funktion der Größe des Suchraums
(m*n), der normalisierten Austauschbewertungen (λS), und einer Konstanten
(k).
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 11
Bewertungs- oder Austausch-Matrizen
– dienen um die Qualität eines Alignments zu bewerten
–Für Protein/Protein Vergleiche:
eine 20 x 20 Matrix für die Wahrscheinlichkeit mit der eine bestimmte
Aminosäure gegen eine andere durch zufällige Mutationen ausgetauscht
werden kann. –Der Austausch von Aminosäuren ähnlichen Charakters (Ile, Leu) ist
wahrscheinlicher (hat einen höheren Score) als der von Aminosäuren
unterschiedlichen Charkters (e.g. Ile, Asp).
–Matrizen werden als symmetrisch angenommen, besitzen also Form
einer Dreiecksmatrix.
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 12
Substitutions-Matrizen
Nicht alle Aminosäuren sind gleich– Einige werden leichter ausgetauscht als andere– Bestimmte Mutationen geschehen leichter als andere– Einige Austausche bleiben länger erhalten als andere
Mutationen bevorzugen bestimmte Austausche– Einige Aminosäuren besitzen ähnliche Codons– Diese werden eher durch Mutation der DNA mutiert
Selektion bevorzugt bestimmte Austausche– Einige Aminosäuren besitzen ähnliche Eigenschaften und Struktur
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 13
PAM250 Matrix
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 14
Beispiel für eine Bewertung
log (A B) = log A + log B
Die Bewertung (Score) eines Alignments ist die Summe aller
Bewertungen für die Paare an Aminosäuren (Nukleinsäuren) des
Alignments:
Sequenz 1: TCCPSIVARSNSequenz 2: SCCPSISARNT
1 12 12 6 2 5 -1 2 6 1 0 => Alignment Score = 46
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 15
Dayhoff Matrix (1)
– wurde von M.O. Dayhoff aufgestellt, die statistische Daten über die
Austauschhäufigkeit von Aminosäuren sammelte
– Datensatz von eng verwandten Proteinsequenzen (> 85% Identität).
Diese können zweifelsfrei aligniert werden.
– Aus der Frequenz, mit der Austausche auftreten, wurde die 20 x 20 Matrix
für die Wahrscheinlichkeiten aufgestellt, mit der Mutationen eintreten.
– Diese Matrize heisst PAM 1. Ein evolutionärer Abstand von 1 PAM (point
accepted mutation) bedeutet, dass es 1 Punktmutation pro 100 Residuen
gibt, bzw. Dass die beiden Sequenzen zu 99% identisch sind.
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 16
Log odds Matrix: enthält den Logarithmus der Elemente der PAM Matrizen.
Score der Mutation i j
beobachtete Mutationsrate i j = log( )
aufgrund der Aminosäurefrequenz erwartete Mutationsrate
Die Wkt zweier unabhängiger Mutationsereignisse ist das Produkt der
Einzelwahrscheinlichkeiten.
Bei Verwendung einer log odds Matrix (d.h. bei Verwendung der
logarithmisierten Werte) erhält man den gesamten Score des Alignments
als Summe der Scores für jedes Residuenpaar.
Dayhoff Matrix (2)
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 17
Aus PAM 1 kann man Matrizen für grössere evolutionäre Entfernungen
herstellen indem man die Matrix mehrfach mit sich selbst multipliziert.
PAM250: – 2,5 Mutationen pro Residue– entspricht 20% Treffern zwischen zwei Sequenzen,
d.h. man beobachtet Änderungen in 80% der
Aminosäurepositionen.– Dies ist die Default-Matrize in vielen Sequenzanalysepaketen.
Dayhoff Matrix (3)
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 18
BLOSUM Matrix
Einschränkung der Dayhoff-Matrix:
Die Matrizen, die auf dem Dayhoff-Modell der evolutionären Raten basieren, sind
von eingeschränktem Wert, da ihre Substitionsraten von Sequenzalignments
abgeleitet wurden, die zu über 85% identisch sind.
Ein anderer Weg wurde von S. Henikoff und J.G. Henikoff eingeschlagen,
welche lokale multiple Alignments von entfernter verwandten Sequenzen
verwendeten.
Ihre Vorteile: - grössere Datenmengen- multiple Alignments sind robuster
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 19
BLOSUM Matrix (2)
Die BLOSUM Matrizen (BLOcks SUbstitution Matrix) basieren auf der BLOCKS
Datenbank.
Die BLOCKS Datenbank verwendet das Konzept von Blöcken (lückenlose
Aminosäure-Signaturen), die charakteristisch für eine Proteinfamilie sind.
Aus den beobacheten Mutationen innerhalb dieser Blöcke wurden
Austauschwahrscheinlichkeiten für alle Aminosäurepaare berechnet und für eine
log odds BLOSUM matrix benutzt.
Man erhält unterschiedliche Matrizen indem man die untere Schranke des
verlangten Grads an Identität variiert.
z.B. wurde die BLOSUM80 Matrix aus Blöcken mit > 80% Identität abgeleitet.
Neben der Substitutionsmatrix braucht man auch eine Methode zur Bewertung
von Lücken.
Welche Bedeutung haben Insertionen und Deletionen im Verhältnis zu
Substitutionen?
Unterscheide Einführung von Lücken:
aaagaaa
aaa-aaa
von der Erweiterung von Lücken:
aaaggggaaa
aaa----aaa
Verschiedene Programme (CLUSTAL-W, BLAST, FASTA) empfehlen
unterschiedliche Default-Werte, die man wohl erst einmal verwenden sollte.
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 22
Needleman-Wunsch Algorithmus
- allgemeiner Algorithmus für Sequenzvergleiche
- maximiert einen Ähnlichkeitsscore
- bester Match = grösste Anzahl an Residuen einer Sequenz, die zu denen
einer anderen Sequenz passen, wobei Deletionen erlaubt sind.
- Der Algorithmus findet durch dynamische Programmierung das bestmögliche
GLOBALE Alignment zweier beliebiger Sequenzen
- NW beinhaltet eine iterative Matrizendarstellung
alle möglichen Residuenpaare (Basen oder Aminosäuren) – je eine
von jeder Sequenz – werden in einem zwei-dimensionalen Gitter dargestellt.
alle möglichen Alignments werden durch Pfade durch dieses Gitter
dargestellt.
- Der Algorithmus hat 3 Schritte: 1 Initialisierung 2 Auffüllen 3 Trace-back
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 23
Needleman-Wunsch Algorithm: Initialisierung
Aufgabe: aligniere die Wörter “COELACANTH” und “PELICAN” der Länge m =10 und n =7.
Konstruiere (m+1) (n+1) Matrix.
Ordne den Elementen der ersten Zeile und Reihe die Werte – m gap und – n gap zu.
Die Pointer dieser Felder zeigen zurück zum Ursprung.
C O E L A C A N T H
0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10
P -1
E -2
L -3
I -4
C -5
A -6
N -7
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 24
Needleman-Wunsch Algorithm: Auffüllen
Fülle alle Matrizenfelder mit Werten und Zeigern gemäss von simplen Operationen, die
die Werte der diagonalen, vertikal, und horizontalen Nachbarzellen einschliessen.
Berechne
match score: Wert der Diagonalzelle links oben + Wert des Alignments (+1 oder -1)
horizontal gap score: Wert der linken Zelle + gap score (-1)
vertical gap score: Wert der oberen Zelle + gap score (-1)
ordne der Zelle das Maximum dieser 3 Werte zu. Der Pointer zeigt in Richtung des
maximalen Scores.
max(-1, -2, -2) = -1
max(-2, -2, -3) = -2
(Pointer soll bei gleichen Werte immer in eine bestimmte Richtung zeigen, z.B.
entlang der Diagonalen.
C O E L A C A N T H
0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10
P -1 -1 -2
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 25
Needleman-Wunsch Algorithmus: Trace-back
Trace-back ergibt das Alignment aus der Matrix.
Starte in Ecke rechts unten und folge den Pfeilen bis in die Ecke links oben.
COELACANTH
-PELICAN--
C O E L A C A N T H
0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10
P -1 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10
E -2 -2 -2 -1 -2 -3 -4 -5 -6 -7 -8
L -3 -3 -3 -2 0 -1 -2 -3 -4 -5 -6
I -4 -4 -4 -3 -1 -1 -2 -3 -4 -5 -6
C -5 -3 -4 -4 -2 -2 0 -1 -2 -3 -4
A -6 -4 -4 -5 -3 -1 -1 1 0 -1 -2
N -7 -5 -5 -5 -4 -2 -2 0 2 1 0
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 26
Smith-Waterman-AlgorithmusSmith-Waterman ist ein lokaler Alignment-Algorithmus. SW ist eine sehr
einfache Modifikation von Needleman-Wunsch. Lediglich 3 Änderungen:
die Matrixränder werden auf 0 statt auf ansteigende Gap-Penalties gesetzt.
der maximale Wert sinkt nie unter 0. Pointer werden nur für Werte grösser als
0 eingezeichnet.
Trace-back beginnt am grösseten Wert der Matrix und endet bei dem Wert 0.
ELACAN
ELICANC O E L A C A N T H
0 0 0 0 0 0 0 0 0 0 0
P 0 0 0 0 0 0 0 0 0 0 0
E 0 0 0 1 0 0 0 0 0 0 0
L 0 0 0 0 2 1 0 0 0 0 0
I 0 0 0 0 1 1 0 0 0 0 0
C 0 1 0 0 0 0 2 0 0 0 0
A 0 0 0 0 0 1 0 3 2 1 0
N 0 0 0 0 0 0 0 1 4 3 2
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 27
FASTA Algorithmus – Schritt 1FASTA ist eine heuristische Methode zum Vergleich zweier Zeichenfolgen.
Der Algorithmus wurde 1985 von Lipman und Pearson entwickelt und 1988 verbessert.
FASTA vergleicht einen Eingabestring gegen eine einzelne Buchstabenfolge.
Wenn man eine ganze Datenbank nach Treffern zu einer Eingabesequenz absucht,
vergleicht FASTA die Eingabesequenz mit jedem Eintrag der Datenbank.
Der Algorithmus nimmt an, daß ein Alignment zweier Sequenzen einen Abschnitt mit absoluter
Übereinstimmung enthält und konzentriert sich auf identische Regionen.
Dies sind die einzelnen Schritte des FASTA-Algorithmus
1.
Wir geben einen ganzzahligen Parameter ktup vor (für k respective tuples), and suchen nach
identischen Substrings der Länge ktup in beiden Sequenzen.
Die empfohlenen Werte für ktup sind 6 für DNA- und 2 für Proteinsequenzvergleiche.
Die passenden Substrings der Länge ktup bezeichnet man als hot spots. Aufeinander folgende
hot spots werden entlang der Diagonale der dynamischen Programmierung gefunden
Dieser Schritt läßt sich effizient mit einer lookup- oder hash-Tabelle durchführen:
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 28
Lookup-Methode
Position 1 2 3 4 5 6 7 8 9 10 11
Sequenz 1 n c s p t a ...
Sequenz 2 a c s p r k
Position in
Aminosäure Protein A Protein B pos A – pos B
a 6 6 0
c 2 7 -5
k - 11
n 1 -
p 4 9 -5
r - 10
s 3 8 -5
t 5
Aminosäuren c, s, und p haben den gleichen Offset. So erhält man schnell das mögliche
Alignment.
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 29
FASTA Algorithmus – Schritt 2
Finde nun die 10 besten Diagonalläufe der Hot spots in der Matrix.
Eine Diagonale ist eine Reihe von benachbarten hot spots auf der gleichen
Diagonale (müssen nicht unbedingt auf der Diagonale benachbart sein, d.h.
Zwischenräume zwischen den hot spots sind erlaubt).
In einem Duchlauf müssen nicht alle hot spots auf der Diagonale liegen und
die Diagonale kann mehr als einer der 10 besten Durchläufe enthalten.
Um die Diagonalen-Durchläufe zu bewerten gibt FASTA jedem hot spot eine
positive Bewertung und den Zwischenräumen zwischen
aufeinanderfolgenden hot spots eines Runs eine negative Bewertung, die
mit zunehmender Entfernung abnimmt. Dann wird die Summe gebildet.
Mit diesem Bewertungsschema findet FASTA die 10 Diagonalläufe mit der
höchsten Bewertung.
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 30
FASTA Algorithmus – Schritt 3
Ein Diagonalenlauf bezeichnet ein Paar von alignierten Substrings.
Das Alignment setzt sich aus Treffern (hot spots) und Nichttreffern (dazwischen)
zusammen. Es enthält jedoch keine Indels, da es aus einer einzigen Diagonale
besteht.
Als nächstes bewerten wir die Läufe mit einer Aminosäure- (Nukleotid-)
Austauschmatrix und wählen den besten Lauf.
Das beste einzelne Teilalignment in diesem Schritt heisst init1.
Weiterhin wird eine Filterung durchgefühhrt und alle Diagonalläufe mit relativen
geringen Bewertungen gelöscht.
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 31
FASTA Algorithmus – Schritt 4
Bis jetzt wurden keine Indels in den Teilalignments erlaubt. Wir versuchen nun,„gute“ Diagonalläufe aus eng benachbarten Diagonalen zu kombinieren, und erreichendadurch ein Teilalignment mit Indels.Die „gute“ Teilalignments stammen aus dem vorherigen Schritt (Bewertung > alsein cut-off Wert) und versuchen, sie zu einem einzigen großen Alignment mithoher Bewertung zu kombinieren, das einige Gaps enthält.
Dazu konstruieren wir einen gerichteten, gewichteten Graph, dessen Vertices dieTeilalignments aus dem vorherigen Schritt sind. Das Gewicht jedes Vertix entsprichtder Bewertung des entsprechenden Teilalignments.Dann verbinden wir Vertex u mit Vertex v falls das Teilalignment von v in einer tieferen Reihe beginnt als es endet. Wir geben dieser Verbindung ein negativesGewicht, das der Anzahl an zwischen u und v einzufügenden Gaps entspricht.FASTA bestimmt dann in diesem Graphen einen Pfad mit maximalem Gewicht.
Dieses ausgewählte Alignment entspricht einem einzelnen lokalen Alignment der beiden Strings. Das beste Alignment in diesem Schritt wird mit initn bezeichnet.Wie im vorherigen Schritt werden Alignments mit relativ geringer Bewertung gelöscht.
Dann kommen noch 2 weitere Schritte ...
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 32
FASTA Algorithmus – graphisch
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 33
BLAST – Basic Local Alignment Search Tool
• Findet das am besten bewertete lokale optimale Alignment einer
Testsequenz mit allen Sequenzen einer Datenbank.
• Sehr schneller Algorithmus, 50 mal schneller als dynamische
Programmierung.
• Kann verwendet werden um sehr grosse Datenbanken zu durchsuchen, da
BLAST eine vor-indizierte Datenbank benutzt
• Ist ausreichend sensititv und selektiv für die meisten Zwecke
• Ist robust – man kann üblicherweise die Default-Parameter verwenden
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 34
BLAST Algorithmus, Schritt 1
• Für ein gegebenes Wort der Länge w (gewöhnlich 3 für Proteine) und
eine gegebene Score-Matrix
Erzeuge eine Liste aller Worte (w-mers), die einen Score > T erhalten,
wenn man sie mit dem w-mer der Eingabe vergleicht
P D G 13
P Q A 12
P Q N 12etc.
unterhalb Schranke (T=13)
Test Sequenz L N K C K T P Q G Q R L V N Q
P Q G 18
P E G 15 P R G 14
P K G 14 P N G 13
benachbarte Wörter
Wort
P M G 13
2. Vorlesung WS 2004/05
Softwarewerkzeuge der Bioinformatik 35
BLAST Algorithmus, Schritt 2
jedes benachbarte Wort ergibt alle Positionen in der Datenbank, in