Ulf Leser Wissensmanagement in der Bioinformatik Algorithmische Bioinformatik Substitutionsmatrizen
Ulf Leser: Algorithmische Bioinformatik 3
Ziele
• Kenntnis einer typischen realen bioinformatischen Vorgehensweise: Viel schätzen, viel ignorieren, viel abkürzen (und es funktioniert doch halbwegs)
Ulf Leser: Algorithmische Bioinformatik 4
Inhalt dieser Vorlesung
• Mutationswahrscheinlichkeiten • Jukes-Cantor Modell (für DNA) • Echte Substitutionsmatrizen
Ulf Leser: Algorithmische Bioinformatik 5
Hintergrund
• Warum Ähnlichkeitsmatrizen, Substitutionsmatrizen, …? • Ersetzung einer Aminosäure durch eine andere hat
unterschiedliche Bedeutung je nach Paar – Ersetzung mit sehr ähnlichen
Aminosäuren ändert Proteinstruktur in der Regel kaum
– Ersetzung mit wenig ähnlichen Aminosäuren kann Struktur vollkommen ändern
Ulf Leser: Algorithmische Bioinformatik 7
Substitutionsmatrizen
• Individuelle Bewertung von Mismatches und Matches
Blosum62 DNA-Matrix von BLAST
A C G T A 5 -4 -4 -4 C -4 5 -4 -4 G -4 -4 5 -4 T -4 -4 -4 5
C S T P A G N D E Q H R K M I L V F Y W C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2 S -1 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3 T -1 1 4 1 -1 1 0 1 0 0 0 -1 0 -1 -2 -2 -2 -2 -2 -3 P -3 -1 1 7 -1 -2 -1 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4 A 0 1 -1 -1 4 0 -1 -2 -1 -1 -2 -1 -1 -1 -1 -1 -2 -2 -2 -3 G -3 0 1 -2 0 6 -2 -1 -2 -2 -2 -2 -2 -3 -4 -4 0 -3 -3 -2 N -3 1 0 -2 -2 0 6 1 0 0 -1 0 0 -2 -3 -3 -3 -3 -2 -4 D -3 0 1 -1 -2 -1 1 6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4 E -4 0 0 -1 -1 -2 0 2 5 2 0 0 1 -2 -3 -3 -3 -3 -2 -3 Q -3 0 0 -1 -1 -2 0 0 2 5 0 1 1 0 -3 -2 -2 -3 -1 -2 H -3 -1 0 -2 -2 -2 1 1 0 0 8 0 -1 -2 -3 -3 -2 -1 2 -2 R -3 -1 -1 -2 -1 -2 0 -2 0 1 0 5 2 -1 -3 -2 -3 -3 -2 -3 K -3 0 0 -1 -1 -2 0 -1 1 1 -1 2 5 -1 -3 -2 -3 -3 -2 -3 M -1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 1 2 -2 0 -1 -1 I -1 -2 -2 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 4 2 1 0 -1 -3 L -1 -2 -2 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 2 4 3 0 -1 -2 V -1 -2 -2 -2 0 -3 -3 -3 -2 -2 -3 -3 -2 1 3 1 4 -1 -1 -3 F -2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 3 1 Y -2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -1 3 7 2 W -2 -3 -3 -4 -3 -2 -4 -4 -3 -2 -2 -3 -3 -1 -3 -2 -3 1 2 11
Ulf Leser: Algorithmische Bioinformatik 8
Ist das notwendig?
• Häufigkeiten der Ersetzung einer Aminosäure durch irgendeine andere AA im Verhältnis zu allen Ersetzungen
• Alanin (A) willkürlich als 100% gesetzt • Keine Gleichverteilung • Mutationen sind mehr oder weniger
erfolgreich, je nachdem, welche AA ersetzt wird – Besser: Mutationen werden durch Selektion
mehr oder weniger geduldet – Tryptophan (W) sehr selten (25) – Serin (S) sehr häufig (117)
Ulf Leser: Algorithmische Bioinformatik 9
Woher nehmen?
• Für Aminosäuren benötigt man ~200 (verschiedene) Werte • Wie kann man sinnvolle Werte für die Matrix bestimmen? • Möglichkeit 1: Physikalische / chemische Eigenschaften
– Ladung, Größe, Polarität, ... – Viele Faktoren mit unklaren Gewichten – Wie soll man das durch ein Bewertungsschema ausdrücken? – Keine Verwendung in der Praxis
• Möglichkeit 2: Empirisch – Beobachtung der Evolution statt analytischer Vorhersage – Lernen aus Beispielen: Tatsächlich vorgekommener Mutationen – Benötigt Beispieldaten, also Paare von homologen Sequenzen
Ulf Leser: Algorithmische Bioinformatik 10
Inhalt dieser Vorlesung
• Mutationswahrscheinlichkeiten • Jukes-Cantor Modell (für DNA) • Echte Substitutionsmatrizen
Ulf Leser: Algorithmische Bioinformatik 11
Evolutionäre Abstände
• Wichtige Unterscheidung – Mutation: Evolutionäres Ereignis, nicht beobachtbar – Substitution: Beobachteter Mismatch; Mutation, die überdauert hat
• Gesucht: Maß für evolutionären Abstand zweier Sequenzen • Populär: Menge an stattgefundenen Punktmutationen
– Ignoriert InDels (selten in kodierenden Bereichen) – Nimmt Gleichverteilung von Mutationen in Zeit und Raum an
• Messen kann man aber nur Zahl der Substitutionen • Wie viele Mutationen sind im Schnitt notwendig, um in
einer n Zeichen langen Sequenz x Substitutionen zu erzeugen?
Ulf Leser: Algorithmische Bioinformatik 12
Jukes-Cantor-Modell
• Lösung hängt vom Evolutionsmodell ab – Wahrscheinlichkeiten aller Basenmutationen – Abhängigkeiten von Mutationen zwischen verschiedenen Positionen – Abhängigkeit der Wahrscheinlichkeiten von Sequenzlänge – …
• Einfachstes Modell: Jukes-Cantor – Jukes, Cantor (1969). Evolution of Protein Molecules. Academic Press – Alle Positionen werden mit der gleichen Wsk verändert – Alle Basenmutationen sind gleichwahrscheinlich – Wahrscheinlichkeiten ändern sich nicht über die Zeit
• Sei α die Wsk des Auftretens einer beliebigen Mutation an einer festen Position
Ulf Leser: Algorithmische Bioinformatik 13
Ableitung [EG01]
• Sei pCC(t) die Wsk, dass an einer geg. Position nach t Mutationen ein C steht, wenn dort auch im Original ein C steht. Dann gilt: – pCC(1) = 1 - (CA ∨ CG ∨ CT) = 1-3*α – pCC(2) = pCC(1)*(1-3α) + (1-pCC(1))α – pCC(t+1) = pCC(t)*(1-3α) + (1-pCC(t))α
• Auflösen ergibt (siehe Literatur, C!=X)) pCC(t) = ¼ + (3/4)*e-4αt
pCX(t) = ¼ - (1/4)*e-4αt
• Bemerkung – Konvergiert beides gegen 1/4 , also gegen eine zufällige Sequenz
G A
T C α
α α
α
α α
Ulf Leser: Algorithmische Bioinformatik 14
Evolutionäre Verhältnisse
• Wsk, dass eine gegebene Base X aus der Ursprungs-sequenz in beiden Ästen nach t Schritten nicht mutiert ist:
pXX(t)*pXX(t) = pXX(t)2 • Wsk, dass eine gegebene Base X aus der
Ursprungssequenz in beiden Ästen nicht substituiert ist:
Ursprungssequenz
Vergleichssequenz1 Vergleichssequenz2
t t
αt
XBBXXX etPtptI 822
43
41)()()( −
≠
+=+= ∑
Ulf Leser: Algorithmische Bioinformatik 15
Von Substitutionen zu Mutationen
• Wsk, dass eine beliebige Base substituiert ist: p(t)=1-I(t)= 3/4 - 3/4*e-8αt
= ¾*(1-e-8αt) – Umformung ergibt: 8αt = -ln(1 - 4/3p(t))
• Wir wollen wissen, für wie viele Mutationen der Erwartungswert der entstehenden Substitutionen gleich der Zahl beobachteter Substitutionen ist – Dann können wir aus der Anzahl beobachteter Substitutionen die
wahrscheinlichste Anzahl tatsächlicher Mutationen schätzen – Wie viele Mutationen gab es? Im Schnitt k=3α*2t – Umformen und einsetzen für α ergibt: 8t*k/6/t = -ln(1 - 4/3p(t)) – Zusammen: k = -3/4 * ln(1 - 4/3p(t))
• p(t) ist der Erwartungswert, dessen empirischen Wert wir kennen: Zahl der Substitutionen = %-Diversität
– [Ausführliche Ableitung: http://www.montefiore.ulg.ac.be/~kvansteen/GBIO0009-1/ac20132014/T4/jc.pdf]
Ulf Leser: Algorithmische Bioinformatik 16
Jukes-Cantor Korrektur (|P|=10.000)
Geschätzte Mutationen
Beob
acht
ete
Subs
titut
ione
n
Ulf Leser: Algorithmische Bioinformatik 17
Kimura‘s Modell
• Pyrimidine: Cytosin, Thymin, Uracil: Ein Ring • Purine: Adenin, Guanin: Zwei Ringe • Transversion: Purin ⇔ Pyrimidin oder umgekehrt • Transition: Purin ⇔ Purin oder
Pyrimidin ⇔ Pyrimidin • Damit: k = 1/ 2ln[1/(1− 2P −Q)]+1/ 4ln[1/(1/ 2Q)]
– P: %-Anteil Transitionen, Q: %-Anteil Transversionen
G A
T C β
α α
β
α α
Ulf Leser: Algorithmische Bioinformatik 18
Inhalt dieser Vorlesung
• Mutationswahrscheinlichkeiten • Jukes-Cantor Modell (für DNA) • Echte Substitutionsmatrizen
– PAM: Point-Accepted Mutations – BLOSUM: Blocks Substitution Matrizes
Ulf Leser: Algorithmische Bioinformatik 19
Margaret O. Dayhoff
• “Deduce evolutionary relationships of the biological kingdoms, phyla, and other taxa from sequence evidence”
• Collection of all known protein sequences
• First edition: 65 proteins • Several printed releases • Resulted in the Protein
Information Resource (PIR)
Bild: Dank an Antje Krause
Ulf Leser: Algorithmische Bioinformatik 20
PAM: Point-Accepted Mutations
• Dayhoff MO, Schwartz RM. A model of evolutionary change in proteins. Atlas of protein sequence and structure 1978.
• Zwei Bedeutungen – 1 PAM – Einheit für den evolutionären Abstand von
Proteinsequenzen – PAM-X Matrix – Berechnete Substitutionsmatrix für zwei
Sequenzen, die X PAM entfernt sind
Ulf Leser: Algorithmische Bioinformatik 21
PAM als Sequenzabstand
• Definition
Seien S1 und S2 Proteinsequenzen mit |S1|=|S2|. S1 und S2 heißen x PAM entfernt, wenn S1 in S2 wahrscheinlich mit x Punktmutationen pro 100 Aminosäuren überführt wurde
• Eigenschaften – PAM beachtet keine Inserts und Deletions – x schätzt man aus den Substitutionen zwischen S1 und S2
• Berechnung ähnlich Jukes-Cantor, aber auf Aminosäuren
– 50 PAM Abstand heißt also nicht etwa 50 Substitutionen pro 100 AA
Ulf Leser: Algorithmische Bioinformatik 22
PAM Abstand und Sequenzidentität
• Jenseits von PAM 250: Rauschen
Ulf Leser: Algorithmische Bioinformatik 23
PAM Matrizen
• Definition: Seien (S1,1, S2,1), ..., (S1,n, S2,n) Paare von AA-Sequenzen, die jeweils x PAM entfernt sind. Dann ist die PAM-x Matrix Mx wie folgt definiert: – Sei f(i) die relative Häufigkeit der Aminosäure Ai – Seien alle Paare optimal aligniert
• Sei Sk,l‘ das Sk,l mit den durch das Alignment eingefügten Leerzeichen – Sei f(i,j) die relative Übergangshäufigkeit von Ai zu Aj in allen
alignierten Paaren • Relativer Anteil von Positionen k mit S1,z‘[k]=Ai und S2,z‘[k]=Aj oder
umgekehrt – Übergang ist „richtungslos“: f(i,j) = f(j,i) – Paare (Ax, _) werden ignoriert
– Damit:
=
)(*)(),(log),(
jfifjifjiM x
Ulf Leser: Algorithmische Bioinformatik 24
Erläuterung
• Log-Odds Ratio – Numerischer Trick: Logarithmus zur Ersetzung von Mult durch Add
• Bedeutung des Bruchs – Verhältnis der beobachteten Substitutionen zu den erwarteten
Substitutionen bei statistischer Unabhängigkeit
– M(i,j) = 0 (Bruch = 1)
• Keine Selektion - Anzahl Übergänge entspricht statistischer Erwartung
– M(i,j) < 0 (Bruch < 1) • Negative Selektion – Übergang wird unterdrückt
– M(i,j) > 0 (Bruch > 1) • Positive Selektion – Übergang wird bevorzugt
=
)(*)(),(log),(
jfifjifjiM x
Ulf Leser: Algorithmische Bioinformatik 25
Beispiel
S1,1: ACGGTGAC S2,1: AGG_TGCC
S1,3: GGTCAA S2,3: AGTC_A
S1,2: GTT_AGCTA S2,2: TTTCAG_TA
A: 11/42 C: 8/42 G: 12/42 T: 11/42
A C G T
A 4/19 1/19 1/19 0/19
C 2/19 1/19 0/19
G 4/19 1/19
T 5/19
Relative Häufigkeiten
Übergangshäufigkeiten A C G T
A 0,48 0,02 -0,15 -
C 0,46 -0,01 -
G 0,41 -0,15
T 0,58
Substitutionsmatrix
Ulf Leser: Algorithmische Bioinformatik 26
Fehlerquellen
• Es kann viele optimale Alignments geben – Wahl eines Alignments besonders bei großem Abstand (also auch
großen x) schwierig und subjektiv
• PAM Abstand ist nur eine Schätzung – Je ungenauer, je größer x ist
• Für größere Abstände benötigt ein gutes Alignment individuelle Mutationswahrscheinlichkeiten – Die suchen wir aber gerade
FMM_IYVVYL FMMUIYV_YL
FMMF_YV_VYL __UFPHVYLYL
_FMMFYVVYL UFPHVYL_YL
FMMFYVVYL__ __UFPHVYLYL
Einfach: Schwierig:
Ulf Leser: Algorithmische Bioinformatik 27
Reale PAM Matrizen
• Annahme der Molecular Clock Theory
– Evolution verläuft gleichmäßig in der Zeit und in den Sequenzpositionen
• Damit: Hochrechnung der Matrixeinträge für lange x aus der Matrix für kurze x
• Vorgehen von Dayhoff et al. – Paare eng verwandter Sequenzen auswählen
• Sehr hohe %-Identität, 34 Proteinfamilien
– Manuell alignieren – PAM-1 Matrix M1 aus Häufigkeiten berechnen – PAM-x Matrizen berechnen durch: Mx=(M1)x
Ulf Leser: Algorithmische Bioinformatik 28
Cys 12 Gly -3 5 Pro -3 -1 6 Ser 0 1 1 1 Ala -2 1 1 1 2 Thr -2 0 0 1 1 3 Asp -5 1 -1 0 0 0 4 Glu -5 0 -1 0 0 0 3 4 Asn -4 0 -1 1 0 0 2 1 2 Gln -5 -1 0 -1 0 -1 2 2 1 4 His -3 -2 0 -1 -1 -1 1 1 2 3 6 Lys -5 -2 -1 0 -1 0 0 0 1 1 0 5 Arg -4 -3 0 0 -2 -1 -1 -1 0 1 2 3 6 Val -2 -1 -1 -1 0 0 -2 -2 -2 -2 -2 -2 -2 4 Met -5 -3 -2 -2 -1 -1 -3 -2 0 -1 -2 0 0 2 6 Ile -2 -3 -2 -1 -1 0 -2 -2 -2 -2 -2 -2 -2 4 2 5 Leu -6 -4 -3 -3 -2 -2 -4 -3 -3 -2 -2 -3 -3 2 4 2 6 Phe -4 -5 -5 -3 -4 -3 -6 -5 -4 -5 -2 -5 -4 -1 0 1 2 9 Tyr 0 -5 -5 -3 -3 -3 -4 -4 -2 -4 0 -4 -5 -2 -2 -1 -1 7 10 Trp -8 -7 -6 -2 -6 -5 -7 -7 -4 -5 -3 -3 2 -6 -4 -5 -2 0 0 17 Cys Gly Pro Ser Ala Thr Asp Glu Asn Gln His Lys Arg Val Met Ile Leu Phe Tyr Trp
PAM 250
250 Multiplikationen der PAM-1 Matrix mit sich selber
Ulf Leser: Algorithmische Bioinformatik 29
Verwendung
• Welche PAM Matrix soll man zur Alignierung zweier Sequenzen verwenden? – Die, die dem PAM-Abstand der Sequenzen entspricht – Den kennt man aber nicht – schätzen – Schätzung benötigt Alignments
• Zur Berechnung der Sequenzidentität
– Alignments basieren auf Substitutionsmatrizen – Henne – Ei Problem
• Also – Iteratives Verfahren einsetzten und auf Konvergenz warten – Verschiedene Matrizen testen – Externes Wissen (Chemie, Domänen, etc.) hinzuziehen – Default nehmen (und beten)
Ulf Leser: Algorithmische Bioinformatik 30
BLOSUM Matrizen
• Henikoff & Henikoff (1992). Amino acid substitution matrices from protein blocks. PNAS
• Hauptkritikpunkte am PAM Ansatz – PAM-x vervielfältigen Fehler in PAM-1 – Einbeziehung der kompletten Proteinsequenzen ist zweifelhaft
• Unterliegen alle Positionen der selben Mutationsrate?
• Neueres Verfahren: BLOSUM – BLOcks SUbstitution Matrix – Erster Schritt: Multiple Alignments evolutionär entfernter, aber
homologer Proteinsequenzen – Matrixberechnung nur aus konservierten Blöcken – Heute populärer als PAM Matrizen
Ulf Leser: Algorithmische Bioinformatik 31
Vorarbeiten
• PROSITE – Beschreibung funktionaler (=konservierter) Bereiche in homologen
Proteinsequenzen durch reguläre Ausdrücke – Expertenwissen - manuelle Pflege der Datenbank am EBI
• BLOCKS – Alignierung von durch PROSITE Ausdrücke gematchten Sequenzen
in Multiple Alignments (MSA) • Multiple Sequence Alignment (später mehr) • Heute: Verwendung weiterer Domänen aus PRINTS, PFAM, ...
– Ein Block ist ein zusammenhängendes und hochgradig konserviertes Stück eines MSAs
FMYMFYVVPL_PQ__QVY FYQQF__VQLYP_MFQV_ FMY__YUVQQP_UMUQ__
Ulf Leser: Algorithmische Bioinformatik 32
BLOSUM Matrizen
• Berechnung der BLOSUM Matrizen: Wie PAM-1 Matrix, aber
nur die Sequenzen in den Blocks werden betrachtet • BLOSUM–x Matrizen
– Bias durch viele sehr ähnliche Sequenzen • Sequenzdatenbanken sind keine zufälligen Stichproben
– Zur Berechnung der BLOSUM-x Matrix werden in jedem Block alle Sequenzen mit >x%-Identität zu einer Sequenz zusammengefasst
– Gänzlich andere Bedeutung des „x“ als in PAM-x – Aber ähnliche Verwendung: x hängt mit dem evolutionären Abstand
der betrachteten Sequenzen zusammen
• BLOSUM-62 heute typischer Default bei Alignments
Ulf Leser: Algorithmische Bioinformatik 33
Zusammenfassung
• Willkommen im Reich der Heuristiken • Substitutionsmatrizen
– Beobachtung evolutionär entstandener Unterschiede – Schätzung des wahren evolutionären Abstands aus der Zahl der
Unterschiede • Abstand = Zahl der Punktmutationen ≠ Zeiteinheit
– Implizite Beachtung vielfältiger Faktoren • Ladungen, Nachbarschaft, 3D-Struktur, …
– Berechnung von Matrizen immer mit Hilfe von Alignments • Iterative Strategien
Ulf Leser: Algorithmische Bioinformatik 34
Literatur
• Ewens, W. J. and Grant, G. R. (2001). "Statistical Methods in Bioinformatics", Springer.
• Dayhoff, M. O., R. V. Eck, C. M. Park. 1972. A model of evolutionary change in proteins. In M. O. Dayhoff, ed., Atlas of Protein Sequence and Structure Vol. 5.
• Henikoff, S. and Henikoff, J. G. (1993). "Performance evaluation of amino acid substitution matrices." Proteins 17(1): 49-61.
Ulf Leser: Algorithmische Bioinformatik 35
Selbsttest
• Was will das Jukes-Cantor Modell berechnen? • Warum spricht man dabei immer vom „Erwartungswert“.
Kann man die Zahl der Mutationen nicht exakt bestimmen? • Was besagt die Molecular Clock Theory? • Wie werden PAM Matrizen berechnet? • Wie werden BLOSSUM Matrizen berechnet (und warum
reicht PAM nicht)?