1 Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 13. Ab-initio-Vorhersage Gliederung • Ab-Initio-Vorhersage – Konformationsraum – Systematische Suche – Stochastische Methoden – Metropolis-Monte-Carlo-Methode • ROSETTA – Fragment Assembly – Bewertungsfunktion – Algorithmus – Ergebnisse • ROBETTA Ab-Initio-Vorhersage • Modellierung auf homologe Strukturen schlägt dann fehlt, wenn ein Protein einer völlig neuen Faltungsklasse angehört • Threading findet in diesem Fall keine passende Schablonenstruktur • Abhilfe schaffen ab-initio-Verfahren, die die Struktur „aus ersten Prinzipien“, d.h. ohne Zuhilfenahme homologer Strukturen vorhersagen • Dieses Problem ist wesentlich schwieriger als Threading, entsprechend sind die Erfolgsquoten schlechter • Ab-initio-Methoden müssen Konformationsraum der Sequenz durchmustern und darin die native (d.h. in der Natur vorliegende) Struktur identifizieren (über eine geeignete Energiefunktion)
12
Embed
Bioinformatik für Biochemiker - abi.inf.uni-tuebingen.de · • Abhilfe schaffen ab-initio-Verfahren, die die Struktur „aus ersten Prinzipien“, d.h. ohne Zuhilfenahme homologer
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen
Ab-Initio-Vorhersage • Modellierung auf homologe Strukturen schlägt dann fehlt, wenn
ein Protein einer völlig neuen Faltungsklasse angehört
• Threading findet in diesem Fall keine passende Schablonenstruktur
• Abhilfe schaffen ab-initio-Verfahren, die die Struktur „aus ersten Prinzipien“, d.h. ohne Zuhilfenahme homologer Strukturen vorhersagen
• Dieses Problem ist wesentlich schwieriger als Threading, entsprechend sind die Erfolgsquoten schlechter
• Ab-initio-Methoden müssen Konformationsraum der Sequenz durchmustern und darin die native (d.h. in der Natur vorliegende) Struktur identifizieren (über eine geeignete Energiefunktion)
2
Suche im Konformationsraum
• Energiehyperflächen beschreiben Energie des Proteins als Funktion der Konformation
• Minima – entsprechen günstigen Konformationen
(Konformeren)
– sind meist lokale Minima!
• Globales Minimum ist Lösung des Vorhersageproblems
• Kann man die Energiehyperfläche systematisch durchmustern?
Systematische Suche
• Geht nur für kleine Anzahl Freiheitsgrade (kombinatorische Explosion)
• Beispiel – Protein mit 1000 Atomen – Koordinaten in Würfel von 20 Å Seitenlänge – Diskretisierung mit 0.2 Å Abstand ) 100 mögliche Werte für jede der 3000 Koordinaten
) 106000 mögliche Energien (Das Universum enthält ca. 1080 Teilchen!)
Systematische Suche
• Unabhängige Betrachtung der
Koordinaten ist naiv
• Flexibilität wird überwiegend durch
Torsionen bestimmt
• Wesentlich geringere Anzahl
Freiheitsgrade (ca. 2-7 pro AS)
• Wenige Minima in den Torsionen
) grobe Rasterung (0/120/240°)
• Vermeidet Betrachtung physikal.
unsinniger Konformationen
Beispiel:
• 1000 Atome ~ 50 AS
) 200 Torsionen
• 3200 ¼ 1095 Konformationen
) immer noch viel!
3
Stochastische Methoden
• Naiver Ansatz: Zufälliges Abtasten des Konformationsraums • Problem
– Energetisch ungünstige Punkte werden in der Natur seltener angenommen, hier jedoch gleich oft betrachtet
Sampling des Konformationsraums • Protein kann per se beliebige
Punkte im Konformationsraum annehmen
• Fast alle sind energetisch sehr ungünstig
• In der Realität liegt ein Ensemble von Molekülen vor
• Einzelne Konformationen treten mit ihrer Energie gewichtet auf
Boltzmann-Statistik
• Gegeben ein System
– N Teilchen
– Konstante Gesamtenergie
– Zustände E0 ... Ek mit E0 < E1 < E2...
– Ni Teilchen sind in Ei
– Gesamtzahl ∑ Ni = N
• Im Gleichgewicht verteilen sich die
Teilchen auf die Zustände gemäß
einer Boltzmann-Verteilung
4
Wahrscheinlichkeitsdichte
• Boltzmann-Verteilung entspricht der
Wahrscheinlichkeitsdichte ρ im NVT-Ensemble
mit der Zustandssumme Q
• ρ(r, p) = Wahrscheinlichkeit ein Teilchen des
Ensembles im Zustand (r, p) zu finden.
Stochastische Methoden
• Wähle zufällige Stichproben im Konformationsraum aus
• Die Mehrzahl der betrachteten Punkte wird energetisch ungünstig sein
• Mit einer großen Anzahl Versuche steigt aber auch die
Wahrscheinlichkeit in Regionen niedriger Energie zu gelangen
A
Importance Sampling
• Für fast alle Punkte des Konformationsraums sind die Boltzmann-Faktoren vernachlässigbar (ρ ¼ 0)
• Idee – Stichproben bevorzugt dort, wo ρ > 0
– Erspart unnütze Berechnungen
• Probleme – Wie kann ich ρ vermeiden?
– Berechnung der Zustandssumme?
5
Monte-Carlo-Methode
• Die Monte-Carlo-Methode hat ihren
Namen aus der Verwendung von
Zufallszahlen
• 1949: Metropolis und Ulam
verwenden den Begriff zum ersten
Mal
• 1953 Metropolis-Algorithmus
• 1970 und 1995 von Hastings und
Green zur Metropolis-Hastings-Green-Methode generalisiert
Metropolis, Ulam. The Monte Carlo method, J. Am. Statist. Assoc. (1949), 44 (247), 335-341
Systematische Suche vs. MC
Frenkel, Smit: Understanding Molecular Simulation, p. 24
Metropolis-Monte-Carlo
• Zustandssumme (und damit ρk) ist aufwändig zu berechnen
• Leicht dagegen: ρi/ρj
• Metropolis-Monte-Carlo-Algorithmus erzeugt nun diese einzelnen Zustände mit ihren relativen Wahrscheinlichkeiten, d.h. energetisch günstigere Zustände werden häufiger durchlaufen als ungünstige
6
MMC-Algorithmus
Für k Iterationen Wähle Schritt von rk-1 ! rk im Konformationsraum Falls Ek · Ek-1:
Akzeptiere Schritt Falls Ek > Ek-1:
Wähle gleichverteilte Zufallszahl x 2 [0, 1] Falls x < exp(-(Ek – Ek-1)/(kBT))):
Akzeptiere Schritt Andernfalls:
Bleibe bei alter Konformation
Einfluss der Temperatur
• Temperatur entspricht Energie:
Ekin = 3/2 RT
• Mit der Gaskonstante R = 8.314 J/(K mol) ergibt sich für Raumtemperatur (298 K): Ekin = 3.7 kJ/mol
E
Einfluss der Temperatur
• Maxima die tiefer oder auf Höhe der Temperatur liegen, stellen für die Simulation kein Problem dar.
• Höhere Maxima werden mit einer gewissen Wahrscheinlichkeit erst überschritten, wenn die Temperatur entsprechend hoch ist.
E
7
Einfluss der Temperatur
• Maxima die tiefer oder auf Höhe der Temperatur liegen, stellen für die Simulation kein Problem dar.
• Höhere Maxima werden mit einer gewissen Wahrscheinlichkeit erst überschritten, wenn die Temperatur entsprechend hoch ist
E
Simulated Annealing • Simulated Annealing ist eine
Optimierungstechnik, bei der man bei hohen Temperaturen beginnt und diese im Lauf der Simulation absenkt
• Zu Anfang der Simulation werden dabei bevorzugt große, globale Schritte akzeptiert und der gesamte Raum abgetastet
• Gegen Ende der Simulation werden hingegen überwiegend kleine, lokale Schritte akzeptiert
• Je langsamer die Absenkung der Temperatur, desto höher die Wahrscheinlichkeit das globale Minimum zu finden
Absenkung der Temperatur kann stufenweise oder kontinuierlich erfolgen
T
t
Fragment Assembly
• Fragment-Assembly-Methoden wie ROSETTA verwenden Fragmente bekannter Strukturen
) nicht „ab initio“ im engeren Sinn
(auch „Mini-Threading“ genannt)
• Fragmente haben eine Reihe von Vorteilen – Fragmente reduzieren und diskretisieren den
Suchraum
– Fragmente sind nahe an optimalen Teilkonformationen: jedes Fragment kommt aus einer Struktur die selbst optimal ist
8
ROSETTA
Kernideen • Betrachtung des
Konformationsraums für Teilsequenzen
• Teilsequenzen nehmen nur geringe Anzahl energetisch günstiger Konformationen an
• Diese Konformationen werden durch einen Satz Fragmente äquivalent repräsentiert
• Konformationen der Fragmente überwiegend durch lokale WW bestimmt
Simons et al., J. Mol. Biol. (1997), 268, 209 Simons et al., Proteins (1999), 34, 82
• Algorithmus – Simulated Annealing: MMC mit linear sinkender Temperatur
– Feste Anzahl Schritte (10000)
Fragmentbibliothek
• Abgeleitet aus nicht-redundantem Teilsatz der PDB
• Aus den Strukturen werden alle 9-mere und 3-mere gesammelt
• Zu jeder Teilsequenz der Zielsequenz werden daraus die 25 nächsten Fragmente ausgewählt
• ROSETTA verwendet Fragmente der Längen 3 und 9
9
Bewertungsfunktion • Rosetta verwendet eine Bewertungsfunktion basierend auf
bedingten Wahrscheinlichkeiten, abgeleitet aus Strukturdatenbanken
• Prinzipiell nur ein elegante Art ein paarweises Potential für eine Sequenz x in einer Struktur y zu schreiben: – P(x|y) : Wahrscheinlichkeit, dass Sequenz x Struktur y annimmt – P(xi, xj|rij): Wahrscheinlichkeit für Reste xi, xj für einen Abstand rij – P(xi, xj): A-priori-Wahrscheinlichkeiten der Reste xi, xj
Unabhängig von Struktur Sippl-Potential!
Algorithmus
Bestimme 25 nächste Nachbarn für jede Teilsequenz
Starte mit gestreckter Struktur
Für 10000 Iterationen:
Wähle zufällig eine Teilsequenz x´ aus x
Wähle zufällig x´´ aus den Fragmenten für x´
Ersetze die Torsionswinkel in x´ mit denen aus x´´
Wenn dadurch Atome überlappen, verwerfe Zug
Berechne Score
Akzeptiere Zug gemäß MMC-Kriterium
ROSETTA
ROSETTA-Trajektorie von 1UBI
10
ROSETTA – Ergebnisse CASP5
Verwendung von ROSETTA • ROSETTA erzeugt eine ganze Anzahl von Strukturen
• Diese Strukturen werden mit Hilfe der Scoring-Funktion bewertet: bester (negativster) Score = beste Struktur
• Je mehr Durchläufe (d.h. unabhängige Simulationen) durchgeführt werden, desto höher die Chance eine sehr gute Struktur zu finden
• Stochastische Methoden verwenden Zufallszahlen: jeder Lauf erzeugt andere Ergebnisse!