Top Banner
Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber
52

Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Apr 06, 2016

Download

Documents

Rüdiger Wagner
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Gene Prediction

Marco BlockJonas Heise

Nima KeshvariMichael Schreiber

Page 2: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Einführung

• Wichtiges Gebiet der Bioinformatik• Problematik (exon alignment problem)• Biologische Herangehensweise• Kombinatorischer Ansatz

• exon assembly problem auf Pfadsuche in einem gerichteten Graphen reduzieren (spliced alignment problem)• Optimierung : spliced alignment problem auf network alignment problem (Kruskal) transformieren

Page 3: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

exon alignment problem

Page 4: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

exon alignment problem

Page 5: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

exon alignment problem

Page 6: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

exon alignment problem

Page 7: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

exon alignment problem

Page 8: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

exon alignment problem

Page 9: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

exon alignment problem

Page 10: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

exon alignment problem

Page 11: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Grundlagen der Biologie

Die Zelle ist von der Zellhülle oder –membran umgeben.

Im Zellleib oder Soma befindet sich der Zellkern.

Im Zellkern ist das Erbmaterial, die DNS.

Page 12: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Grundlagen der Biologie

Auf der DNS liegen die Gene.

Die Gene codieren für Proteine.

Page 13: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Grundlagen der Biologie

Die Gene sind unterteilt in Exons und Introns.

Page 14: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Grundlagen der Biologie

Die Exons werden bei der Translation (Produktion eines Proteins aus mRNA) übersetzt, die Introns werden durchSplicing entfernt.

Page 15: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Biologische Herangehensweise

RT-PCR

Page 16: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Naiver Ansatz

- Suche alle möglichen Exon-Blöcke- Finde durch ausprobieren aller möglichen Kombinationen die bes

Page 17: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz

1. Rekursives Verfahren2. Gerichteter Lösungsgraph wird erstellt

Page 18: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 1a/10

Begrifflichkeiten :

G String mit g1...gn (genomic sequence)

T String mit t1...tm (target sequence)

= {B1,B2,...,Bb}B Substring von G mit gi...gj

s(G,T) optimal alignment zwischen G und T

= (B1,B2,...,Bb) mit B1<B2<...<Bb

* String mit B1 * B2 * ... * Bb)

(i) = {k : last(k) < i}, Blöcke die strikt vor der Position von i enden

Page 19: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 1b/10

Page 20: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 2/10

Nun lässt sich das spliced alignment problem mit G,T und B formulieren, als :

Suche nach der Stringkette , die unsere Funktion s(*, T), unter allen möglichen Blockketten aus B, maximiert.

Page 21: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 3/10

Wir erstellen einen Graphen, dessen Knoten die Blöckeund dessen Kanten die potential transitions zwischen diesensind. Das Kantengewicht ergibt sich aus dem optimal alignment zwischen den konkatenierten Blöcken.

Dieses Problem ist aber nicht mit dem kürzesten-Wege-Problemverwandt, da die Gewichte der Knoten und Kanten in denGraphen noch nicht definiert sind.

Page 22: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 4/10

Page 23: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 5/10

Page 24: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 5/10

Page 25: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 5/10

Page 26: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 5/10

Page 27: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 5/10

Page 28: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 5/10

Page 29: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 6/10

Aufruf :

Page 30: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 7/10

Laufzeit :

Wir können, das spliced alignment problem zu dem bereits vonKruskal formulierten network alignment problem transformieren.

Dabei versuchen wir den Weg zu finden, der die grösste Ähnlichkeitmit einer gegebenen target-Sequence besitzt.

Laufzeit :

O(mnc * mb²)

O(mnc * mb)

Es werden nun weniger Kanten benötigt.

Page 31: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 7/10

Graphskizze :

Page 32: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 9/10

Page 33: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 8/10

Page 34: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 8/10

Page 35: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Vergleichsfunktion

• Zwei Aminosäuren As1 und As2 werden nach chemischer Ähnlichkeit verglichen

• Eine Matrix liefert die Score für jedes As-paar

• Bewertungsmatrix kann angepasst werden, keine Optimale Lösung bekannt

Page 36: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Beispielmatrix•Scoringmatrix, nach Myers/Miller •Verwendet im Programm „ ALIEN“ ( berechnet multiple sequence Alignment )

Page 37: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

BeispielmatrixE : Glutamat, geladene As

F: Phenylalanin, aromatische unpolare As

-> negative Score (Penalty)

Page 38: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

BeispielmatrixK : Lysin, basische As

F: Arginin, ebenfalls basisch

-> positive Score

Page 39: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 8/10

Page 40: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Option 2

Biologisches Phänomen:

In der DNA kann es zu INsertion und DELetion von Basen kommen, es kann also ein besserer Match gefunden wenn statt zu Vergleichen diese Basen übersprungen werden. Dabei wird eine Penalty vergeben ( negatives Vorzeichen von indel !!!)

Page 41: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Beispiel zu InDel

LIEBELEBEN mögliches Annealing: 1Match

LIEBE_L_EBEN besseres Annealing: 4 Matches, 2 InDel‘s

Page 42: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 8/10

Page 43: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 8/10

Page 44: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 8/10

Page 45: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 8/10

Page 46: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 8/10

Page 47: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Vergleich beider VerfahrenRT-PCR

Spliced Alignment

Vorteile : Nachteile :

Vorteile : Nachteile :

- nachweisbar (genauer)

- kurze Sequenzen probl.- ...

- schnelleres Verfahren- je mehr Daten zur Verfügung, desto optimaler

- grosser Aufwand

Page 48: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Weitere Problemlösungsansätze

• Statistische Annäherung• Hidden Markov Modelle• Reverse Gene Finding

Page 49: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz ZusatzBeispiel :

genomic sequence : It was brilliant thrilling morning and the slimy hellish lithe doves gyrated and gambled nimbly in the waves.

famous line : ´t was brillig, and the slithy toves did gyre and gimble in the wabe. (Lewis Carroll)

Page 50: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Kombinatorischer Ansatz 7/10

Ablauf des Algorithmus :

Page 51: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Option 1

Rekursive Berechnung: S(i, j, k) ist Summe aus :-Score des vorherigen Schrittes-Ergebnis der Vergleichsfunktion As1, As2

Page 52: Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.

Option 3

Am Anfang eines neuen Blocks wie Option 1, aber Bezug auf vorherigen Block.