Page 1
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
3D Repräsentation von DNA Sequenzen
Tomislav GrgatPatrick Gutbell
Proseminar:Visualisierung in der Bioinformatik
Sommersemester 2003
Johann Wolfgang Goethe Universität FrankfurtFachbereich: Graphische Datenverarbeitung
Page 2
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Übersicht
● Einführung
● H Curve
● Z Curve
● ADN Viewer
● Zusammenfassung
Page 3
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Einführung
Page 4
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
DNA (Desoxyribonukleinsäure):
• Trägerin der Erbsubstanz
• Bauplan der Baustoffe(Strukturproteine)
und Bauarbeiter (Enzyme) einer Zelle
•Information in der Basenabfolge
Page 5
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Page 6
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Spezifische Sequenzbereiche:
• Introns
• Exons
• repetitive Sequenzbereiche
• Palindrome
• Sequenzbereiche mit hohem GC-Gehalt
Page 7
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Repetitive Sequenzen:
•10-25% repetitive Sequenzen
• meist an Enden von Chromosomen; dienen zur Erhaltung der Chromosomenspitzen
• Transposons: transponierbare genetische Elemente: können Ort innerhalb des Genoms wechseln
Page 8
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Palindrome:
Erkennungstelle für Enzyme
5` C C G C G G 3` 3` G G C G C C 5`
RADAR
Page 9
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Was sagt der GC-Gehalt der DNA aus?
• Anteil von Guanin und Cytosin an den Basen der DNA
• grobe Aussage über den Verwandtschaftsgrad =>geringe Variation deutet auf enge Verwandtschaft
•Genkonzentration korreliert mit GC-Gehalt
Page 10
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Warum eine 3D-Darstellung der DNA ?
Page 11
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
1 gatcattctt ccatgtaggg gcaccctgtg ctatgtgggg ggttgagcag catcctgggc 61 ctctacctcc agttgagatg gccacagatg cctccaggct gggcatctct gcttgagggg 121 agctgtcttg gcctagaaca caggctgggg gccgctggtc cagcaggagc cttcctgcct 181 cgattccctc ttggcctgcg gtgagtgttt gcagctctcc ccccgtctgt ctcctgactt 241 tccctgggct gggctggtct tgttgtgtca ccctgtttct gccagacctt gagattccag 301 tcaaaataaa acagcggtgg atagaggggc tgagtgtggc cccccgaggc cctgggacat 361 cttttaccat tcgctgtcac agccgagatc tcccctgtgt cagtgatcct atgcaacatc 421 cccagataac agtgcagggc agataagtga ggatgtggtg aagggaaatg ggggagtgga 481 cgaggggcgt ccccggggag gatggcgcct accacgggca gtaaggaggt ctgcgtgagg 541 gatgcaggga cacaggaggc cagggtggca tcctgcctcc tacttgcgca ggtccagcgg 601 ggatcagagt ggaggcctcg caccagctct gggacatgaa ggggcccgag gcagcccttg 661 tggccacacg ggccttgtca tggttcggcc tttccactct gtgttccgaa ctgtgcagtg 721 tgtatgtgta ggcacagatg tgtgcccgtg cccatgccta ggactttgcg tgtgtctgta 781 cgtgtgattt cgtgtgtgtg tgcatcttcg ttggcgacac acgtgtgcaa tagttcttcc 841 atttcatttt ctctggtttg ggttacattc acccaactat gatgttgaaa atattaaatg
Page 12
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Page 13
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Welche Kriterien sollte die Darstellung erfüllen ?
• Analyse von Sequenzdaten
• Vergleich mit anderen Sequenzen
• Präsentation einer großen Datenmenge
Page 14
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
DNA 3D-Visualisierungen:
• H-Curve
• Z-Curve
Page 15
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Prinzip der H-Curve Berechnung:
• jedem Nukleotid wird ein Vektor im 3D-Raum zugewiesen • Startpunkt (0,n,0)
• Vektoren werden entsprechend der Basenfolge aneinandergehängt
Page 16
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Basisvektoren:
B: (x, y, z)
A: (1, -1, 1 )T: (1, -1, -1)C: (-1,-1,-1)G: (-1, -1, 1)
Page 17
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Beispiel für Sequenzabfolge: ACT
Koordinaten:(x, y, z)
Startpunkt: ( 0, 3 , 0) A ( 1, -1, 1) + ( 1, 2, 1) C (-1, -1,-1) + ( 0, 1, 0) T (1, -1, -1) +Endpunkt: (1, 0, -1 )
Page 18
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Welche Möglichkeiten bietet die H-Curve:
A)gibt relative Basenzusammensetzung innerhalb einer Sequenz an
B)Erkennung von spezifischen Sequenzabschnitten
D)Vergleich zwischen Sequenzen
E) Darstellung des Gesamten DNA-Stranges
Page 19
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Teil des Genoms von Bacteriophage M13
Page 20
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
2D Projektionen der H-Curve
A B
A : Kurve zeigt relative Purin/Pyrimidin-Verteilung an
(Seq.:ACT)
B : Kurve zeigt relative CG/AT-Verteilung an
Page 21
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Endpunkt-Indikator der H-Curve:C T
AG
Page 22
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Erweiterbare Funktionen zur H-Curve:
• 2D-Projektion
• Smoothed H-Curve
• Distortion-Viewing-Tool
Page 23
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
„Smoothed“ H-Curve
• Errechnet sich aus Mittelwerten • Lokale Muster nicht wichtig
• Gesamtstruktur ist entscheidend
Page 24
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Distortion-Viewing-Tool:
Page 25
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Nachteile der H-Curve-Darstellung:
• Ungenauigkeit
• nicht frei erhältlich
• Wenige Zusatzfunktionen
Page 26
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Vorteile der H-Curve- Darstellung:
• direkter visueller Check des Gesamt-DNA Strangs
• direkte Angabe der relativen Basenzusammensetzung
Page 27
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Z Curve● Definition
● Visuelle Anwendungen
● Analytische Ableitungen
Page 28
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
DNA Sequenz aus 29 751 BasenpaarenQuelle: Z Curve Database
http://tubic.tju.edu.cn/zcurve/
Page 29
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Z Curve
● Dreidimensionale vollständige Repräsentation einer DNA Sequenz
● Z Curve und DNA Sequenz lassen sich eindeutig aus der jeweils anderen konstruieren
● Zhang.C.T und Zhang.R (1994)
● Z Curve Database: http://tubic.tju.edu.cn/zcurve/
Page 30
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Berechnung der Z Curve
● Folge von P0,P1,...,PN Punkten in 3D
● Die sequentielle Verbindung der Punkte durch Linien ergibt die 3-dimensionale Z Curve
● N ist die Anzahl der Basenpaare der DNA Seq.
● Berechnung der Punkte erfolgt mittels der sog. „Z Transform“
Page 31
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Z Transform
An,G
n,C
n,T
n bezeichnen die Auftreten der Basen
A,G,C und T in der DNA Sequenz bis zur n-ten Stelle
Page 32
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Inverse Z Transform
An + C
n + G
n + T
n = n
Page 33
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Bedeutung der „Z Transform“
● Jede Komponente xn,yn,zn repräsentiert die Verteilung bestimmter Basentypen zueinander:
– xn repräsentiert die Verteilung von Purin/Pyrimidin (R,Y)
– yn repräsentiert die Verteilung von Amino/Keto (M,K)
– zn repräsentiert die Verteilung von Starken/Schwachenwasserstoffbindenden Basentypen (S/W)
Page 34
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Bedeutung der „Z Transform“
● Ist xn > 0 dominieren Purin Basen (A oder G) über Pyrimidin Basen (C oder T)
● Ist yn > 0 dominieren Amino Basen (A oder C) über Keto Basen (G oder T)
● Ist zn > 0 dominieren schwache Wasserstoff-bindende Basen (A oder T) über stark Wasserstoffbindende Basen (G oder C)
Page 35
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Symmetrie der Z Curve
Quelle: Z Curve Database http://tubic.tju.edu.cn/zcurve/image/ecolik12.JPG
Page 36
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
4.6 Millionen Basenpaare
5.5 MillionenBasenpaare
Vergleich von DNA Sequenzen unterschiedlicher Länge
Page 37
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Visueller Vergleich von DNA Sequenzen
Quelle: Zhang R, Zhang C.T: The Z curve database: a graphic representation of genome sequences (2003)
Page 38
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Analyse des GC Gehalts
● Neue 2D Kurve leitet sich aus der z-Komponente ab:
z'n = zn – k X n
● Steigt bzw. sinkt die z'n Kurve, so überwiegen A und T bzw. G und C Basen in dieser Region
Page 39
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Vibrio Cholerae, Quelle: Zhang R, Zhang C.T: The Z curve database: a graphic representation of genome sequences (2003)
Page 40
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
AT- und GC-Disparitäten
● Chargaffs 2. Paritäts Regel besagt
– AN ~ TN
– GN ~ CN
● In den Koordinaten der Z Curve ausgedrückt:
– (xN + yN) ~ 0
– (xN – yN) ~ 0
(2 neue Kurven in 2D)
Page 41
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Sybean chlorotic mottle virusQuelle: Zhang R, Zhang C.T: The Z curve database: a graphic representation of genome sequences (2003)
Page 42
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Kennedya yellow mosaic virusQuelle: Zhang R, Zhang C.T: The Z curve database: a graphic representation of genome sequences (2003)
Page 43
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
3D Darstellung der räumlichen DNA Struktur
Page 44
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Räumliche Struktur der DNA
● Diesmal: Darstellung der natürlichen 3-dimensionalen Struktur des DNA Moleküls
● Dies erlaubt z.B. die Visualisierung:
– Der lokalen Dichte des DNA Moleküls
– Der Kurvatur
– Der räumlichen Ausdehnung
Page 45
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
ADN Viewer
● Software zur Visualisierung der räumlichen DNA Struktur
– Eingabe: DNA Sequenz
– Berechnung der 3D Struktur anhand eines vom User wählbaren Verfahrens
– 3D Darstellung der DNA
– Bietet Möglichkeit der Detailansicht (Zoom)
– Hervorheben bestimmter DNA Merkmale (z.B. einzelner Gene, in Verbindung mit Datenbank)
Page 46
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
300 000 Basenpaare
Quelle: Joan Herisson and Rachid Gherbi: Model-based prediction of the 3D Trajectory of Huge DNA Sequences
Page 47
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Ausschnitt dervorherigen Ansicht
Ausschnitt inkl. farbkodierter Darstellung der Nukleotide
Page 48
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Visualisierung einzelner Gene (weiss) eines DNA Moleküls (S. cerevisiae chrI)
Page 49
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Zusammenfassung
Page 50
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Zusammefassung
● Statistische 3D Darstellung
– H Curve, Z Curve
– Visueller Vergleich
– Analytische Ableitungen ● 3D Struktur des DNA Moleküls
– ADN Viewer
– Studium der räumlichen DNA Struktur
Page 51
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003
Vielen Dank für Eure Aufmerksamkeit
Fragen?
Page 52
Seite 1 Tomislav Grgat Patrick Gutbell
3D Repräsentation von DNA Sequenzen Proseminar GDV SS2003