1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für I Sequenzanalyse II Analyse von Proteinstruktur und Ligandenbindung III Zell- bzw. Netzwerksimulationen www.cellzome.com www.accelrys.com
34
Embed
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 1
Softwarewerkzeuge der Bioinformatik
Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für
I Sequenzanalyse
II Analyse von Proteinstruktur und Ligandenbindung
III Zell- bzw. Netzwerksimulationen
www.cellzome.com
www.accelrys.com
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 2
„Lernziele“
Lerne aktuelle und bewährte Programme und Datenbanken der Bioinformatik
kennen und erfolgreich einzusetzen um
- „Hands-On“ mit Web-Tools arbeiten, mit denen man bioinformatische Fragen
bearbeiten kann
- zu wissen, was auf dem Markt ist („das Rad nicht zweimal erfinden“)
- ein Gefühl dafür zu bekommen, wie erfolgreiche Softwareprodukte
aussehen (sollen)
- 3 Mini-Forschungsprojekte zu bearbeiten (Bioinformatiker/Biotechnologen)
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 3
Jede Woche Vorlesung Freitag 10.15 – 12.00 Uhr
Seminarraum 007, Geb. E 2 1 Dozent: Prof. Helms
Übungen „hands-on“ Beginn heute am 15.4.
(a) für Bioinformatiker und Biotechnologen: Freitag, 12:45 Uhr - 14:15 Uhr, E1 1
CIP-Pool 104 (vermutlich später in E 2 1 CIP). Die Teilnahme an der Vorlesung ist
nicht obligatorisch, jedoch die Teilnahme an der Übung.
(b) für die Biologen (4. Semester Bachelor) findet freitags von 12:00 Uhr - 13:00
Uhr eine Extra-Übung in CIP-Pool 104, E1 1, statt. Die Teilnahme an der Übung für
Biologen wird zur Vertiefung des Vorlesungsstoffes sehr empfohlen, ist aber
freiwillig.
Verantwortliche Betreuer der Übungen Tutoren
Sequenz-Analyse Nadine Schaadt Thorsten Klingen
Proteinstruktur Dr. Michael Hutter Matthias Döring
Zellsimulationen Christian Spaniol
Organisatorisches
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 4
Organisatorisches
Jeder Teilnehmer an den Übungen benötigt einen
Rechneraccount für den CIP-Pool.
Für alle Biologen wurden bereits Accounts besorgt.
Biotechnologen: bitte in Liste eintragen
4. Pflichten der BenutzerDer Benutzer verpflichtet sich,a) die bereitgestellten Betriebsmittel sorgfältig zu benutzen;b) das Passwort des ihm zugeteilten Benutzerkennzeichens geheim zu halten ...;...d) alles zu unterlassen, was den ordnungsgemäßen Ablauf der Anlage stört;e) in den Arbeitsräumen sich so zu verhalten, dass andere Benutzer nicht gestört werden;f) Störungen ... zu melden und diese nicht auszunutzen;g) in den Räumen ... sowie bei Inanspruchnahme seiner Geräte ... den Weisungen des Personals des Anlagenbetreibers Folge zu leisten;...l) lizensierte Software nur nach Absprache mit dem jeweiligen BfR einzuspielen und zu verwenden;m) von der Fak6 oder der Universität des Saarlandes bereitgestellte Software, Dokumentationen oder Daten weder zu kopieren noch an Dritte weiterzugeben, sofern dies nicht ausdrücklich erlaubt ist, noch zu anderen als den erlaubten Zwecken zu verwenden,
Zugang zum CIP-Pool: Für Bioinformatik-Studenten 24/7,
für alle anderen während der Übungsstunden.
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 5
Organisatorisches: Scheinvergabe B.Sc. Bioinformatik und Biotechnologie M.Sc.
1992: Sekundärstrukturvorhersage mit Neuronalen Netzwerken (PHD)
machine learning
1996: Vergleich von Proteinstrukturen mit DALI
2000: Durchbruch bei Sequenz-Assemblierung aus Shotgun-Daten (E. Myers)
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 11
Die vier Nukleotidbasen
Zvelebil (2008)
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 12
Codonsonne
Zvelebil (2008)
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 13
Eigenschaften der Aminosäuren
Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften.
Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen?
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 14
Einleitung: Aminosäuren
Aminosäuren sind die Bausteine von Proteinen:
R
NH
H
O
OH
H
Carboxylsäure
Aminogruppe
Aminosäuren unterscheiden sich hinsichtlich ihrer- Größe- elektrischen Ladung- Polarität- Form und Steifigkeit
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 15
Proteine sind aus 20 verschiedenen natürlichenAminosäuren aufgebaut
5 sind hydrophob.Sie sind vor allemIm Proteininneren. H
NH
H
O
OH
H
CH
NH
H
O
OH
H
CH
NH
H
O
OH
CH
H
CH
NH
H
O
OH
CHCH
H
CH
NH
H
O
OH
CH
CH
H
CH
H C
Glycine
3
3
2 3
Alanine3
Valine
33
Leucine3
2
Isoleucine
Einleitung: hydrophobe Aminosäuren
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 16
Es gibt drei voluminöse aromatische Aminosäuren. Tyrosin und Tryptophan
liegen bei Membranproteinen vor allem in der Interface-region.
H
CH
NH
H
O
OH
H
CH
NH
H
O
OH
OH
H
CHN
CH
NH
H
O
OH
H
Phenylalanin
2
Tyrosin
2
Tryptophan
2
Einleitung: aromatische Aminosäuren
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 17
Es gibt 2 Schwefel enthaltende Aminosäuren und das ungewöhnliche Prolin.
Cysteine können Disulfidbrücken bilden.
Prolin ist ein “Helixbrecher”.
H
S
CH
NH
H
O
OH
H
H
CH
CH
NH
H
O
OH
S
CH
HNH
H
O
OH
CH
CHCH
Cystein
2 2
2
3
Methionin
2
Prolin
2
2
Einleitung: Aminosäuren
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 18
Es gibt zwei Aminosäuren mit terminalen polaren Hydroxlgruppen:
H
CH2
CH
NH
H
O
OH
OH
H
CH
CH
NH
H
O
OH
CH O H
Serin
2 2
3
Threonin
Einleitung: Aminosäuren
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 19
Es gibt 3 positiv geladene Aminosäuren. Sie liegen vor allem auf der
Proteinoberflächen und in aktiven Zentren.
Thermophile Organismen besitzen besonders viele Ionenpaare auf den Protein-
oberflächen.H
CH
NH
H
O
OH
CH
CH
CH
NH
H
CH
NH
H
O
OH
CH
CH
N H
NH NH
H
CH
NH
H
O
OH
N N
H
H
H
H
Lysin
2
2
2
2
3
+
2
2
2
2 2
+
Arginin
2
+
Histidin
Einleitung: Aminosäuren
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 20
Es gibt 2 negativ geladene Aminosäuren und ihre zwei neutralen Analoga.
Asp und Glu haben pKa Werte von 2.8. Das heisst, erst unterhalb von pH=2.8
werden ihre Carboxylgruppe protoniert.
H
CH
NH
H
O
OH
O O
H
O O
CH
NH
H
O
OH
CH
H
CH
NH
H
O
OH
O NH
H
O NH
CH
NH
H
O
OH
CH
Asparaginsäure
2 2
Glutaminsäure
2
Asparagin
2 2
Glutamin
2
2
2-
-
Einleitung: Aminosäuren
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 21
• Ein- und Drei-Buchstaben-Codes der Aminosäuren
G Glycin Gly P Prolin ProA Alanin Ala V Valin ValL Leucin Leu I Isoleucin IleM Methionin Met C Cystein CysF Phenylalanin Phe Y Tyrosin TyrW Tryptophan Trp H Histidin HisK Lysin Lys R Arginin ArgQ Glutamin Gln N Asparagin AsnE Glutaminsäure Glu D Asparaginsäure AspS Serin Ser T Threonin Thr
Zusätzliche CodesB Asn/Asp Z Gln/Glu X Irgendeine Aminosäure
Die Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments und für Proteinstrukturanalyse!
Buchstaben-Code der Aminosäuren
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 22
- Analysen auf Basis der primären Datenbanken
- Klassifizierungen nach Ähnlichkeit
- Sequenzinformationen
- zugehörige Annotationen
- Kreuzreferenzen zu anderen Datenbanken
primär sekundär
DNA-/ Nukleotid-Sequenzen
Protein-/ Aminosäure-Sequenzen
Protein-, DNA-Strukturen
Protein-/ Aminosäure- Sequenzen
Protein-Strukturen
GenBank NCBI Protein Database
SwissProt(Uniprot)
PDB PROSITE Prints Pfam SCOP CATH
Datenbanktypen
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 23
Einträge sind teilweise redundant, d.h. es gibt mehrere Versionen
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 24
GenBank (http://www.ncbi.nlm.nih.gov/Genbank/)
– öffentliche Nukleotid-Sequenzdatenbank
– ~156 Mio. Sequenzeinträge, mehr als 254 Gigabasen
– fast jeder kann Sequenzen einreichen
– Mindestlänge der eingereichten Sequenzen: 50 bp
– jeder Eintrag bekommt eine eindeutige Accession Number
– wird alle 24h gegen EMBL-Bank (EMBL Nucleotid Sequence Database, http://www.ebi.ac.uk/) und DDBJ (DNA DataBank of Japan, http://www.ddbj.nig.ac.jp) synchronisiert
– redundant
NCBI DNA-Datenbank
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 25
NCBI Protein Database (http://www.ncbi.nlm.nih.gov/)
– öffentliche, primäre Protein-Sequenzdatenbank
– Zusammenstellung aus den folgenden Protein-Sequenzdatenbanken:
• UniProtKB
• PIR (Protein Identification Resources)
• PDB (Protein Data Bank, Strukturen)
• Proteintranslationen der GenBank-Datenbank
• und weiteren
– redundant
– Vorteil: Links zu Original-Datenbanken
NCBI Protein-Datenbank
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 26
(http://www.expasy.org/sprot/)
– Universal Protein Resource Knowledge Base
– öffentliche, primäre Proteinsequenz-Datenbank
– “nur” 516.603 Einträge (22.04.2010)
– wichtigste Sammlung von Proteinsequenzen:
• Daten stammen aus der Datenbank TrEMBL (translated EMBL)
• manuell überpüft; manuelle Annotationen von Experten
• nicht redundant
• Querverweise zu Funktionsbeschreibung, Domänenstruktur, posttranslationalen Modifikationen und ~60 anderen Datenbanken
– UniProtKB/TrEMBL enthält Einträge, die noch nicht in UniProtKB/Swiss-Prot aufgenommen wurden
UniProtKB/Swiss-Prot
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 27
Datenbank wählen
Stichwort, hier Name des Proteins
Webinterface: Entrez
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 28
weitere nützliche Beschränkungen:• [ACCN]: Accession Number• [KYWD]: Stichwort zur Funktion etc.• X:Y [SLEN]: Sequenzlänge zwischen X und Y• [TITL]: Wort muß im Titel des Eintrags stehen• [AUTH]: Name des Autors bei Suche nach einer Publikation
in PubMed (elektronische Zeitschriftenbibliothek)• logische Verknüpfungen mit NOT, OR
– AND als automatische Voreinstellung
Suche nach dem Protein Melibiase in genau diesem Organismus
Detaillierte Suche bei Entrez
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 29
Eintrag bei NCBI Protein Database
1. Vorlesung SS 2011 Software-Werkzeuge der Bioinformatik 30