Sommersemester 2012 Dr. Toralf Kirsten, Anika Groß http://dbs.uni-leipzig.de Universität Leipzig Institut für Informatik Datenbanken in der Bioinformatik Kapitel 2 Überblick Klassifizierung von BioDB
Sommersemester 2012
Dr. Toralf Kirsten, Anika Großhttp://dbs.uni-leipzig.de
Universität LeipzigInstitut für Informatik
Datenbanken in der Bioinformatik
Kapitel 2
Überblick
Klassifizierung von BioDB
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Vorläufiges Inhaltsverzeichnis
1. Grundlagen
2. Klassifizierung von BioDB, Überblick
3. Sequenzierung und Genexpressionsanalyse
4. Datenmodelle und Anfragesprachen
5. Modellierungsalternativen
6. Versionierung von Datenbeständen
7. Annotationen
8. Datenintegration: Ansätze und Systeme
9. Datenmanagement in der Cloud
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Lernziele
� Wiedergabe von � Allgemeinen Problemfeldern im Gebiet der
Bioinformatik
� Typischen Anforderungen an Informations-systeme in der Bioinformatik
� Klassifikation von Datenquellen und Systemen� Kriterien & Ausprägungen
� Ausgewählte Beispiele
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Gliederung
� Motivation und historische Entwicklung
� Allgemeine Anforderungen an Bioinformationssysteme
� Klassifikation von Bioinformationssystemen� Merkmale, Ausprägungen und Beispiele
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Motivation
� Abspeicherung von Genom-, Protein- und Stoffwechselinformationen in konsistenter und effizienter Art und Weise
� Unterstützung von biowissenschaftlichen Anfragen und Analysen
� Beispiel: Insulin
� Identifizieren Sie die Insulin mRNA und Proteinsequenz für Mensch, Huhn und Schwein!
� In welche Stoffwechselwege ist Insulin eingebunden?
� Auf welchem Chromosom liegt (das Gen für) Insulin im Menschen?
� Gibt es eine Krankheit, die auf einer Mutation in Insulin beruht?
� Integration verschiedener Datenarten
� Experimentelle Rohdaten (z.B. Bitmaps bei Genexpressionsdaten)
� Aufbereitete Experimentdaten (z.B. Gen- oder Proteinsequenz)
� Textuelle Kommentare (Annotationen)
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Historische Entwicklung
� Alle (großen) öffentlichen Bio-Datenbanken entstanden aus Büchern� Sammlungen bekannter Daten einer Art: DNA, Proteinsequenz,
Proteinstruktur� Jährliches / quartalsweises Erscheinen� Buch → Band → CD → FTP → WWW
� Anfangs Verwendung von flachen, textorientierten Datenmodellen� Viele Beschreibungen in freier Textform� Für Menschen konzipiert, nicht für Weiterverarbeitung durch
Computer� Datenbank = Menge ähnlich strukturierter "Entries"
� Entry-"Modell"� Entry: Menge von Feldern (Attribute, Lines) zu einem Bio-Objekt
(z.B. zu einem Protein)� Von nahezu allen Bio-Datenbanken verwendet� Kein Datenmodell im engeren Sinn (wie z.B. RM, OO)� Keine deklarativen Konsistenzbedingungen,
kein Klassen- oder Objektbegriff
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
„Eine Seite – Ein Objekt“� Beispiel Swiss-Prot
� Zum Entry-Modell mehr in Kapitel 4
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Modeltechnische Entwicklung
Aspekt Entwicklung
Sukzessive Übernahme von DB-Techniken
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Bio-Daten: Historische Entwicklung
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005
Protein structures (11000)
DNA sequences(5000000)
Genomes (25)
Publications (1100000)
Pe
rce
nt
rela
tive
to
19
99
DNAstructure
determined
Firstprotein structure
FastDNA sequencing
Firstviral
genome
Start of thehuman genome project
Firstprokaryotic
genome
Firsteukaryotic
genome
First genomeof a multicellular
organism
Human genome
D. D. FrishmanFrishman , 2001, 2001Protein structures (11000)
DNA sequences(5000000)
Genomes (25)
Publications (1100000)
Pe
rce
nt
rela
tive
to
19
99
DNAstructure
determined
Firstprotein structure
FastDNA sequencing
Firstviral
genome
Start of thehuman genome project
Firstprokaryotic
genome
Firsteukaryotic
genome
First genomeof a multicellular
organism
Human genome
D. D. FrishmanFrishman , 2001, 2001
Paradigmenwechsel bzgl. Publikationen
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Bio-Datenquellen: Übersicht
� Weltweit große Menge an Datenquellen online verfügbar
� Derzeit 1230 bei NAR gelistet
G. R. Cochrane et al.: The 2010 NAR Database Issue and online Database Collection. Nucl. Acids. Res. 2010 DB Issue
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Hohe Vernetzung der Datenquellen
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Anforderungen
� Verwaltung biologischer Daten
� Verfügbarkeit und Flexibilität
� Datenqualität
� Integration und Datenaustausch
� Querying und Analyse
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Verwaltung biologischer Daten
� Unterschiedliche Datenarten
� unstruktruiert, z.B. das Bild eines Genexpressionschips
� strukturiert, z.B. Nucleotidsequenz, Proteinsequenz
� semistrukturiert, z.B. Annotationen
� Bio-Datenbanken ohne Experimentdaten im Bereich 1–200 GB
� Uniprot: Swiss-Prot + TrEMBL: >15 GB� EMBL = European Molecular Biology Laboratory; TrEMBL =
Proteinsequenz-Datenbank von EMBL (als Ergänzung zu Swiss-Prot)
� Mit Experimentdaten deutlich größere Datenmengen
� TIFF eines Genexpressionschips: ca. 50 MB
� Rohspektrum eines MS-Experimentes� MS = Massenspektrometer / Massenspektrometrie
� Tracefiles von Sequenziermaschinen
� Bilder von 2D-Gel-Elektrophorese-Experimenten
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Verfügbarkeit und Flexibilität
� Meist freier Zugriff und Download - „share data“� Selten direkter SQL Zugriff, oft Dumps zum Download� Web-basierte Nutzerschnittstellen
� Zugriff auf Server über verschiedene Clients(Java, CGI, Perl, PHP, ...)
� Forschungsfragen ändern sich ständig (regelmäßig neue Versionen)� Andere wissenschaftliche Fragestellungen
→ Andere Daten, andere Queries� Design muss Wartbarkeit und Flexibilität in Vordergrund stellen
� Schemaänderungen, Einbringung neuer Datentypen, Optimierung auf neue Anforderungen
� Bio-Datenbanken meist Teil eines Forschungsprojekts� Datenbeschaffung (LIMS), Datenarchivierung, Datenanalyse
� Integration mit selbstentwickelten Analyse-Algorithmen nötig� Algorithmen für Ähnlichkeitssuche/Alignments bzgl. Genen und
Proteinen (Blast/Fasta), Motif-Suche, Gensuche …
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Datenqualität
� Experimente erzeugen (fast) immer unscharfe Daten
� Arbeit mit lebenden Organismen
� Zugrundeliegende Mechanismen größtenteils unverstanden
� Fehleranfällige Techniken: Bilderkennung, Statistische/heuristische Algorithmen, ...
� Starke Redundanz
� Ungewollt: PIR - SwissProt, KEGG - Reactome
� Gewollt: spezies-spezifische Daten
� Manche Quellen kopieren von anderen (z.B. Ensembl)
� Kopieren und Überarbeiten von Daten → Inkonsistenzen (c/p error)
� Eine junge Wissenschaft: viele (falsche) Daten und Veröffentlichungen� Viele verschiedene (konkurrierende) Arbeitsgruppen
� Herkunft der Daten sollte (auch bei Ableitungen) ermittelbar sein
� Automatisch berechnete Daten oder „curated“ (=„redaktionell betreut“)� Falsch-Positiv-Rate bei High-Throughput Experimenten
� Curator: liest, fasst zusammen ..
� Probleme: Konsistenz, Vollständigkeit, Qualtätssicherung, Objektivität,…
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Integration
� Viele Daten machen erst Sinn im Kontext� (Teil-)Sequenz: Genkontext, Regulationskontext, Homologie� Protein: Welcher Organismus?, Strukturkontext, Domänen� Expression: Regulationskontext, Phänotypen, Krankheitsverläufe, ...
� Integration von Bio-Daten aus externen Quellen = offenes Problem� Die meisten Datenbanken sind "nur" integriert im Sinne einer
Verlinkung z.B. Verlinkung Ensembl ↔ Swiss-Prot ↔ OMIM� Typische Bio-Anfragen implizieren bereits Zugriffe auf mehrere
Datenquellen� Beispiel: Insulin
� Identifizieren Sie die Insulin mRNA und Proteinsequenz für Mensch, Huhn und Schwein (DB: NCBI-Entrez, GeneCards, UCSC Genome Browser, NCBI-GenBank (für Nucleotide), NCBI-GenBank (für Proteine)
� In welchem Stoffwechselweg ist Insulin eingebunden? (DB: KEGG)
� Auf welchem Chromosom liegt Insulin beim Mensch? (DB: NCBI-Entrez, NCBI-OMIM, GeneCards)
� Gibt es eine Krankheit, die auf einer Mutation in Insulin beruht? (DB: NCBI-OMIM)
� Integration im Sinne eines globalen Schemas oft nicht vorhanden
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Austauschformate
� Verschiedene Austauschformate� FASTA, EMBL Format
� ASN.1 (Sequenzen + Annotationen)
� MAGE (Experimentannotation bei Expressionsexperimenten)
� http://www.ebi.ac.uk/help/formats.html
� Export üblicherweise in Flat Files
� XML zunehmend von Bedeutung
� DTD’s definiert für verschiedene Projekte, z.B.� GAME: Genome Annotation Markup Elements
� BIOML: BIOpolymer Markup Language
� BSML: Bioinformatic Sequence Markup Language
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Querying und Analyse
� Bio-Daten werden im Allgemeinen für komplexe Weiterverarbeitungen genutzt
� Querying-Anforderungen� Vordefinierte (parametrisierbare) Masken für häufige
Anfragetypen� Möglichkeit, Ad-hoc-Queries komfortabel zusammen stellen
zu können (z.B. über grafisches Interface)� Interface mit voller Query-Komplexität
(für sog. "Power User")� Unterstützung von Unschärfe bei unstrukturierten
oder semi-strukturierten Daten� Analyse-Anforderungen
� Integration mittels Data Warehouse-Ansätzen (multidimensionale Anfragen, Aggregation)
� Integration von Statistik und Data Mining Tools
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Klassifizierungsmerkmale
� Klassifizierung nach� Inhalt
� Verfügbarkeit
� Datenhaltungssystem
� Externer Datengewinnung
� Datenqualität
� Art der Integration
� Zugriffsmethoden
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Klassifizierung nach Inhalt
� Organismus, Gewebe, Chromosome, ...� Typen der abgespeicherten Bio-Objekte: Sequenzen, Strukturen, Motifs, ...
� (kurze) Sequenz von Sekundär-Struktur-Elementen mit im Allg. spezifischer biologischer Funktion
Primär-Datenbanken
Sekundär-Datenbanken
Tertiär-Datenbanken
� Grenze vor allem zw. Sekundär- und Tertiärdatenbanken oft fließend
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Klassifizierung nach Inhalt
Biologischer "Bereich"
Datenbanktyp Schwerpunkte Unterstützte Fragestellungen
Vertreter
Genom Kartierungs-DB Verwandschafts-beziehungen, phylogentische Stammbäume
Ensembl / UCSC Genome Browser
Sequenz-DB Genbank / EMBL / DDBJ (DNA Data Bank of Japan)
Mutations-DB Welche Krankheiten sind durch welche Genveränderungen bedingt?
dbSNP
(Single Nucleotide Polymorphism Database)
Genexpressions-Datenbanken
Unter welchen Bedingungen exprimiert eine Zelle welche Gene?
GEO, ArrayExpress
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Klassifikation nach Inhalt
Biologischer "Bereich"
Datenbanktyp Schwerpunkte Unterstützte Fragestellungen
Vertreter
Proteine Proteinsequenz-Datenbanken
Proteindesign (z.B. für neue Medikamente)
PDB
Proteinstruktur-Datenbanken
Genbank / EMBL / DDBJ (DNA Data Bank of Japan)
Protein-Domain/ family
Welche Proteingruppe ist für bestimmte Stoffwechstelprozesse (z.B. Blutgerinnnung) zuständig?
PFAM (Protein families database of alignments and HMMs)
Stoffwechsel Pathway-Datenbanken
Welche Stoffwechstelprozesse werden von welchen Proteinen (Enzymen) gesteuert. Welche (Abfall-)Produkte entstehen dabei
KEGG (Kyoto Encyclopedia of Genes and Genomes)
Publikationen MedLine
PubMed
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Klassifikation nach Verfügbarkeit
� Öffentliche Datenbanken� Lange bestehend, international organisiert
� Referenzdatenbanken, öffentliche Archive (Genbank, Swiss-Prot, PIR, PDB, ...)
� Nicht-öffentliche Datenbanken� Projektbezogene ("One-Shot")-Datenbanken von
Forschungsgruppen (hochaktuell für kurze Zeit; existieren oft nur bis zur Veröffentlichung der Ergebnisse)
� Kommerzielle Datenbanken von Bio-Firmen (z.B. Celera)
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Klassifikation nach Datenhaltungssystem
� Verwendetes Speichersystem� Flat-Files
� Proprietäre Systeme (ACeDB, Icarus/SRS)
� Relationale DBMS
� Objektorientierte/Objektrelationale DBMS
� XML Datenbanken (Tamino, eXists, …)
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Klassifikation nach Art der Datengewinnung
� "Passiv"� Alle Daten werden von externen Forschungsgruppen und
Institutionen eingebracht ("submittet")� Sinn: Archivierung, ID-Vergabe und "roher" Zugriff� Auf freiwilliger Basis, oder Verpflichtung durch Geldgeber,
Journale ("Publikation nur, wenn Daten eingebracht werden") etc.� Beispiele: Genbank/EMBL, PDB, ...
� "Aktiv"� Relevante (öffentlich zugängliche) Datenquellen werden
regelmäßig abgegriffen (z.B. Online-Abstracts bei Bio-Journalen)� Sinn: Integration, Veredlung, Vollständigkeit� Ermöglicht zentralen Zugriff ohne Verpflichtung� Beispiele: Swiss-Prot, Protein Information Resource, ...
� Mischformen: GDB (nicht mehr aktiv)
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Klassifikation nach Datenqualität (Curation)
� Ansatz 1: (Externer) Einbringer ist "Datenherr" (z.B. Genbank, ArrayExpress)� Im nachhinein keine (inhaltlichen) Veränderungen an einmal eingebrachten
Daten� Vorteil: Urheber klar, hohe Datenstabilität; Nachteil: keine globale
Verantwortlichkeit, übergreifende Datenqualität schwierig zu sichern� Ansatz 2: Zentrale Nachbearbeitung/Kontrolle der Daten
(z.B. Swiss-Prot, MIPS)� Munich Information Center for Protein Sequences� Daten werden laufend verbessert� Hoher (manueller) Aufwand, da Automatisierung nur eingeschränkt möglich� Vorteil: Höhere Datenqualität; Nachteil: Urheber weniger klar, hohe Volatilität
� Redundanz� Ansatz 1: Alles aufnehmen, auch wenn teilweise redundant zu bisherigen
Einträgen� Ansatz 2: Entfernen gleicher oder sehr "ähnlicher" Einträge� Beispiel Swiss-Prot: Redundanzminimierung durch (menschliche) Editoren
(sicher, aber teuer)� Beispiel UniGene: Redundanzminimierung durch Algorithmen (ökonomisch,
aber mit Unsicherheiten behaftet)
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Klassifikation nach Art der Integration
� Ansatz 1: Virtuelle Integration (über Links)� "lockerer Verbund" zwischen Datenquellen, deren Objekte
durch Verweise miteinander verbunden sind
� Häufigste Integrationsart in Bio-Datenbanken
� Ansatz 2: Materialisierte Integration� Daten werden kopiert und zentral aufbereitet
� Data Warehouse-Ansatz
� Beide Ansätze mit oder ohne globales Schema
� Manuelle versus automatische Integration� Automatische Integration anhand def. Kriterien (Ensembl)
� Manuelle Integration anhand Wissen des Editors (Swiss-Prot)
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Beispiel virtuelle Integration
� DBGET: Retrieval System für breite Palette von Bio-Datenbanken
Sommersemester 2012Dr. Toralf Kirsten, Anika Groß
Vorlesung BiodatenbankenUniversität Leipzig
Beispiel materialisierte Integration: GeWare
Experimental data•Raw chip intensities•Expression matrix
Data warehouse
External annotations•Netaffx data•Gene ontology (GO)•LocusLink
Experiment annota-tions•experiment, sample, …•MIAME
Source systems Analysis
Core data warehouse•multidimensional data model (star schema)
Tight integration•Special UDF‘s•DB procedures
Loose integration•Export•Download
Transparent integration•Use of API's•Insightful ArrayAnalyzer•OLAP Tools
DWH
uniform w
eb-b
ased
interface
Quelle: Do, H.H., Kirsten, T., Rahm, E.: Comparative Evaluation of Microarray-based Gene Expression Databases. Proc. 10. Fachtagung
Datenbanksysteme für Business, Technologie und Web (BTW 2003), Leipzig, Feb. 2003