Datenbanken in der Bioinformatik - dbs.uni-leipzig.dedbs.uni-leipzig.de/file/biodb-SS2012-kap-02_part1.pdf · Grundlagen 2. Klassifizierung von BioDB, Überblick 3. ... Von nahezu

Sommersemester 2012

Dr. Toralf Kirsten, Anika Großhttp://dbs.uni-leipzig.de

Universität LeipzigInstitut für Informatik

Datenbanken in der Bioinformatik

Kapitel 2

Überblick

Klassifizierung von BioDB

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Vorläufiges Inhaltsverzeichnis

1. Grundlagen

2. Klassifizierung von BioDB, Überblick

3. Sequenzierung und Genexpressionsanalyse

4. Datenmodelle und Anfragesprachen

5. Modellierungsalternativen

6. Versionierung von Datenbeständen

7. Annotationen

8. Datenintegration: Ansätze und Systeme

9. Datenmanagement in der Cloud



Lernziele

� Wiedergabe von � Allgemeinen Problemfeldern im Gebiet der

Bioinformatik

� Typischen Anforderungen an Informations-systeme in der Bioinformatik

� Klassifikation von Datenquellen und Systemen� Kriterien & Ausprägungen

� Ausgewählte Beispiele



Gliederung

� Motivation und historische Entwicklung

� Allgemeine Anforderungen an Bioinformationssysteme

� Klassifikation von Bioinformationssystemen� Merkmale, Ausprägungen und Beispiele



Motivation

� Abspeicherung von Genom-, Protein- und Stoffwechselinformationen in konsistenter und effizienter Art und Weise

� Unterstützung von biowissenschaftlichen Anfragen und Analysen

� Beispiel: Insulin

� Identifizieren Sie die Insulin mRNA und Proteinsequenz für Mensch, Huhn und Schwein!

� In welche Stoffwechselwege ist Insulin eingebunden?

� Auf welchem Chromosom liegt (das Gen für) Insulin im Menschen?

� Gibt es eine Krankheit, die auf einer Mutation in Insulin beruht?

� Integration verschiedener Datenarten

� Experimentelle Rohdaten (z.B. Bitmaps bei Genexpressionsdaten)

� Aufbereitete Experimentdaten (z.B. Gen- oder Proteinsequenz)

� Textuelle Kommentare (Annotationen)



Historische Entwicklung

� Alle (großen) öffentlichen Bio-Datenbanken entstanden aus Büchern� Sammlungen bekannter Daten einer Art: DNA, Proteinsequenz,

Proteinstruktur� Jährliches / quartalsweises Erscheinen� Buch → Band → CD → FTP → WWW

� Anfangs Verwendung von flachen, textorientierten Datenmodellen� Viele Beschreibungen in freier Textform� Für Menschen konzipiert, nicht für Weiterverarbeitung durch

Computer� Datenbank = Menge ähnlich strukturierter "Entries"

� Entry-"Modell"� Entry: Menge von Feldern (Attribute, Lines) zu einem Bio-Objekt

(z.B. zu einem Protein)� Von nahezu allen Bio-Datenbanken verwendet� Kein Datenmodell im engeren Sinn (wie z.B. RM, OO)� Keine deklarativen Konsistenzbedingungen,

kein Klassen- oder Objektbegriff



„Eine Seite – Ein Objekt“� Beispiel Swiss-Prot

� Zum Entry-Modell mehr in Kapitel 4



Modeltechnische Entwicklung

Aspekt Entwicklung

Sukzessive Übernahme von DB-Techniken



Bio-Daten: Historische Entwicklung

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005

Protein structures (11000)

DNA sequences(5000000)

Genomes (25)

Publications (1100000)

Pe

rce

nt

rela

tive

to

19

99

DNAstructure

determined

Firstprotein structure

FastDNA sequencing

Firstviral

genome

Start of thehuman genome project

Firstprokaryotic

genome

Firsteukaryotic

genome

First genomeof a multicellular

organism

Human genome

D. D. FrishmanFrishman , 2001, 2001Protein structures (11000)

DNA sequences(5000000)

Genomes (25)

Publications (1100000)

Pe

rce

nt

rela

tive

to

19

99

DNAstructure

determined

Firstprotein structure

FastDNA sequencing

Firstviral

genome

Start of thehuman genome project

Firstprokaryotic

genome

Firsteukaryotic

genome

First genomeof a multicellular

organism

Human genome

D. D. FrishmanFrishman , 2001, 2001

Paradigmenwechsel bzgl. Publikationen



Bio-Datenquellen: Übersicht

� Weltweit große Menge an Datenquellen online verfügbar

� Derzeit 1230 bei NAR gelistet

G. R. Cochrane et al.: The 2010 NAR Database Issue and online Database Collection. Nucl. Acids. Res. 2010 DB Issue



Hohe Vernetzung der Datenquellen



Anforderungen

� Verwaltung biologischer Daten

� Verfügbarkeit und Flexibilität

� Datenqualität

� Integration und Datenaustausch

� Querying und Analyse



Verwaltung biologischer Daten

� Unterschiedliche Datenarten

� unstruktruiert, z.B. das Bild eines Genexpressionschips

� strukturiert, z.B. Nucleotidsequenz, Proteinsequenz

� semistrukturiert, z.B. Annotationen

� Bio-Datenbanken ohne Experimentdaten im Bereich 1–200 GB

� Uniprot: Swiss-Prot + TrEMBL: >15 GB� EMBL = European Molecular Biology Laboratory; TrEMBL =

Proteinsequenz-Datenbank von EMBL (als Ergänzung zu Swiss-Prot)

� Mit Experimentdaten deutlich größere Datenmengen

� TIFF eines Genexpressionschips: ca. 50 MB

� Rohspektrum eines MS-Experimentes� MS = Massenspektrometer / Massenspektrometrie

� Tracefiles von Sequenziermaschinen

� Bilder von 2D-Gel-Elektrophorese-Experimenten



Verfügbarkeit und Flexibilität

� Meist freier Zugriff und Download - „share data“� Selten direkter SQL Zugriff, oft Dumps zum Download� Web-basierte Nutzerschnittstellen

� Zugriff auf Server über verschiedene Clients(Java, CGI, Perl, PHP, ...)

� Forschungsfragen ändern sich ständig (regelmäßig neue Versionen)� Andere wissenschaftliche Fragestellungen

→ Andere Daten, andere Queries� Design muss Wartbarkeit und Flexibilität in Vordergrund stellen

� Schemaänderungen, Einbringung neuer Datentypen, Optimierung auf neue Anforderungen

� Bio-Datenbanken meist Teil eines Forschungsprojekts� Datenbeschaffung (LIMS), Datenarchivierung, Datenanalyse

� Integration mit selbstentwickelten Analyse-Algorithmen nötig� Algorithmen für Ähnlichkeitssuche/Alignments bzgl. Genen und

Proteinen (Blast/Fasta), Motif-Suche, Gensuche …



Datenqualität

� Experimente erzeugen (fast) immer unscharfe Daten

� Arbeit mit lebenden Organismen

� Zugrundeliegende Mechanismen größtenteils unverstanden

� Fehleranfällige Techniken: Bilderkennung, Statistische/heuristische Algorithmen, ...

� Starke Redundanz

� Ungewollt: PIR - SwissProt, KEGG - Reactome

� Gewollt: spezies-spezifische Daten

� Manche Quellen kopieren von anderen (z.B. Ensembl)

� Kopieren und Überarbeiten von Daten → Inkonsistenzen (c/p error)

� Eine junge Wissenschaft: viele (falsche) Daten und Veröffentlichungen� Viele verschiedene (konkurrierende) Arbeitsgruppen

� Herkunft der Daten sollte (auch bei Ableitungen) ermittelbar sein

� Automatisch berechnete Daten oder „curated“ (=„redaktionell betreut“)� Falsch-Positiv-Rate bei High-Throughput Experimenten

� Curator: liest, fasst zusammen ..

� Probleme: Konsistenz, Vollständigkeit, Qualtätssicherung, Objektivität,…



Integration

� Viele Daten machen erst Sinn im Kontext� (Teil-)Sequenz: Genkontext, Regulationskontext, Homologie� Protein: Welcher Organismus?, Strukturkontext, Domänen� Expression: Regulationskontext, Phänotypen, Krankheitsverläufe, ...

� Integration von Bio-Daten aus externen Quellen = offenes Problem� Die meisten Datenbanken sind "nur" integriert im Sinne einer

Verlinkung z.B. Verlinkung Ensembl ↔ Swiss-Prot ↔ OMIM� Typische Bio-Anfragen implizieren bereits Zugriffe auf mehrere

Datenquellen� Beispiel: Insulin

� Identifizieren Sie die Insulin mRNA und Proteinsequenz für Mensch, Huhn und Schwein (DB: NCBI-Entrez, GeneCards, UCSC Genome Browser, NCBI-GenBank (für Nucleotide), NCBI-GenBank (für Proteine)

� In welchem Stoffwechselweg ist Insulin eingebunden? (DB: KEGG)

� Auf welchem Chromosom liegt Insulin beim Mensch? (DB: NCBI-Entrez, NCBI-OMIM, GeneCards)

� Gibt es eine Krankheit, die auf einer Mutation in Insulin beruht? (DB: NCBI-OMIM)

� Integration im Sinne eines globalen Schemas oft nicht vorhanden



Austauschformate

� Verschiedene Austauschformate� FASTA, EMBL Format

� ASN.1 (Sequenzen + Annotationen)

� MAGE (Experimentannotation bei Expressionsexperimenten)

� http://www.ebi.ac.uk/help/formats.html

� Export üblicherweise in Flat Files

� XML zunehmend von Bedeutung

� DTD’s definiert für verschiedene Projekte, z.B.� GAME: Genome Annotation Markup Elements

� BIOML: BIOpolymer Markup Language

� BSML: Bioinformatic Sequence Markup Language



Querying und Analyse

� Bio-Daten werden im Allgemeinen für komplexe Weiterverarbeitungen genutzt

� Querying-Anforderungen� Vordefinierte (parametrisierbare) Masken für häufige

Anfragetypen� Möglichkeit, Ad-hoc-Queries komfortabel zusammen stellen

zu können (z.B. über grafisches Interface)� Interface mit voller Query-Komplexität

(für sog. "Power User")� Unterstützung von Unschärfe bei unstrukturierten

oder semi-strukturierten Daten� Analyse-Anforderungen

� Integration mittels Data Warehouse-Ansätzen (multidimensionale Anfragen, Aggregation)

� Integration von Statistik und Data Mining Tools



Klassifizierungsmerkmale

� Klassifizierung nach� Inhalt

� Verfügbarkeit

� Datenhaltungssystem

� Externer Datengewinnung

� Datenqualität

� Art der Integration

� Zugriffsmethoden



Klassifizierung nach Inhalt

� Organismus, Gewebe, Chromosome, ...� Typen der abgespeicherten Bio-Objekte: Sequenzen, Strukturen, Motifs, ...

� (kurze) Sequenz von Sekundär-Struktur-Elementen mit im Allg. spezifischer biologischer Funktion

Primär-Datenbanken

Sekundär-Datenbanken

Tertiär-Datenbanken

� Grenze vor allem zw. Sekundär- und Tertiärdatenbanken oft fließend



Klassifizierung nach Inhalt

Biologischer "Bereich"

Datenbanktyp Schwerpunkte Unterstützte Fragestellungen

Vertreter

Genom Kartierungs-DB Verwandschafts-beziehungen, phylogentische Stammbäume

Ensembl / UCSC Genome Browser

Sequenz-DB Genbank / EMBL / DDBJ (DNA Data Bank of Japan)

Mutations-DB Welche Krankheiten sind durch welche Genveränderungen bedingt?

dbSNP

(Single Nucleotide Polymorphism Database)

Genexpressions-Datenbanken

Unter welchen Bedingungen exprimiert eine Zelle welche Gene?

GEO, ArrayExpress



Klassifikation nach Inhalt

Biologischer "Bereich"

Datenbanktyp Schwerpunkte Unterstützte Fragestellungen

Vertreter

Proteine Proteinsequenz-Datenbanken

Proteindesign (z.B. für neue Medikamente)

PDB

Proteinstruktur-Datenbanken

Genbank / EMBL / DDBJ (DNA Data Bank of Japan)

Protein-Domain/ family

Welche Proteingruppe ist für bestimmte Stoffwechstelprozesse (z.B. Blutgerinnnung) zuständig?

PFAM (Protein families database of alignments and HMMs)

Stoffwechsel Pathway-Datenbanken

Welche Stoffwechstelprozesse werden von welchen Proteinen (Enzymen) gesteuert. Welche (Abfall-)Produkte entstehen dabei

KEGG (Kyoto Encyclopedia of Genes and Genomes)

Publikationen MedLine

PubMed



Klassifikation nach Verfügbarkeit

� Öffentliche Datenbanken� Lange bestehend, international organisiert

� Referenzdatenbanken, öffentliche Archive (Genbank, Swiss-Prot, PIR, PDB, ...)

� Nicht-öffentliche Datenbanken� Projektbezogene ("One-Shot")-Datenbanken von

Forschungsgruppen (hochaktuell für kurze Zeit; existieren oft nur bis zur Veröffentlichung der Ergebnisse)

� Kommerzielle Datenbanken von Bio-Firmen (z.B. Celera)



Klassifikation nach Datenhaltungssystem

� Verwendetes Speichersystem� Flat-Files

� Proprietäre Systeme (ACeDB, Icarus/SRS)

� Relationale DBMS

� Objektorientierte/Objektrelationale DBMS

� XML Datenbanken (Tamino, eXists, …)



Klassifikation nach Art der Datengewinnung

� "Passiv"� Alle Daten werden von externen Forschungsgruppen und

Institutionen eingebracht ("submittet")� Sinn: Archivierung, ID-Vergabe und "roher" Zugriff� Auf freiwilliger Basis, oder Verpflichtung durch Geldgeber,

Journale ("Publikation nur, wenn Daten eingebracht werden") etc.� Beispiele: Genbank/EMBL, PDB, ...

� "Aktiv"� Relevante (öffentlich zugängliche) Datenquellen werden

regelmäßig abgegriffen (z.B. Online-Abstracts bei Bio-Journalen)� Sinn: Integration, Veredlung, Vollständigkeit� Ermöglicht zentralen Zugriff ohne Verpflichtung� Beispiele: Swiss-Prot, Protein Information Resource, ...

� Mischformen: GDB (nicht mehr aktiv)



Klassifikation nach Datenqualität (Curation)

� Ansatz 1: (Externer) Einbringer ist "Datenherr" (z.B. Genbank, ArrayExpress)� Im nachhinein keine (inhaltlichen) Veränderungen an einmal eingebrachten

Daten� Vorteil: Urheber klar, hohe Datenstabilität; Nachteil: keine globale

Verantwortlichkeit, übergreifende Datenqualität schwierig zu sichern� Ansatz 2: Zentrale Nachbearbeitung/Kontrolle der Daten

(z.B. Swiss-Prot, MIPS)� Munich Information Center for Protein Sequences� Daten werden laufend verbessert� Hoher (manueller) Aufwand, da Automatisierung nur eingeschränkt möglich� Vorteil: Höhere Datenqualität; Nachteil: Urheber weniger klar, hohe Volatilität

� Redundanz� Ansatz 1: Alles aufnehmen, auch wenn teilweise redundant zu bisherigen

Einträgen� Ansatz 2: Entfernen gleicher oder sehr "ähnlicher" Einträge� Beispiel Swiss-Prot: Redundanzminimierung durch (menschliche) Editoren

(sicher, aber teuer)� Beispiel UniGene: Redundanzminimierung durch Algorithmen (ökonomisch,

aber mit Unsicherheiten behaftet)



Klassifikation nach Art der Integration

� Ansatz 1: Virtuelle Integration (über Links)� "lockerer Verbund" zwischen Datenquellen, deren Objekte

durch Verweise miteinander verbunden sind

� Häufigste Integrationsart in Bio-Datenbanken

� Ansatz 2: Materialisierte Integration� Daten werden kopiert und zentral aufbereitet

� Data Warehouse-Ansatz

� Beide Ansätze mit oder ohne globales Schema

� Manuelle versus automatische Integration� Automatische Integration anhand def. Kriterien (Ensembl)

� Manuelle Integration anhand Wissen des Editors (Swiss-Prot)



Beispiel virtuelle Integration

� DBGET: Retrieval System für breite Palette von Bio-Datenbanken



Beispiel materialisierte Integration: GeWare

Experimental data•Raw chip intensities•Expression matrix

Data warehouse

External annotations•Netaffx data•Gene ontology (GO)•LocusLink

Experiment annota-tions•experiment, sample, …•MIAME

Source systems Analysis

Core data warehouse•multidimensional data model (star schema)

Tight integration•Special UDF‘s•DB procedures

Loose integration•Export•Download

Transparent integration•Use of API's•Insightful ArrayAnalyzer•OLAP Tools

DWH

uniform w

eb-b

ased

interface

Quelle: Do, H.H., Kirsten, T., Rahm, E.: Comparative Evaluation of Microarray-based Gene Expression Databases. Proc. 10. Fachtagung

Datenbanksysteme für Business, Technologie und Web (BTW 2003), Leipzig, Feb. 2003

Datenbanken in der Bioinformatik - dbs.uni-leipzig.dedbs.uni-leipzig.de/file/biodb-SS2012-kap-02_part1.pdf · Grundlagen 2. Klassifizierung von BioDB, Überblick 3. ... Von nahezu

Documents