Exercises to Introduction to Bioinformatics Assignment 5: Protein interaction networks Samira Jaeger
Exercises toIntroduction to Bioinformatics Assignment 5: Protein interaction networks
Samira Jaeger
Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 2
Aufgabe 1 – Netzwerkzentralität (6P)
• In der Vorlesung haben Degree Centrality besprochen.
– Finde drei weitere etablierte Zentralitätsmaße und
diskutiere diese (Formel + Idee).
– In welchem Zusammenhang werden diese verwendet
und welche biologischen Aussagen können durch
Zentralitätsanalyse für biologische Netzwerke getroffen
werden ?
Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 3
Aufgabe 2 – Datenbanksuche (2P)
• Neben Protein-protein Interaktionen innerhalb einer Spezies gibt es auch spezies-übergreifende Interaktionen, z.B. Virus-Host-Interaktionen. HIV-1 oder das Epstein-Barr Virus infizieren Menschen über Virus-Host-Interaktionen. Spezifische Datenbanken erfassen und speichern diese Host-Virus-Interakionen, z.B. HIV-1, Human Protein Interaction Database (http://www.ncbi.nlm.nih.gov/RefSeq/HIVInteractions/index.html).
• Das HIV-1 Genom besteht aus 9 Genen die wiederum 19 Proteine kodieren, die in unterschiedlichster Art und Weise mit einer Vielzahl von menschlichen Proteinen interagieren, um verschiedene Pathways im menschlichen Organismus auszunutzen. – Welche Formen von Interaktionen zwischen HIV-1 und Mensch können
unterschieden werden ?
– Gibt es menschliche Proteine, die mit mehreren HIV-1 Proteinen interagieren ? Wenn ja, welche sind dies und welchen Pathways kommen diese vor?
Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 4
Aufgabe 3 – Analyse eines Proteininteraktionsnetzwerkes (12P)
• Auf der Vorlesungsseite ist das Proteininteraktionsnetzwerk der Fruchtfliege (Drosophila melanogaster) bereit gestellt, welches im Rahmen der Übung analysiert werden soll. Das Netzwerk ist im sif-format Formaten verfügbar.
• Das sif-format ist ein einfaches Textformat in dem Proteininteraktionen eines Netzwerkes/Graphens folgendermassen dargestellt werden. Jede Zeile steht für eine ungerichtete Kante und hat die Form:
– P1 pp P2
– P2 pp P3
– P2 pp P4
– Dabei sind Px und Py Proteinidentifier (UniProt Ids) und pp zeigt eine Protein-Protein-Interaktion an.
Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 5
Aufgabe 3.1 – Netzwerkeigenschaften (5P)
• Im ersten Teil der Aufgabe soll das Interaktionsnetzwerk in
Java eingelesen werden und anschließend seine
Eigenschaften bestimmt werden:
– Charakterisiere das Interaktionsnetzwerk: Wie viele Proteine und
Interaktionen umfasst es ? Bestimme die durchschnittliche Anzahl
Interaktionen pro Protein.
– Berechne die (a) Kantendichte und (b) den durchschnittlichen
Clusterkoeffizienten in obigem Fliege-Netzwerk.
– Berechne für jedes Protein die Degree Centrality und ordne die
Proteine nach ihrer Zentralität. Welches sind die 5 zentralsten
Proteine im Netzwerk (und welche funktionalen Aufgaben erfüllen
sie, Uniprot) ?
Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 6
Aufgabe 3.2 – Funktionale Module (7P)
• Im zweiten Teil der Aufgabe sollen funktionale Module identifiziert
werden. Funktionale Module oder Cluster sind in Netzwerken als stark
vernetzte Subgraphen zu finden. Die Identifizierung von k-cores in
Interaktionsnetzwerken ist eine Möglichkeit um solche stark vernetzten
Subgraphen zu detektieren. k-cores sind definiert als eine Gruppe von
Proteinen, in der jedes Protein mindestens k Interaktionen besitzt.
• Implementiere das vorgestellte Verfahren zur Identifizierung von k-
cores.
• Finde den größten k-core in dem Interaktionsnetzwerk und
visualisiere diesen.
• Wie viele Proteine enthält dieser k-core und wie viele Interaktionen
besitzt jedes Protein im k-core.
Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 7
Aufgabe 3.2 – Analyse von k-cores (2P)
• Analysiere die funktionalen Eigenschaften des Moduls
repräsentiert durch den identifizierten k-core.
• Tipp: Die funktionale Analyse kann mit Hilfe von DAVID
(http://david.abcc.ncifcrf.gov/) durchgeführt werden.
• DAVID ist ein Analyse-Tool mit dem Gruppen von
Genen und Proteinen anhand ihrer Funktion, Pathways
oder Domänen untersucht werden können, um
überrepräsentierte funktionale Eigenschaften in diesen
Gruppen zu finden.
Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 8
Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 9
Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 10
Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 11
Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 12
Submission
• Submit all requested data as plain text by Thursday, 07.07.2011, 23.59
• Centrality measures, formulars, idea and discussion of potential
applications in biology/bioinformatics
• List of interaction types between HIV and human
• List of proteins that interaction with different HIV proteins and their
functions/pathways
• Program in source code
• Details of the k-core and functional description of its proteins found
in DAVID
• Approximate working time !
• Send by mail to me.