Top Banner

Click here to load reader

A Formal Model of Molecular Codes with Respect to Chemical ... · PDF fileThe present thesis introduces a theory of molecular codes with respect to chemical reaction networks. Codes,

Aug 15, 2019

ReportDownload

Documents

trinhkhanh

  • A Formal Model of Molecular Codes with Respect to Chemical

    Reaction Networks

    Dissertation

    zur Erlangung des akademischen Grades

    doctor rerum naturalium (Dr. rer. nat.)

    vorgelegt dem

    Rat der Fakultät für Mathematik und Informatik

    der

    Friedrich-Schiller-Universität Jena

    von

    Diplom-Bioinformatiker Dennis Görlich

    geboren am

    02. Juni 1983 in Hagen

  • Gutachter 1. PD Dr. Peter Dittrich (Friedrich-Schiller-Universität Jena) 2. PD Dr. Stefan Artmann (Friedrich-Schiller-Universität Jena) 3. Prof. Dr. Marcello Barbieri (Università di Ferrara)

    Tag der öffentlichen Verteidigung: 19.04.2013

  • Abstract

    The present thesis introduces a theory of molecular codes with respect to chemical reaction networks. Codes, in general, are mappings between sets of entities. Encoding is very well known in many disciplines, like language, where concepts are said to be encoded in words or spoken language, and computer science where, e.g. commands have to be encoded into binary digits for execution, or optimal codes for data compressing have to be developed. In biology the notion of codes has been largely introduced together with the discovery of the gene translation mechanisms, i.e. the genetic code. Recent developments in molecular and cellular biology postulate other molecular codes beside the genetic code, e.g. the histone code or the sugar code. In the literature these codes are described in detail in their biochemical mechanisms, but the usage of the term ”code” is ambiguous. Often ”code” denotes only the codewords, e.g. combinations of covalent histone modifications, but neglects the mapping between codewords and their ”meanings”. It is also not yet clear which biological relevant entities (processes, molecular species, system states) are encoded by these novel codes. One reason for the unclear usage of the code concept is the lack of an objective definition of a ”molecular code” applicable to biological systems. To enable molecular biology to properly analyse molecular codes a formal, objective and testable definition of code is necessary. In this thesis I will present a formal concept of molecular codes as mappings between sets of molecular species that are elements of a chemical reaction network, i.e. a model of a (bio-)chemical system. An important property of a code is its contingency, i.e. the relations between codewords and their ”meanings” could, in principle, be different. This should also hold for molec- ular codes to distinguish them from fixed mappings and to enable evolution to act on codes. Due to the contingency condition codes always occur as collection of (potential) mappings. These differ in their actual relations, but map the same sets of molecular species. The general definition of molecular codes as contingent molecular mappings is specialised by analysing binary molecular codes, i.e. codes between sets of only two molecular species. Furthermore, the definition of codes allows to analyse the properties of molecular codes, especially the relations between codes. I will analyse code nesting and code linkage as two forms of code relations. Both concept allow to describe cells as systems of codes. Based on the definition of molecular codes it is possible to develop algorithms to iden- tify codes in chemical reaction networks. I propose two different algorithms based on different structural network properties, i.e. on closed sets and paths, respectively. Both algorithms follow a brute force strategy and are computational not feasible for large networks. For the path algorithm I propose two heuristic variants, i.e. (1) using the k-shortest paths (instead of all paths), and (2) applying a Monte-Carlo-type subnetwork sampling with subsequent code analysis. The two heuristics do not guarantee to identify all codes, but generate an estimate on the number of codes. This approach is suited for large scale networks, as demonstrated for the metabolic network of cells and the human signal transduction network. The algorithms are applied to a number of different reaction networks modelling com- bustion chemistries, a planetary photo chemistry, the gene translation system, the gene regulatory network, signalling by phosphorylation cascades, and two large scale biologi- cal networks obtained from databases. The analysis of these networks shows that abiotic networks do not have the ability to realize codes, while the biochemical systems do have the ability to implement molecular codes. The example of a phosphorylation cascade

  • network model shows the restriction to the structural approach of code identification, since here codes can only be implemented when the species’ concentration is considered. Random networks are analysed as a null model of molecular codes. A statistical model is fitted that describes the number of molecular codes dependent on network size and network density. The analysis also shows that there exist an optimal interval for codes for a fixed network size. Very sparse networks and very dense networks do not allow for molecular coding. The optimal interval gives the network densities that allow for a large number of codes, assuming completely random processes of network generation. The analysis of an artificial chemistry shows that also a dense network can have codes. A randomisation study of this network results in a decrease in the number of codes, i.e. the network converges towards the null model. Similarly, we can assume that the number of codes could increase under random variation if the network is in the optimal interval. From a theoretical point of view the ability to implement codes can be interpreted as semantic capacity. By identifying potential molecular codes a measure for the semantic capacity of (bio-)chemical systems is provided. Based on this notion hypotheses can be formulated with respect to the semantic capacity of biological systems, e.g. cells evolve towards higher semantic capacity, by employing subnetworks (subchemistries) that allow for coding. The results of this thesis will not answer this question completely, but give first results. In the thesis I will also discuss how the static, semantic aspect of molecular codes can be (and has to be) supplemented by the pragmatic level, e.g. by including kinetics and probabilities. The inclusion of dynamics also allows to identify codes between whole system states.

  • Zusammenfassung

    In der vorliegenden Dissertation führe ich ein formales Konzept für molekularer Kodes in chemischen Reaktionsnetzwerken ein. Kodes sind Abbildungen zwischen Mengen von Objekten. Kodierung ist ein verbreitetes Konzept. In der Linguistik wird der Zusam- menhang zwischen Wörtern und den bezeichneten Objekten als Kodierung aufgefasst. In der Informatik werden Instruktionen in Bitstrings kodiert werden, bzw. optimale Kodes für Dateikomprimierung entwickelt. In der Biologie wurde das Kodekonzept zusammen mit der Entdeckung der Mechanismen der Gentranslation eingeführt, der genetische Kode. Die weitere Forschung in der Zell- und Molekularbiologie postuliert die Existenz weiterer Kodes in der Zelle neben dem genetischen Kode. Der Histone- und der Zuck- erkode sind hier Beispiele. Diese neuartigen Kodes wurden bisher sehr detailiert in ihren biochemischen Mechanismen beschrieben, aber nutzen Unterschiedliche Definitionen des Kodebegriffs. Oft wird der Begriff ”Kode” zur Bezeichnung der Kodewörter, zum Beispiel die Kombination verschiedener kovalenter Histonemodifikationen, verwendet, während die Bedeutung im Sinne einer Abbildung vernachlässigt wird. Dabei ist es auch nicht klar zwischen welchen Mengen (Prozesse, molekulare Spezies, Systemzustände ) abgebildet wird. Ein Grund für die unklare Verwendung des Kodebegriffs ist das Fehlen einer objektiven Definition, die es erlaubt molekulare Kodes in biologischen Systemen zu erkennen. Eine formale, objektive und prüfbare Definition ist daher notwendig. Das Kodekonzept, das hier vorgestellt werden soll, basiert auf Modellen chemischer Systeme in Form von chemischen Reaktionsnetzwerken. Ein wichtiger Aspekt von Kodes im allgemeinen ist Kontingenz. Eine kontingente Abbildung erlaubt es die Kodewörter und deren Bedeutungen willkürlich zuzuordnen, d.h. eine beobachtete Abbildung könnte prinzipiell auch in anderer Ausprägung vor- liegen. Dies soll auch für molekulare Kodes gelten. Molekulare Kodes unterscheiden sich dadurch von feste Abbildungen und können als Ziel eines evolutionären Selektions- drucks fungieren. Die Kontingenzbedingung bewirkt, dass Kodes immer als Menge vieler (potentieller) Kodes auftreten. Diese Kodes unterscheiden sich in ihren Beziehungen, aber bilden zwischen den selben Mengen ab. Ein Spezialfall der allgemeinen Defini- tion molekularer Kodes stellt die Analyse binärer molekularer Kodes dar. Dies sind molekulare Kodes, die zwischen binären Mengen abbilden. Die Definition molekularer Kodes erlaubt außerdem die Analyse bestimmter Kodeeigenschaften, zum Beispiel Rela- tionen zwischen Kodes. Ich habe in diesem Zusammenhang verschachtelte Kodes (code nesting) und zwei Formen der Kodeverknüpfung (code linkage) untersucht. Die Ver- wendung dieser Eigenschaften ermöglicht es die Zelle als System molekularer Kodes zu beschreiben. Basierend auf der Definition ist es möglich Algorithmen zur Kodeidentifikation in chemis- chen Reaktionsnetzwerken anzugeben. Ich stelle zwei Algorithmen vor, die unterschiedliche Netzwerkeigenschaften ausnutzen, zum Einen geschlossene Mengen und zum Anderen die Pfade durch das Netzwerk. Beide Algorithmen folgen einer brute-force Strategie und sind für große Netzwerke sehr rechenintensiv. Für den Pfadalgorithmus stelle ich zwei Heuristiken vor. Die erste Heuristik verwendet die K

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.