Desarrollo de un modelo de espacio-estado lineal y su aplicación en la inferencia de redes de regulación génica Marzo 23, 2010 Claudia Rangel Escareño Departamento de Genómica Computacional
Desarrollo de un modelo de espacio-estado
lineal y su aplicación en la inferencia de
redes de regulación génica
Marzo 23, 2010
Claudia Rangel Escareño
Departamento de Genómica Computacional
Colaboradores
David L. Wild, Systems Biology Centre
Warwick University, U.K.
John Angus, Dean School of Mathematical Sciences
Claremont graduate University, CA U.S.A
Francesco Falciani, Professor
University of Birmingham, U.K
Zoubin Ghahramani, Professor
Univ. of cambridge, U.K.
Sobre mi …
� Lic. Matemáticas UAM –I
� M.Sc. Mathematics CGU
� Ph.D Mathematics CGU
� Postdoctoral fellow Computational Molecular Biology and Bioinformatics
� Investigador Genómica Computacional
Sobre el área de investigación
� Bioestadística
� Bioinformática
� Genómica Computacional
� Biología Molecular Computacional
� Biología de Sistemas
� Biología de Sistemas Computacional
Sobre el área de investigación
� Bioestadística
� Bioinformática
� Genómica Computacional
� Biología Molecular Computacional
Estudios poblacionales, epidemiología, pocas variables muchas muestras
� Biología de Sistemas
� Biología de Sistemas Computacional
Sobre el área de investigación
� Bioestadística
� Bioinformática
� Genómica Computacional
� Biología Molecular Computacional
Bases de datos, almacenamiento y manipulación de datos, software
� Biología de Sistemas
� Biología de Sistemas Computacional
Sobre el área de investigación
� Bioestadística
� Bioinformática
� Genómica Computacional
� Biología Molecular Computacional
Genes, genoma, estadística Bayesiana, nuevos algoritmos, gráficos y escribir código
� Biología de Sistemas
� Biología de Sistemas Computacional
Sobre el área de investigación
� Bioestadística
� Bioinformática
� Genómica Computacional
� Biología Molecular Computacional
Biología en gral. estadística frec. Bayesiana, nuevos algoritmos, gráficos y escribir código
� Biología de Sistemas
� Biología de Sistemas Computacional
Sobre el área de investigación
� Bioestadística
� Bioinformática
� Genómica Computacional
� Biología Molecular Computacional
� Biología de Sistemas
� Biología de Sistemas Computacional
Matemáticas, Modelos, Machine Learning, Sistemas inteligentes: Algoritmos y mucho código
Motivación
� Las preguntas más frecuentes que la gente se cuestiona cuando se realiza un proyecto con microarreglos� Qué genes están diferencialmente expresados en control vs
tratamiento?
� Existen agrupamientos de genes? Tienen funciones en común?
� No tan frecuentemente nos planteamos lo que podemos entender sobre interacciones regulatorias entre genes y proteínas. Entender a mas detalle las redes transcripcionales
Reverse-engineering biological networks (top-down modelling) Pedro Mendes Computational Systems Biology, University of Manchester. and P.I. at the
Virginia Bioinformatics Institute.
Motivation
� Aplicar ingeniería reversa a redes biológicas
� Data-driven approaches
� El modelo que elejimos para este trabajo es un sistema � El modelo que elejimos para este trabajo es un sistema dinámico lineal (LDS) también conocido como modelo de espacio-estado (SSM) que es una subclase de DBN Redes Bayesianas Dinámicas
En términos mas generales
LDS / SSM
SSM / LDS ���� Dynamic Bayesian Networks
� Proveen una metodología para tratar problemas diseñados en series de tiempo
� El caso multivariado es desarrollado como una simple extensión de la teoría univariada
� Asumen la existencia de variables de estado “latentes¨que evolucionan con una dinámica Markovianadinámica Markoviana� Estas variables latentes pueden estar modelando por ejemplo
� Los efectos de genes que no fueron incluídos en el experimento� Niveles de proteínas regulatorias o factores de transcripción no medibles en el
microarreglo� Los efectos de degradación de mRNA o de proteínas
� Variables continuas
� La forma en que se estudia y desarrolla esta clase de modelos es basado en un análisis estructural del problema (Graphical models)
Modelo General
Modelo lineal de Espacio-Estado con inputs
ht ht+1
B
Exogenous on states
xt xt+1
yt yt+1
ut+1ut
A
C
D
É
É
States
Observations
Exogenous on observations
Modelo lineal de Espacio-Estado con inputs
xt xt+1
yt yt+1
ht
ut+1ut
ht+1
A
C
B
D
É
É
States
Observations
Exogenous on states
Exogenous on observations
xt xt+1
yt yt+1
ht
ut+1ut
ht+1
A
C
B
D
É
É
States
Observations
Exogenous on states
Exogenous on observations
xt+1 = Axt +Byt+ wt
yt = Cxt + Dyt-1 + vt
xt+1 = Axt +Byt+ wt
yt = Cxt + Dyt-1 + vt
Definición de la Estructura del Modelo
xt-1 xt
yt-1 yt
A
CB
D
É
É
States
Observations
xt+1 = Axt + Bht + wt
yt = Cxt + Dut + vt
Gene expression data
}{}{ , ),0(~}{
),0(~}{
ttt
t
vwRW�v
QW�w
⊥Assumptions:
Biological SystemBiological System
Data AcquisitionData Acquisition
Data NormalizationData Normalization
LDS model, Hidden states,Parameter Estimation
Use EM-Algorithm (Kalman Filter, Smother,etc.)
Pre-processing
Identify Possible Sub modelsBootstrap
FinishFinish
DiagnosticsDiagnosticsRe-estimate Candidate
Models with ConstraintsRe-estimate Candidate
Models with Constraints
Biology / Expert OpinionBiology / Expert OpinionConstraints
(future) (current)
T cell Activation
The central event in the generation of an immune response is the activation of T cells.
peptide
TCR
Signaling pathway
T cell
APC
CytokinesInfected cell
T cell recognizes complex of viral peptide and kills infected ce ll. T cell activation is initiated by the interaction between the T cell receptor (TCR) and the antigen peptide presented on the surface of an antigen -presenting cell. This event triggers a cascade of events that couple the stimulatory signal received form TCR to gene transcription events in the nucleus.
T cellCytokines
Modelo de activación en células T
Basado en la estimulación con
* calcium ionophore ionomicin
* PKC activator phorbol ester PMA
lymphoblast cell line
bypasses TCR
Activates signaling Activates signaling transduction pathways
T-cell activation
Tecnología: Microarreglos
� Pueden medir la expresión de miles de genes simultánemente
� Diseño es por especie
� Análisis debe ser dentro de parámetros de muchas variables pocas muestraspocas muestras
� Uso de algoritmos matemáticos diseñados exclusivamente para datos generados con microarreglos
� Abierto a nuevas ideas de desarrollo estadístico-matemático
� Uso extenso de conocimiento computacional
http://www.weizmann.ac.il/
Estructura de los datos: Series de Tiempo
10 x 44 x 58 {0,2,4,6,8,18,24,48,72}
g1 g2 … g58
t1
t2
:
t10
----------------------------------------------------
replicate 1expression levels
----------------------------------------------------
t1
t2
:
t10replicate 2expression levels
25,520 data points
replicate 44
Data Normalization
Data Normalization
� Motivation: Common distribution of intensities across replicates.
� Algorithm: Quantile Normalization [Bolstad et al.] (Based on the Q-Q plots)
Biological SystemBiological System
Data AcquisitionData Acquisition
Data NormalizationData Normalization
LDS model, Hidden states,Parameter Estimation
Use EM-Algorithm (Kalman Filter, Smother,etc.)
Pre-processing
Identify Possible Sub modelsBootstrap
FinishFinish
DiagnosticsDiagnosticsRe-estimate Candidate
Models with ConstraintsRe-estimate Candidate
Models with Constraints
Biology / Expert OpinionBiology / Expert OpinionConstraints
(future) (current)
¿Cómo determinamos el número de variables latentes?
Test efficiency if the learning algorithm every time a hidden state is added
Bootstrap cross-validation
� 44-way cross validation experiment to find the optimal number of hidden states
� In general in a R-fold cross-validation experiment, the data set is randomly divided into R mutually exclusive subsets of equal size. Data is trained R times, each time leaving out one of the subsets from training, but using only the omitted subset to compute the likelihood.
Training setLDS
Validation set(likelihood)
Parámetros del Modelo
xt-1 xt
yt-1 yt
A
CB
D
É
É
States
Observations }{}{ , ),0(~}{
),0(~}{
ttt
t
vwRW�v
QW�w
⊥
xt+1 = Axt +Byt+ wt
yt = Cxt + Dyt-1 + vt
A: K x K matriz de transición (K = número de variables latentes)B: K x 58 input to state matrixC: 58 x K influencia de las variables latentes sobre la expresión génica en cada tiempoD: 58 x 58 nivel de expresión de gen a gen en tiempos consecutivos
Nota:
1. Nos interesa la matriz CB+D2. K=9 previamente estimado
Metodología
� Expectation–Maximization (EM) algorithm� The motivation for using EM algorithm is that it iteratively computes
the MLE for incomplete data sets.
� Filtering� Filtering is aimed at updating our knowledge of the system as each
observation yt comes int
� Smoothing� Smoothing enables us to base our estimates of quantities of interest
on the entire sample y1,…,yT.
� Bootstrapping� Bootstrap methods can be used for estimating confidence bounds for
network outputs
EM Algorithm
E-step
� Use
M-step
� Use tt Px ,ö
RQDCBAPx ,,,,,,, 00
To Re-estimate
xt+1 = Axt +Byt+ wt wt ~ �(0,Q)
yt = Cxt + Dyt-1 + vt vt ~ �(0,R)
� Compute the expected log likelihood given the data
Kalman
FilterSmoother
To Re-estimate
RQDCBAPx ö,ö,ö,ö,ö,ö,, 00tt Px ,ö
By maximizing the log likelihood
Kalman Filtering & Smoothing
� The likelihood can be calculated by a routine application of the Kalman filter, considered the optimal linear estimator.
� The Kalman filter estimates the current value of our variables incorporating all information available.� Knowledge of the system
The statistical description of any uncertainty of the dynamics of the � The statistical description of any uncertainty of the dynamics of the model
� Noises and measurement errors� Initial conditions
� The Smoother solves the problem of estimating the state at time t given the parameters and the observations.
Bootstrapping
Usamos resultados del Bootstrapping
Usamos resultados del Bootstrapping
Usamos resultados del Bootstrapping
Resultados en datos simulados: 40 réplicas, 10 tiempos, 5 genes
1
11110
00000
00100
01100
11110
5
4
3
2
5 y 11 genes
Sólo 11 genes (nodos)
39 Nodos
Series de tiempo artificiales no son estacionarias para pocos tiempos -> sesgo
Propiedades Estructurales del Modelo
� Stability (parameters) the state variable does not “explode” exponentially -
The Model will be stable iff the matrix
has spectral radius less than one,
� Controllability (inputs) ability to move the state from any given initial value to a predetermined final value by manipulation of the noise - The model will be
+=
DCBCA
BAA0
1 2 3 4 5 6 7 8 9 10-3
-2
-1
0
1
2
3
1 2 3 4 5 6 7 8 9 10-800
-600
-400
-200
0
200
400
600
predetermined final value by manipulation of the noise - The model will be controllable iff the matrix
is full rank,
� Observability (outputs) ability to determine the initial state from a sequence of noiseless observations – The model will be observable iff the matrix
is full rank.
],...,,,[ 1
0
2
00
−KAAAI
[ ]TKHAHAHAH 1
0
2
00
−L
)~dim( txK =
)~dim( txK =
Diagnósticos en el modelo encontrado
• Common Methods•Examination of standardized innovations for lack of correlation / pattern
• Check that estimates of A, B, C, D are in the observable, controllable, stable region of the parameter space:stable region of the parameter space:
Resultados en Datos Experimentales
Il-2
Main cellular functions modulated during T cell activation
Activación (1)Proliferación (2)
Resultados en Datos Experimentales
Il-2
IL-2Rϒ, IL-4Rα, IL-3Rα Proliferation gene: Cyclin A2
Main cellular functions modulated during T cell activation
(3)
Activación (1)
Proliferación (2)
Resultados en Datos Experimentales
Il-2
IL-2Rϒ, IL-4Rα, IL-3RαProliferation gene: Cyclin A2Apoptosis response gene: Clustering
Main cellular functions modulated during T cell activation
Activación (1)Proliferación (2)
Resultados en Datos Experimentales
Il-2
IL-2Rϒ, IL-4Rα, IL-3RαProliferation gene: Cyclin A2Apoptosis response gene: Clustering Early T-cell activation marker: CD69
Main cellular functions modulated during T cell activation
Activación (1)Proliferación (2)
Resultados en Datos Experimentales
Il-2
IL-2Rϒ, IL-4Rα, IL-3RαProliferation gene: Cyclin A2Apoptosis response gene: Clustering Early T-cell activation marker: CD69
TF involved in T-cell antigen reg: GATA
Main cellular functions modulated during T cell activation
Activación (1)Proliferación (2)
Resultados en Datos Experimentales
Il-2
Ausente en el microarreglo, considerada como “variable latente” y pertenece a ACTIVACIÓN
Main cellular functions modulated during T cell activation
Activación (1)Proliferación (2)
Resultados en Datos Experimentales
Il-2
TCRNFKB
Gen blanco de NFKB es IL-2
Main cellular functions modulated during T cell activation
Activación (1)Proliferación (2)
Qué ha seguido?
• VBSSM – Variational Bayesian State-Space Model
• Synthetic Data – Genome Research Dirk Husmeier
• Constraints • Constraints – Learning and Inference in Computational Biology MIT press
- 2010