Inteligencia Artificial en Bioinformática. Algunas Aplicaciones. Carlos Cano Gutiérrez Fernando García Alcalde Fco. Javier López Domingo Marta Cuadros Celorrio Armando Blanco Moron Genome Alhambra Group http://genome.ugr.es Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Granada
29
Embed
Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.
Carlos Cano GutiérrezFernando García Alcalde
Fco. Javier López DomingoMarta Cuadros CelorrioArmando Blanco Moron
Genome Alhambra Group http://genome.ugr.es
Dpto. Ciencias de la Computación e Inteligencia Artificial
Universidad de Granada
Abril 2009 I Jornadas de Bioinformática en Granada 2
Contenidos
1. Extracción de módulos de regulación genética mediante análisis de microarrays con Clustering y Biclustering.
2. Text-mining para extraer relaciones de la literatura biomédica
Abril 2009 I Jornadas de Bioinformática en Granada 3
Microarrays: Background biológico
• Células de un organismo: – Comparten mismo ADN.– Muestran distinto comportamiento.
• Causa: expresión-represión genes
Measure the expression level of gene G
Measure the mRNA abundance of gene G
Measure the amount of protein P
Abril 2009 I Jornadas de Bioinformática en Granada 4
Hibridación de un Microarray
Abril 2009 I Jornadas de Bioinformática en Granada 5
Hibridación de un Microarray (II)
• Excitar microarray con láser
• Medir fluorescencia emitida por cada spot:
gen expresado en cels. Tipo A.
gen expresado en cels. Tipo B.
gen expresado en ambos tipos.
gen no expresado en ningun tipo.
• Intensidad de la fluorescencia = nivel de expresión del gen.
Abril 2009 I Jornadas de Bioinformática en Granada 6
Matriz de expresión génica
• Resultado de la Tecnología de Microarrays• Matriz de expresión A: n genes x m condiciones• A(i,j) nivel de expresión gen i bajo condición j
Abril 2009 I Jornadas de Bioinformática en Granada 7
Clustering sobre matriz de expresión
• Identificar grupos de genes (condiciones) con el mismo comportamiento a lo largo de las condiciones (genes) --> genes coexpresados.
• Genes pertenecientes al mismo grupo probablemente compartirán una misma función biológica.
• Como un gen puede desempeñar varios papeles en distintos procesos biológicos, se requieren algoritmos de clustering no exclusivo.
Abril 2009 I Jornadas de Bioinformática en Granada 8
Objetivo
• Clustering no exclusivo (permite solapamiento entre clusters).
• Identificar clusters coherentes de genes con alta varianza entre muestras.
• Criterio:– Clusers coherentes (genes similares se agrupan
conjuntamente). – Máxima varianza de los valores de los genes para
las distintas condiciones.
Abril 2009 I Jornadas de Bioinformática en Granada 9
Objetivo (II)
Abril 2009 I Jornadas de Bioinformática en Granada 10
Máxima varianza para las muestras
• Objetivo: – Clusters ayudan a identificar distintos tipos de
muestras.– Identificar grupos de genes cuya variación en los
niveles de expresión pudiera estar relacionada con propiedades biológicas de las muestras.
• Medida variabilidad: varianzaSea el valor de expresion para la muestra j del gen promedio del cluster :
La varianza del gen promedio es:
donde
∑∈ kSi
ijj xk)(=x /1
jxSk
∑ −p
j=j
jx )xx(p)(=σ
1
2
2/1
∑ jxp)(=x /1
Diciembre 2007 Máster en Soft Computing y Sistemas Inteligentes 11
Algoritmo ‘Gene Shaving’ (Hastie, 2001)
• Obtener un cluster:– Encontrar una secuencia anidada de clusters:
– Elegir un cluster de la secuencia: función GAP
• Calcular la 1ª CP de los genes restantes
• Eliminar α% genes con menor correlación con la 1ª CP.
Abril 2009 I Jornadas de Bioinformática en Granada 12
Nuestra propuesta
• Selección de genes :≈ Problema Selección Características (FSS)
Algoritmos Evolutivos: Algoritmos Genéticos (GA)
Algoritmos de Estimación de Distribuciones de Probabilidad (EDA)
Abril 2009 I Jornadas de Bioinformática en Granada 13
• Medida fitness: función GAP
– Criterios (ANOVA):MAX Between Variance MIN Within Variance
– Calidad Cluster (percent of variance explained)
– Elegir el cluster de la secuencia que:
– donde es el promedio de
Sk
Calidad del Cluster
Abril 2009 I Jornadas de Bioinformática en Granada 14
Biclustering sobre matriz de expresión
El clustering identifica grupos de genes con el mismo comportamiento para TODAS las condiciones
Un bicluster es una submatriz cuyos valores están relacionados de acuerdo a un criterio establecido.
Criterio: GAP • Valores Coherentes (genes
similares en un mismo bicluster)
• Máxima varianza para las columnas del bicluster
Abril 2009 I Jornadas de Bioinformática en Granada 15
Biclustering utilizando CP: Gene & Sample Shaving
Gene & Sample Shaving: Eliminar genes y muestras• MAX VARIANZA MUESTRAS: Eliminar filas menos correladas
con la 1ª CP de las filas de X.• MIN VARIANZA GENES: Eliminar columnas más correladas
con la 1ª CP de las columnas de X
Abril 2009 I Jornadas de Bioinformática en Granada 16
Clustering. Comparativa resultados.
• Cho et al. 1998. Ciclo celular de la levadura.• 2879 genes x 17 condiciones• Comparación resultados (10ejec.x10clusters/ejec.)
Abril 2009 I Jornadas de Bioinformática en Granada 24
Objetivo: Extracción de relaciones
The action of SCPA enzymatically inhibits the chemotactic activity of C5a by cleaving its neutrophil binding site. [PMID: 12964111]
– Keyword: inhibits
– Argument 1: SCPA
– Argument 2: C5a
– Type: repression
– Role Arg. 1: agent
– Role Arg. 2: patient
Abril 2009 I Jornadas de Bioinformática en Granada 25
Enfoque: Análisis sintáctico + ML
•Patrones en árbol sintáctico:
...
NP
NP
Abril 2009 I Jornadas de Bioinformática en Granada 26
Corpora disponible
Type Corpus Name Object of the annotation Level of annotation Length + / -FormatBioText PPI / Treat-Disease int. Prots instances and type of relationship 100 titles / 40 abstracts + HTMLWisconsin PPI / Prot-Cell loc / Gene-Disease int. POS, Entities, arguments of the relation 52000 / 7900 / 13412 sent + / - Own Stand-offPICorpus PPI Entities and relations (Tags: Protein / Action)10271 sent + XML/WordFreakFetch Prot Corpus PPI Interacting arguments 190 full texts + / - Stand-off XML
PPI HIV-1 Human PI PPI Prot instances and type of relationship 2224 interacting prots. + OwnBioCreAtIvE I with PPI PPI / NE POS, Genes and relations tags. 255 int / 1000 sent + / - Stand-off XMLSPIES Corpus PPI / NE Protein mentions,yes/no for interaction 963 sent + OwnBioIE PPI / NE Proteins and keywords for relations 250 sent + HTMLYapex PPI / NE Protein mentions,yes/no for interaction 200 abstracts + / - XMLBioContrasts PPI / NE Proteins and constrasts 100 abstracts + XML
PennBioIE NE / Syntactic Structure (constituents) POS tags, Domain Entities and contituent trees642 abs / 2257 sent XML/WordFreakSYNTAX GENIA NE /Syntactic Structure (constituents) Domain Entitie and contituent trees 300 abs / 2000 sent XML / PTB
Brown GENIA Syntactic Structure (constituents) POS tags and constituent trees 21 abs / 215 sent PTBDepGENIA Syntactic Structure (dependencies) Dependency trees automatically annotatedAll GENIA corpus XML