“Estimación del punto isoeléctrico de péptidos · 3.3.2 Normalización de los datos ..... 46 3.4. Implementación del algoritmo pI-SVM utilizando WEKA ... (Domon y Aebersold

“Estimación del punto isoeléctrico de péptidos

empleando descriptores moleculares y

máquinas de soporte vectorial”

Tesis presentada en opción al título de Maestro en Ciencias

en Tendencias de la Biotecnología Contemporánea.

Mención Investigación de Nuevos Productos

Autor: Ing. Enrique Audain Martínez

Tutor (es): DrC. Kathya R. de la Luz Hernández

DrC. Yasset Perez-Riverol

Centro de Inmunología

Molecular

Centro de Ingeniería Genética y Biotecnología

La Habana, febrero de 2014

Agradecimientos

Agradecimientos

A mi familia, especialmente a mami, por su apoyo en cada momento,

A mis tutores,

En general, a todas aquellas personas por su apoyo incondicional,

De corazón, muchas gracias

Dedicatoria

Dedicatoria

A mi madre y hermana, por todo,

A mi familia, especialmente a mis dos abuelas, por todo el apoyo brindado,

A mis dos padres, Enrique y Jesús Martínez Mesa, gracias,

A mis amigos, por la confianza,

A todos los que hicieron posible la realización de este trabajo.

Glosario de términos y abreviaturas


API Interfaz para la programación de aplicaciones (del inglés

Application Programming Interface)

CDK Bibliotecas de clases para análisis químico (del inglés

Chemical Development Kit)

CID Disociación inducida por colisión (del inglés Collision-

induced Dissociation)

Cofactor Algoritmo de Cargile para la estimación del pI

ESI Electro-nebulización (del inglés Electrospray)

FS Selección de características (del inglés Feature Selection)

FT Transformada de Fourier (del inglés Fourier Transform)

HPLC Cromatografía Líquida de Alta Eficacia (del inglés High

Performance Liquid Chromatography)

ICR Resonancia ciclotrónica de iones (del inglés Ion Cyclotron

Resonance)

IEF Isoelectroenfoque (del inglés Isoelectric Focusing)

IPG Gradiande de pH inmobilizado (del inglés Immobilized pH

Gradient )

IT Trampa de iones (del inglés Ion Trap)

JDK Herramientas para el desarrollo de aplicaciones en Java

(del inglés Java Development Kit)

JRE Entorno de ejecución de aplicaciones Java (del inglés Java

Runtime Enviroment)

JVM Máquina Virtual de Java (del inglés Java Virtual Machine)

Kernel Núcleo de transformación

k-means Algoritmo de las medianas

LIT Trampa de iones lineal (del inglés Lineal Ion Trap)

LTQ Cuadrupolo de confinamiento lineal (del inglés Linear Trap

Quadrupole)

MALDI Ionización por desorción láser asistida por matriz (del inglés

Matrix-Assisted Laser Desorption/Ionization)

MS Espectrometría de masas (del inglés Mass Spectrometry)

MS/MS Espectrometría de masas en sucesión (del inglés Tandem

http://en.wikipedia.org/wiki/Application_programming_interface


Mass Spectrometry)

pI Punto isoeléctrico

pK Logaritmo negativo de la constante de disociación.

Q Cuadrupolo (del inglés Quadrupole)

QQQ Triple Cuadrupolo

QSAR Relación cuantitativa entre estructura y actividad (del inglés

Quantitative Structure-Activity Relationship)

RMSE Error cuadrático medio (del inglés Root Mean Square Error)

RP Fase reversa (del inglés Reverse Phase)

SCX Intercambio catiónico fuerte (del inglés Strong Cation-

eXchange)

SD Desviación estándar (del inglés Standar Desviation)

SMO Optimización mínima secuencial (del inglés Sequential

Minimal Optimization)

SVM Máquina de Soporte Vectorial (del inglés Support Vector

Machine)

TOF Analizador de tiempo de vuelo (del inglés Time of Flight )

WEKA Entorno para Análisis del Conocimiento de la Universidad

de Waikato (del inglés Waikato Environment for Knowledge

Analysis)

XML Lenguaje de marcas extensibles (del inglés eXtensible

Markup Language)

http://en.wikipedia.org/wiki/University_of_Waikato

http://en.wikipedia.org/wiki/University_of_Waikato

Resumen

Resumen

El fraccionamiento de mezclas de péptidos utilizando geles con gradiente

de pH inmovilizado se utiliza con frecuencia como el primer paso de

separación en experimentos de proteómica. Esta técnica produce un

incremento tanto en el rango dinámico como en la resolución de la

separación de péptidos previo al análisis por Cromatografía Líquida-

Espectrometría de Masas. Los valores de punto isoeléctrico (pI)

experimental obtenidos en combinación con la información de los espectros

de fragmentación pueden ser utilizados para mejorar las identificaciones de

péptidos. Por lo tanto, la estimación precisa del valor de pI basado en la

secuencia de aminoácidos constituye un punto crítico en este tipo de

experimentos. En la actualidad, el pI se estima fundamentalmente

mediante modelos basados en el estado de carga de la molécula, y/o el

algoritmo Cofactor. Sin embargo, ninguno de estos métodos es capaz de

calcular el valor de pI de péptidos básicos con precisión. En este trabajo,

presentamos un enfoque nuevo que puede mejorar la estimación del pI

significativamente, mediante el uso de máquinas de soporte vectorial

(SVM), un descriptor experimental de aminoácidos tomado de la base de

datos AAIndex y el punto isoeléctrico predicho por un modelo basado en el

estado de carga. Los resultados obtenidos en dos conjuntos de datos

experimentales mostraron una alta correlación (0.96-0.98) entre valores

estimados y observados de pI, con una desviación estándar de 0.32-0.36

unidades de pH.

Índice

Introducción ................................................................................................. 1

Capítulo 1. Revisión Bibliográfica ................................................................ 6

1.1 Proteómica: conceptos básicos................................................................. 6

1.1.1 Fraccionamiento del proteoma. Técnicas electroforéticas y

cromatográficas ........................................................................................... 7

1.1.2 Espectrometría de masas ................................................................... 9

1.1.3 Asignación de secuencia de péptidos a espectros de fragmentación11

1.1.4 Validación de la identificación de las proteínas utilizando las

propiedades físico-químicas de los péptidos ............................................. 12

1.2 Algoritmos para la estimación del punto isoeléctrico ............................... 13

1.2.1 Algoritmos iterativos para la estimación del pI .................................. 14

1.2.2 Algoritmo de Gauci para la estimación del pI .................................... 15

1.2.3 Algoritmo de Cargile (Cofactor) para la estimación del pI ................. 16

1.2.4 Utilización del punto isoeléctrico en la validación de datos en

experimentos de proteómica ...................................................................... 17

1.3 Aprendizaje Computacional. Máquinas de Soporte Vectorial ................. 17

1.3.1 Pre-procesamiento de los datos en el aprendizaje computacional ... 18

1.3.2 Representación de la estructura molecular mediante descriptores

moleculares ............................................................................................... 20

1.3.3 Técnicas de Selección de Variables ................................................. 23

1.3.4 Máquinas de Soporte Vectorial ......................................................... 26

1.4 Lenguajes de programación y entorno de desarrollo integrado .............. 27

Capítulo 2. Materiales y Métodos .............................................................. 29

2.1 Obtención de los péptidos teóricos del proteoma de D. Melanogaster ... 29

2.2 Obtención del pI experimental de los péptidos ....................................... 29

2.3 Procesamiento de los datos biológicos ................................................... 29

2.3.1 Programa readPeptideXML .............................................................. 30

2.4 Diseño experimental ............................................................................... 30

2.5 Cálculo de descriptores de AAindex ....................................................... 32

2.6 Implementación del modelo final basado en SVM utilizando WEKA ....... 33

Capítulo 3. Resultados y discusión ............................................................ 35

3.1 Selección de descriptores moleculares ................................................... 36

3.3 Pre-procesamiento de los datos de entrada del modelo final ................. 42

3.3.1 Remoción automática de valores atípicos ........................................ 43

3.3.2 Normalización de los datos ............................................................... 46

3.4. Implementación del algoritmo pI-SVM utilizando WEKA ........................ 47

3.5 Detección de falsas identificaciones con el algoritmo pI-SVM ................ 48

3.6 Implementación de los algoritmos Bjellqvist y Cofactor .......................... 51

3.7 Evaluación de los algoritmos de Bjellqvist, Cofactor y pI-SVM en datos

experimentales .............................................................................................. 52

Conclusiones ............................................................................................. 56

Recomendaciones ..................................................................................... 57

Referencias bibliográficas .......................................................................... 58

Introducción

1

Introducción

La proteómica se define como el conjunto de metodologías y técnicas

analíticas para el estudio del proteoma, el cual representa el total de las

proteínas expresadas en un organismo, un tejido o línea celular, en un

momento determinado (Aebersold y Mann 2003). Esta disciplina del

conocimiento puede ser utilizada para estudiar las funciones biológicas de

las proteínas, las localizaciones en los diferentes organelos celulares, las

modificaciones post-traduccionales y las interacciones entre estas. El

avance vertiginoso en el campo de la proteómica en los últimos años, se

debe fundamentalmente a los avances en la instrumentación en la

Espectrometría de Masas (MS, del inglés Mass Spectrometry), las mejoras

en las metodologías experimentales y el desarrollo de nuevas herramientas

computacionales que mejoran el análisis de los datos obtenidos (Ahrens y

cols., 2010; Perez-Riverol Y y cols., 2013; Perez-Riverol Y y cols., 2013).

Las mejoras tecnológicas en los espectrómetros de masas -

fundamentalmente en la velocidad de adquisición de los datos, la

resolución, la precisión y la sensibilidad (Domon y Aebersold 2006)- han

impuesto un reto en el análisis computacional de los grandes volúmenes de

datos derivados de un experimento de proteómica. La estrategia más

utilizada para la asignación de una secuencia peptídica a un espectro de

fragmentación (MS/MS) es la metodología de búsqueda en bases de datos

de secuencias (Eng y cols., 2011). Otras metodologías utilizadas con este

propósito son la secuenciación de novo (Seidler y cols., 2010), la secuencia

etiqueta (Tabb DL y cols., 2003; Tabb DL y cols., 2008; Perez-Riverol Y y

cols., 2013) y la búsqueda en bibliotecas de espectros de masas

experimentales (Lam 2011; Lam y Aebersold 2011). Consecuentemente, el

desarrollo de nuevas herramientas computacionales para la identificación

de péptidos y proteínas, y su validación estadística, constituyen un campo

de investigación en constante crecimiento (Mujezinovic y cols., 2010;

Nesvizhskii 2010).

Introducción

2

Recientemente, la utilización de las informaciones complementarias

generada durante un experimento de proteómica, tales como el punto

isoeléctrico (pI) (Cargile BJ y Stephenson JL 2004) y el tiempo de retención

(Norbeck AD y cols., 2005; Moruz L y cols., 2012) en un sistema

cromatográfico determinado, han sido explorados para la validación de las

identificaciones de péptidos y proteínas (Heller y cols., 2005; Nesvizhskii y

cols., 2007; Perez-Riverol y cols., 2011). Todas estas estrategias requieren

la estimación precisa de diferentes propiedades físico-químicas de péptidos

y proteínas, tales como el tiempo de retención, el punto isoeléctrico, el

índice de Gravy, la masa molecular o la ‘detectabilidad’ del péptido. Estas

estimaciones están basadas en dos componentes fundamentales:

algoritmos y descriptores moleculares.

Se han reportado en la literatura varios modelos (basados en aprendizaje

computacional) para la estimación del tiempo de retención (Petritis y cols.,

2006; Pfeifer y cols., 2007) y la ‘detectabilidad’ de péptidos (Kuster y cols.,

2005; Mallick y cols., 2007) que derivan de la información contenida en la

estructura primaria. Sin embargo, este enfoque ha sido menos utilizado en

los algoritmos para la predicción del punto isoeléctrico.

El punto isoeléctrico (pI) puede ser definido como el punto en una curva de

titulación en el cual la carga neta superficial de un péptido o proteína es

igual a cero (Righetti 2004). El pI experimental es obtenido como

información complementaria durante el fraccionamiento por

isoelectroenfoque, electroforesis libre de gel, electroforesis capilar y

electroforesis en gel utilizando tiras con gradiente de pH inmovilizado. La

separación electroforética de péptidos ha sido adaptada a una amplia

variedad de plataformas de proteómica. El punto fundamental es que el

paso de separación reduce la complejidad del proteoma bajo estudio

(Heller y cols., 2005; Cargile y cols., 2008; Gauci y cols., 2008).

La combinación de la separación electroforética de péptidos y los espectros

de fragmentación (espectros MS/MS) proporcionan un método de análisis

ortogonal para filtrar los resultados obtenidos por búsquedas en bases de

datos o la validación de los péptidos identificados (Perez-Riverol y cols.,

2011) en diferentes flujos de trabajos. El éxito de utilizar el pI como criterio

Introducción

3

para validar los resultados en experimentos de proteómica involucra la

habilidad de dos elementos fundamentales: (i) las técnicas resolutivas para

obtener valores experimentales del pI con precisión, y (ii) los algoritmos

para estimar el pI con buena precisión.

La ecuación de Henderson-Hasselbach se ha utilizado para estimar valores

de pI, esta relaciona el pH de la solución con los valores de pK (logaritmo

negativo de la constante de disociación) de los aminoácidos. Una primera

aproximación para la estimación de valores de pI fue descrita por David

Tabb (DL. 2003). El método utiliza la ecuación antes mencionada para el

cálculo de pI y el conjunto de valores de pK de los grupos ionizables de las

cadenas laterales de los aminoácidos propuesto por Bjellqvist (Bjellqvist y

cols., 1993).

Los algoritmos actuales para estimar el pI de péptidos y proteínas

dependen primeramente del modelo propuesto por Bjellqvist y

colaboradores (Bjellqvist y cols., 1993). Este modelo está basado en las

diferencias de pK entre inmobilinas estrechamente relacionadas,

enfocando la misma muestra en gradientes de pH solapados.

Subsecuentes mejoras en la metodología (especialmente hacia la

determinación de los valores de pK) han sido propuestas recientemente

para diferentes sistemas electroforéticos.

Gauci y colaboradores (Gauci y cols., 2008) propusieron un algoritmo para

la estimación del pI de péptidos utilizando un nuevo conjunto de valores de

pK tanto para péptidos modificados como para péptidos no modificados.

Siguiendo otra metodología, el algoritmo propuesto por Cargile y

colaboradores (Cargile y cols., 2008) toma en cuenta el efecto de

aminoácidos adyacentes sobre los residuos cargados del ácido aspártico y

el ácido glutámico y el efecto sobre el C-terminal libre, aplicando también

un término de corrección a los valores de pK correspondientes.

Los métodos de Gauci y Cargile logran una alta correlación entre el valor

de pI experimental y teórico. Sin embargo, la desviación estándar que se

obtiene para los valores de pI es relativamente alta con ambos métodos,

especialmente en las fracciones más básicas, lo cual plantea una limitación

Introducción

4

para el uso del pI (calculado por estos métodos) como criterio de validación

en las identificaciones de péptidos.

Los elementos anteriormente expuestos plantean la necesidad de disponer

de métodos de estimación lo más exactos posibles que permitan elevar la

confiabilidad de los resultados obtenidos por MS cuando se utiliza el pI

como criterio de validación. Esta cuestión adquiere una importancia

relevante cuando se utilizan en el proceso de identificación espectrómetros

de masas de baja resolución.

Teniendo en cuenta los elementos anteriormente descritos en este trabajo

nos planteamos como:

Objetivo General

Desarrollar y validar un método bioinformático de estimación del punto

isoeléctrico de péptidos utilizando descriptores de secuencia y máquinas

de soporte vectorial.

Objetivos Específicos

1. Implementar herramientas bioinformáticas para el pre-procesamiento de

datos proteómicos y el cómputo y selección de descriptores moleculares

de péptidos.

2. Obtener una función para el cálculo del punto isoeléctrico utilizando

métodos de aprendizaje computacional.

3. Evaluar el uso del punto isoeléctrico en la identificación de “falsos

positivos” en experimentos de proteómica.

4. Comparar la función obtenida con otros métodos para el cálculo del

punto isoeléctrico reportados en la literatura.

Tareas experimentales

1. Implementación de herramientas computacionales para el pre-

procesamiento de los datos experimentales y el cálculo de descriptores

Introducción

5

moleculares utilizando la base de datos AAindex y las bibliotecas

Chemaxon y CDK.

2. Implementación de técnicas de selección de variables para discriminar

los descriptores más relevantes en el desarrollo del modelo predictor.

3. Pre-procesamiento de los datos para la construcción del modelo final

basado en la remoción automática de valores atípicos en el conjunto de

datos y la utilización de técnicas de normalización de datos.

4. Desarrollo de una función para el cálculo teórico del punto isoeléctrico

de péptidos basada en máquinas de soporte vectorial.

5. Comparación de la función obtenida con los métodos actuales de cálculo

de pI en varios conjuntos de datos experimentales, a partir de la

correlación (pIteórico vs. pIexperimental) y la desviación estándar de la media.

Revisión Bibliográfica

6

Capítulo 1. Revisión Bibliográfica

1.1 Proteómica: conceptos básicos

A partir del genoma de una especie, podemos inferir las proteínas

expresadas con cierto grado de confiabilidad. Sin embargo, dicho

conocimiento no permite entender en su totalidad la función biológica de

los genes ya que especies con genomas muy similares muestran

características fenotípicas diferentes. Del análisis de los resultados de los

proyectos genómicos emprendidos por diferentes grupos de investigación

(Collins y cols., 2003; Olson y Varki 2003), se ha aprendido que el genoma

de una especie no correlaciona con la complejidad del mismo, y que tal

complejidad morfológica y funcional depende de la regulación de la

expresión genética y de las interacciones entre sus proteínas (Puente y

cols., 2005).

Las proteínas son moléculas orgánicas complejas que se encuentran en

todos los organismos. Están formadas por aminoácidos ordenados en

largas cadenas polipeptídicas mantenidas por enlaces químicos entre el

grupo amino (NH2) de un aminoácido y el grupo carboxilo (COOH) del

siguiente aminoácido. La secuencia en que estos aminoácidos se

encuentran es única para cada proteína y determina su estructura

tridimensional y función biológica. Debido a su heterogeneidad estructural,

las proteínas participan en varios procesos celulares como la respuesta

inmune, la transducción de señales, el mantenimiento de la homeostasis y

el ciclo celular, entre otros (Lehninger y cols., 2005).

El proteoma, que es un complemento del genoma de un organismo, es un

elemento altamente dinámico y responde a múltiples factores de naturaleza

metabólica, fisiológica, nutricional y ambiental. En consecuencia, la

proteómica es la ciencia que estudia el conjunto de proteínas (proteoma)

que se expresa en la célula o fluido biológico a partir del genoma de un


7

organismo en un momento dado (Banks y cols., 2000; Aebersold y Mann

2003).

La investigación proteómica es el resultado de la aplicación de técnicas

analíticas para el análisis de muestras biológicas. Entre otras, las más

utilizadas son: las técnicas electroforéticas y las cromatográficas para el

fraccionamiento de la muestra biológica y la espectrometría de masas (MS)

para la identificación de biomoléculas.

1.1.1 Fraccionamiento del proteoma. Técnicas electroforéticas y

cromatográficas

El éxito en el análisis de un proteoma es altamente dependiente de la

calidad del método de fraccionamiento empleado previo al análisis por MS.

La reducción de la complejidad de la muestra a través del uso de métodos

de fraccionamientos eficientes (fundamentalmente utilizando métodos

electroforéticos y cromatográficos) simplifica y potencia la identificación de

péptidos y proteínas.

La electroforesis es un método analítico semipreparativo, en el cual se

separan biomoléculas en dependencia de su carga y talla, bajo la acción de

un campo eléctrico (Garcia 2000). Muchas moléculas biológicas de interés,

tales como aminoácidos, péptidos, proteínas, nucleótidos y ácidos

nucleicos, poseen grupos ionizables y, por lo tanto, existen en solución

como especies eléctricamente cargadas a un pH determinado (Wilson y

Walker 2000). Las técnicas electroforéticas están fundamentadas por la

migración de estos solutos iónicos bajo la acción de un campo eléctrico

donde las partículas migran hacia el cátodo o el ánodo (electrodos) en

dependencia de su carga, peso molecular y estructura tridimensional. La

velocidad de migración ( ) de los componentes moleculares es

directamente proporcional a la carga efectiva ( ) y al gradiente del campo

eléctrico ( ), e inversamente proporcional al coeficiente de fricción ( )

según expresa la fórmula siguiente:


8

Existen básicamente dos modalidades de electroforesis: Electroforesis

libre, en la cual el campo eléctrico es aplicado a disoluciones o

suspensiones; y la Electroforesis de zona (o convencional), en la que el

campo eléctrico se aplica a un medio o soporte estabilizante (típicamente

un gel). La técnica electroforética más utilizada para la separación de

proteínas en experimentos de proteómica es la electroforesis bidimensional

en geles de poliacrilamida. En este gel, las proteínas son separadas en una

dimensión basándose en su velocidad de electromigración (determinada

por su peso molecular) y en la otra dimensión por el punto isoeléctrico.

Como resultado, se obtiene el valor aproximado de peso molecular y del

punto isoeléctrico de la proteína (Garcia 2000; Gygi y cols., 2000).

El fraccionamiento de las muestras complejas de proteínas presenta serias

limitaciones tecnológicas debido a la alta masa molecular e hidrofobicidad

de las mismas. Por esto, la proteómica se ha movido hacia el

fraccionamiento e identificación de los péptidos derivados de estas

mediante digestión enzimática. Estos péptidos contienen información útil

para la identificación y la cuantificación de las proteínas a la vez que no

presentan tantos inconvenientes tecnológicos para su análisis (Ly y

Wasinger 2011).

Para un análisis a nivel de péptido, se combinan típicamente el intercambio

catiónico (SCX, del inglés strong cation-exchange) y la fase reversa (RP,

del inglés reversed-phase). No obstante, recientemente el

isoelectroenfoque en geles con gradiente de pH inmovilizado (IPG IEF, del

inglés immobilized pH gradient isoelectric focusing), se ha incluido como

alternativa al SCX en experimentos de proteómica (Cargile y Stephenson

2004; Cargile y cols., 2004). Comparado con SCX, este método

proporciona mayor resolución en la separación, y el pI obtenido

experimentalmente puede ser utilizado como criterio de validación de los

datos adquiridos (Cargile y cols., 2004; Cargile y cols., 2004). Una

limitación principal de este método radica en la complejidad del

procesamiento de las muestras focalizadas, que requiere cortar en


9

pequeñas secciones los geles para luego extraer y desalar los péptidos de

las piezas obtenidas.

En contraste con IPG IEF, la electroforesis en solución (Electroforesis

OFFGEL) combina el isoelectroenfoque tradicional en geles con gradiente

de pH inmovilizado con un sistema basado en fase líquida (Figura 1). En

este sistema, los péptidos o proteínas migran a través del gel hasta

alcanzar su punto isoeléctrico y luego de completar la corrida, las muestras

pueden ser extraídas fácilmente en solución para su posterior análisis

(Heller y cols., 2005; Heller y cols., 2005). Este método puede ser

combinado con relativa facilidad con métodos de immunodepleción,

digestión de proteínas y cromatografía líquida para la separación

multidimensional de muestras complejas (Horth y cols., 2006).

Figura 1. Diagrama de un sistema para el fraccionamiento de péptidos y proteínas utilizando Isoelectroenfoque en solución.

1.1.2 Espectrometría de masas

El análisis de una muestra biológica por MS comprende la ionización de los

componentes de la muestra, la separación de las especies iónicas

resultantes de acuerdo a la relación de su masa con su carga eléctrica

(m/z) utilizando campos eléctricos y/o magnéticos en el vacío y la posterior

identificación del compuesto. Para la implementación de esta técnica el

instrumento utilizado es el espectrómetro de masas. Estos instrumentos

poseen tres componentes básicos: un sistema de ionización, un analizador

de masas y un detector de iones.


10

El desarrollo de sistemas de ionización suaves, como ESI (del inglés,

Electrospray Ionization) y MALDI (del inglés, Matriz Assisted Laser

Desorption/Ionization), han permitido el análisis de macromoléculas, algo

que fue un factor limitante en la técnica hasta hace poco tiempo ya que

solamente sustancias de bajo peso molecular y relativamente volatilizables

podían ser sometidas a una ionización en fase gaseosa. Para fines

prácticos, la diferencia fundamental de los métodos de ionización es que el

sistema MALDI utiliza muestras disueltas en matrices sólidas, mientras que

el sistema ESI utiliza muestras en fase líquida para la generación de iones.

(Watson y Sparkman 2007).

Los analizadores de masas tienen múltiples funciones que varían de

acuerdo a su tecnología; fundamentalmente se refieren al control de los

campos electromagnéticos aplicados, que involucra la separación de iones,

la resolución de cargas a nivel isotópico, la fragmentación del analito y la

capacidad de operación en polaridades diferentes. Los analizadores de

masas más utilizados son los de Tiempo de Vuelo o TOF (del inglés, time

of flight), la trampa de iones tridimensional o IT (del inglés, ion trap), la

trampa de iones lineal o LIT (del inglés, linear ion trap), el cuadrupolo o Q

(del inglés, quadrupole), y el triple cuadrupolo (QQQ). Actualmente, debido

al rápido desarrollo de la tecnología en el campo de la espectrometría de

masas y de la proteómica, existen espectrómetros de masas que tienen

más de un analizador de iones; éstos se denominan espectrómetros

híbridos, como TOF-TOF, LIT-Orbitrap, Q-TOF, LIT-QQQ, entre otras

variantes. Estos equipos presentan mejor resolución, exactitud, sensibilidad

y versatilidad en el análisis de péptidos y proteínas. Por ello, son utilizados

para secuenciar y cuantificar proteínas, identificar modificaciones post-

traduccionales y, en general, en el estudio de muestras biológicas

complejas (Watson y Sparkman 2007; Ekman y cols., 2008).

Los detectores tienen como función detectar el flujo iónico liberado por el

analizador, amplificarlo y transmitir esta señal a la computadora, donde se

registra en forma de un espectro de masas. El espectro de masas

evidencia el número de componentes en la muestra y el peso molecular de

cada componente (Watson y Sparkman 2007; Ekman y cols., 2008).


11

1.1.3 Asignación de secuencia de péptidos a espectros de fragmentación

La identificación y cuantificación de proteínas existentes en un tejido es

frecuentemente el paso principal en muchas investigaciones proteómicas.

La Espectrometría de Masas en sucesión (MS/MS) es la herramienta

analítica más robusta para la identificación de péptidos y proteínas. La

precisión y velocidad del proceso de identificación de péptidos son algunas

de las características principales que diferencian a la MS en sucesión de

otras metodologías utilizadas para el análisis de mezclas de proteínas. El

principio de identificación de péptidos utilizando espectros MS/MS es

relativamente simple. Un péptido es ionizado y este ión molecular es luego

disociado obteniéndose su espectro de fragmentación (o espectro MS/MS).

La diferencia de masas entre los fragmentos iónicos resultantes permite

dilucidar la secuencia de aminoácidos del ión molecular. La calidad de los

espectros MS/MS se puede medir tomando en cuenta varias características

espectrales como por ejemplo la frecuencia y abundancia de los iones ‘b’ y

los iones ‘y’ (Nesvizhskii y Aebersold 2005; Ning y cols., 2010).

Consecuentemente, la secuencia peptídica se puede determinar por las

diferencias de las masas de los picos adyacentes en cada una de las dos

series de fragmentación.

No obstante, en la práctica, varios factores complican el problema. Entre

estos se incluyen: los contaminantes presentes en la muestra bajo estudio,

la fragmentación incompleta del analito, la fragmentación simultánea de

dos analitos diferentes, las modificaciones post-traduccionales y la baja

relación señal-ruido que pudiera tener el espectro de masa resultante

(Nesvizhskii y cols., 2007; Nesvizhskii 2010). Por otra parte, varias señales

pueden ausentarse del espectro mientras que aparecen otras inesperadas

correspondientes a fragmentaciones inespecíficas. Esto hace

significativamente difícil la identificación de péptidos a través de MS/MS de

manera automática (Xu y Ma 2006), conllevando a que en un experimento

típico solo sean asignados a secuencias de péptidos del 5 al 30% de los

espectros generados (Mujezinovic y cols., 2010; Nesvizhskii 2010).


12

Varios programas computacionales han sido desarrollados para la

identificación de péptidos a partir de los espectros MS/MS. Estos pueden

ser clasificados en cuatro grupos fundamentales: (a) buscadores en bases

de datos (Eng y cols., 2011), (b) secuenciación de novo (Seidler y cols.,

2010), (c) búsqueda en biblioteca de espectros de masas experimentales

(Lam 2011; Lam y Aebersold 2011) y (d) búsqueda a partir de marcas o

identificadores (Tabb DL y cols., 2003; Tabb DL y cols., 2008; Perez-

Riverol Y y cols., 2013).

Dado un espectro MS/MS, los algoritmos de búsqueda en base de datos

hallan la mejor identidad entre el espectro experimental y el espectro

teórico del péptido obtenido en una base de datos de secuencias de

proteínas. Siguiendo otra metodología, los algoritmos de búsqueda en

bibliotecas de espectros se basan en la comparación con espectros de

masas experimentales obtenidos en experimentos previos. Los algoritmos

de secuenciación de novo obtienen la secuencia del péptido únicamente a

partir de la información contenida en el espectro de masas; y la

metodología de secuenciación por identificadores obtiene una secuencia

parcial (secuencia marcada) primeramente por secuenciación de novo y

luego realiza una búsqueda en base de datos utilizando la secuencia

marcada. Varios estudios han demostrado que la confiabilidad de la

identificación se incrementa combinando diferentes estrategias de

búsquedas (Nesvizhskii 2010; Perez-Riverol Y y cols., 2013).

1.1.4 Validación de la identificación de las proteínas utilizando las

propiedades físico-químicas de los péptidos

La medición del grado de similitud entre espectros teóricos y

experimentales a partir de la asignación de puntuaciones a las

identificaciones realizadas por búsquedas en bases de datos de proteínas,

representan solamente un grupo de características útiles para discriminar

entre identificaciones correctas e identificaciones incorrectas. Inferir un

resultado basándose solamente en esta información, dificultaría separar

con precisión las identificaciones falsas de las verdaderas. La

discriminación puede ser mejorada si se toma en cuenta la información


13

auxiliar generada coincidentemente en el transcurso del experimento de

proteómica. Esta información incluye: la precisión de la masa -que

establece la diferencia entre la masa medida y la calculada para el ión

molecular (disponible en la primera etapa de la espectrometría de masas,

MS1)-, el tiempo de retención -obtenido en la etapa de separación por

cromatografía líquida-, o el valor de punto isoeléctrico -obtenido en el paso

donde la muestra es fraccionada utilizando la técnica de focalización

isoeléctrica- (Nesvizhskii y cols., 2007; Nesvizhskii 2010; Ning y cols.,

2010). Adicionalmente, poder predecir si un péptido identifica a una única

proteína y si es detectable en una plataforma experimental determinada,

constituye una herramienta útil en el planteamiento de estrategias

experimentales para responder hipótesis previamente planteadas (por

ejemplo, en proteómica cuantitativa) (Mallick y cols., 2007).

En cualquier caso, la estrategia de validación planteada que incluya uno o

varios de estos parámetros, requiere del diseño de algoritmos y modelos

que puedan predecir con exactitud las variables involucradas (ejemplo, el

tiempo de retención y el punto isoeléctrico).

1.2 Algoritmos para la estimación del punto isoeléctrico

El punto isoeléctrico de una proteína o péptido se define como aquel valor

de pH al cual la molécula no posee carga eléctrica y es incapaz de

desplazarse en un campo eléctrico (Lehninger y cols., 2005). A este valor

de pH la molécula muestra un mínimo de solubilidad y no existe repulsión

electrostática entre moléculas vecinas. Debido a que las proteínas difieren

en el contenido de aminoácidos con grupos laterales ionizables, estas

poseen diferentes valores de pI, por lo que este parámetro puede ser

utilizado como criterio de separación de proteínas y péptidos. La

separación de péptidos y proteínas sobre la base de su carga eléctrica

depende de sus propiedades ácido-básicas, las cuales se hallan

determinadas por el número y el tipo de grupos ionizables de sus cadenas

polipeptídicas. El punto isoeléctrico está determinado por el número y los


14

valores de pK (constantes de ionización) de los grupos que se ionizan. Este

valor será relativamente elevado (por encima de pH = 7.0) si la cadena

peptídica posee un contenido elevado de aminoácidos básicos (Lisina,

Histidina y Arginina), y relativamente bajo (inferior a pH = 7.0) si la proteína

posee una preponderancia de aminoácidos ácidos (Aspártico y Glutámico)

(Lehninger y cols., 2005).

1.2.1 Algoritmos iterativos para la estimación del pI

Los algoritmos iterativos para el cálculo del pI se basan únicamente en la

estructura primaria de la proteína (secuencia de aminoácidos) sin tener en

cuenta las interacciones entre grupos laterales cargados y diferentes

modificaciones post-traduccionales. La ecuación de Henderson-

Hasselbalch (1.2.2.1) es utilizada para aproximar el valor de pI basado en

los valores de pK de los grupos laterales ionizables:

[ ]

[ ] 1.2.2.1

Para las cadenas laterales ácidas, las especies en el numerador pueden

tener carga negativa, mientras que para las cadenas laterales básicas las

especies en el denominador pueden tener carga positiva.

A partir de la ecuación (1.2.2.1) la magnitud de la carga de los grupos

laterales ácidos se obtiene como sigue:

[ ]

1.2.2.2

y para las cadenas laterales básicas se define como:

[ ]

1.2.2.3

Estas ecuaciones proporcionan una vía para predecir la magnitud de la

carga de la fracción de un aminoácido a un pH dado. Obteniendo las

cargas del total de grupos laterales ionizables presente en cada especie,


15

es posible determinar la carga neta de la proteína entera a un pH

determinado. Un simple procedimiento iterativo, como el descrito por Tabb

(DL. 2003), puede ser utilizado para calcular el punto isoeléctrico. No

obstante, es importante tener en cuenta que el valor de pI estimado por

este procedimiento no considera por ejemplo, las alteraciones introducidas

por los potenciales de ionización locales como resultado de la estructura de

la proteína.

1.2.2 Algoritmo de Gauci para la estimación del pI

Para el cálculo del punto isoeléctrico de péptidos, Gauci y colaboradores

desarrollaron un programa escrito en Java y lo denominaron pICalculator

(Gauci y cols., 2008). Como parámetros de entrada la herramienta toma

una lista de péptidos con sus aminoácidos fosforilados marcados. El

usuario puede adicionalmente, seleccionar el conjunto de valores de pK

reportados en estudios previos o especificados por el mismo. El cálculo del

pI se realiza tomando en cuenta la carga asociada a cada péptido a un pH

específico. Como salida del programa, se obtiene una gráfica con la

distribución de los valores de pI y una tabla en el formato de Microsoft

Excel con su forma tabular.

Gauci y colaboradores evaluaron un conjunto de valores de pK optimizados

estableciendo una comparación con otros tres conjuntos de valores de pK

reportados en la literatura, disponibles en ExPASy (Gasteiger y cols.,

2003), los descritos por Skoog y Wichmann (Skoog y Wichman 1986) y los

propuestos por Bjellqvist y colaboradores (Bjellqvist y cols., 1993). Para el

conjunto de valores de pK de ExPASy y Bjellqvist se obtuvieron mejores

resultados que cuando se utilizaron los de Skoog y Wichmann. Los

resultados mostraron que con el uso del conjunto de valores de pK

optimizado se obtiene una mejor correlación y menor desviación estándar

que cuando se utilizan los otros conjuntos de valores de pK (Gauci y cols.,

2008).


16

1.2.3 Algoritmo de Cargile (Cofactor) para la estimación del pI

Para el desarrollo de este algoritmo, Cargile y colaboradores utilizaron una

función genética para calcular el efecto de los aminoácidos adyacentes

sobre los residuos cargados en los péptidos trípticos (Cargile y cols., 2008).

El uso de péptidos trípticos simplifica grandemente el cálculo del pI, ya que

estos péptidos están definidos por un C-terminal en los residuos de los

aminoácidos Arginina y Lisina, un N-terminal libre y son generalmente

péptidos de pequeña longitud. En este estudio, los autores trabajaron

exclusivamente en el intervalo de pH entre 3.5 y 4.5 utilizando un gel con

gradiente de pH inmovilizado. El programa para el cálculo de los valores de

pI, solo toma en cuenta los efectos de los aminoácidos cargados asociados

al Aspártico (D), el Glutámico € y los C-terminales libres de los péptidos

trípticos. El efecto de ± 3 aminoácidos adyacentes es calculado para

corregir los valores de pK de D, E y el C-terminal libre y la correspondiente

carga neta es determinada utilizando la ecuación:

∑

∑

Donde y representan el número de residuos ácidos y básicos

respectivamente. Los términos de pK no solo son corregidos para las

interacciones de carga, sino también para los efectos atribuidos por los

grupos hidrofóbicos. Todas las condiciones de optimización se formularon

a partir de funciones independientes que describen la interacción de los

residuos cargados (D, E y C-terminal libre) con solo un aminoácido. Los

factores de correcciones individuales a los valores de pK basados en el

efecto de los aminoácidos adyacentes son accesibles en el trabajo

reportado por Cargile y colaboradores (Cargile y cols., 2008).


17

1.2.4 Utilización del punto isoeléctrico en la validación de datos en

experimentos de proteómica

Heller y colaboradores utilizaron los criterios de punto isoeléctrico e índice

de hidrofobicidad como criterio de validación de los datos obtenidos por

MS/MS, obteniendo resultados satisfactorios (Heller y cols., 2005). Por otro

lado, Krijgsveld y colaboradores redujeron de 11621 péptidos iniciales a

11372 utilizando el pI como estrategia de filtrado. Lo más significativo en

este experimento, fue que lograron reducir de 2.7% a 2.0% el número de

falsos positivos (Krijgsveld y cols., 2006).

El algoritmo propuesto por Uwaje y colaboradores, denominado pIFilter,

correlaciona los valores de punto isoeléctrico experimental con los teóricos

calculados (Uwaje y cols., 2007). La estimación teórica del pI se realizó

utilizando un algoritmo implementado en la herramienta computacional

BioJava (http://www.biojava.org/) con el cual se obtienen resultados

similares a los obtenidos utilizando el algoritmo de Bjellqvist y

colaboradores. Ellos mostraron que el algoritmo desarrollado reduce

significativamente el total de falsos positivos obtenidos por el análisis de

datos proteómicos.

1.3 Aprendizaje Computacional. Máquinas de Soporte Vectorial

El rápido desarrollo de la computación y las tecnologías de la información

permite la generación de grandes cantidades de datos en una amplia

variedad de disciplinas, entre ellas se encuentran la medicina y la biología.

El desafío para interpretar los datos obtenidos ha llevado al desarrollo de

nuevas herramientas en el campo de la estadística y las ciencias de la

computación y ha generado nuevos campos de investigación tales como la

minería de datos, el reconocimiento de patrones y la Bioinformática (Saeys

y cols., 2007). En contraste, el aprendizaje computacional consiste en la

implementación de algoritmos cuyo objetivo es producir hipótesis generales

(modelos) a partir de un número finito de datos de entrenamiento de


18

distribución desconocida (fenómeno). El aprendizaje computacional

supervisado, en particular, genera dichas hipótesis utilizando ejemplos con

clase conocida; a su vez dichas hipótesis servirán para hacer predicciones

ante nuevos ejemplos con clases desconocidas (Al 2008). El objetivo del

aprendizaje supervisado (tanto binario como multiclase) es dividir el

espacio de objetos en regiones en donde la mayoría de los casos estén

agrupados en la misma clase; dicha división es la que servirá para predecir

la clase de los nuevos objetos.

En general, se puede definir que una máquina aprende de sus entradas o

como respuesta a la información externa y cambia su estructura en función

de obtener un mejor rendimiento en el futuro. Las máquinas de aprendizaje

son computadoras programadas para optimizar el rendimiento de un

criterio utilizando datos novedosos o experiencias pasadas. Esto consta del

modelado con parámetros definidos y datos de entrenamientos. El

aprendizaje está basado en la ejecución de un programa para optimizar los

parámetros del modelo utilizando datos de entrenamiento o experiencia

pasada. En la máquina de aprendizaje, primero, se necesitan algoritmos

eficientes para solucionar el problema de optimización, y también para el

almacenamiento y procesamiento de las grandes cantidades de datos de

entrenamiento. Segundo, en cuanto el modelo ha aprendido, su

representación y solución algorítmica para la inferencia tienen que ser

eficientes, en espacio y en tiempo (Al 2008).

1.3.1 Pre-procesamiento de los datos en el aprendizaje computacional

En varios campos de las ciencias de la computación, como la minería de

datos, el reconocimiento de patrones, y el aprendizaje computacional; el

pre-procesamiento de los datos bajos estudio constituye un paso

fundamental (Rodríguez 2004). En este tipo de algoritmos, por lo general,

la veracidad de los datos estimados, dependen en gran medida de la

correcta distribución de los datos de entrada y la eliminación de valores

incorrectos que propician la pérdida de rendimiento del algoritmo en


19

cuestión. La etapa de preparación de los datos comprende aquellas

técnicas para el análisis y el manejo de los datos de entrada (reducción,

transformación y limpieza) tal que se obtengan datos adecuados previo a la

construcción del modelo. En este paso, la normalización de los datos y la

remoción de los valores atípicos son procedimientos usualmente utilizados

para ‘preparar’ los datos de forma adecuada (Rodríguez 2004).

1.3.1.1 Remoción de valores atípicos

Un valor extremo (o valor atípico) es una medición desviada del conjunto

de mediciones obtenidas de una variable, que sugiere haberse obtenido

por un mecanismo diferente (Hawkins 1980). La detección de valores

atípicos es una tarea importante en algoritmos de minería de datos y

aprendizaje computacional. Aunque en determinados estudios los valores

atípicos contenidos en un conjunto de mediciones pueden contener

información útil para la caracterización del fenómeno bajo estudio;

frecuentemente, estos son removidos para mejorar la precisión de los

modelos predictores (Thongkam y cols., 2008).

1.3.1.2 Normalización de los datos

La normalización es un proceso de transformación de los datos de entrada

que puede mejorar la precisión y la eficiencia de los algoritmos en el

aprendizaje computacional. Estos algoritmos proporcionan mejores

resultados si los datos analizados son normalizados, es decir, re-escalados

en un intervalo que usualmente se define entre 0 y 0.1. La normalización es

particularmente útil en clasificadores basados en redes neuronales, en

máquinas de soporte vectorial y en algoritmos basados en distancias

métricas entre sus variables. Entre los métodos descritos con este

propósito, dos de los más utilizados son: la normalización basada en el

mínimo y el máximo valor de la serie de datos, y la normalización basada

en la media y la desviación estándar (Al Shalabi y Shaaban 2006; Al 2008).


20

1.3.2 Representación de la estructura molecular mediante descriptores

moleculares

Entre las diferentes representaciones moleculares propuestas; algunas de

las más utilizadas son: representación 3D en el espacio Euclidiano,

representación 2D basada en la teoría de grafos y representación vectorial

donde la frecuencia de varios fragmentos moleculares son memorizados.

Por ejemplo, la representación utilizada con mayor frecuencia para

describir los péptidos y las proteínas, es a través de cadenas de letras que

representan los 20 aminoácidos naturales. Sin embargo, tanto los nombres

de los aminoácidos como sus abreviaturas son representaciones humanas

sin información útil sobre las características físico-químicas de cada

aminoácido.

En décadas pasadas, varios trabajos han estudiado cómo convertir – por

vía teórica – la información química codificada en la estructura molecular

en uno o más números – llamados descriptores moleculares – para

establecer relaciones cuantitativas entre la estructura y las propiedades, la

actividad biológica y otras propiedades experimentales (Bonchev 2005).

Consonni y Todeschini definieron el término de descriptor molecular como:

“el resultado final de un procedimiento lógico y matemático que transforma

la información química codificada en una representación simbólica de una

molécula en un número útil o el resultado de varios experimentos

normalizados” (Todeschini y Consonni 2000).

El cálculo de los descriptores moleculares está fundamentado por

diferentes teorías de química cuántica, de química orgánica, de la teoría de

grafos, de matemática discreta, entre otras; y son aplicados en el modelado

de varias propiedades moleculares en diversos campos como la

toxicología, la química analítica, la química-física, la medicina, la química

farmacéutica y la biología (Todeschini y Consonni 2000).

La gran cantidad de descriptores moleculares propuestos hasta hoy,

evidencia el creciente interés por la comunidad científica en esta área. Más

de 2000 descriptores son actualmente definidos y varios programas

computacionales han sido desarrollados para su cálculo (Hinselmann y

cols., 2011; Truszkowski y cols., 2011; Yap 2011; Cao y cols., 2013). Cada


21

descriptor molecular toma en cuenta una pequeña parte de toda la

información química contenida en la molécula real, y como consecuencia,

conforme aumenta la complejidad del sistema químico, aumenta el número

de descriptores moleculares para su análisis.

La predicción de las propiedades físico-químicas de una molécula

(ejemplo, un péptido) o su función biológica utilizando algoritmos de

aprendizaje computacional, involucra un paso de parametrización (en un

vector n-dimensional de propiedades) de la estructura utilizando

descriptores moleculares. Si no se conoce la naturaleza de las

interacciones mediante la cual una molécula expresa sus propiedades y

actividad biológica, el cálculo preciso mediante esta vía es imposible. El

procedimiento está basado en la representación de la molécula en un

formato computacional entendible a través del cálculo de descriptores

moleculares. Otro aspecto importante en este procedimiento es la

naturaleza de la información de entrada del modelo, que se traduce en

conocer cuáles y cuantos descriptores moleculares son válidos para la

construcción del mismo, problema al cual se le da solución mediante

métodos de selección de características (Saeys y cols., 2007; Cao y cols.,

2011; Eyers y cols., 2011).

1.3.2.1 Herramientas computacionales para el cálculo de descriptores

moleculares

Plataforma computacional ChemAxon

ChemAxon es una plataforma integrada de programas y herramientas para

tareas quimioinformáticas fundamentalmente. Incluye un conjunto de

componentes especializados en la búsqueda en bases de datos químicas,

en la edición y visualización de las estructuras químicas, en la predicción

de las propiedades físico-químicas de moléculas y otras herramientas para

la manipulación de estructuras químicas. Varios de estos componentes

pueden ser accedidos a través de la Interfaz gráfica de usuarios, la Interfaz

para la programación de aplicaciones (API, del inglés Application


22

Programming Interface) o la línea de comandos. Específicamente,

contiene el módulo ‘cxcalc’, utilizado en este trabajo para el cálculo de

descriptores como la carga de la molécula, la constante de ionización,

clogP, entre otros. Una descripción más detallada de este producto se

puede encontrar en el sitio Web http://www.ChemAxon.com.

Biblioteca de clases CDK

Chemical Developer Kit (CDK) es una biblioteca (código fuente abierto)

escrita en Java para Quimioinformática y Bioinformática básicamente. Se

distribuye bajo la Licencia Pública General y desde su invención (año

2000) varios grupos de trabajo han contribuido a su desarrollo, lo cual la

ha convertido en una biblioteca de alta funcionalidad. CDK permite la

generación de diagramas de moléculas 2D, la visualización de las

moléculas en 3D, soporta disímiles formatos de archivos químicos, permite

el cálculo de propiedades físico- químicas de moléculas entre otras

funciones. Es una herramienta multiplataforma y está habilitada para

su uso en el sitio http://cdk.sourceforge.net.

Base de datos AAindex

La base de datos AAindex (Kawashima y cols., 2008) es el resultado de

varios experimentos y estudios teóricos que han podido determinar una

amplia variedad de propiedades de aminoácidos. Cada una de estas

propiedades puede ser representada por un conjunto de 20 valores

numéricos de aminoácidos referidos como índices de aminoácidos. Nakai

y colaboradores coleccionaron un total de 222 índices de aminoácidos

publicados en la literatura y hallaron su relación utilizando técnicas de

agrupamiento. Tomii y Kanehisa enriquecieron dicha colección

adicionándole otros índices de aminoácidos. Como resultado del trabajo

de los autores anteriormente citados quedó conformada una base de

datos (denominada AAIndex) de índices de aminoácidos online que es

actualizada constantemente (Kawashima y cols., 2008). AAIndex ha sido

utilizada en diversos proyectos de bioinformática tales como, la predicción

de la localización subcelular de proteínas, la determinación de los sitios de

las modificaciones post-traduccionales en proteínas y otros estudios sobre

http://www.chemaxon.com/

http://cdk.sourceforge.net/


23

la estructura y los enlaces de péptidos. La base de datos AAIndex está

habilitada en el sitio Web http://www.evolvingcode.net:8080/AAIndex.

La base de datos AAIndex está dividida en tres secciones: AAIndex1 para

índices de amino ácidos, AAIndex2 para las matrices de sustitución de

aminoácidos y AAIndex3 para los potenciales de contactos entre

aminoácidos. Para la conformación de los descriptores moleculares de

AAIndex utilizados en este estudio solo se utilizó la primera sección de

esta base de datos (AAIndex1). Esta sección contiene 544 índices de

aminoácidos y cada entrada está determinada por un código, una corta

descripción del índice, la referencia bibliográfica y el valor numérico

para la propiedad de los 20 aminoácidos. Kawashima y colaboradores

construyeron un árbol de índices de aminoácidos basado en el

procedimiento descrito por Tomii para la conformación de AAIndex1. En

la figura 2 se muestra una sección de AAIndex1.

Figura 2. Sección de la base de datos experimentales AAindex.

1.3.3 Técnicas de Selección de Variables

La naturaleza de los datos que describen los sistemas o fenómenos del

mundo real (por ejemplo, los datos obtenidos por la tecnología de


24

microarreglos (que describen la expresión génica de un sistema biológico)

o los datos obtenidos por espectrometría de masas), demanda el desarrollo

de procedimientos especiales para su análisis y correcta interpretación. La

tarea principal de estos procedimientos es identificar aquellas

características que sean más relevantes para caracterizar el sistema y su

comportamiento. En consecuencia, la selección de características (FS, del

inglés Feature Selection) se realiza basándose en uno o varios criterios y

básicamente se reduce el número de características, removiendo aquellas

que sean irrelevantes o redundantes en la descripción del sistema de

interés (Saeys y cols., 2007).

Figura 3. Diagrama de un proceso (general) de selección de características.

La figura 3 ilustra un procedimiento general de selección de

características. Como se puede observar, este proceso consta de dos

fases fundamentalmente: (1) la selección de características, (2) y la prueba

del modelo y la evaluación del rendimiento. La fase 1 consta de tres pasos

esencialmente: (i) la generación de un subconjunto de características para


25

la representación del problema, (ii) la evaluación del subconjunto de

características seleccionadas en el paso anterior, (iii) y se verifica si el

subconjunto seleccionado satisface el criterio de evaluación. La segunda

fase es un proceso de validación donde se verifica la calidad del

subconjunto de características que se ha determinado.

Según la manera en que se determina el nuevo subconjunto a evaluar, los

métodos de selección de las características se clasifican en completos –

donde se exploran todos los posibles subconjuntos en el espacio de

entrada (se asegura encontrar el óptimo pero es una metodología de muy

alto costo computacional) –; o heurísticos – donde no se evalúan todos los

subconjuntos las de características (aumenta la velocidad del proceso

debido a la reducción del espacio de búsqueda pero no se asegura

encontrar el subconjunto óptimo) (Saeys y cols., 2007; Al 2008).

Desde el punto de vista de la función de evaluación los métodos para la

selección de las características se dividen generalmente en dos grupos: los

métodos de filtraje y los métodos de retroalimentación.

1.3.3.1 Métodos de filtraje. Agrupamiento por correlaciones

Este tipo de método evalúa la utilidad de las características sin involucrar

ningún algoritmo de aprendizaje. La evaluación se realiza teniendo en

cuenta varios parámetros (distancia, información, dependencia y

consistencia) y solo las variables mejor categorizadas son seleccionadas,

las variables restantes son eliminadas. Este tipo de algoritmo tiene una

estructura simple y utiliza estrategias de búsquedas relativamente

sencillas. Otra de sus ventajas es que son algoritmos rápidos y de fácil

implementación (Saeys y cols., 2007; Al 2008).

Entre los métodos pertenecientes a este grupo se encuentra el algoritmo

de las medianas (K-mean), que es un método sencillo y

computacionalmente eficiente. Tiene como entrada , el número de

agrupamiento a detectar y , la cantidad de iteraciones a realizar. Los


26

pasos fundamentales de esta metodología son: (i) elegir aleatoriamente k-

centroides (por ejemplo, valores de correlación entre variables), (ii)

clasificar cada objeto según el centroide más cercano, (iii) recalcular los

centroides como la media muestral del agrupamiento correspondiente, e

iterar desde el segundo paso hasta que no hayan cambios en la

clasificación o hasta m iteraciones. En este trabajo se implementó este

método para eliminar aquellos descriptores fuertemente correlacionados.

1.3.3.2 Métodos de retroalimentación

Este tipo de métodos busca el mejor subconjunto de características en

combinación con un método de clasificación. La validez de un subconjunto

es determinada utilizando métodos de validación interna (ejemplo,

validación cruzada). Debido a que explorar todo el espacio de búsqueda

tiene un alto costo computacional, se han desarrollado varios métodos de

optimización para la búsqueda del mejor subconjunto. Entre otros se

encuentran: los métodos de selección por adicción recursiva de variables

(del inglés, Forward selection), los métodos de selección por eliminación

recursiva de variables (del inglés, Backward elimination) y los algoritmos

genéticos. En general, estos métodos exploran el espacio de búsqueda

comenzando con todas las características o con una selección aleatoria de

estas (Saeys y cols., 2007; Al 2008).

1.3.4 Máquinas de Soporte Vectorial

Las Máquinas de Soporte Vectorial (SVM, del inglés Support Vector

Machine) fueron introducidas por Vapnik en 1997 (Vapnik y cols., 1997),

para dar solución principalmente a problemas de clasificación y regresión.

La SVM realiza una transformación de los datos de entrada producto al

cual estos son representados en un espacio de mayor dimensión mediante


27

el uso de una función o Kernel. Con una transformación no lineal apropiada

de los datos, estos pueden ser separados en dos (o más) categorías por un

hiperplano. Los Kernel normalmente utilizados para este tipo de

transformación son: el Lineal, el Polinomial y las Funciones de Base Radial.

La dimensión del nuevo espacio de características puede ser arbitraria,

limitada en la práctica fundamentalmente por recursos computacionales

(Larranaga y cols., 2006). Específicamente, en el campo de la biología, los

algoritmos basados en SVM han sido utilizados para la predicción de la

localización sub-celular de proteínas (Sarda y cols., 2005), en la

construcción de redes de interacción proteína-proteína (Zhou y cols.,

2013), en la predicción de epitopos T (Zhao y cols., 2003), en la estimación

de sitios de cortes de proteasas (Nanni y Lumini 2005), la predicción de

péptidos proteotípicos (Webb-Robertson y cols., 2010; Eyers y cols., 2011),

entre otros.

1.4 Lenguajes de programación y entorno de desarrollo integrado

Las herramientas computacionales para el procesamiento de los datos

obtenidos por espectrometría de masas, el cálculo de los descriptores

moleculares de péptidos, la implementación de las técnicas de selección de

variables y la construcción de un modelo de predicción se desarrollaron

utilizando dos lenguajes de programación: Java y R.

Java (desarrollado por Sun Microsystems) es un lenguaje de programación

cuya filosofía es totalmente orientada a objetos. Las aplicaciones

desarrolladas en Java son típicamente compiladas por la Máquina Virtual

de Java (JVM, del inglés Java Virtual Machine) en un código binario, que

es un intérprete intermedio entre el código fuente de la aplicación y el

código máquina que entiende el dispositivo destino. Esta cuestión

constituye una de las principales limitaciones del lenguaje ya que reduce el

rendimiento y la velocidad de las aplicaciones. Sin embargo, tal

característica, permite la independencia de plataforma de las aplicaciones

implementadas, lo cual significa que los programas escritos en Java


28

pueden ejecutarse en cualquier tipo de arquitectura. Java es un lenguaje

que ofrece seguridad, portabilidad y robustez a sus aplicaciones, no

obstante no ofrece acceso directo a la arquitectura de la PC, ni al espacio

de direcciones de memoria y no soporta la expansión de código

ensamblador (aunque las aplicaciones puedan acceder a las

características de bajo nivel utilizando biblioteca de clases nativas) (Eckel

2006).

Para el desarrollo de las aplicaciones Java utilizadas en este estudio fue

utilizado el entorno de desarrollo integrado NetBeans IDE versión 6.9.1 y el

Kit de Desarrollo en Java (JDK, que incluye el JRE (Java Runtime

Enviroment) y JVM) versión 1.6.

El lenguaje de programación R (desarrollado en Bell Labs de AT&T) es una

implementación libre, independiente y de código abierto del lenguaje S. Es

un lenguaje Script potenciado en el análisis estadístico y gráfico.

Proporciona un amplio conjunto de herramientas estadísticas (modelos

lineales y no lineales, pruebas estadísticas, análisis de series temporales,

algoritmos de clasificación y agrupamiento, y otros algoritmos para tareas

de clasificación y regresión) y permite la generación de gráficos de alta

calidad. Es un lenguaje multiplataforma y permite desarrollar bibliotecas

dinámicas en los lenguajes de programación C, C++ y Fortran. El sitio Web

principal de R es: http://www.r-project.org.

Tanto R como Java son actualmente distribuidos bajo la Licencia Pública

General de GNU (del inglés, GNU General Public License (GNU GPL)),

que es una licencia creada por la Fundación de ‘Software’ Libre y está

orientada principalmente a proteger la libre distribución, modificación y uso

de ‘software’.

http://www.r-project.org/

Materiales y Métodos

29

Capítulo 2. Materiales y Métodos

2.1 Obtención de los péptidos teóricos del proteoma de D. Melanogaster

Las secuencias del proteoma de Drosophila Melanogaster se extrajeron

de la base de datos Flybase Drosophila Databank (19389 secuencias de

proteínas indexadas) (actualización 4.3, disponible desde junio de 2007).

Las secuencias se digirieron in silico con tripsina utilizando la biblioteca

de algoritmos InSilicoSpectro (Colinge y cols., 2006), y cada péptido se

asoció con el identificador de su proteína. Todos los péptidos redundantes

se removieron.

2.2 Obtención del pI experimental de los péptidos

Para el desarrollo, entrenamiento y prueba del modelo de predicción de pI

basado en SVM se emplearon los datos experimentales obtenidos por

medio de una colaboración entre el Departamento de Proteómica del

Centro de Ingeniería Genética y Biotecnología (Cuba) y el laboratorio del

profesor Ruedi Aebersold (Suiza). Los péptidos se obtuvieron por un

estudio llevado a cabo con la línea celular Kc167 de D. Melanogaster,

donde se utilizó la técnica de isoelectroenfoque en solución (OFFGEL

electrophoresis) como primer paso de separación de la mezcla de

péptidos. Cada fracción obtenida se analizó en un espectrómetro de

masas LTQ-FT-ICR acoplado a una fuente de ionización por

nanoElectrospray (Perez-Riverol y cols., 2011) .

2.3 Procesamiento de los datos biológicos

Los espectros MS/MS se interpretaron por el programa X!Tandem (Craig y

Beavis 2004) utilizando la base de datos de proteínas Flybase

https://www.google.com.cu/search?biw=1280&bih=881&q=Ruedi+aebersold+%2B+proteomics&spell=1&sa=X&ei=d34DU6-VE6_lygHruoGQBw&ved=0CCQQvwUoAA


30

(http://flybase.org/). Para el análisis se consideraron las modificaciones

post-traduccionales cisteína carbamidometilada (como modificación fija) y

sulfóxido de metionina (como modificación variable). Los resultados

obtenidos por la búsqueda en la base de datos se validaron utilizando

PeptideProphet (Ma y cols., 2012), que evalúa y asigna una probabilidad a

cada identificación correcta realizada por X!Tandem.

2.3.1 Programa readPeptideXML

El programa readPeptideXML se desarrolló (en Java) para el análisis de

las identificaciones validadas por PeptideProphet, del cual se obtienen los

péptidos identificados con la probabilidad asignada en archivos con

formato XML. La cantidad de archivos XML obtenidos depende de las

fracciones analizadas provenientes de la etapa experimental. Las dos

funciones básicas de readPeptideXML son: (i) eliminar los péptidos

repetidos en una misma fracción, procedimiento mediante el cual se

obtienen péptidos únicos por fracciones (se elimina información

redundante) y (ii) eliminar los péptidos que aparecen en más de una

fracción, problema frecuente en la técnica de Isoelectroenfoque debido a la

focalización incorrecta de varios péptidos. Ambos procedimientos

contribuyen en la construcción del modelo de predicción del punto

isoeléctrico teórico de los péptidos debido a que eliminan información en

los datos experimentales que pueden dar lugar a interpretaciones

incorrectas. El sistema toma como parámetro de entrada los archivos XML

(resultantes del análisis de cada fracción) con los péptidos identificados;

como salida se obtienen archivos XML procesados según las funciones

descritas anteriormente.

2.4 Diseño experimental

El flujo de trabajo seguido para la construcción de un modelo basado en

SVM para la predicción del pI es resumido en la figura 4. A partir de los


31

datos experimentales obtenidos en experimentos de proteómica (donde la

muestra es fraccionada utilizando Isoelectroenfoque), se extrajeron los

péptidos únicos por cada fracción experimental. La etapa de cálculo de

descriptores de secuencia, a partir de la lista de péptidos inicial, se realizó

utilizando la plataforma computacional ChemAxon, la biblioteca de clases

CDK y la base de índices experimentales de aminoácidos AAindex.

Figura 4. Flujo de trabajo seguido para el desarrollo de un modelo predictor de pI utilizando descriptores moleculares y SVM.

Se introdujo un paso de selección de variables para eliminar los

descriptores más correlacionados. Posteriormente se combinó un algoritmo

de eliminación recursiva de variables con el algoritmo basado en SVM para

evaluar los descriptores más significativos. En esta etapa de prueba, se

evaluaron varias funciones de transformación de los datos de entrada y se


32

ajustaron los parámetros fundamentales de la Máquina de Soporte

Vectorial. Tomando en cuenta los resultados en los pasos anteriores se

implementó en WEKA el modelo final para la predicción del pI.

Adicionalmente, se implementaron los algoritmos de Bjellqvist (Bjellqvist y

cols., 1993) y Cargile (Cargile y cols., 2008), los cuales siguen

metodologías diferentes para la estimación del punto isoeléctrico. Ambos

algoritmos y el modelo desarrollado en este trabajo se evaluaron en dos

conjuntos de datos experimentales.

2.5 Cálculo de descriptores de AAindex

Cada descriptor de AAIndex ( ) fue calculado según la fórmula:

∑

Donde es el número de aminoácidos en la cadena peptídica y es el

valor del índice para cada aminoácido individual. Por ejemplo, para el

péptido GWRAK, el índice de hidrofobicidad de AAIndex ( ) (figura 2)

sería igual a:

La herramienta AAIndexDescriptor (desarrollada en Java) se empleó para

el cómputo de todos los descriptores moleculares. Los parámetros de

entrada de la herramienta son: el fichero de secuencia de pépticos a

analizar (formato texto) y la base de datos AAIndex, como salida del

sistema se obtiene el valor de los 544 descriptores de AAIndex para cada

uno de los péptidos del archivo de entrada.


33

2.6 Implementación del modelo final basado en SVM utilizando WEKA

El modelo final para la predicción del pI se implementó en Java utilizando la

biblioteca de clases Weka, la cual soporta varias tareas y algoritmos de

minería de datos; especialmente, el preprocesamiento de los datos, los

algoritmos de agrupamiento (clustering), las tareas de clasificación y

regresión y la selección de variables. Todas las técnicas de Weka se

fundamentan en la asunción de que los datos están disponibles en un

fichero plano (sin formato) o una base de datos, en la que cada registro de

datos está descrito por un número fijo de atributos (normalmente numéricos

o nominales, aunque también se soportan otros tipos). En este trabajo, los

datos de entrada se representaron utilizando la clase de Weka Instances, la

cual permite definir el tipo y el número de atributos (descriptores) y el

atributo clase (punto isoeléctrico experimental) para un número

determinado de instancias (péptidos).

La clase SMOreg se utilizó para construir el clasificador basado en SVM.

Esta clase implementa un algoritmo de optimización mínima secuencial

(SMO, del inglés Sequential Minimal Optimization) propuesto por Alex

Smola y Bernhard Scholkopf (Smola y Schölkopf 2004). El algoritmo

permite variar explícitamente varios parámetros que definen el

comportamiento de la SVM.

Los parámetros C y σ se ajustaron durante la etapa de entrenamiento del

clasificador utilizando varios ciclos de validación cruzada. El RMSE (error

cuadrático medio) se utilizó como criterio para la optimización de los

valores de ambos parámetros. El parámetro C puede ser definido como un

parámetro de regularización que puede ser ajustado en la formulación de

la SVM. En la búsqueda del mejor rendimiento del clasificador, C tomó

valores en el intervalo entre 1 y 100 (con paso 1). El ajuste de este

parámetro establece un balance entre la maximización del margen entre

los vectores de soporte y la penalización en el proceso de regresión en el

espacio de las características.

El RMSE se evaluó para valores de igual a 1.0, 0.8, 0.5, 0.3, 0.2, 0.1,

0.05, 0.01, 0.005 y 0.001. El parámetro regula la siguiente expresión:

http://es.wikipedia.org/wiki/Algoritmo_de_agrupamiento


34

( ) ( [

]

)

donde el espacio de entrada ( ) es conformado por los componentes de

un vector de entrada y el espacio de características ( ) es conformado

por componentes ( ) de un vector ( ) representa la transformación

vía la función Kernel (en este caso, la función de base radial o gaussiana).

La selección de los valores de ambos parámetros se realizó teniendo en

cuenta el menor RMSE alcanzado.

Resultados y Discusión

35

Capítulo 3. Resultados y Discusión

Los algoritmos de aprendizaje supervisado (y no supervisado) se han

empleado en la última década con excelentes resultados en el campo de la

Bioinformática y la química computacional (Melville y cols., 2009; Xiaohua

2011). Los algoritmos de predicción de funcionalidad a partir del

conocimiento de la estructura de las moléculas químicas (QSAR), y los

algoritmos de predicción de la estructura química de las proteínas son dos

de los campos de la química computacional donde los algoritmos de

aprendizaje supervisado constituyen la única forma de obtener resultados

de alta precisión y eficacia. En proteómica, la predicción del tiempo de

retención de los péptidos y las proteínas, así como la validación de los

espectros de masas son dos de las áreas donde el empleo de algoritmos

evolutivos, las redes neuronales y las Máquinas de Soporte Vectorial

(SVM) han sido exploradas y utilizadas para obtener funciones óptimas de

puntuación (Petritis y cols., 2006; Pfeifer y cols., 2007; Liu y cols., 2010).

El punto isoeléctrico de los péptidos y las proteínas como valor

experimental dentro de la electroforesis bidimensional y de una sola

dimensión, es una de las variables más utilizadas para validar las

identificaciones de las proteínas en mezclas complejas. En la actualidad, el

fraccionamiento de muestras biológicas utilizando las técnicas

electroforéticas (con la subsecuente obtención de los valores

experimentales de pI), no solo se emplea en la separación de la muestra

bajo estudio para reducir su complejidad, sino que además, la combinación

con valores teóricos de pI se ha explorado en la reducción de falsas

identificaciones y la validación de los resultados obtenidos por

espectrometría de masas (elemento más relevante cuando se utilizan en el

proceso de identificación espectrómetros de masas de baja resolución)

(Heller y cols., 2005; Uwaje y cols., 2007; Cargile y cols., 2008). En este

contexto, toma relevante importancia el desarrollo de algoritmos de

estimación del punto isoeléctrico que reduzcan la diferencia entre el valor

experimental y el teórico de un péptido y mejore su correlación.


36

El empleo de descriptores moleculares y de algoritmos de aprendizaje

supervisado para ajustar y optimizar respectivamente la función de cálculo

del punto isoeléctrico no ha sido explorado con anterioridad por la

comunidad científica. En este capítulo mostraremos los resultados del

empleo de los descriptores moleculares en combinación con máquinas de

soporte vectorial para la obtención de una función optimizada para la

estimación del punto isoeléctrico. Los resultados se compararon con los

obtenidos utilizando las funciones precedentes de cálculo de punto

isoeléctrico en varios conjuntos de datos experimentales.

3.1 Selección de descriptores moleculares

Empleando el programa realizado en Java y las bibliotecas CDK y

ChemAxon, así como la base de datos AAIndex se calcularon un conjunto

de 644 descriptores moleculares para cada péptido. El mayor grupo de

descriptores moleculares calculados corresponde a los 544 descriptores

experimentales de AAIndex. Los 100 descriptores restantes provenientes

de las bibliotecas CDK y ChemAxon se pueden agrupar en los siguientes

grupos: los electrostáticos, los geométricos y los composicionales.

Los algoritmos de selección de variables son numerosos y se pueden

clasificar en tres grupos fundamentales: los algoritmos de filtrado, los

embebidos y los envueltos. Dentro de estos tres grupos, los métodos de

filtrado resultan muy eficientes para la reducción de la dimensionalidad en

etapas tempranas del desarrollo de algoritmos de aprendizaje. Estos

algoritmos, que se emplean además para reducir el espacio de variables

(cuando se trabaja con grandes volúmenes de datos), no necesitan la

evaluación del modelo matemático a optimizar y trabajan sobre la

naturaleza propia de los descriptores moleculares (y no con la relación del

modelo que se desea optimizar). Dentro de los algoritmos de filtrado, los

algoritmos de agrupamiento son los más extensamente empleados. Los

algoritmos de agrupamiento y en especial el algoritmo de las medianas (k-

means) han sido muy utilizados para el filtrado de propiedades y


37

descriptores moleculares en los estudios de modelos QSAR (Gonzalez y

cols., 2008; Gonzalez-Diaz 2012). El algoritmo de las medianas se empleó

en este trabajo para calcular las correlaciones entre todos los descriptores

bajo estudio y agrupa aquellas variables fuertemente correlacionadas. En

la figura 5 se muestran los agrupamientos en una matriz de correlación

para los descriptores provenientes de las bibliotecas CDK y ChemAxon.

Figura 5. Matriz de correlación de descriptores moleculares de CDK y ChemAxon previo al procedimiento de selección de características con el algoritmo de las medianas (k-mean).

La matriz de correlación antes de ejecutar el algoritmo de selección de

variables identifica dos grupos de variables perfectamente diferenciados. El

segundo de los grupos se encuentra densamente poblado. Para

complementar el análisis con el algoritmo k-means, se incorporó un

conjunto de restricciones al algoritmo a partir de la información consultada

en la literatura. Liu y colaboradores establecieron previamente la relación

directa que existe entre el punto isoeléctrico del amino ácido de forma

individual y los siguientes descriptores moleculares: la polaridad, la


38

refractividad, la superficie molecular y la cantidad de átomos donores y

aceptores de hidrógeno (Liu y cols., 2004).

Con el objetivo de reducir la dimensionalidad del espacio de los

descriptores moleculares, disminuir la redundancia de información y la

dependencia lineal entre diferentes descriptores; se seleccionaron aquellos

descriptores moleculares más próximos a los centroides de los

agrupamientos. Como resultado se eliminaron todas las propiedades que

tenían un índice de correlación mayor a 0.80, manteniendo aquellas

propiedades identificadas previamente como posibles variables

correlacionadas con el punto isoeléctrico. La figura 6 representa la matriz

de correlación resultante de la aplicación del algoritmo k-means al conjunto

inicial de descriptores (correlación entre las 19 variables resultantes).

Figura 6. Matriz de correlación de los descriptores de ChemAxon y CDK luego de aplicar el algoritmo de K-means.

En la figura 6 se pueden definir 3 grupos, siendo el segundo el más

densamente poblado. Estos grupos contienen las variables que se

emplearon como criterios de inclusión a partir de la bibliografía consultada.

Los descriptores cLogP (logaritmo del coeficiente de partición

octanol/agua), el índice de Balaban y la energía del péptido según el


39

campo de fuerza MMF94 son los descriptores menos correlacionados en la

matriz. Descriptores como la refractividad y la superficie polar de la

molécula son los más correlacionados de la matriz.

Luego de obtener las propiedades de los péptidos estimadas con las

librerías ChemAxon y CDK se utilizó la misma estrategia para analizar los

descriptores calculados a partir de la base de datos AAIndex. La base de

datos AAIndex contiene 544 descriptores experimentales calculados para

los 20 aminoácidos naturales. Con el programa AAIndexDescriptor se

calcularon todos los descriptores de AAIndex para cada péptido,

realizándose una normalización según la cantidad de aminoácidos en la

molécula. La figura 7 muestra la distribución final de las correlaciones

según la matriz de correlación.

Figura 7. Matriz de correlación de los descriptores de AAIndex luego de aplicar el algoritmo de k-means.


40

La figura 7 no muestra ningún grupo densamente poblado. Entre las

variables seleccionadas (de la base de datos AAindex) se encuentran

descriptores relacionados con el punto isoeléctrico, la refractividad, el

tiempo de retención, el índice de flexibilidad de la estructura del péptido,

entre otros. Todos estos descriptores muestran una correlación menor a

0.6. Este procedimiento contribuye a eliminar los descriptores que pudiesen

tener cierta irrelevancia para el modelo predictivo. El problema de la

selección de variables en la predicción de los modelos matemáticos es un

tópico que genera en la actualidad un número importante de trabajos

científicos. El empleo de algoritmos de agrupamiento como métodos de

selección de variables para reducir la dimensionalidad son muy utilizados

en los problemas donde se utilizan muchas variables (Saeys y cols., 2007;

Pereira y cols., 2009; Cao y cols., 2011).

Una vez seleccionados los 58 descriptores moleculares resultantes del uso

de los algoritmos de agrupamiento, se realizó una segunda selección de

descriptores utilizando un simple algoritmo de eliminación recursiva, el cual

constituye una técnica mucho más exhaustiva para reducir la cantidad de

variables en combinación con el modelo basado en SVM.

3.2 Núcleos de transformación (Kernel) y eliminación recursiva de

variables

Las Máquinas de Soporte Vectorial son un conjunto de algoritmos de

aprendizaje supervisado desarrollados por Vapnik (Vapnik y cols., 1997).

Estos métodos están propiamente relacionados con problemas de

clasificación y regresión. El problema clásico puede representarse como un

conjunto de ejemplos de entrenamiento (de muestras), a partir del cual

podemos identificar las clases y entrenar una Máquina de Soporte Vectorial

para construir un modelo que prediga la clase de una muestra nueva.

El paso de selección de variables (entre los 58 descriptores seleccionados)

en combinación con el algoritmo basado en SVM fue implementado en R

utilizando el paquete de funciones Caret (http://cran.r-

project.org/web/packages/caret/). Los 7391 péptidos (extraídos de los


41

datos experimentales) fueron aleatoriamente divididos en dos subconjuntos

de datos: un subconjunto de entrenamiento (75%) y un subconjunto de

prueba (25%), ambos utilizados para construir el modelo predictor. El paso

de selección de variables en el algoritmo es un método recursivo simple de

eliminación de variables, donde S representa una secuencia de valores

numéricos ordenados (S1 > S2,...), los cuales son candidatos al número de

variables a ser retenidas para construir el modelo en cada iteración del

algoritmo. Finalmente, el subconjunto Si con el cual se obtiene mejor

rendimiento es utilizado en el modelo final. El algoritmo basado en SVM

junto a un Kernel específico se aplicó para evaluar las variables

seleccionadas y generar el modelo final.

La representación por medio de las funciones de transformación (Kernel)

de las variables de entrada ofrece una solución al problema de la

representación de las características sobre el espacio. Un Kernel no es

más que la proyección de la información a un espacio de características de

mayor dimensión el cual aumenta la capacidad computacional de las

máquinas de aprendizaje lineal. Para poder determinar cuáles de los

Kernels más utilizados en la actualidad ofrece un modelo óptimo se

probaron cuatro variantes fundamentales.

Tabla 1. Funciones de transformación (Kernels) evaluadas en función del número de variable en el modelo final.

Kernel Nº de

descriptores RMSE R

2

Polinomial 25 0.3387 0.9734

Lineal 20 0.3866 0.9656

Exponencial 2 0.4081 0.961

Radial 2 0.31 0.987

La tabla 1 muestra las funciones evaluadas. La variable que se emplea

para escoger el mejor Kernel es el error cuadrático medio (RMSE). El

Kernel con el cual se obtuvieron mejores resultados (valores más bajos de

RMSE) fue el de Base Radial (o función Gaussiana). En 17 conjuntos de


42

variables evaluados por el algoritmo de selección, los mejores resultados

fueron para la combinación del punto isoeléctrico estimado con la función

de Bjellqvist y colaboradores y el índice de punto isoeléctrico de

Zimmerman y colaboradores (Figura 8). El índice de Zimmerman

representa experimentalmente el punto isoeléctrico de cada aminoácido en

la naturaleza. En contraste con resultados previos (Liu y cols., 2004), las

propiedades físico-químicas como la polaridad y la refractividad de la

molécula no mostraron relación con el pI. La relación entre las variables

seleccionadas y el problema bajo estudio confirmó que el modelo

empleado de selección de variables y de SVM es adecuado y óptimo.

Figura 8. RMSE obtenido según el número de variables utilizadas en el modelo predictivo.

3.3 Pre-procesamiento de los datos de entrada del modelo final

La etapa del estudio de las variables más significativas en el modelo final y

la búsqueda de una función de transformación adecuada para la

representación de los datos en un espacio de características de mayor

dimensión, son cruciales en la construcción del modelo basado en SVM.


43

No obstante, se ha descrito ampliamente que el preprocesamiento de datos

es un paso fundamental en el desarrollo de los métodos de aprendizaje

computacional (Al Shalabi y Shaaban 2006; Al 2008; Thongkam y cols.,

2008). La calidad de los datos de entrenamiento y de los datos de prueba

están fuertemente relacionados con el rendimiento y la precisión de las

predicciones del modelo empleado. Esto se debe a que los datos obtenidos

de sistemas del mundo real pueden contener ruido, valores incorrectos (o

irrelevantes) y valores ausentes que pueden ocultar patrones útiles para

caracterizar el sistema de interés. Por ejemplo, en datos provenientes de

experimentos electroforéticos, se detectan normalmente péptidos fuera de

la fracción correspondiente. Este fenómeno está gobernado por parámetros

como el tiempo de focalización, la abundancia de los péptidos, la

interacción péptido-péptido y la composición de la muestra (Cargile y cols.,

2004). En este trabajo, los datos estudiados fueron procesados teniendo en

cuenta dos criterios fundamentales: la remoción automática de valores

átipicos y la normalización de los datos.

3.3.1 Remoción automática de valores atípicos

A partir del conjunto de los péptidos identificados en cada fracción y su

correspondiente pI experimental, se obtiene un conjunto de datos con

atributos y instancias. Cada atributo ( ) corresponde a los descriptores

incluidos en el modelo final y el atributo clase fue definido para el valor

experimental de pI, cada instancia ( ) corresponde a los péptidos

identificados en cada fracción.

La remoción de los valores atípicos (en este estudio se refiere a péptidos

con pI desviado de su fracción experimental) se realizó tomando en cuenta

el pI teórico estimado por el algoritmo de Bjellqvist. El criterio seguido para

remover los péptidos con pI desviado fue el siguiente:

( )


44

Donde corresponde a la media de los valores de pI de la fracción,

es el pI calculado con el algoritmo de Bjellqvist para cada péptido y

corresponde a la desviación estándar del pI en la fracción analizada.

Figura 9. Efecto de la remoción de valores atípicos de los datos experimentales en el rendimiento del clasificador medido por el RMSE. Se muestran 10 corridas del clasificador en dos conjuntos de datos diferentes (A y B). • datos con valores atípicos removidos, ∆ datos con valores atípicos sin remover.

La figura 9 muestra los valores de RMSE obtenidos para 10 corridas del

modelo basado en SVM en los dos conjunto de datos experimentales

0.2

0.25

0.3

0.35

0.4

0.45

0 2 4 6 8 10 12

RM

SE

Iteraciones

+ valores atípicos

- valores atípicos

A

0.18

0.2

0.22

0.24

0.26

0 2 4 6 8 10 12

RM

SE

Iteraciones

+ valores atípicos

- valores atípicos

B


45

estudiados. En ambos casos, se pudo observar que por la remoción de

aproximadamente el 2% del total de valores atípicos, disminuye el RMSE,

lo que se puede traducir en un aumento del rendimiento del clasificador.

Esto indica que el método implementado es adecuado también en datos

provenientes de experimentos electroforéticos, elemento no reportado

antes en la literatura.

El mayor por ciento de péptidos con pI desviado de la fracción experimental

correspondiente se concentró en las fracciones más básicas; típicamente,

donde focalizan menor cantidad de péptidos que a la vez tienen mayor

probabilidad de migrar hacia fracciones incorrectas. Del total de los

péptidos identificados en las tres fracciones más básicas, el número de

péptidos desviados osciló entre 5% y 10% (Figura 10). Otros estudios han

reportado la eliminación de hasta un 10% de péptidos con pI desviado

previo al análisis de los resultados obtenidos en experimentos

electroforéticos (Lengqvist y cols., 2011). Adicionalmente, se evaluó otra

técnica para remover valores extremos basado en el Rango Interquartilo,

pero los resultados obtenidos no mostraron relevancia para el modelo final.

Figura 10. Número de péptidos identificados en cada fracción y el porcentaje de péptidos con pI desviado de su fracción correspondiente. El mayor por ciento de péptidos con pI desviado se encontró en las fracciones más básicas (10-19).

0

5

10

15

20

25

30

35

40

45

50

0

200

400

600

800

1000

1200

1400

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

% d

e p

épti

do

s co

n pI d

esvi

ado

# d

e p

épti

do

s id

enti

fica

do

s

Fracciones

péptidos identificados

% de péptidos con pI desviado


46

3.3.2 Normalización de los datos

Otra transformación aplicada a los datos de entrada fue la normalización.

Se ha reportado en varios estudios la importancia de eliminar el posible

desbalance que pudiera existir entre las variables utilizadas para construir

un modelo predictor. Los atributos en los datos se normalizan en las

escalas [0, 1] y [-1, 1] utilizando transformaciones lineales (generalmente)

basadas en la media y la desviación estándar.

En este caso, los descriptores estudiados son de diferente naturaleza (por

ejemplo, la masa molecular puede tomar valores en el orden de los miles

de Da mientras las escalas de hidrofobicidad son representadas en el

orden de las decenas). Sin embargo, como puede observarse en la figura

11, la normalización no tuvo un impacto significativo en el rendimiento del

clasificador (medido por la RMSE). Esto pudiera deberse a que ambos

descriptores incluidos en el modelo final son de naturaleza semejante.

Figura 11. Efecto de la normalización de los datos de entrada en el rendimiento del clasificador.

0.18

0.2

0.22

0 2 4 6 8 10 12

RM

SE

Iteraciones

Valores normalizados

Valores no normalizados


47

3.4. Implementación del algoritmo pI-SVM utilizando WEKA

Como se describió en los acápites anteriores, las etapas de selección de

los descriptores moleculares y el desarrollo del modelo predictor de pI

basado en Máquinas de Soporte Vectorial se desarrollaron utilizando el

lenguaje de programación R. Este lenguaje de programación

(especializado en el análisis estadístico), posee amplias capacidades

gráficas y posibilita la evaluación de un gran número de condiciones sin

una excesiva carga computacional. No obstante, es menos adecuado para

usuarios finales con menos habilidades en programación.

Teniendo en cuenta estos elementos, el modelo final determinado en esta

primera etapa de desarrollo se implementó en Java utilizando la biblioteca

de clases WEKA (Frank y cols., 2004). El objetivo principal de este paso,

fue obtener un algoritmo que fuese relativamente fácil de expandir como

una aplicación (siguiendo el paradigma de la programación orientada a

objetos). Desde este punto de vista, el método desarrollado en este trabajo,

puede ser utilizado relativamente fácil, puede ejecutarse sobre varias

plataformas (Linux, Windows y Mac) y puede ser incluido por otros

desarrolladores en programas para la predicción de propiedades físico-

químicas de los péptidos y las proteínas. La figura 12 muestra el diagrama

de flujo del modelo final. A partir de una lista de péptidos con su

correspondiente pI experimental los datos son preprocesados y

aleatorizados para luego dividirse en dos subconjuntos: los datos para

entrenar el modelo y los datos para probar el modelo. Adicionalmente, la

etapa de prueba incluye un paso de validación cruzada del algoritmo. El

criterio de selección del mejor clasificador es el RMSE para i-iteraciones

del algoritmo. Tomando en cuenta los resultados de varias corridas, el

número de iteraciones se fijó en 10, ya que con este número de iteraciones

el algoritmo converge relativamente rápido y es posible obtener un modelo

óptimo para predecir el pI de nuevos péptidos.


48

Figura 12. Diagrama de flujo del algoritmo para obtener el clasificador basado en SVM. En cada iteración i se almacena el clasificador con menor RMSEi. En la i-ésima iteración se obtiene el clasificador con menor RMSE (modelo final).

3.5 Detección de falsas identificaciones con el algoritmo pI-SVM

La utilización del punto isoeléctrico como una variable ortogonal en la

identificación de péptidos y proteínas ha sido recientemente explorada

(Cargile y cols., 2004; Heller y cols., 2005; Horth y cols., 2006; Perez-

Riverol y cols., 2011). Cargile y colaboradores sentaron las bases teóricas

para la identificación de los péptidos y las proteínas basada en este nuevo

paradigma. La metodología planteada por estos autores utiliza la masa

molecular y el punto isoeléctrico como criterios para la identificación, y

representa un cambio en el enfoque de las metodologías actuales

utilizadas en el proceso de identificación (Cargile y Stephenson 2004). Por


49

otra parte, se ha reportado previamente la posibilidad de identificar

teóricamente péptidos y proteínas empleando diferentes propiedades

experimentales (Perez-Riverol y cols., 2011). No obstante, la utilización del

punto isoeléctrico como información complementaria para reducir el

número de falsas identificaciones (falsos positivos) ha sido una variante

menos explotada.

Tabla 2. Relación entre la (a) probabilidad asignada por PeptideProphet y el (d) porcentaje de péptidos con pI (calculado por el algoritmo pI-SVM) fuera del intervalo estimado (media de la fracción ±2 SD), (b) el número de péptidos identificados para cada probabilidad, (c) el número de péptidos no redundantes para cada probabilidad y (e) el número de identificaciones no redundantes que caen fuera del intervalo predicho en al menos una fracción. El total de péptidos con pI estimado desviado fue 750.

En la tabla 2 se puede observar la relación entre la predicción del punto

isoeléctrico (utilizando el algoritmo basado en SVM) y la probabilidad

asignada por PeptideProphet (Ma y cols., 2012). El intervalo de punto

isoeléctrico determinado para una fracción se definió como la media del pI

estimado para la fracción ±2 veces la desviación estándar (SD). Un estudio

previo demostró que para diferentes algoritmos de búsquedas, ±2 pI SD

tuvo un efecto más significativo que ±1 pI SD (Heller y cols., 2005). Los

resultados muestran que un bajo número de péptidos (0.2%) caen fuera del

intervalo de pI predicho para probabilidades altas (1.0) asignadas por

PeptideProphet. El efecto opuesto fue encontrado para péptidos con baja

probabilidad asignada (Figura 13). Esto significa que el método de

predicción de pI puede detectar el número de falsos positivos en cada

fracción.

Probabilidada

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1

Péptidos identificados

b 211687 33492 15960 11244 9780 9540 10200 11556 16212 4344

Péptidos no redundantes

c 16893 2791 1330 937 815 795 850 963 1351 362

% péptidosd

0.2 2.6 5.9 6.1 9.3 14.0 16.4 16.8 22.6 31.2

No redundantes

e 10 34 39 33 45 68 94 113 228 86


50

Figura 13. El porcentaje de péptidos con pI desviado del intervalo fijado tiende a disminuir cuando aumenta la probabilidad asignada por PeptideProphet. El gráfico se obtuvo a partir de los valores tabulados en las entradas (a) y (d) de la Tabla 2.

En estudio previo, Heller y colaboradores hallaron que para las

identificaciones con altas probabilidades asignadas por PeptideProphet, el

2.9% eran falsos positivos cuando utilizaron el algoritmo para el cálculo del

pI de Bjellqvist como filtro. Pero cuando adicionaron el tiempo de retención,

ellos encontraron que el 8.4% de las identificaciones podrían ser falsas

(Heller y cols., 2005). Cuando se aplicó el algoritmo basado en SVM (pI-

SVM) a los datos utilizados en el estudio de Heller, se detectó 4.1% de

falsos positivos para las identificaciones con altas probabilidades

asignadas, lo cual Heller y colaboradores no pudieron detectar utilizando el

método de predicción de pI únicamente.

La precisión del modelo basado en SVM permitió encontrar 44

identificaciones de péptidos no redundantes como probables falsos

positivos, los cuales tienen altas probabilidades asignadas por

PeptideProphet (probabilidades: 1, 0.9). Además, para identificaciones con

probabilidades más bajas (probabilidades: 0.8-0.1), el algoritmo detectó

aproximadamente 700 péptidos con valor teórico de pI fuera de la fracción


51

correspondiente. Por lo tanto, el método implementado en este trabajo

pudiera ser utilizado para clasificar los péptidos identificados utilizando

información ortogonal, como ha sido sugerido en previos estudios (Cargile

y Stephenson 2004; Perez-Riverol y cols., 2011).

3.6 Implementación de los algoritmos Bjellqvist y Cofactor

Las bases teóricas de los algoritmos propuestos por Bjellqvist y Cargile,

pueden ser verificadas en el Capítulo 1 de Revisión Bibliográfica (acápites

1.2.1 y 1.2.3). Ambos algoritmos se implementaron como parte de este

trabajo para el cálculo del pI de péptidos. La figura 14 muestra el diagrama

de flujo general en el cual se basan los dos algoritmos.

Figura 14. Flujo general de un algoritmo iterativo para el cálculo del pI. *Las constantes de pK

predefinidas son diferentes en los algoritmos de Bjellqvist y Cargile.


52

Los valores de pK, previamente calculados, se obtienen teniendo en cuenta

cada grupo ionizable en la secuencia aminoacídica. Los residuos de Lisina,

Histidina y Arginina son residuos básicos que poseen cadenas laterales

básicas (portan carga positiva) y los residuos ácido Aspártico, ácido

Glutámico, Cisteína y Tirosina, pueden portar cargas negativas.

Adicionalmente, el algoritmo toma en cuenta que el N-terminal y el C-

terminal de la secuencia contribuyen a la carga del péptido y a su punto

isoeléctrico. El algoritmo realiza varias iteraciones en un amplio intervalo de

pH, donde en cada iteración se introducen pequeñas perturbaciones al

valor de esta variable. El pI es determinado cuando la carga neta (QN) (que

es una función del pH y el pK a partir de una generalización de la ecuación

propuesta por Henderson-Hasselbalch) obtiene un valor cercano a cero. La

diferencia fundamental entre los métodos de Cargile y Bjellqvist, es que las

constantes de pK empleadas para el cálculo del pI son obtenidas siguiendo

metodologías diferentes. Mientras el conjunto de valores de pK propuesto

por Bjellqvist se obtuvo de forma experimental (Bjellqvist y cols., 1993),

Cargile propuso optimizaciones a cada constante a partir de las

interacciones electrostática entre los amino ácidos adyacente (Cargile y

cols., 2008).

3.7 Evaluación de los algoritmos de Bjellqvist, Cofactor y pI-SVM en datos

experimentales

Una comparación entre algoritmos previamente reportados para la

predicción de pI y el algoritmo desarrollado en este trabajo (pI-SVM), es

mostrada en la figura 15. El coeficiente de correlación de Pearson entre

los valores de pI experimentales y teóricos fueron 0.91 (algoritmo

Cofactor), 0.96 (algoritmo de Bjellqvist) y 0.98 (algoritmo pI-SVM). La

desviación estándar del algoritmo basado en SVM disminuyó a 0.32

unidades de pH, en comparación con 0.37 y 0.38 alcanzados con los

algoritmos de Bjellqvist y Cofactor respectivamente. En general, las SD de

cada fracción estudiada fueron bajas. Específicamente, los valores de pI

experimentales y teóricos estuvieron más correlacionados en el intervalo


53

de pH 3.0-4.0. Esto se debe al mayor número de péptidos identificados en

estas fracciones (ácidas) y al hecho de que el algoritmo pI-SVM es una

optimización del método descrito por Bjellqvist por la adición de un

descriptor experimental de AAindex.

Figura 15. pI experimental vs. pI teórico calculado por el algoritmo pI-SVM, Cargile y Bjellqvist.

Similarmente, el algoritmo Cofactor mostró buenos resultados en las

primeras cuatro fracciones de la región ácida (pH 3.5-4.5). Esto se debe a

que el algoritmo fue originalmente entrenado utilizando 5000 péptidos

trípticos separados en un gel con gradiente de pH inmovilizado de 18 cm

en el intervalo de pH 3.5-4.5. El promedio de la desviación estándar en las


54

primeras cinco fracciones para los algoritmos pI-SVM, Bjellqvist y Cofactor

fueron de 0.26, 0.23 y 0.25 respectivamente.

No obstante, en las siete fracciones más básicas (7.05, 7.35, 7.65, 7.95,

8.25, 8.55, 9.15) el algoritmo pI-SVM mostró mejores resultados (Figura

16). En estas fracciones el promedio de desviaciones estándar fue de 0.20,

0.52, 0.36 para los algoritmos pI-SVM, Bjellqvist y Cofactor

respectivamente. El intervalo de confianza (95% del nivel de confidencia)

es mejor para el método basado en SVM comparado con los métodos de

Bjellqvist y Cofactor. El modelo basado en SVM en particular y las técnicas

de aprendizaje computacional en general, posibilitaron el desarrollo de un

nuevo modelo predictor de pI a partir del conocimiento (identificaciones)

contenido en todas las fracciones.

Figura 16. Valores de desviación estándar obtenidos en las fracciones básicas empleando el algoritmo de Bjellqvist, Cofactor, y pI-SVM.

Adicionalmente, se incluyó en el estudio otro conjunto de datos (disponibles

públicamente) experimentales para validar y demostrar que el modelo

propuesto puede predecir con exactitud el pI en datos obtenidos con

diseños experimentales diferentes. En este trabajo se utilizó el conjunto de

datos extraídos de PeptideProphet del estudio de Heller y colaboradores

(Heller y cols., 2005). Los resultados mostraron una correlación de 0.96

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1 2 3 4 5 6 7

des

vias

ión

est

ánd

ar (

SD)

fracciones

SD obtenidas en las fracciones básicas

Cofactor Bjell SVM


55

para el modelo obtenido comparado con 0.91 con la función de Bjellqvist y

0.88 para el algoritmo Cofactor, la SD para los tres modelos fueron 0.37

(pI-SVM), 0.42 (Bjellqvist) y 0.48 (Cofactor) (Figura 17).

Figura 17. pI teórico vs. pI experimental para los algoritmos de Cofactor, Bjellqvist y pI-SVM.

Conclusiones

56

Conclusiones

1. Los resultados alcanzados demostraron la eficacia de las Máquinas de

Soporte Vectorial para estimar con precisión el punto isoeléctrico de

péptidos.

2. El algoritmo implementado para la predicción del pI mostró mejor

correlación entre los valores experimentales y teóricos de pI y menor

desviación estándar que los algoritmos en el estado del arte.

3. El valor de punto isoeléctrico estimado con este método, puede ser

utilizado como una variable ortogonal en estrategias de validación de

datos obtenidos en experimentos de proteómica, dada la posibilidad de

identificar péptidos falsos positivos.

Recomendaciones

57

Recomendaciones

1. Aplicar la metodología empleada en este trabajo en la implementación

de algoritmos de aprendizaje computacional para la estimación del pI de

péptidos modificados.

2. Aplicar la misma estrategia para la predicción del tiempo de retención de

péptidos en sistemas cromatográficos.

3. Formular un modelo matemático para la solución del problema de

inferencia de proteínas utilizando propiedades de péptidos (como el

punto isoeléctrico y el tiempo de retención).

Referencias Bibliográficas

58


Aebersold R. y Mann M. (2003). Mass spectrometry-based proteomics. Nature

422(6928): 198-207.

Ahrens C.H., Brunner E., Qeli E., Basler K. y Aebersold R. (2010).

Generating and navigating proteome maps using mass spectrometry.

Nat Rev Mol Cell Biol 11(11): 789-801.

Al D.W.E. (2008). Fundamentals Of Data Mining In Genomics And Proteomics.

Ed., Springer (India) Pvt. Ltd.

Al Shalabi L. y Shaaban Z. (2006). Normalization as a Preprocessing Engine

for Data Mining and the Approach of Preference Matrix. Dependability of

Computer Systems, 2006. DepCos-RELCOMEX '06. International

Conference.

Banks R.E., Dunn M.J., Hochstrasser D.F., Sanchez J.-C., Blackstock W. y

Pappin D.J. (2000). Proteomics: new perspectives, new biomedical

opportunities. The Lancet 386: 1749 -1756.

Bjellqvist B., Hughes G.J., Pasquali C., Paquet N., Ravier F., Sanchez J.C.

y cols. (1993). The focusing positions of polypeptides in immobilized pH

gradients can be predicted from their amino acid sequences.

Electrophoresis 14(10): 1023-1031.

Bonchev D. (2005). My Life–Long Journey in Mathematical Chemistry. Journal

of Molecular Design 4: 434-490.

Cao D.-S., Xu Q.-S., Hu Q.-N. y Liang Y.-Z. (2013). ChemoPy: freely available

python package for computational biology and chemoinformatics.

Bioinformatics.

Cao W., Ma D., Kapur A., Patankar M.S., Ma Y. y Li L. (2011). RT-SVR+q: a

strategy for post-Mascot analysis using retention time and q value metric

to improve peptide and protein identifications. J Proteomics 75(2): 480-

490.

Cargile BJ y Stephenson JL J. (2004). An alternative to tandem mass

spectrometry: isoelectric point and accurate mass for the identification of

peptides. . Anal Chem. .


59

Cargile B.J., Bundy J.L., Freeman T.W. y Stephenson J.L., Jr. (2004). Gel

based isoelectric focusing of peptides and the utility of isoelectric point in

protein identification. J Proteome Res 3(1): 112-119.

Cargile B.J., Bundy J.L. y Stephenson J.L., Jr. (2004). Potential for false

positive identifications from large databases through tandem mass

spectrometry. J Proteome Res 3(5): 1082-1085.

Cargile B.J., Sevinsky J.R., Essader A.S., Eu J.P. y Stephenson J.L., Jr.

(2008). Calculation of the isoelectric point of tryptic peptides in the pH

3.5-4.5 range based on adjacent amino acid effects. Electrophoresis

29(13): 2768-2778.

Cargile B.J. y Stephenson J.L., Jr. (2004). An alternative to tandem mass

spectrometry: isoelectric point and accurate mass for the identification of

peptides. Anal Chem 76(2): 267-275.

Cargile B.J., Talley D.L. y Stephenson J.L., Jr. (2004). Immobilized pH

gradients as a first dimension in shotgun proteomics and analysis of the

accuracy of pI predictability of peptides. Electrophoresis 25(6): 936-945.

Colinge J., Masselot A., Carbonell P. y Appel R.D. (2006). InSilicoSpectro:

an open-source proteomics library. J Proteome Res 5(3): 619-624.

Collins F.S., Morgan M. y Patrinos A. (2003). The Human Genome Project:

lessons from large-scale biology. Science 300(5617): 286-290.

Craig R. y Beavis R.C. (2004). TANDEM: matching proteins with tandem mass

spectra. Bioinformatics 20(9): 1466-1467.

DL. T. (2003). An algorithm for isoelectric point estimation. .

Domon B. y Aebersold R. (2006). Mass spectrometry and protein analysis.

Science 312(5771): 212-217.

Eckel B. (2006). Thinking in Java. Ed., Pearson Education.

Ekman R., Silberring J. y Brinkmalm A.M. (2008). Mass spectrometry:

instrumentation, interpretation, and applications. ilustrada Ed. Sweden,

John Wiley & Sons.

Eng J.K., Searle B.C., Clauser K.R. y Tabb D.L. (2011). A face in the crowd:

recognizing peptides through database search. Mol Cell Proteomics

10(11): R111 009522.

Eyers C.E., Lawless C., Wedge D.C., Lau K.W., Gaskell S.J. y Hubbard S.J.

(2011). CONSeQuence: prediction of reference peptides for absolute


60

quantitative proteomics using consensus machine learning approaches.

Mol Cell Proteomics 10(11): M110 003384.

Frank E., Hall M., Trigg L., Holmes G. y Witten I.H. (2004). Data mining in

bioinformatics using Weka. Bioinformatics 20(15): 2479-2481.

Garcia H.M. (2000). Electroforesis en geles de poliacrilamida: fundamentos,

actualidad e importancia. UNIV DIAG 1(2): 31-41.

Gasteiger E., Gattiker A., Hoogland C., Ivanyi I., Appel R.D. y Bairoch A.

(2003). ExPASy: The proteomics server for in-depth protein knowledge

and analysis. Nucleic Acids Res 31(13): 3784-3788.

Gauci S., van Breukelen B., Lemeer S.M., Krijgsveld J. y Heck A.J. (2008).

A versatile peptide pI calculator for phosphorylated and N-terminal

acetylated peptides experimentally tested using peptide isoelectric

focusing. Proteomics 8(23-24): 4898-4906.

Gonzalez-Diaz H. (2012). Editorial [Hot Topic: QSAR/QSPR Models as

Enabling Technologies for Drug Targets Discovery in: Medicinal

Chemistry, Microbiology-Parasitology, Neurosciences, Bioinformatics,

Proteomics and Other Biomedical Sciences (Guest Editor: Humberto

Gonzalez Diaz)]. Current Topics in Medicinal Chemistry 12(8): 799-801.

Gonzalez M.P., Teran C., Saiz-Urra L. y Teijeira M. (2008). Variable selection

methods in QSAR: an overview. Curr Top Med Chem 8(18): 1606-1627.

Gygi S.P., Corthals G.L., Zhang Y., Rochon Y. y Aebersold R. (2000).

Evaluation of two-dimensional gel electrophoresis-based proteome

analysis technology. Proc Natl Acad Sci U S A 97(17): 9390-9395.

Hawkins D.M. (1980). Identification of Outliers. Ed., Chapman and Hall.

Heller M., Michel P.E., Morier P., Crettaz D., Wenz C., Tissot J.D. y cols.

(2005). Two-stage Off-Gel isoelectric focusing: protein followed by

peptide fractionation and application to proteome analysis of human

plasma. Electrophoresis 26(6): 1174-1188.

Heller M., Ye M., Michel P.E., Morier P., Stalder D., Junger M.A. y cols.

(2005). Added value for tandem mass spectrometry shotgun proteomics

data validation through isoelectric focusing of peptides. J Proteome Res

4(6): 2273-2282.


61

Hinselmann G., Rosenbaum L., Jahn A., Fechner N. y Zell A. (2011).

jCompoundMapper: An open source Java library and command-line tool

for chemical fingerprints. Journal of Cheminformatics 3(1): 3.

Horth P., Miller C.A., Preckel T. y Wenz C. (2006). Efficient fractionation and

improved protein identification by peptide OFFGEL electrophoresis. Mol

Cell Proteomics 5(10): 1968-1974.

Kawashima S., Pokarowski P., Pokarowska M., Kolinski A., Katayama T. y

Kanehisa M. (2008). AAindex: amino acid index database, progress

report 2008. Nucleic Acids Res 36(Database issue): D202-205.

Krijgsveld J., Gauci S., Dormeyer W. y Heck A.J. (2006). In-gel isoelectric

focusing of peptides as a tool for improved protein identification. J

Proteome Res 5(7): 1721-1730.

Kuster B., Schirle M., Mallick P. y Aebersold R. (2005). Scoring proteomes

with proteotypic peptide probes. Nat Rev Mol Cell Biol 6(7): 577-583.

Lam H. (2011). Building and searching tandem mass spectral libraries for

peptide identification. Mol Cell Proteomics 10(12): R111 008565.

Lam H. y Aebersold R. (2011). Building and searching tandem mass (MS/MS)

spectral libraries for peptide identification in proteomics. Methods 54(4):

424-431.

Larranaga P., Calvo B., Santana R., Bielza C., Galdiano J., Inza I. y cols.

(2006). Machine learning in bioinformatics. Brief Bioinform 7(1): 86-112.

Lehninger A.L., Nelson D.L. y Cox M.M. (2005). Lehninger principles of

biochemistry. Ed., W.H. Freeman.

Lengqvist J., Eriksson H., Gry M., Uhlén K., Björklund C., Bjellqvist B. y

cols. (2011). Observed peptide pI and retention time shifts as a result of

post-translational modifications in multidimensional separations using

narrow-range IPG-IEF. Amino Acids 40(2): 697-711.

Liu C., Wang H., Fu Y., Yuan Z., Chi H., Wang L. y cols. (2010). Prediction of

peptide retention time in reversed-phase liquid chromatography and its

application in protein identification. Se Pu 28(6): 529-534.

Liu H.X., Zhang R.S., Yao X.J., Liu M.C., Hu Z.D. y Fan B.T. (2004).

Prediction of the isoelectric point of an amino acid based on GA-PLS and

SVMs. J Chem Inf Comput Sci 44(1): 161-167.


62

Ly L. y Wasinger V.C. (2011). Protein and peptide fractionation, enrichment

and depletion: tools for the complex proteome. Proteomics 11(4): 513-

534.

Ma K., Vitek O. y Nesvizhskii A.I. (2012). A statistical model-building

perspective to identification of MS/MS spectra with PeptideProphet. BMC

Bioinformatics 13 Suppl 16: S1.

Mallick P., Schirle M., Chen S.S., Flory M.R., Lee H., Martin D. y cols.

(2007). Computational prediction of proteotypic peptides for quantitative

proteomics. Nat Biotechnol 25(1): 125-131.

Melville J.L., Burke E.K. y Hirst J.D. (2009). Machine learning in virtual

screening. Comb Chem High Throughput Screen 12(4): 332-343.

Moruz L, Staes A, Foster JM, Hatzou M, Timmerman E y Martens L e.a.

(2012). Chromatographic retention time prediction for posttranslationally

modified peptides. Proteomics. .

Mujezinovic N., Schneider G., Wildpaner M., Mechtler K. y Eisenhaber F.

(2010). Reducing the haystack to find the needle: improved protein

identification after fast elimination of non-interpretable peptide MS/MS

spectra and noise reduction. BMC Genomics 11(Suppl 1): S13.

Nanni L. y Lumini A. (2005). Support Vector Machines for HIV-1 Protease

Cleavage Site Prediction. Pattern Recognition and Image Analysis. J.

Marques, N. Pérez de la Blanca and P. Pina, Springer Berlin Heidelberg.

3523: 413-420.

Nesvizhskii A.I. (2010). A survey of computational methods and error rate

estimation procedures for peptide and protein identification in shotgun

proteomics. Journal of Proteomics 73(11): 2092-2123.

Nesvizhskii A.I. y Aebersold R. (2005). Interpretation of shotgun proteomic

data: the protein inference problem. Mol Cell Proteomics 4(10): 1419-

1440.

Nesvizhskii A.I., Vitek O. y Aebersold R. (2007). Analysis and validation of

proteomic data generated by tandem mass spectrometry. Nat Methods

4(10): 787-797.

Nesvizhskii A.I., Vitek O. y Aebersold R. (2007). Analysis and validation of

proteomic data generated by tandem mass spectrometry. Nat Meth

4(10): 787-797.


63

Ning K., Fermin D. y Nesvizhskii A.I. (2010). Computational analysis of

unassigned high-quality MS/MS spectra in proteomic data sets.

Proteomics 10(14): 2712-2718.

Norbeck AD, Monroe ME, Adkins JN, Anderson KK, Daly DS y ;16:1239-49.

S.R. (2005). The utility of accurate mass and LC elution time information

in the analysis of complex proteomes. J Am Soc Mass Spectrom. .

Olson M.V. y Varki A. (2003). Sequencing the chimpanzee genome: insights

into human evolution and disease. Nat Rev Genet 4(1): 20-28.

Pereira F., Mitchell T. y Botvinick M. (2009). Machine learning classifiers and

fMRI: a tutorial overview. Neuroimage 45(1 Suppl): S199-209.

Perez-Riverol Y, Hermjakob H, Kohlbacher O, Martens L, Creasy D y J C.

(2013). Computational proteomics pitfalls and challenges: HavanaBioinfo

2012 Workshop report. J Proteomics.

Perez-Riverol Y, Sanchez A, Noda J, Borges D, Carvalho PC, Wang R y

cols. (2013). HI-Bone: A Scoring System for Identifying

Phenylisothiocyanate-Derivatized Peptides Based on Precursor Mass

and High Intensity Fragment Ions. Anal Chem.

Perez-Riverol Y, Wang R H.H., Muller M, Vesada V y JA V. (2013). Open

source libraries and frameworks for mass spectrometry based

proteomics: A developer's perspective. Biochim Biophys Acta.

Perez-Riverol Y., Sanchez A., Ramos Y., Schmidt A., Muller M., Betancourt

L. y cols. (2011). In silico analysis of accurate proteomics,

complemented by selective isolation of peptides. J Proteomics 74(10):

2071-2082.

Petritis K., Kangas L.J., Yan B., Monroe M.E., Strittmatter E.F., Qian W.J. y

cols. (2006). Improved peptide elution time prediction for reversed-phase

liquid chromatography-MS by incorporating peptide sequence

information. Anal Chem 78(14): 5026-5039.

Pfeifer N., Leinenbach A., Huber C.G. y Kohlbacher O. (2007). Statistical

learning of peptide retention behavior in chromatographic separations: a

new kernel-based approach for computational proteomics. BMC

Bioinformatics 8: 468.


64

Puente X.S., Gutierrez-Fernandez A., Ordonez G.R., Hillier L.W. y Lopez-

Otin C. (2005). Comparative genomic analysis of human and

chimpanzee proteases. Genomics 86(6): 638-647.

Righetti P.G. (2004). Determination of the isoelectric point of proteins by

capillary isoelectric focusing. J Chromatogr A 1037(1-2): 491-499.

Rodríguez C.K. (2004). A Computational Environment for Data Preprocessing

in Supervised Classification. Ed., University of Puerto Rico, Mayagüez

Campus.

Saeys Y., Inza I. y Larranaga P. (2007). A review of feature selection

techniques in bioinformatics. Bioinformatics 23(19): 2507-2517.

Sarda D., Chua G.H., Li K.B. y Krishnan A. (2005). pSLIP: SVM based protein

subcellular localization prediction using multiple physicochemical

properties. BMC Bioinformatics 6: 152.

Seidler J., Zinn N., Boehm M.E. y Lehmann W.D. (2010). De novo

sequencing of peptides by MS/MS. Proteomics 10(4): 634-649.

Skoog B. y Wichman A. (1986). Calculation of the isoelectric points of

polypeptides from the amino acid composition. TrAC Trends in Analytical

Chemistry 5(4): 82-83.

Smola A. y Schölkopf B. (2004). A tutorial on support vector regression.

Statistics and Computing 14(3): 199-222.

Tabb DL, Ma ZQ, Martin DB, Ham AJ y MC. C. (2008). DirecTag: accurate

sequence tags from peptide MS/MS through statistical scoring. J

Proteome Res. .

Tabb DL, Saraf A y Yates JR (2003). GutenTag: high-throughput sequence

tagging via an empirically derived fragmentation model. Anal Chem.

Thongkam J., Xu G., Zhang Y. y Huang F. (2008). Support Vector Machine for

Outlier Detection in Breast Cancer Survivability Prediction. Advanced

Web and NetworkTechnologies, and Applications. Y. Ishikawa, J. He, G.

Xuet al, Springer Berlin Heidelberg. 4977: 99-109.

Todeschini R. y Consonni V. (2000). Handbook of Molecular Descriptors. Ed.

Germany, WILEY-VCH

Truszkowski A., Jayaseelan K., Neumann S., Willighagen E., Zielesny A. y

Steinbeck C. (2011). New developments on the cheminformatics open


65

workflow environment CDK-Taverna. Journal of Cheminformatics 3(1):

54.

Uwaje N.C., Mueller N.S., Maccarrone G. y Turck C.W. (2007). Interrogation

of MS/MS search data with an pI Filter algorithm to increase protein

identification success. Electrophoresis 28(12): 1867-1874.

Vapnik V., Golowich S. y Smola A. (1997). Support vector method for function

approximation, regression estimation, and signal processing. Advances

in Neural Information Processing Systems 9.

Watson J.T. y Sparkman O.D. (2007). Introduction to mass spectrometry:

instrumentation, applications and strategies for data interpretation. 4 Ed.

California, John Wiley & Sons.

Webb-Robertson B.J., Cannon W.R., Oehmen C.S., Shah A.R.,

Gurumoorthi V., Lipton M.S. y cols. (2010). A support vector machine

model for the prediction of proteotypic peptides for accurate mass and

time proteomics. Bioinformatics 26(13): 1677-1683.

Wilson K. y Walker J.M. (2000). Principles and techniques of practical

biochemistry. 5 Ed., Cambridge University Press.

Xiaohua H. (2011). Data mining and its applications in bioinformatics:

Techniques and methods. Granular Computing (GrC), 2011 IEEE

International Conference.

Xu C. y Ma B. (2006). Software for computational peptide identification from

MS-MS data. Drug Discov Today 11(13-14): 595-600.

Yap C.W. (2011). PaDEL-descriptor: an open source software to calculate

molecular descriptors and fingerprints. J Comput Chem 32(7): 1466-

1474.

Zhao Y., Pinilla C., Valmori D., Martin R. y Simon R. (2003). Application of

support vector machines for T-cell epitopes prediction. Bioinformatics

19(15): 1978-1984.

Zhou W., Yan H., Fan X. y Hao Q. (2013). Prediction of Protein-Protein

Interactions Based on Molecular Interface Features and the Support

Vector Machine. Current Bioinformatics 8(1): 3-8.


66

“Estimación del punto isoeléctrico de péptidos · 3.3.2 Normalización de los datos ..... 46 3.4. Implementación del algoritmo pI-SVM utilizando WEKA ... (Domon y Aebersold

Documents