“Estimación del punto isoeléctrico de péptidos empleando descriptores moleculares y máquinas de soporte vectorial” Tesis presentada en opción al título de Maestro en Ciencias en Tendencias de la Biotecnología Contemporánea. Mención Investigación de Nuevos Productos Autor: Ing. Enrique Audain Martínez Tutor (es): DrC. Kathya R. de la Luz Hernández DrC. Yasset Perez-Riverol Centro de Inmunología Molecular Centro de Ingeniería Genética y Biotecnología La Habana, febrero de 2014
74
Embed
“Estimación del punto isoeléctrico de péptidos · 3.3.2 Normalización de los datos ..... 46 3.4. Implementación del algoritmo pI-SVM utilizando WEKA ... (Domon y Aebersold
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
“Estimación del punto isoeléctrico de péptidos
empleando descriptores moleculares y
máquinas de soporte vectorial”
Tesis presentada en opción al título de Maestro en Ciencias
en Tendencias de la Biotecnología Contemporánea.
Mención Investigación de Nuevos Productos
Autor: Ing. Enrique Audain Martínez
Tutor (es): DrC. Kathya R. de la Luz Hernández
DrC. Yasset Perez-Riverol
Centro de Inmunología
Molecular
Centro de Ingeniería Genética y Biotecnología
La Habana, febrero de 2014
Agradecimientos
Agradecimientos
A mi familia, especialmente a mami, por su apoyo en cada momento,
A mis tutores,
En general, a todas aquellas personas por su apoyo incondicional,
De corazón, muchas gracias
Dedicatoria
Dedicatoria
A mi madre y hermana, por todo,
A mi familia, especialmente a mis dos abuelas, por todo el apoyo brindado,
A mis dos padres, Enrique y Jesús Martínez Mesa, gracias,
A mis amigos, por la confianza,
A todos los que hicieron posible la realización de este trabajo.
Glosario de términos y abreviaturas
Glosario de términos y abreviaturas
API Interfaz para la programación de aplicaciones (del inglés
Application Programming Interface)
CDK Bibliotecas de clases para análisis químico (del inglés
Chemical Development Kit)
CID Disociación inducida por colisión (del inglés Collision-
induced Dissociation)
Cofactor Algoritmo de Cargile para la estimación del pI
ESI Electro-nebulización (del inglés Electrospray)
FS Selección de características (del inglés Feature Selection)
FT Transformada de Fourier (del inglés Fourier Transform)
HPLC Cromatografía Líquida de Alta Eficacia (del inglés High
Performance Liquid Chromatography)
ICR Resonancia ciclotrónica de iones (del inglés Ion Cyclotron
donde el espacio de entrada ( ) es conformado por los componentes de
un vector de entrada y el espacio de características ( ) es conformado
por componentes ( ) de un vector ( ) representa la transformación
vía la función Kernel (en este caso, la función de base radial o gaussiana).
La selección de los valores de ambos parámetros se realizó teniendo en
cuenta el menor RMSE alcanzado.
Resultados y Discusión
35
Capítulo 3. Resultados y Discusión
Los algoritmos de aprendizaje supervisado (y no supervisado) se han
empleado en la última década con excelentes resultados en el campo de la
Bioinformática y la química computacional (Melville y cols., 2009; Xiaohua
2011). Los algoritmos de predicción de funcionalidad a partir del
conocimiento de la estructura de las moléculas químicas (QSAR), y los
algoritmos de predicción de la estructura química de las proteínas son dos
de los campos de la química computacional donde los algoritmos de
aprendizaje supervisado constituyen la única forma de obtener resultados
de alta precisión y eficacia. En proteómica, la predicción del tiempo de
retención de los péptidos y las proteínas, así como la validación de los
espectros de masas son dos de las áreas donde el empleo de algoritmos
evolutivos, las redes neuronales y las Máquinas de Soporte Vectorial
(SVM) han sido exploradas y utilizadas para obtener funciones óptimas de
puntuación (Petritis y cols., 2006; Pfeifer y cols., 2007; Liu y cols., 2010).
El punto isoeléctrico de los péptidos y las proteínas como valor
experimental dentro de la electroforesis bidimensional y de una sola
dimensión, es una de las variables más utilizadas para validar las
identificaciones de las proteínas en mezclas complejas. En la actualidad, el
fraccionamiento de muestras biológicas utilizando las técnicas
electroforéticas (con la subsecuente obtención de los valores
experimentales de pI), no solo se emplea en la separación de la muestra
bajo estudio para reducir su complejidad, sino que además, la combinación
con valores teóricos de pI se ha explorado en la reducción de falsas
identificaciones y la validación de los resultados obtenidos por
espectrometría de masas (elemento más relevante cuando se utilizan en el
proceso de identificación espectrómetros de masas de baja resolución)
(Heller y cols., 2005; Uwaje y cols., 2007; Cargile y cols., 2008). En este
contexto, toma relevante importancia el desarrollo de algoritmos de
estimación del punto isoeléctrico que reduzcan la diferencia entre el valor
experimental y el teórico de un péptido y mejore su correlación.
Resultados y Discusión
36
El empleo de descriptores moleculares y de algoritmos de aprendizaje
supervisado para ajustar y optimizar respectivamente la función de cálculo
del punto isoeléctrico no ha sido explorado con anterioridad por la
comunidad científica. En este capítulo mostraremos los resultados del
empleo de los descriptores moleculares en combinación con máquinas de
soporte vectorial para la obtención de una función optimizada para la
estimación del punto isoeléctrico. Los resultados se compararon con los
obtenidos utilizando las funciones precedentes de cálculo de punto
isoeléctrico en varios conjuntos de datos experimentales.
3.1 Selección de descriptores moleculares
Empleando el programa realizado en Java y las bibliotecas CDK y
ChemAxon, así como la base de datos AAIndex se calcularon un conjunto
de 644 descriptores moleculares para cada péptido. El mayor grupo de
descriptores moleculares calculados corresponde a los 544 descriptores
experimentales de AAIndex. Los 100 descriptores restantes provenientes
de las bibliotecas CDK y ChemAxon se pueden agrupar en los siguientes
grupos: los electrostáticos, los geométricos y los composicionales.
Los algoritmos de selección de variables son numerosos y se pueden
clasificar en tres grupos fundamentales: los algoritmos de filtrado, los
embebidos y los envueltos. Dentro de estos tres grupos, los métodos de
filtrado resultan muy eficientes para la reducción de la dimensionalidad en
etapas tempranas del desarrollo de algoritmos de aprendizaje. Estos
algoritmos, que se emplean además para reducir el espacio de variables
(cuando se trabaja con grandes volúmenes de datos), no necesitan la
evaluación del modelo matemático a optimizar y trabajan sobre la
naturaleza propia de los descriptores moleculares (y no con la relación del
modelo que se desea optimizar). Dentro de los algoritmos de filtrado, los
algoritmos de agrupamiento son los más extensamente empleados. Los
algoritmos de agrupamiento y en especial el algoritmo de las medianas (k-
means) han sido muy utilizados para el filtrado de propiedades y
Resultados y Discusión
37
descriptores moleculares en los estudios de modelos QSAR (Gonzalez y
cols., 2008; Gonzalez-Diaz 2012). El algoritmo de las medianas se empleó
en este trabajo para calcular las correlaciones entre todos los descriptores
bajo estudio y agrupa aquellas variables fuertemente correlacionadas. En
la figura 5 se muestran los agrupamientos en una matriz de correlación
para los descriptores provenientes de las bibliotecas CDK y ChemAxon.
Figura 5. Matriz de correlación de descriptores moleculares de CDK y ChemAxon previo al procedimiento de selección de características con el algoritmo de las medianas (k-mean).
La matriz de correlación antes de ejecutar el algoritmo de selección de
variables identifica dos grupos de variables perfectamente diferenciados. El
segundo de los grupos se encuentra densamente poblado. Para
complementar el análisis con el algoritmo k-means, se incorporó un
conjunto de restricciones al algoritmo a partir de la información consultada
en la literatura. Liu y colaboradores establecieron previamente la relación
directa que existe entre el punto isoeléctrico del amino ácido de forma
individual y los siguientes descriptores moleculares: la polaridad, la
Resultados y Discusión
38
refractividad, la superficie molecular y la cantidad de átomos donores y
aceptores de hidrógeno (Liu y cols., 2004).
Con el objetivo de reducir la dimensionalidad del espacio de los
descriptores moleculares, disminuir la redundancia de información y la
dependencia lineal entre diferentes descriptores; se seleccionaron aquellos
descriptores moleculares más próximos a los centroides de los
agrupamientos. Como resultado se eliminaron todas las propiedades que
tenían un índice de correlación mayor a 0.80, manteniendo aquellas
propiedades identificadas previamente como posibles variables
correlacionadas con el punto isoeléctrico. La figura 6 representa la matriz
de correlación resultante de la aplicación del algoritmo k-means al conjunto
inicial de descriptores (correlación entre las 19 variables resultantes).
Figura 6. Matriz de correlación de los descriptores de ChemAxon y CDK luego de aplicar el algoritmo de K-means.
En la figura 6 se pueden definir 3 grupos, siendo el segundo el más
densamente poblado. Estos grupos contienen las variables que se
emplearon como criterios de inclusión a partir de la bibliografía consultada.
Los descriptores cLogP (logaritmo del coeficiente de partición
octanol/agua), el índice de Balaban y la energía del péptido según el
Resultados y Discusión
39
campo de fuerza MMF94 son los descriptores menos correlacionados en la
matriz. Descriptores como la refractividad y la superficie polar de la
molécula son los más correlacionados de la matriz.
Luego de obtener las propiedades de los péptidos estimadas con las
librerías ChemAxon y CDK se utilizó la misma estrategia para analizar los
descriptores calculados a partir de la base de datos AAIndex. La base de
datos AAIndex contiene 544 descriptores experimentales calculados para
los 20 aminoácidos naturales. Con el programa AAIndexDescriptor se
calcularon todos los descriptores de AAIndex para cada péptido,
realizándose una normalización según la cantidad de aminoácidos en la
molécula. La figura 7 muestra la distribución final de las correlaciones
según la matriz de correlación.
Figura 7. Matriz de correlación de los descriptores de AAIndex luego de aplicar el algoritmo de k-means.
Resultados y Discusión
40
La figura 7 no muestra ningún grupo densamente poblado. Entre las
variables seleccionadas (de la base de datos AAindex) se encuentran
descriptores relacionados con el punto isoeléctrico, la refractividad, el
tiempo de retención, el índice de flexibilidad de la estructura del péptido,
entre otros. Todos estos descriptores muestran una correlación menor a
0.6. Este procedimiento contribuye a eliminar los descriptores que pudiesen
tener cierta irrelevancia para el modelo predictivo. El problema de la
selección de variables en la predicción de los modelos matemáticos es un
tópico que genera en la actualidad un número importante de trabajos
científicos. El empleo de algoritmos de agrupamiento como métodos de
selección de variables para reducir la dimensionalidad son muy utilizados
en los problemas donde se utilizan muchas variables (Saeys y cols., 2007;
Pereira y cols., 2009; Cao y cols., 2011).
Una vez seleccionados los 58 descriptores moleculares resultantes del uso
de los algoritmos de agrupamiento, se realizó una segunda selección de
descriptores utilizando un simple algoritmo de eliminación recursiva, el cual
constituye una técnica mucho más exhaustiva para reducir la cantidad de
variables en combinación con el modelo basado en SVM.
3.2 Núcleos de transformación (Kernel) y eliminación recursiva de
variables
Las Máquinas de Soporte Vectorial son un conjunto de algoritmos de
aprendizaje supervisado desarrollados por Vapnik (Vapnik y cols., 1997).
Estos métodos están propiamente relacionados con problemas de
clasificación y regresión. El problema clásico puede representarse como un
conjunto de ejemplos de entrenamiento (de muestras), a partir del cual
podemos identificar las clases y entrenar una Máquina de Soporte Vectorial
para construir un modelo que prediga la clase de una muestra nueva.
El paso de selección de variables (entre los 58 descriptores seleccionados)
en combinación con el algoritmo basado en SVM fue implementado en R
utilizando el paquete de funciones Caret (http://cran.r-
project.org/web/packages/caret/). Los 7391 péptidos (extraídos de los
Resultados y Discusión
41
datos experimentales) fueron aleatoriamente divididos en dos subconjuntos
de datos: un subconjunto de entrenamiento (75%) y un subconjunto de
prueba (25%), ambos utilizados para construir el modelo predictor. El paso
de selección de variables en el algoritmo es un método recursivo simple de
eliminación de variables, donde S representa una secuencia de valores
numéricos ordenados (S1 > S2,...), los cuales son candidatos al número de
variables a ser retenidas para construir el modelo en cada iteración del
algoritmo. Finalmente, el subconjunto Si con el cual se obtiene mejor
rendimiento es utilizado en el modelo final. El algoritmo basado en SVM
junto a un Kernel específico se aplicó para evaluar las variables
seleccionadas y generar el modelo final.
La representación por medio de las funciones de transformación (Kernel)
de las variables de entrada ofrece una solución al problema de la
representación de las características sobre el espacio. Un Kernel no es
más que la proyección de la información a un espacio de características de
mayor dimensión el cual aumenta la capacidad computacional de las
máquinas de aprendizaje lineal. Para poder determinar cuáles de los
Kernels más utilizados en la actualidad ofrece un modelo óptimo se
probaron cuatro variantes fundamentales.
Tabla 1. Funciones de transformación (Kernels) evaluadas en función del número de variable en el modelo final.
Kernel Nº de
descriptores RMSE R
2
Polinomial 25 0.3387 0.9734
Lineal 20 0.3866 0.9656
Exponencial 2 0.4081 0.961
Radial 2 0.31 0.987
La tabla 1 muestra las funciones evaluadas. La variable que se emplea
para escoger el mejor Kernel es el error cuadrático medio (RMSE). El
Kernel con el cual se obtuvieron mejores resultados (valores más bajos de
RMSE) fue el de Base Radial (o función Gaussiana). En 17 conjuntos de
Resultados y Discusión
42
variables evaluados por el algoritmo de selección, los mejores resultados
fueron para la combinación del punto isoeléctrico estimado con la función
de Bjellqvist y colaboradores y el índice de punto isoeléctrico de
Zimmerman y colaboradores (Figura 8). El índice de Zimmerman
representa experimentalmente el punto isoeléctrico de cada aminoácido en
la naturaleza. En contraste con resultados previos (Liu y cols., 2004), las
propiedades físico-químicas como la polaridad y la refractividad de la
molécula no mostraron relación con el pI. La relación entre las variables
seleccionadas y el problema bajo estudio confirmó que el modelo
empleado de selección de variables y de SVM es adecuado y óptimo.
Figura 8. RMSE obtenido según el número de variables utilizadas en el modelo predictivo.
3.3 Pre-procesamiento de los datos de entrada del modelo final
La etapa del estudio de las variables más significativas en el modelo final y
la búsqueda de una función de transformación adecuada para la
representación de los datos en un espacio de características de mayor
dimensión, son cruciales en la construcción del modelo basado en SVM.
Resultados y Discusión
43
No obstante, se ha descrito ampliamente que el preprocesamiento de datos
es un paso fundamental en el desarrollo de los métodos de aprendizaje
computacional (Al Shalabi y Shaaban 2006; Al 2008; Thongkam y cols.,
2008). La calidad de los datos de entrenamiento y de los datos de prueba
están fuertemente relacionados con el rendimiento y la precisión de las
predicciones del modelo empleado. Esto se debe a que los datos obtenidos
de sistemas del mundo real pueden contener ruido, valores incorrectos (o
irrelevantes) y valores ausentes que pueden ocultar patrones útiles para
caracterizar el sistema de interés. Por ejemplo, en datos provenientes de
experimentos electroforéticos, se detectan normalmente péptidos fuera de
la fracción correspondiente. Este fenómeno está gobernado por parámetros
como el tiempo de focalización, la abundancia de los péptidos, la
interacción péptido-péptido y la composición de la muestra (Cargile y cols.,
2004). En este trabajo, los datos estudiados fueron procesados teniendo en
cuenta dos criterios fundamentales: la remoción automática de valores
átipicos y la normalización de los datos.
3.3.1 Remoción automática de valores atípicos
A partir del conjunto de los péptidos identificados en cada fracción y su
correspondiente pI experimental, se obtiene un conjunto de datos con
atributos y instancias. Cada atributo ( ) corresponde a los descriptores
incluidos en el modelo final y el atributo clase fue definido para el valor
experimental de pI, cada instancia ( ) corresponde a los péptidos
identificados en cada fracción.
La remoción de los valores atípicos (en este estudio se refiere a péptidos
con pI desviado de su fracción experimental) se realizó tomando en cuenta
el pI teórico estimado por el algoritmo de Bjellqvist. El criterio seguido para
remover los péptidos con pI desviado fue el siguiente:
( )
Resultados y Discusión
44
Donde corresponde a la media de los valores de pI de la fracción,
es el pI calculado con el algoritmo de Bjellqvist para cada péptido y
corresponde a la desviación estándar del pI en la fracción analizada.
Figura 9. Efecto de la remoción de valores atípicos de los datos experimentales en el rendimiento del clasificador medido por el RMSE. Se muestran 10 corridas del clasificador en dos conjuntos de datos diferentes (A y B). • datos con valores atípicos removidos, ∆ datos con valores atípicos sin remover.
La figura 9 muestra los valores de RMSE obtenidos para 10 corridas del
modelo basado en SVM en los dos conjunto de datos experimentales
0.2
0.25
0.3
0.35
0.4
0.45
0 2 4 6 8 10 12
RM
SE
Iteraciones
+ valores atípicos
- valores atípicos
A
0.18
0.2
0.22
0.24
0.26
0 2 4 6 8 10 12
RM
SE
Iteraciones
+ valores atípicos
- valores atípicos
B
Resultados y Discusión
45
estudiados. En ambos casos, se pudo observar que por la remoción de
aproximadamente el 2% del total de valores atípicos, disminuye el RMSE,
lo que se puede traducir en un aumento del rendimiento del clasificador.
Esto indica que el método implementado es adecuado también en datos
provenientes de experimentos electroforéticos, elemento no reportado
antes en la literatura.
El mayor por ciento de péptidos con pI desviado de la fracción experimental
correspondiente se concentró en las fracciones más básicas; típicamente,
donde focalizan menor cantidad de péptidos que a la vez tienen mayor
probabilidad de migrar hacia fracciones incorrectas. Del total de los
péptidos identificados en las tres fracciones más básicas, el número de
péptidos desviados osciló entre 5% y 10% (Figura 10). Otros estudios han
reportado la eliminación de hasta un 10% de péptidos con pI desviado
previo al análisis de los resultados obtenidos en experimentos
electroforéticos (Lengqvist y cols., 2011). Adicionalmente, se evaluó otra
técnica para remover valores extremos basado en el Rango Interquartilo,
pero los resultados obtenidos no mostraron relevancia para el modelo final.
Figura 10. Número de péptidos identificados en cada fracción y el porcentaje de péptidos con pI desviado de su fracción correspondiente. El mayor por ciento de péptidos con pI desviado se encontró en las fracciones más básicas (10-19).
0
5
10
15
20
25
30
35
40
45
50
0
200
400
600
800
1000
1200
1400
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
% d
e p
épti
do
s co
n pI d
esvi
ado
# d
e p
épti
do
s id
enti
fica
do
s
Fracciones
péptidos identificados
% de péptidos con pI desviado
Resultados y Discusión
46
3.3.2 Normalización de los datos
Otra transformación aplicada a los datos de entrada fue la normalización.
Se ha reportado en varios estudios la importancia de eliminar el posible
desbalance que pudiera existir entre las variables utilizadas para construir
un modelo predictor. Los atributos en los datos se normalizan en las
escalas [0, 1] y [-1, 1] utilizando transformaciones lineales (generalmente)
basadas en la media y la desviación estándar.
En este caso, los descriptores estudiados son de diferente naturaleza (por
ejemplo, la masa molecular puede tomar valores en el orden de los miles
de Da mientras las escalas de hidrofobicidad son representadas en el
orden de las decenas). Sin embargo, como puede observarse en la figura
11, la normalización no tuvo un impacto significativo en el rendimiento del
clasificador (medido por la RMSE). Esto pudiera deberse a que ambos
descriptores incluidos en el modelo final son de naturaleza semejante.
Figura 11. Efecto de la normalización de los datos de entrada en el rendimiento del clasificador.
0.18
0.2
0.22
0 2 4 6 8 10 12
RM
SE
Iteraciones
Valores normalizados
Valores no normalizados
Resultados y Discusión
47
3.4. Implementación del algoritmo pI-SVM utilizando WEKA
Como se describió en los acápites anteriores, las etapas de selección de
los descriptores moleculares y el desarrollo del modelo predictor de pI
basado en Máquinas de Soporte Vectorial se desarrollaron utilizando el
lenguaje de programación R. Este lenguaje de programación
(especializado en el análisis estadístico), posee amplias capacidades
gráficas y posibilita la evaluación de un gran número de condiciones sin
una excesiva carga computacional. No obstante, es menos adecuado para
usuarios finales con menos habilidades en programación.
Teniendo en cuenta estos elementos, el modelo final determinado en esta
primera etapa de desarrollo se implementó en Java utilizando la biblioteca
de clases WEKA (Frank y cols., 2004). El objetivo principal de este paso,
fue obtener un algoritmo que fuese relativamente fácil de expandir como
una aplicación (siguiendo el paradigma de la programación orientada a
objetos). Desde este punto de vista, el método desarrollado en este trabajo,
puede ser utilizado relativamente fácil, puede ejecutarse sobre varias
plataformas (Linux, Windows y Mac) y puede ser incluido por otros
desarrolladores en programas para la predicción de propiedades físico-
químicas de los péptidos y las proteínas. La figura 12 muestra el diagrama
de flujo del modelo final. A partir de una lista de péptidos con su
correspondiente pI experimental los datos son preprocesados y
aleatorizados para luego dividirse en dos subconjuntos: los datos para
entrenar el modelo y los datos para probar el modelo. Adicionalmente, la
etapa de prueba incluye un paso de validación cruzada del algoritmo. El
criterio de selección del mejor clasificador es el RMSE para i-iteraciones
del algoritmo. Tomando en cuenta los resultados de varias corridas, el
número de iteraciones se fijó en 10, ya que con este número de iteraciones
el algoritmo converge relativamente rápido y es posible obtener un modelo
óptimo para predecir el pI de nuevos péptidos.
Resultados y Discusión
48
Figura 12. Diagrama de flujo del algoritmo para obtener el clasificador basado en SVM. En cada iteración i se almacena el clasificador con menor RMSEi. En la i-ésima iteración se obtiene el clasificador con menor RMSE (modelo final).
3.5 Detección de falsas identificaciones con el algoritmo pI-SVM
La utilización del punto isoeléctrico como una variable ortogonal en la
identificación de péptidos y proteínas ha sido recientemente explorada
(Cargile y cols., 2004; Heller y cols., 2005; Horth y cols., 2006; Perez-
Riverol y cols., 2011). Cargile y colaboradores sentaron las bases teóricas
para la identificación de los péptidos y las proteínas basada en este nuevo
paradigma. La metodología planteada por estos autores utiliza la masa
molecular y el punto isoeléctrico como criterios para la identificación, y
representa un cambio en el enfoque de las metodologías actuales
utilizadas en el proceso de identificación (Cargile y Stephenson 2004). Por
Resultados y Discusión
49
otra parte, se ha reportado previamente la posibilidad de identificar
teóricamente péptidos y proteínas empleando diferentes propiedades
experimentales (Perez-Riverol y cols., 2011). No obstante, la utilización del
punto isoeléctrico como información complementaria para reducir el
número de falsas identificaciones (falsos positivos) ha sido una variante
menos explotada.
Tabla 2. Relación entre la (a) probabilidad asignada por PeptideProphet y el (d) porcentaje de péptidos con pI (calculado por el algoritmo pI-SVM) fuera del intervalo estimado (media de la fracción ±2 SD), (b) el número de péptidos identificados para cada probabilidad, (c) el número de péptidos no redundantes para cada probabilidad y (e) el número de identificaciones no redundantes que caen fuera del intervalo predicho en al menos una fracción. El total de péptidos con pI estimado desviado fue 750.
En la tabla 2 se puede observar la relación entre la predicción del punto
isoeléctrico (utilizando el algoritmo basado en SVM) y la probabilidad
asignada por PeptideProphet (Ma y cols., 2012). El intervalo de punto
isoeléctrico determinado para una fracción se definió como la media del pI
estimado para la fracción ±2 veces la desviación estándar (SD). Un estudio
previo demostró que para diferentes algoritmos de búsquedas, ±2 pI SD
tuvo un efecto más significativo que ±1 pI SD (Heller y cols., 2005). Los
resultados muestran que un bajo número de péptidos (0.2%) caen fuera del
intervalo de pI predicho para probabilidades altas (1.0) asignadas por
PeptideProphet. El efecto opuesto fue encontrado para péptidos con baja
probabilidad asignada (Figura 13). Esto significa que el método de
predicción de pI puede detectar el número de falsos positivos en cada
Figura 13. El porcentaje de péptidos con pI desviado del intervalo fijado tiende a disminuir cuando aumenta la probabilidad asignada por PeptideProphet. El gráfico se obtuvo a partir de los valores tabulados en las entradas (a) y (d) de la Tabla 2.
En estudio previo, Heller y colaboradores hallaron que para las
identificaciones con altas probabilidades asignadas por PeptideProphet, el
2.9% eran falsos positivos cuando utilizaron el algoritmo para el cálculo del
pI de Bjellqvist como filtro. Pero cuando adicionaron el tiempo de retención,
ellos encontraron que el 8.4% de las identificaciones podrían ser falsas
(Heller y cols., 2005). Cuando se aplicó el algoritmo basado en SVM (pI-
SVM) a los datos utilizados en el estudio de Heller, se detectó 4.1% de
falsos positivos para las identificaciones con altas probabilidades
asignadas, lo cual Heller y colaboradores no pudieron detectar utilizando el
método de predicción de pI únicamente.
La precisión del modelo basado en SVM permitió encontrar 44
identificaciones de péptidos no redundantes como probables falsos
positivos, los cuales tienen altas probabilidades asignadas por
PeptideProphet (probabilidades: 1, 0.9). Además, para identificaciones con
probabilidades más bajas (probabilidades: 0.8-0.1), el algoritmo detectó
aproximadamente 700 péptidos con valor teórico de pI fuera de la fracción
Resultados y Discusión
51
correspondiente. Por lo tanto, el método implementado en este trabajo
pudiera ser utilizado para clasificar los péptidos identificados utilizando
información ortogonal, como ha sido sugerido en previos estudios (Cargile
y Stephenson 2004; Perez-Riverol y cols., 2011).
3.6 Implementación de los algoritmos Bjellqvist y Cofactor
Las bases teóricas de los algoritmos propuestos por Bjellqvist y Cargile,
pueden ser verificadas en el Capítulo 1 de Revisión Bibliográfica (acápites
1.2.1 y 1.2.3). Ambos algoritmos se implementaron como parte de este
trabajo para el cálculo del pI de péptidos. La figura 14 muestra el diagrama
de flujo general en el cual se basan los dos algoritmos.
Figura 14. Flujo general de un algoritmo iterativo para el cálculo del pI. *Las constantes de pK
predefinidas son diferentes en los algoritmos de Bjellqvist y Cargile.
Resultados y Discusión
52
Los valores de pK, previamente calculados, se obtienen teniendo en cuenta
cada grupo ionizable en la secuencia aminoacídica. Los residuos de Lisina,
Histidina y Arginina son residuos básicos que poseen cadenas laterales
básicas (portan carga positiva) y los residuos ácido Aspártico, ácido
Glutámico, Cisteína y Tirosina, pueden portar cargas negativas.
Adicionalmente, el algoritmo toma en cuenta que el N-terminal y el C-
terminal de la secuencia contribuyen a la carga del péptido y a su punto
isoeléctrico. El algoritmo realiza varias iteraciones en un amplio intervalo de
pH, donde en cada iteración se introducen pequeñas perturbaciones al
valor de esta variable. El pI es determinado cuando la carga neta (QN) (que
es una función del pH y el pK a partir de una generalización de la ecuación
propuesta por Henderson-Hasselbalch) obtiene un valor cercano a cero. La
diferencia fundamental entre los métodos de Cargile y Bjellqvist, es que las
constantes de pK empleadas para el cálculo del pI son obtenidas siguiendo
metodologías diferentes. Mientras el conjunto de valores de pK propuesto
por Bjellqvist se obtuvo de forma experimental (Bjellqvist y cols., 1993),
Cargile propuso optimizaciones a cada constante a partir de las
interacciones electrostática entre los amino ácidos adyacente (Cargile y
cols., 2008).
3.7 Evaluación de los algoritmos de Bjellqvist, Cofactor y pI-SVM en datos
experimentales
Una comparación entre algoritmos previamente reportados para la
predicción de pI y el algoritmo desarrollado en este trabajo (pI-SVM), es
mostrada en la figura 15. El coeficiente de correlación de Pearson entre
los valores de pI experimentales y teóricos fueron 0.91 (algoritmo
Cofactor), 0.96 (algoritmo de Bjellqvist) y 0.98 (algoritmo pI-SVM). La
desviación estándar del algoritmo basado en SVM disminuyó a 0.32
unidades de pH, en comparación con 0.37 y 0.38 alcanzados con los
algoritmos de Bjellqvist y Cofactor respectivamente. En general, las SD de
cada fracción estudiada fueron bajas. Específicamente, los valores de pI
experimentales y teóricos estuvieron más correlacionados en el intervalo
Resultados y Discusión
53
de pH 3.0-4.0. Esto se debe al mayor número de péptidos identificados en
estas fracciones (ácidas) y al hecho de que el algoritmo pI-SVM es una
optimización del método descrito por Bjellqvist por la adición de un
descriptor experimental de AAindex.
Figura 15. pI experimental vs. pI teórico calculado por el algoritmo pI-SVM, Cargile y Bjellqvist.
Similarmente, el algoritmo Cofactor mostró buenos resultados en las
primeras cuatro fracciones de la región ácida (pH 3.5-4.5). Esto se debe a
que el algoritmo fue originalmente entrenado utilizando 5000 péptidos
trípticos separados en un gel con gradiente de pH inmovilizado de 18 cm
en el intervalo de pH 3.5-4.5. El promedio de la desviación estándar en las
Resultados y Discusión
54
primeras cinco fracciones para los algoritmos pI-SVM, Bjellqvist y Cofactor
fueron de 0.26, 0.23 y 0.25 respectivamente.
No obstante, en las siete fracciones más básicas (7.05, 7.35, 7.65, 7.95,
8.25, 8.55, 9.15) el algoritmo pI-SVM mostró mejores resultados (Figura
16). En estas fracciones el promedio de desviaciones estándar fue de 0.20,
0.52, 0.36 para los algoritmos pI-SVM, Bjellqvist y Cofactor
respectivamente. El intervalo de confianza (95% del nivel de confidencia)
es mejor para el método basado en SVM comparado con los métodos de
Bjellqvist y Cofactor. El modelo basado en SVM en particular y las técnicas
de aprendizaje computacional en general, posibilitaron el desarrollo de un
nuevo modelo predictor de pI a partir del conocimiento (identificaciones)
contenido en todas las fracciones.
Figura 16. Valores de desviación estándar obtenidos en las fracciones básicas empleando el algoritmo de Bjellqvist, Cofactor, y pI-SVM.
Adicionalmente, se incluyó en el estudio otro conjunto de datos (disponibles
públicamente) experimentales para validar y demostrar que el modelo
propuesto puede predecir con exactitud el pI en datos obtenidos con
diseños experimentales diferentes. En este trabajo se utilizó el conjunto de
datos extraídos de PeptideProphet del estudio de Heller y colaboradores
(Heller y cols., 2005). Los resultados mostraron una correlación de 0.96
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1 2 3 4 5 6 7
des
vias
ión
est
ánd
ar (
SD)
fracciones
SD obtenidas en las fracciones básicas
Cofactor Bjell SVM
Resultados y Discusión
55
para el modelo obtenido comparado con 0.91 con la función de Bjellqvist y
0.88 para el algoritmo Cofactor, la SD para los tres modelos fueron 0.37
(pI-SVM), 0.42 (Bjellqvist) y 0.48 (Cofactor) (Figura 17).
Figura 17. pI teórico vs. pI experimental para los algoritmos de Cofactor, Bjellqvist y pI-SVM.
Conclusiones
56
Conclusiones
1. Los resultados alcanzados demostraron la eficacia de las Máquinas de
Soporte Vectorial para estimar con precisión el punto isoeléctrico de
péptidos.
2. El algoritmo implementado para la predicción del pI mostró mejor
correlación entre los valores experimentales y teóricos de pI y menor
desviación estándar que los algoritmos en el estado del arte.
3. El valor de punto isoeléctrico estimado con este método, puede ser
utilizado como una variable ortogonal en estrategias de validación de
datos obtenidos en experimentos de proteómica, dada la posibilidad de
identificar péptidos falsos positivos.
Recomendaciones
57
Recomendaciones
1. Aplicar la metodología empleada en este trabajo en la implementación
de algoritmos de aprendizaje computacional para la estimación del pI de
péptidos modificados.
2. Aplicar la misma estrategia para la predicción del tiempo de retención de
péptidos en sistemas cromatográficos.
3. Formular un modelo matemático para la solución del problema de
inferencia de proteínas utilizando propiedades de péptidos (como el
punto isoeléctrico y el tiempo de retención).
Referencias Bibliográficas
58
Referencias Bibliográficas
Aebersold R. y Mann M. (2003). Mass spectrometry-based proteomics. Nature
422(6928): 198-207.
Ahrens C.H., Brunner E., Qeli E., Basler K. y Aebersold R. (2010).
Generating and navigating proteome maps using mass spectrometry.
Nat Rev Mol Cell Biol 11(11): 789-801.
Al D.W.E. (2008). Fundamentals Of Data Mining In Genomics And Proteomics.
Ed., Springer (India) Pvt. Ltd.
Al Shalabi L. y Shaaban Z. (2006). Normalization as a Preprocessing Engine
for Data Mining and the Approach of Preference Matrix. Dependability of
Computer Systems, 2006. DepCos-RELCOMEX '06. International
Conference.
Banks R.E., Dunn M.J., Hochstrasser D.F., Sanchez J.-C., Blackstock W. y
Pappin D.J. (2000). Proteomics: new perspectives, new biomedical