Análisis del ADN por medio del uso de lógica ... - Tesis IPN

UNIDAD PROFESIONAL INTERDISCIPLINARIA

EN INGENIERÍA Y TECNOLOGÍAS AVANZADAS.

UPIITA

“Análisis del ADN por medio del uso de lógica difusa”

TRABAJO TERMINAL

Que Para Obtener El Titulo De:

“INGENIERÍA BIÓNICA”

Presenta RIOS MOGUEL

JANNETE

Asesores: Dr. en C. Herón

Molina Lozano M. en C. Claudia Katia

Reyes Quintanar M. en C. Isaac Guzmán

Domínguez

México, D. F.

2006

INSTITUTO POLITÉCNICO NACIONAL

UNIDAD PROFESIONAL INTERDISCIPLINARIA

EN INGENIERÍA Y TECNOLOGÍAS AVANZADAS.

UPIITA

“Análisis del ADN por medio del uso de lógica difusa”

TRABAJO TERMINAL

Que Para Obtener El Titulo De:

“INGENIERÍA BIÓNICA”

Presenta

RIOS MOGUEL JANNETE

Asesores:

Dr. Herón Molina Lozano M. en C. Claudia Katia Reyes Quintanar

M. en C. Isaac Guzmán Domínguez

Presidente de Jurado Profesor Titular

M. en C. Álvaro Anzueto Ríos Ing. Cuauhtémoc Valaguez Velásquez

México, D. F.

2006

INSTITUTO POLITÉCNICO NACIONAL

ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA

ÍNDICE

Índice de Figuras ............................................................................................................................................ B Índice de Tablas ............................................................................................................................................. C Resumen ......................................................................................................................................................... I Abstract ........................................................................................................................................................... I Justificación .................................................................................................................................................... II Objetivo General del Trabajo Terminal .......................................................................................................... II Planteamiento del problema ......................................................................................................................... III Diagrama del Planteamiento del Problema .................................................................................................. III CAPÍTULO 1 Antecedentes ........................................................................................................................... 1

1.1 Cáncer .............................................................................................................................................. 2 1.1.1 Características del cáncer ........................................................................................................ 2 1.1.2 Clasificación del cáncer ............................................................................................................ 3 1.1.3 Origen del cáncer ..................................................................................................................... 5

1.2 Genética ........................................................................................................................................... 6 1.2.1 Estudio de la Genética ................................................................................................................ 6

1.3 Bioinformática ................................................................................................................................... 6 1.3.1 Antecedentes de Bioinformática .................................................................................................. 7

1.4 Lógica Difusa .................................................................................................................................... 8 1.4.1 Conjunto Difuso ........................................................................................................................... 8

CAPÍTULO 2 Marco Teórico .......................................................................................................................... 9 2.1 Estructura del ADN ......................................................................................................................... 10 2.2 Genoma de eucariontes ................................................................................................................. 12 2.3 Extracción del ADN......................................................................................................................... 12 2.4 Genética y Cáncer .......................................................................................................................... 14

2.4.1 El ciclo celular ........................................................................................................................ 15 2.4.2 El gen p53 y el ciclo celular .................................................................................................... 16 2.4.3 La propagación de las células cancerosas ............................................................................. 16 2.4.4 Modelo genético para cáncer de colon................................................................................... 17 2.4.5 Desarrollo de estadios de cáncer de colon ............................................................................ 18 2.4.6 Factores genéticos y ambientales en el cáncer de colon ....................................................... 18 2.4.7 Inestabilidad genómica y cáncer ............................................................................................ 18 2.4.8 El cáncer como enfermedad genética .................................................................................... 19

2.5 Alineación de cadenas de ADN ...................................................................................................... 20 2.5.1 Métodos de alineamientos ......................................................................................................... 20

2.6 Blast................................................................................................................................................ 22 2.7 Introducción a la Gramática ............................................................................................................ 23

2.7.1 Definición de Gramática ......................................................................................................... 23 2.7.2 Tipos de Gramática ................................................................................................................ 23 2.7.3 Definición de gramáticas difusas ............................................................................................ 25

2.8 Lógica Difusa o Borrosa y Probabilidad .......................................................................................... 26 CAPÍTULO 3 desarrollo................................................................................................................................ 27

3.1 Metodología .................................................................................................................................... 28 3.2 Java ................................................................................................................................................ 33 3.3 Algoritmo CYK adaptado para el Lenguaje Libre de Contexto Difuso ............................................ 33 3.4 Simplificación de las Gramáticas Libres de Contexto ..................................................................... 37

3.4.1 Forma Normal de Chomsky o FNC ........................................................................................... 37 CAPÍTULO 4 Pruebas Preliminares y Resultados ........................................................................................ 41

4.1 Pruebas preliminares ....................................................................................................................... 42

UPIITA - INGENIERÍA BIÓNICA


4.2 Pruebas adicionales ....................................................................................................................... 43 4.3 Análisis de la Cadena ..................................................................................................................... 48 4.4 Análisis con Proteínas .................................................................................................................... 51 4.5 Análisis de Resultados ................................................................................................................... 52

CAPÍTULO 5 Conclusiones y Trabajo a Futuro ............................................................................................ 56 5.1 Conclusiones .................................................................................................................................. 57

5.1.2 Comparación del Programa Análisis del ADN para Detectar Cáncer de Colon con el Programa Blast ................................................................................................................................................... 57

5.2 Trabajo a Futuro ............................................................................................................................. 58 Apédice A .......................................................................................................................................... anexo cd Apédice B .......................................................................................................................................... anexo cd Apédice C .......................................................................................................................................... anexo cd Fuentes Consultadas ................................................................................................................................................... 59

Bibliografía .............................................................................................................................................. 59 Cibergrafías ............................................................................................................................................. 60

Glosario ....................................................................................................................................................... 61

ÍNDICE DE FIGURAS

Figura I. Diagrama del Planteamiento del Problema ........................................................................... V Figura. 1.1 Cuando las células normales se lesionan o envejecen, mueren por apoptosis, pero las células cancerosas evitan la apoptosis............................................................................................................ 61 Figura 1.2 Si los carcinomas se parecen a la piel, se les denomina epidermoides, que son los más frecuentes en la boca, la laringe, la faringe, el cuello del útero, entre otros sitio ................................................... 4 Figura 1.3 Sarcoma de tejido suave ................................................................................................................... 4

Figura 2.1 Pasos que se siguen para realizar la secuenciación ......................................................... 14 Figura 2.2 El ciclo celular está controlado en dos y posiblemente en más puntos de control, uno es la transición G2/M y otro al final de la fase G1, antes de entrar en la fase S. Estos puntos de control implican interacciones entre proteínas transitorias, llamadas ciclinas y quinasas, que añaden grupos fosfatos a las proteínas. La fosforilación de las proteínas diana disparan una cascada de sucesos que permiten el progreso a través del ciclo celular ......................................................................................................................................... 16 Figura 2.3 Modelo para la producción del cáncer de colon en pasos sucesivos. El primer paso es la pérdida O inactivación del gen APC del cromosoma 5. En los casos familiares, se hereda un gen mutante APC. La pérdida de ambos alelos da lugar a la formación de adenomas benignos. Mutaciones posteriores, que Implican a genes en los cromosomas 12, 17 y 18 de las células de los adenomas benignos, pueden conducir a una transformación maligna que dé lugar al cáncer de colon. Aunque las mutaciones en los cromosomas 12, 17 y 18 ocurren normalmente en estadios más tardíos que las mutaciones del cromosoma 5, la suma de los cambios es más importante que el orden en el que se dan ................................................................. 17 Figura 2.4 El cáncer es producido por la mutación de determinados genes de una célula determinada y que adquiere así las características propias de dicha enfermedad ............................................................ 20 Figura 2.5 Alineamiento Global (Needleman-Wunsch) ...................................................................... 21 Figura 2.6 Alineamiento Local (Smith-Waterman) .............................................................................. 21 Figura 3.1 Primer alineamiento usando Matlab................................................................................... 31 Figura 3.2 Alineamineto de secuencias .............................................................................................. 32 Figura 3.3 Algoritmo 3.1 ...................................................................................................................... 34 Figura 3.4 Combinaciones en las 5 primeras reglas ........................................................................... 40 Figura 4.1 Grados de Membresía que existen en la cadena .............................................................. 42 Figura 4.2 Gráfica de reconocimiento de patrones ............................................................................. 43 Figura 4.3 Gráfica con la secuencia artificial 1 con la inserción de la cadena cancerígena original atctat cinco veces, devolviendo un grado de pertenencia de 1 como máximo ........................................................ 44 Figura 4.4 Gráfica con la secuencia artificial 2 con cinco inserciones de la cadena cancerígena modificada en la primera base ttctat, devolviendo un grado de pertenencia de 0.833 como máximo ........................ 44 Figura 4.5 Gráfica de la secuencia artificial 3 con cinco inserciones de la cadena cancerígena modificada en la primera y segunda base tgctat, devolviendo un grado de pertenencia de 0.693 como máximo ......... 45 Figura 4.6 Gráfica de la secuencia artificial 4 con cinco inserciones de la cadena cancerígena modificada en la primera, segunda y tercera base tgttat, con un grado de pertenencia de 0.578 como máximo .......... 45 Figura 4.7 Gráfica de la secuencia artificial 5 con cinco inserciones de la cadena cancerígena modificada en


ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUS

la primera, segunda, tercera y cuarta base tgtcat, con un grado de pertenencia de 0.481 como máximo 46 Figura 4.8 Gráfica de la secuencia artificial 6 con cinco inserciones de la cadena cancerígena modificada en la primera, segunda, tercera, cuarta y quinta base tgtcct, donde el grado de pertenencia tiene que disminuir hasta 0.401, recordemos que la cadena sigue comparando aún con los cambios ................................................... 46 Figura 4.9 Amplificación de la gráfica secuencia artificial 6, como se observa el valor del primer pico es de 0.401, los valores de los siguientes picos son la comparación que sigue haciendo el patrón con respecto a la secuencia 47 Figura 4.10 Gráfica de la secuencia artificial 7 con cinco inserciones de la cadena cancerígena modificada en la primera, segunda, tercera, cuarta, quinta y sexta base tgtcca, donde el grado de pertenencia tiene que disminuir hasta 0, recordemos que la cadena sigue comparando aún con los cambios .............................................. 47 Figura 4.11 Amplificación de la gráfica secuencia artificial 7, como se observa el valor del primer pico es de 0.481, esto es por que la cadena sigue haciendo comparaciones, por este motivo no se va a obtener una gráfica en cero ............................................................................................................................................................ 48 Figura 4.12 Comparación de una cadena con cáncer contra una secuencia sin cáncer .................... 49 Figura 4.13 Comparación amplificada de la sección señalada .......................................................... 49 Figura 4.14 Comparación de una cadena con cáncer contra una secuencia con cáncer ................... 50 Figura 4.15 Comparación amplificada de la sección señalada .......................................................... 50 Figura 4.16 Comparación una cadena cancerígena (atctat) con una secuencia con cáncer .............. 52 Figura 4.17 Comparación una cadena cancerígena (atctat) con una secuencia con cáncer diferente a la anterior ......................................................................................................................................... 52 Figura 4.18 Comparación amplificada de la 1a. sección ..................................................................... 53 Figura 4.19 Comparación amplificada de la 2ª sección ...................................................................... 53 Figura 4.20 Comparación de la cadena cancerígena contra diferentes secuencias con cáncer......... 54 Figura 4.21 Comparación de una cadena cancerígena con una sección diferente de la secuencia R2 con cáncer ................................................................................................................................................. 54 Figura 4.22 Comparación de una cadena cancerígena contra una secuencias sin cáncer .................. 54 Figura 4.23 Comparación con otra cadena cancerígena contra diferentes secuencias con cáncer ..... 55 Figura 4.24 Comparación de una cadena cancerígena con una sección diferente de la secuencia R2 y otra secuencia con cáncer .......................................................................................................................... 55 Figura 4.25 Comparación de una cadena cancerígena con una sección diferente de la secuencia R2 con cáncer y una secuencia sin cáncer .......................................................................................................................... 55

ÍNDICE DE TABLAS

Tabla 1 Proteínas utilizadas del cromosoma 18p sano para realizar alineamientos con cadenas con Cáncer 51 Tabla 2 Alineaciones que se realizaron con la proteína y la secuencia con cáncer de colon .............. 51 Tabla 3 Ventajas y desventajas del Programa BLAST ....................................................................... 58 Tabla 4 Ventajas y desventajas del Programa Análisis del ADN para detectar Cáncer de Colon ...... 58


Resumen

El presente trabajo tiene el propósito de realizar un estudio de análisis genómico de cadenas de ácido desoxirribonucleico (ADN) del genoma humano, específicamente del cáncer de colon que se desarrolla en el cromosoma 18 en el brazo corto “p”, con el propósito de detectar a pacientes con cáncer, éste desarrollo se divide en dos partes:

1) Realizar una búsqueda en las bases de datos que se encuentran disponibles en la página de Internet del Centro Nacional para la Información Biotecnológica (CNIB) de cadenas de ADN, para observar la relación de pacientes con cáncer y personas sanas a nivel genético. Esta etapa se relaciona con el área biológica, debido a que hay que descifrar las secuencias de las cadenas genéticas, así como su función biológica.

2) En el área de la bioinformática se desarrolló un programa en la plataforma de Java, elaborado a partir de un sistema de lógica difusa que se encarga de calcular el grado de pertenencia con respecto a un segmento de ADN. El sistema difuso se definió a partir de lo que se conoce como gramática difusa y se extrajo a partir de código genético con cáncer.

Abstract

The present work has the purpose to develop a genomic analysis of the deoxyribonucleic acid (DNA) chains of the human being, specifically the analysis of DNA is centered on the cancer of colon of the chromosome 18 “p” with the finality of detect patients with this kind of cancer. The main analysis was based on the use of fuzzy grammars. The bases of DNA were found on the National Center of Biotechnology Information (NCBI) web page.

Introducción General

La biónica es la disciplina que se encarga del estudio y observación de los sistemas biológicos, a partir de esta información se da solución a problemas de ciencia y tecnología. En la actualidad, la biónica se ha utilizado para implementar sistemas neurodifusos, a partir del estudio del funcionamiento de las redes neuronales de la lógica difusa de donde se han realizado sistemas difusos, estos sistemas se implementan por medio de reglas del tipo “si-entonces”, de manera que la experiencia de una persona u otro tipo de sistema se pueden diseñar mediante el dictado de estas reglas. La ventaja que se tiene al usar estas reglas es que el tipo de problemas que se van a tratar muchas veces no están bien definidos o son términos vagos o con ruido.

La ventaja que existe al utilizar el método de gramáticas difusas con respecto a las gramáticas certeras, es que las gramáticas difusas pueden dar un grado de pertenencia de una cadena de ADN con respecto a una gramática. En cambio las gramáticas certeras únicamente permiten decir si una cadena de ADN pertenece o no a una gramática.

Las reglas difusas se generan a través de los conjuntos difusos, donde un conjunto difuso se define por medio de dos términos, el primero se refiere al elemento u objeto, y el segundo al grado de pertenencia o membresía que puede tener dicho elemento con respecto al conjunto.

Una total pertenencia se define como un grado de pertenencia igual a uno, y una nula pertenencia se define como un grado de pertenencia igual a cero; además, existen grados

I


UPIITA - INGENIERÍA IÓNICA


de pertenencia intermedios. Por otro lado, existen sistemas difusos que son capaces de reconocer cadenas de texto, es decir dar un grado de pertenencia a una cadena, a partir de un segmento de cadena1. Este tipo de sistemas se efectúan por medio de una gramática difusa y a su vez, la gramática difusa se implementa por medio de una cadena de texto previamente seleccionada. A partir de la gramática difusa se pueden hacer programas que analicen cadenas de texto. Algunos de los análisis es la comparación de dos o más cadenas de ADN diferentes o alineaciones de ADN. Para realizar las alineaciones existen dos tipos; el alineamiento local que compara un número pequeño de bases de ADN o el alineamiento global que utiliza una gran cantidad de bases de ADN. Otra manera de realizar comparaciones es por medio de gramáticas computacionales, dicha gramática es una serie de reglas de reescritura que permiten describir dicho lenguaje genético. Bajo el principio y concepto de que el código de ADN codificante es un lenguaje, Searls (2002) presenta un amplio estudio de los diferentes tipos de gramáticas que existen, que se utilizan para representar dicho lenguaje.

Ya que en México no es fácil encontrar un laboratorio que realice la extracción y el desglose de las cadenas de ADN en sus cuatro bases nitrogenadas, es necesario tomar la información de cáncer y sin cáncer utilizada en este trabajo de la base de datos del Centro Nacional para la Información Biotecnológica (CNIB).

El presente trabajo tiene el propósito de realizar un estudio de la posibilidad que existe para detectar a pacientes con cáncer a partir de un segmento de cadena de ADN, utilizando un sistema de lógica difusa para indicar el grado de pertenencia. El tipo de cáncer que se va analizar es el del colon que se desarrolla en el cromosoma 18 en el brazo corto o “p”.

Justificación

El cáncer es la segunda causa principal de muerte después de las enfermedades cardiacas. Se estima que a lo largo del siglo XXI, el cáncer sea la primera causa de muerte en los países desarrollados (Gardner, 2003).

Por ello al utilizar el método de gramáticas difusas para el análisis de ADN, se puede obtener un grado de pertenencia para detectar pacientes con cáncer a partir de un segmento de cadena de ADN. Esto ayudará a detectar de una manera más rápida y preventiva el cáncer.

Objetivo General del Trabajo Terminal

Determinar el grado de pertenencia de un segmento de ADN humano utilizando un sistema de gramáticas difusas con el propósito de identificar segmentos que sean cancerígenos.

1 Una cadena de texto o ADN es una concatenación definidos a partir de un alfabeto, de igual forma un

segmento es también una concatenación de dichos símbolos, la cantidad de elementos de la cadena es

superior o mayor respecto al número de elementos del segmento, es decir, un segmento puede ser una

subcadena, pero nunca el segmento será mayor a una cadena.

UPIITA - INGENIERÍA BIÓNICA II

Planteamiento del problema

Desde el punto de vista biológico, la genómica comparativa permite encontrar el comportamiento de una determinada proteína, bacteria o virus, debido a que si se logra extraer parte del código genético de un genoma, se pueden realizar comparaciones que permiten detectar si es parecido a otro genoma y determinar sus características genómicas.

Debido a que se han realizado pocos análisis desde el punto de vista bioinformático, se tiene la oportunidad de encontrar las características computacionales que tienen al momento de realizar un análisis comparativo entre una cadena y otra. Las principales características que se pretenden investigar serán:

1. Descubrir una gramática que permita describir el lenguaje del ADN no codificante. 2. Un análisis que permita detectar si una determinada cadena de ADN es no

codificante y si pertenece a una secuencia genómica que esté infectada con cáncer. 3. Realizar un análisis gramatical de las mismas.

En este trabajo se propone implementar y desarrollar análisis gramaticales con cierto grado de profundidad, con el propósito de incursionar y explorar la posibilidad de programar e implementar sistemas de análisis y que estén disponibles para proyectos futuros. Se propone utilizar el uso de gramáticas difusas, debido a que en una cadena de ADN una determinada función no siempre es exactamente la misma. Esto nos da la posibilidad de que dos cadenas de ADN tengan un grado de pertenencia alto, intermedio o bajo, lo que permitiría establecer que tan parecidas son dos o más cadenas de ADN. Además, el uso de la teoría difusa permite analizar cadenas de ADN desde un contexto más relajado, situación que no sucede con otro tipo de análisis informáticos que se consideran duros y sin posibilidad a variaciones o cambios.

Este trabajo tiene sus bases en una investigación previa realizada por el Dr. Herón Molina Lozano, donde su propósito principal es hacer el análisis de las cadenas de ADN de tres diferentes organismos (el pollo, el ratón y el hombre), con el objeto de encontrar las semejanzas que existen entre cada cadena de ADN, empleando lógica difusa para el desarrollo de su investigación.

A partir de esta investigación se obtienen los algoritmos de lógica difusa que se emplean en los programas de éste trabajo de tesis, enfocando el análisis a las cadenas de ADN para detectar cáncer de Colon en el cromosoma 18p del hombre.

Diagrama del Planteamiento del Problema.

El siguiente diagrama (figura I) muestra el método que se siguió para el desarrollo del análisis del ADN. Se observa que en primer lugar es necesario obtener de la base de datos de la CNIB los archivos con los cuales se comenzará el análisis.

Debido a que existen diferentes tipos de formatos (página de la CNIB), como por ejemplo: GenBank, FASTA, formato para la base de datos Blast, Entrez, Sequin, LocusLink, es recomendable trabajar con un solo tipo de formato. Específicamente se seleccionó el formato GenBank ya que es un formato que contiene información relacionada a las proteínas. En este formato se da información que ubica el inicio y final de una proteína, la información está representada en forma de nucleótidos y es necesario

UPIITA - INGENIERÍA BIÓNICA III



preprocesar la información debido a que se necesita quitar texto datos numéricos y espacios en blanco. Esto se logra utilizando algún lenguaje de programación que maneje cadenas de texto, como lo son: Traductor Perl, Lenguaje C, Matlab o Java. Una vez que se ha ubicado la cadena de ADN con cáncer que se va estudiar se aplica el método de consenso y alineación para ubicar la sección de ADN la que va a servir para hacer la gramática difusa. A continuación dicha gramática se implementa en un programa en Java. Con este programa se puede analizar la cadena de ADN que pudiera ser cancerígena. El programa crea un archivo de texto con la cadena de ADN analizada y posteriormente dicho archivo se abre en Matlab y se analiza gráficamente. Finalmente, a partir de esta información tiene la conclusión si la cadena utilizada tiene o no cáncer.

UPIITA - INGENIERÍA BIÓNICA IV

ANALISIS DEL ADN POR MEDIO DEL USO DE LOGICA DIFUSA

V

CAPÍTULO 1

ANTECEDENTES

UPIITA - INGENIERÍA BIÓNICA 1



1.1 Cáncer

La palabra Cáncer es derivada de una palabra en latín que significa cangrejo, este término describe la capacidad de extensión de los tumores malignos (forma abigarrada, con ramificaciones, se adhiere a todo lo que agarra con obstinación, similar a un cangrejo marino), es decir, son masas de tejido constituido por células que proliferan con autonomía crecen y se multiplican desordenadamente. En el área médica, el cáncer es el conjunto de síntomas que sirven para su pronóstico y el tratamiento es diferente dependiendo de la localización anatómica en la que se encuentre y del tipo celular o histológico del que proceda, principalmente.

El cáncer surge cuando las células de alguna parte del cuerpo comienzan a crecer sin control. Las células normales del cuerpo crecen, se dividen y mueren en una forma ordenada. Durante los primeros años de vida de una persona, las células normales se dividen con más rapidez hasta que la persona alcanza la edad adulta. Posteriormente, las células normales de la mayoría de los tejidos sólo se dividen para reemplazar las células desgastadas o moribundas y para reparar las lesiones. Debido a que las células cancerosas continúan creciendo y dividiéndose, son diferentes de las células normales. En lugar de morir, viven más tiempo que las células normales y continúan formando nuevas células anormales. La figura 1.1 muestra la división de la célula normal y división de células cancerosas.

Figura. 1.1 Cuando las células normales se lesionan o envejecen, mueren por apoptosis, pero las células cancerosas evitan la apoptosis.

El cáncer es la segunda causa principal de muerte después de las enfermedades cardiacas. Sin embargo, las muertes por enfermedades cardiovasculares están disminuyendo, mientras que las muertes por cáncer están aumentando.

Se estima que a lo largo del siglo XXI, el cáncer sea la primera causa de muerte en los países desarrollados. Y a pesar de esto, se ha producido un aumento en la supervivencia de los pacientes con cáncer gracias a los avances tecnológicos para la detección oportuna de esta enfermedad (Gardner, 2003).

1.1.1 Características del cáncer

Las características que presenta el cáncer se pueden engloba de la siguiente forma:

1. Todas las células dañadas proceden de una célula original, la cual sufre una

mutación, por esto se dice que son monoclonales.

2



2. Son capaces de invadir las estructuras próximas y/o lejanas y desarrollar nuevos puntos de desarrollo del cáncer, a esta característica se le llama metástasis.

3. Las células nuevas presentan diferencias, estas células son de procedencia, es decir, no son iguales, por esto se les denomina células anaplásicas.

4. Crecen rápidamente y repercuten negativamente sobre el organismo del paciente.

1.1.2 Clasificación del cáncer.

La rama de la medicina relacionada con el diagnóstico y tratamiento del cáncer se denomina oncología; el cáncer puede dividirse en tumores benignos y malignos, y estos a su vez tienen dos componentes básicos en su estructura:

1. Las células neoplásicas proliferantes que constituyen el parénquima. 2. Su estroma de sostén, constituido por tejido conectivo y vasos sanguíneos.

Los tumores se pueden clasificar, básicamente, de acuerdo a tres características: a) por su comportamiento parenquimatoso, por ejemplo, tumores benignos y tumores malignos; b) por su lugar de origen, se hace referencia al nombre el cáncer de acuerdo al lugar (órgano) de origen que este haya tenido, por ejemplo, podemos citar los siguientes, cáncer de pulmón, de mama, de próstata, de colon, de recto; c) por el tejido o célula del que proceden; los tejidos tienen, además de las células, gran número de sustancias que las rodean y que contribuyen a las características de cada tejido.

Por ejemplo, el cuerpo está formado por células que se encuentran en distintos tejidos. Todas estas sustancias se denominan espacio extracelular.

Los Tumores benignos se caracterizan por lo siguiente: su nombre acaba en el sufijo -oma y según el origen del tejido del que procedan pueden ser: fibroma (tejido conjuntivo fibroso), mixoma (tejido conjuntivo laxo), lipoma (tejido adiposo), condroma (tejido cartilaginoso), osteoma (tejido óseo), hemangioma o angioma (tejido vascular), linfagioma (tejido linfático), meningioma (meninges), tumor glómico (tejido nervioso de sostén), leiomioma (tejido muscular liso), rabdomioma (tejido muscular estriado), papiloma (tejido epitelial formando papilas), adenoma (tejido glandular), teratoma (células totipotenciales), nevus (melanocitos).

En el caso de tumores malignos, encontramos los siguientes grupos:

Los carcinomas son, con mucha diferencia, los más frecuentes. Los carcinomas se originan en los epitelios, que son los tejidos que revisten las cavidades y los conductos del cuerpo, además de la piel. También son epitelios las glándulas, que se encargan de segregar sustancias.

Si los carcinomas se parecen, a la piel, se les denomina epidermoides, que son los más frecuentes en la boca, la laringe, la faringe, el cuello del útero, entre otros sitios (figura 1.2), estos se nombran a partir de la palabra carcinoma, seguido del tejido donde se encuentra, ejemplo: carcinoma epidermoide o escamoso, carcinoma basocelular.

Si los carcinomas se parecen a glándulas, se les denomina "adenocarcinomas". Estos tumores representan la gran mayoría de los tumores de mama, próstata, estómago,


3


riñón, colon y recto, por ejemplo, cistoadenocarcinoma.

El epitelio de las vías urinarias es diferente al glandular y a la piel y se llama epitelio de transición. Los carcinomas que proceden de este epitelio, más frecuentes en la vejiga, se denominan carcinomas transicionales.

Figura 1.2 Si los carcinomas se parecen a la piel, se les denomina epidermoides, que son los más frecuentes en

la boca, la laringe, la faringe, el cuello del útero, entre otros sitios.

En segundo lugar, nos encontramos a los sarcomas (del griego sarcos, "carnoso"), que proceden del tejido conjuntivo y sus derivados. Como el tejido conjuntivo se encuentra en todo el cuerpo, estos tumores pueden aparecer en cualquier parte, aunque son poco frecuentes. Como ejemplos se pueden citar los sarcomas de hueso y los miosarcomas (procedentes del músculo), mesotelioma (tejido pleural), figura. 1.3.

Figura 1.3 Sarcoma de tejido suave.

Otra variedad de tumores son los linfomas, que se derivan de los linfocitos y suelen surgir en los ganglios linfáticos. Las leucemias se producen en la médula ósea y comparten algunas características con los linfomas.

Los melanomas son tumores que suelen surgir en la piel (aunque también en otras localizaciones), pero que son muy distintos de los carcinomas, tanto al microscopio como en su comportamiento, por lo que se les clasifica por separado.



Los tumores del sistema nervioso central se clasifican también por separado. La mayoría de ellos pertenecen al grupo de los gliomas, aunque, a pesar de ser poco frecuentes, la variedad es muy amplia.

Los tumores que se parecen mucho a su tejido original, se dice que son muy diferenciados y cuanto menos se parecen menos diferenciados son. De vez en cuando, aparecen tumores que no se parecen a ningún tejido, porque son muy poco diferenciados. Suelen ser agresivos, pero esto no es universal.

En la mayoría de los tumores, para definir su extensión, se utiliza una clasificación denominada TNM. En este tipo de clasificación, se asigna un número a la T de acuerdo con el tamaño o la invasión del tumor primario (en el sitio original), se asigna otro número a la N de acuerdo con los ganglios linfáticos afectados y otro número a la M según si hay metástasis a distancia. A cada combinación de números para T, N y M se le asigna un grado de extensión global que se relaciona con la probabilidad de curación. Este grado de extensión se llama estadio, que suele ser de la clasificación TNM, aunque hay tumores en que se usan otras clasificaciones.

1.1.3 Origen del cáncer.

Las células cancerosas son células normales que en un momento determinado cambian genéticamente -se modifica su ADN- a causa de algún "agente carcinógeno" siempre que sean "susceptibles", es decir, que se trate de células propensas a contraer el cáncer.

Las causas específicas que ocasionan el surgimiento de muchos de los tipos de cáncer conocidos, aun son un misterio, sin embargo, existen factores de riesgo que nos permiten comprender lo propensa que esta una persona a contraer algún tipo de cáncer. El primer factor de riesgo conocido como tal, fue la ceniza de chimenea, dicho estudio fue realizado en 1775 por el cirujano londinense Sir Percival Pott,

Dentro de los factores de riesgo podemos encontrar algunos como la edad, el sexo y factores genéticos, hechos que están más allá de la medicina actual. Por otro lado, también encontramos factores ocupacionales, ambientales o de estilo de vida de las personas, los cuales pueden ser eliminados, minimizados o controlados, dentro de estos tenemos los siguientes:

1. Factores ocupacionales y ambientales. La exposición a radiación, radón, solventes, pesticidas, asbesto y muchas sustancias industriales incrementan el riesgo a padecer ciertos tipos de cáncer.

2. Tabaco: el uso cotidiano del tabaco, ya sea en forma de cigarrillos o en otras formas, es el mayor factor de riesgo para contraer algunos tipos de cáncer, como el de pulmón, boca, garganta, laringe, páncreas y vejiga. Según estadísticas del Instituto Nacional contra el cáncer de E.U.A., alrededor del 30% de las muertes por esta enfermedad están relacionadas con el uso de tabaco.

3. Alcohol: el uso de alcohol (bebidas alcohólicas), a largo plazo incrementa el riesgo de cáncer de hígado, páncreas y laringe.

4. Nutrición: las dietas altas en grasa y la obesidad parecen incrementar el riesgo de contraer cáncer de mama y de útero. Una dieta alta en comidas fermentadas ha sido asociado con el aumento de cáncer de estomago e intestinos. Las dietas bajas en fibras son un factor de riesgo para padecer cáncer de colon.

5. Exposición solar: la exposición los rayos ultravioleta del sol parecen aumentar el riesgo de cáncer de piel y melanoma maligno.

5



6. Actividad sexual: la promiscuidad y/o las enfermedades de transmisión sexual aumenta el riesgo de padecer cáncer cervical en mujeres y cáncer de pene en hombres.

7. Las cinco principales causas de muerte por cáncer por orden de importancia tanto en hombres como en mujeres son: cáncer de pulmón, cáncer colorrectal, cáncer de mama, cáncer de próstata y cáncer de páncreas.

1.2 Genética

1.2.1 Estudio de la Genética.

La genética es el estudio de la herencia en todas sus manifestaciones, desde la distribución de los caracteres humanos en un árbol genealógico hasta la bioquímica del material genético, el ácido desoxirribonucleico (ADN). Se basa en las leyes y principios que gobiernan las semejanzas y diferencias entre los individuos de una misma especie.

La genética como la conocemos hoy, realiza su estudio basada en la “teoría de la herencia por genes”, área de estudio que se inició con las investigaciones realizadas por Gregor Johann Mendel (1822-1884), y es llamado apropiadamente el “Padre de la Genética” (Gadner, 2003). Sus experimentos con chícharos comestibles, sentaron los precedentes de la genética, estudios que se realizaron en el limitado espacio del jardín de un monasterio mientras realizaba su labor como maestro de escuela sustituto. Las conclusiones a las que llegó a partir de sus excelentes investigaciones constituyen el fundamento de la ciencia actual de la genética. Mendel no fue el único en realizar experimentos de hibridación, pero sí fue el primero en considerar los resultados en términos de caracteres únicos.

Hoy en día, la genética es una ciencia madura y dinámica, claramente se encuentra en su cúspide, y es reconocida como el centro mismo de la biología moderna. Como tal, la ciencia de la genética, erigida sobre los cimientos desarrollados por Mendel, debe su dimensión actual a las contribuciones de un gran número de científicos e institutos de biología y medicina apoyadas por las universidades: así como los gobiernos de todo el mundo. Además, las técnicas experimentales de la biología molecular están produciendo grandes volúmenes de datos.

1.3 Bioinformática

Bioinformática es la aplicación de las herramientas computacionales y técnicas para administrar y analizar datos biológicos. En particular la bioinformática es algunas veces el término utilizado cuando se refiere a los datos y las técnicas utilizadas en análisis y secuencias a gran escala de genomas completos, tales como Homo sapiens, Arabidopsis, Mus musculus y Gallus gallus, entre otros (Tisdalt, 2001).

Además la bioinformática es una disciplina emergente que utiliza la tecnología de la información para organizar, analizar y distribuir información biológica con la finalidad de responder preguntas complejas de la Biología. Es un área de investigación multidisciplinaria; es la unión, principalmente, entre dos ciencias: Biología y Computación. Según el Centro Nacional para la Información Biotecnológica (CNIB), en Inglés National Center for Biotechnology Information y sus siglas son NCBI, la bioinformática es el campo de la ciencia en el cual confluyen varias disciplinas tales como: Biología, Computación y Tecnología de la Información. El fin último de este campo es facilitar el descubrimiento de nuevas ideas biológicas, así como crear perspectivas globales a partir de las cuales se pueden discernir principios unificadores en la Biología. Al comienzo de la “revolución

6



genómica”, el concepto de bioinformática se refería sólo a la creación y mantenimiento de bases de datos, donde se almacenaba la información genética, tales como la secuencias de nucleótidos y aminoácidos. El desarrollo de este tipo de bases de datos no solamente significaba el diseño de la misma, sino también el desarrollo de interfaces complejas donde los investigadores pudieran acceder los datos existentes y suministrar o realizar búsqueda de datos.

1.3.1 Antecedentes de Bioinformática.

Actualmente en México se está realizando investigación relacionada con el genoma humano, específicamente el Instituto Nacional de Medicina Genómica, se encarga de realizar estudios relacionados con el genoma del mexicano. Se tiene una cantidad de datos de código de ADN que necesita ser analizado por medio de técnicas novedosas, una de ellas es la bioinformática. La bioinformática es el área encargada de realizar el procesamiento de la información genética, no sólo a nivel bases de datos, si no también intenta explorar diferentes métodos computacionales para analizar la gran cantidad de datos genéticos que existen hoy en día. Esto ayudará al medico a detectar de una manera más rápida y así prevenir el cáncer.

Desde hace varios años y en diversos países, se han realizado algunas investigaciones en la detección de tumores y alineamiento de secuencias de ADN, de las cuales se mencionan las siguientes:

En Colombia se ha trabajado en un procesador para el alineamiento global de secuencias de ADN. El algoritmo implementado en hardware es el algoritmo de Needleman y Wunsch, el cual se basa en usar programación dinámica. El procesador fue diseñado usando captura esquemática y descripción estructural en VHDL. Los resultados de las simulaciones muestran que el procesador de ADN, presenta un buen desempeño usando poca área del C.I. En este caso, para el alineamiento óptimo de dos secuencias de ADN, cada una de 7 bases se utilizan 1674 ALU’s, 54 registros y tarda 43,044 ns. Teniendo en cuenta los resultados, el procesador diseñado puede ser usado para estudiar los árboles genealógicos y procesar información para otras aplicaciones genéticas (Lozano,1996 ).

Se ha desarrollado un clasificador de tumor con el gen señalador usando la selección de características y el método de agrupamiento c-medias difusas, con el cual se agrupan datos de pequeñas matrices.

Usando pequeñas matrices de ADN, se han desarrollado dos modelos nuevos para clasificación de tumores y pronóstico de meta genes. Primero, la expresión de genes son resumidos por selección óptima identidad por medio de una red neuronal de mapas auto-organizados (Self-Organizing Maps-SOM), y a continuaciones realiza la clasificación de muestras del tumor por medio del algoritmo de agrupamiento c-medias difusas. Entonces el pronóstico que señala genes se logra por medio de la selección de característica manual (visualizar el SOM componente de media de / añadido peso) o la selección de característica automática (por el discriminante lineal de Fisher).

Los resultados obtenidos en los modelos propuestos pueden ser evaluados en cuatro estudios: 1) la leucemia; 2) los tumores cerebrales de cáncer; 3) tumores de colon; 4) líneas de célula cancerígena de NCL. Los modelos dieron un indicador de la clase con rangos de error notablemente reducido, comparado con otros enfoques de pronóstico de clase y la importancia de la selección de característica sobre el análisis de datos de pequeñas matrices.



Los modelos asocian genes señaladores con el potencial predictivo, a menudo mejor que otros métodos disponibles en la literatura. Los modelos son potencialmente útiles para los diagnósticos médicos y pueden revelar algunas perspicacias en la clasificación de cáncer. Adicionalmente, existen dos limitaciones en la clasificación de tumor de los datos de pequeñas matrices relacionadas con la biología que subyace con los datos, en relación tanto con el tamaño de clase de los datos, como la estructura interna de clases. Estas limitaciones no son específicas para la clasificación que usaron de modelos (Wang, 2003).

1.4 Lógica Difusa

La lógica difusa es la rama de la inteligencia artificial que se funda en el concepto "grado de pertenencia”, lo cual permite manejar información vaga o de difícil especificación, si quisiéramos hacer cambiar con esta información el funcionamiento o el estado de un sistema especifico. Con la lógica difusa es posible definir un sistema por medio de reglas de 'sentido común' las cuales se refieren a cantidades indefinidas.

Las reglas involucradas en un sistema difuso o borroso, pueden ser aprendidas con sistemas adaptativos (como por ejemplo, redes neuronales artificiales) que aprenden al ' observar ' como operan las personas los dispositivos reales, o estas reglas pueden también ser formuladas por una persona experta. En general la lógica difusa se aplica tanto a sistemas de control como para modelar cualquier sistema continuo de ingeniería, física, biología o economía.

La lógica difusa es entonces definida como un sistema matemático que modela funciones no lineales, que convierte entradas en salidas acordes con los planteamientos lógicos que usan el razonamiento aproximado.

Se fundamenta en los denominados conjuntos difusos y un sistema de inferencia difuso

basado en reglas de la forma " SI ....... ENTONCES ....... ", donde los valores lingüísticos de

la premisa y la consecuencia están definidos por conjuntos difusos, es así como las reglas siempre convierten un conjunto difuso en otro.

Dentro del uso de la lógica difusa, existen varias herramientas para realizar los procedimientos, uno de ellos son las gramáticas difusas, las cuales se definirán a continuación.

1.4.1 Conjunto Difuso.

Si X es una colección de objetos denotados genéricamente por x, el conjunto difuso A en X es definido como un conjunto de pares ordenados:

A = {(X,UA(X))|X E X}

donde uA(x) es llamado función de pertenencia (ó MF) del conjunto difuso A. La MF

mapea cada elemento de x a un grado de pertenencia entre 0 y 1.

El análisis se va a realizar por medio del uso de gramáticas difusas, por lo tanto se

definirá el concepto de gramática, y de igual manera se definirán los términos necesarios para un mejor entendimiento de gramáticas difusas.


8


CAPÍTULO 2

MARCO TEÓRICO



2.1 Estructura del ADN.

Cada organismo vivo tiene un genoma, único y característico, todos los organismos vivos contienen ácido desoxirribonucleico (ADN) y de ácido ribonucleico (ARN) en sus células. El contenido total de ADN de un organismo se conoce como su genoma y se forma a partir de cadenas con cuatro tipos de moléculas nitrogenadas llamadas bases: las cuales son los bloques de construcción básicos de los seres vivos. Estos bloques son las moléculas de: Adenina (A), Citosina (C), Guanina (G) y Timina (T). Básicamente la molécula de adenina es el complemento de la timina, por lo que forman un par base (pb), otro par base se forma a partir de la unión entre la citosina con la guanina, cada uno de estos pares de bases se unen por medio de ligas de hidrógeno. El ADN se forma a partir de dos cadenas de pares de bases. Al unirse estas dos cadenas, forman dos cadenas de doble hélice que están orientadas en sentidos opuestos la alineación de las bases a lo largo de la cadena de ADN se le da el nombre de secuencia. Cuando las células se dividen, la totalidad del ADN de la célula se copia, esto se realiza mediante la separación de las cadenas, debido a que las dos cadenas del ADN son complementarias, al separarse se producen dos secuencias de ADN duplicadas, (Brown, 1999; Barahona, 2000; Soberón-Mainero, 2002; Gardner, 2003).

Además de las 4 bases antes mencionadas, el ADN contiene moléculas de azúcar llamadas 2-desoxirribosa, y enlaces fosfodiéster junto con las cuales forman polímeros o polinucleótidos de ADN. El nucleótido del ARN es una molécula de azúcar llamada ribosa, además de que la timina es reemplazada por una base llamada Uracilo (U) (Tamarin, 1996).

La información contenida en un gen es leída por proteínas, el tamaño de una proteína es variable, y puede ser desde algunos cientos de pares de bases hasta varios millones de pares de bases. El gen es aquella parte del genoma que es necesario para crear proteínas, es decir, los genes son secuencias de nucleótidos que codifican información para crear proteínas. La expresión de un gen es un proceso de reacciones bioquímicas que se conoce como expresión genética. En los eucariontes este proceso se divide, en general, en dos etapas, translación y trascripción: la primera etapa produce una copia de ARN del gen, y la segunda etapa resulta en una síntesis de una proteína cuya secuencia de amino ácido se determina por medio del código genético, por medio de la secuencia del nucleótido de la trascripción de ARN.

El siguiente diagrama muestra el proceso por medio del cual a partir de una cadena de ADN se obtiene una cadena de proteínas, se observa que, efectivamente, el flujo de la información va de ADN a la proteína, a este proceso también se le llama dogma de la genética:

De acuerdo con Brown (1999) una copia completa de genoma debe de ser hecha cada vez que una célula se divide, la replicación del ADN debe ser exacta, a fin de que no se introduzcan mutaciones en las copias del genoma. Algunas mutaciones, sin embargo, ocurren, debido a que se realizó algún error al momento de la replicación o a efectos químicos y físicos de los mutágenos que alteran directamente la estructura química del ADN. Existen enzimas de reparación del ADN que corrigen muchos de estos errores; aquellos que escapan del proceso de reparación se convierten en características del linaje descendiente del genoma original.



Por ejemplo, se muestra el inicio de la secuencia del código del primer cromosoma del hombre (archivo NT_077402.1 del CNIB), y se puede observar que se repite el patrón TAACCC:

Durante la expresión genética se obtiene la síntesis de las proteínas, el proceso se divide en dos etapas: trascripción y traducción. En la expresión genética tanto los exones como los intrones son transcritos para formar el ácido ribonucleico pre–mensajero (preARNm). El proceso de unión y formación del ARN elimina los intrones y produce moléculas de ácido ribonucleico mensajero (ARNm) maduro que codifica a un polipéptido. Los exones se definen como secuencias que están representadas en el ARNm. Además de los genes, el ADN está compuesto por regiones reguladoras y regiones intergénicas. Al igual que los intrones, no se tiene una idea clara de la función que tienen las regiones intergénicas. La relevancia que se tendría con un estudio de este tipo es descubrir si, efectivamente, las regiones intergénicas tienen alguna función dentro del proceso de codificación de ADN a proteína, o si no se tiene definitivamente ninguna función, y no son más que un separador de regiones de ADN codificante.

La parte del gen que se traslada en proteína se le llama Marco de Lectura Abierto (MLA). Cada tripleta de los nucleótidos en el MLA es un codón que especifica un amino ácido en concordancia con las reglas del código genético. El MLA se lee con la dirección 5’ a 3’ a lo largo del ARNm, comienza con un codón inicial y finaliza con un codón terminante. La parte del ARNm antes del MLA se le llama segmento líder y aquella parte del ARNm que le sigue al MLA se denomina segmento trailer.

Algunos otros segmentos de secuencias que típicamente se encuentran en los genes son: pseudogenes, que son una copia no funcional de un gen. Estos son usualmente aquellos que han mutado, y su información biológica no se puede leer. También existen las secuencias del genoma ampliamente repetidas, estas secuencias se encuentran en muchos lugares del genoma, y hay principalmente cuatro tipos llamados Elementos Nucleares Ampliamente Entremezclados (ENAE), Elementos Nucleares Cortos Entremezclados (ENCE), Elementos de Repeticiones Terminales Amplias (RTA) y transposones de ADN; microsatélites, que son secuencias en los que motifs cortos se repiten en secuencia. Muchos microsatélites son polimórficos, por ejemplo, un microsatélite visto como un motif con las bases GA repetido dieciséis veces da la siguiente secuencia:

Finalmente, una gran parte del genoma humano esta hecho de ADN no repetitivo no génico que no se sabe cuál es su función y permanece sin significado.

Muchos genes de los eucariontes son discontinuos y se dividen en exones e intrones. Los intrones se remueven de la trascripción primaria por medio de la unión de los exones para producir las moléculas de ARN funcional. Básicamente los intrones se encuentran entre los exones. Como se mencionó, los exones son partes de las cadenas de ADN que

www.ncbi.nih.gov/


11

http://www.ncbi.nih.gov/


contienen la secuencia codificante para crear las proteínas y los intrones son secuencias no codificantes y aún se desconoce su verdadera utilidad.

La biología divide a los seres vivos en dos tipos de organismos: eucariontes, cuyas células contienen una membrana, y que incluye núcleo y organelos tales como las mitocondrias, y en el caso de las células de las plantas, cloroplastos. Los eucariontes incluyen animales, plantas y hongos; y los procariontes, cuyas células les faltan ciertos elementos internos de la célula, como el núcleo bien definido.

Los eucariontes y procariontes tienen diferentes tipos de genomas, por lo que se deben de considerar por separado. En este trabajo se consideraron solo las características genómicas de los eucariontes.

2.2 Genoma de eucariontes

Las células humanas son eucariontes típicos y el genoma humano, es por lo tanto, un buen modelo de los eucariontes en general. Todos los genomas nucleares de los eucariontes que se han estudiado hasta ahora, como la versión del genoma humano, contienen pequeños genomas mitocondriales, usualmente circulares.

A pesar de que la estructura física de todos los genomas nucleares de los eucariontes son similares, el tamaño del genoma es diferente en todos los organismos, los genomas de los eucariontes más pequeños son de alrededor de 10 Mpb (millones de pares de bases), y el más grande de 100,000 Mpb. Existe cierta coincidencia entre la extensión del genoma y la complejidad del organismo. Los eucariontes más complejos tienen un genoma más grande para acomodar los genes extras.

Por muchos años, la falta de una correlación precisa entre la complejidad de un organismo y el tamaño de su genoma se ha visto como un rompecabezas, y se le ha dado el nombre de la llamada paradoja del valor “C”. De hecho la respuesta es simple: el espacio guardado en el genoma de organismos menos complejos se debe a que los genes empaquetados están más cercanos. Los genes más simples tienen menos intrones y el espacio entre los genes es relativamente más corto. Al mismo tiempo, el número de secuencias que se repiten es mucho mayor en los organismos más complejos.

2.3 Extracción del ADN.

En general la extracción de ADN de cualquier organismo, consiste en remover la envoltura celular (pared celular y membrana nuclear) para liberar el ADN, mantener integra la cadena y separarla de “impurezas” como son las separación de todos los demás componentes como proteínas, lípidos, restos de pared y ARN.

Los pasos esenciales para la extracción son: 1.- Romper o digerir paredes celulares, moliendo el tejido 2.- Eliminar membranas celulares. Empleando detergentes como SDS y CTAB 3.- Proteger ADN de nucleasas endógenas. Empleando detergentes, EDTA

(agente quelante atrapa iones Mg un cofactor de endonucleasas) 4.- Evitar degradación y rompimiento de ADN.

Para realizar la extracción de ADN existen varias técnicas, en particular la técnica del PCR, es una técnica muy eficiente que tiene gran aceptación entre la comunidad científica.

La técnica del PCR (reacción en cadena de la polimerasa), permite la síntesis de grandes cantidades de un fragmento de ADN, sin clonarlo. Es una tecnología que se utiliza para sintetizar in Vitro fragmentos específicos de ADN con la finalidad de detectar una



secuencia o gen de interés en el genoma de un individuo. Tiene varios requerimientos, entre los cuales es indispensable un molde de ADN, moléculas iniciadoras llamadas “primers”, una enzima ADN polimerasa resistente a fluctuaciones de temperatura, una mezcla de desoxirribonucleótidos trifosfato (dATP, dCTP, dGTP y dTTP), un amortiguador apropiado y un equipo llamado “termociclador” que tiene la capacidad de cambiar las temperaturas dependiendo del ciclaje programado.

En esta técnica existen tres pasos fundamentalmente, los cuales son:

Desnaturalización: primero, el ADN que se quiere amplificar se desnaturaliza en cadenas sencillas. Este ADN no necesita estar ni purificado ni clonado, y puede provenir de distintas fuentes, incluyendo ADN genómico, muestras forenses como sangres seca o semen, muestras almacenadas o registros médicos, pelos, restos momificados, y fósiles. EL ADN de doble cadena se desnaturaliza por calor (a unos 90° C) hasta que se disocia en cadenas sencillas (normalmente unos 5 minutos).

Hibridación: los cebadores hibridan al ADN de cadena sencilla. Estos cebadores son oligonucleótidos sintéticos que hibridan con las secuencias flanqueantes del segmento a amplificar. Generalmente se utilizan dos cebadores diferentes. Cada uno de ellos tiene la secuencia complementaria a una de las dos cadenas del ADN. Los cebadores se alinean con sus extremos 3’ encarados ya que hibridan a cadenas opuestas. La utilización de cebadores sintéticos significa que se debe tener alguna información de la secuencia de ADN a amplificar.

Extensión: a la mezcla de reacción se le añade una ADN polimerasa resistente al calor (la polimerasa Taq). La polimerasa extiende a los cebadores en dirección 5’ – 3’, utilizando como molde al ADN de cadena sencilla unido al cebador. El producto es una molécula de ADN de doble cadena con los cebadores incorporados en el producto final.

Una vez que se termina este proceso, se lleva a cabo la electroforesis, que es un método en el cual se aprovecha el hecho de que las proteínas presentan una carga eléctrica neta si se encuentran en un medio que tenga un pH diferente al de su punto isoeléctrico y por eso tienen la propiedad de desplazarse cuando se someten a un campo eléctrico. La velocidad de migración es proporcional a la relación entre las cargas de la proteína y su masa. Cuanto mayor carga por unidad de masa más rápida será la migración. Empleando geles de sílice o de acetato de celulosa y aplicando las proteínas en una zona estrecha en torno a los electrodos se pueden determinar diferencias de carga neta (carga total/masa) entre proteínas

En función del estado de las proteínas (nativo o desnaturalizado) a lo largo del proceso electroforético éstas se clasifican en electroforesis nativas o desnaturalizantes.

1. Una electroforesis desnaturalizante, la más común, es la que somete a las proteínas a migración por cargas, asegurando la completa desnaturalización (pérdida de la estructura tridimensional). En esta situación la migración es proporcional a la carga y al tamaño de la molécula pero no a su forma. El agente desnaturalizante más empleado es el sodio decilsulfato o SDS, un detergente.

2. La electroforesis nativa es la que somete a las proteínas a migración sin desnaturalización. En esta situación las proteínas migran en función de su carga, de su tamaño y de su forma. Además se mantienen en ciertos casos las interacciones entre subunidades y entre proteínas, separándose los complejos. Los sistemas tampón empleados en estos caso son: tris-glicina (rango de pH 8.3 a 9.5), tris-borato (rango de pH 7.0 a 8.5) y tris-acetato (rango de pH 7.2 a 8.5).


13


Después de esto se pasa a la secuenciación, este proceso se ilustra en la figura 2.1.

Figura 2.1 Pasos que se siguen para realizar la secuenciación.

El resultado de la electroforesis, es pasado por un láser que detecta los nucleótidos gracias a cuatro fluorocromos, con los que se puede combinar el resultado de las cuatro reacciones y aplicar la mezcla a un mismo pocillo de electroforesis.

El láser no solo detecta los cuatro colores al acabar la separación, sino que también va midiendo la presencia de las bandas.

Por último se crea un registro en una base computacional (Colegio de Postgrados, Montecillo).

2.4 Genética y Cáncer.

de datos por medio de un equipo

En la actualidad se reconoce al cáncer como una anomalía genética en el ámbito celular, que implica la mutación de un pequeño número de genes. Muchos de estos genes actúan normalmente suprimiendo o estimulando la continuidad del ciclo celular, y la pérdida o inactivación de estos genes da lugar a una división celular descontrolada y a la formación de tumores. Los factores ambientales y los virus juegan un papel importante en las alteraciones genéticas que son necesarias para transformar células normales en cancerosas.

Aunque a menudo se consideró como una sola enfermedad, el cáncer es realmente una serie compleja de enfermedades que afecta a un amplio rango de células y tejidos. Las mutaciones que alteran el genoma o la expresión génica se consideran como un rasgo común de todos los cánceres. En algunos casos, tales mutaciones inciden en la línea germinal y se heredan. Muy a menudo las mutaciones aparecen en las células somáticas y no pasan a la generación siguiente a través de las células germinales. A veces, una



mutación hereditaria tiene que venir acompañada por una mutación somática en el locus homólogo, dando lugar a homocigosis (Klug, 1999).

Las alteraciones genómicas a gran escala son un rasgo común de cáncer; la mayoría de los tumores en la especie humana se caracterizan por cambios cromosómicos visibles. Algunos de estos cambios son tan característicos que pueden utilizarse para diagnosticar y clasificar la enfermedad y para realizar una predicción precisa acerca de la gravedad y del curso de la enfermedad.

Las formas de cáncer familiar se han conocido hace unos doscientos años. En muchos de estos casos, se pueden establecer patrones de herencia no muy bien definidos. Sin embargo, en un pequeño número de casos se puede establecer un patrón de herencia mendeliano, dominante o recesivo, lo que indica la naturaleza hereditaria del cáncer. Es necesario considerar qué propiedades de las células cancerosas las distinguen de las células normales y qué genes controlan estas propiedades. Las células cancerosas tienen dos propiedades en común: a) una multiplicación incontrolada y; b) la capacidad para extenderse o producir metástasis desde su localización original a otras localizaciones corporales.

La metástasis de las células cancerosas está controlada por productos génicos que se localizan en la superficie celular y la genética de la metástasis está relacionada con la compresión de cómo las células interactúan con la matriz extracelular y con otras células mediante las moléculas de la superficie celular (Klug, 1999).

2.4.1 El ciclo celular.

El ciclo celular progresa desde un periodo de replicación del ADN cromosómico (fase S), hasta la segregación de los cromosomas en dos núcleos en la mitosis (fase M). Intercalados entre estos dos estadios hay dos estados de reposo, el G1 y G2. Juntos, G1, S, G2, constituyen la interfase del ciclo celular (figura 2.2).

La fase G1 comienza después de la mitosis; en este momento se produce la síntesis de muchos elementos citoplásmicos, como ribosomas, enzimas y orgánulos derivados de membranas. En la fase S tiene lugar la replicación del ADN, produciéndose una copia duplicada de cada cromosoma. Luego, hay un segundo periodo de crecimiento y síntesis, denominado G2, como preludio de la mitosis.

Debido a que la mitosis se produce rápidamente, normalmente en menos de una hora, la célula se encuentra la mayor parte del ciclo celular en interfase. Sin embargo, la duración del ciclo celular (el periodo entre dos divisiones mitóticas) puede variar ampliamente entre células en el ciclo biológico de un organismo y entre tipos celulares diferentes del mismo organismo.



Figura 2.2 El ciclo celular está controlado en dos y posiblemente en más puntos de control, uno es la transición G2/M y otro al final de la fase G1, antes de entrar en la fase S. Estos puntos de control implican interacciones entre proteínas transitorias, llamadas ciclinas y quinasas, que añaden grupos fosfatos a las proteínas. La fosforilación de las proteínas diana disparan una cascada de sucesos que permiten el progreso a

través del ciclo celular.

2.4.2 El gen p53 y el ciclo celular.

La mutación p53 se encuentra en una amplia variedad de cánceres, como los cánceres de mama, pulmón, vejiga y colon.

Las células normales tienen bajos niveles de la proteína p53, pero el nivel se eleva mucho después de irradiar a las células con luz ultravioleta (UV). Las células irradiadas se detienen temporalmente en G1 para permitir la reparación de los daños en el ADN provocadas por la luz UV. Las células que carecen de la proteína funcional p53 son incapaces de detenerse en G1 después de la irradiación y pasan inmediatamente de G1 a S. Estas células no reparan los daños en el ADN ocasionados por UV; por ello, sufren una elevada tasa de mutación. Se ha llegado a la conclusión de que p53 controla el paso a través del ciclo celular para asegurar que el ADN dañado sea reparado antes de que la célula entre en la fase S debido a esto, al p53 se le denomina a menudo como el guardián del genoma (Klug, 1999).

Recientemente se ha demostrado que p53 tiene un papel en la muerte celular después de la irradiación UV. Después de la exposición de la luz UV, algunas células entran en una serie programada de pasos que conducen a la muerte celular o apoptosis. Este programa se efectúa bajo la dirección del gen p53, que mata a la célula irradiada en lugar de reparar su genoma dañado.

En células que carecen del gen funcional p53, la irradiación UV no se ve seguida de la apoptosis (Klug, 1999).

2.4.3 La propagación de las células cancerosas.

Una célula cancerosa metastásica puede propagarse a partir de un tumor primario entrando en el sistema circulatorio sanguíneo o linfático. Estas células son transportadas por la circulación hasta que se fijan en una red capilar. Normalmente, más del 99 por ciento de las células mueren; las células que sobreviven invaden los tejidos adyacentes de la red



capilar y comienzan a dividirse para formar un tumor secundario. Para alcanzar una nueva localización, las células tumorales pasan a través de la capa de células epiteliales que revisten el interior de la pared del capilar (o vaso linfático) y penetran en la matriz extracelular adyacente.

La matriz extracelular es una red de moléculas proteicas y carbohidratos que separan a los tejidos; actúa como soporte para el crecimiento de los tejidos e inhibe la migración celular. Para establecer un tumor secundario, las células metastásicas segregan enzimas que dirigen las proteínas de los cimientos membranosos, creando agujeros a través de los cuales pueden desplazarse. Las células hacen un túnel a través de la matriz, entran en un nuevo tejido y establecen un tumor secundario (Klug, 1999).

2.4.4 Modelo genético para cáncer de colon.

No obstante el pequeño número de casos en donde se ha estudiado en detalle, está claro que el cáncer es un proceso con múltiples pasos que dan lugar a una serie de alteraciones genéticas específicas. Ahora bien, en el estudio de tumores para el cáncer de colon, se conocen dos formas de contraerlo: a) es heredada de un modo autonómico dominante (conocida como poliposis adenomatosa familiar o FAP); b) que sea completamente espontánea, haciendo posible el estudio de la interacción entre factores genéticos y ambientales en la génesis del tumor.

Mediante el análisis de mutaciones en tumores en varios estadios, desde pequeños crecimientos benignos o adenomas, a través de estadios intermedios, hasta tumores malignos y metástasis tumorales, ha sido posible definir el número y la naturaleza de los pasos genéticos y moleculares implicados en la transformación de las células epiteliales intestinales normales en las células tumorales y desarrollar un modelo genético para el cáncer de colon. Este modelo se presenta en la figura 2.3, el primer rasgo de este modelo es que se requiere múltiples mutaciones. Se necesitan al menos cuatro mutaciones en genes concretos para que se produzcan crecimiento maligno. Si hay menos cambios, se produce crecimiento benigno o estadios intermedios en la forma del tumor. Segundo, basándose en el análisis de muchos tumores, el orden de las mutaciones sigue normalmente una secuencia predefinida (figura 2.3). Sin embargo, en último término, es la acumulación de un número crítico de mutaciones específicas lo que es más importante que el orden en el que se den (Klug, 1999).

Figura 2.3 Modelo para la producción del cáncer de colon en pasos sucesivos. El primer paso es la pérdida o inactivación del gen APC del cromosoma 5. En los casos familiares, se hereda un gen mutante APC. La

pérdida de ambos alelos da lugar a la formación de adenomas benignos. Mutaciones posteriores, que implican a genes en los cromosomas 12, 17 y 18 de las células de los adenomas benignos, pueden conducir a una

transformación maligna que dé lugar al cáncer de colon. Aunque las mutaciones en los cromosomas 12, 17 y



18 ocurren normalmente en estadios más tardíos que las mutaciones del cromosoma 5, la suma de los cambios es más importante que el orden en el que se dan.

2.4.5 Desarrollo de estadios de cáncer de colon.

La primera mutación en la secuencia ocurre en una célula epitelial normal y da lugar a la formación de uno o más tumores benignos. En los casos de FAP, una primera mutación es heredada y da lugar al desarrollo de docenas o cientos de adenomas benignos en el colon y en el recto. En los casos esporádicos, el suceso mutacional inicial tiene lugar en una sola célula y el adenoma resultante está formado por un clon de células, todas las células llevan la mutación. Esta primera mutación tiene lugar en el gen llamado APC, localizado en el brazo largo o “q” del cromosoma 5. No es necesario la pérdida del alelo correspondiente en la copia homologa del cromosoma 5 para la proliferación y formación del adenoma. El orden relativo de las mutaciones siguientes se muestra en la figura 2.3. Mutaciones en el oncogén ras pueden preceder o seguir a la pérdida de un segmento del cromosoma 18 en el brazo corto o “p”. En cualquier caso, la acumulación de estas dos mutaciones en las células del adenoma con la mutación preexistente en el cromosoma 5 da lugar a que el adenoma crezca más y desarrolle un cierto número de excrecencias vellosas digitiformes. Finalmente una mutación en 17p, que implica la pérdida o inactivación de p53, da lugar a la transición hacia célula cancerosa. La metástasis ocurre después de la formación del cáncer de colon e implica a un número desconocido de pasos mutacionales (Klug, 1999).

2.4.6 Factores genéticos y ambientales en el cáncer de colon.

El modelo genético del cáncer de colon implica mutaciones secuenciales en oncogenes, en genes supresores de tumores y desorganización del ciclo celular en un punto de tránsito específico, aunque la naturaleza y función de los productos génicos normal y mutante del gen p53 no se han identificado todavía con certeza. En casos de predisposición hereditaria para el cáncer de colon, la primera mutación se transmite genéticamente; las restantes se producen por la acción de agentes ambientales, indicando el papel del ambiente en el desarrollo del cáncer (Klug, 1999).

El papel preciso del ambiente en la génesis del cáncer puede ser difícil de demostrar. Obviamente, la introducción del cáncer puede implicar una interacción entre el genotipo y los agentes ambientales. Los agentes ambientales responsables del cáncer incluyen los niveles de radiación de fondo, la exposición de los trabajadores a agentes físicos y químicos, la exposición a la luz solar y el comportamiento personal tanto en la dieta como en el uso del tabaco. Los análisis detallados de la ingestión ajustada para la composición de la dieta, indica que el riesgo de cáncer de colon está positivamente asociado con la ingestión de grasa animal.

Finalmente, si la grasa se identifica como un factor de riesgo importante, sería prudente reducir la ingestión de grasa animal a fin de reducir el riesgo de cáncer de colon. La educación y una elección más juiciosa por parte de los individuos pueden dar lugar a la prevención de un alto porcentaje de todos los cánceres humanos.

2.4.7 Inestabilidad genómica y cáncer.

El término de inestabilidad genómica se utiliza para describir las consecuencias que dan lugar a las características alteraciones genómicas de las células cancerosas. Al menos tres clases de defectos genéticos pueden dar lugar a la inestabilidad genómica: defectos de la



reparación y replicación del ADN, segregación anormal de cromosomas y defectos en el control del ciclo celular.

El modelo para el desarrollo del cáncer de colon en la poliposis adenomatosa familiar (FAP) es un ejemplo del papel de la inestabilidad genética en el cáncer, como lo prueba el número de mutaciones distribuidas a lo largo del genoma. Una relación más directa entre inestabilidad genómica y cáncer de colon se ha descubierto recientemente en otra forma de cáncer de colon no asociada con la formación de pólipos. A esta forma se le denomina cáncer de colon sin poliposis, y explica por encima del 15 por ciento de todos los casos de cáncer de colon. El gen responsable para la susceptibilidad de este tipo de cáncer de colon, llamado FCC, se ha localizado en el cromosoma 2.

De manera sorprendente, las células malignas de los individuos afectados no presentan alteraciones en el cromosoma 2, sino que muestran cambios en cortas secuencias de ADN repetitivo (llamadas ADN microsatélite o repeticiones variables de nucleótidos en tándem), dispersas a lo largo del genoma. Estas alteraciones genómicas a gran escala, que quizá representan miles de alteraciones, indican que el gen FCC puede afectar a la exactitud de la replicación del ADN; cuando el gen FCC es mutante da lugar a una amplia inestabilidad genómica. Recientemente se ha identificado y clonado el gen, y se estima que el gen mutante puede encontrarse en 1 de cada 200 individuos en el mundo occidental, convirtiéndolo en una de las anomalías genéticas más corrientes.

Además, los estudios preliminares en el gen FCC indican que la inestabilidad de los microsatélites preceden a la formación de los tumores de colon y pueden ser un suceso temprano en el desarrollo del cáncer (Klug, 1999).

2.4.8 El cáncer como enfermedad genética.

Si consideramos al cáncer como una enfermedad genética, se establece que esta es producida por la mutación de determinados genes de una célula determinada y que adquiere así las características propias de dicha enfermedad (figura 2.4).

Los genes que son afectados que pueden causar deformaciones tales que producen cáncer pueden ser de tres tipos:

1.- Oncogenes: son genes mutados que proceden de otros llamados protooncogenes y son encargados de la regulación del crecimiento celular.

2.- Genes supresores tumorales. Son los encargados de detener la división celular y de provocar la apoptosis: cuando se mutan estos genes, la célula se divide sin control.

3.- Genes de reparación del ADN. Cuando el sistema de reparación es defectuoso como resultado de una mutación adquirida o heredada, la tasa de acumulación de mutaciones en el genoma se eleva a medida que se producen divisiones celulares. Según el grado en que estas mutaciones afecten a oncogenes y genes supresores tumorales, aumentara la probabilidad de padecer neoplasias malignas.

La carcinogénesis es la formación del cáncer por medio de los carcinógenos o de enfermedades genéticas.


Figura 2.4 El cáncer es producido por la mutación de determinados genes de una célula determinada y que

adquiere así las características propias de dicha enfermedad.

2.5 Alineación de cadenas de ADN.

El alineamiento de dos secuencias de ADN permite conocer la relación que existe entre ambas secuencias. En este caso, un alineamiento óptimo, es aquel que hace máxima la suma de las puntuaciones de los residuos alineados. Esto se realiza primero alineado las secuencias de al menos dos cadenas (o parte de estas) y después decidiendo si el alineamiento es mayor debido a que las secuencias están más relacionadas o no lo están. Lo que se discute es: (1) que tipos de alineamientos podrían ser considerados; (2) el sistema de puntaje utilizado para el rango de los alineamientos; (3) el algoritmo utilizado para encontrar el puntaje de alineamiento óptimo; (4) los métodos estadísticos utilizados para evaluar el significado de un puntaje de alineamiento.

2.5.1 Métodos de alineamientos

Existen dos tipos de alineamientos: alineamiento global (Needleman-Wunsch) figura 2.5 y alineamiento local (Smith-Waterman) figura 2.6. Estos métodos se basan en el tipo de alineaciones utilizadas por algoritmos de programación dinámica. Lo que tratan de hacer estos algoritmos es mantener alineados secciones de secuencias que son iguales o en su defecto se realiza un mínimo de sustituciones. Sin embargo, cuando se tienen secciones que no empatan es necesario realizar inserciones o el borrado de estas secciones, con el propósito de que una sección que se encuentra más adelante vuelva a empatar. La manera más fácil de realizar alineaciones es por medio de pares de secuencias. Las secuencias pueden ser cadenas de ADN o cadenas de ARN. Para realizar los alineamientos con cadenas de ARN se utilizan matrices de sustitución tipo Blosum, que se utilizan para mantener la calificación individual entre dos moléculas de ARN (Durbin, 1998). A manera de ejemplo se muestran los dos tipos de alineamiento. En el alineamiento global (figura 2.5) se muestran dos cadenas de ADN que fueron alineadas. Del resultado obtenido, se

20



observa que en aquellas bases en donde hay coincidencias existe una línea vertical, además en donde hubo necesidad de añadir inserciones las dos cadenas no coinciden. Se observa que en el alineamiento local (figura 2.6) el número de coincidencias es mayor que en el alineamiento global.

Alineamiento global

Como podemos observar el alineamiento global nos da como resultado las secciones del ADN en donde las bases coinciden, esta coincidencia se representa con una línea vertical, el número de empates se representa por las identidades que en este caso se obtuvo 129 identidades sobre 256 bases de ADN o 50%. Además, el número de bases donde hay una sustitución se representa por el símbolo de dos puntos (:), el número de empates y de sustituciones nos representa la cantidad de positivos, se representa con 175 valores positivos sobre 256 bases o 68%. Los guiones o “gaps” representan espacios que fueron necesarios colocar para hacer un mejor alineamiento. La representación de los colores en la alineación es la siguiente: el color rojo representa los empates; el color rosa las sustituciones; el color negro representa donde no hubo coincidencia de las bases y no es posible realizar una sustitución.

Alineamiento local



El alineamiento local busca en las dos cadenas la mejor alineación. En el ejemplo se muestra una alineación en donde todas las bases coincidieron, por lo tanto, el número de identidades es del cien porciento, este alineamiento es mas preciso que el global, pero generalmente el número de bases que se utiliza en el local es menor que el alineamiento global.

2.6 Blast

Existe una amplia tradición en la biología de análisis comparativo encaminado a la investigación. Por ejemplo, las comparaciones que realizó Darwin sobre las características morfológicas del Pinzón de los Galapagos y otras especies lo llevarón a postular la Teoría de la Selección Natural. En escencia, actualmente se realiza el mismo tpo de análisis cuando se hacen comparaciones de secuencias de genes y proteínas pero en un mayor detalle. En esta actividad la similaridades y diferencias - al nivel de bases individuales o aminoácidos – son analizados, con el propósito de inferir la relación estructural, funcional, y evolutiva entre las secuencuias bajo estudio. El método comparativo más común es la alineación de secuencias, que provee un mapeo explícito entre los residuos de dos o más secuencias.

En la actualidad existe disponible en internet una serie de herramientas computacionales que ayudan a realizar análisis comparativo de secuencias, una de las más importantes se le conoce como Blast. Los programas Blast introducen un número de refinamientos a la búsqueda de bases de datos que mejora sobre todo la velocidad de búsqueda y coloca la búsqueda de base de dotos sobre un fundamento estadísticamente firme. Una innovación introducida en Blast es la idea de las palabras vecinas. En vez de requerir palabras para un empate exactamente, una palabra encontrada se logra si la palabra tomada de la secuencia sujeto tiene una puntuación de al menos T cuando una comparación se hace utilizando una matriz de sustitución de la palabra a partir de la pregunta (query). Esta estrategia permite que el tamaño de la palabra (W) se mantenga alta (para velocidad) sin sacrificar sensitividad. Así, T se combierte en un parámetro crítico que determina la velocidad y sensitividad y W raramente varia. Si el valor de T se incrementa el número de palabras encontradas de respaldo bajará y el programa correrá rápidamente. Reduciendo T permite una mayor relación de distancia para ser encontrada.

Existen diferentes variantes de blast, cada una se distingue por el tipo de secuencia (ADN o proteína) del query y secuencias de bases de datos. El programa BLASTP compara un query de proteína para una base de datos para proteína. El programa correspondiente para secuencias de nucleótidos es BLASTN. El tipo de secuencia difiere, la secuencia de ADN puede ser trasladada por el programa y ser comparada a una secuencia de proteína. BLASTX compara un query de secuencia de ADN con una base de datos de proteína que es útil para analizar nuevas secuencias de datos. Para un query de proteína contra una base de datos de nucleótidos se utiliza el programa TBLASTN. Este es útil para encontrar regiones de códigos no anotadas en secuencias de bases de datos, una variante final es utilizadas solamente en situaciones especiales pero se menciona aquí para completar los programas: TBLASTX toma un query de ADN y secuencias de bases de datos, ambas trasladas, y las compara entonces como secuencias de proteínas. Este programa es principalmente útil para comparación de etiquetas de secuencias expresadas, donde se sospecha que las secuencias podrían tener un potencial de codificación a pesar de que la región de código no ha sido determinada (Baxevanis, 2001).



En este trabajo no se utilizará ninguno de los programas de BLAST sin embargo se hará una comparación de las capacidades que tiene el programa que se implementó utilizando los algoritmos de gramáticas difusas, con respecto a los programas de BLAST.

2.7 Introducción a la Gramática.

En la siguiente sección se presenta las definiciones de gramáticas, y posteriormente la definición de gramáticas difusas libres de contexto.

2.7.1 Definición de Gramática.

Formalmente una gramática (G) se define por su alfabeto, sus variables, su símbolo raíz de inicio y sus reglas de reescritura: G = (N, T, S, P), donde N es el alfabeto de la gramática, T sus variables, S símbolos de inicio y P son las reglas de reescritura. El lenguaje generado por la gramática denotado por L (G), es el conjunto de todas las cadenas (posiblemente un número infinito) que pueden ser generadas por G.

2.7.2 Tipos de Gramática.

Existen cuatro tipos principales de gramáticas, que surgen de los diferentes tipos de

estructuras en las reglas de producción o simplemente producción.

Una regla de reescritura es de la forma a->p, donde a y p son cadenas de caracteres

hechas de símbolos intermedios y finales, en las cuales se indica un intercambio de a por/?

(Hopcropft, 1979; Johnsonbaugh, 1999; Duda, 2001).

Gramática tipo 0: Es libres y sin restricciones. Una gramática libre no tiene restricciones sobre las reglas de reescritura, de esta manera estas no tienen restricciones o una estructura sobre las cadenas que pueden producir. Mientras que, en principio, éstas pueden expresar un conjunto arbitrario de conjunto de reglas, esto generalmente genera un enorme gasto de tiempo de aprendizaje sin fin. Sabiendo que una cadena se deriva de una gramática de tipo 0, no se provee ninguna información y como tal, las gramáticas de tipo 0 han encontrado un uso muy restringido en el reconocimiento de patrones.

Una gramática de tipo 0, es aquella en la que no se tiene restricción alguna sobre las reglas de reescritura, por lo cual, esta gramática no se emplea en el reconocimiento de patrones, por que no se obtiene ningún tipo de información.

Por ejemplo: El autómata que puede implementar la gramática 0 es una máquina de Turing.3

Gramática tipo 1: Es sensible al contexto. Es llamada sensible al contexto si cada regla de reescritura tiene la forma:

Donde a y p son cualquier tipo de cadena hecha de símbolos intermedios y finales, I es un símbolo intermedio, y x es un símbolo intermedio o terminal (diferente a s -símbolo de vacío-). Se dice que I puede ser rescrita a x, en el contexto de que a represente el inicio de la cadena y p el final de la misma, sí existe un cambio sólo en la parte central de la

3 La máquina de Turing es un modelo matemático computacional abstracto que formaliza el concepto de un algoritmo.


23


cadena entonces se respeta el contexto de dicha cadena, lo que puede proporcionar datos importantes referentes al reconocimiento de patrones.Por ejemplo, el autómata que puede implementar las gramáticas sensibles al contexto es el que esta acotado linealmente.

Gramática tipo 2: Es libre del contexto. Es llamada libre de contexto si cada producción es de la forma:

donde I es un símbolo intermedio y x es una secuencia de símbolos intermedios o terminales (diferente a ε). Claramente, a diferencia de la gramática tipo 1, no hay necesidad de un “contexto” para la reescritura de I por x. En otras palabras, este tipo de gramática no respeta la posición de los elementos de una cadena, haciendo el cambio de estos de manera arbitraria, respetando únicamente el tamaño de la cadena.

Por ejemplo, las gramáticas libres de contexto pueden ser reconocidas por medio de los autómatas de pila.

Gramática tipo 3: Estado finito o regular. Una gramática es llamada regular si cada regla de reescritura es de la forma:

(3)

Donde a y ¡3 son símbolos intermedios y z es un símbolo terminal (diferente a s). Este tipo de gramática también es llamada estado finito debido a que estas pueden ser generadas por una máquina de estado finito. Una máquina de estado finito es aquella en la que existe un número finito de estados que la máquina puede adoptar. Cada vez que la máquina lee el siguiente carácter, ocurre en ella un cambio de estado. Algunos de los estados que el aceptor puede adoptar se llaman estados finales, y si el aceptor intenta leer más allá del final de la cinta mientras se encuentra en un estado final, la cadena que está en la cinta se dice que fue aceptada por el autómata finito.

Agregando, un lenguaje generado por una gramática de tipo i es llamada lenguaje i. Se puede demostrar que cualquier gramática de tipo i puede incluir todas las gramáticas de tipo i + 1; de esta forma existe una gramática estricta que soporta a otras gramáticas.

Cualquier gramática de libre contexto puede ser convertida a una forma normal de

Chomsky (FNC). Tal tipo de gramática tiene todas sus reglas de la forma:

(4)

Donde A, B y C son símbolos intermedios (es decir del tipo I), y z es un símbolo terminal. Por cada gramática libre de contexto G, existe otra G’ en la formal normal de Chomsky tal que L(G) = L(G’) (Duda, 2001).

Duboi y Prade (1980) mencionan que en muchas aplicaciones la información estructurada, como lo puede ser una cadena de ADN, es inherentemente vaga. Es decir se puede obtener una gramática que describa a una determinada secuencia de bases de



ADN, sin embargo, puede existir la posibilidad de que exista una segunda cadena parecida a la primera, sin embargo, no puede ser reconocida por la gramática de la primera cadena. El hecho de que existan dos cadenas diferentes se debe al hecho de que de manera espontánea una determinada base puede ser sustituida por otra base de manera aleatoria. Para este tipo de sucesos, es recomendable ampliar el grado de fusificación de las primeras muestras, para obtener así un nivel de pertenencia con características más detalladas que brinden mayor información. Cada cadena es un elemento de un universo de discurso formada por una cadena general que contiene a todo un grupo de cadenas: por cada una de estos elementos se le asigna un grado de membresía o pertenencia, que se encuentra entre cero y uno, con respecto al universo de discurso (cadena universo de discurso), debido a que el universo de discurso siempre tiene un grado de pertenencia igual a uno.

La precisión de un lenguaje formal (algoritmos computacionales) contrasta con la imprecisión de los lenguajes naturales o biológicos. Para reducir la brecha que existe entre estos dos, es natural introducir aleatoriedad en las estructuras de los lenguajes formales, llevando esto al concepto de lenguajes determinísticos y estocásticos (Gusfiield, 1997; Mordeson, 2002). Otra posibilidad radica en la utilización de conjuntos difusos, sobre esta segunda posibilidad es que se apoya el análisis gramatical que se realizará en esta tesis.

Se define, al igual que se hizo con las gramáticas certeras, el equivalente a los diferentes tipos de gramáticas difusas, pero antes se hace una definición de gramáticas difusas.

2.7.3 Definición de gramáticas difusas.

Una gramática difusa, informalmente, puede ser definida por medio de un conjunto de reglas para generar los elementos de un conjunto difuso. Una gramática difusa (GD) formalmente está definida por la séxtupla:

(5)

UPIITA INGENIERIA BIONICA


2.8 Lógica Difusa o Borrosa y Probabilidad.

Es importante evitar confundir la función de pertenencia de un conjunto difuso con una función de densidad de probabilidad. Debe tenerse siempre presente que la función de pertenencia de un conjunto difuso indica hasta qué punto cierto valor de una magnitud puede ser incluido en un conjunto difuso, mientras que la probabilidad, por su parte, indica la frecuencia con la que diversos valores de una magnitud se presentan.

Una manera de entender la diferencia entre función de pertenencia y probabilidad de un evento es explicando el siguiente caso. Suponiendo que tuviéramos dos botellas cuyo contenido no podemos ver pero que tiene cada una de ellas una etiqueta. La primera botella indica µ = 0.9, es decir tiene un grado de pertenencia de 0.9 de ser agua, y la segunda botella indica ρ = 0.9, es decir tiene una probabilidad de 0.9 de ser agua. La pregunta es, ¿qué botella escogeríamos?, analizando la información que se proporciona podemos seleccionar adecuadamente la botella. En la primera botella el grado de pertenencia de 0.9 nos dice que no es agua, pero que es un líquido cercano a ser agua, en cambio, en la segunda botella el hecho de que tenga una probabilidad de 0.9 de ser agua nos indica al mismo tiempo que existe una probabilidad de 0.1 de no ser agua. Por lo tanto, lo más apropiado será seleccionar aquella botella con el grado de membresía de 0.9 de ser agua. Al momento de verificar el contenido de las botellas observamos que la primera botella tiene cerveza, y la segunda botella contiene lodo, es decir la cerveza no es agua, pero está próxima a ser agua, en cambio en la segunda botella existió la mala fortuna del 10% de no ser agua. Concluyendo, la información que nos ofrece el grado de pertenencia se refiere a que un elemento tiene una pertenencia a ser otro elemento u objeto, en cambio la probabilidad es información de un evento que puede llegar a suceder, pero que no se sabe hasta el momento en que ocurre el evento.

Aunque muchas de las expresiones matemáticas de la lógica difusa son similares a otras del campo de la probabilidad, su sentido es bien distinto. Las funciones de pertenencia a un conjunto son fijadas arbitrariamente por el observador, indicando el significado que éste asigna a cada uno de las variables lingüísticas que definen los conjuntos. Por el contrario, la probabilidad se determina por la observación de la ocurrencia de los valores de una magnitud, en algunos casos se realiza la medida de esta probabilidad, y en otros se supone un modelo y se comprueba su validez (Martín, 2001).

NOTA: Si se quisiera emplear una cadena que contenga cáncer para analizar un segmento cancerígeno en el buscador de excel, la información que se obtiene es de forma certera y solamente nos proporciona el número de veces que se repite ese tipo de cadena a lo largo del segmento.

Por lo contrario, el programa Análisis del ADN para Detectar Cáncer de Colon, está diseñado para dar al usuario una interfaz gráfica y visualizar de una mejor forma los resultados analizados, así como el número de incidencias que tiene la cadena cancerígena (con el valor de 1), que se utiliza para detectar el cáncer de colon en el ADN del paciente.



CAPÍTULO 3

DESARROLLO.



3.1 Metodología

Desde el punto de vista genético un segmento de ADN es el mismo durante toda la cadena, inclusive aún cuando cambian algunas de sus bases. Por ejemplo, los segmentos actctctggcatat, actctccctcatat, actctctgggcttaa y ctctctggcatat, por ello es necesario emplear algoritmos que identifiquen esos cambios (Jones, 2004).

En este capítulo se plantea la metodología y los algoritmos que se usaron para el estudio y análisis de la cadena de ADN con cáncer, así como también se da la justificación de la plataforma Java que es específicamente en donde trabaja el programa final, El algoritmo que se utiliza es el de Cocke Younger Kasami (CYK) adaptado para el lenguaje libre de contexto difuso, nos permite analizar cadenas de ADN a partir de un segmento de ADN con cáncer. Este algoritmo presenta la ventaja de que nos da el grado de pertenencia de el segmento de ADN que se está analizando, a diferencia del mismo algoritmo en el caso certero (apéndice A anexo en el C.D.), únicamente se reconocerían segmentos que empaten exactamente con el segmento de ADN con cáncer. Para entender el uso del algoritmo CYK se presenta un ejemplo.

Otro algoritmo que se incluye en este capítulo es el método que nos permite cambiar una gramática no necesariamente libre de contexto a la forma normal de Chomsky, la cual es efectivamente una gramática libre de contexto, también se incluye un ejemplo para ilustrar el procedimiento de esta forma de reescritura entre gramáticas.

A continuación se muestran los pasos que se siguieron para el desarrollo del trabajo.

1) Se obtuvieron las secuencias de ADN con y sin cáncer de la base de datos del Centro Nacional para la Información Biotecnológica (CNIB) (www.ncbi.nih.gov/), dicha información aparece de la siguiente forma:

El archivo de cáncer está dado en un formato GenBank. Este tipo de archivos contiene siempre un encabezado en donde se especifican las características de la cadena de ADN. Dentro de las características que se muestran podemos encontrar, que tipo de organismo es al que pertenece la cadena de ADN, las personas que extrajeron la información, el correo electrónico para contactarlas, la fecha de registro, entre otras características. Para tener una visión mas clara de los archivos utilizados, se muestra un segmento de un archivo de ADN. Los datos que se presentan son de un paciente de cáncer de colon, localizado en el cromosoma 18p, esta secuencia se encuentra acotada por ser de 184440 pares de bases (pb), y solo se expresa la parte más afectada. Para el análisis de este trabajo no es necesario considerar el encabezado por lo que se elimina y solamente se utiliza la información relacionada con el ADN, es decir las bases nitrogenadas.




AUTHORS Hattori,M., Toyoda,A., Taylor,T.D., Fujiyama,A., Yada,T., Totoki,Y., Watanabe,H. and Sakaki,Y.

TITLE Homo sapiens genomic DNA JOURNAL

Published Only in Database (1999) REFERENCE 2

(bases 1 to 184440) AUTHORS Hattori,M., Ishii,K., Toyoda,A., Taylor,T.D., Hong-Seog,P.,

Fujiyama,A., Yada,T., Totoki,Y., Watanabe,H. and Sakaki,Y.

TITLE Direct Submission JOURNAL Submitted (17-DEC-1999) Masahira Hattori, The Institute of Physical

and Chemical Research (RIKEN), Genomic Sciences Center (GSC);

1-7-22 Suehiro-chou,Tsurumi-ku, Yokohama, Kanagawa 230-0045, Japan

(E-mail:[email protected], URL:http://hgp.gsc.riken.go.jp/,

Tel:81-45-503-9111, Fax:81-45-503-9170)

COMMENT On Mar 25, 2003 this sequence version replaced gi:22202651.

FEATURES Location/Qualifiers source 1..184440

/organism="Homo sapiens" /mol_type="genomic DNA" /db_xref="taxon:9606" /chromosome="18" /map="18p"

/clone="RP11-737O24"

También se muestran las secuencias en formato GenBank sin cáncer el cromosoma 18p, de igual manera se encuentra acotada por ser de 35420 pb.

4 www.ncbi.nih.gov/


29

mailto:[email protected]

http://hgp.gsc.riken.go.jp/



DEFINITION Homo sapiens genomic DNA, chromosome 18 clone:CMF18-87P17, Complete sequence.

ACCESSION AP005530 VERSION

AP005530.3 GI:28872840 KEYWORDS

HTG. SOURCE Homo sapiens (human)

ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;

Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo.

REFERENCE 1 AUTHORS Hattori,M., Ishii,K., Toyoda,A., Taylor,T.D., Hong-Seog,P.,


TITLE Homo sapiens genomic DNA JOURNAL Published Only in Database

(2002) REFERENCE 2 (bases 1 to 35420) AUTHORS Hattori,M., Ishii,K., Toyoda,A., Taylor,T.D., Hong-Seog,P.,


TITLE Direct Submission JOURNAL Submitted (17-JUL-2002) Masahira Hattori, The Institute of Physical

and Chemical Research (RIKEN), Genomic Sciences Center (GSC);

1-7-22 Suehiro-chou,Tsurumi-ku, Yokohama, Kanagawa 230-0045, Japan

(E-mail:[email protected], URL:http://hgp.gsc.riken.go.jp/,

Tel:81-45-503-9111, Fax:81-45-503-9170)

COMMENT On Mar 6, 2003 this sequence version replaced gi:25137545.

FEATURES Location/Qualifiers source 1..35420

/organism="Homo sapiens" /mol_type="genomic DNA" /db_xref="taxon:9606" /chromosome="18" /map="18p"

/clone="CMF18-87P17"


mailto:[email protected]

http://hgp.gsc.riken.go.jp/


Como se puede observar en las numeraciones de ambos archivos, las muestras que sirvieron para las pruebas, los alineamientos y el programa final, se fueron tomando de 2000 en 2000 pb, ya que el procesador de la computadora que se utilizó se veía afectado, por que los recursos que tenía que utilizar para poder procesar la información excedían la capacidad de la máquina, esto hacia mas lenta la obtención de los resultados.

2) Se hizo el estudio de diferentes segmentos con y sin cáncer para establecer cual de ellas se emplearían, con el propósito de obtener la cadena cancerígena ideal, para la programación libre de contexto difuso del programa final.

3) Una vez que se han identificado los segmentos, son copiadas a una hoja del WordPad y guardadas como texto con la extensión .txt, para después ser utilizadas en un programa realizado en la plataforma de Java (apéndice B), que nos permite eliminar todo aquello que no sean bases nitrogenadas, es decir, los espacios, nombres y números del encabezado. Posteriormente, las secuencias depuradas son copiadas al lenguaje de Matlab, ya que con la ayuda de un Toolbox de Bioinformática que contiene la versión 7 de Matlab, nos permite hacer los alineamientos y a obtener resultados confiables.

A continuación en la figura 3.1 se muestra sólo el primer alineamiento que va del 1 hasta 1981, debido a que las secuencias son muy extensas, únicamente se presenta la primera parte:

La siguiente figura 3.2 presenta el alineamiento de las secuencias, de una forma más ordenada:



Donde la primera linea muestra el porcentaje de empalmes identicos, en este caso es de 37%, esto es que únicamente el 37% de toda la secuencia es parecida, los positivos toma en cuenta tanto los empates como las sustituciones de bases, en la segunda linea se presenta la secuencia con cáncer, en la tercera fila se encuentran los símbolos “:” , “|” y “-” los dos puntos representan los lugares donde pueden haber sustituciones de bases, las lineas verticales es en donde existen empalmes entre las dos secuencias y “-” llamadas gaps sirven para que posteriormente una secuencia pueda ser empatada, finalmente la cuarta fila es la secuencia sin cáncer, este formato se repite a lo largo de toda la secuencia.

Las letras en rojo representan los alineamientos en las que las dos secuencias son identicas, las rosas; pueden ser sustitidas por cualquier otra base y finalmente las letras en negro así como las gaps; son introducidas por la propia función de Matlab para hacer un mejor alineamiento.

4) Como siguiente paso después de la alineación se realiza una selección de la cadena con cáncer con mayor número de empates.

5) Una vez que se tiene la cadena con cáncer se realiza la programación en Java de la gramática libre de contexto difusa, en donde el criterio para seleccionar el grado de membresía es en base al tamaño de ésta. El programa se divide en dos partes, en la primera parte se establece el nombre de los archivos de ADN que leerá para poder compararlos, los contadores, y crea el archivo de texto donde se guardan los grados de membresía, posteriormente llama al segundo programa utilizándolo como una función. En la segunda parte es en donde se programa, tanto la gramática como los grados de membresía, (apéndice B, programa 2.B).

6) Y finalmente, el programa en Java donde se emplea la gramática libre de contexto difusa, devuelve el resultado del análisis en un archivo de texto, donde éste es abierto en Matlab, para la obtención de la gráfica y así poder verificar los resultados obtenidos de cada análisis.



3.2 Java.

Actualmente, Java es uno de los mejores lenguajes de programación que existen y algunas de las razones son las siguientes:

Los diseñadores de Java han omitido, deliberadamente, todas las características superficiales de los lenguajes de programación: han reducido el diseño a lo más esencial. El resultado es un lenguaje que reúne todas las características necesarias combinadas de una manera elegante y lógica. El diseño es ligero, poderoso y fácil de aprender (Bell, 2003).

Java esta basado en C y C++ e incorpora caracteristicas de otros lenguajes orientados a objetos. Incluye extensas bibliotecas de clases con componentes para multimedia, conectividad a red, subprocesos multiples, gráficos, acceso a base de datos, computación distribuida y más.

Uno de sus atributos es su portabilidad; es posible escribir programas Java en una computadora y ejecutarlos sin necesidad de modificarlos (Deitel, 1999).

Java es robusto; si un programa de Java falla, no provoca destrozos, daños ni incertidumbre. Como los programas en Java se ejecutan dentro de una “jaula” de protección, los efectos de cualquier error están confinados y controlados; incluso están protegidos contra la filtración de virus (Bell, 2003).

3.3 Algoritmo CYK adaptado para el Lenguaje Libre de Contexto Difuso.

Un algoritmo es una secuencia de instrucciones que uno debe de seguir a fin de solucionar un problema bien formulado. Se puede especificar un problema en términos de sus entradas y sus salidas, y el algoritmo será el método de trasladar esas entras hacia sus salidas. Un problema bien formulado no tiene ambigüedades y es preciso, no dejando lugar a malas interpretaciones.

A fin de resolver un problema es necesario llevar a cabo los pasos especificados por el algoritmo. Una persona con pluma y papel debería de ser capaz de hacer esto, pero los humanos son generalmente lentos, cometen errores y prefieren no realizar trabajo repetitivo. En cambio, una computadora es menos inteligente pero puede realizar pasos de manera más rápida y con mayor exactitud. Una computadora no puede entender español, de manera que los algoritmos deben de ser reescritos en un lenguaje de programación tal como C o Java a fin de dar las instrucciones precisas al procesador. En este trabajo se utilizó el lenguaje Java para implementar los algoritmos.

El algoritmo CYK es un algoritmo clásico que permite a partir de una gramática libre de contexto reconocer segmentos de texto en una cadena de texto con la posibilidad de que a un determinado segmento se le asocie el grado de pertenencia que va desde 0 (nula pertenencia) hasta 1 (total pertenencia), considerando toda la gama de grados de partencia que se encuentren entre cero y uno. Sin embargo, este algoritmo no es capaz de reconocer segmentos en donde haya una pequeña modificación del texto que se esta buscando. Por lo tanto, en este trabajo de tesis se utilizó el algoritmo CYK para lenguajes libres de contexto con la variante difusa. Esto trae como ventaja que se pueden reconocer segmentos de texto con pequeñas o grandes variantes a partir de una gramática dada. Para el análisis de cadenas de ADN esto lleva una ventaja debido a que, como se había



comentado, segmentos de ADN pueden cambiar de manera normal en algunas de sus bases y sin embargo se pueden considerar como el mismo segmento.

De este algoritmo se derivan otros dos métodos; la gramática libre de contexto difuso-I,

donde I hace la operación min, es decir, toma únicamente el valor mínimo del grado de

membresía de cada conjunto (apéndice A) y la gramática libre de contexto difuso-M, donde

M hace un producto algebraico de los grados de membresía de cada conjunto, este

segundo método se desarrolla a continuación con el Algoritmo 3.1.

Algoritmo 3.1. Dada la gramática libre de contexto difuso-L libre de X G = (V, I, P, S)

en forma normal de Chomsky y una cadena a1a2 …an con (n> 1) se construye

estrictamente la matriz triangular (n + 1)x (n +1) reconociendo la matriz T por el programa

de la figura 3.3, donde cada elemento ti,j es un subconjunto finito de N

x L con N = V - Z. Usualmente cada ti,j esta inicialmente vacío.

Donde para cada m >0 (m∈L ),µ(a1a2…an ∈L(G)) = m si y solo si (S,m)∈t0n

Las gramáticas libres de λ (símbolo vació) o libres de contexto incluyen como símbolos

terminales únicamente los que están definidos por símbolos terminales, y no incluyen

ningún otro símbolo. Esto no permite ambigüedades.

Ejemplo 1. Considerar la gramática libre de contexto difuso-Μ G8=(V8,Σ ,P8,S),y la

cadena [, [, ?, ?, terminal Σ8 , con Σ8=Σ5={¿, ?, [, ]}, V8=Σ8∪{S, A, B, C, D, E, F}, y P8,

considerando las siguientes reglas:

y µ tiene valor de 1 en otro casos. La gramática G8 esta en forma normal de Chomsky libre de λ.

Para resolver este ejemplo se utiliza el algoritmo 3.1.



Solución:



El ejemplo 1 también se puede resolver de la forma tabular, que se explica a continuación:

Solución Paso 1: Tabular en forma diagonal la cadena, basándose en las reglas de producción.

Paso 2: Para obtener el t0,2 , se toman los valores de t0,1 y t1,2 y se realiza la multiplicación uno a uno, utilizando las reglas. Por lo tanto la tabla quedará de la siguiente manera:

Paso 3: Para obtener el t1,3 , se toman los valores de t1,2 y t2,3 y se realiza la multiplicación uno a uno, utilizando las reglas. Por lo tanto la tabla quedará de la siguiente manera:

Paso 4: Para obtener el t0,3 , se toman los valores de (t0,1 y t1,3) y (t0,2 y t2,3) se realiza la multiplicación uno a uno, tomando en cuenta los valores que no se repite. Por lo tanto la tabla quedará de la siguiente manera



Paso 5: Para obtener el t2,4 , se toman los valores de t2,3 y t3,4 se realiza la multiplicación uno a uno, Por lo tanto la tabla quedará de la siguiente manera:

Paso 6: Para obtener el t1,4 , se toman los valores de (t1,2 y t2,4) y (t1,3 y t3,4) se realiza la multiplicación uno a uno, tomando en cuenta los valores que no se repite. Por lo tanto la tabla quedará de la siguiente manera:

Paso 7: Para obtener el t0,4 , se toman los valores de (t0,1 y t1,4) y (t0,2 y t2,4) y (t0,3 y t3,4) se realiza la multiplicación uno a uno, tomando en cuenta los valores que no se repite. Y finalmente la tabla queda de la siguiente manera:

Concluimos que la cadena [ [ ? ?, pertenece a la gramática anterior y teniendo µ([ [ ? ?;L(G8))=0.81. Para poder transformar cualquier tipo de gramática a una en la forma normal de Chomsky se realiza una simplificación de la gramática como se muestra en el siguiente subtema.

3.4 Simplificación de las Gramáticas Libres de Contexto.

3.4.1 Forma Normal de Chomsky o FNC.

Existen dos tipos de reescritura la forma normal de Chosmky y la forma normal de Greibach (apéndice A), en este trabajo se utiliza la forma normal de Chomsky o FNC, debido a que un segmento de ADN es fácil obtenerlo de una gramática en FNC.

El método para convertir a FNC se muestra por medio del teorema y demostración del mismo. Es decir, el teorema muestra la FNC y la demostración describe el método para obtener este formato

Ahora comprobaremos los dos primeros teoremas de la forma normal. Cada uno declara que todas las gramáticas libres de contexto son equivalentes a gramáticas con restricciones en las formas de producción.



TEOREMA 1: (forma normal de Chomsky o FNC). Cualquier lenguaje libre de contexto sin G , es generado por una gramática en los cuales todas las producciones donde la forma A^BC ó Aâ. Donde A,B y C son variables y a es un terminal.

Demostración: Sea G una gramática libre de contexto generando un lenguaje que no contenga e. Podemos encontrar una gramática equivalente, G1 = (V, T, P, S), tal que P no contiene unidades de producción o producciones e. Por lo tanto si una producción tiene un solo símbolo, este símbolo es un terminal y la producción es en realidad de forma aceptable.

Ahora consideraremos una producción en P, de la forma A^X1X2..Xm donde m > 2.Si Xi

es un terminal, a, introduce una nueva variable Ca y una producción Caâ, los cuales están

de una forma admisible.

Si a=>/?, entonces ak(5. Entonces reemplazamos Xi por Ca. Sea un nuevo conjunto de

variables que están en V y el nuevo conjunto de producciones que están en P. Considerar la

gramática G2 = (V, T, P’, S ) 5.

EntoncesL(G1) c L(G2). Ahora mostramos para la introducción, el número de pasos en

una derivación si A^>w, para A en V y w en T*, entonces A±>w. El resultado es trivial G2 G1

para un paso de derivación. Suponiendo que esto es verdad para las derivaciones de arriba a

k pasos. Sea A^>w, esta en (k + 1) pasos de derivación. El primer paso debe G2

estar en la forma A^B1B2..Bm, m > 2 . Podemos escribirlo

w = w1w2...wm donde B G2 wi, 1< i<m. Si BiesCai para alguna terminal ai ,entonces wi

debe ser ai. Para la construcción de P’, esta es una producción A^X1X2..Xm de P, donde X^Bi

siBi estaenV y Xi=Bi siBi esta enV'-V . Para que Bien Vsabemos

que la derivación Bi^>wi tomamos no mas de k pasos, así para la hipótesis

G1

inductiva,Xi^wi y A^w. Ahora tenemos que probar el resultado intermedio que algún G1 G1

lenguaje libre de contexto pueda estar generando para una gramática para los cuales cada

producción esta de una u otra de las formas: Aâ o A^B1B2...Bm para m>2.

Aquí A y B1B2...Bm son variables y a es un terminal.

Considerar una gramática G2 = (V, T, P’, S ). Modificaremos G2 para sumar algún

símbolo adicional a V y reemplazar alguna producción de P’. Para cada producción

A^B1B2...Bm de P'donde m>3, crearemos nuevas variables D1, D2,…, Dm-2 y

reemplazaremos A^B1B2...Bm para el conjunto de producciones:

5 Note que G2 no está todavía en forma normal de Chomsky.


38


Sea V’’ el nuevo vocabulario no terminal y P’’ el nuevo conjunto de producciones. Sea G3

así como

pero esto también es cierto para

(Hopcropft, 1979)

Ejercicio 2: Dada la gramática G =({S, A, C , T, G, W1, W2, W3, W4}, {a, c, g, t}, P, S) y la cadena de 3 pares de bases de ADN: actgcg y P con las siguientes reglas de producción:

Obtener la gramática correspondiente a la cadena actgcg

Solución

Nota: La sustitución puede ser en cualquiera de las reglas, hasta en las 5 reglas de la izquierda, en un mismo caso, como se muestra en la figura 3.4. Para este ejercicio solamente se tomó para la segunda regla.


= (V’’, T, P’’, S ), G3 esta en FNC. Es claro que entonces

y podemos demostrarlo

esencialmente de la misma manera que se demostró que


Para poder emplear este ejercicio en un programa, se tendrían que acotar las cadenas de ADN o especificar en dicho programa cuantos pares de bases reconocería (Hopcropft, 1979).



CAPÍTULO 4

PRUEBAS PRELIMINARES Y

RESULTADOS



4.1 Pruebas preliminares.

El programa que se empleo para efectuar las primeras pruebas, realizó el reconociemiento de patrones para una cadena de 28 pb. Los códigos se muestran en el apéndice B, programas 2.B-4.B.

Una vez compilado y ejecutado el programa, éste crea un archivo con formato de texto (GradosMembresia.txt), para poder abrirlo en Matlab y obtener la grafica de los grados de pertenencia. La figura 4.1 muestra las dos posiciones donde encuentra la misma cadena indicandolo con valor de 1, en el sitio donde llega a cambiar solamente un carácter nos arroja un valor de 0.5 grados de pertenencia. Los grados de membresía son elegidos de acuerdo al criterio de la persona que esta programando o a la longitud de la cadena, en este caso se tomaron de acuerdo al criterio del programador..

La figura. 4.2 muestra la gráfica del reconocimiento de patrones. Los dos picos más altos indican las posiciones en donde los valores son iguales a 1, es decir, en estos sitios se encontró la cadena (accgt) en la secuencia que se esta analizando , el siguiente pico denota la posición donde el valor es de 0.5, esto es donde la cadena cambia un carácter solamente, los picos de menor valor a 0.5 expresan la posición en la que la cadena presenta tres cambios en adelante.



Se realizaron otras pruebas, como la comparación entre una cadena sin cáncer contra una secuencia con cancer, una cadena sin cancer contra una secuencia sin cancer, una cadena con cancer contra una secuencia sin cáncer y una cadena con cáncer contra una secuencia con cáncer, esto con el objetivo de verificar si la cadena cancerígena que se eligio tiene cáncer (apendice B, programas 5.B, 6.B).

4.2 Pruebas adicionales.

Se crearon diferentes secuencias artificiales en donde a cada secuencia se le insertó cinco veces la cadena atctat en posiciones conocidas, ésta cadena servirá de patrón, la cual cambiará en cada una de las diferentes secuencias una a una de sus bases hasta ser completamente diferente al patrón original con el propósito de identificar el lugar y el grado de membresía de acuerdo a los cambios que se han efectuando, con este procedimiento se pretende comprobar que el programa final funciona de manera correcta haciendo el reconocimiento de la cadena cancerígena en la secuencia que se está analizando.

La cadena que se utiliza para realizar la gramática libre de contexto difuso, es una cadena cancerígena (atctat) y se obtuvo de alineamientos de diferentes secuencias con cáncer.

A continuación se muestran las gráficas y las secuencias artificiales:











Finalmente, todas las comparaciones controladas que se realizaron sirvieron para comprobar que el algoritmo funciona correctamente, haciendo el reconocimiento de patrones a lo largo de la secuencia que se está analizando y los grados de pertenencia obtenidos son los correctos.

4.3 Análisis de la Cadena.

Se realizó un inspección visual de las cadenas de ADN con cáncer y se encontró que la cadena (atctat) fue seleccionada por ser la que se repite con mayor frecuencia en una parte en específico de la secuencia con cáncer que se muestra en el capítulo 3 y se asume que dicha cadena debe de tener alguna importancia desde el punto de vista genético, sin embrago en este trabajo no se investiga dicha importancia. La cadena (atctat) sirve para la programación en Java de la gramática libre de contexto difusa, en donde el criterio para seleccionar el grado de membresía fue en base al tamaño de ésta, es decir se toman las seis bases nitrogenadas y se divide conforme los cambios que pueda tener cada una de las bases. El programa se divide en dos partes, en la primera se establece de donde leer el archivo de ADN que se compara, los contadores, y crea el archivo de texto donde se guardan los grados de membresía y llama al segundo programa utilizándolo como una función. En la segunda parte se programa, tanto la gramática como los grados de membresía, (apéndice B).

Finalmente, el programa en Java donde se emplea la gramática libre de contexto difusa, devuelve el resultado del análisis en un archivo de texto, donde éste es abierto en Matlab, para la obtención de la gráfica de los grados de membresía.

La figura 4.12 muestra los respectivos grados de pertenencia del segmento de ADN sin cáncer comparado contra una cadena con cáncer (ambas secuencias se muestran en el capítulo 3), la figura 4.13 presenta a detalle el segmento de mayor relevancia.


48


También se hizo la comparación entre una cadena con cáncer contra una secuencia con cáncer, con el objetivo de corroborar si ambas secuencias son cancerigenas, la figura 4.14 muestra los grados de pertenencia del segmento de ADN, la figura 4.15 presenta a detalle la parte de mayor relevancia.





4.4 Análisis con Proteínas

Existe otra hipótesis acerca de que el cáncer se pueda localizar cuando se convierte en proteína, por lo cual también se hicieron alineamientos con la secuencia con cáncer de colon, utilizando todas las proteínas del brazo corto del cromosoma 18, esto con el fin de encontrar alguna referencia que nos indique si puede existir una mutación.

Las proteínas se enlistan a continuación en la siguiente tabla 1:

Los resultados más significativos que se obtuvieron, fueron con la proteína CIDEA en la parte 18001 - 19981 con una puntuación de 1835.7, es decir que el 65% de la secuencia de la proteína es similar a la secuencia cancerígena. La tabla 2 muestra los datos del nombre del archivo que se compara con la secuencia con cáncer de colon, el nombre con el que es guardado cada pedazo de secuencia, el nombre con el que se guarda el archivo .mat para poder abrirlo desde Matlab, la puntuación, es decir, el número de empates que se tuvieron en esa parte y finalmente el número de la secuencia como aparece en el archivo original. Las secuencias se tomaron de 2000 en 2000 pb para todos los alineamientos, el resto de los alineamientos se encuentran en el apéndice C anexo en el C.D.



4.5 Análisis de Resultados.

Una vez que se realizaron las comparaciones entres las diferentes secuencias de ADN, se obtuvieron los siguientes resultados. Se llevaron a cabo comparaciones entre una cadena cancerígena y un segmento obtenido a partir de otra secuencia con cáncer, la figura 4.16 muestra la gráfica donde se puede observar que se encuentran picos con valores de 0.833 como máximo, siendo que se esperaban valores de 1.

En la figura 4.17 se observa que la cadena cancerígena (atctat) es encontrada en su forma original dentro de la secuencia con cáncer, se encuentra representado en la gráfica con dieciséis picos con un grado de pertenencia de 1.



La figura 4.18 muestra la amplificación de la gráfica anterior de la primera sección

La figura 4.19 muestra la amplificación de la gráfica anterior de la segunda sección







CAPÍTULO 5

CONCLUSIONES

Y

TRABAJO A FUTURO



5.1 Conclusiones.

Debido a los resultados obtenidos de las figuras anteriores, se puede concluir que existe una cadena base que se repite a lo largo de una secuencia, sin embargo, este segmento no tiene la misma repetición al compararlo en otra secuencia, incluso si esta última tiene cáncer. Lo que si se observa es que en la última secuencia existe otro segmento que también se repite, el cual es distinto al primero, por lo tanto se puede decir que todas las cadenas con cáncer presentan una repetición de bases nitrogenadas que forman diversos patrones.

Después de obtener la cadena cancerigena, se realizaron comprobaciones, haciendo la comparación con diferentes secuencias con cáncer, utilizando el programa que tiene implementada la gramática libre de contexto difusa. De éstas pruebas se alcanzó la mayor incidencia en al menos cuatro de seis comparaciones, devolviendo un valor entre uno a dieciséis picos con un grado de membresía con valor de 1 en algunas de las secuencias y 0.833 en las otras, por otra parte, también se realizaron pruebas con otra cadena cancerigena (gtgctc), encontrada en los alineamientos; sin embargo, el resultado que se alcanzó fue menor, entre uno y dos picos de un grado de pertenencia para solo tres secuencias de seis, por este motivo se implementó la cadena atctat para obtener los resultados y el programa final.

Por otra parte, si observamos la gráfica (figura 4.14), podemos notar que la cadena cancerígena (atctat) que se seleccionó contiene cáncer con un grado de pertenencia de 1, por el contrario la gráfica de la figura 4.12 indica que existe la posibilidad de que en algún momento desarrolle el cáncer.

De las pruebas realizadas con proteínas, se puede concluir que puede existir la posibilidad de que en algún momento después de que ocurre la transcripción a proteína, esta ya pueda llevar la mutación del cáncer y por lo tanto desarrollarse por completo más adelante.

Debido a que el área que se encarga del estudio del ADN se encuentra en su etapa inicial, se deben obtener más secuencias, para realizar más pruebas y así poder otorgar un diagnóstico confiable.

5.1.2 Comparación del Programa Análisis del ADN para Detectar Cáncer de Colon con el Programa Blast.

Este programa es principalmente útil para comparación de etiquetas de secuencias expresadas.

Programa BLAST.



Este programa nos permite visualizar el resultado en una gráfica dándonos como referencia el grado de pertenencia a 1 ó 0 según sea el caso, con esta información el medico puede dar un diagnóstico paciente.

Programa Análisis del ADN para Detectar Cáncer de Colon.

Cave destacar que este trabajo es de investigación por lo cual es recomendable realizar más pruebas con otras cadenas de ADN con cáncer de Colon para tener un resultado más confiable, por este motivo éste trabajo no tiene una validación.

5.2 Trabajo a Futuro.

Las características de este trabajo, crean las bases para poder llevar este proyecto a un nivel superior, es decir, que no termina con los resultados obtenidos hasta el momento, por ello es necesario establecer las metas a futuro para concluir éste trabajo son las siguientes:

1. Realizar la interfaz gráfica del programa de forma directa, evitando así el uso de otra plataforma como Matlab.

2. Llevar este proyecto para la World Wide Web, donde los especialistas puedan hacer uso de esta herramienta y contribuir así con los diagnósticos preventivos

3. Extender la aplicación del análisis en secuencias de este proyecto a diferentes tipos de cáncer al que se estudió actualmente.

4. Este programa, con las modificaciones correspondientes, puede llegar a ser empleado en el análisis del ADN de vegetales y de animales, estudiándolos a nivel genético, podemos obtener mejores semillas en el caso de los vegetales o genes predominantes en los animales y así tener un vegetal o un animal más resistente, para aumentar y/o mejorar la producción.

Si analizamos el ADN, se logra extraer la cadena con mayor número de incidencia, la cual sirva de guía para hacer comparaciones con diversas cadenas de la misma especie, con el propósito de elegir las mejores.

5. Diseño y construcción de un dispositivo que permita hacer la extracción de ADN y posteriormente efectúe el desglose del ADN en sus cuatro bases nitrogenadas.



Fuentes consultadas

Bibliografía

* Asveld, P., R.J., Fuzzy Context-Free Languages, part 2: Recognition and Parsing

Algorithms, Department of Computer Science, Twente University of Technology.

> Barahona, A., Piñero, D., 2000, Genética: La Continuidad de la Vida, en La Ciencia

para Todos, no. 125, Fondo de Cultura Económica, 2ª. ed.

^ Baxevanis, D., A., Francis, O,. F., B., 2001, Bioinformatics, Ed. Wiley-Interscience.

* Bell, D., Parr, M., 2003, JAVA para estudiantes. 3ra. ed. Ed. Pearson Educación.

* Brown, T. A., 1999, Genomes, Ed. Wiley-Liss.

> Colegio de Postgraduados. Montecillo, Texcoco, México, 2006.

> Corzo, Y., La Lógica Difusa, Porlamar, Venezuela, 1996.

> Deitel, H. M., Deitel, P. J., 1999, C++ cómo programar, 2ª. ed. Ed. Prentice Hall.

^ Diccionario Mosby de la Medicina y Ciencias de la Salud, 1997, Ed. Mosby/Doyma

Libros. ^ Duda, R. O., Hart, P. E, Stork, D. G., 2000, Pattern Classification. 2nd.

ed.

Ed. Wiley-Interscience, pp 424,425.

* Durbin, R., Eddy, S., Mrogh, A., 1998, Biological Sequence analysis Probalistic

Wodels of Proteins and Nucleic Acids, Ed. G. Mitchison. pp. 12, 238-239.

> Fundamentos de Lógica Difusa Universidad De Las Americas-Puebla

^ Gardner, E. J., Simmons, M. J., Snustad, D. P., 2003, Principios de Genética, Ed.

Limusa Wiley, 4ª. ed. V> Gusfield, D., 1997, Algorithms on Strings, Trees, and,

Sequences: Computer

Science and Computational Biology, Ed. Cambridge.

> Hopcropft, J. E., Ullman, J. D., 1979, Introduction to Automata Theory, Languages

and Computation, Ed. Addison Wesley. p.p.79, 83, 94, 104.

^ Johnsonbaugh, R., 1999, Matemáticas Discretas, Ed Pearson Prentice-Hall, 4ª. ed.

> Jones, N., C, Pevzner, A., D, 2004, An Introdution to Bioinformatics Algorithms

Ed. Mit Press books.

+ Junbai, W., Hellem, T., Jonassen, I., Myklebost O., and Hovig, E. 2003. Clasificación

de tumor y el pronóstico del gen señalador por selección característica y c - medios

difusos que se agrupan usando datos de pequeñas matrices. BMC Bioinformatics.

No. 6, Vol. 76, p.p. 1471-2105.



> Klug, S., W., Cummings, R., M., Madrid 1999. Conceptos de Genética, Ed. Pretice

Hall, 5ª, ed. p.p. 625- 627, 629-631, 633-634, 636- 643.

> Lozano, M. A., Velasco-Medina, J., Diseño de un procesador para el alineamiento

global de secuencias de ADN, Grupo de Bio-nanoelectrónica, EIEE, Universidad del

Valle, A.A. 25360, Cali, Colombia.

> Martín, del B., B., Sanz, M., A., 2001, Redes Neuronales y Sistemas Difusos, Ed.

Alfaomega Ra-Ma, 2da. ed. p.p. 268.

> Mordeson, J. N., Malik, D. S., 2002, Fuzzy Automata and Languages: Theory and

Applications, Ed. Chapman and Hall/CRC.

-* Pérez, C, I., J., Transcriptoma del Carcinoma Hepatocelular (hcc) Experimental: Identificación de los Genescon Expresión Diferencial Durante el Desarrollo de las Lesiones Preneoplásicas Hacia el Cáncer, Para obtener el grado de Doctor en Ciencias, Centro de Investigación y de Estudios Avanzados del I.P.N. Departamento de Biología Celular.

^ Searls, D. B., 2002, “The Languages of Genes”, in Nature, vol. 420, pp. 211-217.

> Soberón-Mainero, F. X., 2002, La Ingeniería Genética: La Nueva Biotecnología y la Era Genómica, en La Ciencia para Todos, 145, Fondo de Cultura Económica, 3ª. ed.

^ Tamarin, R., H., 1996, Principios de Genética, Ed. Reverte, S.A.

* Tisdall J., Beginning Perl For Bioinformatics, Octubre 2001,Ed. O’reilly, p.p. 36-37, vii.

Cibergrafías

> http://www.ncbi.nih.gov/

* http://www.cancer.org/

> http://www.farmaceuticonline.com/

> http://www.el-mundo.es/cancer/colon.html




http://www.cancer.org/

http://www.farmaceuticonline.com/

http://www.el-mundo.es/cancer/colon.html


Glosario

Aberración cromosómica: Cualquier cambio que dé lugar a una duplicación, deleción o

reordenación de material cromosómico.

ADN polimerasa: Enzima que cataliza la síntesis de ADN a partir de desoxirribonucleótidos y de una molécula de ADN molde.

Ambiente: Conjunto de factores geográficos, climáticos y bióticos en el que viven los

organismos.

Aminoácidos: Cualquiera de las subunidades que se unen covalentemente para formar las proteínas.

Anticodón: Triplete nucleotídico de una molécula de tRNA que es complementario al triplete codón de una molécula de mRNA y al que se une.

Alelo: Es una de las distintas formas de un gen o locus. Diferentes alelos de un gen producen variaciones en las características hereditarias tales como el color del cabello o el tipo de sangre.

Apoptosis: Programa controlado genéticamente de muerte celular, que se activa como parte de desarrollo normal o como consecuencia de un daño celular.

Autómata: Equipo electrónico programable en lenguaje no informático y diseñado para controlar, en tiempo real y en ambiente industrial, procesos secuenciales.

Autómata de pila: Son máquinas abstractas que reconocen exactamente la clase de los

lenguajes independientes de contexto.

ATP: Trifosfato de adenosina.

Autosoma: Todo cromosoma que no es un cromosoma sexual y que aparece en las células cómicas como par homólogo. Los seres humanos poseen 22 pares de autosomas, que participan en la transmisión de todos los rasgos y circunstancias genéticas, excepto las ligas al sexo.

Autosómico: 1. relativo a o característico de un autosoma. 2. relativo a toda circunstancia que se transmite a través de un autosoma.

Biopsia: Procedimiento diagnóstico que consiste en la extracción de una muestra de tejido obtenida por medio de métodos cruentos para examinarla al microscopio. Esta muestra se envía al laboratorio, donde se corta en secciones y se trata con un tinte para que las células se puedan reconocer más fácilmente. Un patólogo, examina la muestra en el microscopio. Un diagnóstico obtenido por biopsia, es un diagnóstico histológico o anatomopatológico y suele ser un diagnóstico de certeza, sobre todo para el cáncer.

Cadena líder: Durante la replicación del ADN, la cadena se sintetiza de manera continua de 5’ a 3’ hacia la horquilla de replicación.



Cadena retrasada: En la replicación del ADN la cadena se sintetiza de manera discontinua, de 5’ a 3’ desde la horquilla de replicación. Cada pequeño fragmento de ADN sintetizado de esta manera se denomina fragmento Okazaki.

Carcinógeno: Agente físico o químico que da lugar al cáncer.

Cebador: En lo ácidos nucleicos, corto fragmento de ARN o de ADN de cadena sencilla que es necesario para el funcionamiento de las polimerasas.

Células neoplásicas: Las células neoplásicas se dice que están transformadas y continúan replicándose sin obedecer las señales reguladoras que controlan el crecimiento celular normal.

Células somáticas: Todas aquellas células distintas de las células germinales o gametos de un organismo.

Cepa: Grupo de individuos con antecesores comunes que tienen características fisiológicas y morfológicas de interés para el estudio genético o para la mejora.

Ciclinas: Clase de proteínas que se encuentran en las células eucariotas, que se sintetizan y degradan en sincronía con el ciclo celular y regulan el paso a través de las fases del ciclo.

Ciclo celular: Suma de las fases de crecimiento de un tipo celular concreto. Se divide en G1, S (síntesis del ADN), G2 y M (mitosis).

Citoesqueleto: Conjunto interno de microtúbulos, microfilamentos y filamentos intermedios que confieren la forma y la capacidad de movimiento a la célula eucariota.

Citoplasma: Todo la sustancia constitutiva de una célula distinta del núcleo.

Código genético: Tripletes de nucleótidos que codifican los 20 aminoácidos o la iniciación o la terminación de la cadena.

Codón: La información genética se escribe con cuatro letras, pero que van agrupadas de tres en tres. Cada grupo de tres se llama codón y lo que hace es codificar un aminoácido o un símbolo de puntuación (Comenzar, Stop).

Concordancia: Pares o grupos de individuos idénticos en sus fenotipos. En estudios de gemelos, una situación en la que ambos gemelos presentan o dejan de presentar el carácter que se investiga.

Cromatina: Término utilizado para describir el complejo de ADN, ARN, histonas y proteínas no histonicas que forman los cromosomas.

Cromatografía: Técnica de separación de una mezcla de moléculas solubilizadas por su

migración diferencial en un sustrato.

Cromosoma: En procariotas, molécula de ADN intacta que constituye el genoma; en eucariotas molécula de ADN acomplejada con ARN y proteínas para formar una estructura filamentosa en donde se encuentra la información genética dispuesta en secuencia lineal.



Endógeno: Que se origina en el interior del organismo o que se produce por causas internas, como la enfermedad producida por la alteración estructural o funcional de un órgano o sistema.

Deficiencia (deleción): Mutación cromosómica que implica la pérdida de material cromosómico.

Detención intersticial: Tipo de deleción cromosómica con pérdida de material en regiones internas del cromosoma. Las deleciones que implican a los extremos de los cromosomas se llaman terminales.

Doble hélice: Modelo de estructura de ADN propuesto por James Watson y Francis Crack, que implica dos cadenas polinucleotídicas antiparalelas, unidas por puentes de hidrógeno, enrolladas en una configuración helicoidal dextrógira, con 10 pares de bases p’or vuelta de la doble hélice. A menudo se denomina ADN-B.

Duplicación: Aberración cromosómica que consiste en la repetición de un segmento cromosómico.

Duplicación génica: Suceso en la replicación que da lugar a la producción de una repetición en tándem de una secuencia génica.

Endonucleasa: Enzima que hidroliza los enlaces fosfodiéster internos de una cadena polinucleotídica o de una molécula de ácido nucleico.

Endonucleasas de restricción: Enzima que desdobla el ADN en un lugar específico. Cada una de las numerosas y numerosas endonucleasas actúa en un punto de desdoblamiento específico de la especie.

Enlace fosfodiéster: En los ácidos nucleicos, enlace covalente entre un grupo fosfato y el nucleótido adyacente, desde el carbono 5’ de una pentosa (ribosa o desoxirribosa) al carbono 3’ de la pentosa del nucleótido vecino. Los enlaces fosfodiéster forman la columna vertebral de las moléculas de ácido nucleico.

Enlace peptídico: Enlace covalente entre el grupo amino de un aminoácido y el grupo

carboxilo de otro aminoácido.

Enzima: Proteína o complejo proteico que cataliza una reacción bioquímica específica.

Espora: Célula o cuerpo unicelular envuelto por una cubierta protectora producido por alguna bacteria, vegetal o invertebrado; es capaz de sobrevivir en condiciones ambientales desfavorables; puede dar lugar a un nuevo individuo por germinación. En vegetales, las esporas son los productos haploides de la meiosis.

Estadios: Fase o periodo.

Estroma: Trama o armazón, generalmente de tejido conjuntivo, de un órgano o una glándula que sirve para sostener entre sus mallas los diferentes elementos celulares. Debe diferenciarse del parénquima, que es la parte funcional.

Eucariotas: Organismos que tienen núcleo y orgánulos membranosos y cuyas células presentan mitosis y meiosis.



Exón: Bloques (fragmentos) de secuencias de ADN que constituyen a los genes y que codifican para dominios discretos de las proteínas; se intercalan con regiones que no codifican (intrones) en numerosos genes de células de organismos superiores (los eucariontes).

Fenotipo: Propiedades observables de un organismo controladas genéticamente.

Fragmento de Okazaki: Cadenas pequeñas y discontinuas de ADN producidas durante

la síntesis de ADN.

Fluctuaciones: Rango de variación de un determinado valor. Diferencias en el precio de

un título respecto a un promedio de un precio base.

Fluorocromos: Sustancias que emiten fluorescencia al ser excitadas por rayos láser.

Fusificación: Operación que mapea los datos duros a conjuntos difusos.

Ganglios linfáticos: Los ganglios linfáticos son unos nódulos pequeños, suaves y en forma de fríjol que no suelen ser visibles ni son fáciles de sentir al tacto. Están ubicados en racimos en varias partes del cuerpo como el cuello, las axilas y la ingle. Dichos ganglios producen las células inmunes (como los linfocitos, monocitos y células plasmáticas); además, filtran el líquido linfático y eliminan el material extraño, como bacterias y células cancerosas. Cuando las bacterias son reconocidas en el líquido linfático, los ganglios se agrandan a medida que producen y suministran una cantidad adicional de glóbulos blancos para ayudar a combatir la infección.

Gen: Es una secuencia lineal de nucleótidos de ADN o ARN que es esencial para una función específica, bien sea en el desarrollo o en el mantenimiento de una función fisiológica normal. Es considerado como la unidad de almacenamiento de información y unidad de herencia al transmitir esa información a la descendencia. La realización de esta función no requiere de la traducción del gen ni tan siquiera su trascripción. Los genes están localizados en los cromosomas en el núcleo celular y se disponen en línea a lo largo de cada uno de los cromosomas. Cada gen ocupa en el cromosoma una posición determinada llamada locus. El conjunto de genes de una especie se denomina genoma.

Gen estructural: Gen que codifica la secuencia de aminoácidos de una cadena polipeptídica.

Gen supresor de tumores: Gen que codifica un producto que normalmente funciona suprimiendo la división celular. Las mutaciones en los genes supresores de tumores dan lugar a la activación de la división celular y a la formación del tumor.

Genética: Rama de la biología que trata de la herencia y de la expresión de los caracteres hereditarios.

Genoma: Conjunto de genes que lleva un individuo.

Genotipo: Alelo concreto o constitución genética de un organismo; a menudo, la composición alélica de un número limitado de genes sujetos a investigación.

Herencia: Transmisión de caracteres de una generación a la siguiente.


64


Heurística: En computación, dos objetivos fundamentales son encontrar algoritmos para la mayoría de casos buenos tiempos de ejecución y buenas soluciones, usualmente las óptimas. Una heurística es un algoritmo que ofrece uno o ambos objetivos; por ejemplo, normalmente encuentran buenas soluciones, aunque en ocasiones no hay pruebas de que la solución no pueda ser arbitrariamente errónea; o se ejecuta razonablemente rápido, aunque no existe tampoco prueba de que deba ser así.

Hibridación: Alude a la capacidad de las moléculas complementarias de ADN o ARN

monocatenario para formar un dúplex.

Hibridación in situ fluorescente (FISH): Método de hibridación in situ que utiliza sondas

marcadas con una etiqueta fluorescente con el microscopio.

Hibridación in situ: Técnica de localización citológica de secuencias de ADN complementarias a un ácido nucleico o a un polinucleótido determinado.

Histonas: Proteínas acomplejadas al ADN en el núcleo. Son ricas en los aminoácidos básicos arginina y lisina y actúan en el enrollamiento del ADN para formar nucleosomas.

Homocigoto: Individuo con alelos idénticos.

Homocigosis: Formación de un cigoto por la unión de dos gametos que tienen uno o más pares de genes idénticos.

Intrón: Es cada uno de los fragmentos de ADN en la codificación de un gen, que no son

capaces de expresarse bajo la forma de una proteína. Es una secuencia no codificadora de ADN que separa a dos exones. El intrón

inicialmente se transcribe en la molécula de ARN mensajero pero después es eliminado durante el proceso de maduración del ARN. Alrededor del 98.5% de nuestro genoma (restando el 1.5% que corresponde a secuencias codificadoras de genes humanos) es ADN basura.

In vitro: Literalmente, en vidrio; fuera del organismo vivo; que ocurre en un ambiente artificial.

In vivo: Literalmente en vivo; que ocurre dentro del cuerpo vivo del organismo.

Locus: Lugar de un cromosoma en donde se localiza un gen dado. El plural es "loci".

Locus homólogo: Fragmento de ADN que es clonado dentro de un organismo de la misma especie del organismo origen.

Mapa cromosómico: Esquema en el que se representa la localización de los genes en los cromosomas.

Melanoma: Neoplasia maligna derivada de las células productoras de melanina. Es de carácter muy agresivo. Todo "lunar" sospechoso y sobretodo las lesiones obscuras de aparición reciente deben ser evaluadas por el dermatólogo pues podría tratarse de un melanoma.

Metástasis: Proceso en las que las células se separan del tumor primario y se sitúan en

cualquier otra parte del cuerpo, dando lugar a tumores secundarios. Estas células entran al



sistema circulatorio o linfático por donde son transportados hasta fijarse a una red capilar, el 99% de las células mueren y las que sobreviven invaden los tejidos formando un tumor secundario.

Mitocondria: Orgánulo citoplásmico, autorreproducible, que se encuentra en la s células eucariotas y que es el lugar de la síntesis de ATP.

Mitosis: Tipo de división celular que da lugar a la producción de células, cada una de los

cuales con los mismos cromosomas y complementos genético que la célula materna.

mARN: Molécula de ARN transcrita a partir de ADN y traducida a la secuencia aminoacídica de un polipéptido.

Mutación: Proceso que da lugar a la alteración del ADN o de la estructura del cromosoma; el origen de la mayoría de los alelos.

Mutación somática: Mutación que se produce en una célula somática. En otras palabras, tales mutaciones no son heredables.

Nucleasa: Enzima que rompe los enlaces de las moléculas de los ácidos nucleicos.

Núcleo: Orgánulo citoplásmico de las células eucariotas rodeado por una membrana que contiene los cromosomas y el nucleolo.

Nucleolo: Orgánulo nuclear en donde se produce la síntesis de los ribosomas;

normalmente asociado o formado en asociación al NOR.

Nucleótido: Son las piezas de construcción básicas de los ácidos nucleicos. Los nucleótidos que normalmente se encuentran en el ADN son el ácido desoxiadenílico, el ácido desoxicitidílico, el ácido desoxiguanílico y el ácido desoxitimidílico.

Oligonucleótido: Secuencia lineal de nucleótidos (hasta 20) conectados por enlaces fosfodiéster 5’– 3’.

Oncogén: Gen cuya actividad promueve la proliferación de células eucariotas.

Orgánulos: Son las diferentes estructuras suspendidas en el citoplasma de una célula eucariota, que tienen una forma y unas funciones especializadas bien definidas y diferenciadas.

Parénquima: Elemento esencial específico o funcional de un órgano, generalmente glandular, en distinción de la estroma o tejido intersticial.

Polimerasa: Enzima que cataliza la formación de ADN y ARN a partir de desoxirribonucleótidos y de ribonucleótidos, respectivamente.

Polimerasa Taq: Enzima llamada Thermus aquaticus.

Polimorfismo genético: Son los múltiples alelos de un gen entre una población, normalmente expresados como diferentes fenotipos (p.e. el color de la piel es un polimorfismo).



Polímeros: Los polímeros son macromoléculas (generalmente orgánicas) formadas por

la unión de moléculas más pequeñas llamadas monómeros.

Polinucleótidos: Secuencia lineal de más de 20 nucleótidos unidos por enlaces fosfodiéster 5’-3’. Vease oligonucleótido.

Polipéptido: Molécula formada por aminoácidos unidos mediante enlaces peptídicos covalentes. Este término se utiliza para determinar la cadena aminoácido antes de que asuma su configuración tridimensional funcional.

Pólipos: Pequeño crecimiento de aspecto tumoral que sobresale de una mocosa

superficial.

Poliposis: Trastorno caracterizado por la presencia de numerosos pólipos en una región. Proteína: Molécula formada por uno o más polipéptidos formados por aminoácidos

unidos covalentemente entre sí.

Protooncogén: Gen celular que normalmente funciona controlando la proliferación celular. Los protooncogenes se pueden convertir en oncogenes por alteraciones en su estructura o en su expresión.

Provirus: Descubiertos en 1951 por Barbara McClintock en el maíz, son fragmentos de ADN móviles, que constituyen genes y pueden pasar de una célula a otra; no producen enfermedades, sino solamente inducen pequeñas mutaciones en la célula. Podrían considerarse como formas más autónomas de transposones.

Puentes de hidrógeno: Atracción electrostática entre un átomo de hidrógeno unido a un átomo muy electronegativo, como un átomo de oxígeno o de nitrógeno, y uno átomo que sea electronegativo o que contenga un par de electrones no compartidos.

Punto isoeléctrico: Es el pH al que una sustancia anfótera tiene carga neta cero. El concepto es particularmente interesante en los aminoácidos y también en las proteínas. A este valor de pH la solubilidad de la sustancia es casi nula. Para calcularlo se deben utilizar los pKa.

Quelante: Sustancia que produce quelación. Los quelantes se usan en el tratamiento de las intoxicaciones por metales.

Quelación: Relación química en la que se produce una combinación con un metal para formar un complejo molecular en forma de anillo en el que el metal esta firmemente unido y atrapado.

Quinasas: Son enzimas que activan proteínas, en vías de señalización celulares, agregando grupos fosfato a esas proteínas.

Replicación: Proceso de síntesis de ADN.

Represor: Proteína que se une a una secuencia reguladora adyacente a un gen y que bloquea la trascripción del gen.



Ribosoma: Orgánulo ribonucleoprotéico formado por dos subunidades que contiene, cada una, ARN y proteínas. Los ribosomas son los sitios donde los codones de mARN se traducen en la secuencia aminoacídica de una cadena polipeptídica.

Robustez: El grado de capacidad que presenta un sistema o un componente para funcionar correctamente frente a entradas de información erróneas, o carga de trabajo elevada.

Tejido intersticial: Tejido que tiene la función de sostén y por el cual habitualmente circulan las estructuras vasculares, linfáticas y neurales.

Tejido pleural: La pleura es la capa delgada de tejido que cubre la superficie externa de cada pulmón y recubre la pared interior de la cavidad torácica, con lo cual crea un saco que encierra la cavidad pleural. El tejido pleural normalmente produce una cantidad pequeña de líquido que ayuda a los pulmones a moverse suavemente en el tórax mientras la persona respira.

Transcripción: Transferencia de información genética del ADN mediante la síntesis de

una molécula de ARN copiada de un molde de ADN.

Transposones: Son secuencias repetitivas que se han descubierto en bacterias y en células eucarióticas, tienen la particularidad de que son capaces de saltar de un lado a otro del genoma durante la recombinación genética que tiene lugar durante la división celular. Se ha demostrado que una de cada diez veces que esto ocurre, el transposón modifica el ADN de sus inmediaciones, ya sea arrastrando un gen codificador de un cromosoma a otro, rompiéndolo por la mitad o haciendo que desaparezca del todo. La mayor parte del ADN basura (hasta un 50% del total del genoma) corresponde a transposones.

A diferencia de los provirus, los transposones integran en el ADN celular en lugares bien determinados.

Vaso linfático: Vasos finos y transparentes distribuidos por casi todos los tejidos. Se distinguen por su aspecto arrosariado, debido a su luz irregular.

Vhdl: Lenguaje para la síntesis y el modelado de circuitos.



APÉNDICE A

UPIITA-INGENIERÍA BIÓNICA 1


A. TIPOS DE ALGORITMOS

1.A Algoritmos De Reconocimiento Y Analizador Sintáctico.

Versión Funcional del Algoritmo de Cocke-Younger-Kasami (algoritmo-CYK).

Para reconocimiento (ordinario, no difuso) lenguajes libres de contexto. Esta versión

funcional es un buen comienzo en el desarrollo de un algoritmo robusto para

reconocimiento de un lenguaje libre de contexto difuso.

Usualmente el algoritmo CYK es presentado en términos de instrucciones for anidadas

para llenar la matriz triangular superior.

Algoritmo 1.A: tomando una gramática libre de contexto libre de X (vacío) para G = (V, X

P, S) en forma normal Chomsky y una cadena a1a2…an (n> 1) con ak e 2(1 <k<n).

Llenando estrictamente el reconocimiento de la matriz triangular (n + 1)x(n + 1) superior T

por el programa de la figura 1.A, donde cada elemento ti,j es un subconjunto de N = V-Z y

esta inicialmente vacío.

Entonces a1a2… an e L(G) si y solo si Se t0,n.

Ejemplo 1.A Considere la gramática libre de contexto G1 en la forma normal

Chomsky y la cadena abba sobre X Dado S={a,b}, N={S,A,B}, V=NVJ X G1=(V,Z,P1,S)

con P1, vista como un a sustitución anidada libre de X, donde sus reglas son:

Solución: Se desea construir la siguiente tabla por medio del algoritmo 1.A



El método anterior se utiliza para reconocer cadenas a partir de una gramática libre de contexto, utilizando la tabulación de Chomsky para un caso certero.

Una característica de esta formulación es la omisión de detalles de implementación como estructura de datos los índices i, j y k y la longitud n de la cadena de entrada.

En esta formulación necesitamos dos funciones f y g que corresponden a la fase de

inicialización e iteración respectivamente. Estas funciones f:I+^P(N+) y g: P(N+) -►

P(N) están definidos por:



1. Por cada palabra no vacía w en Σ la función f esta definida como la sustitución finita de

longitud preservada generada por:

y extendida a palabras no vacías sobreΣ por:

2. La función g está definida en dos pasos. Primero g:

por:

y

para X y Y en P(N) la operación binaria

M sobre N, g(M) esta definido por:

La versión funcional del algoritmo CYK se lee como sigue:

Algoritmo 2.A: Dado

de X en la forma normal

de Chomsky (Lineal 1- bottom-up) y dado w esta en una cadena no vacía sobre S. Calcule

g(f(w)) y determine si S pertenece al conjunto g(f(w)).

Note que la iteración en el Algoritmo 1.A ha sido reemplazado por la recursión en el algoritmo 2.A desde que g es recursiva Ejemplo 2.A: Aplicando el algoritmo 2.A a la

gramática G1=(V,Σ,P1,S) Dado Σ={a,b}, N={S,A,B}, V=N∪Σ, con P1, donde sus reglas

son las siguientes y las palabras de entrada abba y bbba


esta definida

esta definida por:

En el segundo paso extendemos g a g: si por cada (finito) lenguaje

está en una gramática libre de contexto libre

Claramente, tenemos si y solo si S


Concluimos de nuevo que abbae L(G1) y bbba í L(G1), ya que S e g(f(abba))={S} y S

¿g(f(bbba))=0, respectivamente.

2.A Reconocimiento Descendente Recursivo.

Dado G = (V, Z, P, S) esta en una gramática libre de contexto y N = V - E. El conjunto T

(S,N) de términos sobre (S,N) satisface el conjunto mas pequeño

1. X es un término en T (S,N) y cada a (ae Ves un término en T (S,N). 2 Por cada A en N y cada término t en T (S,N), A(t) es un término en T (S,N). 3. Si t1 y t2 están T (S,N), entonces su concatenación t1 t2 es también un término en

T (S,N).

Algoritmo 3.A: Dado G = (V, Z, P, S) esta en un gramática libre de contexto libre de X en la forma normal de Chomsky y dado w que es una cadena en r. Para cada



esta

definido como sigue. (El símbolo 1 será usado para denotar “indefinido”).

por cada A en N. si el argumento x de A% es una

palabra de longitud 1 (esto es x esta en Z), entonces:

y en el caso de que la longitud |x| de la palabra x es 2 ó mas, entonces:

Finalmente calculamos S(w) y determinamos si X pertenece a S(w). Esto

directamente muestra que w e L(G) si y solo si ^pertenece a S(w).

Ejemplo 3.A: Aplicando el algoritmo 3.A a la gramática

definido por

vista como una

Claramente G10 esta en la forma normal de Chomsky y tenemos L(G10)= L(G5).

Aplicamos el algoritmo 3.A a G10 satisface las entradas [ ] ¿? y [ ¿ ]:

respectivamente (Asveld, 2000).

3.A Algoritmo CYK adaptado para el Lenguaje Libre de Contexto Difuso.


símbolo no terminal A en N asociamos una función

Primero,

esta

sustitución anidada libre de ,es

Concluimos que donde


De este algoritmo se derivan otros dos métodos; la gramática libre de contexto difuso-I,

donde I hace la operación min, es decir, toma únicamente el valor mínimo del grado de

membresía de cada conjunto y la gramática libre de contexto difuso-M, donde M hace un

producto algebraico de los grados de membresía de cada conjunto, estos métodos se

desarrollan a continuación con el Algoritmo 4.A.

Algoritmo 4.A.: Sea G = (V, X, P, S) esta en una gramática libre de contexto libre de X

en forma normal de Chomsky y sea oa esta en una cadena sobre X

Ejemplo 4.A: Aplicando el algoritmo 4.A, considere la gramática libre de contexto

difuso-I, siguiente sustitución difusa anidada libre de X con terminales de V.

Donde los grados de membresía o pertenencia son: M(AA,

P3(S))=0.1, M(BB, P3(S))=0.9.

Finalmente calculando

Por lo tanto tenemos

donde P3,esta definido por la


Aplicando a los ejemplos anteriores, la gramática libre de contexto difuso-Ι, el grado de pertenencia de la cadena abba es de 1, para abbb es de 0.9 y finalmente para aaab es de

0.1, estos valores nos sirven para saber que tan cerca se esta del valor 1, donde cada grado de membresía que se obtuvo sirve para saber cual de estos ejemplos pertenece a

las reglas de producción de la gramática dada.



4.A Otros ejemplos del algoritmo 3.1

Ejemplo 5.A: Aplicando el algoritmo 3.1, considere la gramática libre de contexto difuso-M, G4=(V,ZP4,S), N = V -U Z={S,A,B}, Z={a,b}, donde P4,esta definido por la siguiente sustitución difusa anidada libre de X con terminales de V.

Donde los grados de membresía o pertenencia son: M(AA,P4(S))=0.1, M(BB,P4(S))=0.9.



En los ejemplos anteriores, se aplica la gramática libre de contexto difuso-Μ, el grado de

pertenencia de la cadena bbbb es de 0.81, para la segunda es de 0.01 y finalmente para la

tercera es de 0, como podemos observar el ejemplo mas cercano a 1 es la primero y el que se encuentra mas lejano a ese mismo valor es el tercero, es decir, que la cadena

bbbb, si se puede obtener de la gramática anterior y por el contrario aab no, de igual

manera los grados que se obtuvieron nos sirven para saber si pertenecen o no a las reglas

de producción de la gramática dada, (Asveld, 2000).

5.A Reconocedor Descendente Recursivo para Lenguajes Libres de Contexto Difuso.

Se obtienen los algoritmos para reconocer lenguajes libres de contexto difuso- L libre

de λ, para gramáticas en la forma normal de Chomsky.



Ejemplo 6.A. Aplicando el algoritmo 5.A a la gramática libre de contexto difuso-M G4=(V,Z,P4,S), N = V -Z Z={S,A,B}, Z={a,b}, donde P4, esta definido por la siguiente sustitución difusa anidada libre de X con terminales de V.

6.A Lenguaje libre de contexto difuso de análisis sintáctico (Parsing).

Este se define de la siguiente forma:

Definición: Sea G = (V, E, P, S) que esta en una gramática libre de contexto difuso-L

con N = V -X Los conjuntos difusos ®a (a e V) de árboles de derivación con su inicial a

están definidos como sigue:


Donde los grados de membresía o pertenencia son:


4. Si con

entonces la

con:

La función esta definida recursivamente por:

b) Para cada

en

Ejemplo 7.A. Obtener el árbol de derivación con su inicial S de la siguiente cadena

bbbb. Considere la gramática libre de contexto difuso-Μ, G9=(V,Σ ,P9,S), N = V -Σ , Σ

={S,A,B}, Σ={a,b}, donde P9, esta definido por la siguiente sustitución difusa anidada libre

de λ con terminales de V.


Soluciones:

Para construir el árbol de derivación se toma S como la raíz (figura 2.A) y

posteriormente la convertimos en BB (por las reglas de producción), mantenemos fija la

segunda B y se convierte a SB la primera, entonces tenemos SBB, tomamos otra vez la S

y la transformamos en BB, y queda BBBB, por último sólo hay que pasarlos a


1

3

. Si

entonces la expresión esta en con

expresión

pertenece a

Finalmente, sea está definida por

a) Por cada t en

Para cada t en es llamado el producto de los árboles de derivación t.


terminales, es decir a letras minúsculas, bbbb. Para las otras soluciones se hacen los

mismos pasos, sólo que se van variando que B queda fija.

Se hacen todas las posibles combinaciones, para este ejemplo sólo existen cuatro

diferentes formas de resolver esta cadena por el método de Parser, que se muestran a

continuación, de igual manera se explicará paso a paso, como se han resuelto:

Una vez que construimos el árbol, se comienza de abajo hacia arriba, esto es desde los

terminales, para la primera solución: después de bbbb, tenemos BBBB, esto se denota así,

B(b), B(b), B(b), B(b), por que las b’s se convierten en B’s, ahora como S la convertimos en

BB, su notación queda, S(B(b), B(b)), con un grado de membresía de 0.9 (por las reglas),

por lo tanto la notación completa es: <S(B(b), B(b)))0.9 ,B(b), B(b) en el siguiente paso,

como se mantuvo fija la segunda B y la que se convirtió fue la primera a SB, entonces

dentro de esa B se encuentra SB y la notación es: B ((S ( B ( b ) , B ( b ) ))0.9 , B(b), B(b)),

finalmente llegamos a la raíz que es S, que fue convertida en BB, con un grado de 0.9

también, por lo que dentro de esta S está el resto de la cadena, para unificar los grados se

hace el producto y se tiene: para <S(B(S(B(b), B(b)),B(b)), B(b)))081 , las demás

soluciones se realizan el mismo procedimiento.



Con este método podemos comprobar que se puede usar cualquiera de los algoritmos anteriores y seguir teniendo el mismo resultado, (Asveld, 2000).

Algoritmo 6.A. Dada la gramática libre de contexto difuso-L libre de

S) en forma normal de Chomsky y dado

Define las funciones para

Donde para la operación binaria esta definida por:

Usando las funciones

a)

b)

conforme a G,

Ejemplo 7.A: Aplicando el algoritmo 5.1 a la gramática libre de contexto difuso-M,

G4=(V,i:,P4,S), N = V -Z, Z={S,A,B}, Z={a,b}, donde P4, esta definido por la siguiente

sustitución difusa anidada libre de X con terminales de V y la entrada b4.


en la cadena

y calculamos el

subconjunto difuso-L de D. Entonces tenemos:

es el subconjunto difuso-

L de

todos los árboles de derivación de x

NOTA: para el desarrollo del ejercicio se tomará el signo

en lugar


Calculando el producto es:

Con este método podemos corroborar los resultados que se obtuvieron empleando el

método de parser, ya que las últimas dos líneas, son los mismos cuatro resultados, para

poderlos ver por separado se muestran a continuación, cada uno con un grado de

membresía de 0.81.

7.A Algoritmo CYK para un lenguaje libre de contexto difuso- L parsing (analizador

sintáctico).

con


Como consecuencia (Asveld, 2000).

Algoritmo 7.A: Dada la gramática libre de contexto difuso-

L libre

de

en forma normal de Chomsky y una cadena

subconjunto finito de N x L con

vacío.

Usualmente cada mi,j esta inicialmente

Entonces todos consisten de pares (t,s) por su puesto que t es un

árbol de derivación de G con

Ejemplo 8.A: Obtener el análisis sintáctico (parsing) en la forma ta

en el algoritmo 7.A, considerar la gramática libre de contexto

difuso-Μ

la cadena [, [, ?, terminal

considerando las siguientes reglas:

y atiene valor de 1 en otro casos. La gramática G8 esta en forma normal de Chomsky libre

de X. Solución: Paso 1: Tabular en forma diagonal la cadena, poniendo también su

símbolo, basándose en las reglas de producción.


Construyendo estrictamente la matriz triangular M de análisis sintáctico

con el programa de la figura 3.A, donde cada elemento mi,j es un

tabular, basándose

con


Paso 2: Para obtener el t0,2 , se toman los valores de t0,1 y t1,2 y se realiza la multiplicación

uno a uno, utilizando las reglas. Por lo tanto la tabla quedará de la siguiente manera:

Paso 3: Para obtener t1,3 , se toman los valores de t1,2 y t2,3 y se realiza la multiplicación uno

a uno, utilizando las reglas. Por lo tanto la tabla quedará de la siguiente manera:

Paso 4: Para obtener el t0,3 , se toman los valores de (t0,1 y t1,3) y(t0,2 y t2,3) se realiza la

multiplicación uno a uno, tomando en cuenta los valores que no se repite. Por lo tanto la

tabla quedará de la siguiente manera

Ahora concluimos que y aquí el

árbol de derivación que se

muestra en la parte de a bajo, para la cadena [ [ ? es por que sabemos que A no es una raíz de la cadena, es

el siguiente,(Asveld, 2000).

UPIITA-INGENIERÍA BIÓNICA

17

con

Algoritmo 8.A. Dada la gramática libre de contexto difuso-L libre de

en la cadena Para cada símbolo no


y en caso que la longitud de x de la palabra x sea 2 o más, entonces

Finalmente calculando el conjunto difuso

Esto es fácil al mostrar que

libre de contexto difuso-Μ, definido por la siguiente sustitución difusa anidada libre de

4

donde P4, est

Solución: Se hacen todas las combinaciones de acuerdo a las reglas, es decir, para la primera

regla es AB, BA, AA/0.1, y BB/0.9

El segundo paso es anular la combinación que no viene en las reglas como es,


Ejemplo 9.A: Obtener la forma recursiva, aplicando el algoritmo 8.A a la gramática

con terminales de V y la



De igual forma se desarrolla haciendo las combinaciones para A en la segundo regla:

Si seguimos el orden tocaría el turno a

Sólo falta calcular


pero necesitamos saber antes el valor

de para obtener su resultado.


Como se puede notar el resultado que se obtuvo en este ejercicio es, nuevamente el

árbol de derivación con el grado de membresía del ejercicio 9, (Asveld, 2000).

8.A Ejercicios Forma Normal De Chomsky o FNC.

Ejercicio 9.A: Dada la gramática G = ({S, A}, {a, b}, P, S) y P se define con las siguientes

reglas de producción:

Encontrar una gramática equivalente a la forma normal de Chomsky (FNC).

Solución:

Como ya sabemos la FNC es de la siguiente manera: A→ BC ó A→a . Donde A,B y C

son variables yaes un terminal, entonces, el paso 1 es desglosar cada una de las reglas

de producción, para visualizar cuales son las que se tienen que cambiar.

Paso 2: Sustituir los terminales por C’s, cada una con su subíndice de la letra que se esta reemplazando, esto solo se hace en las reglas que estén combinadas con mayúsculas o

haya dos terminales juntas.

Paso 3: Sustituir las dos primeras letras de cada regla por D’s donde cada D lleva un subíndice con el número de D que se van utilizando.



Paso 4: Una vez realizado todas las sustituciones, ya se tienen las nuevas reglas de

producción en la forma normal de Chomsky.

9.A Forma normal de Greibach o FNG.

Ahora desarrollaremos un teorema en forma normal, que usa producciones cuyo lado

es el derecho, cada inicio con tal vez un símbolo terminal seguido de una variable.

Lema 1: Se define una producción A siendo una producción con variable A en la

izquierda. Sea una gramática libre de contexto. Sea una

producción en P y

se obtiene desde G para borrar la producción

adicionar la producción

en P y

Demostración: Obviamente entonces sí es usada en una

derivación de G1, esto es y podemos usarla también en G.

producción de G no en G1. Cada vez que

G, la variable B debe ser reescrita en el siguiente paso usando la producción de la

forma

es decir, dos pasos pueden ser reemplazados por un simple

Lema 2: Sea G=(V, T, P, S) una gramática libre de contexto. Sea

símbolo más a la izquierda del lado derecho. Sea

producciones A restantes. Sea formando una gramática libre de

contexto para adicionar la variable B a V y reemplazar todas las producciones A por las

siguientes producciones:


siendo el conjunto de todas las producciones B.

Sea

entonces

Demostramos que donde la notación es solamente la

es usada en una derivación para

paso

siendo el conjunto de producciones A para los cuales es el

para las

producciones de la forma deben terminar eventualmente con una

La secuencia es reemplazada por:

en G puede ser reemplazado en G1 por:

La transformación inversa también se puede hacer, así La figura 5.A

muestra la transformación de el árbol de derivación, donde podemos

observar que en G, hay una cadena de A’s extendida hacia la izquierda y es reemplazada

en G1 por una cadena de B’s extendida hacia la derecha.

sin

Teorema 2: (forma normal de Greibach o FNG), cada lenguaje libre de contexto L

puede estar generado por una gramática con una producción de la

donde A es una variable y a es un terminal y es una cadenas de

variables (posiblemente vacíos).

Demostración: Sea G=(V, T, P, S) es una gramática en la forma normal de Chomsky generando el lenguaje libre de contexto L. Asuma que primer paso en la construcción es la modificación de las producciones,

esto es, sí

Si

con generamos un nuevo conjunto de

producciones sustituyendo por el lado derecho a Aj de cada producción Aj de acuerdo


22

Demostración: En una derivación más a la izquierda, de una secuencia de

producción

forma

el

es una producción, entonces

Inicializando con A1 hasta Am,

aciendo lo siguiente: asumimos que las producciones son modificada para

y es una producción solamente si Ahora modificamos las producciones

es una producción


Las producciones con

introduciendo una nueva variable Bk . El algoritmo esta dado en la figura 6.A.

Para repetir el proceso sobre cada variable original, tenemos sólo la producción de la

forma:

Note que el símbolo más a la derecha de el lado izquierdo de alguna producción para

Am debe ser un terminal, es la variable de número mas alto. El símbolo más a la

derecha de el lado izquierdo de alguna producción para Am-1 debe ser cualquier Am o un

símbolo terminal. Cuando este es Am, podemos generar nuevas producciones para

reemplazar Am para el lado derecho de las producciones para Am de acuerdo al Lema 1.

Estas producciones deben tener al lado izquierdo como inicial a un símbolo terminal.

Con el último paso examinamos las producciones de las nuevas variables B1, B2,...,

Bm . Dado que iniciamos con una gramática en forma normal de Chomsky es


al lema 1. para repetir el proceso k -1, obtenemos las producciones de la forma

son reemplazadas de acuerdo al lema 2,


fácil probar para el número de aplicaciones del Lema 1 y 2 que el lado izquierdo cada

producción Ai , 1≤i ≤ n, inicializando con un terminal o Aj Ak , para alguna j y k. Por

tanto α en la línea (7) de la figura 4.A nunca puede ser vacío o inicializar con algún Bj ,

así como una producción Bi no puede iniciar con otra Bj . Por lo tanto todas las

producciones Bi , tienen en el lado izquierdo inicializando con terminales o Ai 's y más de

una aplicación del lema 1 para cada producción Bi completando la construcción,

(Hopcropft, 1979).

Ejercicio 10.A: Dada la gramática G =({ A1, A2, A3}, {a, b}, P, A), convertirla a la forma

normal de Greibach: donde P tiene las siguientes reglas de producción:

Solución

Sustituimos A1 en A3

Ahora reemplazamos la primera A2 en A3

Recordemos que la forma normal de Greibach debe tener la siguiente estructura:

Aplicando el lema 2, nos dice que las producciones A deben ser reemplazadas por:

Entonces estas producciones las aplicamos a A3


24


por lo tanto,

unificando esta cadena queda: y tenemos que

Ahora sustituimos el resto de la cadena de

en

es decir,

donde A3 queda de la siguiente forma:

Por lo tanto el conjunto resultante es:

Tomando en cuenta el conjunto anterior sustituimos A3 en A2

Una A1

vez hecho esto, sustituimos A2 en

Finalmente sustituimos A1 en B3

Por lo tanto las nuevas reglas de producción son:

Los dos métodos anteriores de la simplificación de las gramáticas libres de contexto,

nos sirven para convertir cualquier gramática que se encuentre en una forma diferente a la forma normal de Chomsky o de Greibach. Una vez teniendo estas formas podemos aplicar

cualquiera de los algoritmos que se han estudiado anteriormente, (Hopcroft, 1979).

UPIITA-INGENIERÍA BIONICA

Y como


APÉNDICE B



B. PROGRAMAS USADOS EN LA PLATAFORMA JAVA.

Programa 1.B: programa utilizado para eliminar los espacios y números de los archivos

de ADN extrayendo de ellos únicamente las secuencias que sirvieron para realizar los

alineamientos. Este programa fue realizado por el Dr. Herón.


28


cuenta++ ; } }

for (int i=0;i<cuenta;i++) w4

+= c2[i];

System.out.println(w4);

char buffer2[] = new char [w4.length()];

w4.getChars(0, w4.length(), buffer2, 0);

FileWriter f1 = new FileWriter("ADNlibre2.txt");

for (int i=0; i < buffer2.length; i++) { f1.write(buffer2[i]);

} fr1.close();

f0.close();

fr2.close();

f1.close();

PROGRAMA 2.B: programa utilizado para realizar las primeras pruebas preliminares y

hacer el reconocimiento de patrones para una cadena aleatoria de 28 pb. El programa se

divide en dos partes, en la primera parte se establece el nombre de los archivos de ADN

que leerá para poder compararlos, los contadores y crea el archivo de texto donde se

guardan los grados de membresía, posteriormente llama al segundo programa utilizándolo como una función. En la segunda parte se programa, tanto la gramática como los grados

de membresía. Para este caso los grados de membresía son aleatorios. Este programa fue

realizado por el Dr. Herón

PRIMERA PARTE:



SENGUNDA PARTE:






32




34


Programa 3.B: programa utilizado para realizar otra prueba. En este programa se

hicieron los cambios de la gramática pertinentes de acuerdo a la cadena empleada (tcgat),

los grados de membresía siguen siendo aleatorios. Para ejecutar este programa, se tomó

el realizado por el Dr. Herón, haciendo sólo las modificaciones necesarias para la cadena

cancerígena.

Primera parte:



Segunda parte:


36



37



38




Programa 4.B: programa utilizado para realizar otra prueba. A este programa se

hicieron los cambios de la gramática pertinentes de acuerdo a la cadena empleada

(tcgtcactag), los grados de membresía son aleatorios. Para ejecutar este programa, se

tomó el realizado por el Dr. Herón, haciendo sólo las modificaciones necesarias para la cadena cancerígena.





Segunda parte:















Programa 5.B: Este programa compara una cadena con cáncer con una secuencia cancerígena, usando la gramática libre de contexto difusa de la cadena con cáncer (atctat).

Los grados de pertenencia se tomaron con respecto a lo largo de la cadena. De igual

manera se divide en dos partes como los anteriores. Para ejecutar este programa, se tomó

el realizado por el Dr. Herón, haciendo sólo las modificaciones necesarias para la cadena

cancerígena.

Primera Parte:


49


Segunda Parte:






52



53




Programa 6.B: Este programa hace la comparación de una cadena sin cáncer contra una secuencia con cáncer se emplea la gramática libre de contexto difusa de la cadena sin

cáncer (acccccatttac). Los grados de pertenencia se tomaron con respecto a lo largo de la

cadena. De igual manera se divide en dos partes como los anteriores. Para ejecutar este

programa, se tomó el realizado por el Dr. Herón, haciendo sólo las modificaciones

necesarias para la cadena sin cáncer.

Primera parte:


55


Segunda parte:


56


















APÉNDICE C



C.1 ALINEAMIENTOS CON SECUENCIAS CON CÁNCER CONTRA CÁNCER




67




C.2 ALINEAMIENTOS CON SECUENCIAS CON CÁNCER CONTRA SIN CÁNCER



C. ALINEAMIENTOS CON SECUENCIAS CON CÁNCER Y PROTEÍNAS DEL CROMOSOMA 18P




71




73

Análisis del ADN por medio del uso de lógica ... - Tesis IPN

Documents