"Análisis de la variabilida población adulta y pe Estu MÁSTER EN BIO ESCUELA NACIO CENTRO/EMPRESA DONDE School of Medicine, Infect Data Base DIRECTOR DE LA TESIS (TU CODIRECTOR DE LA TESIS ( FECHA: 13-01-2016 ad genética y dinámica de transmisión erteneciente a diferentes regiones ge udiante: Patricia Rojas Sánchez OINFORMÁTICA Y BIOLOGÍA COMPUTACION ONAL DE SALUD- INSTITUTO DE SALUD CARLO 2014-2015 E SE DESALLORARON LAS PRACTICAS: Univer tious diseases and geographic medicine, HIV UTOR DE LA EMPRESA): Dr. Robert Shafer (TUTOR POR EL MASTER): José María Fernán 1 n del VIH-1 en eográficas” AL OS III rsidad de Stanford, V Drug Resistance ndez
47
Embed
Análisis de la variabilidad genética y dinámica de ... · PDF fileTabla II.2. Frecuencia de codones mutantes y wild type según subtipo en el gen RT. Tabla II.3....
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
"Análisis de la variabilidad genética y dinámica de transmisión del VIH
población adulta y perteneciente a
Estudiante: Patricia Rojas Sánchez
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
ESCUELA NACIONAL DE S
CENTRO/EMPRESA DONDE SE DESALLORARON LAS PRACTICAS:
School of Medicine, Infectious diseases and geographic medicine, HIV Drug Resistance
Data Base
DIRECTOR DE LA TESIS (TUTOR DE
CODIRECTOR DE LA TESIS (TUTOR POR EL MASTER):
FECHA: 13-01-2016
"Análisis de la variabilidad genética y dinámica de transmisión del VIH
perteneciente a diferentes regiones geográficas”
Estudiante: Patricia Rojas Sánchez
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III
2014-2015
CENTRO/EMPRESA DONDE SE DESALLORARON LAS PRACTICAS: Universidad de Stanford,
School of Medicine, Infectious diseases and geographic medicine, HIV Drug Resistance
DIRECTOR DE LA TESIS (TUTOR DE LA EMPRESA): Dr. Robert Shafer
CODIRECTOR DE LA TESIS (TUTOR POR EL MASTER): José María Fernández
1
"Análisis de la variabilidad genética y dinámica de transmisión del VIH-1 en
diferentes regiones geográficas”
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
INSTITUTO DE SALUD CARLOS III
Universidad de Stanford,
School of Medicine, Infectious diseases and geographic medicine, HIV Drug Resistance
José María Fernández
2
Índice Tablas y figuras: .................................................................................................................................. 3
1.1. Generalidades del VIH ......................................................................................................... 5
1.2. Diversidad Genética del VIH ............................................................................................... 8
1.3. Variantes Genéticas del VIH ................................................................................................ 9
1.4. Patogenia y TAR de VIH ................................................................................................... 10
1.5. Resistencia a fármacos antirretrovirales............................................................................. 11
1.6. Situación epidemiológica del VIH ..................................................................................... 13
1.7. Grupo receptor y bioinformática ........................................................................................ 14
2. Enunciado de las prácticas .................................................................................................... 15
3. Organización de la memoria de trabajo: ............................................................................... 16
CAPÍTULO II ................................................................................................................................... 17
“Conocer y analizar la variabilidad genética del VIH-1 en población adulta procedente de países de recursos limitados” ....................................................................................................................... 17
1. Objetivos y Justificación del trabajo: .................................................................................... 17
2. Materiales y Métodos: ........................................................................................................... 18
5. Limitaciones del estudio: ...................................................................................................... 31
CAPÍTULO III .................................................................................................................................. 32
“Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión en población adulta y naïve infectada por VIH-1” ................................................................................................. 32
1. Objetivos y Justificación del trabajo: .................................................................................... 32
2. Materiales y Métodos: ........................................................................................................... 33
Las tablas y figuras se enumeran por orden de aparición, están compuestas por dos dígitos,
el primero hace referencia al capítulo en el que aparece y el segundo al orden de aparición
en dicho capítulo.
Capítulo I: Introducción
Figura I.1. Estructura del virión del VIH.
Figura I.2. Organización del genoma del VIH.
Figura I.3. Ciclo infectivo y replicativo del VIH.
Figura I.4. Clasificación del VIH.
Figura I.5. Prevalencia de la infección por VIH en población adulta (rango edad 15-49).
Tabla I.1. Listado de mutaciones de resistencia en población naïve y pretratada.
Capítulo II: Conocer y analizar la variabilidad genética del VIH-1 en población adulta
procedente de países de recursos limitados
Figura II.1. Origen de las secuencias con desglose de subtipo para países LMIC.
Tabla II.1. Número de secuencias disponibles en ProbeDB para cada gen (RT, PR e INT) y
región.
Tabla II.2. Frecuencia de codones mutantes y wild type según subtipo en el gen RT.
Tabla II.3. Frecuencia de codones mutantes y wild type según el subtipo en el gen PR.
Tabla II.4. Número de secuencias flanqueantes diferentes y frecuencia máxima de la
secuencia consenso para las posiciones asociadas a mutaciones de resistencia en PR y RT.
Capítulo III: Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión
en población adulta y naïve infectada por VIH-1. Figura III.1. Resumen del output generado por el programa DistanceCalculator tras procesar
3,376 secuencias pol.
Figura III.2. Resumen del output generado por el programa tn-93 tras procesar 3,376
secuencias pol.
Figura III.3. Frecuencia de DRM en los diferentes clústeres para d ≤ 1.
Figura III.4. Distribución de DRM por pacientes d ≤ 1.
Figura III.5. Frecuencia de DRM en los diferentes clústeres d ≤ 1,5.
Figura III.6. Distribución de DRM por pacientes d ≤ 1,5.
Tabla III.1. Comparación de la organización de los virus en clúster en función de dos
programas diferentes y dos valores de distancias genéticas diferentes.
4
Abstract:
Background: In low- and middle-income countries (LMICs) standard genotypic resistance testing for HIV-1 drug resistance is not routinely available. The major obstacle in the knowledge of the virus is the extreme genetic variability of HIV-1. Additionally, drug resistant mutations in naïve patients seem to be frequent in HIV infected population. This fact may reduce the susceptibility to some antiretroviral treatment (ART).
Methods: We analysed sequences from two different data set from the Stanford HIV Drug Resistance Database. The first has sequences from six LMIC regions. A web site was created to characterize variability relevant to the detection of 6 clinically important drug resistance mutation (DRM) positions: 65, 103, 106, 181, 184 and 190 at RT and 74 and 82 at PR. The second data set is formed by sequences from HIV-1 infected-naïve patients. We developed software to determine the genetic distances between sequences and to characterize the clustering of sequences using scripts and established network analysis.
Results: 26.522 RT and 23.998 PR sequences were included in genetic variability analysis. The total number of distinct wildtype and mutant codons at each DRM position ranged from four for position 184 to 11 for position 190 at RT and one for position 74 to three for position 82 at PR. In the flanking segments, between 11 and 15 of the 24 flanking nucleotide positions were variable in that two or more nucleotides present at frequencies of ≥1%. A total of 3.376 sequences from naïve HIV-1-infected patients were analysed. We developed a program to calculate genetic distances and a total of 5.693.619 distances comparisons were performed. We could find a total of 1.785 HIV-1 sequences pair with distance ≤1%. The most common DRM found in this population were 90M, 41L, 67N, 215D, 103N and 181C.
Conclusion: Our analysis characterizes the extent and nature of the sequence variability at and surrounding eight candidate DRMs by position, subtype, region. We also developed an online program to perform customized queries regarding the variability in HIV-1. Also, analysis of genetic distance can be a predictive tool for resistance mutations, if two individuals appear to have similar genetic distance, they may belong to a particular cluster of transmission.
5
CAPÍTULO I
Introducción
1.1. Generalidades del VIH
El virus de la inmunodeficiencia humana (VIH) es el agente infeccioso causante del síndrome
de inmunodeficiencia adquirida (SIDA). Es un virus ARN clasificado dentro de la familia de los
retrovirus humanos (Retroviridae) y perteneciente al género Lentivirus (1).
Su origen se remonta a múltiples transmisiones zoonóticas del virus de la inmunodeficiencia
del simio (VIS) desde diversos primates no humanos, que tuvieron lugar en África central y
occidental a principios del siglo XX (2).
Se trata de un virus con forma esférica y diámetro de 100-120 nanómetros. El virión está
constituido por una envoltura externa o bicapa lipídica tomada de la membrana de la célula
humana infectada durante el proceso de salida de nuevas partículas virales por gemación.
En la envoltura se encuentra la glicoproteína gp120 unida a la glicoproteína transmembrana
gp41 en forma de trímeros. Bajo la envoltura se sitúa la matriz proteica, y en el interior se
encuentra la cápside icosaédrica. Dentro de ésta se localizan tanto las enzimas virales como
el material genético del virus, constituido por dos cadenas sencillas de ARN de polaridad
positiva de aproximadamente 9,8 kb, asociadas a las proteínas de la nucleocápside (3).
El genoma del VIH codifica tres genes principales, gag, pol y env, que son comunes a todos
los retrovirus. Adicionalmente, existen en el virus otros genes encargados de codificar los
componentes de la partícula vírica y de regular la expresión de los mismos.
El gen gag codifica principalmente las proteínas estructurales que conforman la matriz
(p17), la cápside (p24) y la nucleocápside (p9). El gen pol codifica a las proteínas virales
proteasa (PR), transcriptasa inversa (TI) o retrotranscriptasa (RT) e integrasa (INT) que
participan en la maduración viral, síntesis de ADN a partir del ARN del virus y en su
integración en el genoma celular, respectivamente. El gen env codifica el precursor de las
glicoproteínas de la envoltura.
Finalmente, la capa interna contiene un nucleoide, constituido por dos copias del ARN viral,
y las nucleoproteínas p6 y p7, que estabilizan dichas moléculas de ARN (4) (Figura I.1).
6
El VIH-1 posee además otros genes adicionales con capacidad reguladora (tat, vif, vpr, vpu, y
nef) (5, 6), esenciales para que se lleve a cabo el ciclo viral a través de las proteínas que
codifican. En los extremos 5’ y 3’ del genoma se encuentran secuencias largas repetidas
(LTR), que permiten la circularización e integración en el genoma celular (Figura I.2)
Figura I.1. Estructura del virión del VIH
Figura I.2. Organización del genoma del VIH
El ciclo infectivo y replicativo del VIH puede resumirse en siete etapas principales (Figura
I.3):
1) Interacción entre el virión y su célula diana (linfocitos T CD4+ principalmente) por medio
de la glicoproteína viral gp120, del receptor celular CD4, y de otras proteínas de membrana
celular que actúan como correceptores de virus, entre las que destacan CCR5 y CXCR4.
2) Fusión de la envuelta del virión con la membrana celular, con la liberación en el
citoplasma celular de la cápside viral. Internalizada la partícula viral, la cápside se
desensambla y libera el genoma viral.
3) Síntesis de ADN a partir del ARN viral (transcripción inversa), mediado por la TI. Una vez
sintetizado, el ADN proviral se acopla a una serie de factores celulares y virales, formando el
complejo de preintegración.
4) Este complejo es transportado al núcleo, donde mediante la acción de la INT viral y las
secuencias LTR se integra en el genoma celular, constituyendo la forma proviral del VIH.
Una vez integrado, el VIH puede permanecer latente, replicarse de forma controlada o
7
experimentar una replicación masiva, con el consiguiente efecto citopático sobre la célula
infectada.
5) La replicación del VIH comienza mediante la transcripción del ADN proviral utilizando la
maquinaria celular, produciendo ARN genómico viral y ARNm viral. Una vez en el
citoplasma, el ARNm proporciona la información para la síntesis de proteínas virales. La
traducción genera poliproteínas, o precursores proteicos, que deben ser procesados en
fragmentos funcionales.
6) Las proteínas virales procesadas son ensambladas y se produce el proceso de gemación a
través de la membrana celular.
7) El último paso es la maduración por la acción de la proteasa viral que procesa las
poliproteínas precursoras para formar el virión infectivo (7)
Figura I.3. Ciclo infectivo y replicativo del VIH. Adaptación de: National Institutes of Allergy and Infectious Diseases, EE.UU.
middle income countries; SSEA, Sur y sureste asiático.
3.2 Variabilidad genética del gen RT y PR del VIH-1
Se disponía de un total de 26.522 secuencias del gen RT y 23.998 secuencias del gen PR de
pacientes infectados por VIH-1, pertenecientes las 6 regiones LMIC de interés, cuya
frecuencia resultó ser (para RT y PR respectivamente) mayor en el sur y sudeste de Asia
(32,6%; 31,3%), viéndose disminuida a un 23,5% y 25,2% en África del Este; 22,6% y 20,7%
en África del Sur ; 10,1% y 10,8% en África Occidental; 6,9% y 8,7% en África Central y 4, 3%
y 3,3% en la India . Los subtipos más comunes en esta población fueron, por orden
24
decreciente, el subtipo C (22%), CRF01_AE (20%), A (11%), CRF02_AG (9%), B (6%), D (5%), y
G (2%), siendo los CRFs las formas menos frecuentes. (Figura II.1).
Figura II.1. Origen de las secuencias con desglose de subtipo para países LMIC
Leyenda: Sequence Counts, número de secuencias de cada región de recursos limitados. El diámetro del círculo que cubre cada región indica la frecuencia de cada subtipo. Subtype, Subtipo; Others, otros; X01, CRF01_AE; X02, CRF02_AG.
3.2.1. Análisis de mutaciones de resistencia en posiciones de interés en el gen RT
Se analizaron las posiciones de los aminoácidos 65, 103, 106, 181, 184 y 190 en la RT, ya que
es sabido que dichas posiciones presentan una mayor frecuencia de mutación
(http://hivdb.stanford.edu/DR/). Todos los resultados mostrados a continuación se han
obtenido empleando un tamaño de secuencia flanqueante de 24 nt y situando la posición de
interés en la región central. En concreto, se encontró que las 6 sustituciones más frecuentes
eran K65R, K103N, V106M, Y181C, M184V, y G190A. Las mutaciones K65R y G190M son
mutaciones de resistencia asociadas a ITIAN mientras que K103N, V106M, Y181C y M184V
están asociadas a ITINAN.
En la Tabla II.2 se muestra la prevalencia de los codones wild type y codones mutantes para
cada una de estas posiciones de resistencia en las secuencias RT, con una frecuencia ≥1% y
para cualquier subtipo.
Además, en estas seis posiciones se encontraron otras mutaciones de resistencia (DRMs)
menos comunes con los siguientes cambios: K65N, K103S, V106A, Y181I/V, M184I y
G190S/E/Q. También se encontraron dos mutaciones polimórficas, K103R y V106I, que no
Sequence Counts1,218
4,000
6,000
8,989
SubtypeA
B
C
D
G
Other
X01
X02
25
confieren resistencia significativa a fármacos. El número total de codones analizados (tanto
wild type como codones con DRM) para cada posición de interés varió de 4 (posición 184) a
11 (posición 190) (Tabla II.2).
Se pudo observar que en la posición 65 de la RT, cuyo aminoácido wild type es lisina (K),
aparecía codificado por el codón AAG en el 99,1% de las secuencias de pacientes infectados
por VIH-1 con subtipo C. No obstante, en más del 95% de las secuencias correspondientes a
otros subtipos esta lisina aparecía codificada por el codón AAA.
Tabla II.2. Frecuencia de codones mutantes y wild type según subtipo en el gen RT
Posición DRM Codon AA A B C D G CRF_01 CRF_02
65 wt
AAA K 96,6% 97,7% 0,8% 97,6% 98,8% 98,9% 97,6%
AAG K 3,28% 2,2% 99,1% 2,4% 1,2% 1,1% 2,3%
Mutante
AGA R 84,6% 100% 3,7% 100% 100% 85,8% 93,1%
AGG R 7,7% 0 95,5% 0 0 1,8% 3,4%
AAT N 7,7% 0 0,7% 0 0 2,8% 0
AAC N 0 0 0 0 0 9,4% 3,4%
103 wt
AAA K 95,5% 95,7% 86,1% 96,5% 92,2% 95,7% 98%
AAG K 4,2% 2,1% 10,6% 3,2% 6,8% 3,8% 1,7%
AGA R 0,2% 2,3% 9,5% 9,3% 0,9% 0,5% 0,2%
Mutante
AAC N 84,1% 7,6% 77,2% 75,5% 80,7% 77,6% 82,6%
AAT N 11,2% 17,8% 18,5% 20,4% 19,3% 19,2% 16,8%
AGC S 4,7% 4,3% 4,2% 2% 0 2,5% 0,5%
ACA T 0 0 0 2% 0 0,7% 0
106 wt
GTA V 97,5% 90% 13,3% 95,3% 96,2% 86,3% 97,4%
GTG V 1,7% 2,6% 86,7% 4% 1,2% 8,4% 1,8%
ATA I 0,8% 7,4% 0 0,6% 2,6% 5,2% 0,7%
Mutante
GCA A 85,7% 70,8% 0,4% 80% 90,9% 37,5% 75%
GCG A 0 0 2,4% 0 0 0 0
ATG M 14,2% 29,2% 97,2% 20% 1% 62,5% 25%
181 wt
TAT Y 95,7% 97,5% 96,2% 95,5% 9,9% 98,4% 8,6%
TAC Y 4,3% 2,5% 3,7% 4,5% 90,1% 1,6% 91,4%
Mutante
TGT C 81,8% 96,4% 88,3% 88,4% 7,8% 90,7% 8,5%
TGC C 7,3% 0,9% 4,3% 4,6% 71,8% 3,1% 87,3%
ATT I 5,5% 0,9% 3,9% 0 0 0,2% 0
ATC I 0 0,9% 0,2% 0 1,9% 0,2% 2,1%
GTT V 5,5% 0,9% 3,2% 6,9% 0 5,7% 0,7%
26
GTC V 0 0 0 0 0,97% 0,2% 1,4%
184 wt
ATG M 100% 100% 100% 100% 100% 100% 100%
Mutante
GTG V 90,3% 78% 90,2% 89,4% 83,3% 81,5% 87,6%
GTA V 9,7% 7,3% 6,8% 9,6% 15,4% 14,7% 10,4%
ATA I 0 14,6% 2,9% 0,9% 1,3% 3,7% 2%
190 wt
GGA G 95,2% 95,3% 95,4% 96,3% 98,6% 94,6% 92,7%
GGC G 1,5% 3,2% 1,3% 0,5% 1,4% 3,4% 1,%
GGG G 3,3% 1,5% 3,4% 3,1% 0 2% 5,7%
Mutante
GCA A 73,9% 70,7% 83,4% 89,6% 92,3% 87,9% 89%
GCG A 0 1,2% 1,7% 3,4% 2,5% 2,2% 1,4%
GCC A 0 2,4% 0,74% 0 0 1,2% 0
AGC S 2,3% 24,4% 3,9% 3,4% 2,5% 2,6% 2,7%
AGT S 0 1,2% 1,8% 0 2,5% 1,9% 2,7%
TCA S 1,1% 0 0,9% 0 0 1,4% 1,4%
GAA E 2,3% 0 4,5% 0 0 1,7% 2,7%
CAA Q 0 0 2,9% 3,4% 0 0,9% 0
Leyenda: DRM, mutaciones de resistencia asociados a fármacos antirretrovirales; CRF01, CRF01_AE; CRF02, CRF02_AG; wt, wild type; AA, aminoácido.
En la posición 106, cuyo aminoácido wild type es la valina (V), aparecía codificada por el
codón GTG en el 86,7% de las secuencias de VIH-1 subtipo C, mientras que para más del 90%
de las secuencias de subtipo no-C aparecía codificada por el codón GTA.
En la posición 181, la tirosina (Y) wild type aparecía codificada por el codón TAC en > 90% de
los subtipos G y CRF02_AG pero para otros subtipos dicho aminoácido aparecía codificado,
en más del 95% por el codón TAT. Estos cambios silenciosos dan lugar a una predisposición
natural de diferentes subtipos. En la posición 106, esta predisposición conduce a un
aumento de la prevalencia de la mutación V106M en los virus de subtipo C. Para las
posiciones de resistencia 103, 184, y 190 en la RT, los virus wild type se codifican de manera
similar en todos los subtipos y mediante un codón predominante, AAC, GTG y GCA
respectivamente (Tabla II.2), mientras que en las posiciones 65, 106 y 181 presentaron
variabilidad genética en los diferentes subtipos ya que existen diferentes codones
predominantes según el subtipo. Es importante destacar que todas estas transiciones de un
solo nucleótido entre los diferentes subtipos son mutaciones silenciosas, y por tanto, no
afectan al aminoácido.
27
3.2.2. Análisis de DRM en posiciones de interés en el gen PR
Se analizaron las posiciones 30, 46, 82, 84 y 90 en el gen de la PR, empleando un tamaño de
secuencia flanqueante de 24 nt y situando la posición de interés en la región central. Se
pudo observar que, en ningún caso, salvo en la posición 82, aparecían resistencias asociadas
a IP con una frecuencia igual o superior al 1%. No obstante, encontramos en la posición 74
un codón mutante (S). Se trata de una mutación polimórfica seleccionada débilmente por la
mayoría de los IP. En la Tabla II.3 se muestra la prevalencia de los codones wild type y
codones mutantes para cada una de las posiciones de resistencia en las secuencias PR con
una frecuencia ≥1% y para cualquier subtipo.
Tabla II.3. Frecuencia de codones mutantes y wild type según el subtipo en el gen PR
Posición DRM Codon AA A B C D G CRF_01 CRF_02
74 wt
ACA T 99,3% 100% 99,8% 99,5% 99% 99,5% 97,4%
ACG T 0,7% 0 0,2% 0,5% 0,9% 0,5% 2,6%
Mutante
TCA S 100% 0 100% 100% 100% 100% 100%
82 wt
GTC V 98% 98,8% 97,4% 94,2% 95,4% 99% 97,7%
GTT V 1,8% 0,8% 2,3% 4,5% 4,6% 0,9% 2,2%
GTA V 0,2% 0,3% 0,2% 1,3% 0 0,1% 0,1%
Mutante
ATC I 89,3% 88,9% 94,5% 72,2% 87,7% 99,5% 96,4%
ATT I 10,7% 11,1% 5,5% 27,8% 12,3% 0,5% 3,6%
Leyenda: DRM, mutaciones de resistencia asociadas a fármacos antirretrovirales; CRF01, CRF01_AE; CRF02, CRF02_AG; wt, wild type; AA, aminoácido.
El número total de codones analizados (tanto wild type como codones con DRM) para cada
posición de interés varió de uno (para la posición 74) a 3 (para la posición 82) (Tabla II.3).
3.2.3. Regiones flanqueantes y Variabilidad Posicional
Se analizaron las secuencias flanqueantes de las 6 posiciones de interés para la RT (65, 103,
106, 181, 184 y 190 ) y dos (74 y 82) en PR para cada uno de los subtipos de interés por
separado, así como para todos los subtipos en su conjunto en regiones LMIC. En función de
dichas posiciones asociadas a DRM, pudimos observar entre 9 y 17 secuencias flanqueantes
diferentes con una prevalencia ≥1%. En más detalle, con una frecuencia igual o superior al
28
1%, se observó que para las posiciones 65, 103, 106, 181, 184 y 190 en la RT existían 17, 12,
14, 15, 13 y 9 posiciones flanqueantes diferentes respectivamente y para las posiciones 74 y
82 en la PR existían de 7 a 14 secuencias flanqueantes diferentes considerando todos los
subtipos en su conjunto (Tabla II.4). Se observó diferencia en la variabilidad genética de las
secuencias flanqueantes asociadas a las posiciones de interés según el subtipo.
Especialmente las posiciones 65 (subtipo A), 103 (subtipos A y B), 106 (subtipo B), 181
(subtipos C, G, CRF01_AE, CRF02_AG) y 74 (subtipo B) resultaron tener una elevada
variabilidad genética (Tabla II.4).
Tabla II.4. Numero de secuencias flanqueantes diferentes y frecuencia máxima de la
secuencia consenso para las posiciones asociadas a mutaciones de resistencia en PR y RT
Nº de Secuencias flanqueantes diferentes (Frecuencia máxima encontrada)
No obstante, en la mayoría de las posiciones variables de nucleótidos (del 58% al 85%
dependiendo de DRM) la variabilidad se debía únicamente a transiciones (presencia del
nucleótido A y G o C y T), las cuáles resultan de mismatches en las bases pareadas (A:C y
G:T).
29
4. Discusión:
El principal desafío técnico de este trabajo consistió en desarrollar una aplicación web que
permitiese analizar en detalle la variabilidad genética del VIH-1 en sus 3 genes principales
(RT, PR e INT) para diferentes subtipos, con el fin de identificar qué secuencias serían más
útiles para el diseño de primers o sondas universales (33, 24) para aquellos subtipos que
tienen una mayor frecuencia en países LMIC.
A la vista de los resultados, podemos observar que los países de recursos limitados, a pesar
de ser los más castigados por el VIH, siguen siendo los países menos estudiados y en los que
se analizan un menor número de muestras, dificultando así el conocimiento sobre la
variabilidad genética de esos subtipos que circulan por dichas zonas geográficas (35). Cabe
destacar que, más allá de las zonas endémicas no-B, las infecciones por VIH-1 no-B están
incrementando fuertemente en otras zonas geográficas como Europa y América del Norte.
Además, este fenómeno no tiene solo implicaciones epidemiológicas sino también clínicas,
ya que estudios anteriores han demostrado que dentro de los subtipos no-B del VIH, los
subtipos C y D son más agresivos en términos de progresión de la enfermedad.
Los resultados expuestos muestran las diferencias de variabilidad genética del virus, en 6
posiciones de aminoácidos en el gen RT y en dos posiciones en la PR del VIH-1. Estas
posiciones son conocidas por presentar una mayor frecuencia de resistencias a fármacos
antirretrovirales (36). Se puede observar que los subtipos no-B presentan una mayor
variabilidad genética que el subtipo B del VIH-1. Este hecho, asociado a la introducción de
ART en entornos de recursos limitados y al desconocimiento relativo de la capacidad de
respuesta al ART, puede hacer que el desarrollo de mutaciones de resistencias asociadas a
subtipos no-B varíe, lo que puede ser explicado por la propia variabilidad intrínseca del virus
entre los diferentes subtipos y no sólo por la presión que ejerce el fármaco antirretroviral
(37).
El impacto de determinados subtipos, en términos de aparición de mutaciones de
resistencia asociados a ITAN, se debe principalmente a la más rápida selección de DRM en el
subtipo C del VIH-1 que en los subtipos B y A. Es sabido que el incremento de la mutación
K65R en el subtipo C es debida a la naturaleza polimórfica de este subtipo (38). Tal y como
se muestra en nuestro estudio, donde la secuencia de nucleótidos en esta posición es
diferente para el subtipo B, (codon: AAA) y subtipo C (codon: AAG) tanto para wild type
como en el codón mutante (codon: AGA, subtipo B; codon: AGG subtipo C). Esto es debido
30
principalmente a que en los codones 64, 65 y 66 de la RT existe un tramo homopolimérico
de bases de adenina que difiere entre el subtipo B y C. Ésto conduce a que la RT haga una
pausa durante la síntesis de DNA bicatenario a partir del molde intermedio de una sola
hebra de DNA, proceso que es específico del template, pero independiente de la RT (39, 40,
41). De esta forma, se produce un desalineamiento posterior en el template del subtipo C y
el cebador conduce al cambio del codón wild type (AAG) al mutante (AGG) siendo
responsable del cambio K65R (41).
Respecto a las mutaciones de resistencias asociadas a ITINAN, es sabido que la mayoría de
ellas se producen tras el uso del fármaco nevirapina (NVP)
(http://hivdb.stanford.edu/DR/NNRTIResiNote.html), que se usa frecuentemente para
prevenir la transmisión vertical del virus. Estudios previos han demostrado una mayor
frecuencia de resistencia a este fármaco en las mujeres embarazadas infectadas por subtipo
C, D A y CRF02_AG, observándose ausencia de resistencias antes del embarazo (42, 43).
Por otra parte, Flys TS (44) y Johnson JA (36) revelaron que en los pacientes infectados por
el subtipo C del VIH-1 existía una mayor prevalencia de las mutaciones asociadas a NVP
(K103N y Y181C) en comparación con los pacientes infectados con subtipo A y con virus
resistentes.
Sin duda, los pacientes infectados por subtipo C del VIH-1 son más propensos al desarrollo
de mutaciones de resistencia. De hecho, la mutación V106M se selecciona comúnmente en
los virus del subtipo C después de la exposición a NVP o efavirenz (EFV)
(http://hivdb.stanford.edu/), mientras que la sustitución V106A se selecciona raramente por
estos fármacos en otros subtipos (37). Esto es debido a que la secuencia de nucleótidos en
esta posición (106) está codificada por GTA en virus de subtipo B y por GTG en el subtipo C,
tal y como se observa en nuestros resultados. Una simple transición (G-A) en la primera
posición del codón hace posible el cambio del aminoácido V-M, confiriendo elevada
resistencia a los fármacos EFV y NVP. En contraste, en los virus subtipo B, la sustitución
V106M requiere dos sustituciones (GTA-ATG) lo que hace que esta mutación se produzca
con menor frecuencia (45, 46). Otra sustitución que se encuentra con más frecuencia en
subtipo C es la mutación G190A, que es también un polimorfismo natural del subtipo C (45).
Respecto a las mutaciones de resistencia asociadas a la PR, otros estudios han demostrado
31
que la sustitución L89V se encuentra frecuentemente en los virus CRF02_AG, mientras que
la mutación T49P (asociada a tipranavir (TPV)) aparece más frecuentemente en el subtipo C
que en el subtipo B. La sustitución V82M se encuentra principalmente asociada al subtipo G,
mientras que las sustituciones V82A/F/S aparecen más frecuentemente en otros subtipos.
Es importante destacar que los genes de la proteasa y gag coevolucionan como una unidad
funcional cuando el VIH se somete a la presión de fármacos antirretrovirales inhibidores de
la PR. Las mutaciones en gag pueden actuar como sustituciones compensatorias que
pueden aumentar las tasas y niveles de resistencia a los IP, así como la capacidad replicativa
viral (47).
5. Limitaciones del estudio:
1. Las secuencias analizadas corresponden a pacientes infectados por VIH-1 que han sido
expuestos a TAR y pacientes naïve, por lo que los virus de los pacientes que presentan o han
presentado experiencia a fármacos antirretrovirales pueden exhibir menos diversidad
genética en estas 6 posiciones de aminoácidos de interés que dichas posiciones en las
secuencias de pacientes no tratados.
2. Debido a la extensión limitada del trabajo, no se ha podido analizar la variabilidad
genética del VIH-1 en posiciones que podrían ser de gran interés en el gen de la INT.
Además, los resultados expuestos están asociados a la selección de un tamaño de las
secuencias flanqueantes concreto (24 nt) y en la región central. Sería interesante poder
analizar si estos resultados son diferentes cuando el tamaño de la secuencia flanqueante y la
región varían.
3. A pesar de que el número de secuencias analizadas es elevado, los países LMIC siguen
siendo los menos estudiados aun cuando existen un mayor número de pacientes infectados
por VIH.
4. Sería interesante ampliar el trabajo al análisis de las secuencias de otros genes (como
gag) para analizar que posiciones determinadas de gag coevolucionan con el gen pol, ya que
es probable que diferentes subtipos puedan desarrollar mutaciones gag compensatorias a
diferentes velocidades.
32
CAPÍTULO III
“Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión en población adulta y naïve infectada por VIH-1”
1. Objetivos y Justificación del trabajo:
Los cambios evolutivos en la secuencia del ADN se deben principalmente a cambios de
sustitución de nucleótidos, delecciones e inserciones. Los cambios originados como
consecuencia de sustituciones nucleotídicas se miden en términos de número de
sustituciones por sitio considerando dos secuencias homólogas de ADN. Existen muy
diversos métodos estadísticos que permiten estimar este número de sustituciones
nucleotídicas (48). A partir de datos genéticos se pueden realizar múltiples inferencias y
análisis de estructura poblacional para entender los procesos evolutivos y demográficos
subyacentes que experimentan los individuos infectados por VIH-1 que conforman estas
poblaciones (49). El origen y la expansión geográfica del VIH es objeto de múltiples estudios
que han sido capaz de caracterizarlo de forma adecuada utilizando enfoques filogenéticos
(50). Pero en muchas ocasiones, estos métodos resultan subóptimos para describir los
clústeres de trasmisión recientes del VIH.
Para realizar este trabajo se emplearon aproximaciones filogenéticas, en términos de
clúster, para analizar los patrones generales de transmisión del VIH-1 en población naïve.
Para ello, se analizaron las distancias genéticas (d) de las secuencias disponibles,
identificando qué miembros pertenecen a un mismo clúster, considerando que las
secuencias del gen pol del VIH-1 fueran genéticamente similares (d ≤1% y d ≤1,5%), y
definiendo como clúster de transmisión el formado por grupos de individuos
potencialmente conectados entre sí.
Por lo tanto, el objetivo técnico principal de este trabajo consistió en diseñar un programa
en lenguaje de programación Perl que permitiese calcular la distancia genética de
secuencias del VIH-1 (comparaciones dos a dos).
Es importante señalar que cuando se realiza secuenciación directa por PCR, es posible que el
material genético contenga mezclas alélicas, y como consecuencia, que las secuencias
presenten nucleótidos ambiguos. En la actualidad existen múltiples programas que son
capaces de calcular la distancia genética entre dos secuencias, pero en la mayoría de ellos se
33
ignoran estos codones con mezclas alélicas.
2. Materiales y Métodos:
2.1. Población de estudio
Se analizaron las secuencias pol de pacientes infectados por VIH-1 naïve que habían sido
recopiladas y cedidas por el grupo Stanford HIV Drug Resistance Database Team.
Se analizaron un total de 3.531 secuencias pol (PR+RT) de pacientes infectados por VIH-1
(grupo M), naïve y originarios del Norte de California, durante el periodo 2003- 2014
El data set final de estas secuencias pol (tras eliminar aquellas secuencias duplicadas de los
pacientes) estaba formado por 3.376 secuencias. La mayor parte de los individuos incluidos
en este estudio presentaban más de una secuencia pol tomada a lo largo del tiempo (media
de 3,5 secuencias por paciente; rango, 1–42 secuencias por paciente). Para cada individuo,
se seleccionó la primera secuencia disponible, de esta forma, se analizó únicamente una
secuencia por paciente.
La mayoría de las secuencias estaban formadas por 99 aminoácidos de la PR y cerca de 300
aminoácidos de la RT, cubriendo en la mayor parte de los individuos esas posiciones de
interés susceptibles a mutaciones de resistencias (23).
2.2. MySQL y manejo de datos
Los datos virológicos y epidemiológicos de esta población se almacenaron en una base de
datos MySQL llamada KPNew. Para crear esta nueva base datos se poblaron 4 tablas
diferentes con la información almacenada en 4 archivos txt diferentes, de este modo,
KPNew quedó configurada como:
• tblMutations: En esta tabla se incluía la información relativa a las mutaciones de
resistencias para cada individuo. Inicialmente, esta tabla contenía 3 filas por paciente. Con
filas separadas para la información relativa a los genes PR y RT y para la RT columnas
separadas para las DRMs asociadas a las familias ITIAN e ITINAN.
• blNaiveIsolates: En esta tabla se encontraba almacenada el identificador para cada
paciente y cada secuencia PR y RT.
• tblPRSequences: Esta tabla incluía la información relativa a las secuencias de la PR para
cada paciente. Contenía el número de identificación para cada secuencia y paciente, el
primer (FirstPRAA), el último (LastPRAA) número de aminoácido de la secuencia de PR para
cada secuencia y la secuencia de nucleótidos completa para la PR.
34
• tblRTSequeneces: Esta tabla tenía estructura exacta a la tabla tblPRSequences y contenía
la misma información asociada a la RT.
Con el fin de organizar el set de datos en el menor número de tablas posibles con el fin de
facilitar las posteriores consultas, la base de datos quedó organizada de la siguiente manera:
• tblSequences: Las secuencias de nucleótidos estaban almacenadas, inicialmente, en dos
tablas (tbl PR y tblRT). Posteriormente estas secuencias fueron concatenadas y almacenadas
en una nueva tabla.
Por tanto, la tabla tblSequences contenía la información relativa a las secuencias PR+RT
concatenadas para cada paciente (incluyendo firstPRAA, lastPRAA, firstRTAA, lastRTAA).
• tblmutations: Se creó esta nueva tabla a partir de la tabla tblMutations, la información
almacenada era la misma pero en este caso se simplificó para que existiese una única fila
por paciente y facilitar las consultas.
• Sequences: Esta nueva tabla se creó a partir de tblSequences con el fin de almacenar una
única secuencia por paciente.
• tbldistances: En esta tabla se almacenó la información para las distancias genéticas para
las secuencias pareadas.
2.3. Alineamiento de secuencias
El alineamiento múltiple de estas secuencias se llevó a cabo empleando el software Muscle
(http://www.drive5.com/muscle/) para Linux y empleando como secuencia consenso HXB2.
Muscle es un programa de línea de comandos que requiere el uso del terminal, devolviendo
el alineamiento múltiple en formato Fasta. Además, para visualizar y editar este
alineamiento múltiple se utilizó el programa Jalview (http://www.jalview.org/).
2.4. Cálculo de las distancias genéticas
Dado que es probable que los codones con nucleótidos ambiguos (originados por mezclas
alélicas) sean sometidos a una más rápida evolución que los codones sin esas mezclas, se
desarrolló un programa que fuese capaz de calcular las distancias genéticas incluyendo
dichas mezclas genéticas. Para ello, se creó el programa “DistanceCalculator” (Anexo II)
utilizando lenguaje de programación Perl y lenguaje de consulta SQL.
Este programa requería como input un archivo Fasta en el que las secuencias a analizar
35
estuviesen alineadas y que presentasen un apropiado marco de lectura. De este modo, la
distancia genética se calcula dos a dos entre todos los posibles pares de secuencias.
El output consiste en un fichero txt que muestra todas las distancias genéticas de forma
pareadas.
Adicionalmente, se disponía de otro programa, implementado en C++, que calculaba las
distancias genéticas según el algoritmo tn-93 (https://github.com/spond/TN93). Este
programa tiene mayor capacidad de computación que el programa creado en Perl.
A diferencia de DistanceCalculator, este programa es capaz de determinar todas las
distancias genéticas y sacar en forma de output un fichero txt relacionado con unos valores
determinados de distancia genética.
2.5. Análisis de los clúster de transmisión
Para analizar cómo había tenido lugar la transmisión del VIH-1 en esta población (y
determinar los vecinos más cercanos) se realizó un pequeño programa en lenguaje de
programación R (Anexo III) que permitió agrupar los virus en clústeres según su diversidad
genética. Los resultados fueron visualizados posteriormente utilizando el programa
Cytoscape (51). De esta forma, se analizaron las DRM presentes en cada virus con el fin de
determinar que DRM podrían estar involucradas en un determinado clúster o fenómeno de
transmisión.
3. Resultados:
Nota: Los resultados de este apartado se muestran incompletos ya que el periodo de prácticas no fue
suficiente para terminar el trabajo y por tanto muchos de ellos son aun confidenciales como las
gráficas de clústeres o árboles filogenéticos. No obstante, el grupo receptor de las prácticas quiere
que la colaboración continúe hasta que el trabajo se finalice por completo. Por tanto, los resultados
que se muestra son preliminares y pueden estar sujetos a futuros cambios.
3.1 Análisis de la distancia genética
Se analizó la distancia genética de las 3.376 secuencias pol únicas de pacientes naïve
infectados por VIH-1 mediante el programa implementado en Perl llamado
DistanceCalculator. El programa hizo un total de 5.693.619 comparaciones de secuencias
dos a dos, siendo la distancia media igual a 0,040 (ratio 0,000-0,101) y encontrando un total
de 1.785 pares de secuencias de pacientes infectados por VIH-1 con una d ≤1%.
36
Figura III.1. Resumen del output generado por el programa DistanceCalculator tras procesar 3.376 secuencias pol
Leyenda: Mean Distance, distancia genética media; LowestDistance, distancia genética más baja, HighestDistance, distancia genética más elevada; Distance Bins, rangos de distancia; Total Comparision, número de comparaciones totales, Distance, distancias genéticas; Nº of pairs, número de pares pertenecientes a cada rango de distancias.
3.2 Cálculo de distancia genética empleando el programa tn-93
Dado que el programa DistanceCalculator necesitaba mucho tiempo de computación
(próximo a 6 horas) para resolver el cálculo de distancias genéticas con un set de datos tan
amplio, se utilizó el programa llamado tn-93 implementado en C++ y que además permitía
resolver los codones con mezclas. Este programa se ejecuta desde la línea de comandos y el
tiempo de computación total es segundos, por lo que resultó ser mucho más eficaz que
DistanceCalculator. Además, al tratarse de un programa tan rápido, resulta mucho más
conveniente para determinar qué virus corresponden a un clúster considerando una
determinada distancia genética.
No obstante, los resultados derivados de ambos programas resultaron ser muy similares
para d < 1% (para los valores de d < 1,5% únicamente se empleó el programa tn-93) (Figura
III.2)
37
Figura III.2. Resumen del output generado por el programa tn-93 tras procesar 3.376 secuencias pol
Leyenda: Maximum Distance, distancia genética más elevada; Mean Distance, distancia genética media; Histogram rangos de distancia.
3.3. Análisis de clúster en función de la distancia genética
Tras analizar los dos output generados por ambos programas mediante un pequeño
programa en R (Anexo III) y su posterior análisis con el programa Cytoscape, pudimos
observar que los resultados obtenidos con los programas DistanceCalculator y tn-93 fueron
similares. Además, apenas se encontró diferencia para la distribución de los virus en clúster
cuando se emplea una d <1% y d <1.5% (Tabla III.1). Es importante señalar que el número de
pacientes naïve con mutaciones de resistencia es elevado y próximo a 12% en los tres casos.
Tabla III.1. Comparación de la organización de los virus en clúster en función de dos programas diferentes y dos valores de distancias genéticas diferentes
Leyenda: d, distancia genética; DRMs, mutaciones de resistencia; No of Nodes, Número de nodos, No of Total Clusters, Números de clústeres totales; No Clusters with DRMs, número de clúster en los que se incluyen virus con DRMs; No cluster in which all patients in cluster with DRM, número de clúster en el cual todos los virus presentan mutaciones de resistencia; No Patients with DRMs, número total de pacientes con virus que tienen mutaciones de resistencia.
Tn 93 Non Mixtures d < 1.5% d <1% d <1%
No of Nodes 1464 1066 831No of Total Clusters 373 334 267
No Clusters with DRMs 64 53 48No cluster in whitch all patients in cluster with DRM 32 30 30
No Patients with DRMs 173 (11.8%) 135(12.66%) 104 (12.5%)
38
3.3.1. Análisis de clúster cuando d < 1%
Cuando se analizaron los virus de la población naïve, asumiendo una d <1%, pudimos
observar que existían 1.066 nodos y que esta población se distribuía en 334 clústeres
diferentes. Además, en el 15.9% de los clústeres estaban presentes virus con alguna
mutación de resistencia y en el 9% de los clústeres, todos sus integrantes eran virus con
DRMs (Tabla III.1). Pudimos observar que las DRMs más frecuentes era la L90M asociada a
IPs, M41L D67N, T215D asociada a ITIAN y K103N e I181C asociada a ITINAN.
En más detalle, la Figura III.3 muestra la frecuencia de cada DRM en los diferentes clústeres,
pudiéndose observar como la sustitución K103N es la que aparece en más clústeres (19/53)
diferentes con una frecuencia > al 60% en 9 de ellos. Por otro lado, las sustituciones D67N e
I181C aparecen en menos clústeres (2 y 4 respectivamente). No obstante, cuando aparecen,
están presentes en el 100% de sus integrantes.
Además, se pudo observar que la mutación K103N estaba presente en un mayor número de
pacientes (n =50) que la sustitución L90M (n= 23), M41L (22), T215D (n= 17) y D67N (n = 10)
(Figura III.4)
Figura III.3. Frecuencia de DRM en los diferentes clústeres
IP ITIAN ITINAN
Leyenda: d, distancia genética; IP, inhibidor de la proteasa; ITIAN, inhibidor de la transcriptasa inversa análogo de nucleósido; ITINAN, inhibidor de la transcriptasa inversa no análogo de nucleósido. Los clústeres están diferenciados por color dentro de cada mutación. Mismos colores no se corresponden con mismo clúster.
Frec
uen
cia
39
Figura III.4. Distribución de DRM por pacientes
IP ITIAN ITINAN
Leyenda d, distancia genética; IP, inhibidor de la proteasa; ITIAN, inhibidor de la transcriptasa inversa análogo de nucleósido; ITINAN, inhibidor de la transcriptasa inversa no análogo de nucleósido. Los clústeres están diferenciados por color dentro de cada mutación. Mismos colores no se corresponden con mismo clúster.
3.3.2. Análisis de clúster cuando d < 1.5%
Cuando se analizaron los virus de la población naïve, asumiendo una d <1.5%, pudimos
observar que existían más nodos (1.464) que cuando la d < 1%, distribuyéndose la población
en 373 clústeres diferentes vs los 334 clústeres cuando d < 1%. No obstante, la proporción
de clústeres con DRM (17,1%) fue similar a la proporción de clústeres con DRM observada
cuando d <1% (15,9%). De la misma manera, la proporción de clústeres en los que todos sus
integrantes tienen DRM fue muy similar cuando d <1% (9%) y cuando d <1.5% (8,5%) (Tabla
III.1). Para d <1.5% las DRMs más frecuentes fueron la L90M asociada a IPs, M41L D67N,
T215DE asociada a ITIAN y K103N e I181C asociada a ITINAN (Figura III.5)
En más detalle, la Figura III.5 muestra la frecuencia de cada DRM en los diferentes clústeres,
pudiéndose observar como la sustitución K103N es la que aparece en más clústeres (22/63)
diferentes con una frecuencia > 60% en 8 de ellos. Por otro lado, las sustituciones D67N e
I181C vuelven a ser las menos representadas entre los clústeres (3 y 4), respectivamente.
Pero nuevamente, cuando parece estar presente D67N, lo hace con una frecuencia del 100%
entre sus integrantes.
Nº
de
Pac
ien
tes
40
Figura III.5. Frecuencia de DRM en los diferentes clústeres
IP ITIAN ITINAN
Leyenda: d, distancia genética; IP, inhibidor de la proteasa; ITIAN, inhibidor de la transcriptasa inversa análogo de nucleósido; ITINAN, inhibidor de la transcriptasa inversa no análogo de nucleosido. Los clústeres están diferenciados por color dentro de cada mutación. Los mismos colores en distintas mutaciones no se corresponden con los mismos clústeres. Figura III.6. Distribución de DRM por pacientes
IP ITIAN ITINAN
Leyenda d, distancia genética; IP, inhibidor de la proteasa; ITIAN, inhibidor de la transcriptasa inversa análogo de nucleósido; ITINAN, inhibidor de la transcriptasa inversa no análogo de nucleósido. Los clústeres están diferenciados por color dentro de cada mutación. Los mismos colores en distintas mutaciones no se corresponden con los mismos clústeres.
Frec
uen
cia
N
º d
e P
acie
nte
s
41
Para los virus con d < 1.5% se pudo observar nuevamente que la mutación K103N estaba
presente en un mayor número de pacientes (n =60) seguida de la sustitución M41L (n = 28),