Análisis de la variabilidad genética y dinámica de ... · PDF fileTabla II.2. Frecuencia de codones mutantes y wild type según subtipo en el gen RT. Tabla II.3....

"Análisis de la variabilidad genética y dinámica de transmisión del VIH

población adulta y perteneciente a

Estudiante: Patricia Rojas Sánchez

MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL

ESCUELA NACIONAL DE S

CENTRO/EMPRESA DONDE SE DESALLORARON LAS PRACTICAS:

School of Medicine, Infectious diseases and geographic medicine, HIV Drug Resistance

Data Base

DIRECTOR DE LA TESIS (TUTOR DE

CODIRECTOR DE LA TESIS (TUTOR POR EL MASTER):

FECHA: 13-01-2016

"Análisis de la variabilidad genética y dinámica de transmisión del VIH

perteneciente a diferentes regiones geográficas”

Estudiante: Patricia Rojas Sánchez


ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III

2014-2015

CENTRO/EMPRESA DONDE SE DESALLORARON LAS PRACTICAS: Universidad de Stanford,


DIRECTOR DE LA TESIS (TUTOR DE LA EMPRESA): Dr. Robert Shafer

CODIRECTOR DE LA TESIS (TUTOR POR EL MASTER): José María Fernández

1

"Análisis de la variabilidad genética y dinámica de transmisión del VIH-1 en

diferentes regiones geográficas”


INSTITUTO DE SALUD CARLOS III

Universidad de Stanford,


José María Fernández

2

Índice Tablas y figuras: .................................................................................................................................. 3

Abstract: .............................................................................................................................................. 4

CAPÍTULO I ....................................................................................................................................... 5

Introducción ........................................................................................................................................ 5

1.1. Generalidades del VIH ......................................................................................................... 5

1.2. Diversidad Genética del VIH ............................................................................................... 8

1.3. Variantes Genéticas del VIH ................................................................................................ 9

1.4. Patogenia y TAR de VIH ................................................................................................... 10

1.5. Resistencia a fármacos antirretrovirales............................................................................. 11

1.6. Situación epidemiológica del VIH ..................................................................................... 13

1.7. Grupo receptor y bioinformática ........................................................................................ 14

2. Enunciado de las prácticas .................................................................................................... 15

3. Organización de la memoria de trabajo: ............................................................................... 16

CAPÍTULO II ................................................................................................................................... 17

“Conocer y analizar la variabilidad genética del VIH-1 en población adulta procedente de países de recursos limitados” ....................................................................................................................... 17

1. Objetivos y Justificación del trabajo: .................................................................................... 17

2. Materiales y Métodos: ........................................................................................................... 18

3. Resultados: ............................................................................................................................ 22

4. Discusión: .............................................................................................................................. 29

5. Limitaciones del estudio: ...................................................................................................... 31

CAPÍTULO III .................................................................................................................................. 32

“Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión en población adulta y naïve infectada por VIH-1” ................................................................................................. 32

1. Objetivos y Justificación del trabajo: .................................................................................... 32

2. Materiales y Métodos: ........................................................................................................... 33

3. Resultados: ............................................................................................................................ 35

4. Discusión: .............................................................................................................................. 41

5. Limitaciones: ......................................................................................................................... 42

CAPÍTULO IV .................................................................................................................................. 43

Conclusiones finales.......................................................................................................................... 43

BIBLIOGRAFIA: ............................................................................................................................. 44

3

Tablas y figuras:

Las tablas y figuras se enumeran por orden de aparición, están compuestas por dos dígitos,

el primero hace referencia al capítulo en el que aparece y el segundo al orden de aparición

en dicho capítulo.

Capítulo I: Introducción

Figura I.1. Estructura del virión del VIH.

Figura I.2. Organización del genoma del VIH.

Figura I.3. Ciclo infectivo y replicativo del VIH.

Figura I.4. Clasificación del VIH.

Figura I.5. Prevalencia de la infección por VIH en población adulta (rango edad 15-49).

Tabla I.1. Listado de mutaciones de resistencia en población naïve y pretratada.

Capítulo II: Conocer y analizar la variabilidad genética del VIH-1 en población adulta

procedente de países de recursos limitados

Figura II.1. Origen de las secuencias con desglose de subtipo para países LMIC.

Tabla II.1. Número de secuencias disponibles en ProbeDB para cada gen (RT, PR e INT) y

región.

Tabla II.2. Frecuencia de codones mutantes y wild type según subtipo en el gen RT.

Tabla II.3. Frecuencia de codones mutantes y wild type según el subtipo en el gen PR.

Tabla II.4. Número de secuencias flanqueantes diferentes y frecuencia máxima de la

secuencia consenso para las posiciones asociadas a mutaciones de resistencia en PR y RT.

Capítulo III: Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión

en población adulta y naïve infectada por VIH-1. Figura III.1. Resumen del output generado por el programa DistanceCalculator tras procesar

3,376 secuencias pol.

Figura III.2. Resumen del output generado por el programa tn-93 tras procesar 3,376

secuencias pol.

Figura III.3. Frecuencia de DRM en los diferentes clústeres para d ≤ 1.

Figura III.4. Distribución de DRM por pacientes d ≤ 1.

Figura III.5. Frecuencia de DRM en los diferentes clústeres d ≤ 1,5.

Figura III.6. Distribución de DRM por pacientes d ≤ 1,5.

Tabla III.1. Comparación de la organización de los virus en clúster en función de dos

programas diferentes y dos valores de distancias genéticas diferentes.

4

Abstract:

Background: In low- and middle-income countries (LMICs) standard genotypic resistance testing for HIV-1 drug resistance is not routinely available. The major obstacle in the knowledge of the virus is the extreme genetic variability of HIV-1. Additionally, drug resistant mutations in naïve patients seem to be frequent in HIV infected population. This fact may reduce the susceptibility to some antiretroviral treatment (ART).

Methods: We analysed sequences from two different data set from the Stanford HIV Drug Resistance Database. The first has sequences from six LMIC regions. A web site was created to characterize variability relevant to the detection of 6 clinically important drug resistance mutation (DRM) positions: 65, 103, 106, 181, 184 and 190 at RT and 74 and 82 at PR. The second data set is formed by sequences from HIV-1 infected-naïve patients. We developed software to determine the genetic distances between sequences and to characterize the clustering of sequences using scripts and established network analysis.

Results: 26.522 RT and 23.998 PR sequences were included in genetic variability analysis. The total number of distinct wildtype and mutant codons at each DRM position ranged from four for position 184 to 11 for position 190 at RT and one for position 74 to three for position 82 at PR. In the flanking segments, between 11 and 15 of the 24 flanking nucleotide positions were variable in that two or more nucleotides present at frequencies of ≥1%. A total of 3.376 sequences from naïve HIV-1-infected patients were analysed. We developed a program to calculate genetic distances and a total of 5.693.619 distances comparisons were performed. We could find a total of 1.785 HIV-1 sequences pair with distance ≤1%. The most common DRM found in this population were 90M, 41L, 67N, 215D, 103N and 181C.

Conclusion: Our analysis characterizes the extent and nature of the sequence variability at and surrounding eight candidate DRMs by position, subtype, region. We also developed an online program to perform customized queries regarding the variability in HIV-1. Also, analysis of genetic distance can be a predictive tool for resistance mutations, if two individuals appear to have similar genetic distance, they may belong to a particular cluster of transmission.

5

CAPÍTULO I

Introducción

1.1. Generalidades del VIH

El virus de la inmunodeficiencia humana (VIH) es el agente infeccioso causante del síndrome

de inmunodeficiencia adquirida (SIDA). Es un virus ARN clasificado dentro de la familia de los

retrovirus humanos (Retroviridae) y perteneciente al género Lentivirus (1).

Su origen se remonta a múltiples transmisiones zoonóticas del virus de la inmunodeficiencia

del simio (VIS) desde diversos primates no humanos, que tuvieron lugar en África central y

occidental a principios del siglo XX (2).

Se trata de un virus con forma esférica y diámetro de 100-120 nanómetros. El virión está

constituido por una envoltura externa o bicapa lipídica tomada de la membrana de la célula

humana infectada durante el proceso de salida de nuevas partículas virales por gemación.

En la envoltura se encuentra la glicoproteína gp120 unida a la glicoproteína transmembrana

gp41 en forma de trímeros. Bajo la envoltura se sitúa la matriz proteica, y en el interior se

encuentra la cápside icosaédrica. Dentro de ésta se localizan tanto las enzimas virales como

el material genético del virus, constituido por dos cadenas sencillas de ARN de polaridad

positiva de aproximadamente 9,8 kb, asociadas a las proteínas de la nucleocápside (3).

El genoma del VIH codifica tres genes principales, gag, pol y env, que son comunes a todos

los retrovirus. Adicionalmente, existen en el virus otros genes encargados de codificar los

componentes de la partícula vírica y de regular la expresión de los mismos.

El gen gag codifica principalmente las proteínas estructurales que conforman la matriz

(p17), la cápside (p24) y la nucleocápside (p9). El gen pol codifica a las proteínas virales

proteasa (PR), transcriptasa inversa (TI) o retrotranscriptasa (RT) e integrasa (INT) que

participan en la maduración viral, síntesis de ADN a partir del ARN del virus y en su

integración en el genoma celular, respectivamente. El gen env codifica el precursor de las

glicoproteínas de la envoltura.

Finalmente, la capa interna contiene un nucleoide, constituido por dos copias del ARN viral,

y las nucleoproteínas p6 y p7, que estabilizan dichas moléculas de ARN (4) (Figura I.1).

6

El VIH-1 posee además otros genes adicionales con capacidad reguladora (tat, vif, vpr, vpu, y

nef) (5, 6), esenciales para que se lleve a cabo el ciclo viral a través de las proteínas que

codifican. En los extremos 5’ y 3’ del genoma se encuentran secuencias largas repetidas

(LTR), que permiten la circularización e integración en el genoma celular (Figura I.2)

Figura I.1. Estructura del virión del VIH

Figura I.2. Organización del genoma del VIH

El ciclo infectivo y replicativo del VIH puede resumirse en siete etapas principales (Figura

I.3):

1) Interacción entre el virión y su célula diana (linfocitos T CD4+ principalmente) por medio

de la glicoproteína viral gp120, del receptor celular CD4, y de otras proteínas de membrana

celular que actúan como correceptores de virus, entre las que destacan CCR5 y CXCR4.

2) Fusión de la envuelta del virión con la membrana celular, con la liberación en el

citoplasma celular de la cápside viral. Internalizada la partícula viral, la cápside se

desensambla y libera el genoma viral.

3) Síntesis de ADN a partir del ARN viral (transcripción inversa), mediado por la TI. Una vez

sintetizado, el ADN proviral se acopla a una serie de factores celulares y virales, formando el

complejo de preintegración.

4) Este complejo es transportado al núcleo, donde mediante la acción de la INT viral y las

secuencias LTR se integra en el genoma celular, constituyendo la forma proviral del VIH.

Una vez integrado, el VIH puede permanecer latente, replicarse de forma controlada o

7

experimentar una replicación masiva, con el consiguiente efecto citopático sobre la célula

infectada.

5) La replicación del VIH comienza mediante la transcripción del ADN proviral utilizando la

maquinaria celular, produciendo ARN genómico viral y ARNm viral. Una vez en el

citoplasma, el ARNm proporciona la información para la síntesis de proteínas virales. La

traducción genera poliproteínas, o precursores proteicos, que deben ser procesados en

fragmentos funcionales.

6) Las proteínas virales procesadas son ensambladas y se produce el proceso de gemación a

través de la membrana celular.

7) El último paso es la maduración por la acción de la proteasa viral que procesa las

poliproteínas precursoras para formar el virión infectivo (7)

Figura I.3. Ciclo infectivo y replicativo del VIH. Adaptación de: National Institutes of Allergy and Infectious Diseases, EE.UU.

(http://www.niaid.nih.gov/topics/HIVAIDS/Understanding/Biology/pages/hivreplicationcycle.aspx).

8

1.2. Diversidad Genética del VIH

Una de las principales características del VIH es su gran heterogeneidad genética, debida a la

combinación de su alta tasa de replicación y sus elevadas tasas de mutación y

recombinación. Se estima que cada 2,5 días, alrededor de 1010 y 1012 viriones son creados y

destruidos. Además, por cada ciclo replicativo, se producen aproximadamente 0,3

sustituciones nucleotídicas y de 2-3 eventos de recombinación en cada cadena de ARN viral

(8).

Es importante señalar que las mutaciones (inserciones y delecciones), permanecen en el

genoma debido a que la TI carece de actividad correctora de errores, siendo incapaz de

eliminar los nucleótidos erróneamente incorporados durante la transcripción inversa. Todo

ello hace que las infecciones de VIH están caracterizadas por una gran diversidad genética,

tanto poblacional como intrahuésped (9, 10), dotando al VIH de una alta capacidad para

generar variabilidad genética y antigénica. Esto le permite burlar la respuesta inmune del

huésped. Además, dicha diversidad reduce significativamente la durabilidad de los

tratamientos antirretrovirales (TARs) (11).

Como consecuencia de lo expuesto anteriormente, dentro de un individuo infectado, el

virus se organiza como una población altamente heterogénea de distintas variantes, con

genomas íntimamente relacionados pero no idénticos (“cuasiespecie viral”). Se trata de un

proceso constante de generación de mutantes, caracterizado por la competición entre ellos

y por la acción de eventos de selección positiva y/o negativa en las variantes generadas.

Estos procesos tienen como resultado la dominancia del genoma o genomas virales con

mayor eficacia biológica o fitness (variantes mayoritarias), rodeado de un amplio espectro

de mutantes (variantes minoritarias) con un extenso rango de fenotipos (12).

Todas estas variantes circulantes pueden integrarse en forma de provirus en las células y así

estar representadas en el reservorio de linfocitos latentemente infectados. Si el medio en el

que replican cambiase, por ejemplo por la respuesta inmunitaria o por la exposición a

fármacos antirretrovirales (ARV), la selección positiva seleccionaría la variante de la

cuasiespecie que llevara aquellos cambios que supusieran una ventaja competitiva en ese

ambiente replicativo.

9

1.3. Variantes Genéticas del VIH

A nivel global, la variabilidad del virus se traduce en la aparición de numerosas cepas

(Figura I.4), que son el objeto de estudio de la epidemiología molecular. Basándose en su

homología genética, el VIH se clasifica en dos tipos, 1 y 2 (13, 14). El VIH-1 es el más

extendido y es el responsable de la mayor parte de los casos de infección por VIH en el

mundo. El VIH-2, identificado en 1986 (14), es más cercano filogenéticamente al VIS que al

VIH-1 y parece ser menos patogénico y menos transmisible.

Atendiendo a su alta variabilidad genética, el VIH-1 ha sido clasificado en cuatro grandes

grupos según su homología genética de secuencias génicas completas o parciales. Estos son:

grupo M (main), grupo O (outlier), grupo N (no-M, no-O) y el reciente grupo P. Los virus del

grupo M han sido subdivididos en nueve subtipos hasta el momento (A-D, F-H, J, K) así

como en recombinantes entre ellos. Los virus recombinantes o mosaico del VIH-1 llevan

fragmentos genómicos de distintos subtipos de los viriones parentales. Estas formas

recombinantes pueden ser circulantes (CRF, circulating recombinant forms) o únicas (URF,

unique recombinant forms). Las CRF son recombinantes entre subtipos con secuencia

completa y puntos de recombinación comunes y que han sido reconocidos en más de tres

individuos infectados no relacionados epidemiológicamente. Hasta el momento se han

descrito 74 CRF (15), cada uno designado por un número identificativo y por los subtipos

genéticos que están presentes en su genoma. Los URF son recombinantes intersubtipo y se

han encontrado en individuos aislados o en grupos de personas infectadas relacionadas

epidemiológicamente, pero no comparten los puntos de recombinación entre subtipos

observados en los CRF conocidos, lo que no permite agruparlos con ellos.

Figura I.4. Clasificación del VIH

Los grupos O, N y P presentan baja prevalencia y se encuentran restringidos a África

subsahariana occidental y central o a casos aislados originarios de esa región. Solo el VIH-1

grupo M se ha expandido desde África, el origen de la pandemia, al resto de continentes,

10

siendo responsables del 97% de los cerca de 35 millones de infecciones estimadas a nivel

mundial. La distribución geográfica de los subtipos del grupo M es muy heterogénea y, poco

a poco, los límites geográficos entre subtipos van desapareciendo.

La infección por variantes no-B del VIH-1 tiene implicaciones epidemiológicas, clínicas y

terapéuticas. En mayor detalle, Las variantes no-B son mayoritarias globalmente y

responsables del 89% de los 34 millones de infectados a nivel mundial. Así, en África central,

por ser el epicentro de la pandemia, coexisten un gran número de variantes del VIH-1. La

forma recombinante CRF02_AG es la más frecuente en África occidental. El subtipo C

predomina en África del sur y oriental y también en la India. El subtipo A, en los países de la

antigua Unión Soviética y en ciertas regiones de África oriental. En el sudeste asiático la

variante predominante es el recombinante CRF01_AE (16).

Esta elevada diversidad genética del VIH-1 tiene graves implicaciones, tanto en el curso de la

infección del virus como en el desarrollo de SIDA, ya que los diferentes subtipos del VIH-1

así como las formas recombinantes presentan sustituciones específicas en posiciones

relacionadas con resistencias. Esto puede acelerar la aparición de virus resistentes ante

determinados TARs (16).

1.4. Patogenia y TAR de VIH

La infección por VIH se clasifica en diversas etapas, identificadas por un conjunto de

síntomas e indicadores clínicos. La fase aguda se inicia en el momento del contagio. En un

plazo de días, el VIH infecta tanto a las células expuestas como a los ganglios linfáticos.

Durante ese tiempo, el VIH se multiplica dentro del organismo hasta alcanzar niveles muy

elevados. A continuación ocurre la fase crónica o de latencia clínica. En ella el portador es

asintomático, ya que el sistema inmune tiene una gran capacidad para regenerar las células

destruidas por el virus, aunque la infección viral termina por desgastar al sistema

inmunológico. Pueden aparecer síntomas como dolor de cabeza, fiebre, picor de piel (17).

En ausencia de TAR, la mayoría de los pacientes desarrollan SIDA en 5-10 años. A causa de

esto, aumenta la carga viral (CV) y disminuye la capacidad de recuperación del sistema

inmune. En la etapa crítica final de la infección por VIH o etapa SIDA el portador posee un

sistema inmunológico muy debilitado y una reducida capacidad citotóxica hacia el virus.

Aumentan las tasas de replicación del virus, disminuyendo la capacidad de reacción ante

otros agentes causantes de enfermedades. De esta manera, el sujeto es presa potencial de

11

numerosas infecciones oportunistas que le pueden conducir a la muerte. En ausencia de

TAR, el virus se replica constantemente e infecta los linfocitos T CD4. La mayoría de los

pacientes que han desarrollado SIDA no sobreviven más de 3 años sin recibir TAR. Sin

embargo, incluso en esta fase crítica el VIH puede ser controlado mediante TAR. La

progresión de la enfermedad puede variar debido a factores asociados al virus y a factores

genéticos e inmunológicos del hospedador, existiendo progresores rápidos y lentos (17).

Los principales parámetros a evaluar durante el seguimiento del TAR son el número y

porcentaje de linfocitos T CD4+, la CV plasmática, la detección de resistencias, la

concentración plasmática de fármacos ARV, la determinación del tropismo viral, la

evaluación del nivel de adherencia al TAR y la caracterización de la variante genética

infectante.

El acceso al TAR ha cambiado drásticamente el curso de la infección por VIH, reduciendo su

morbilidad, mortalidad e incrementado la esperanza de vida de estos pacientes infectados

por el virus (18). De acuerdo con las guías internacionales (19), el TAR de elección tanto para

niños como para población adulta infectada por VIH sería una combinación de dos

inhibidores de la transcriptasa inversa análogos de nucleósidos (ITIAN) y un tercer fármaco

que podría pertenecer a la familia de inhibidores de la transcriptasa inversa no análogos de

nucleósidos (ITINAN) o inhibidores de la proteasa (IP) potenciados con ritonavir (20).

En países de elevados recursos donde existe un fácil acceso al TAR, los pacientes infectados

por VIH presentan una buena situación clínica e inmunológica. No obstante, en los países de

recursos limitados donde existen graves problemas de acceso al TAR, con dosis inadecuadas

y apenas existe monitorización de la infección, los pacientes tienen un mayor riesgo de sufrir

fracaso virológico (21).

1.5. Resistencia a fármacos antirretrovirales

La detección de variantes virales resistentes a los fármacos puede realizarse mediante

técnicas genotípicas o fenotípicas. Los ensayos genotípicos detectan cambios específicos en

la región genética viral que codifica las proteínas diana de los fármacos ARV (TI, PR, INT y

proteínas de la envoltura). Las fenotípicas determinan la respuesta de la población viral

mayoritaria a concentraciones crecientes de los distintos fármacos ARV (22).

La interpretación apropiada de los estudios genotípicos se desarrolla mediante algoritmos

12

computarizados que requieren una actualización continuada. En Internet se puede acceder

a excelentes bases de datos públicas para la interpretación de genotipo, entre otras:

• http://engine.euresist.org/data_analysis/viral_sequence/new

• http://www.geno2pheno.org/

• http://sierra2.stanford.edu/sierra/servlet/JSierra

También se han identificado las mutaciones más relevantes asociadas a resistencia para

pacientes no tratados (naïve) (23) y para aquellos con experiencia previa al TAR (24) (Tabla

I.1).

La transmisión de variantes del VIH-1 resistentes a ARV ha sido ampliamente documentada,

y esta transmisión se ha asociado a fracaso al TAR (25, 26). Estos mutantes resistentes

pueden quedar archivados por meses o años en el ADN proviral, en el genoma de la célula

hospedadora, y emerger al ser seleccionados por el TAR (27). Por ello, es recomendable

realizar un ensayo de resistencia en todo paciente no tratado. En esta situación es preferible

un ensayo de resistencia genotípico porque, además de determinar la presencia de

mutaciones a ARV, nos permite identificar el subtipo viral. En un paciente que recibe TAR

con fracaso virológico, la no detección de mutaciones obedece mayoritariamente a falta de

adherencia al TAR. Para la determinación genotípica de resistencias a fármacos

antirretrovirales existen técnicas comerciales que amplifican mediante PCR el gen pol del

VIH-1 (ViroSeq® HIV-1 genotyping system de Abbott Molecular y TruGene® HIV‐1 genotyping

assay de Siemens Healthcare Diagnostics). También existen métodos no comerciales de

amplificación basados en PCR caseras, de menor coste.

Existen determinadas posiciones (65, 103, 106, 181, 184 y 190) asociadas a mutaciones de

resistencia en la RT, que se estiman que son 98% sensibles para detectar nivel alto o

intermedio de resistencias a ITIAN o ITINAN en pacientes con fracaso de primera línea que

habían sido tratados con ITIAN/ITINAN y 60% sensible para detectar nivel alto o intermedio

de mutaciones de resistencias asociadas a dichas familias. Además, se ha observado con

frecuencia una amplia resistencia cruzada a los IP en el VIH que presentan mutaciones en las

posiciones 30, 46, 82, 84 y 90 del gen de la PR (28 ).

13

Tabla I.1 Listado de mutaciones de resistencia en población naïve (Bennet 2009) y pretratados (IAS 2014) Cada

número corresponde con la posición del aminoácido y cada letra indica el cambio del aminoácido.

1.6. Situación epidemiológica del VIH

El VIH sigue siendo un importante problema de salud pública mundial, después de haberse

cobrado más de 34 millones de vidas hasta ahora. En 2014, 1,2 millones de personas

fallecieron a causa del VIH en todo el mundo. El África subsahariana, donde había 25,8

millones de personas infectadas por el VIH en 2014, es la región más afectada. Casi el 70%

del total mundial de nuevas infecciones por VIH se registra en esta región.

Figura I.5. Prevalencia de la infección por VIH en población adulta (15-49) Extraído de: http://www.who.int/gho/hiv/hiv_013.jpg?ua=1

PACIENTES NAÏVE (TDR MUTATION) BENNETT 2009

PACIENTES TRATADOS (IAS 2014)

PI ITIAN ITINAN MAJOR PI MINOR PI ITIAN ITINAN L23I L24I D30N V32I M46I/L I47V/A G48V/M I50V/L F53L/Y

I54V/L/M/A/T/S G73S/T/C/A

L76V V82A/T/F/S/C/M/L

N83D I84V/A/C I85V

N88D/S L90M

M41L K65R

D67N/G/E T69D/ins K70R/E L74V/I

V75M/T/A/S F77L Y115F F116Y Q151M M184V/I L210W

T215Y/F/I/S/C/D/V/E K219Q/E/N/R

L100I K101E/P K103N/S V106M/A V179F

Y181C/I/V Y188L/H/C G190A/S/E P225H M230L

D30N V32I M46I/L I47V/A G48V I50L/V I54M/L Q58E T74P L76V

V82A/T/F/S/L N83D I84V N88S L90M

L10V/I/R/F/C V11I G16E

K20R/M/I/T/V L24I

L33I/V/F E34Q

M36I/L/V K43T F53L/Y

I54V/T/A/S D60E I62V L63P

I64L/M/V H69K/R

A71V/I/T/L G73C/S/T/A

V77I V82I/ N83D I85V N88D

L89M/V/I I93L/M

M41L A62V K65R D67N

T69insertion K70R/E L74V V75I F77L Y115F F116Y Q151M M184V/I L210W

T215Y/F/rev K219Q/E

V90I A98G L100I

K101E/H/P K103N/S V106M/A/I V108I

E138A/G/K/Q/R V179D/F/T/L Y181C/I/V Y188C/L/H G190S/A H221Y P225H F227C M230L/I

14

Es importante señalar que se calcula que solo el 53% de las personas con VIH conocen su

estado serológico. En 2014, aproximadamente 150 millones de niños y adultos de 129 países

de ingresos bajos y medios se beneficiaron de la realización de pruebas de detección del VIH

y a mediados de 2015 había 15,8 millones de personas infectadas por el VIH que recibían

terapia antirretrovírica en todo el mundo (29)

No obstante, En África subsahariana, varios países han logrado disminuciones notables en la

prevalencia del VIH en jóvenes (de 15 a 24 años). En esta región, la prevalencia del VIH en

mujeres y hombres jóvenes disminuyó un 42 % de 2001 a 2012. Aun con esta tendencia

favorable, la prevalencia del VIH en las mujeres jóvenes continúa siendo más de dos veces

superior a la de los hombres jóvenes en toda África subsahariana (29).

Además, entre 2000 y 2015 las nuevas infecciones por el VIH han disminuido en un 35%, y

las muertes relacionadas con el SIDA en un 24%, lo cual significa 7,8 millones de vidas

humanas salvadas gracias a los esfuerzos internacionales que llevaron a la consecución

mundial de las metas de los Objetivos de Desarrollo del Milenio relacionadas con el VIH. La

ampliación del TAR a todas las personas con VIH y el aumento de las opciones preventivas

podrían ayudar a evitar 21 millones de muertes relacionadas con el sida y 28 millones de

nuevas infecciones para 2030 (29).

1.7. Grupo receptor y bioinformática

El departamento de Enfermedades Infecciosas de la Universidad de Stanford (California,

EEUU) incluye diversos laboratorios e investigadores en los que se une la investigación en

laboratorio con la ciencia computacional y la bioinformática. Los proyectos actuales del

grupo se enfocan en epidemiología molecular, resistencia a fármacos antirretrovirales,

inmunidad intrínseca, funciones específicas del virus y variación del virus inducida por el

hospedador. El grupo del Dr. Robert Shafer cuenta con una amplia experiencia en la

aplicación de técnicas bioinformáticas para la detección y el estudio de mutaciones de

resistencias y clúster de transmisión del VIH utilizando muestras de distintas cohortes del

mundo. Además, este grupo es el creador de la Base de Datos de Mutaciones de Resistencia

del VIH (HIV Drug Resistance Database, http://hivdb.stanford.edu/). Esta página web fue

creada en 1998 y se ha convertido desde entonces en la herramienta de referencia a nivel

mundial no solo para predecir las mutaciones de resistencia del VIH y susceptibilidad a

15

fármacos, sino para obtener una gran variedad de información relacionada con la

epidemiología del virus.

Como se ha comentado anteriormente, la rápida tasa de mutación del virus y su alta

diversidad genética convierten al VIH en un agente infeccioso difícil de combatir, pero

también hacen que sea el objeto de estudio adecuado de herramientas bioinformáticas que

permiten deducir hipótesis evolutivas a partir de esta variación genética. La aparición de

métodos informáticos y estadísticos cada vez más eficaces (particularmente los métodos

que aplican la inferencia Bayesiana) ha permitido un gran auge en el estudio de la evolución

molecular de múltiples virus, especialmente el VIH. De esta forma, se han podido desarrollar

métodos para caracterizar la variabilidad genética del virus a nivel de posición de

aminoácido, así como datar los eventos de transmisión en árboles filogenéticos basados en

la tasa de evolución del virus. Además, y debido a que las nuevas tecnologías de

secuenciación se están imponiendo a gran velocidad, el volumen de datos está

incrementado enormemente. Por ello, a nivel técnico, la bioinformática ha tenido que

avanzar muy rápidamente en estos últimos años con el fin de brindar programas que se

encargan de manipular y analizar tan elevado número de datos (30). Existen diversos

lenguajes de programación y lenguajes de consulta, que se están empleando con mayor

frecuencia para el análisis de datos, siendo SQL (Structured Query Language) uno de ellos.

Está diseñado para la recuperación y gestión de grandes conjuntos de datos generados por

los usuarios, para recuperar de forma sencilla información de interés de bases de datos, así

como hacer cambios en ellas.

2. Enunciado de las prácticas

Se trata de un proyecto multidisciplinar, ya que se aúnan diferentes disciplinas como

bioinformática, epidemiología y biología molecular.

Este proyecto está formado por dos sub-proyectos independientes:

1. Conocer y analizar la variabilidad genética del VIH-1 en población adulta procedente de

países de recursos limitados.

2. Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión en

población adulta y naïve infectada por VIH-1.

Debido a que las poblaciones de estudio analizadas en cada sub-proyecto son diferentes,

en este trabajo se presentará la metodología, resultados y discusión de cada uno de estos

proyectos de forma independiente.

16

3. Organización de la memoria de trabajo:

Esta memoria está compuesta por cuatro capítulos principales:

Capítulo I: Se trata de una introducción al mundo del VIH-1 y sobre el grupo receptor en el

que se han realizado las prácticas. Esta primera parte es fundamental para conocer y

entender los aspectos bioinformáticos, epidemiológicos y moleculares que se van a tratar en

los capítulos siguientes. En este capítulo, además, se incluye una breve descripción de los

dos proyectos realizados.

Capítulo II y III: Corresponden a los sub-proyectos: “Conocer y analizar la variabilidad

genética del VIH-1 en población adulta procedente de países de recursos limitados” y

“Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión en población

adulta y naïve infectada por VIH-1”, respectivamente. Cada uno de ellos está formado por

los apartados justificación y objetivos, materiales y métodos, resultados, discusión y

limitaciones del trabajo. Además el Anexo I (MainProgram.cgi) correspondientes al Capítulo

II y los Anexos II (DistanceCalculator) y III (Network.R) corresponden al Capítulo III.

Capítulo IV: En este capítulo se exponen las principales conclusiones extraídas de los

capítulos II y III.

17

CAPÍTULO II

“Conocer y analizar la variabilidad genética del VIH-1 en población adulta

procedente de países de recursos limitados”

1. Objetivos y Justificación del trabajo:

Determinar la diversidad genética del VIH-1 a nivel poblacional y en sus tres genes

principales (PR, RT, INT) es esencial para comprender la respuesta viral al TAR.

En los países de elevados recursos, donde existe un acceso temprano al TAR, los pacientes

infectados por VIH presentan una buena situación clínica e inmunológica. Por el contrario,

en los países de recursos limitados (LMIC, de sus siglas en inglés: low and middle income

countries), el acceso al TAR es más limitado, las dosis de fármacos son inadecuadas y

existe falta de monitorización de la infección, lo que tiene una implicación directa en el

incremento del riesgo de fracaso virológico (21). Además, cerca del 90% de la población

infectada por VIH a nivel mundial presenta infección por variantes no-B del VIH-1. El

conocimiento de las mutaciones de resistencia y su relevancia clínica de las mismas en estas

variantes no-B aún es escaso.

En este capítulo se analizan aproximadamente 100.000 secuencias de PR y RT y 10.000

secuencias de INT, con el fin de llevar a cabo una caracterización de la variación observada

en cada aminoácido en la PR, RT e INT. Este interés radica en que diferencias en la secuencia

de codones, en posiciones concretas asociadas a mutaciones de resistencia, pueden

predisponer al virus de diferentes subtipos a codificar determinadas sustituciones

aminoacídicas. Esto hace posible que la diversidad genética del VIH pueda influenciar el tipo

de mutación de resistencia después de haber sido expuesto a un fármaco determinado, ya

que esta diversidad genética puede afectar también el grado de resistencias cruzadas a

antirretrovirales de distintas familias.

Para analizar esta variabilidad genética del VIH, se ha diseñado una interfaz web que

permite mostrar los nucleótidos y su frecuencia para una posición de aminoácido

seleccionada, así como para la secuencia que flanquean dicho aminoácido. Para llevar a

18

cabo este proyecto, hemos considerado diferentes hebras (central, forward y reverse) para

cada gen (RT, PR y INT), país y subtipo.

Por tanto, consideramos que esta herramienta puede ser muy útil para personal clínico,

investigadores, laboratorios de salud pública que llevan a cabo herramientas de diagnóstico

y genotipado de resistencias; especialmente en LMIC, donde estas pruebas son muy escasas.

Además, la adecuada detección, descripción y monitorización de la transmisión de las

diferentes variantes del VIH -1 en regiones representativas es esencial para poder controlar

la epidemia del virus (31).

2. Materiales y Métodos:

Todos los datos virológicos y epidemiológicos de los pacientes infectados por VIH fueron

cedidos por el grupo Stanford HIV Drug Resistance Database Team. Es importante señalar

que, debido a cláusulas de confidencialidad no se pueden mostrar los datos completos ni las

queries diseñadas para crear las tablas que configuran las bases de datos.

2.1. Población y secuencias de estudio

Para llevar a cabo este trabajo se realizó un análisis de las secuencias del VIH (grupo M) de

los genes PR, RT e INT, cedidas por el grupo Stanford HIV Drug Resistance Database (HIVDB)

y generadas a partir de plasma mediante PCR (32). Cada secuencia está asociada a un país

de origen, año de colección y tratamiento de cada paciente en el momento de extracción de

las muestras.

Los análisis epidemiológicos se llevaron a cabo teniendo en cuenta la distribución de cada

secuencia a nivel mundial, así como la prevalencia de cada subtipo en cada región de origen.

En el caso de existir más de una secuencia por paciente, se seleccionó la más antigua, lo que

se denominará de ahora en adelante como secuencia única.

2.2. Análisis de la variabilidad genética

Para caracterizar la variabilidad genética del VIH-1 en los genes PR, RT e INT, se determinó la

proporción de cada aminoácido en cada posición de los 8 subtipos más comunes del VIH-1

grupo M (A, B, C, D, F, G, CRF01_AE y CRF02_AG) y para cada LMIC (Southern Anfrica,

19

Central Africa, West Africa, South Africa, SSEA e India).1

Para el análisis de variabilidad a nivel de secuencia, el aminoácido consenso en cada

posición fue el consenso de todo el pool de secuencias, muy semejante en todos los casos a

la secuencia consenso del VIH-1 subtipo B.

Cada posición aminoacídica podrá ser conocida para los subtipos más comunes y LMICs. De

esta manera, se muestra tanto la prevalencia del codón wild type como mutante.

Para analizar la variabilidad posicional se cuantificó la proporción de cada uno de los 4

nucleótidos posibles (A, C, G, o T) para cada una de las posiciones de ácidos nucleicos

flanqueantes de dicha posición (Central, Forward (5') y Reverse (3')).

Todas estas opciones se encontraban disponibles para cada gen (RT, PR e INT), región (West

Africa, Central Africa, East Africa, South Africa, SSEA y India) y subtipo más frecuente (A, B,

C, D, F, G, CRF01_AE y CRF02_AG).

Brevemente, el contenido de información se relaciona con el grado de certeza con la que

cualquier base puede ser predicha para ocupar una posición de nucleótido específico.

Las posiciones de nucleótidos altamente conservadas tienen el mayor contenido de

información, mientras que las posiciones más variables tendrán un menor contenido de

información.

2.3. MySQL y manejo de datos

Los datos virológicos y epidemiológicos de la población adulta infectada por VIH-1 se

encontraban almacenados en una base de datos MySQL llamada ProbeDB.

MySQL es un sistema de gestión de bases de datos relacional y multiusuario. Para llevar a

cabo esta interfaz web se ha empleado este sistema de gestión de datos, en combinación

con el uso de máquinas virtuales, desde las que se ha realizado el proyecto, y lenguaje de

programación Perl. Para simplificar, supondremos que disponemos de las credenciales

(usuario y contraseña) del administrador de la base de datos (normalmente, usuario root y

su contraseña) necesarias para conectarse con el servidor.

La base de datos ProbeDB estaba compuesta inicialmente por 9 tablas diferentes. Las tablas

denominadas _ProbeSubtypePcnt, tblSubtypes, rtblRegions, tblSequences y tblIsolate

fueron las que se emplearon para poder analizar la variabilidad genética del VIH-1 en países

1. Se establece la nomenclatura en inglés, ya que es como aparece en los scripts generados para llevar a cabo la aplicación web.

20

de recursos limitados. La información almacenada en estas tablas se describe a

continuación:

• _ProbeSubtypePcnt: En ella se encuentra almacenada la información referente a la

prevalencia, en forma de porcentaje, de cada subtipo (A, B, C, D, G, X01, X022) para

cada secuencia única.

• tblSubtypes: Información referente a cada subtipo (A, B, C, D, G, X01, X02) para cada

secuencia (no única).

• RtblRegions: Se trata de una tabla glosario en la que se relaciona cada región y país

de origen.

• TblSequences: Almacena todas las secuencias disponibles.

• TblIsolates: Incluye la información virológica y epidemiológica de cada paciente y su

secuencia.

Con el fin de almacenar la información virológica y epidemiológica en el menor número de

tablas posibles y así disminuir el tiempo de procesamiento, se generaron dos nueva tablas:

• tblorigens: en la cual se almacenaba la información referente al origen de cada

secuencia permitiendo una clasificación directa en países de recursos limitados.

• tblGeneNAs: En esta tabla se almacena las secuencias de cada paciente para cada

gen (RT, PR e INT) y el nucleótido (A, C, G, T) para cada posición.

Finalmente, se generó un script en lenguaje de programación Perl en el que únicamente se

emplearon las tablas tblorigens, tblGeneNAs y tblSubtypes, con el fin de hacer el programa

más eficiente. El script completo del programa (MainProgram.cgi) puede consultarse en el

Anexo I.

2.4. Diseño de la aplicación web

Los recursos necesarios para poder realizar esta aplicación web fueron los siguientes:

1. MySQL (https://www.mysql.com/) y los datos de VIH almacenados en una instancia.

2. El script principal (MainProgram.cgi) fue creado utilizando Perl (https://www.perl.org) y

genera contenido HTML.

3. El protocolo Common Gateway Interface (CGI) fue necesario para procesar las peticiones

2 X02 y X02 hacen referencia a subtipo CRF01_AE y CRF02_AG respectivamente.

21

del usuario y preparar las respuestas.

4. Adicionalmente, se empleó el servidor web Apache HTTP server

(http://httpd.apache.org/).

Esta aplicación web puede desglosarse en tres partes principales (Input, Processing y

Output), las cuales se describen detalladamente a continuación:

1. Input: Los usuarios deben introducir ocho variables para ejecutar el programa

a) Position: se debe introducir la posición de aminoácidos de interés. Cualquier

aminoácido codificado por los genes RT, PR o INT).

b) Probe size: Se debe introducir la longitud de la sonda del oligonucleótido deseado (es

decir, la longitud de la secuencia que va a ser interrogada). Se debe tener en cuenta que

cuando la sonda supera los límites del tamaño del gen, se generará un mensaje de error

(por ejemplo, una sonda de 13 bases para el codón posición 1 focalizado en la posición

central del gen RT generará un mensaje de error).

c) Codon location: Se debe seleccionar la ubicación del codón correspondiente a la posición

de los aminoácidos de interés relativo a las bases de oligonucleótidos (central, 3 o 5').

d) Gene: Se debe seleccionar el gen de interés, ya sea RT, PR, o INT.

e) Subtype: Si se selecciona “All Subtypes” se incluirán secuencias de cualquier subtipo en la

consulta. El programa permite hacer una consulta más precisa considerando los siete

subtipos más comunes (A, B, C, D, G, 01 CRF, CRF y 02).

f) Region: Se puede seleccionar "All LMICs", que incluye todas las secuencias pertenecientes

a países de recursos limitados o limitar la consulta a una de las seis regiones LMIC (Central

Africa, East Africa, Southern Africa, West Africa, South & Southeast Asia, e India).

g) Data display: Permite seleccionar la forma en la que se presentan los valores,

mostrándose todos los resultados o limitando éstos mostrando solamente aquellos que

tienen una frecuencia> 1%

h) Nucleotide display: Permite seleccionar si se desean visualizar todas las bases, o

únicamente aquellas que difieren de la secuencia más común "consenso" en la consulta.

2. Processing: La entrada se utiliza para consultar en la base de datos (ProbeDB) que

contiene varias tablas: una tabla para cada gen que contiene todas las secuencias LMIC, y

tablas adicionales que contienen el subtipo (cuando se conoce) y la región de origen de cada

22

secuencia.

3. Output: La página que muestra el output está dividida en 3 secciones:

a) En la primera sección se enumeran los criterios de consulta que han sido introducidos por

el usuario.

b) En la segunda sección, bajo el título "Distinct Codons", se muestra una tabla con los

codones más frecuentes en la posición de aminoácidos seleccionada que cumplan los

criterios de consulta. El aminoácido aparece al lado de cada codón, al igual que el número y

el porcentaje de las secuencias para la consulta de un determinado codón en particular.

c) La tercera sección, se encuentra englobada bajo el título “Distinct Flanking Segments". En

ella se muestra las secuencias de bases distintas que flanquean los codones anteriormente

seleccionados. Cuando sólo se muestran las bases que difieren de la secuencia consenso,

tres asteriscos indican la ubicación del codón, y la base idéntica a la de consenso se indican

mediante guiones. Cabe destacar que las inserciones, que raramente están presentes,

pueden alterar la alineación de segmentos de acompañamiento.

3. Resultados:

Nota: A pesar de que la aplicación web permite analizar la variabilidad genética del VIH‐1 en sus tres

genes principales (RT, PR e INT), debido a la limitación de espacio, los resultados que se exponen a

continuación se centran en la variabilidad genética de la RT y PR. Parte de estos resultados han sido

enviados a publicar bajo el título Genetic Variability of HIV‐1 for Drug Resistance Assay Development,

Viruses (Manuscript ID viruses‐109354).

La aplicación web está disponible en: http://hivdb.stanford.edu/cgi‐bin/Probe.cgi. Esta aplicación

permite a los usuarios recuperar la información relativa a la frecuencia de cada codón para una

posición de interés en la RT, PR e INT según región geográfica y subtipo así como la información

relativa a las secuencias que flanquean dicha posición de interés.

3.1 Epidemiología del VIH-1 a nivel mundial

Un total de 205.224 secuencias (100.493 de RT; 94.294 de PR y 10.437 de INT) se

encontraban almacenadas en la base de datos ProbeDB, de las cuales, más del 50% (121.357

secuencias) correspondían a pacientes infectados por VIH-1 originarios de países de

elevados recursos, mientras que poco más del 25% (52.874 secuencias) correspondían a

23

población originaria de países con recursos limitados. En el 19% de los casos (30.993

secuencias) la región de origen era desconocida (Tabla II.1).

Dentro de las 6 regiones LMIC de interés, el sur y sureste asiático presentaban un mayor

número de secuencias de pacientes infectados por VIH-1, tanto a nivel general (33%) como

para cada gen por separado (32.6% para RT, 31.3% para PR y 52.7% para INT), seguido de

África del Este (23,5%), África del Sur (21%), África Occidental (10%), África Central (8.7%), e

India (3.7%). Respecto a las regiones No-LMIC, se pudo observar que América del Norte era

la región con una mayor frecuencia de población infectada por VIH-1, próxima al 64%,

seguida de Europa (34,4%) y Oceanía (1,2%) (Tabla II.1).

Tabla II.1. Número de secuencias disponibles en ProbeDB para cada gen (RT, PR e INT) y

región

Origen Nº sec RT Nº sec PR Nº sec INT Total

LMIC

África Central 1. 847 2.086 665 4.598

África Occidental 2.694 2.598 6 5.298

África del Este 6.195 6.054 186 12.435

África del Sur 5.988 4.959 161 11.108

SSEA 8.649 7.501 1.334 17.484

India 1.149 800 2 1.951

Total 26.522 23.998 2.354 52.874

No-LMIC

Europa 22.209 17.850 1.756 41.815

América del Norte 36.292 36.706 5.156 78.154

Oceanía 702 713 3 1.418

Total 59.203 55.269 6.885 121.357

Leyenda: Nº, número; sec, secuencia; RT, retrotranscriptasa, PR, Proteasa, INT, Integrasa, LMIC, low and

middle income countries; SSEA, Sur y sureste asiático.

3.2 Variabilidad genética del gen RT y PR del VIH-1

Se disponía de un total de 26.522 secuencias del gen RT y 23.998 secuencias del gen PR de

pacientes infectados por VIH-1, pertenecientes las 6 regiones LMIC de interés, cuya

frecuencia resultó ser (para RT y PR respectivamente) mayor en el sur y sudeste de Asia

(32,6%; 31,3%), viéndose disminuida a un 23,5% y 25,2% en África del Este; 22,6% y 20,7%

en África del Sur ; 10,1% y 10,8% en África Occidental; 6,9% y 8,7% en África Central y 4, 3%

y 3,3% en la India . Los subtipos más comunes en esta población fueron, por orden

24

decreciente, el subtipo C (22%), CRF01_AE (20%), A (11%), CRF02_AG (9%), B (6%), D (5%), y

G (2%), siendo los CRFs las formas menos frecuentes. (Figura II.1).

Figura II.1. Origen de las secuencias con desglose de subtipo para países LMIC

Leyenda: Sequence Counts, número de secuencias de cada región de recursos limitados. El diámetro del círculo que cubre cada región indica la frecuencia de cada subtipo. Subtype, Subtipo; Others, otros; X01, CRF01_AE; X02, CRF02_AG.

3.2.1. Análisis de mutaciones de resistencia en posiciones de interés en el gen RT

Se analizaron las posiciones de los aminoácidos 65, 103, 106, 181, 184 y 190 en la RT, ya que

es sabido que dichas posiciones presentan una mayor frecuencia de mutación

(http://hivdb.stanford.edu/DR/). Todos los resultados mostrados a continuación se han

obtenido empleando un tamaño de secuencia flanqueante de 24 nt y situando la posición de

interés en la región central. En concreto, se encontró que las 6 sustituciones más frecuentes

eran K65R, K103N, V106M, Y181C, M184V, y G190A. Las mutaciones K65R y G190M son

mutaciones de resistencia asociadas a ITIAN mientras que K103N, V106M, Y181C y M184V

están asociadas a ITINAN.

En la Tabla II.2 se muestra la prevalencia de los codones wild type y codones mutantes para

cada una de estas posiciones de resistencia en las secuencias RT, con una frecuencia ≥1% y

para cualquier subtipo.

Además, en estas seis posiciones se encontraron otras mutaciones de resistencia (DRMs)

menos comunes con los siguientes cambios: K65N, K103S, V106A, Y181I/V, M184I y

G190S/E/Q. También se encontraron dos mutaciones polimórficas, K103R y V106I, que no

Sequence Counts1,218

4,000

6,000

8,989

SubtypeA

B

C

D

G

Other

X01

X02

25

confieren resistencia significativa a fármacos. El número total de codones analizados (tanto

wild type como codones con DRM) para cada posición de interés varió de 4 (posición 184) a

11 (posición 190) (Tabla II.2).

Se pudo observar que en la posición 65 de la RT, cuyo aminoácido wild type es lisina (K),

aparecía codificado por el codón AAG en el 99,1% de las secuencias de pacientes infectados

por VIH-1 con subtipo C. No obstante, en más del 95% de las secuencias correspondientes a

otros subtipos esta lisina aparecía codificada por el codón AAA.

Tabla II.2. Frecuencia de codones mutantes y wild type según subtipo en el gen RT

Posición DRM Codon AA A B C D G CRF_01 CRF_02

65 wt

AAA K 96,6% 97,7% 0,8% 97,6% 98,8% 98,9% 97,6%

AAG K 3,28% 2,2% 99,1% 2,4% 1,2% 1,1% 2,3%

Mutante

AGA R 84,6% 100% 3,7% 100% 100% 85,8% 93,1%

AGG R 7,7% 0 95,5% 0 0 1,8% 3,4%

AAT N 7,7% 0 0,7% 0 0 2,8% 0

AAC N 0 0 0 0 0 9,4% 3,4%

103 wt

AAA K 95,5% 95,7% 86,1% 96,5% 92,2% 95,7% 98%

AAG K 4,2% 2,1% 10,6% 3,2% 6,8% 3,8% 1,7%

AGA R 0,2% 2,3% 9,5% 9,3% 0,9% 0,5% 0,2%

Mutante

AAC N 84,1% 7,6% 77,2% 75,5% 80,7% 77,6% 82,6%

AAT N 11,2% 17,8% 18,5% 20,4% 19,3% 19,2% 16,8%

AGC S 4,7% 4,3% 4,2% 2% 0 2,5% 0,5%

ACA T 0 0 0 2% 0 0,7% 0

106 wt

GTA V 97,5% 90% 13,3% 95,3% 96,2% 86,3% 97,4%

GTG V 1,7% 2,6% 86,7% 4% 1,2% 8,4% 1,8%

ATA I 0,8% 7,4% 0 0,6% 2,6% 5,2% 0,7%

Mutante

GCA A 85,7% 70,8% 0,4% 80% 90,9% 37,5% 75%

GCG A 0 0 2,4% 0 0 0 0

ATG M 14,2% 29,2% 97,2% 20% 1% 62,5% 25%

181 wt

TAT Y 95,7% 97,5% 96,2% 95,5% 9,9% 98,4% 8,6%

TAC Y 4,3% 2,5% 3,7% 4,5% 90,1% 1,6% 91,4%

Mutante

TGT C 81,8% 96,4% 88,3% 88,4% 7,8% 90,7% 8,5%

TGC C 7,3% 0,9% 4,3% 4,6% 71,8% 3,1% 87,3%

ATT I 5,5% 0,9% 3,9% 0 0 0,2% 0

ATC I 0 0,9% 0,2% 0 1,9% 0,2% 2,1%

GTT V 5,5% 0,9% 3,2% 6,9% 0 5,7% 0,7%

26

GTC V 0 0 0 0 0,97% 0,2% 1,4%

184 wt

ATG M 100% 100% 100% 100% 100% 100% 100%

Mutante

GTG V 90,3% 78% 90,2% 89,4% 83,3% 81,5% 87,6%

GTA V 9,7% 7,3% 6,8% 9,6% 15,4% 14,7% 10,4%

ATA I 0 14,6% 2,9% 0,9% 1,3% 3,7% 2%

190 wt

GGA G 95,2% 95,3% 95,4% 96,3% 98,6% 94,6% 92,7%

GGC G 1,5% 3,2% 1,3% 0,5% 1,4% 3,4% 1,%

GGG G 3,3% 1,5% 3,4% 3,1% 0 2% 5,7%

Mutante

GCA A 73,9% 70,7% 83,4% 89,6% 92,3% 87,9% 89%

GCG A 0 1,2% 1,7% 3,4% 2,5% 2,2% 1,4%

GCC A 0 2,4% 0,74% 0 0 1,2% 0

AGC S 2,3% 24,4% 3,9% 3,4% 2,5% 2,6% 2,7%

AGT S 0 1,2% 1,8% 0 2,5% 1,9% 2,7%

TCA S 1,1% 0 0,9% 0 0 1,4% 1,4%

GAA E 2,3% 0 4,5% 0 0 1,7% 2,7%

CAA Q 0 0 2,9% 3,4% 0 0,9% 0

Leyenda: DRM, mutaciones de resistencia asociados a fármacos antirretrovirales; CRF01, CRF01_AE; CRF02, CRF02_AG; wt, wild type; AA, aminoácido.

En la posición 106, cuyo aminoácido wild type es la valina (V), aparecía codificada por el

codón GTG en el 86,7% de las secuencias de VIH-1 subtipo C, mientras que para más del 90%

de las secuencias de subtipo no-C aparecía codificada por el codón GTA.

En la posición 181, la tirosina (Y) wild type aparecía codificada por el codón TAC en > 90% de

los subtipos G y CRF02_AG pero para otros subtipos dicho aminoácido aparecía codificado,

en más del 95% por el codón TAT. Estos cambios silenciosos dan lugar a una predisposición

natural de diferentes subtipos. En la posición 106, esta predisposición conduce a un

aumento de la prevalencia de la mutación V106M en los virus de subtipo C. Para las

posiciones de resistencia 103, 184, y 190 en la RT, los virus wild type se codifican de manera

similar en todos los subtipos y mediante un codón predominante, AAC, GTG y GCA

respectivamente (Tabla II.2), mientras que en las posiciones 65, 106 y 181 presentaron

variabilidad genética en los diferentes subtipos ya que existen diferentes codones

predominantes según el subtipo. Es importante destacar que todas estas transiciones de un

solo nucleótido entre los diferentes subtipos son mutaciones silenciosas, y por tanto, no

afectan al aminoácido.

27

3.2.2. Análisis de DRM en posiciones de interés en el gen PR

Se analizaron las posiciones 30, 46, 82, 84 y 90 en el gen de la PR, empleando un tamaño de

secuencia flanqueante de 24 nt y situando la posición de interés en la región central. Se

pudo observar que, en ningún caso, salvo en la posición 82, aparecían resistencias asociadas

a IP con una frecuencia igual o superior al 1%. No obstante, encontramos en la posición 74

un codón mutante (S). Se trata de una mutación polimórfica seleccionada débilmente por la

mayoría de los IP. En la Tabla II.3 se muestra la prevalencia de los codones wild type y

codones mutantes para cada una de las posiciones de resistencia en las secuencias PR con

una frecuencia ≥1% y para cualquier subtipo.

Tabla II.3. Frecuencia de codones mutantes y wild type según el subtipo en el gen PR

Posición DRM Codon AA A B C D G CRF_01 CRF_02

74 wt

ACA T 99,3% 100% 99,8% 99,5% 99% 99,5% 97,4%

ACG T 0,7% 0 0,2% 0,5% 0,9% 0,5% 2,6%

Mutante

TCA S 100% 0 100% 100% 100% 100% 100%

82 wt

GTC V 98% 98,8% 97,4% 94,2% 95,4% 99% 97,7%

GTT V 1,8% 0,8% 2,3% 4,5% 4,6% 0,9% 2,2%

GTA V 0,2% 0,3% 0,2% 1,3% 0 0,1% 0,1%

Mutante

ATC I 89,3% 88,9% 94,5% 72,2% 87,7% 99,5% 96,4%

ATT I 10,7% 11,1% 5,5% 27,8% 12,3% 0,5% 3,6%

Leyenda: DRM, mutaciones de resistencia asociadas a fármacos antirretrovirales; CRF01, CRF01_AE; CRF02, CRF02_AG; wt, wild type; AA, aminoácido.

El número total de codones analizados (tanto wild type como codones con DRM) para cada

posición de interés varió de uno (para la posición 74) a 3 (para la posición 82) (Tabla II.3).

3.2.3. Regiones flanqueantes y Variabilidad Posicional

Se analizaron las secuencias flanqueantes de las 6 posiciones de interés para la RT (65, 103,

106, 181, 184 y 190 ) y dos (74 y 82) en PR para cada uno de los subtipos de interés por

separado, así como para todos los subtipos en su conjunto en regiones LMIC. En función de

dichas posiciones asociadas a DRM, pudimos observar entre 9 y 17 secuencias flanqueantes

diferentes con una prevalencia ≥1%. En más detalle, con una frecuencia igual o superior al

28

1%, se observó que para las posiciones 65, 103, 106, 181, 184 y 190 en la RT existían 17, 12,

14, 15, 13 y 9 posiciones flanqueantes diferentes respectivamente y para las posiciones 74 y

82 en la PR existían de 7 a 14 secuencias flanqueantes diferentes considerando todos los

subtipos en su conjunto (Tabla II.4). Se observó diferencia en la variabilidad genética de las

secuencias flanqueantes asociadas a las posiciones de interés según el subtipo.

Especialmente las posiciones 65 (subtipo A), 103 (subtipos A y B), 106 (subtipo B), 181

(subtipos C, G, CRF01_AE, CRF02_AG) y 74 (subtipo B) resultaron tener una elevada

variabilidad genética (Tabla II.4).

Tabla II.4. Numero de secuencias flanqueantes diferentes y frecuencia máxima de la

secuencia consenso para las posiciones asociadas a mutaciones de resistencia en PR y RT

Nº de Secuencias flanqueantes diferentes (Frecuencia máxima encontrada)

A B C D G CRF_01 CRF_02 Todos subtipos

Posición

en RT

65 10

(29,6%)

6 (75%)

8 (60,7%)

10 (57,4%) 10 (60,7%) 9 (57,7%)

8 (57,9%)

17 (22,8%)

103 11

(29,2%)

12

(28,8%)

10 (50,6%)

11 (53,7%)

13 (48,1%)

12 (59,8%)

10 (67,1%)

12 (19,3%)

106 7 (58,9%)

11

(21,3%)

11 (42,8%)

8 (60%)

12 (42,2%)

9 (71,4%)

9 (67,7%)

14 (36,7%)

181 15 (36,8%)

14 (58,1%)

15

(28,6 %) 17

(31,4%) 18

(13,5%)

15

(20,9%)

16

(24,4%) 15

(9,9%)

184 11 (58,4%)

8 (71,6%)

10 (53%)

10 (61,2%)

12 (31,8%)

9 (62,5%)

10 (49,8%)

13 (24,2%)

190 8 (63,1%)

6 (72,6%)

11 (47,5%)

11 (66,7%)

9 (74, 8%)

7 (76,6%)

9 (42, 6%)

9 (28,9%)

Posición

en PR

74 11 (49,2%)

15

(26,6%)

9 (45,9%)

11 (42,7%)

17 (40,8%)

8 (38,2%)

13 (33,7%)

14 (31,9%)

82 7 (77,9%)

7 (80,6%)

5 (50,4%)

6 (78,4%)

5 (84,9%)

7 (81,4%)

7 (76%)

7 (69,2%)

Leyenda: CRF01, CRF01_AE; CRF02, CRF02_AG; RT, retrotranscriptasa; PR, Proteasa.

No obstante, en la mayoría de las posiciones variables de nucleótidos (del 58% al 85%

dependiendo de DRM) la variabilidad se debía únicamente a transiciones (presencia del

nucleótido A y G o C y T), las cuáles resultan de mismatches en las bases pareadas (A:C y

G:T).

29

4. Discusión:

El principal desafío técnico de este trabajo consistió en desarrollar una aplicación web que

permitiese analizar en detalle la variabilidad genética del VIH-1 en sus 3 genes principales

(RT, PR e INT) para diferentes subtipos, con el fin de identificar qué secuencias serían más

útiles para el diseño de primers o sondas universales (33, 24) para aquellos subtipos que

tienen una mayor frecuencia en países LMIC.

A la vista de los resultados, podemos observar que los países de recursos limitados, a pesar

de ser los más castigados por el VIH, siguen siendo los países menos estudiados y en los que

se analizan un menor número de muestras, dificultando así el conocimiento sobre la

variabilidad genética de esos subtipos que circulan por dichas zonas geográficas (35). Cabe

destacar que, más allá de las zonas endémicas no-B, las infecciones por VIH-1 no-B están

incrementando fuertemente en otras zonas geográficas como Europa y América del Norte.

Además, este fenómeno no tiene solo implicaciones epidemiológicas sino también clínicas,

ya que estudios anteriores han demostrado que dentro de los subtipos no-B del VIH, los

subtipos C y D son más agresivos en términos de progresión de la enfermedad.

Los resultados expuestos muestran las diferencias de variabilidad genética del virus, en 6

posiciones de aminoácidos en el gen RT y en dos posiciones en la PR del VIH-1. Estas

posiciones son conocidas por presentar una mayor frecuencia de resistencias a fármacos

antirretrovirales (36). Se puede observar que los subtipos no-B presentan una mayor

variabilidad genética que el subtipo B del VIH-1. Este hecho, asociado a la introducción de

ART en entornos de recursos limitados y al desconocimiento relativo de la capacidad de

respuesta al ART, puede hacer que el desarrollo de mutaciones de resistencias asociadas a

subtipos no-B varíe, lo que puede ser explicado por la propia variabilidad intrínseca del virus

entre los diferentes subtipos y no sólo por la presión que ejerce el fármaco antirretroviral

(37).

El impacto de determinados subtipos, en términos de aparición de mutaciones de

resistencia asociados a ITAN, se debe principalmente a la más rápida selección de DRM en el

subtipo C del VIH-1 que en los subtipos B y A. Es sabido que el incremento de la mutación

K65R en el subtipo C es debida a la naturaleza polimórfica de este subtipo (38). Tal y como

se muestra en nuestro estudio, donde la secuencia de nucleótidos en esta posición es

diferente para el subtipo B, (codon: AAA) y subtipo C (codon: AAG) tanto para wild type

como en el codón mutante (codon: AGA, subtipo B; codon: AGG subtipo C). Esto es debido

30

principalmente a que en los codones 64, 65 y 66 de la RT existe un tramo homopolimérico

de bases de adenina que difiere entre el subtipo B y C. Ésto conduce a que la RT haga una

pausa durante la síntesis de DNA bicatenario a partir del molde intermedio de una sola

hebra de DNA, proceso que es específico del template, pero independiente de la RT (39, 40,

41). De esta forma, se produce un desalineamiento posterior en el template del subtipo C y

el cebador conduce al cambio del codón wild type (AAG) al mutante (AGG) siendo

responsable del cambio K65R (41).

Respecto a las mutaciones de resistencias asociadas a ITINAN, es sabido que la mayoría de

ellas se producen tras el uso del fármaco nevirapina (NVP)

(http://hivdb.stanford.edu/DR/NNRTIResiNote.html), que se usa frecuentemente para

prevenir la transmisión vertical del virus. Estudios previos han demostrado una mayor

frecuencia de resistencia a este fármaco en las mujeres embarazadas infectadas por subtipo

C, D A y CRF02_AG, observándose ausencia de resistencias antes del embarazo (42, 43).

Por otra parte, Flys TS (44) y Johnson JA (36) revelaron que en los pacientes infectados por

el subtipo C del VIH-1 existía una mayor prevalencia de las mutaciones asociadas a NVP

(K103N y Y181C) en comparación con los pacientes infectados con subtipo A y con virus

resistentes.

Sin duda, los pacientes infectados por subtipo C del VIH-1 son más propensos al desarrollo

de mutaciones de resistencia. De hecho, la mutación V106M se selecciona comúnmente en

los virus del subtipo C después de la exposición a NVP o efavirenz (EFV)

(http://hivdb.stanford.edu/), mientras que la sustitución V106A se selecciona raramente por

estos fármacos en otros subtipos (37). Esto es debido a que la secuencia de nucleótidos en

esta posición (106) está codificada por GTA en virus de subtipo B y por GTG en el subtipo C,

tal y como se observa en nuestros resultados. Una simple transición (G-A) en la primera

posición del codón hace posible el cambio del aminoácido V-M, confiriendo elevada

resistencia a los fármacos EFV y NVP. En contraste, en los virus subtipo B, la sustitución

V106M requiere dos sustituciones (GTA-ATG) lo que hace que esta mutación se produzca

con menor frecuencia (45, 46). Otra sustitución que se encuentra con más frecuencia en

subtipo C es la mutación G190A, que es también un polimorfismo natural del subtipo C (45).

Respecto a las mutaciones de resistencia asociadas a la PR, otros estudios han demostrado

31

que la sustitución L89V se encuentra frecuentemente en los virus CRF02_AG, mientras que

la mutación T49P (asociada a tipranavir (TPV)) aparece más frecuentemente en el subtipo C

que en el subtipo B. La sustitución V82M se encuentra principalmente asociada al subtipo G,

mientras que las sustituciones V82A/F/S aparecen más frecuentemente en otros subtipos.

Es importante destacar que los genes de la proteasa y gag coevolucionan como una unidad

funcional cuando el VIH se somete a la presión de fármacos antirretrovirales inhibidores de

la PR. Las mutaciones en gag pueden actuar como sustituciones compensatorias que

pueden aumentar las tasas y niveles de resistencia a los IP, así como la capacidad replicativa

viral (47).

5. Limitaciones del estudio:

1. Las secuencias analizadas corresponden a pacientes infectados por VIH-1 que han sido

expuestos a TAR y pacientes naïve, por lo que los virus de los pacientes que presentan o han

presentado experiencia a fármacos antirretrovirales pueden exhibir menos diversidad

genética en estas 6 posiciones de aminoácidos de interés que dichas posiciones en las

secuencias de pacientes no tratados.

2. Debido a la extensión limitada del trabajo, no se ha podido analizar la variabilidad

genética del VIH-1 en posiciones que podrían ser de gran interés en el gen de la INT.

Además, los resultados expuestos están asociados a la selección de un tamaño de las

secuencias flanqueantes concreto (24 nt) y en la región central. Sería interesante poder

analizar si estos resultados son diferentes cuando el tamaño de la secuencia flanqueante y la

región varían.

3. A pesar de que el número de secuencias analizadas es elevado, los países LMIC siguen

siendo los menos estudiados aun cuando existen un mayor número de pacientes infectados

por VIH.

4. Sería interesante ampliar el trabajo al análisis de las secuencias de otros genes (como

gag) para analizar que posiciones determinadas de gag coevolucionan con el gen pol, ya que

es probable que diferentes subtipos puedan desarrollar mutaciones gag compensatorias a

diferentes velocidades.

32

CAPÍTULO III

“Análisis de la distancia genética del VIH-1 y estudios de clúster de transmisión en población adulta y naïve infectada por VIH-1”

1. Objetivos y Justificación del trabajo:

Los cambios evolutivos en la secuencia del ADN se deben principalmente a cambios de

sustitución de nucleótidos, delecciones e inserciones. Los cambios originados como

consecuencia de sustituciones nucleotídicas se miden en términos de número de

sustituciones por sitio considerando dos secuencias homólogas de ADN. Existen muy

diversos métodos estadísticos que permiten estimar este número de sustituciones

nucleotídicas (48). A partir de datos genéticos se pueden realizar múltiples inferencias y

análisis de estructura poblacional para entender los procesos evolutivos y demográficos

subyacentes que experimentan los individuos infectados por VIH-1 que conforman estas

poblaciones (49). El origen y la expansión geográfica del VIH es objeto de múltiples estudios

que han sido capaz de caracterizarlo de forma adecuada utilizando enfoques filogenéticos

(50). Pero en muchas ocasiones, estos métodos resultan subóptimos para describir los

clústeres de trasmisión recientes del VIH.

Para realizar este trabajo se emplearon aproximaciones filogenéticas, en términos de

clúster, para analizar los patrones generales de transmisión del VIH-1 en población naïve.

Para ello, se analizaron las distancias genéticas (d) de las secuencias disponibles,

identificando qué miembros pertenecen a un mismo clúster, considerando que las

secuencias del gen pol del VIH-1 fueran genéticamente similares (d ≤1% y d ≤1,5%), y

definiendo como clúster de transmisión el formado por grupos de individuos

potencialmente conectados entre sí.

Por lo tanto, el objetivo técnico principal de este trabajo consistió en diseñar un programa

en lenguaje de programación Perl que permitiese calcular la distancia genética de

secuencias del VIH-1 (comparaciones dos a dos).

Es importante señalar que cuando se realiza secuenciación directa por PCR, es posible que el

material genético contenga mezclas alélicas, y como consecuencia, que las secuencias

presenten nucleótidos ambiguos. En la actualidad existen múltiples programas que son

capaces de calcular la distancia genética entre dos secuencias, pero en la mayoría de ellos se

33

ignoran estos codones con mezclas alélicas.

2. Materiales y Métodos:

2.1. Población de estudio

Se analizaron las secuencias pol de pacientes infectados por VIH-1 naïve que habían sido

recopiladas y cedidas por el grupo Stanford HIV Drug Resistance Database Team.

Se analizaron un total de 3.531 secuencias pol (PR+RT) de pacientes infectados por VIH-1

(grupo M), naïve y originarios del Norte de California, durante el periodo 2003- 2014

El data set final de estas secuencias pol (tras eliminar aquellas secuencias duplicadas de los

pacientes) estaba formado por 3.376 secuencias. La mayor parte de los individuos incluidos

en este estudio presentaban más de una secuencia pol tomada a lo largo del tiempo (media

de 3,5 secuencias por paciente; rango, 1–42 secuencias por paciente). Para cada individuo,

se seleccionó la primera secuencia disponible, de esta forma, se analizó únicamente una

secuencia por paciente.

La mayoría de las secuencias estaban formadas por 99 aminoácidos de la PR y cerca de 300

aminoácidos de la RT, cubriendo en la mayor parte de los individuos esas posiciones de

interés susceptibles a mutaciones de resistencias (23).

2.2. MySQL y manejo de datos

Los datos virológicos y epidemiológicos de esta población se almacenaron en una base de

datos MySQL llamada KPNew. Para crear esta nueva base datos se poblaron 4 tablas

diferentes con la información almacenada en 4 archivos txt diferentes, de este modo,

KPNew quedó configurada como:

• tblMutations: En esta tabla se incluía la información relativa a las mutaciones de

resistencias para cada individuo. Inicialmente, esta tabla contenía 3 filas por paciente. Con

filas separadas para la información relativa a los genes PR y RT y para la RT columnas

separadas para las DRMs asociadas a las familias ITIAN e ITINAN.

• blNaiveIsolates: En esta tabla se encontraba almacenada el identificador para cada

paciente y cada secuencia PR y RT.

• tblPRSequences: Esta tabla incluía la información relativa a las secuencias de la PR para

cada paciente. Contenía el número de identificación para cada secuencia y paciente, el

primer (FirstPRAA), el último (LastPRAA) número de aminoácido de la secuencia de PR para

cada secuencia y la secuencia de nucleótidos completa para la PR.

34

• tblRTSequeneces: Esta tabla tenía estructura exacta a la tabla tblPRSequences y contenía

la misma información asociada a la RT.

Con el fin de organizar el set de datos en el menor número de tablas posibles con el fin de

facilitar las posteriores consultas, la base de datos quedó organizada de la siguiente manera:

• tblSequences: Las secuencias de nucleótidos estaban almacenadas, inicialmente, en dos

tablas (tbl PR y tblRT). Posteriormente estas secuencias fueron concatenadas y almacenadas

en una nueva tabla.

Por tanto, la tabla tblSequences contenía la información relativa a las secuencias PR+RT

concatenadas para cada paciente (incluyendo firstPRAA, lastPRAA, firstRTAA, lastRTAA).

• tblmutations: Se creó esta nueva tabla a partir de la tabla tblMutations, la información

almacenada era la misma pero en este caso se simplificó para que existiese una única fila

por paciente y facilitar las consultas.

• Sequences: Esta nueva tabla se creó a partir de tblSequences con el fin de almacenar una

única secuencia por paciente.

• tbldistances: En esta tabla se almacenó la información para las distancias genéticas para

las secuencias pareadas.

2.3. Alineamiento de secuencias

El alineamiento múltiple de estas secuencias se llevó a cabo empleando el software Muscle

(http://www.drive5.com/muscle/) para Linux y empleando como secuencia consenso HXB2.

Muscle es un programa de línea de comandos que requiere el uso del terminal, devolviendo

el alineamiento múltiple en formato Fasta. Además, para visualizar y editar este

alineamiento múltiple se utilizó el programa Jalview (http://www.jalview.org/).

2.4. Cálculo de las distancias genéticas

Dado que es probable que los codones con nucleótidos ambiguos (originados por mezclas

alélicas) sean sometidos a una más rápida evolución que los codones sin esas mezclas, se

desarrolló un programa que fuese capaz de calcular las distancias genéticas incluyendo

dichas mezclas genéticas. Para ello, se creó el programa “DistanceCalculator” (Anexo II)

utilizando lenguaje de programación Perl y lenguaje de consulta SQL.

Este programa requería como input un archivo Fasta en el que las secuencias a analizar

35

estuviesen alineadas y que presentasen un apropiado marco de lectura. De este modo, la

distancia genética se calcula dos a dos entre todos los posibles pares de secuencias.

El output consiste en un fichero txt que muestra todas las distancias genéticas de forma

pareadas.

Adicionalmente, se disponía de otro programa, implementado en C++, que calculaba las

distancias genéticas según el algoritmo tn-93 (https://github.com/spond/TN93). Este

programa tiene mayor capacidad de computación que el programa creado en Perl.

A diferencia de DistanceCalculator, este programa es capaz de determinar todas las

distancias genéticas y sacar en forma de output un fichero txt relacionado con unos valores

determinados de distancia genética.

2.5. Análisis de los clúster de transmisión

Para analizar cómo había tenido lugar la transmisión del VIH-1 en esta población (y

determinar los vecinos más cercanos) se realizó un pequeño programa en lenguaje de

programación R (Anexo III) que permitió agrupar los virus en clústeres según su diversidad

genética. Los resultados fueron visualizados posteriormente utilizando el programa

Cytoscape (51). De esta forma, se analizaron las DRM presentes en cada virus con el fin de

determinar que DRM podrían estar involucradas en un determinado clúster o fenómeno de

transmisión.

3. Resultados:

Nota: Los resultados de este apartado se muestran incompletos ya que el periodo de prácticas no fue

suficiente para terminar el trabajo y por tanto muchos de ellos son aun confidenciales como las

gráficas de clústeres o árboles filogenéticos. No obstante, el grupo receptor de las prácticas quiere

que la colaboración continúe hasta que el trabajo se finalice por completo. Por tanto, los resultados

que se muestra son preliminares y pueden estar sujetos a futuros cambios.

3.1 Análisis de la distancia genética

Se analizó la distancia genética de las 3.376 secuencias pol únicas de pacientes naïve

infectados por VIH-1 mediante el programa implementado en Perl llamado

DistanceCalculator. El programa hizo un total de 5.693.619 comparaciones de secuencias

dos a dos, siendo la distancia media igual a 0,040 (ratio 0,000-0,101) y encontrando un total

de 1.785 pares de secuencias de pacientes infectados por VIH-1 con una d ≤1%.

36

Figura III.1. Resumen del output generado por el programa DistanceCalculator tras procesar 3.376 secuencias pol

Leyenda: Mean Distance, distancia genética media; LowestDistance, distancia genética más baja, HighestDistance, distancia genética más elevada; Distance Bins, rangos de distancia; Total Comparision, número de comparaciones totales, Distance, distancias genéticas; Nº of pairs, número de pares pertenecientes a cada rango de distancias.

3.2 Cálculo de distancia genética empleando el programa tn-93

Dado que el programa DistanceCalculator necesitaba mucho tiempo de computación

(próximo a 6 horas) para resolver el cálculo de distancias genéticas con un set de datos tan

amplio, se utilizó el programa llamado tn-93 implementado en C++ y que además permitía

resolver los codones con mezclas. Este programa se ejecuta desde la línea de comandos y el

tiempo de computación total es segundos, por lo que resultó ser mucho más eficaz que

DistanceCalculator. Además, al tratarse de un programa tan rápido, resulta mucho más

conveniente para determinar qué virus corresponden a un clúster considerando una

determinada distancia genética.

No obstante, los resultados derivados de ambos programas resultaron ser muy similares

para d < 1% (para los valores de d < 1,5% únicamente se empleó el programa tn-93) (Figura

III.2)

37

Figura III.2. Resumen del output generado por el programa tn-93 tras procesar 3.376 secuencias pol

Leyenda: Maximum Distance, distancia genética más elevada; Mean Distance, distancia genética media; Histogram rangos de distancia.

3.3. Análisis de clúster en función de la distancia genética

Tras analizar los dos output generados por ambos programas mediante un pequeño

programa en R (Anexo III) y su posterior análisis con el programa Cytoscape, pudimos

observar que los resultados obtenidos con los programas DistanceCalculator y tn-93 fueron

similares. Además, apenas se encontró diferencia para la distribución de los virus en clúster

cuando se emplea una d <1% y d <1.5% (Tabla III.1). Es importante señalar que el número de

pacientes naïve con mutaciones de resistencia es elevado y próximo a 12% en los tres casos.

Tabla III.1. Comparación de la organización de los virus en clúster en función de dos programas diferentes y dos valores de distancias genéticas diferentes

Leyenda: d, distancia genética; DRMs, mutaciones de resistencia; No of Nodes, Número de nodos, No of Total Clusters, Números de clústeres totales; No Clusters with DRMs, número de clúster en los que se incluyen virus con DRMs; No cluster in which all patients in cluster with DRM, número de clúster en el cual todos los virus presentan mutaciones de resistencia; No Patients with DRMs, número total de pacientes con virus que tienen mutaciones de resistencia.

Tn 93 Non Mixtures d < 1.5% d <1% d <1%

No of Nodes 1464 1066 831No of Total Clusters 373 334 267

No Clusters with DRMs 64 53 48No cluster in whitch all patients in cluster with DRM 32 30 30

No Patients with DRMs 173 (11.8%) 135(12.66%) 104 (12.5%)

38

3.3.1. Análisis de clúster cuando d < 1%

Cuando se analizaron los virus de la población naïve, asumiendo una d <1%, pudimos

observar que existían 1.066 nodos y que esta población se distribuía en 334 clústeres

diferentes. Además, en el 15.9% de los clústeres estaban presentes virus con alguna

mutación de resistencia y en el 9% de los clústeres, todos sus integrantes eran virus con

DRMs (Tabla III.1). Pudimos observar que las DRMs más frecuentes era la L90M asociada a

IPs, M41L D67N, T215D asociada a ITIAN y K103N e I181C asociada a ITINAN.

En más detalle, la Figura III.3 muestra la frecuencia de cada DRM en los diferentes clústeres,

pudiéndose observar como la sustitución K103N es la que aparece en más clústeres (19/53)

diferentes con una frecuencia > al 60% en 9 de ellos. Por otro lado, las sustituciones D67N e

I181C aparecen en menos clústeres (2 y 4 respectivamente). No obstante, cuando aparecen,

están presentes en el 100% de sus integrantes.

Además, se pudo observar que la mutación K103N estaba presente en un mayor número de

pacientes (n =50) que la sustitución L90M (n= 23), M41L (22), T215D (n= 17) y D67N (n = 10)

(Figura III.4)

Figura III.3. Frecuencia de DRM en los diferentes clústeres

IP ITIAN ITINAN

Leyenda: d, distancia genética; IP, inhibidor de la proteasa; ITIAN, inhibidor de la transcriptasa inversa análogo de nucleósido; ITINAN, inhibidor de la transcriptasa inversa no análogo de nucleósido. Los clústeres están diferenciados por color dentro de cada mutación. Mismos colores no se corresponden con mismo clúster.

Frec

uen

cia

39

Figura III.4. Distribución de DRM por pacientes

IP ITIAN ITINAN

Leyenda d, distancia genética; IP, inhibidor de la proteasa; ITIAN, inhibidor de la transcriptasa inversa análogo de nucleósido; ITINAN, inhibidor de la transcriptasa inversa no análogo de nucleósido. Los clústeres están diferenciados por color dentro de cada mutación. Mismos colores no se corresponden con mismo clúster.

3.3.2. Análisis de clúster cuando d < 1.5%

Cuando se analizaron los virus de la población naïve, asumiendo una d <1.5%, pudimos

observar que existían más nodos (1.464) que cuando la d < 1%, distribuyéndose la población

en 373 clústeres diferentes vs los 334 clústeres cuando d < 1%. No obstante, la proporción

de clústeres con DRM (17,1%) fue similar a la proporción de clústeres con DRM observada

cuando d <1% (15,9%). De la misma manera, la proporción de clústeres en los que todos sus

integrantes tienen DRM fue muy similar cuando d <1% (9%) y cuando d <1.5% (8,5%) (Tabla

III.1). Para d <1.5% las DRMs más frecuentes fueron la L90M asociada a IPs, M41L D67N,

T215DE asociada a ITIAN y K103N e I181C asociada a ITINAN (Figura III.5)

En más detalle, la Figura III.5 muestra la frecuencia de cada DRM en los diferentes clústeres,

pudiéndose observar como la sustitución K103N es la que aparece en más clústeres (22/63)

diferentes con una frecuencia > 60% en 8 de ellos. Por otro lado, las sustituciones D67N e

I181C vuelven a ser las menos representadas entre los clústeres (3 y 4), respectivamente.

Pero nuevamente, cuando parece estar presente D67N, lo hace con una frecuencia del 100%

entre sus integrantes.

Nº

de

Pac

ien

tes

40

Figura III.5. Frecuencia de DRM en los diferentes clústeres

IP ITIAN ITINAN

Leyenda: d, distancia genética; IP, inhibidor de la proteasa; ITIAN, inhibidor de la transcriptasa inversa análogo de nucleósido; ITINAN, inhibidor de la transcriptasa inversa no análogo de nucleosido. Los clústeres están diferenciados por color dentro de cada mutación. Los mismos colores en distintas mutaciones no se corresponden con los mismos clústeres. Figura III.6. Distribución de DRM por pacientes

IP ITIAN ITINAN

Leyenda d, distancia genética; IP, inhibidor de la proteasa; ITIAN, inhibidor de la transcriptasa inversa análogo de nucleósido; ITINAN, inhibidor de la transcriptasa inversa no análogo de nucleósido. Los clústeres están diferenciados por color dentro de cada mutación. Los mismos colores en distintas mutaciones no se corresponden con los mismos clústeres.

Frec

uen

cia

N

º d

e P

acie

nte

s

41

Para los virus con d < 1.5% se pudo observar nuevamente que la mutación K103N estaba

presente en un mayor número de pacientes (n =60) seguida de la sustitución M41L (n = 28),

I181C (n = 27), L90M (n = 24), T215D (n = 23), T215E(n = 10) y D67N (n = 10) (Figura III.6)

4. Discusión:

El VIH entre dos individuos que se encuentran unidos en un clúster de transmisión

presentan una mayor homología que esos individuos infectados por VIH en los que no se ha

demostrado relación de transmisión. No obstante, los análisis filogenéticos pueden utilizarse

para identificar si existe relación entre dos individuos infectados por el virus. Esta

aproximación ha sido empleada para identificar clústeres de infección de VIH en ensayos

clínicos (52).

A la vista de los resultados expuestos anteriormente, podemos establecer que existen

mutaciones de resistencia que se transmiten con más frecuencia en esta población naïve,

siendo estas, principalmente K103N y M41L en la RT y L90M en la PR. No obstante, a pesar

de que la mutación K103N resulta ser una de las más prevalentes, es importante señalar que

esta mutación confiere alta resistencia a los fármacos EFV y NVP (ambos ITINAN) pero sigue

siendo susceptible a etravirina (ETR) y rilpivirina (RPV) así como al resto de fármacos

pertenecientes a la familia de los IPs e ITIAN. La mutación L90M reduce la susceptibilidad a

todos los IPs, excepto TPV y Darunavir (DRV). M41L es una mutación que suele aparecer

junto con T215Y. Ambas confieren alto grado de resistencia a zidovudina (AZT) y estavudina

(d4T) y una resistencia intermedia a didanosina (ddI), abacavir (ABC) y tenofovir (TDF)

(http://hivdb.stanford.edu/).

Por tanto, es importante destacar que esta población naïve nunca ha sido expuesta a ARVs y

ya ve limitada su oferta de tratamiento futuro.

Por otro lado, a pesar de que se trate de un estudio preliminar, podemos arriesgarnos a

sugerir que la distancia genética puede ser una herramienta predictora de mutaciones de

resistencia, ya que si dos individuos parecen tener una distancia genética similar, es posible

que pertenezcan a un determinado clúster de transmisión.

42

5. Limitaciones:

1. La principal limitación del trabajo radica en que no ha sido posible terminar los análisis y

por lo tanto los resultados son poco concluyentes. De este modo, no podemos

garantizar que estos resultados sean definitivos, ya que lo ideal sería comprobar los

mismos con nuevos análisis filogenéticos. Esto hace que la discusión de resultados se

vea limitada.

2. Sería interesante hacer un análisis de transmisión similar en población pretratada con el

fin de determinar si los resultados son similares y las mutaciones de resistencia siguen

un patrón de transmisión general.

3. Futuros estudios podrían centrarse en conocer el estado inmunológico de estos

pacientes (CV, CD4, CD8), ya que varios trabajos han demostrado que estos factores

clínicos pueden modular la diversidad genética del VIH y se encuentran asociados con la

aparición de mutaciones de resistencia (53).

4. Desconocemos la ruta de transmisión del virus (no sabemos si los pacientes han sido

infectados por vía vertical u horizontal). Sería muy conveniente conocer este dato ya que

el virus no va a evolucionar de la misma forma en pacientes que han sido infectados al

nacer que en pacientes que se han infectado en la edad adulta (54).

5. Dada la importancia de este estudio, según el cuál se puede observar que población que

nunca ha sido expuesta a TAR presenta mutaciones de resistencia (lo que limita la

eficacia de futuros tratamientos), hubiese sido interesante analizar aquellos pacientes

que presentasen mutaciones de resistencia a las 3 familias principales de fármacos (IP,

ITIAN e ITINAN) y analizar la susceptibilidad que presentan a los ARV con el fin de

determinar que fármacos pueden ser utilizados en esta población.

6. Sería interesante desarrollar algún modelo matemático que permitiese predecir si un

paciente presentará virus resistentes en función del clúster en el que se encuentre.

7. Las aproximaciones filogenéticas resultar ser las más convenientes para analizar cómo

ha tenido lugar la evolución del VIH en una población de estudio. Dado que las

mutaciones de resistencia son consecuencia de un proceso evolutivo, los análisis

filogenéticos serían los más adecuados para completar este proyecto. Es por ello que el

trabajo sigue en marcha y el siguiente paso consistirá en analizar los virus de población

naïve y tratada con el fin de determinar cómo se ha producido la transmisión de

mutaciones de resistencia entre esta población.

43

CAPÍTULO IV

Conclusiones finales

1. Conocer la variabilidad genética del VIH es de vital interés para desarrollar nuevas

opciones terapéuticas, nuevas herramientas de diagnóstico y conocer desde el primer

momento qué mutaciones de resistencia presenta el virus, con el fin de poder comenzar el

tratamiento de los pacientes con los fármacos más adecuados y evitar la aparición de

resistencias cruzadas.

2. Los subtipos no-B del VIH siguen siendo los menos estudiados a nivel mundial, a pesar de

ser los más patógenos y agresivos. Estos subtipos no-B del VIH son endémicos de países de

recursos limitados, pero debido a factores como el turismo y el turismo sexual, se están

diseminando por zonas geográficas como Europa y Estados Unidos.

3. Los subtipos no-B del VIH presentan una mayor variabilidad genética que los virus con

subtipo B. Este hecho, asociado a la introducción de TAR en entornos de recursos limitados

y al desconocimiento relativo de la capacidad de respuesta al TAR, puede hacer que el

desarrollo de mutaciones de resistencias asociadas a subtipos no-B varíe, lo que puede ser

explicado por la propia variabilidad intrínseca del virus entre los diferentes subtipos.

4. Los pacientes infectados por subtipo C del VIH-1 son más propensos al desarrollo de

mutaciones de resistencia.

5. El VIH entre dos individuos que se encuentran unidos en un clúster de transmisión

presentan una mayor homología que esos individuos infectados por VIH en los que no se

ha demostrado relación de transmisión.

6. Existen mutaciones de resistencia que se transmiten con más frecuencia en esta población

naïve, principalmente K103N y M41L en la RT y L90M en la PR.

7. El análisis de distancia genética puede ser una herramienta predictora de mutaciones de

resistencia, ya que si dos individuos parecen tener una distancia genética similar, es

posible que pertenezcan a un determinado clúster de transmisión.

44

BIBLIOGRAFIA:

1. Barré-Sinoussi F, Chermann JC, Rey F, et al. Isolation of a T-lymphotropic retrovirus from a patient

at risk acquired immune deficiency syndrome (AIDS). Science 1983; 220:868-71.

2. Worobey M, Gemmel M, Teuwen DE, et al. Direct evidence of extensive diversity of HIV-1 in

Kinshasa by 1960. Nature 2008; 455:661-4.

3. King AMQ, Adams MJ, Carstens EB & Lefkowitz EJ (2012). Virus Taxonomy Ninth Report of the

International Committee on Taxonomy of Viruses. Elsevier Inc., Londres.

4. Muesing MA, Smith DH, Cabradilla CD, et al. Nucleic acid structure and expression of the human

AIDS/lymphadenopathy retrovirus. Nature 1985; 313:450-458.

5. Gallo R, Wong-Staal F, Montagnier L, et al. HIV/HTLV gene nomenclature. Nature 1988; 333:504.

6. Emerman M y Malim MH. HIV-1 regulatory/accessory genes: key to unraveling viral host and host

cell biology. Science 1998; 280:1880-4.

7. Perelson AS, Neumann AU, Markowitz M, et al. HIV-1 dynamics in vivo : virion clearance rate,

infected cell life-span and viral generation time. Science 1996; 271:1582-6.

8. Jetzt AE, Yu H, Klarmann GJ, et al. High rate of recombination throughout the human

immunodeficiency virus type 1 genome. J Virol 2000; 74:1234-40.

9. Faria NR, Suchard MA, Abecasis A, et al. Phylodynamics of the HIV-1 CRF02_AG clade in Cameroon.

Infect Genet Evol 2012, 12: 453-460.

10. Maldarelli F, Kearney M, Palmer S, et al. HIV populations are large and accumulate high genetic

diversity in a nonlinear fashion. J Virol 2013; 87 :10313-23.

11. Rouet F, Rouzioux C. HIV-1 viral load testing cost in developing countries: what's new? Expert Rev

Mol Diagn 2007; 7:703-7. Review. No abstract available.

12. Briones C and Domingo E. Minority report: hidden memory genomes in HIV-1 quasispecies and

possible clinical implications. AIDS Rev 2008; 10:93-109.

13. Robertson DL, Anderson JP, Bradac JA, et al. HIV-1 nomenclature proposal. Science 2000; 288:55-6.

14. Clavel F, Guétard D, Brun-Vézinet F, et al. Isolation of a new human retrovirus from West African

patients with AIDS. Science 1986; 233:343-6.

15. Cheong HT, Chow WZ, Takebe Y, et al. Genetic Characterization of a Novel HIV-1 Circulating

Recombinant Form (CRF74_01B) Identified among Intravenous Drug Users in Malaysia:

Recombination History and Phylogenetic Linkage with Previously Defined Recombinant Lineages.

PLoS One 2015; 10:e0133883.

16. Yebra G, de Mulder M, Martín L et al. Most HIV type 1 non-B infections in the Spanish cohort of

antiretroviral treatment-naïve HIV-infected patients (CoRIS) are due to recombinant viruses. J Clin

Microbiol 2012 ;50 :407-13.

45

17. WHO|HIV/AIDS, November 2014; disponible en

http://www.who.int/mediacentre/factsheets/fs360/en/. Último acceso, 22/012/2015.

18. Rojas Sánchez P, de Mulder M, Fernandez-Cooke E , et al. Clinical and virologic follow-up in

perinatally HIV-1-infected children and adolescents in Madrid with triple-class antiretroviral drug-

resistant viruses. Clin Microbiol Infect 2015; 21:605.e1-9

19. Orientaciones clínicas aplicables a lo largo de todo el proceso asistencial: tratamiento

antirretroviral; disponible en:

http://www.who.int/hiv/pub/guidelines/arv2013/art/arv2013_chapter07_es.pdf

20. Rojas Sánchez P, Prieto L, de Ory S, et al. Impact of exposure to lopinavir-ritonavir in HIV-1 infected

children and adolescents in Madrid, Spain during 2000-2014. Sent to JAMA.

21. Rojas Sánchez P, Holguín. A Drug resistance in the HIV-1-infected paediatric population worldwide:

a systematic review. J Antimicrob Chemother 2014;69:2032-42.

22. Yebra G, de Mulder M, Martín L, et al. Most HIV type 1 non-B infections in the Spanis cohort of

antiretroviral treatment-naïve HIV-infected patients (CoRIS) are due to recombinant viruses. J Clin

Microbiol 2012; 50:407-13.

23. Bennett DE, Camacho RJ, Otelea D, et al. Drug resistance mutations for surveillance of transmitted

HIV-1 drug-resistance: 2009 update. PLoS One 2009; 4:e4724.

24. Johnson VA, Calvez V, Gunthard HF, et al. 2011 update of the drug resistance mutations in HIV-1.

Top Antivir Med 2011; 19:156-64.

25. Kuritzkes DR, Lalama CM, Ribaudo HJ, et al. Preexisting resistance to nonnucleoside

reverse-transcriptase inhibitors predicts virologic failure of an efavirenz-based regimen in

treatment-naïve HIV-1-infected subjects. J Infect Dis 2008; 197:867-70.

26. Little SJ, Holte S, Routy JP, et al. Antiretroviral-drug resistance among patients recently infected

with HIV. N Engl J Med 2002; 347:385-94.

27. Persaud D, Palumbo P, Ziemniak C, et al. Early archiving and predominance of nonnucleoside

reverse transcriptase inhibitor-resistant HIV-1 among recently infected infants born in the United

States. J Infect Dis 2007; 195:1402-10.

28. Kleyn TJ, Liedtke MD, Harrison DL, et al. Incidence of transmitted antiretroviral drug resistance in

treatment-naïve HIV-1-infected persons in a large South Central United States clinic. Ann

Pharmacother 2014 ;48:470-5.

29. Sida en cifras 2015; disponible en:

http://www.unaids.org/sites/default/files/media_asset/AIDS_by_the_numbers_2015_es.pdf

30. Otero P, Hersh W, Jai Ganesh AU. Big Data: Are Biomedical and Health Informatics Training

Programs Ready? Contribution of the IMIA Working Group for Health and Medical Informatics

Education. Yearb Med Inform 2014; 9:177-81.

46

31. de Mulder M, Yebra G, Martín L, et al. Drug resistance prevalence and HIV-1 variant

characterization in the naïve and pretreated HIV-1-infected paediatric population in Madrid, Spain.

J Antimicrob Chemother 201 ;66 :2362-71.

32. Rhee SY, Gonzales MJ, Kantor R et al. Human immunodeficiency virus reverse transcriptase and

protease sequence database. Nucleic acids research 2003, 31:298-303.

33. Robert W. Shafer, Soo-Yon Rhee, et al. HIV-1 protease and reverse transcriptase mutations for

drug resistance surveillance AIDS 2007; 21:215–223

34. Orum H, Wengel J. Locked nucleic acids: a promising molecular family for gene-function analysis

and antisense drug development. Current opinion in molecular therapeutics 2001; 3:239-243.

35. Kumar TS, Myznikova A, Samokhina E, et al. Rapid genotyping using pyrene-perylene locked nucleic

acid complexes. Artificial DNA, PNA & XNA 2013; 4:58-68.

36. Johnson JA, Li JF, Morris L, et al. Emergence of drug-resistant HIV-1 after intrapartum

administration of single-dose nevirapine is substantially underestimated. J Infect Dis 2005; 192:16-

23.

37. Santoro MM, Alteri C, Ronga L, et al. Comparative analysis of drug resistance among B and the

most prevalent non-B HIV type 1 subtypes (C, F, and CRF02_AG) in Italy. AIDS Res Hum

Retroviruses 2012;28:1285-93.

38. Domingo E, Holland JJ. RNA virus mutations and fitness for survival. Annu Rev

Microbiol 1997;51:151-78.

39. Lessells RJ, Katzenstein DK, de Oliveira T. Are subtype differences important in HIV drug resistance?

Curr Opin Virol 2012 ;2:636-43.

40. Wainberg MA, Brenner BG. The Impact of HIV genetic polymorphism and subtype Differences on

the occurrence of resistance to antiretroviral drugs. Mol Biol Int 2012;2012:256982.

41. Coutsinos D, Invernizzi CF, Xu H, et al . Factors affecting template usage in the development of

K65R resistance in subtype C variants of HIV type-1. Antivir Chem Chemother 2010;20:117-31.

42. Martínez-Cajas JL, Pant-Pai N, Klein MB, et al. Role of genetic diversity amongst HIV-1 non-B

subtypes in drug resistance: a systematic review of virologic and biochemical evidence. AIDS

Rev 2008;10:212-23.

43. Poonpiriya V, Sungkanuparph S, Leechanachai P, et al. A study of seven rule-based algorithms for

the interpretation of HIV-1 genotypic resistance data in Thailand. J Virol Methods 2008;151:79-86.

44. Flys TS, Chen S, Jones DC, et al Quantitative analysis of HIV-1 variants with the K103N resistance

mutation after single-dose nevirapine in women with HIV-1 subtypes A, C, and D. J Acquir Immune

Defic Syndr 2006;42:610-3.

45. Grossman Z, Istomin V, Averbuch D, et al. Genetic variation at NNRTI resistance-associated

positions in patients infected with HIV-1 subtype C. AIDS 2004;909-15.

47

46. Brenner B, Turner D, Oliveira M, et al; A V106M mutation in HIV-1 clade C viruses exposed to

efavirenz confers cross-resistance to non-nucleoside reverse transcriptase inhibitors. AIDS 2003

;17:F1-5.

47. Lambert-Niclot S, Flandre P, Malet I, et al. Impact of gag mutations on selection of darunavir

resistance mutations in HIV-1 protease. J Antimicrob Chemother. 2008 Nov;62 :905-8

48. Tajima F. Simple methods for testing the molecular evolutionary clock hypothesis. Genetics 1993

;135:599-607.

49. Greenbaum BD, Cocco S, Levine AJ, et al. Quantitative theory of entropic forces acting on

constrained nucleotide sequences applied to viruses. Proc Natl Acad Sci U S A 2014 ;111:5054-9.

50. Tebit DM, Arts EJ. Tracking a century of global expansion and evolution of HIV to drive

understanding and to combat disease. Lancet Infect Dis 2011; 11:45.

51. Shannon P, Markiel A, Ozier O, et al.Cytoscape: a software environment for integrated models of

biomolecular interaction networks Genome Research 2003; 13:2498-504 .

52. Eshleman SH, Hudelson SE, Redd AD, et al. Analysis of genetic linkage of HIV from couples enrolled

in the HIV Prevention Trials Network 052 trial. J Infect Dis 2011; 15;204:1918-26.

53. Pagán I, Rojas Sánchez P, Holguín A. Antiretroviral treatment, age and CD4 affect HIV-1B

evolutionary dynamics in children. Sent to Plos Pathogens.

54. Zhuang J, Jetzt AE, Sun G, et al. Human immunodeficiency virus type 1 recombination: rate, fidelity

and putative hot spots. J Virol 2002; 76:11273-82.

Análisis de la variabilidad genética y dinámica de ... · PDF fileTabla II.2. Frecuencia de codones mutantes y wild type según subtipo en el gen RT. Tabla II.3....

Documents