SEQUENCIAMENTO DE DNA SEQUENCIAMENTO DE DNA (cDNA) (cDNA) Prof. Adriana Dantas Prof. Adriana Dantas UERGS UERGS
SEQUENCIAMENTO DE DNA SEQUENCIAMENTO DE DNA (cDNA)(cDNA)
Prof. Adriana DantasProf. Adriana DantasUERGSUERGS
• ObjetivosObjetivos
Determinar a estrutura de uma molécula de DNA, identificando A SEQÜÊNCIA DE nucleotídeos componentes.
É o primeiro passo para a interpretação das informações genéticas codificadas no DNA, as quais determinam as características estruturais e funcionais de cada ser vivo
Projetos GenomasProjetos Genomas EstruturalEstrutural
– Sequenciamento Completo do GenomaSequenciamento Completo do Genoma– Região Gênica e Região IntergênicaRegião Gênica e Região Intergênica
FuncionalFuncional– ESTs – Expressed Sequence TagESTs – Expressed Sequence Tag– Regiões que codificam proteinasRegiões que codificam proteinas– Funçoes celulares, metabólicas, Funçoes celulares, metabólicas,
fisiológicas.fisiológicas.
Evolução dos organismos vivos, Evolução dos organismos vivos, dogmas central e periféricosdogmas central e periféricos
A A Engenharia GenéticaEngenharia Genética atua atua em nível molecular, onde as em nível molecular, onde as
diferenças entre espécies diferenças entre espécies “desaparecem”.“desaparecem”.
DNA RNAm Proteínas (n aa)
Replicação
Transcrição Tradução
núcleocitoplasma
TranscriptaseTranscriptase
Obtenção do DNA genômico
Construção de primers
Amplificação do gene de interesse a ser clonado
Preparação do vetor
Ligação do vetor ao “inserto”
Transformação da bactéria
Seleção dos clones recombinantes
Propagação da colônia recombinante em meio líquido
Extração e purificação de plasmídio recombinante
Digestão e seqüenciamento
Bioinformática
Identificaçao de sequencias
Inserção de DNA exógeno: - Eletroporação; Agrobact.; Biobalistica, etc.
Etapas genômicasEtapas genômicas
gDNA x cDNAgDNA x cDNA
Diferenças moleculares;Diferenças moleculares;Tecidos;Tecidos;
Estratégias;Estratégias;Onde obter e como obter?Onde obter e como obter?
PNAS, vol. 74 No. 2 p. 560-564, 1977
Graduado em química e física em Harvard1960 - biologia molecular
mRNAsíntese proteícaregulação gênicatécnicas de DNA recombinante
Prêmio Nobel de medicina e fisiologia em 1980
Walter Gilbert (1932 - )Walter Gilbert (1932 - )
Prêmio Nobel de medicina e fisiologia em 1980
Graduado em Ciências em Cambridge Estudou proteínas – insulina1943 – técnicas de sequenciamento
J. Mol. Biol. v.94, p. 441-448, 1975
Frederick Sanger ( 1918 -)Frederick Sanger ( 1918 -)
aa aa aa aa aa aa aa aa
Proteína
CTC ATT GTG CTT GAA TTT TTG GTG
DNA
GAG UAA CAC GAA CUU AAA AAC CAC
mRNA
Seqüenciamento de DNA - GilbertSeqüenciamento de DNA - Gilbert
-OH nos dNTPS
Não forman ligação fosfodiéster com o próximo dNTPs que chega na cadeia
ddATP32
DNADNA polimerase
A, C, G e TDNA
DNA polimerase
A, C, G e T
ddCTP32
Repetidos ciclos de: desnaturação, anelamento extensão
A C T G
AACGGTTCCAC
Interpretação
DNADNA polimerase
A, C, G e T
ddGTP32
DNADNA polimerase
A, C, G e T
ddTTP32
•
500 bases / segundo
HistóricoHistórico
Gilbert e SangerGilbert e Sanger–70’s: 20 bases em dois anos
Seqüenciamento manual–Géis de poliacrilamida–Radioisótopos
Seqüenciamento automáticoCapilar
Uso da bioinformática na análise genômica
primer polimerase
dNTPs
template
labelled ddNTPs
Seqüenciamento de DNA
TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG
ATCTCGTAGCTA
ATCTCGTAGCTAGCTACGACGTCTA
ATCTCGTAGCTAGCTA
ATCTCGTAGCTAGATCTCGTAGCTAGCATCTCGTAGCTAGCT
ATCTCGTAGCTAGCTACATCTCGTAGCTAGCTACGATCTCGTAGCTAGCTACGAATCTCGTAGCTAGCTACGACATCTCGTAGCTAGCTACGACGATCTCGTAGCTAGCTACGACGTATCTCGTAGCTAGCTACGACGTCATCTCGTAGCTAGCTACGACGTCT
ATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCT
A
G
C
T
A
C
G
A
C
G
T
C
T
A
Seqüenciamento de DNA
Seqüenciamento de DNA
Início
Fim
Receber Processar Anotar Depositar
Bioinformática
PROJETOS GENOMA
COMPARAÇÃO COM BANCOS DE DADOS
VERIFICAÇÃO DE HOMOLOGIACOM GENES PREVIAMENTE SEQUENCIADOS
Seqüências
0
2.000.000
4.000.000
6.000.000
8.000.000
10.000.000
12.000.000
14.000.000
16.000.000
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
Ano
606
15 milhões
Crescimento do GenBank
Europeu Japonês
24h
SeqüencSeqüenciamento iamento parcial deparcial de tra transcritosnscritos
Genes diferencialmente expressos
Biblioteca de frruto suscetívelBiblioteca de fruto resistente
Genes exclusivos de uma forma
Genes comuns
Determinando o perfil de expressão gênica e identificando genes diferencialmente expressos
• Determinação da função de um gene
• Caracterização de um estádio de desenvolvimento ou fisiológico
• Caracterização de elementos regulatórios
Por que?
Técnicas disponíveis
• Seleção diferencial e hibridização subtrativa (Sambrook et al., 1989)
• cDNA-AFLP (Bachem et al.,1996)
• Differential Display Reverse Transcription PCR - (DDRT-PCR) (Liang and Pardee., 1992)
• RFLP-coupled differential display (RC4D) (Fischer et al., 1995)
• Serial Analysis of Gene Expression (SAGE) (Velculescu et al., 1995)
• Macroarrays (Chen et al., 1998)
• Microarrays (Schena et al., 1995)
ESTs (Expression Sequences Tags)
AAAAAAAAA TTTTTTTTTRT
PCRClonagem
Seqüenciamento
Extração RNAm + Oligo (dT)
cDNA
cDNA “tester“com adaptador 1 R cDNA“tester“com adaptador 2 RcDNA “Driver”
(em excesso)
1ª Hibridização
a
RNA mensageiro
Subtração
Ligação dosadaptadores
cDNA
Digestão comRsaI
a, b, c, d + e
2ª Hibridização: mistura de amostras,
adição de “Driver” desnaturado eanelamento
Preenchimento dos terminais
d
b
c
a
d
b
c
e Adição de “primers”Amplificação por PCR
a e d - nenhuma amplificação
b- b’ - nenhuma amplificação
c - amplificação linear
e - amplificação exponenciale5’
5’
3’
3’
Construção de bibliotecas Subtrativas
TesterRNA tecido A
DriverRNA tecido B
cDNA
Digestão com Dpn II
Ligação ao oligo A Ligação ao oligo B
Hibridização com excesso de Driver
PCR com a utilização de iniciadores complementares ao oligo A
Amplificação seletiva dos cDNAs derivados do Tester
Clonagem em vetores e montagem da biblioteca
cDNA-AFLP
cDNA-AFLP
Vantagens:• Alta reprodutibilidade;• Poucos falso positivos;• Necessita de pequenas quantidades
iniciais de RNA.
Desvantagens:• O cDNA precisa conter o sítio de
restrição da enzima utilizada.
DDRT-PCR (Differential Display Reverse Transcription PCR)
SNPs (Single nucleotide polymorphisms)
5’ leader Coding sequence(exons)
3’ end Poly-A
Seqüênciamento 5’Seqüênciamento 5’Seqüênciamento 3’Seqüênciamento 3’
Polimorfismo de um único nucleotídeo
I.G. Gut, Automation in genotyping single nucleotide polymorphisms. Hum. Mutat. 17 (2001) 475–492.
detectar a variação de seqüência na janela de um alinhamento de ESTs de um mesmo gene, parcialmente
sobrepostas
SNPs - Princípio
Variações mais frequentes no genoma: 1 substituição a cada 31 pb não codificadora e a cada 124 pb em regiões codificadoras
Detecção e validação de SNPs
(A)200
AUG
Um mRNA & suas ESTsUm mRNA & suas ESTs
(A)200(T)18cDNA (fita -)
AUG(A)18
cDNA (fita +)
cDNA (fita +)
(T)18cDNA (fita -)
(A)18
ATGATCATGACTTACGGGCGCGCGAT
GGCGCGCGATATCCAAATTTATTATCC
3’EST 3’EST
3’EST 3’EST5’EST5’EST
5’EST5’EST
AAATTTATTATCCATCTACG
PCR PCR inespecíficoinespecífico & seu & seu ORESTESORESTES
(A)200
cDNA (fita -)
AUG amplicon (fita +)
Iniciador(60ºC 37ºC)
amplicon (fita -)
amplicon (fita +)
PCR(60ºC)
ORESTEORESTESS
AGATCGATCATGACTTACGGGCGCGCGATATCG
GGGCGCGCGATATCGAAAAATTTATAAGGCTAGCCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC
+ORESTES (outros iniciadores)+ORESTES (outros iniciadores)
montagemmontagem
AGATATGAGAGACACAGAAATTTCCG
GACACAGAAATTTCCGATA
ATTTCCGATACAAACCTGGTAAGACAGC
GACAGCTAAGGTTAGGACGACTTTAGGACCGATACCC
TTAGGACGACTTTAGGACCGATACCCCAAATACC
TACCCCAAATACCCTAAGATTA
AAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAG
AGATATGAGAGACACAGAAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAGGACGACTTTAGGACCGATACCCCAAATACCCTAAGATTA
AGATATGAGAGACACAGAAATTTCCG
GACACAGAAATTTCCGATA
ATTTCCGATACAAACCTGGTAAGACAGC
GACAGCTAAGGTTAGGACGACTTTAGGACCGATACCC
TTAGGACGACTTTAGGACCGATACCCCAAATACC
TACCCCAAATACCCTAAGATTA
AAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAG
AGATATGAGAGACACAGAAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAGGACGACTTTAGGACCGATACCCCAAATACCCTAAGATTAAGATATGAGAGACACAGAAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAGGACGACTTTAGGACCGATACCCCAAATACCCTAAGATTA
AGATATGAGAGACACAGAAATTTCCG
GACACAGAAATTTCCGATA
ATTTCCGATACAAACCTGGTAAGACAGC
GACAGCTAAGGTTAGGACGACTTTAGGACCGATACCC
TTAGGACGACTTTAGGACCGATACCCCAAATACC
TACCCCAAATACCCTAAGATTA
AAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAG
Contig
Análise de transcriptomaAnálise de transcriptoma
EExpressed xpressed SSequence equence TTagsags
Micro arranjos Micro arranjos
SSerial erial AAnalysis of nalysis of GGene ene EExpressionxpression
EExpression xpression SSequences equences TTagsags
AAAAAAAAA TTTTTTTTTRT
PCRClonagem
Seqüenciamento
Redundância entre os transcritosRedundância entre os transcritos
100
150
200
250
Genes diferencialmente expressosGenes diferencialmente expressos
Biblioteca de leveduraBiblioteca de micélio
Genes exclusivos de uma forma
Genes comuns
Genes específicosGenes específicos
Princípio da genotipagem
TTACGCATAACCTATCGAATTCCATCGCATCGA1. PCR amplificação
2. Restrição do produto PCR com a enzima adequada (ex: EcoRI, GAATTC)
TAACCTATCGAATTCCATCG
C
SNP site
TAACCTATCGACTTCCATCG
Se ‘A’ está presente ocorrea restrição
Se ‘C’ está presente, não ocorrea restrição
-
+
N R -
+
N R
Análise Molecular Análise Molecular
Identificação Molecular
Análise de DNA- PCR- Southern Blot - Real Time PCR- Arranjos
Análise de ProteínaBaseadas em imunologia
- ELISA- Western blot- Proteoma
4. Hibridização da membrana com a sonda específica
Retirada da membrana com o DNA
Hibridização da membrana com sonda radioativa
Solução de transferência
Esponja
Gel
Membrana de Nylon
Papel para Absorção
3. Transferência do DNA para a membrana de nylon (Blotting)
2. Eletroforese DNA em Gelde Agarose
5. Revelação do autoradiograma
Retirada das hibridizações
não específicas
1. Digestão do DNA com enzimas de restrição
Southern Blot
Análise Molecular
Digestão com EcoRI e hibridação com sonda específica para
sarcotoxin IA
PCR
Southern blot
Análise do fenótipo
Sintoma aos 25 dias após inoculação (104 CFU/ml)
stx-5Controle
Western blot
Real Time PCR
Resultados após amplificação
Análise da Expressão de Genes
Arranjos de DNA
Aumento do número de genes
chips de DNA
diferentes seqüências para detectar genes expressos ou
introduzidos em plantas
BibliotecaEstoque de bactéria
em glicerol (96 ou 384-well )
Amplificaç ão de PCRDiretamente do estoque Usando iniciadores SP6-T7 em placas 96-well
Mantagem em placas 384-well
Gotas em matrizesSobre lâminas devidro
Impressão do chip DNA
Seqüênciamento de genes expressos:Seqüênciamento de genes expressos: Documentar a existência de Documentar a existência de transcritos gênicos num transcritos gênicos num transcriptomatranscriptoma
EST (Etiqueta de Seqüência EST (Etiqueta de Seqüência Expressa)Expressa) –seqüenciamento único de cada cDNAseqüenciamento único de cada cDNA–extremidades 5’ ou 3’extremidades 5’ ou 3’
ORESTES (ESTs ricas em ORFs)ORESTES (ESTs ricas em ORFs)–seqüenciamento único do amplicon seqüenciamento único do amplicon
derivado de cDNA por PCR derivado de cDNA por PCR inespecíficoinespecífico–prevalece o centro do cDNA (cds)prevalece o centro do cDNA (cds)
Micro-arrayMicro-arrayBaseado na hibridização de sondas de DNA (clones individuais) com cDNA isolado de diferentes formas celulares.
Clones individuais são adsorvidos em uma matriz sólida.
cDNA Microarray Printing
Deposição dos produtos de PCR sobre lâminas de vidro ou membranas de nylon utilizando “Array Spotter Gen. III
Amersham-Biosciences”
hibridizaçãohibridização
Chip de alta densidadeChip de alta densidade
Forno de hibridação
Hibridação e lavagem automática
Hibridações de lâminas é realizada no módulo ASP (automated slyde processor).
A hibridação de mambranas de nylon é realizada em forno de hibridação
Histórico do sequenciamento de genomas
1977- bacteriófago phi-x174 (5386bp) foi 1. organismo sequenciado.
Sanger et al [Nature 246, 687 (1977)].
1982- bacteriophage lambda (48,502bp) Sanger et al [J. Mol. Biol. 162, 729 (1982)]
anos 80 - genoma mitocondrial, 16kb; Epstein Barr virus, 172kb; human
cytomegalovirus, 229kb
1980’s- final: desenvolvimento de sequenciadores automáticos
1991- menos de 2,000 gens de proteinas humanas conhecidos
1995- 1o. genoma de um organismo de vida livre 1995
bactéria Haemophilus influenzae Rd KW20- 1,8 Mbases
2004 – 160 genomas bacterianos completos, de 130 espécies
19 genomas de archae completos
28 genomas de eucariotos, completos, ou alguns cromossomas completos cromossomas completos, incluindo:
• homem
• camundongo (rato sendo sequenciado)
• 3 plantas: Arabidopsis thaliana e 2 variedades de arroz
• 2 peixes
• 6 protozoários
• 3 artrópodos incluindo Drosophila melanogaster
• 6 fungos
• nematódios, alga, cryptomonas
Gen humano típico: 5 ou 6 introns, tamanho médio dos introns: 2100bp (alguns com 100000 bp)
tamanho médio dos exons: 125bp
Exons de gens celulares: 5% genoma humano
Dados sobre composição do genoma: grande extensão de introns x exons
Dados sobre composição do genoma: tamanho e número de gens
Homem: 30.000 gens 2,8 x 109 bp
Arroz (Oryza sativa): 20.000 gens 3,7 x 108 bp
Drosophila melanogaster:13.600 gens 1,8 x 108 bp
Escherichia coli: 5.300 gens 4,6 x 106 bp
Comparando Homem e E. coli tem-se que:
número de gens: 5,7x tamanho do DNA: 610 x
Genômica x ProteômicaGenômica x Proteômica
A Genômica possibilitou o A Genômica possibilitou o sequenciamento de alta performance sequenciamento de alta performance de diferentes gens de diversos de diferentes gens de diversos organismos. Porém não resolveu organismos. Porém não resolveu questões importantes relativo á questões importantes relativo á função de várias proteínas. função de várias proteínas.
““Podemos ver o Genoma como a Podemos ver o Genoma como a descoberta dos hieróglifos que ainda descoberta dos hieróglifos que ainda necessitam ser decifrados”necessitam ser decifrados”
questão 1: 1 transcrito primário podendo corresponder a mais de um mRNA, e portanto mais de uma proteina
questão 2: 1 mRNA não sendo eficientemente traduzido, como ocorre em alguns casos de transferência lateral
questão 3: alguns RNAs ficam longo tempo sem ser traduzidos em células eucarióticas
questão 4: processamento pós-traducional: várias proteinas, com atividade distinta, vindo do mesmo gen
Um gen vários produtos !
Pos-GenômicaPos-Genômica
Genomica FuncionalGenomica Funcional
ProteômicaProteômica
Genomica EstruturalGenomica Estrutural
DNA-MicroarrayDNA-MicroarrayGel Electroforese 2DGel Electroforese 2D
Espectrometria de Massa Espectrometria de Massa Sequenciamento de ProteinaSequenciamento de Proteina
Crystallografia de Crystallografia de X RayX RayNMRNMR
Sequência - Forma - FunçãoSequência - Forma - Função
Rede ProteômicaRede Proteômica
Problemas BiológicosProblemas Biológicos
Gel 2D Cromatografia Gel 2D Gel 2D Gel 2D
Maldi - Tof Maldi - Tof
MS-MS: ESI-Q-Tof MALDI TOF-TOF
Expressão
Cristalização
NMR X- rays
Purificação de Proteína
Bioinformatica
Microarray
Proteoma
Levantamento quantitativo de proteínas/peptídeos em uma amostra para identificar mudanças de interesse
Proteoma GenomaProteínas e peptídeos
Dinâmico
Células e tecido específicos
DNA
Estático
Orgão específico
Abordagens em ProteômicaAbordagens em Proteômica Proteômica de ExpressãoProteômica de Expressão
– Expressão DiferencialExpressão Diferencial
Proteômica FuncionalProteômica Funcional
– Interação Proteina-ProteinaInteração Proteina-Proteina
– Vias de SinalizaçãoVias de Sinalização
– Modificação Pós- traducionalModificação Pós- traducional
Proteômica QuantitativaProteômica Quantitativa
Separação e preparo de amostraSeparação e preparo de amostra
Digestão - tripsina
Peptídeo
Separação
Esquema geral de identificação de proteínas
Aplicações:
- Descoberta de novas drogas, - Estudos em patologia, - Diagnóstico, - Terapias, - Microbiologia,- Bioquímica, - Fisiologia de plantas, - Controle de qualidade.
2D-gel, V. cholerae El Tor N16961 strain
Mapa de referência de Vibrio cholerae El Tor com 94 spots
Main cellular roles Main cellular roles found:found:
spotsspots proteinsproteins
Energy metabolismEnergy metabolism 3636 2828
(TCA cycle)(TCA cycle) (9)(9) (8)(8)
(glycolysis/gluconeogen(glycolysis/gluconeogenesis)esis)
(11)(11) (7)(7)
Transport and binding Transport and binding proteinsproteins
16 16 1313
(Solute-binding protein (Solute-binding protein of ABC transporters)of ABC transporters)
(15)(15) (12)(12)
(other transporters)(other transporters) (1)(1) (1)(1)
Identification of spots by peptide mass fingerprint:
94 spots, corresponding to 80 proteins
94,0-
67,0-
43,0-
30,0-
20.1-
14.4-
kDa 4 7
Spot 258Serine proteinase B.
insularis
Spot 474Vascular endothelial
growth factor
Spot 428Convulxin beta [Crotalus
durissus]
Spot 427, 429 e 467Lectin [Bitis arietans]
Spot 375, 435 e 459Platelet glycoprotein Ib-binding
protein alpha subunit [B. jararaca]
Spots 255, 260, 261, 262 and 268Metalloproteinase (PI) B.insuaris
Spot 412Anticoagulant protein A
[Deinagkistrodon acutus]
Spot 356Metalloproteinase
(Agkistrodon contortrix laticinctus)
Spot 386 and 394Phospholipase A2 B. insularis
433 e 434Agkisacutacin B chain
[Deinagkistrodon acutus]
489BJcuL precursor [B. jararacussu].
Spot 24, 28, 29, 30, 31, 32, 77, 90, 93 and 96Metalloproteinase (PIII) B.insularis
Spot 444Unnamed Protein Product (Mus Musculus)
Análise de Peptídeos: Peptidomics
• A eletrofores bidimensional separa proteínas entre 10 kDa e 200 kDa: Proteínas maiores ou menores não são detectadas;
• Para análise de peptídeos dependendo da amostra podemos analisar diretamente no MALDI-TOF, ou ainda fazer uma separação prévia e analisar frações cromatográficas contendo peptídeos.
B. insularis crude venom MALDI-TOF/MS
1100 1180 1260 1340 1420 1500
Mass (m/z)
1.6E+4
0
10
20
30
40
50
60
70
80
90
100
% Inte
nsity
4700 Reflector Spec #1[BP = 1370.7, 16470]
1370.74
82
1196.64
23
1279.77
83
1392.72
62
1218.62
38
1414.70
90
950 1060 1170 1280 1390 1500
Mass (m/z)
3.7E+4
0
10
20
30
40
50
60
70
80
90
100
% In
ten
sity
4700 Reflector Spec #1=>BC=>NF0.7[BP = 1087.6, 36679]
1087
.622
8
1277
.616
1
1373
.722
9
1244
.639
8
1404
.764
0
1037
.544
3
1101
.599
6
1063
.573
6
956.
5493
1370
.700
4
1144
.641
4
1299
.695
2
1395
.700
2
1409
.792
5
Crude venom direct analysis in MALDI-TOF
Lachesis muta MS/MS 1373
610 778 946 1114 1282 1450Mass (m/z)
0102030405060708090
100
% In
tensit
y
4700 MS/MS Precursor 1373.72 Spec #1=>BC=>NF0.7[BP = 1161.5, 46639]
1161
.521
1
1048
.459
4
851.
4226
1133
.560
8
911.
4136
1169
.577
6
1373
.583
5
639.
3297
1258
.647
3
774.
3678
PPI / LHP G
qkpwppghipp Peptídeo potenciador de bradicinina
~16kD ~16kD
6.1 6.16.4 6.4
Spots only visible in logaritmic or stationary cells
(arrows), indicating different protein expression
along growth curve.
Some common spots varied in intensity
with growth phase.