Genome sequence
Feb 08, 2016
Genome sequence
Genome size does not correlate well with gene number or with apparent organism complexity
Closely related organisms can have genome sizes that vary by 100x
Human genome is 30x smaller than some plant genomes
N= ln (1-P) ln (1 - f )
Tamanho do
fragmento
clonado (pb)
Tamanho do genoma (pb)
2 X106
Bacteria
2 X107
Fungo
3 X109
mamíferos
5 X103
10 X103
20 X103
40 X103
400
200
100
50
4.000
2.000
1.000
500
600.000
300.000
150.000
75.000
Número de clones teoricamente necessários para representar o genoma
5’...ATCGGTACCAGGCTCCTCAGAGT...3’3’...TAGCCATGGTCCGAGGAGTCTCA...5’
Seqüênciamento do genoma por “shotgun”
Genoma abertoClonagem e seqüênciamento
Alinhamento dos clonesGenoma seqüênciado
Clones“shotgun”
Bioinformática
• Fragmentos de DNA ramdômicos podem ser obtidos usando o processo HydroShear (GeneMachines Inc., USA).
Construção da biblioteca shotgun
6,0
kb
1,0
1,52,0
3,0
4,05,0
7,0
11,0
• DNA sonicado para construção biblioteca shotgun
In shotgun approach, DNA is randomly broken
into fragments, and each is sequenced
w/out knowing where in the genome the
fragment comes from
Maria Aparecida Fernandez- DBC - UEM
Maria Aparecida Fernandez- DBC - UEM
1.cromossomoou cosmídeo
2.fragmentação_ enzimática_ nebulização
3.clonagem_ pUC18
ACCTGATGCCGACGGG4.seqüenciamento
5.montagem
6.finalizaçãoContig 1 Contig 2
Cosmídeo iniciador
7.anotação
retro-alimentação
Bancada Bioinformática
SEQUENCIAMENTO DE DNA
Automated DNA Sequencing
If the chain terminators are labeled instead of the primers, all four reactions can occur in the same tube.
Maria Aparecida Fernandez- DBC - UEM
SEQUENCIAMENTO DE DNA
Typical output of an automated sequencer
Maria Aparecida Fernandez- DBC - UEM
Estrutura da Rede de Computadores
Switcher
Servidor e-mail Web FTPFirewallPentium III 750 MHz
Sun 450 Enterprise4 processadores4 GB RAM300 GB HD
PC1
PC2PC3
PCn
INTERNET
Instituições participantes do projeto
Laboratório debioinformática
Montagem do genoma• Phred – identificação de bases (base calling)
e valores de qualidade• Cross-match – identificação de seqüências de
vetor• Phrap – montagem das seqüências contíguas
(contigs)• Consed – análise e edição dos contigs• Finalização – fechamento de falhas (Scaffold),
determinação de genes (BLAST/Glimmer) e anotação (Artemis/Sequin)
GENOMAS SEQUENCIADOS
Bacterial genome
Eukaryotic DNA: chromosome
Band pattern of human chromosomes
Genes in genome
The organization of genes on a human chromosome
Human genome sequence
Comparison of genomes
Dogma central da biologia molecular
5´
5´
3´
3´
DNA
Replicação do DNA
Reparo de DNA
Recombinação genética
5´ 3´ RNA
Síntese de RNA
Transcrição
Síntese protéica
Tradução
ProteínaH2N COOH
Tradução
Transcrição
GeneDefinição Molecular
Seqüência de DNA que codifica uma proteína
Não acredito que vocês estão satisfeitos com
esta definição!!!
Alguns genomas são constituídos de RNA e não de DNA.
Alguns genes produzem RNA (tRNA e rRNA) e não proteínas.
Algumas regiões não-codantes são importantes para produção de RNA e proteínas.
GeneFalhas da definição
molecular
“ Open Reading Frame” - ORF
É a seqüência de nucleotídeos que codifica os aminoácidos de uma proteína.
A definição molecular de gene é mais ampla do que apenas a seqüência codante.
Gene
Finding the regions in a DNA sequence that encode a protein:
Computer programs designed to identify ORFs
Toda seqüência de nucleotídeos necessária para a síntese de uma cadeia polipeptídica ou de RNA funcionais.
GeneDefinição molecular
atual
Regulatórias
Sítios de ligação da RNA polimerase
Sítios de ligação dos fatores transcricionais
Íntrons
Sítios de Poliadenilação - poliA
GeneRegiões não-
codantes
Promotor E1 I1 E2 I2 E3 PoliA
Interruptor do geneFatores transcricionais
RNA polimerase
Seqüência codanteATG
Seqüência não-codanteSplicing
Cauda de poliadenina
Gene
Introns can be recognized by conserved sequences at the junctions that are required
for their removal
All parts of the genome are subject to mutation, but not all parts are subject to natural selection
Sequences that do not encode protein are not under selective pressure and thus diverge more rapidly
Comparative genomics is our most powerful tool for identifying the exons of expressed
genes
Random mutations leads to extensive sequence variation between humans and mice at all sites that are NOT under selection.
Because of functional constraints, the exons in genes stand out as islands of conservation.
Distribution of sequence types in the human genome
Average human gene is about 20x larger than genes in E. coli or even in yeast
Gene density is much higher in compact yeast genome relative to human
The partly reflects the compression of gene regulatory sequences into short regions just upstream of the gene.
Human regulatory elements can be spread out over tens of 1000s of basepairs
The C. elegans genome was completed in 1998 and is predicted to contain 19,000 genes; 3x more than the unicellular eukaryote, S. cerevisiae