Top Banner
高高高高高高高高高高高高高高高高高高 高高高高高高高高高 高高高 高高高高高高高高高高高
44

高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Jan 12, 2016

Download

Documents

Marinel Marinel

高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所. 内容: 微生物基因组拼接算法和策略 微生物基因组的 pangenome 微生物转录组 微生物基因组的甲基化检测 宏 基因组 16S 测序 WGS 测序 单细胞测序. Diversity of the microbial universe. Acquire genes from environment Conjugation Transformation Phage infection (transduction). - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

高通量技术在基因组与微生物学研究中的应用策略与解决方案

刘贵明

中科院北京基因组研究所

Page 2: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

内容:

微生物基因组拼接算法和策略

微生物基因组的 pangenome

微生物转录组

微生物基因组的甲基化检测

宏基因组 16S 测序 WGS 测序 单细胞测序

Page 3: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Diversity of the microbial universe

Acquire genes from environmentConjugationTransformationPhage infection (transduction)

Page 4: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Microbiology in the post-genomic era. Nature Reviews Microbiology 6, 419-430 (June 2008)

Molecular evolutionary mechanisms that shape bacterial species diversity: one genome, pan-genomeand metagenome.

a. Intra-species b .inter-species c. population dynamic mechanisms manipulate the genomic diversity of bacterial speciesd. Metagenomics embraces The community as the unit of study

Page 5: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

  Illumina ABI Pacific Biosciences

  HiSeq MiSeq Ion PGM™ Ion Proton™ PACBIO RS

read 长度 2X100/150 2X150/300 100-400 100-200 3000-20000

数据量 40-60G 15G 600M 64G 500M

高通量测序平台

Page 6: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

基因组拼接 (genome assembly)

1. DNA Shear & Sequence DNA

2. Construct assembly graph from overlapping reads

3. Simplify assembly graph

4. Detangle graph with long reads, mates, and other links

Page 7: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

拼接算法

Overlap-Layout-Consensus De Bruijn Graph

soapdenovo

A Overlap

B Layout

C Consensus

Page 8: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

(A) At k = 50, the graph is tangled with hundreds of contigs. (B) k = 1,000 significantly simplifies the graph.

(C) At k = 5,000, the graph is fully resolved into a single contig.

The advantages of SMRT sequencing. Roberts et al. Genome Biology 2013, 14:405

Long read assembly (Pacbio)

Page 9: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

2-20K mate pair 40K fosmid library

Illumina 平台文库构建

500 bp pair end

Page 10: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

1. Soapdenovo input data : Illumina

2. ALLPATHS-LG

input data: 180bp +Mate pair or Illumina + PacBio(hybrid assembly)

De novo assembly

A fill fragments-> unipaths-> Error correct

Page 11: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Reference-guided assembly

Read-mapped assembly-mapped

Page 12: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Multi-reference assisted chromosome assembly

Reference-assisted chromosome assembly. Korbinian et al. PNAS.2011: 10249–10254

Page 13: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

GapClose based pair end/mate pair reads

Toward almost closed genomes with GapFiller. Boetzer et al. Genome Biology 2012, 13:R56

Page 14: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

微生物基因组的拼接方案

1. Illumina (SOAPdenovo)

Insert size: 180bp, 500bp, 2K, 5K 和 40K

Read length: 2X100bp

2. Pacbio+Illumina(Hybrid assembly, WGS, http://wgs-assembler.sourceforge.net/)

Insert size(Illumina): pair end (500bp)

Read length: 2X100bp; >5Kb

3. Pacbio Only

Read length: >5Kb

Page 15: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Hybrid Error Correction & Assembly1. Trim/correct SR sequence2. Compute an SR layout for each LR 1. map SRs to LRs 2. Trim LRs at coverage gaps 3. compute consensus for each LR3. Co-assembly corrected LRs and SRs -WGS assembler can suport 16Kb reads

Hybrid assembly

Hybrid error correction and de novo assembly of single-molecule sequencing reads. Nat Biotechnol. ; 30(7): 693–700.

Page 16: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Contig sizes for various combinations of sequencing technologiesAssemblies are for E. coli C227-11 (assemblies including Illumina and PacBio CCS) and E.coli JM221 (assemblies including 454). Both genomes have similar repeat content, PacBioread length, and coverage. Assemblies of only second-generation data are comparable andaverage N50 ≈ 100 Kbp. By comparison, adding 25X or 50X of PBcR to these data setsincreases N50 as much as 5 fold and pushes the maximum contig size greater than 1 Mbp(for the PBcR/CCS combination).

Assemblies from different strategy

Page 17: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Assemblies from different strategy

Page 18: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

De Novo SMRT Sequencing

Genome size: 124.6 MbGC content: 33.92%Raw data: 11 GbAssembly coverage: 15.37xPolished Contigs: 540Max Contig Length: 12.98 MbN50 Contig Length: 6.19 MbSum of Contig Lengths: 124.57 Mb

Page 19: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Genome annotation

genome

recombination

KEGG

t/rRNA

sRNA

repeat

Prohpage

COG

InterPor

NR

Ka/Ks

Ortholog

Tree

Pangenome

Syteny

ORF

Page 20: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Pan-genome

Strain-specificgenes

Core genesDispensable

genes

Strain-specific genes: genes present in only one strain and absent from all the others

Core genes: genes shared by all the strains

Dispensable genes: genes shared by some but not all the strains

Pan-genome: the global gene repertoirePertaining to a species

Pan-genome

Page 21: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Mathematical definition of the Pan-genome

Open pan-genome:Continuously increasing In size.Examples:E.ColiStreptococcus

Close pan-genome:No continuously increasing In sizeexampleBacillus anthracis

Page 22: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

The Core and Pan-Genomes of E. coli

20 completely sequenced genomesVary in size more than 1MbCore genome: 1976 genesPan-genome: 17838 genes

All pan-genome >80% similarity

Removing IS

Page 23: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

The Phylogenetic History of the Strains

concatenated gene of core genome (1878 genes) and maximum likelihood approachFirst split group B2 and group D; Group A,B1,S1,S3 and SS emerged more recently.

Page 24: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Recent acquired are enriched in phage and transposable elements

Page 25: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

微生物转录组 (RNA-seq)

转录组学 ( transcriptomics) ,是在 RNA 水平上研究基因转录的整体情况及转录调控 .

细菌 RNA-seq

1 rRNA 和 tRNA(MICROBExpress)2 mRNA 没有 poly-A

mRNA 富集1.16S 和 23S rRNA 的保守区域2. 核酸外切酶3. 抗体捕获

Page 26: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

DSSS protocol workflow. (A) Fragmentation(60-200bp)(B) Dephosphorylation. 5’phosphates are removed from RNA .(C) 3’adapter ligation. (D) Rephosphorylation.(E) 5’ adapter ligation (F ) Reverse transcription (RT) and amplification of library. (G) Sequencing.

Strand specific library

3’UTR5’UTRAntisenseOperonsFPKMsRNATranscriptional Start Sites(TSS)

Page 27: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

(A) The different cDNA libraries that were generatedand sequenced in this study. (B) Reads to different genome locations(C) RNA-seq, and ChIP-chip data to identify small RNAs, TSSs, promoters, and transcribed regions throughout the chromosome of

RNA-seq and ChIP-chip–based strategy to identify promoters, transcribed regions, and ssRNAs

Page 28: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

PacBio RS 系统实现对碱基修饰进行直接测序

N6-methyladenine 、 N4-methylcytosine 、 5-mC 和 5-hmC

Methylome of G. metallireducens GS-15. (a) three instances of methylated sequence regions. (b) coverage and kinetic score for all genomic positions. (c) MTase specificities determined from the genomicpositions detected as methylated. (d) Summary of detected methylated positions acrossthe genome.

Page 29: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Nat Biotechnol. 2012 Dec;30(12):1232-9

Ecoli methylation

MTases targeting motifs in genome(a) and plasmid(b)

Page 30: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Nat Biotechnol. 2012 Dec;30(12):1232-9

The RM system associated with M.EcoGIII regulates the expression of manygenes and pathways.

Page 31: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Nat Biotechnol. 2012 Dec;30(12):1232-9

Page 32: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

宏基因组( Metagenome ) , Handelsman 等在一篇研究土壤微生物的文章中首次提出 , 指“微生物群落中的所有基因组的集合”。

研究内容

(1) 针对 16S rRNA 为主要研究对象的核糖体 RNA 研究 : 种群分布和种群丰度

(2) 以环境中所有遗传物质为研究对象; DNA 的 WGS

(3) 以环境中所有转录本为主要研究对象的宏转录组研究(metatranscriptome)

(4) 基于单细胞的宏基因组研究

Page 33: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Metagenomics

16S

Page 34: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

基于双向 Index的策略 (Dual-index sequencing strategy on MiSeq)

每个 Lane 的样品数目 :Index3’ number X Index 5’

推荐 16S 的引物设计区域: 347F/803R

Page 35: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Coverage C 库容评估 C = 1− n1/N

Richness estimator (SChao1) 预测样品中微生物的种类

Shannon-Wiener index 物种丰富程度和均匀程度评估

Rarefaction curve 库容评估

文库多样性评估

Page 36: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

36

文库构建

数据质量评估与筛选

样本收集

临床信息、样本特性

MEGAN/MG-RAST

菌群特性菌群结构功能基因 /代谢途径

数据统计注释

菌群结构与功能分析

文库构建与测序 Miseq

Whole-metagenome shotgun全基因组测序策略

上机测序

GS de novo assembler

加 barcode

BLAST,MetaGeneMark

Perl, BMTagger

基于 KEGG、 SEED

序列拼接 基因注释

Page 37: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Assembly soft

1 MetaVelvet

2 Meta-IDBA

Page 38: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Standard metagenomics and sequence ‘binning’ to produce composite microbial genomes.

基于单细胞的宏基因组

Page 39: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

单细胞分离技术

微流体技术 (microfluidics), 梯度稀释法 ( Serial dilution), 显微操作技术 (micromanipulation),荧光激活细 胞分类 ( FACS , fluorescence-activated cellsorting)

Page 40: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

单细胞扩增技术

最广泛的 MDA ,能够忠实的复制整个基因组 DNA ,扩增出 10 -100 kb;MALBAC, 扩增长度 500-2000bp;

Page 41: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Sorting of Single Cells by Flow Cytometry

Candidate phylum TM6 genome recovered from a hospital sink biofilm provides genomic insights into this uncultivated phylum

PNAS. 2013 25;110(26):E2390-9

Page 42: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

TM6 genome recovered from a hospital sink biofilm

PNAS. 2013 25;110(26):E2390-9

Page 43: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

Immunomagnetic separation (IMS) and multiple displacement amplification (MDA)--Chlamydia trachomatis (antibodies or aptamers)

Analysis of sequencing data from DNA extracts from clinical samples, with and without MDA

IMS-MDA

Page 44: 高通量技术在基因组与微生物学研究中 的 应用 策略与解决 方案 刘贵 明 中科院北京基因组研究所

高通量测序技术给微生物基因组学研究带来了一个高效的新平台和巨大的发展机遇 .

谢谢!