Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik Can Alkan Bilgisayar Mühendisliği Bölümü, Bilkent Üniversitesi, Ankara
Genetik Hastalıkların Karakterizasyonunda Yüksek Ölçekli Dizileme ve Biyoenformatik
Can Alkan
Bilgisayar Mühendisliği Bölümü,
Bilkent Üniversitesi, Ankara
Genom nedir?
Bir canlının tüm DNA’sındaki kalıtımsal şifrelerin tamamı İnsan genomu 6 milyar baz çiftinden oluşur, anne
ve babadan 3’er milyar baz çifti gelir 4 çeşit baz: adenin (A), sitozin (C), guanin (G),
timin (T)
Referans genomu Uluslararası İnsan Genomu Projesi (ABD, İngiltere, Çin, Japonya,
Almanya, Fransa) 8 bireyden oluşturulan 3 milyar baz çiftlik “referans genomu”
İnsan genom çeşitliliği
1 bp 1 kromozom
Sık
lık
Tek Nükleotid Polimorfizm (TNP [SNP])
Kromozomal(trizomi/monozomi)
Kopya Sayısı Varyasyonu (KSV [CNV])ve Yapısal Varyasyon (YV [SV])
Değişken büyüklüğü
1 kbp 1 Mbp
Genetik farklılık türleri
Array-CGHKaryotipleme
Yeni nesil dizileme
SNP genotipleme/Sanger dizileme
1 bpV
erim
lilik
1 kbp 1 Mbp
Değişken büyüklüğü
Nasıl bulunur?
1 kromozom
Tek nükleotidlik ve kısa değişimlerTNP: İnsanlar arasında tek nükleotidin değişimi ile oluşan farklarKısa indel: 1-50 baz uzunluğunda silinme ve eklenmeler
referans: C A C A G T G C G C - Tbirey: C A C C G T G - G C A T
substitüsyon silinme eklenme(TNP / SNP) (indel)
Kişi başına 3-4.5 milyon arası TNP, yaklaşık 500 bin kısa indel Birçoğu etkisizdir, bazıları genlerin ifade ettiği proteinleri etkiler
Nonsense mutasyon: Genin ifadesini durdurur (örn: Akdeniz anemisi) Missense mutasyon: İfade edilen proteini değiştirir (örn: ALS) Frameshift (indel): DNA kodunda kaymaya neden olup proteini değiştirir (örn:
hiperkolesterol)
Kısa tekrar (mikrosatelit) polimorfizmi
Adli tıpta ve babalık testlerinde kullanılır Bazı hastalıklara yol açabilir:
Kırılgan X Sendromu (Fragile X Syndrome) Huntington hastalığı
Tekrar eden ardışık tekrarlardaki değişim
referans: C A G C A G C A G C A Gbirey: C A G C A G C A G C A G C A G
Yapısal ve Kopya Sayısı VaryasyonuSİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME
(deletion) (novel sequence ins.) (transposon insertion)
Alu/L1/SVA
ARDARDA KOPYA AYRIŞIK KOPYA(tandem duplication) (interspersed duplication)
İNVERSİYON TAŞINMA (inversion) (translocation)
Kopya SayısıVaryasyonu - KSV(copy number variation)
Dengeli Varyasyon(balanced rearrangement)
Yapısal ve Kopya Sayısı Çeşitlilikleri
SilinmeÇevrilme (inversion)
Eklenme
‘Bireysel olarak ender, toplu olarak yaygın’
Kişi başına yaklaşık 15-20 milyon baz çiftini etkiler
Çoğunun etkisi yok ya da azdır, genlerin silinmesi ya da kesintiye uğraması durumunda hastalığa yol açabilir: Silinme: otizm, zeka geriliği,
Crohn hastalığı Kopyalanma: şizofreni, sedef
hastalığı Taşınma: CLL (lösemi) Transpozon: hemofili
Kidd et al., Nature, 2008
Genomik farklılık keşif projeleri Uluslararası HapMap Projesi
4 toplumdan 270 birey İnsan Genomu Çeşitlilik Projesi (HGDP)
52 toplumdan 1050 birey Dizileme projeleri:
1000 Genom Projesi 26 toplumdan 2500 birey (planlanan)
İngiltere: UK100K (kontrol + nadir hastalık +yaygın hastalık)
Diğer bağımsız projeler: Güney Afrika, Kore, Hindistan, Japonya, İrlanda, Hollanda,
vb.
Genom dizilemeÖrneklenengenom Rastgele parçalama
Eşli dizileme (paired-end seq.)
Dizi okuma (read) yerleştirmeReferansGenomu(İGP) Biyoenformatik analiz
Bulunan farklılıklar
Sonuçlar
Deneysel doğrulama
Baz başına10-100molekül
Ekzom ya da tüm genom
Ekzom dizileme sadece protein kodlayan kısımları inceler Genomun %1.5’u Tek gen hastalıkları ve Mendel kalıtımına uyan hastalıklar için
genelde iyi sonuç verir > 80X kapsama gerekir (~40 milyon “read”)
Tüm genom dizileme ile intronlar, UTR’lar, promotörlerdeki hastalık nedeni mutasyonlar da bulunabilir Crohn hastalığı: McCarroll 2008, Bekpen 2009 ALS-FTD: Renton, 2011 > 30X kapsama gerekir (~1 milyar “read”)
Biyoenformatik analizler
Tekrar dizileme (resequencing): elde bir referans genomu varsa karşılaştırılma yapılır (örn. insan, fare, şempanze, vs.) Parçacık yerleştirme (read mapping): Her parçacığın
referans genomuna mümkün olan en az değişiklik ile eşleştirilmesi
Yeni dizileme (de novo sequencing): referans genomu olmayan türlerin referans genomunun oluşturulmasında (örn: inci kefali, gibbon, pirinç, vb.)
Tekrar dizileme analizi
Dizileme
parçacıklar
BWA, Bowtie, mrFAST, vb.
parçacık yerleştirme(read mapping)
TNP/indel keşfi Yapısal farklılık keşfi
GATK, samtools, vb.
VariationHunter, GenomeSTRiP, Delly, vb.
Yorumlama, veritabanı karşılaştırma, gen önceliklendirme
Annovar, snpEff, SIFT, vb. Ingenuity, DADA, vb.
Protein etkileşimi ve yolak analizi
TNP VE KISA INDELLER
Amaç
Referans genomuna hizalanmış kısa parçacıklar incelendiğinde görülen farklılıklardan gerçek TNP ve dizileme hatalarının ayırılması
TCTCCTCTTCCAGTGGCGACGGAAC CTCCTCTTCCAGTGGCGACAGAACG CTCTTCCAGTGGCGACGGAACGACC CTTCCAGTGGCGACGGAACGACCC CCAGTGGCGACTGAACGACCCTGGA CAGTGGCGACAGAACGACCCTGGAG
TNP?
Dizileme hatası
TCTCCTCTTCCAGTGGCGACGGAACGACCCTGGAGCCAAGTReferans
Zorluklar
Dizileme hataları Tekrar ve duplikasyonlardaki paralog dizi
varyanları Hizalama hataları
TNP ve indellerin yanlış hizalanması Kısa ardışık tekrarlar Düzeltmek için Çoklu Dizi Hizalaması (ÇDH)
gerekir
Başlıca TNP/indel tahmin programları Genome Analysis Tool Kit (GATK; Broad
Inst.) Samtools (Sanger Centre) PolyBayes (Boston College) SOAPsnp (BGI) VARiD (U. Toronto)
TNP tahmin hataları ve filtreleme TNP tahminlerinde çok sayıda hata bulunur
Sistematik okuma hataları, parçacık yerleştirme ve hizalama hataları
Ham TNP tahminlerinde %5‐%20 arası yanlış bulgu olabilir “Sert” filtreler:
Okuma derinliği (çok az ve çok fazla derinlik) Alel dengesi Baz okuma kalitesi İplik meyli (strand bias) Kısa bölgelerde TNP sayısının fazlalığı
İstatistiksel filtreler: dbSNP, HapMap, mikrodizin verileri ile istatiksel skorlama VQSR: Variant Quality Score Recalibration (GATK programında)
YAPISAL VE KOPYA SAYISI VARYASYONU
Yapısal ve Kopya Sayısı VaryasyonuSİLİNME YENİ DİZİ EKLEME TRANSPOZON EKLEME
(deletion) (novel sequence ins.) (transposon insertion)
Alu/L1/SVA
ARDARDA KOPYA AYRIŞIK KOPYA(tandem duplication) (interspersed duplication)
İNVERSİYON TAŞINMA (inversion) (translocation)
Kopya sayısıVaryasyonu(copy number variation)
Dengeli Varyasyon(balanced rearrangement)
Otizm, Crohn’s
Hemofili
Şizofreni, sedef
Lösemi (CLL)
Keşifteki zorluklar
790
283
128
5
634
278
84132
25
76130
5
Fosmid klonu eşli dizilemeEnd-sequence pair(N = 1,206)
42 milyon oligolu arrayCGH
Conrad et al., 2010(N = 1,128)
Affymetrix 6.0 TNP microdizinMcCarroll et al., 2008 (N = 236)
Silinme ve duplikasyonlar > 5 Kbp; aynı 5 kişinin genonumda
YV için dizi sinyalleri Eşli dizi analizi (read pair – RP)
Tüm YV türleri Bulunan YV’lerin büyüklüğü ve yerlerinin kesinliği
eşler arasındaki mesafeye bağlı Dizileme derinliği analizi (read depth – RD)
Sadece silinme ve duplikasyonlar (KSV) Bulunan KSV’lerin başlangıç/bitiş yerleri yaklaşık
bulunur Ayrık dizi analizi (split read – SR)
Tekrarsız genomik bölgelerdeki tüm YV türleri Bulunan YV’lerin yerleri kesindir
Yerel ve genel de novo birleştirme Tekrarsız genomik bölgelerdeki tüm YV türleri Bulunan YV’lerin yerleri kesindir
Bazı YV algoritmaları Silinme Eklenme İnversiyon Transpozon Duplikasyon MikrosatelitRPVariationHunter X Kısa X X XBreakDancer X KısaHYDRA X Kısa X XTangram X RDWSSD X XCNVnator X XRDXplorer X X SRPindel X KısaSPLITREAD X Kısa X X X XlobSTR XRP+SRDelly X KısaInvy XGenomeSTRiP X Kısa X ASCortex X XNovelSeq X
1000 Genomes Projesinde YV
Approach Algorithm name Platform GenomesSV types discovered (size-range of
validated SVs in basepairs)SV
callsvalidated
FDR (PCR)
FDR (array)
FDR (hierar
ch.)Event-wise testing I llumina 6 DEL (200 - 221,800); DUP (200 - 415,700) 5,762 1,952 0 0.230 0.230
CNVnator I llumina 6 DEL (100 - 412,475) 17,036 2,361 - 0.142 0.142AB large indel tool SOLiD 1 DEL (67 - 83,391) 1,138 480 0.188 0.084 0.143AB large indel tool SOLiD 1 INS (448 - 2,213) 632 42 0.176 - 0.176
Spanner I llumina 6 TEINS (51 - 6,012) 2,013 179 0.022 - 0.022Spanner I llumina 6 DEL (50- 192,167) 4,718 3,619 0.100 0.033 0.087PEMer 454 1 DEL (941 - 960,004) 1,062 483 0.095 0.363 0.363
VariationHunter I llumina 6 DEL (52 - 498,738) 11,028 4,231 0.103 0.419 0.190BreakDancer I llumina 6 DEL (51 - 1,035,808) 5,973 3,587 0.115 0.145 0.121
N/ A I llumina 6 DEL (276 - 959,518) 3,419 2,584 0.136 0.085 0.121Mosaik 454 2 TEINS (300 - 6,000) 1,463 172 0.055 - 0.055Pindel I llumina 6 DEL (51 - 46,384) 3,879 2,960 0.201 0.127 0.189N/ A 454 1 DEL (51 - 703,404); INS (52 - 295) 32,187 3,845 0.545 0.519 0.543
SOAPdenovo I llumina 6 DEL (64 - 3,907) 160 55 0.531 0.531 0.497SOAPdenovo I llumina 6 INS (55 – 4,116) 3,894 22 0.810 - 0.810
Cortex I llumina 1 DEL(52- 39,512);DUP(83- 2,090) 2,787 896 0.415 0.415 0.410Cortex I llumina 1 INS(50- 828) 389 84 0.398 - 0.398
NovelSeq I llumina 6 INS (200 - 8,224) 657 30 0.791 - 0.791
IN Spanner I llumina 6 TANDUP (55- 64,230) 256 88 0.049 - 0.049
RD
PE
SR
AS
1000 Genomes Consortium, Nature, 2010
Kapsamlı bir metot yok
486
43250
303
6855 (63%)
3223 (80%)
1772 (33%)
RPN=6
RDN=4
SRN=4
Kidd et al., Cell, 2010
1000 Genomes Projesi’ndekidoğrulanmış silinmeler
Varyasyon keşfi – özet
Parçaçık hizalama: BWA, mrFAST, Bowtie TNP ve indel: GATK, samtools, SOAPsnp Yapısal:
Silinme, eklenme: VariationHunter, Delly, BreakDancer, GenomeSTRiP, Pindel, HYDRA...
İnversiyon: VariationHunter, Invy Transpozon: VariationHunter, Tangram Mikrosatelit: lobSTR, SPLITREAD, Pindel
http://seqanswers.com/wiki/SEQanswers
Analiz yükü
Tüm genom: 100 GB ham (sıkışmış), 150 GB işlenmiş veri BWA hizalama: 30 CPU günü GATK ile SNP/indel (çok aşamalı): 10 CPU günü Yapısal varyasyon: 1 – 20 CPU günü
Ekzom: 50 GB ham (sıkışmış), 15 GB işlenmiş veri BWA hizalama: 1 CPU günü GATK ile SNP/indel (çok aşamalı): 15 CPU saati Yapısal varyasyon: 1-2 CPU günü
Keşif sonrası
Yorumlama ve etkiler snpEff VAAST & pVAAST PolyPhen2 Annovar SIFT SNAP MutationTaster
Evrimsel korunum GERP phastCons
Protein etkileşimi ve yolaklar DADA, VAVIEN, vb.
Protein yolakları Ingeniuty, vb.
Cooper & Shendure, Nature Reviews Genetics, 12(9):628-40, 2011
“İsviçre çakısı”: GEMINI
Özet
DNA dizileme ucuzlamakta: tüm genom ($1,500-$5,000), tüm ekzom ($800-$900).
Analiz için güçlü ve pahalı bilgisayar sistemleri gerekli Örn: 32 çekirdekli sistem ~$25,000; 90 TB depolama sistemi ~$25,000
Hemen her tür genetik varyasyon bulunabilir: Translokasyon ve inversiyon en zorları KSV tüm genom ile nispeten kolay, ekzom ile sınırlı
Varyant etkisi, haplotipleme (fazlama), akraba evliliklerinde homozigosite haritalama gibi ek analizler yapılabilir
Hastalık için nedensel varyantların bulunması “bilimden çok sanat”