Top Banner
생생생생생 Bioinformatics 2014 2 학학 학학학학학학학학 학학학학학 4생 2014.9.30
70

한남대학교 생명시스템과학과 생물정보학 (4강)

Jun 28, 2015

Download

Science

Suk Namgoong

한남대학교 생명시스템과학과 생물정보학 (4강)
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 한남대학교 생명시스템과학과 생물정보학 (4강)

생물정보학Bioinformatics

2014 2 학기생명시스템과학과

한남대학교

4 강 2014.9.30

Page 2: 한남대학교 생명시스템과학과 생물정보학 (4강)

강의 계획서주 수업내용1 주 생물정보학의 개요 및 기본이론2 주차 추석 ( 휴강 )

3 주차 서열 분석의 원리 I

4 주차 서열 분석의 원리 II

5 주차 단백질의 구조및 기능 예측6 주차 지놈 시퀀싱 및 시퀀스 어셈블리7 주차 중간고사8 주차 차세대시퀀싱 (Next Generation Sequencing)

9 주차 유전체 발현분석10주차

개인유전체학 I

11주차

개인유전체학 II

12주차

메타지놈

13주차

최신 연구동향

14주차

기말고사

Page 3: 한남대학교 생명시스템과학과 생물정보학 (4강)

‘ 부품’

복잡한 기계는

Page 4: 한남대학교 생명시스템과학과 생물정보학 (4강)

‘ 부품’

다양한 부품으로 이루어지듯이

Page 5: 한남대학교 생명시스템과학과 생물정보학 (4강)

세포라는 복잡한 ‘기계’

세포라는 아주 복잡한 기계 역시 ‘ 단백질’ 이라는 다양한 부품으로 구성되어 있음

Page 6: 한남대학교 생명시스템과학과 생물정보학 (4강)

기계의 부품 하나하나를 뜯어서

자세히 내용을 검사하는 것처럼

부품의 구조

Page 7: 한남대학교 생명시스템과학과 생물정보학 (4강)

‘ 생명체의 부품’ 의 구조

Page 8: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질 ( 및 RNA) 구조를 이해하는 것

- 생명체의 부품의 구조를 이해하는 것은 이들의 작동 방식의 이해를 하는 첫걸음

• 인간 유전체의 단백질 : 약 20,000 만종

• 이들의 구조와 상호작용을 이해하는 것은 생명현상 이해의 핵심

- 휴먼 지놈 프로젝트 : 인간의 유전체 DNA 서열을 규명

• 단백질의 서열 (1 차 구조 ) 에 대한 서열은 대개 확보

• “ 생체 부품의 종류와 기본 성분에 대한 정보는 이미 가지고 있다”

• 그러나 부품 각각의 구조에 대한 정보는 어디 있는가 ?

Page 9: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질의 1 차 구조 (Primary Structure)

단백질의 서열 정보 = 단백질의 1 차 구조

Page 10: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질의 2 차 구조 (Secondary Structure)

Page 11: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질의 3 차 구조 (Tertiary Structure)

Page 12: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질의 4 차 구조 (Tertiary Structure)

Page 13: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질 서열 -> 구조 -> 기능

단백질의 서열은 단백질의 구조를 결정하며

단백질의 구조는 그 기능을 결정한다 .

Page 14: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질 구조를 실험적으로 결정하는 방법

X 선 결정학X-ray Crystallography

NMRNuclear Magnetic Resonance

전자현미경(Electron Microscope)

고해상도 구조 ( 최대 1-2Å)

결정화된 상태의 단백질의 스냅샷

단백질을 결정화해야 함

단백질 복합체 혹은 거대분자도 가능

중해상도 구조

수용액 상태에서의 동적인 단백질 움직임의 앙상블

수용액상에서 안정적으로 고농도로 유지가능해야 함

20-30kDa 이상의 단백질은 어려움

저해상도 구조

거대단백질 복합체를직접 관찰

거대복합체가 아닌경우 어려움

Page 15: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질 결정학에 의한 단백질 구조의 결정

Page 16: 한남대학교 생명시스템과학과 생물정보학 (4강)

Protein Productions

- You need to have enough (5-10mg) pure (at least 95% purity) protein

- Overexpression (Bacteria or Insect Cell or Mammalian Cell) or Natural Source

- Purification

Page 17: 한남대학교 생명시스템과학과 생물정보학 (4강)

Crystallization

- Concentrate Proteins (at least 5mg/ml)

- Crystallization happens in the boundary of soluble and precipitation

Page 18: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 19: 한남대학교 생명시스템과학과 생물정보학 (4강)

Strong X-ray generated from synchroton is essential

Page 20: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 21: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 22: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 23: 한남대학교 생명시스템과학과 생물정보학 (4강)

1 차 데이터 : 단백질 결정의 회절이미지

ComputerAnalysis

단백질의 전자밀도

Page 24: 한남대학교 생명시스템과학과 생물정보학 (4강)

Final Structure and Interpretations

Page 25: 한남대학교 생명시스템과학과 생물정보학 (4강)

실험적으로 단백질 구조를 푸는 방법을 알아야 하는가 ?

- 대개 그렇지는 않을 가능성이 많음 .

우리가 관심있는 단백질의 구조가 어떻게 생겼는지는 ?

- 알아야 한다

http://www.rcsb.org

Page 26: 한남대학교 생명시스템과학과 생물정보학 (4강)

In old days, you need very expensive workstation-level computerTo visualize Protein Structure..

Not anymore. Cheap PC or even your smartphone can do that.

Page 27: 한남대학교 생명시스템과학과 생물정보학 (4강)

Protein Visualization Software

Pymol :http://www.pymol.org

Page 28: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질을 표시하는 방법

저분자 물질의 경우에는

이런 식의 spacefilling model 로 표시해도 되지만…

단백질의 경우에는

??????

좀 더 간단한 표시방법이 필요하다 .

Page 29: 한남대학교 생명시스템과학과 생물정보학 (4강)

Line

단백질 전체의 표시에는 적절하지 않음

일부분 확대 표시에는 적절

Page 30: 한남대학교 생명시스템과학과 생물정보학 (4강)

Ribbon

단백질의 전체 윤곽을 표시할 때 좋음

Cartoon

Alpha-Helix

Beta-Sheet

단백질의 2 차구조를 표시할때 좋음

Page 31: 한남대학교 생명시스템과학과 생물정보학 (4강)

Surface Surface with Charge

Page 32: 한남대학교 생명시스템과학과 생물정보학 (4강)

DEMO

Pymol, RCSB PDB

Page 33: 한남대학교 생명시스템과학과 생물정보학 (4강)

실험을 거치지 않고 미지의 단백질 서열로부터 구조정보를 얻을수 있을까 ?

기존의 단백질 구조를 참조하지 않는 방법

Ab initio modeling

기존의 단백질 구조를 참조하는 방법

Homology modeling

3 차 구조 예측2 차 구조 / 기타 예측

- 2 차 구조 예측- Coiled-Coil 예측

- Membrane Topology 예측

GFCHIKAYTRLIMVG…

An

abaen

a 7120

An

acystis nid

ulan

s

Co

nd

rus crisp

us

Desu

lfovib

rio vu

lgaris

Page 34: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질의 2 차 구조 예측

단백질의 1 차 구조 ( 서열 ) 단백질의 2 차 구조 예측

Alpha Helix?Beta-sheet?Loop?

Page 35: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 36: 한남대학교 생명시스템과학과 생물정보학 (4강)

아미노산에 따른 2 차 구조 선호도

- 다음의 아미노산은 alpha-Helix 에 위치되는 것을 선호함

Ala, Leu, Met, Glu, Lun, His, Lys, Arg

- 다음의 아미노산은 대개 큰 Side chain 을 가지고 있으므로 beta-sheet 에 존재하는 것을 선호함

Tyr, Trp, Phe, Ile, Val, Thr, Cys

- 다음의 아미노산이 존재할 경우 대개 2 차 구조가 깨짐

GlyProAsp, Asn, Ser

Page 37: 한남대학교 생명시스템과학과 생물정보학 (4강)

MSA 에 의한 2 차 구조 예측

Alpha Helix

I, i+3, i+4, i+7

혹은 I, i+4, i+7 의 잔기에서의 보존

소수성 잔기 및 친수성 잔기가 엇갈리게 존재하는 경우

Beta-Sheet

연속된 보존된 소수성 잔기 : 단백질 내부에 위치한 beta-sheet

I, i+2, i+4 에 보존된 소수성 잔기 : 단백질 표면에 위치한 beta-sheet

Page 38: 한남대학교 생명시스템과학과 생물정보학 (4강)

MSA 에 의한 2 차 구조 예측Loop/Disordered Region

Usually not well conservedPresence of secondary structure breakers (P, G)

Page 39: 한남대학교 생명시스템과학과 생물정보학 (4강)

기계학습에 의한 2 차 구조 예측기계학습이란 ?

http://www.crazymind.net/28

Page 40: 한남대학교 생명시스템과학과 생물정보학 (4강)

기계학습에 의한 2 차 구조 예측

이미 2 차구조가 알려진 MSA 를 이용하여 (Training sets)

구조예측모델을 트레이닝

Page 41: 한남대학교 생명시스템과학과 생물정보학 (4강)

2 차 구조 예측의 예

Jpred :http://www.compbio.dundee.ac.uk/www-jpred/index.html

Page 42: 한남대학교 생명시스템과학과 생물정보학 (4강)

Jpred3

예측하고자 하는 서열을 입력BLAST search in Uniref90( 상동성이 있는 서열을 부르고 이를 이용하여 MSA 를 만듬 )

복수의 알고리즘을 이용하여 2 차구조를 예측하고 이들의 consensus 에 따라 최종결정을 함

일단 단백질 구조 DB 에 해당 단백질이 있는지 확인 .완전히 동일한 단백질이 3 차 구조가 나왔는데 2 차구조를 예측할 필요는 없다 .

Page 43: 한남대학교 생명시스템과학과 생물정보학 (4강)

http://www.compbio.dundee.ac.uk/www-jpred/results/jp_q1hwsUv/jp_q1hwsUv.results.html

Secondary Structure Prediction

Confidence for predictions

Alpha-Helix Beta-Sheet

Page 44: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 45: 한남대학교 생명시스템과학과 생물정보학 (4강)

기타 구조관련 정보 예측- Coiled-Coil 예측

Page 46: 한남대학교 생명시스템과학과 생물정보학 (4강)

Namgoong et al., Nature Struct Mol Biol. 2011

Page 47: 한남대학교 생명시스템과학과 생물정보학 (4강)

Coiled-Coil 예측

http://toolkit.tuebingen.mpg.de/pcoils

Page 48: 한남대학교 생명시스템과학과 생물정보학 (4강)

Membrane Spanning Region 예측

막단백질

친수성

소수성

Page 49: 한남대학교 생명시스템과학과 생물정보학 (4강)

친수성

친수성

소수성

Membrane 을 가로지르는 영역 예측

* 막을 가로지르는 부분은 상대적으로 소수성을 띈 아미노산이 많을 것이다 .

Page 50: 한남대학교 생명시스템과학과 생물정보학 (4강)

Hydropathy plot

>sp|P08908|5HT1A_HUMAN 5-hydroxytryptamine receptor 1A OS=Homo sapiens GN=HTR1A PE=1 SV=3MDVLSPGQGNNTTSPPAPFETGGNTTGISDVTVSYQVITSLLLGTLIFCAVLGNACVVAAIALERSLQNVANYLIGSLAVTDLMVSVLVLPMAALYQVLNKWTLGQVTCDLFIALDVLCCTSSILHLCAIALDRYWAITDPIDYVNKRTPRRAAALISLTWLIGFLISIPPMLGWRTPEDRSDPDACTISKDHGYTIYSTFGAFYIPLLLMLVLYGRIFRAARFRIRKTVKKVEKTGADTRHGASPAPQPKKSVNGESGSRNWRLGVESKAGGALCANGAVRQGDDGAALEVIEVHRVGNSKEHLPLPSEAGPTPCAPASFERKNERNAEAKRKMALARERKTVKTLGIIMGTFILCWLPFFIVALVLPFCESSCHMPTLLGAIINWLGYSNSLLNPVIYAYFNKDFQNAFKKIIKCKFCRQ

막단백질의 서열

각각의 아미노산이 얼마나소수성인가를 숫자화함

소수성

친수성

1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…

서열을 숫자로 변환

1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…

10 개 값씩 평균값

1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…

10 개 값씩 평균값

1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…

Page 51: 한남대학교 생명시스템과학과 생물정보학 (4강)

DEMO

JPREDCoilsHydrophathy plot

Page 52: 한남대학교 생명시스템과학과 생물정보학 (4강)

기존의 단백질 구조를 참조하지 않는 방법

Ab initio modeling

GFCHIKAYTRLIMVG…

An

abaen

a 7120

An

acystis nid

ulan

s

Co

nd

rus crisp

us

Desu

lfovib

rio vu

lgaris

단백질의 3 차 구조 예측

기존의 단백질 구조를 참조하는 방법Homology modeling

Page 53: 한남대학교 생명시스템과학과 생물정보학 (4강)

Ab initio Modeling

Ab initio : “ 처음부터”

기존에 실험적으로 알려진 단백질 구조정보를 전혀 참조하지 않고 , 물리화학적인 원리에 근거하여시퀀스로부터 단백질 구조를 예측

Anfinsen’s experiments (1973)

- Urea + mercaptoethanol 처리로 단백질의 입체 구조를 파괴

- 회복된 단백질의 입체 구조가 원상복귀될 수 있음

- 단백질의 3 차 구조를 결정하는 정보는 모두단백질 서열 안에 있음 !

Page 54: 한남대학교 생명시스템과학과 생물정보학 (4강)

따라서 단백질의 서열 정보만으로 단백질의 3 차원 구조를 예측 가능 !

Ab initio modeling

단백질은 열역학적으로 가장 안정된 상태

따라서 물리 , 화학적 시뮬레이션을 통해서 가장 안정된에너지 상태의 단백질을 찾으면 -> 그게 단백질의 3 차 구조 !

현실은 그리 간단하지 않음

Anfinsen 이 사용한 RNaseA 는 워낙 안정된 단백질이라서 그렇고 , 대개의 단백질은 일단 3 차구조가 변성되면 회복되기 힘듬

원래의 단백질보다 더 안정한 aggregate 가존재

Page 55: 한남대학교 생명시스템과학과 생물정보학 (4강)

Ab initio modeling

따라서 현실적으로 단백질 구조를 정확하게 예측하는데는 사용하기 어려움

기존에 실험적으로 밝혀진 서열이 유사한 단백질의 구조정보를 이용하여 미지의단백질 구조를 모델링

Homology Modeling

Template-Based Modeling

Page 56: 한남대학교 생명시스템과학과 생물정보학 (4강)

Homology Modeling

단백질의 구조는 서열보다 보존되어 있음

Identity = 4.7%

RMSD=3.99이것을 이용하여 구조가 알려져 있지 ㅇ낳은 단백질의 구조를 유추 !

Page 57: 한남대학교 생명시스템과학과 생물정보학 (4강)

Steps in Homology Modeling

1. 이미 실험적으로 규명된 단백질의 구조를 검색

2. 상동성이 높은 것중 가장 ‘고퀄’ 의 구조를 선택 (Template Selection)

3. 이미 알려진 구조의 서열과 미지의 서열과의 alignment

4. 모델링

5. Loop Modeling

6. 모델 평가 (Model Assessments)

- PSI-BLAST- HHpred

Page 58: 한남대학교 생명시스템과학과 생물정보학 (4강)

단백질 구조 검색

1. PSI-BLAST using PDB blast db

2. HHpred

Homology Modeling 에는 어느정도의 상동성이 필요한가 ?

~ 대략적으로 30% 정도의 상동성이 필요

Page 59: 한남대학교 생명시스템과학과 생물정보학 (4강)

가장 서열 상동성이 높은 구조가 최적의 모델링 Template 인가 ?

Template 1: 93% id, 3.5 Å vs Template 2: 90% id, 1.5 Å

Template 선택

가급적 고해상도의 구조를 선택하는 것이 필요

4 Å 2 Å3 Å 1 Å

NMR or X-ray Crystallography?

http://www.cbs.dtu.dk/courses/27614/Lectures/TBlicher_Homology_Modelling.ppt

Page 60: 한남대학교 생명시스템과학과 생물정보학 (4강)

http://www.cbs.dtu.dk/courses/27614/Lectures/TBlicher_Homology_Modelling.ppt

NMR 구조가 유일한 선택일때는 ..

NMR 구조에는 대개 미세한 차이가 있는 구조들이복수로 존재함 (Ensemble)

단백질 구조에서 변화가 심한 부분은 제거하고 , 고정된 부분만을 선택하는 것이 용이함

Page 61: 한남대학교 생명시스템과학과 생물정보학 (4강)

Alignment and Modeling

>gi|6513841|gb|AAD01939.2| homeobox protein HOXA7 [Homo sapiens]MSSSYYVNALFSKYTAGTSLFQNAEPTSCSFAPNSQRSGYGAGAGAFASTVPGLYNVNSPLYQSPFASGYGLGADAYGNLPCASYDQNIPGLCSDLAKGACDKTDEGALHGAAEANFRIYPWMRSSGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQVKIWFQNRRMKWKKEHKDEGPTAAAAPEGAVPSAAATAAADKADEEDDDEEEEDEEE

>gi|34398398|gb|AAQ67266.1| antennapedia [Drosophila virilis]MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSGMPSPLYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQIKIWFQNRRMKWKKENKTKGEPGSGGEGDEITPPNSPQ

119 IYPWMRS---SGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 16 :|||||| ...:||||||||||||||||||||||||||||||||||||285 LYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 334

166 ALCLTERQVKIWFQNRRMKWKKEHKDEG 193 ||||||||:||||||||||||||:|.:|335 ALCLTERQIKIWFQNRRMKWKKENKTKG 362

Page 62: 한남대학교 생명시스템과학과 생물정보학 (4강)

119 IYPWMRS---SGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 16 :|||||| ...:||||||||||||||||||||||||||||||||||||285 LYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 334

166 ALCLTERQVKIWFQNRRMKWKKEHKDEG 193 ||||||||:||||||||||||||:|.:|335 ALCLTERQIKIWFQNRRMKWKKENKTKG 362

?

Page 63: 한남대학교 생명시스템과학과 생물정보학 (4강)

Homology Modeling Tool

- Swiss-Model

- Modeller

- HHPred

https://salilab.org/modeller/about_modeller.html

http://swissmodel.expasy.org

http://toolkit.tuebingen.mpg.de/hhpred

Page 64: 한남대학교 생명시스템과학과 생물정보학 (4강)

Swiss-Model

Page 65: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 66: 한남대학교 생명시스템과학과 생물정보학 (4강)

Swiss-Model : Search Template

Page 67: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 68: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 69: 한남대학교 생명시스템과학과 생물정보학 (4강)
Page 70: 한남대학교 생명시스템과학과 생물정보학 (4강)

DEMO

Swiss-Prot