Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.

Come nasce la Bioinformatica?

Progetti di sequenziazionedel genoma

Sforzi sperimentali perdeterminare la strutturae le funzioni di molecole

biologiche

Masse di dati senza precedenti

DB di biologia molecolare(geni e proteine)

interpretazione

Tecniche, strumenti, algoritmiper

analizzare, confrontare, classificare

Dove si situa la Bioinformatica?

Biologia Informatica

Bioin

form

aticaMedicina Biotecnologie

Società

Scopi della Bioinformatica• Analisi di sequenze biologiche

– Ricerca di sequenze omologhe– Identificare i geni, localizzare regioni di codifica– Trovare “motivi”, siti di legame del DNA

• Biologia molecolare computazionale (simulazione)– Sequenza Struttura Funzione Evoluzione– Geni Conoscenza biologica (pathway metabolici, reti genetiche)

• Progettazione e gestione di DB di biologia molecolare– DB di acidi nucleici e di proteine– Immagazzinamento e recupero efficiente di informazioni

• Relazioni evolutive (filogenetica)– Trovare le proteine comuni a tutte le forme di vita– Costruire classificazioni e alberi filogenetici di specie e delle

popolazioni umane

Bioinformatica

Dati e Banche datiLe domande fondamentali

Cerca

Paragona

Predici

Cerca

• Il gene della mia proteina è conosciuto?• Su quale cromosoma è localizzato?• Quali motivi di sequenza sono presenti nella mia proteina?• Le mutazioni che causano questa malattia sono conosciute?• A quale classe o famiglia appartiene la mia proteina? Cosa si sa su questa

famiglia?

Paragona

• Son conosciute proteine simili a quella che io ho clonato?• Come posso allineare in maniera ottimale le sequenze dei membri di questa

famiglia?• Quanto sono simili queste due sequenze?

Predici

• Posso predire quali sono i residui presenti nel sito attivo di questo enzima?• Perche’ questi pazienti sono malati?• Posso costruire un modello 3D della mia proteina?• Come posso migliorare la termostabilita’ di questa proteina?• Come posso predire i geni localizzati su questo genoma?

veracinnenkmeninclnnemeteneninareidsdrafmeterafstandichefslaglinksvlgeniaafwendenidschinrechtsenlinksnaardemiddellineenhalthdenmetertssenrimtegretalleendecmmandantveracinnenkmeninclnnemeteneninareidsdrafmeterafstandmarshefslaglinksvlgenaafwendendschinrechtsenlinksenpdeelinhalthdenmetertssenrimtevanafderechtervlegelmetenenvrwaartsinareidsdrafrichtinggpnylengteafstandchefslagrechtsvlgenkhgerkenlinmetenenvrwaartsinareidsdrafpnylengteafstandrichtinggmarshefslagrechtsvlgengerkenlinhfdderclnnei

veracinnenkmeninclnnemeteneninareidsdrafmeterafstandichefslaglinksvlgeniaafwendenidschinrechtsenlinksnaardemiddellineenhalthdenmetertssenrimtegretalleendecmmandantveracinnenkmeninclnnemeteneninareidsdrafmeterafstandmarshefslaglinksvlgenaafwendendschinrechtsenlinksenpdeelinhalthdenmetertssenrimtevanafderechtervlegelmetenenvrwaartsinareidsdrafrichtinggpnylengteafstandchefslagrechtsvlgenkhgerkenlinmetenenvrwaartsinareidsdrafpnylengteafstandrichtinggmarshefslagrechtsvlgengerkenlinhfdderclnnei

dichefslaglinksvlgeniaafwendenidschinrechtsenlinksnaardemiddellineenhalthdenmetertssenrimtegretalleendecmmandantveracinnenkmeninclnnemeteneninareidsdrafmeterafstandmarshefslaglinksvlgenaafwendendschinrechtsenlinksenpdeelinhalthdenmetertssenrimtevanafderechtervlegelmetenenvrwaartsinareidsdrafrichtinggpnylengteafstandchefslagrechtsvlgenkhgerkenlinmetenenvrwaartsinareidsdrafpnylengteafstandrichtinggmarshefslagrechtsvlgengerkenlinhfdderclnneicafwendenenplincametenenvlteshalveaanrechtsiahefsla

dichefslaglinksvlgeniaafwendenidschinrechtsenlinksnaardemiddellineenhalthdenmetertssenrimtegretalleendecmmandantveracinnenkmeninclnnemeteneninareidsdrafmeterafstandmarshefslaglinksvlgenaafwendendschinrechtsenlinksenpdeelinhalthdenmetertssenrimtevanafderechtervlegelmetenenvrwaartsinareidsdrafrichtinggpnylengteafstandchefslagrechtsvlgenkhgerkenlinmetenenvrwaartsinareidsdrafpnylengteafstandrichtinggmarshefslagrechtsvlgengerkenlinhfdderclnneicafwendenenplincametenenvlteshalveaanrechtsiahefsla

©CMBI 2000 J Leunissen

Sono simili queste sequenze?


Sono simili queste strutture?

Applicazioni della Bioinformatica

• Sequenziazione e analisi del Genoma

• Analisi sperimentali con migliaia di geni simultaneamente

• DNA chips per

– analisi dell’espressione genica

– analisi comparative tra speci e sottospeci

• “Proteomica”, cioè trovare il proteoma di un organismo

• Farmaceutica e industria biotecnologica

• Applicazioni legali e forensi

• Applicazioni all’agricoltura (OGM & Co.)

• Medicina

• …

Dati e Databases

• Immissione dei dati nei DATABASE

• Programmi per cercare nei DATABASE

• Conoscenza dell’ utilizzo di questi programmi

Databases Biologici

Il loro numero

-Il DBCATalog al momento elenca piu’ di 500 databases

La loro grandezza

- Cresce in modo esponenziale- Nel database EMBL database entrano 6.3 nuove sequenze di proteine oacidi nucleici per ogni secondo!

•


Databases Primari e Secondari

Databases Primari

- Sequenze o strutture biomolecolari con annesse annotazioni(organismo, funzione, mutazioni collegate a malattie,patterns struttura/funzione, bibliografia, etc.)

- DATI SPERIMENTALI REALI !!

Databases Secondari

- INFORMAZIONI DERIVATE !!- Fruitto dell’ analisi di sequenza nei databases primari.- Spesso in forma di patterns, blocchi, profili etc. che rappresentanole caratteristiche piu’ conservate di allineamenti multipli.

Databases Primari

Informazioni di sequenza

• DNA: EMBL, Genbank, DDBJ• Protein: SwissProt, TREMBL, PIR

Informazioni genomiche

• GDB, MGD, ACeDB

Informazioni di struttura 3D

• PDB, NDB, CCDB/CSD

Databases secondari

Informazioni correlate alla sequenza

ProSite, Enzyme, REBase

Informazioni correlate al genoma

OMIM, TransFac

Informazioni correlate alla struttura

DSSP, HSSP, FSSP, PDBFinder

Informazioni correlate a pathways

KEGG, Pathways

Esempio Prosite

Formato delle informazioni

I Dati devono essere immessi in formati riconoscibili ai programmiche li utilizzano.

Ogni database puo’ avere il proprio formato, ma alcuni elementisono essenziali per tutti i databases:

1. Unico identificatore o codice di accesso2. Nome del depositante3. Riferimenti bibliografici4. Data del deposito5. I dati veri e propri

Qualita’ dei dati

SwissProt

• I Dati sono immessi solamente da esperti di annotazioni• Collegamenti ipertestuali a data(bases) collegati

EMBL

• Processo automatico senza intervento umano• Collegamenti ipertestuali a data(bases) collegati

PDB

• Tutti possono sottomettere dati• I dati sono accettati nel modo in cui sono inviati

il database SwissProt

• Database di sequenze di proteine

• Prodotto dalla collaborazione di Amos Bairoch (University of Geneva) e la EMBLData Library

• Dati provenienti da:- traduzioni di sequenza di DNA (dal DatabaseEMBL)- adattati dalla collezione PIR- estratti dalla letteratura- direttamente sottomessi dai ricercatori

• 86593 sequenze (31x106 lettere) (Luglio 2001)~15000 nuove sequenze ogni annoSwissnew database: 53184 (20 x106 letters)

• Ca. 200 esperti di Annotazioni sparsi nel mondo

• Organizzazione per parole chiave

SwissProt records (1)

ID identification line

ID ENTRY_NAME DATA_CLASS; MOLECULE_TYPE; SEQUENCE_LENGTH.ID CRAM_CRAAB STANDARD; PRT; 46 AA.

Format for the ENTRY_NAME:NAME_SPECIES (≤ 10 )characters

(16) :For number of organisms recognizable names, , , , , ….HUMAN MOUSE CHICK BOVIN YEAST ECOLI

. . N B Il riconoscimento ID ’ ,puo cambiare . . p e i recettori della serotonina hanno avuto di recente una nuova nomenclatura


AC accession numberAC P01542;AC e’ unico:Il nome, la sequenza, o altro puo’ cambiare, ma AC resta lo stesso

DT deposition dateDT 21-JUL-1986 (Rel. 01, Created)DT 30-MAY-2000 (Rel. 39, Last sequence update)DT 30-MAY-2000 (Rel. 39, Last annotation update)


DE descriptionDE CRAMBIN.DE 6-phosphofructo-2-kinase 1 (EC 2.7.1.105) (Phosphofructokinase 2 I)1) Informazioni descrittive generali2) Informazioni in formato libero

GN gene nameGN THI2.

OS & OC & OGOS Crambe abyssinica (Abyssinian crambe).OC Eukaryota; Viridiplantae; Embryophyta; Tracheophyta; Spermatophyta;OC Magnoliophyta; eudicotyledons; Rosidae; eurosids II; Brassicales;OC Brassicaceae; Crambe.

Organism Species; Organism Classification; Organelle


RN ReferencesRN [1]RP SEQUENCE.RX MEDLINE; 82046542.RA Teeter M.M., Mazer J.A., L'Italien J.J.;RT "Primary structure of the hydrophobic plant protein crambin.";RL Biochemistry 20:5437-5443(1981).

CC Commenti o noteCC -!- FUNCTION: THE FUNCTION OF THIS HYDROPHOBIC PLANT SEED PROTEINCC IS NOT KNOWN.CC -!- MISCELLANEOUS: TWO ISOFORMS EXISTS, A MAJOR FORM PL (SHOWN HERE)CC AND A MINOR FORM SI.CC -!- SIMILARITY: BELONGS TO THE PLANT THIONIN FAMILY.


DR Database Cross ReferenceDR PIR; A01805; KECX.DR PDB; 1CRN; 16-APR-87.DR PDB; 1CBN; 31-JAN-94.DR PDB; 1CCM; 31-OCT-93.DR PDB; 1CCN; 31-JAN-94.DR PDB; 1CNR; 31-AUG-94.DR PDB; 1AB1; 12-AUG-97.DR INTERPRO; IPR001010; -.DR PFAM; PF00321; plant_thionins; 1.DR PRINTS; PR00287; THIONIN.DR PROSITE; PS00271; THIONIN; 1.

KW KeywordNon standardizzate (sotto la resonsabilita’ del depositante)KW Thionin; 3D-structure.


FT Feature table data

FT DISULFID 3 40FT DISULFID 4 32FT DISULFID 16 26FT VARIANT 22 22 P -> S (IN ISOFORM SI).FT VARIANT 25 25 L -> I (IN ISOFORM SI).FT STRAND 2 3FT HELIX 7 16FT TURN 17 19FT HELIX 23 30FT TURN 31 31FT STRAND 33 34FT TURN 42 43

Feature table cntnd.

Altre caratteristiche: modifiche post-translationali, siti di legame, siti attivi per glienzimi, strutture secondarie locali o altre caratteristiche riportate nelle referencescitate. Gli eventuali conflitti nei dati di sequenza riportanti nelle varie referencessono anche inclusi.

FT CONFLICT 33 33 MISSING (IN REF. 2).FT MUTAGEN 123 123 G->R,L,M: DNA BINDING LOST.FT MOD_RES 11 11 PHOSPHORYLATION (BY PKC).FT LIPID 1 1 MYRISTATE.FT CARBOHYD 103 103 GLUCOSYLGALACTOSE.FT METAL 87 87 COPPER (POTENTIAL).FT BINDING 14 14 HEME (COVALENT).FT PROPEP 27 28 ACTIVATION PEPTIDE.FT DOMAIN 22 788 EXTRACELLULAR (POTENTIAL).FT ACT_SITE 193 193 ACCEPTS A PROTON DURING CATALYSIS.


SQ sequence header - Intestazione della sequenzaSQ SEQUENCE 46 AA; 4736 MW; 919E68AF159EF722 CRC64;

Sequence data- Dati di sequenza TTCCPSIVAR SNFNVCRLPG TPEALCATYT GCIIIPGATC PGDYAN

//Termination line- Linea di termine

EMBL database

Nucleotide database

EMBL: 3,951,820 entries, EMNEW: 323703EMEST: 8,092,600, EMNEWEST: 619777(July 2001)

I records EMBL seguono fondamentalmente lo stesso schema diSwissProt.

Protein Data Bank (PDB)

Banca dati di strutture macromolecolari (coordinate 3-D)

Obbligo del deposito dei dati di struttura in PDB prima della pubblicazionesu qualunque rivista scientifica

~16000 strutture catalogate (Ottobre 2001) ( ~2000 strutture “uniche” )

Il file PDB e’ organizzato a “keyword”1) Direttamente leggibile e comprensibile se letto come file di testo2) Ogni linea parte con una Keyword (3-6 lettere)3) Oltre a essere leggibile come file di testo, il file puo’ essere direttamenteutilizzato da programmi di grafica molecolare, indipendentemente dallapiattaforma utilizzata

Nato circa 25 anni fa

http://www.rcsb.org/pdb & http://msd.ebi.ac.uk

PDB records (1)

Filename= accession number= PDB Code1) Il nome del file e’ di 4 caratteri (spesso un numero e 3 lettere, p.e. 1CRN)2) Attenzione: 0HYK significa che il file HYK non contiene coordinate spaziali, masolo informazioni strutturalu

HEADER- Intestazionedescrive la molecola e la data di depositoHEADER PLANT SEED PROTEIN 30-APR-81 1CRN 1CRND 1

COMPNDnome della molecolaCOMPND CRAMBIN 1CRN 4

SOURCEorganismo di provenienzaSOURCE ABYSSINIAN CABBAGE (CRAMBE ABYSSINICA) SEED 1CRN 5

PDB records (2)

AUTHORAUTHOR W.A.HENDRICKSON,M.M.TEETER 1CRN 6

Revision dateREVDAT 5 16-APR-87 1CRND 1 HEADER 1CRND 2REVDAT 4 04-MAR-85 1CRNC 1 REMARK 1CRNC 1REVDAT 3 30-SEP-83 1CRNB 1 REVDAT 1CRNB 1REVDAT 2 03-DEC-81 1CRNA 1 SHEET 1CRNB 2REVDAT 1 28-JUL-81 1CRN 0

REMARK - Informazioni varieCi sono molti e differenti records e subrecords di informazioni varie nonstandardizzati, ma identificati dalla keyword REMARKREMARK 1 REFERENCE 3 1CRNC 10REMARK 1 AUTH M.M.TEETER,W.A.HENDRICKSON 1CRN 16REMARK 1 TITL HIGHLY ORDERED CRYSTALS OF THE PLANT SEED PROTEIN 1CRN 17REMARK 1 TITL 2 CRAMBIN 1CRN 18REMARK 1 REF J.MOL.BIOL. V. 127 219 1979 1CRN 19REMARK 1 REFN ASTM JMOBAK UK ISSN 0022-2836 070 1CRN 20REMARK 2 1CRN 21REMARK 2 RESOLUTION. 1.5 ANGSTROMS. 1CRN 22

PDB records (3)SEQRESSequenza della proteina;Attenzione: Non sempre sono presenti nei record successivi le coordinate 3D ditutti gli amminoacidi di SEQRES!!SEQRES 1 46 THR THR CYS CYS PRO SER ILE VAL ALA ARG SER ASN PHE 1CRN 51SEQRES 2 46 ASN VAL CYS ARG LEU PRO GLY THR PRO GLU ALA ILE CYS 1CRN 52SEQRES 3 46 ALA THR TYR THR GLY CYS ILE ILE ILE PRO GLY ALA THR 1CRN 53SEQRES 4 46 CYS PRO GLY ASP TYR ALA ASN 1CRN 54

HET & FORMUL - EteroAtomiHET NAD A 1 44 NAD CO-ENZYME 4MDH 219HET SUL A 2 5 SULFATE 4MDH 220HET NAD B 1 44 NAD CO-ENZYME 4MDH 221HET SUL B 2 5 SULFATE 4MDH 222FORMUL 3 NAD 2(C21 H28 N7 O14 P2) 4MDH 223FORMUL 4 SUL 2(O4 S1) 4MDH 224FORMUL 5 HOH *471(H2 O1) 4MDH 225

PDB records (4)

HELIX/SHEET/TURNElementi di struttura secondaria (non sempre presenti)HELIX 1 H1 ILE 7 PRO 19 1 3/10 CONFORMATION RES 17,19 1CRN 55SHEET 2 S1 2 CYS 32 ILE 35 -1 1CRN 58TURN 1 T1 PRO 41 TYR 44 1CRN 59

SSBONDLocalizzazione dei ponti disolfuroSSBOND 1 CYS 3 CYS 40 1CRN 60SSBOND 2 CYS 4 CYS 32 1CRN 61

CRYST1, ORIGX1, ORIGX2, ORIGX3, SCALE1, SCALE2, SCALE3parametri cristallograficiCRYST1 40.960 18.650 22.520 90.00 90.77 90.00 P 21 2 1CRN 63ORIGX1 1.000000 0.000000 0.000000 0.00000 1CRN 64ORIGX2 0.000000 1.000000 0.000000 0.00000 1CRN 65ORIGX3 0.000000 0.000000 1.000000 0.00000 1CRN 66SCALE1 .024414 0.000000 -.000328 0.00000 1CRN 67SCALE2 0.000000 .053619 0.000000 0.00000 1CRN 68SCALE3 0.000000 0.000000 .044409 0.00000 1CRN 69

PDB records (5)ATOMuna linea per ogni atomo con il suo nome e le relative coordinate x,y,zATOM 1 N THR 1 17.047 14.099 3.625 1.00 13.79 1CRN 70ATOM 2 CA THR 1 16.967 12.784 4.338 1.00 10.80 1CRN 71ATOM 3 C THR 1 15.685 12.755 5.133 1.00 9.19 1CRN 72ATOM 4 O THR 1 15.268 13.825 5.594 1.00 9.85 1CRN 73ATOM 5 CB THR 1 18.170 12.703 5.337 1.00 13.02 1CRN 74ATOM 6 OG1 THR 1 19.334 12.829 4.463 1.00 15.06 1CRN 75ATOM 7 CG2 THR 1 18.150 11.546 6.304 1.00 14.23 1CRN 76ATOM 8 N THR 2 15.115 11.555 5.265 1.00 7.81 1CRN 77ATOM 9 CA THR 2 13.856 11.469 6.066 1.00 8.31 1CRN 78ATOM 10 C THR 2 14.164 10.785 7.379 1.00 5.80 1CRN 79ATOM 11 O THR 2 14.993 9.862 7.443 1.00 6.94 1CRN 80

Il record TER termina la catena amminoacidicaATOM 325 OD1 ASN 46 11.982 4.849 15.886 1.00 11.00 1CRN 394ATOM 326 ND2 ASN 46 13.407 3.298 15.015 1.00 10.32 1CRN 395ATOM 327 OXT ASN 46 12.703 4.973 10.746 1.00 7.86 1CRN 396TER 328 ASN 46 1CRN 397

PDB records (6)HETATMcoordinate atomiche per atomi in gruppi "non-standard" (metalli, cofattori,ioni, …) e per molelecole di acquaHETATM 5158 AP NAD B 1 42.641 30.361 41.284 1.00 26.73 4MDH5495HETATM 5159 AO1 NAD B 1 43.440 31.570 40.868 1.00 20.69 4MDH5496HETATM 5160 AO2 NAD B 1 41.161 30.484 41.376 1.00 33.73 4MDH5497

HETATM 5207 O HOH 0 15.379 1.907 3.295 1.00 58.12 4MDH5544HETATM 5208 O HOH 1 58.861 0.984 17.024 1.00 37.58 4MDH5545HETATM 5209 O HOH 2 24.384 1.184 74.398 1.00 35.92 4MDH5546

CONECTrecord di connessione (non obbligatorio)indica quali atomi sono connessi (principalmente HETATM)

Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.

Documents