Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche Masse di dati senza precedenti DB di biologia molecolare (geni e proteine) interpretazione Tecniche, strumenti, algoritmi per analizzare, confrontare, classificare
34
Embed
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Come nasce la Bioinformatica?
Progetti di sequenziazionedel genoma
Sforzi sperimentali perdeterminare la strutturae le funzioni di molecole
biologiche
Masse di dati senza precedenti
DB di biologia molecolare(geni e proteine)
interpretazione
Tecniche, strumenti, algoritmiper
analizzare, confrontare, classificare
Dove si situa la Bioinformatica?
Biologia Informatica
Bioin
form
aticaMedicina Biotecnologie
Società
Scopi della Bioinformatica• Analisi di sequenze biologiche
– Ricerca di sequenze omologhe– Identificare i geni, localizzare regioni di codifica– Trovare “motivi”, siti di legame del DNA
• Biologia molecolare computazionale (simulazione)– Sequenza Struttura Funzione Evoluzione– Geni Conoscenza biologica (pathway metabolici, reti genetiche)
• Progettazione e gestione di DB di biologia molecolare– DB di acidi nucleici e di proteine– Immagazzinamento e recupero efficiente di informazioni
• Relazioni evolutive (filogenetica)– Trovare le proteine comuni a tutte le forme di vita– Costruire classificazioni e alberi filogenetici di specie e delle
popolazioni umane
Bioinformatica
Dati e Banche datiLe domande fondamentali
Cerca
Paragona
Predici
Cerca
• Il gene della mia proteina è conosciuto?• Su quale cromosoma è localizzato?• Quali motivi di sequenza sono presenti nella mia proteina?• Le mutazioni che causano questa malattia sono conosciute?• A quale classe o famiglia appartiene la mia proteina? Cosa si sa su questa
famiglia?
Paragona
• Son conosciute proteine simili a quella che io ho clonato?• Come posso allineare in maniera ottimale le sequenze dei membri di questa
famiglia?• Quanto sono simili queste due sequenze?
Predici
• Posso predire quali sono i residui presenti nel sito attivo di questo enzima?• Perche’ questi pazienti sono malati?• Posso costruire un modello 3D della mia proteina?• Come posso migliorare la termostabilita’ di questa proteina?• Come posso predire i geni localizzati su questo genoma?
- Sequenze o strutture biomolecolari con annesse annotazioni(organismo, funzione, mutazioni collegate a malattie,patterns struttura/funzione, bibliografia, etc.)
- DATI SPERIMENTALI REALI !!
Databases Secondari
- INFORMAZIONI DERIVATE !!- Fruitto dell’ analisi di sequenza nei databases primari.- Spesso in forma di patterns, blocchi, profili etc. che rappresentanole caratteristiche piu’ conservate di allineamenti multipli.
Databases Primari
Informazioni di sequenza
• DNA: EMBL, Genbank, DDBJ• Protein: SwissProt, TREMBL, PIR
Informazioni genomiche
• GDB, MGD, ACeDB
Informazioni di struttura 3D
• PDB, NDB, CCDB/CSD
Databases secondari
Informazioni correlate alla sequenza
ProSite, Enzyme, REBase
Informazioni correlate al genoma
OMIM, TransFac
Informazioni correlate alla struttura
DSSP, HSSP, FSSP, PDBFinder
Informazioni correlate a pathways
KEGG, Pathways
Esempio Prosite
Formato delle informazioni
I Dati devono essere immessi in formati riconoscibili ai programmiche li utilizzano.
Ogni database puo’ avere il proprio formato, ma alcuni elementisono essenziali per tutti i databases:
1. Unico identificatore o codice di accesso2. Nome del depositante3. Riferimenti bibliografici4. Data del deposito5. I dati veri e propri
Qualita’ dei dati
SwissProt
• I Dati sono immessi solamente da esperti di annotazioni• Collegamenti ipertestuali a data(bases) collegati
EMBL
• Processo automatico senza intervento umano• Collegamenti ipertestuali a data(bases) collegati
PDB
• Tutti possono sottomettere dati• I dati sono accettati nel modo in cui sono inviati
il database SwissProt
• Database di sequenze di proteine
• Prodotto dalla collaborazione di Amos Bairoch (University of Geneva) e la EMBLData Library
• Dati provenienti da:- traduzioni di sequenza di DNA (dal DatabaseEMBL)- adattati dalla collezione PIR- estratti dalla letteratura- direttamente sottomessi dai ricercatori
• 86593 sequenze (31x106 lettere) (Luglio 2001)~15000 nuove sequenze ogni annoSwissnew database: 53184 (20 x106 letters)
• Ca. 200 esperti di Annotazioni sparsi nel mondo
• Organizzazione per parole chiave
SwissProt records (1)
ID identification line
ID ENTRY_NAME DATA_CLASS; MOLECULE_TYPE; SEQUENCE_LENGTH.ID CRAM_CRAAB STANDARD; PRT; 46 AA.
Format for the ENTRY_NAME:NAME_SPECIES (≤ 10 )characters
(16) :For number of organisms recognizable names, , , , , ….HUMAN MOUSE CHICK BOVIN YEAST ECOLI
. . N B Il riconoscimento ID ’ ,puo cambiare . . p e i recettori della serotonina hanno avuto di recente una nuova nomenclatura
SwissProt records (2)
AC accession numberAC P01542;AC e’ unico:Il nome, la sequenza, o altro puo’ cambiare, ma AC resta lo stesso
DT deposition dateDT 21-JUL-1986 (Rel. 01, Created)DT 30-MAY-2000 (Rel. 39, Last sequence update)DT 30-MAY-2000 (Rel. 39, Last annotation update)
SwissProt records (3)
DE descriptionDE CRAMBIN.DE 6-phosphofructo-2-kinase 1 (EC 2.7.1.105) (Phosphofructokinase 2 I)1) Informazioni descrittive generali2) Informazioni in formato libero
RN ReferencesRN [1]RP SEQUENCE.RX MEDLINE; 82046542.RA Teeter M.M., Mazer J.A., L'Italien J.J.;RT "Primary structure of the hydrophobic plant protein crambin.";RL Biochemistry 20:5437-5443(1981).
CC Commenti o noteCC -!- FUNCTION: THE FUNCTION OF THIS HYDROPHOBIC PLANT SEED PROTEINCC IS NOT KNOWN.CC -!- MISCELLANEOUS: TWO ISOFORMS EXISTS, A MAJOR FORM PL (SHOWN HERE)CC AND A MINOR FORM SI.CC -!- SIMILARITY: BELONGS TO THE PLANT THIONIN FAMILY.
KW KeywordNon standardizzate (sotto la resonsabilita’ del depositante)KW Thionin; 3D-structure.
SwissProt records (6)
FT Feature table data
FT DISULFID 3 40FT DISULFID 4 32FT DISULFID 16 26FT VARIANT 22 22 P -> S (IN ISOFORM SI).FT VARIANT 25 25 L -> I (IN ISOFORM SI).FT STRAND 2 3FT HELIX 7 16FT TURN 17 19FT HELIX 23 30FT TURN 31 31FT STRAND 33 34FT TURN 42 43
Feature table cntnd.
Altre caratteristiche: modifiche post-translationali, siti di legame, siti attivi per glienzimi, strutture secondarie locali o altre caratteristiche riportate nelle referencescitate. Gli eventuali conflitti nei dati di sequenza riportanti nelle varie referencessono anche inclusi.
FT CONFLICT 33 33 MISSING (IN REF. 2).FT MUTAGEN 123 123 G->R,L,M: DNA BINDING LOST.FT MOD_RES 11 11 PHOSPHORYLATION (BY PKC).FT LIPID 1 1 MYRISTATE.FT CARBOHYD 103 103 GLUCOSYLGALACTOSE.FT METAL 87 87 COPPER (POTENTIAL).FT BINDING 14 14 HEME (COVALENT).FT PROPEP 27 28 ACTIVATION PEPTIDE.FT DOMAIN 22 788 EXTRACELLULAR (POTENTIAL).FT ACT_SITE 193 193 ACCEPTS A PROTON DURING CATALYSIS.
Il file PDB e’ organizzato a “keyword”1) Direttamente leggibile e comprensibile se letto come file di testo2) Ogni linea parte con una Keyword (3-6 lettere)3) Oltre a essere leggibile come file di testo, il file puo’ essere direttamenteutilizzato da programmi di grafica molecolare, indipendentemente dallapiattaforma utilizzata
Nato circa 25 anni fa
http://www.rcsb.org/pdb & http://msd.ebi.ac.uk
PDB records (1)
Filename= accession number= PDB Code1) Il nome del file e’ di 4 caratteri (spesso un numero e 3 lettere, p.e. 1CRN)2) Attenzione: 0HYK significa che il file HYK non contiene coordinate spaziali, masolo informazioni strutturalu
HEADER- Intestazionedescrive la molecola e la data di depositoHEADER PLANT SEED PROTEIN 30-APR-81 1CRN 1CRND 1
COMPNDnome della molecolaCOMPND CRAMBIN 1CRN 4
SOURCEorganismo di provenienzaSOURCE ABYSSINIAN CABBAGE (CRAMBE ABYSSINICA) SEED 1CRN 5
REMARK - Informazioni varieCi sono molti e differenti records e subrecords di informazioni varie nonstandardizzati, ma identificati dalla keyword REMARKREMARK 1 REFERENCE 3 1CRNC 10REMARK 1 AUTH M.M.TEETER,W.A.HENDRICKSON 1CRN 16REMARK 1 TITL HIGHLY ORDERED CRYSTALS OF THE PLANT SEED PROTEIN 1CRN 17REMARK 1 TITL 2 CRAMBIN 1CRN 18REMARK 1 REF J.MOL.BIOL. V. 127 219 1979 1CRN 19REMARK 1 REFN ASTM JMOBAK UK ISSN 0022-2836 070 1CRN 20REMARK 2 1CRN 21REMARK 2 RESOLUTION. 1.5 ANGSTROMS. 1CRN 22
PDB records (3)SEQRESSequenza della proteina;Attenzione: Non sempre sono presenti nei record successivi le coordinate 3D ditutti gli amminoacidi di SEQRES!!SEQRES 1 46 THR THR CYS CYS PRO SER ILE VAL ALA ARG SER ASN PHE 1CRN 51SEQRES 2 46 ASN VAL CYS ARG LEU PRO GLY THR PRO GLU ALA ILE CYS 1CRN 52SEQRES 3 46 ALA THR TYR THR GLY CYS ILE ILE ILE PRO GLY ALA THR 1CRN 53SEQRES 4 46 CYS PRO GLY ASP TYR ALA ASN 1CRN 54
HET & FORMUL - EteroAtomiHET NAD A 1 44 NAD CO-ENZYME 4MDH 219HET SUL A 2 5 SULFATE 4MDH 220HET NAD B 1 44 NAD CO-ENZYME 4MDH 221HET SUL B 2 5 SULFATE 4MDH 222FORMUL 3 NAD 2(C21 H28 N7 O14 P2) 4MDH 223FORMUL 4 SUL 2(O4 S1) 4MDH 224FORMUL 5 HOH *471(H2 O1) 4MDH 225
PDB records (4)
HELIX/SHEET/TURNElementi di struttura secondaria (non sempre presenti)HELIX 1 H1 ILE 7 PRO 19 1 3/10 CONFORMATION RES 17,19 1CRN 55SHEET 2 S1 2 CYS 32 ILE 35 -1 1CRN 58TURN 1 T1 PRO 41 TYR 44 1CRN 59
PDB records (6)HETATMcoordinate atomiche per atomi in gruppi "non-standard" (metalli, cofattori,ioni, …) e per molelecole di acquaHETATM 5158 AP NAD B 1 42.641 30.361 41.284 1.00 26.73 4MDH5495HETATM 5159 AO1 NAD B 1 43.440 31.570 40.868 1.00 20.69 4MDH5496HETATM 5160 AO2 NAD B 1 41.161 30.484 41.376 1.00 33.73 4MDH5497