In questa lezione ci occuperemo Ricerca di pattern e motivi funzionali in sequenze nucleotidiche Ricerca di pattern e motivi funzionali in sequenze proteiche Potremmo enunciare il seguente paradigma : La sequenza del DNA determina la sequenza di una proteina La sequenza di una proteina ne determina la struttura La struttura di una proteina ne determina la funzione
26
Embed
In questa lezione ci occuperemo Ricerca di pattern e motivi funzionali in sequenze nucleotidiche Ricerca di pattern e motivi funzionali in sequenze proteiche.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
In questa lezione ci occuperemo
Ricerca di pattern e motivi funzionali in sequenze nucleotidiche
Ricerca di pattern e motivi funzionali in sequenze proteiche
Potremmo enunciare il seguente paradigma:
La sequenza del DNA determina la sequenza di una proteina
La sequenza di una proteina ne determina la struttura
La struttura di una proteina ne determina la funzione
Esercizio relativo alla traduzione di una sequenza nucleotidica in una sequenza amminoacidica
Data la sequenza del gene della -emoglobina umana:
… ctggcccacaagtatcactac…
1)Scrivere la traduzione di questa sequenza in una sequenza amminoacidica
2)Scrivere la sequenza nucleotidica per un cambiamento di una singola base che produca una mutazione silente in questa regione (la mutazione silete è quella che lascia invariata la sequenza amminoacidica)
3)Scrivere la sequenza nucleotidica e la traduzione in sequenza amminoacidica per un cambiamento di una singola base che produca una mutazione di un amminoacido.
Ricerca di pattern e di motivi funzionali
Qualche definizione necessaria …….
Un motivo di interesse biologico è costituito da un insieme di caratteri (nucleotidi o amminoacidi) non necessariamente contigui nella sequenza ma che si trovano sempre o sono spesso associati ad una precisa struttura e funzione biologica (ad esempio: promotori o hanno la stessa capacità di legare nucleotidi)
La bioinformatica si occupa di sviluppare metodi per il riconoscimento di pattern di interesse biologico e di curare banche dati in cui tali pattern siano organizzati e resi disponibili per l’analisi strutturale e funzionale di nuove sequenze.
Ciò deriva dal fatto che nel corso dell’evoluzione la natura ha sviluppato uno o pochi modi per erealizzare una nuova funzione (ad es. attività catalitica o altro)
Per quanto riguarda la Ricerca di pattern e motivi funzionali in sequenze nucleotidiche
In realtà non ci sono strumenti che possono essere utilizzati indifferentemente per l’analisi di una qualsiasi sequenza nucleotidica. Infatti nella studio dei segnali importanti per l’identificazione dei singoli geni è necessario considerare alcuni punti:
a) Alcuni programmi sono stati sviluppati per un organismo specifico o per un numero limitato di organismi
b) Per tutte le sequenze è necessario un filtro che escluda dall’analisi le sequenze ripetitive.
Infatti, una grande parte del DNA è costituito da sequenze di DNA ripetute che non fanno parte di regioni codificanti. Queste sequenze devono essere eliminate perché possono interferire con le misure di similarità biologicamente significative nel corso delle ricerche in banche dati
Ci sono due programmi che fanno questo:
CENSOR (http://www.girinst.org/Censor_Server.html) e
RepeatMasker (http://www.repeatmasker.org/) Questi due programmi accedono a raccolte di sequenze di DNA ripetute ed
operano un confronto con le sequenze sottomesse al programma riuscendo ad
identificare le sequenze ripetute presenti e le sottraggono dalla ricerca.
Censor può essere usato con sequenze proteiche e nucleotidiche
Possiamo scegliere un organismo per il quale fare la ricerca
Scegliere di andare a valutare le percentuali di identità e non di similarità come viene fatta di default
A noi potrebbe interessare:
1) Ricercare i promotori eucariotici
L’identificazione dei promotori è importante per l’identificazione di sequenze geniche codificanti e per la corretta assegnazione di esoni tra i geni situati nella stessa porzione del cromosoma
2) Ricercare i siti di giunzione tra introni ed esoni
Un gene è costituito da una sequenza codificante interrotta da sequenze non codificanti (dette introni). I geni sono combinazioni di corti esoni ed introni di lunghezza variabile. Il termine esoni si applica a tutte le regioni che non sono eliminate nel corso di maturazione del RNA [cioè le regioni non tradotte al 5’ dei geni, quelle codificanti vere e proprie (CDS) e le regioni non tradotte al 3’].
Identificare i siti di giunzione tra introni ed esoni per una corretta predizione della struttura di un gene.
L’allineamento tra una sequenza genomica contenente un gene e la sequenza dell’mRNA corrispondente determina la struttura del gene con l’esatta localizzazione degli introni e degli esoni.
Come procedere?
1. Trovare la sequenza genomica di cox4 umano mediante SRS
2. Incollare la sequenza di cox4 (NT_024767) nella box sulla pagina di SPIDEY ed indicare l’accession number della sequenza del trascritto NM_001861 nel riquadro in basso.
Il risultato in SPIDEY mostrerà la struttura di cox4, di esoni ed introni
Ripetere questa stessa ricerca con GenScan usando la stessa sequenza di cox4
Quanti esoni avete trovato usando SPIDEY?
SPIDEY
Potete inserire
o le sequenze
o gli accession number
Ricerca di pattern e di motivi funzionali in sequenze proteiche
Le proteine possono essere raggruppate in un numero limitato di famiglie sulla base della similarità di sequenze.
Le proteine ed i domini proteici appartenenti ad una stessa famiglia condividono attributi funzionali e strutturali derivanti da un progenitore comune.
Dallo studio di allineamenti multipli di sequenze appartenenti ad una stessa famiglia è evidente che alcune regioni sono più conservate di altre
queste regioni conservate sono in generale importanti per la funzione e la struttura di una proteina.
Analizzando le regioni costanti e variabili in un allineamento multiplo è possibile identificare un motivo che possa servire alla classificazione funzionale delle proteine che lo contengono.
PROSITE http ://www.expasy.org/prosite/È una banca dati che raccoglie più di 1600 motivi proteici associati ad una determinata struttura e funzione.
La sintassi di PROSITE:x indica la posizione in cui ciascun residuo viene accettatoTra le parentesi [ ] sono indicati i residui consentiti in una posizioneTra le parentesi { } sono indicati i residui NON consentiti in una posizione
Ad esempio:
[A,G]x4GK[S,T] viene tradotto come
[Ala o Gly]-x-x-x-x-GlySer[Ser o Thr]
Qualche esempio pratico:
Ricercare in Prosite la sequenza P68082 Scrivere l’ID dell’entry di Prosite e la famiglia a cui appartiene la proteina
Ricercare l’accession number relativo all’interleuchina 1 beta umana (usando ….) e ricercare in Prosite a quale famiglia appartiene questa proteina
Il programma ScanProsite (http://www.expasy.org/tools/scanprosite/)
confronta una sequenza con PROSITE o un motivo con tutte le sequenze proteiche riportate in SWISSPROT.
…… Esempi!!
PSORT (http://psort.nibb.ac.jp/form2.html)
è una procedura per la predizione della localizzazione delle proteine nella cellula.
Riceve informazioni sottoforma di sequenze proteiche associate a localizzazioni subcellulari e ne ricava regole di associazione empiriche.
Applicando queste regole ad una sequenza proteica di localizzazione ignota, PSORT giunge a predire la localizzazione, fornendo anche un indice di affidabilità della predizione.