1 Introduction à la génomique fonctionnelle http://www.unil.ch/dbmv/page26947_en.html Cours aux étudiants de BSc Biologie 3ème année Philippe Reymond, MER PLAN DU COURS - Séquençage des génomes - Méthodes globales d'analyse du génome - Analyse des données, applications
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
Introduction à la génomique fonctionnelle
http://www.unil.ch/dbmv/page26947_en.html
Cours aux étudiants de BSc Biologie 3ème annéePhilippe Reymond, MER
PLAN DU COURS
- Séquençage des génomes
- Méthodes globales d'analyse du génome
- Analyse des données, applications
2
Analyse globale du génome dʼun organisme
Tous les gènes et régions intergéniques
1. Génomique structurelle
- Organisation et position des gènes, taille du génome- Séquençage de lʼADN et analyse des séquences
2. Génomique fonctionnelle
Analyse du génome pour comprendre la fonction des gènes- Comparaisons de génomes entre organismes- Expression du génome- Variabilité du génome
Comment améliorer les prédictions?- génomique comparative- analyse de cDNAs complets- entraînement des algorithmes sur des gènes connus- vérification expérimentale
A64 G73 G100 T100 A62 G84 T63 ………6 Py74-87 N C65 A100 G100 NN% = fréquence du nucléotide N à cette position
--> Les algorithmes d'annotation font des prédictionsqu'il faut vérifier par le séquençage de cDNAs
Prédictions de gènes chez Arabidopsis
14
"ADN poubelle?"
Des régions non transcrites du génome sont extrêmement bien conservées entre organismesdepuis des millions d'années. Leur fonction est toujours inconnue.
Quelle est la taille minimum du génome pour quʼune cellule fonctionne?
Mutations systématiques par transposons du génome de Mycoplasma genitalium:265-350 gènes sont essentiels pour une croissance en laboratoire (100 nʼont pas de fonction connue!)
Hutchinson et al. (1999) Science 286: 2165-2169
Tous les gènes d'un organisme sont-ils nécessaires?
Une délétion de chaque gène de levure ne présente pas de phénotype dans 80% des cas en milieu richemais 97% des gènes sont nécessaires en condition de stress, de traitement chimique ou d'environnement modifié.
Hillenmeyer et al. (2008) Science 320: 362-365
16
Organismes modèlesEscherichia coli Blattner et al. (1997) Science 277: 1453-1462
Saccharomyces cerevisiae Goffeau et al. (1996) Science 274: 546-567
Caenorhabditis elegans The C. elegans consortium (1998) Science 282: 2012-2046
Drosophila melanogaster Adams et al. (2000) Science 287: 2185-2195
Arabidopsis thaliana The Arabidopsis genome initiative (2000) Nature 408: 796-815
Homo sapiens International Human Genome Sequencing Consortium (2001) Nature 409: 860-921Venter et al. (2001) Science 291: 1304-1351
Comparaisons de génomes(homme-mouche-ver-levure-plante-algue)
La plus grande différence entre lʼêtre humain et le ver our la mouche résidedans la complexité des protéines : il y a plus de domaines par protéine et beaucoupplus de combinaisons de domaines.
Nouvelles familles de protéines ou expansion de familles chez lʼêtre humain:
-réponse immunitaire-développement, structure et fonction du système nerveux-signalisation intra- et intercellulaire dans le développement et lʼhomeostasie-système sanguin-apoptose
Les fonctions cellulaires élémentaires – métabolisme de base, réplication, transcription de lʼADN, traduction- sont présentes partout, sont apparues une fois dans lʼévolution et sont restéesfixées depuis.
Seulement 94 familles de protéines (sur 1278)sont uniques aux vertébrés.
20
Duplications du génome d'Arabidopsis
Nature (2001), 408: 796-815
3 duplications: 221 Mio années 162 Mio années 75 Mio années
(calcul: 6.1 mutations synonymes/Mia années/site)
Chr1
Chr2
Chr3
Chr4
Chr5
21
Comment déterminer la fonction d'un gène
- Analyse de la séquence, comparaison avec des gènes similaires (motifs conservés, homologues dans d'autres espèces, etc…)
- Localisation dans la cellule, tissu, organisme
- Intéractions avec d'autres produits de gènes
- Mutants, surexpression, knock-outs
- Analyse de l'expression
- Corrélation entre génotype et phénotype
22
-
+
Analyse de l'expression d'un gène par Northern blot
1 2 3 4 5
Gel d'agarose Membrane de nylon
Echantillons d'ARN sonde ADN marquée
Transfert
23
Mesure globale de lʼexpression génétiqueRecherche fondamentale et appliquée dans tous les domainesDiagnostic médical, nouveaux médicaments
Applications
Analyse dʼamplifications et de délétions de gènesCaractéristique de certains cancers
Analyses des variabilités génomiques et corrélations avec des phénotypesSingle Nucleotide Polymorphisms (SNP), mutations,séquences répétées
Etc…
Les puces à ADN(DNA microarrays, DNA chips)
M. Schena, D. Shalon, R. Davis, P. Brown (1995) Quantitative monitoring of gene expression patterns with a complementary DNA microarray.Science 270: 467-470
Lipshutz, R. J.; Morris, D.; Chee, M.; Hubbell, E.; Kozal, M. J.; Shah, N.; Shen, N.; Yang, R.; Fodor, S. P. (1995) Using oligonucleotide probe arraysto access genetic diversity. BioTechniques 19(3), 442-7
ex: Genome-Wide Human SNP 5.0 chips : 500'000 SNPs
Pour le marquage d'ADN génomique: fragmentation par enzymes de restrictions, ligation d'adapteurs, amplification par PCR, ajout de nucléotide biotinylé par terminal transferase
45
Etude sur 14'000 patientset 3'000 contrôles
Affymetrix Human 500K SNPs
Wellcome Trust Case Control Consortium, Nature (2007) 447:661-678
Association entre génotype et phénotype
46
Annotation expérimentale du génome(tiling arrays)
Schoemaker et al. (2002) Nature 409: 922-927
47Stolc et al. (2005) PNAS 102, 4453-4458
Nimblegen "tiling array"
Annotation expérimentale du génome d'Arabidopsis5 millions d'oligos 36-mer couvrant les deux brins (13 arrays)
>60% des transcripts annotés sont détectés
>1000 nouveaux gènes (en plus de Yamada et al.)12'090 transcripts en antisense
Affymetrix
Nimblegen
48
NimbleGen oligonucleotide chip
Méthode et utilisation identique à Affymetrix mais meilleur marché
49
Affymetrix: normalisation des signaux
Intensité du signal
50
Analyse des données Affymetrix d'expression
Chips 1Chips 2
Inte
nsité
du
signa
l nor
mal
isé
Gènes
Rapport d'expression :Signal Chips2/ Signal Chips1
51
Intensité du signal
Rapp
ort d
'exp
ress
ion
(Log
2 Cy5
/Cy3
)(moyenne de 6 réplicats indépendants)
CTL vs CTLPas de traitement
> 2 fois
> -2 fois
Comment identifier un gène différentiellement exprimé?
52
Effet de Pieris rapae sur l'expression génétique chez Arabidopsis thaliana(moyenne de 5 réplicats indépendants)
Intensité du signal
Rapp
ort d
'exp
ress
ion(
log2
Cy5
/Cy3
)
CTL vs insecte
Comment identifier un gène différentiellement exprimé?
Pieris rapae
53
Effet de Pieris rapae sur l'expression génétique chez Arabidopsis thaliana
Répression > 2 fois Induction > 2 fois
Analyse statistique du changement d'expression
P<0.05
Comment identifier un gène induit ou réprimé?
1. Seuil arbitraire (signal 2 fois plus grand dans la condition 1 que dans la condition 2)
2. Analyse statistique sur plusieurs réplicats (>3): test student t H0 µi=0Si µi différent de 0, le gène est induit avec P<0.05
Rapport d'expression
54
Corrections pour tests multiples
Errreur de Type I: un gène est déclaré différentiellement exprimé alors quece n'est pas le cas
-correction de Bonferroni: valeur p divisée par le nombre de tests -> tropconservateur-FDR (false discovery rate): proportion de faux positifs parmi les gènesdifférentiellement exprimés
-Correction Benjamini Hochberg-q value Storey Tibshirani
Cui and Churchil (2003) Genome Biology 4:210
55
Test t µ1= µ2 et rapport > ou < 1
Comparaison de deux expériences
Gènes induits par l'insecte dans le type sauvage (WT) et dans le mutant (coi1-1)Gènes induits par l'insecte seulement dans le type sauvage
Gènes pas induitsGènes induits par l'insecte seulement dans le mutant
Rapport 1: WT + insecte/ WT contrôle
Rapport 2: coi1-1 + insecte / coi1-1 contrôle
Plantes d'Arabidopsis attaquées pardes chenilles de Pieris rapae
56
Gènes
Expériences
Rapport d'expression
Comparaison de plusieurs expériencesHierarchical clustering
57
Comportement d'un groupe de répresseurs d'Arabidopsis
http://www.genevestigator.com
58
Cancer du sein
Tumeurs impossibles à différencierpar analyses classiques
patients
gènes
59Van't Veer et al. (2002) Nature 415:530-535
Le microarray comme outil diagnostique
60
Analyse de correspondance
Toutes les mesures d'expression (tous les gènes) d'une expérience sontcomparées à celles d'autres expériences
61
Analyse de promoteurs
62
Nouvel élément contrôlant l'induction par la blessure chez Arabidopsis
Walley et al. (2007) PLOS Genetics 10:e172
Analyse de promoteurs: un exemple
Motif RSRE (Rapid Stress Response Element) trouvé dans le promoteur de gènes induits rapidement par la blessureCGGGTT
63
ChIP-chipQuels sont les gènes contrôlés par un facteur de transcription
GENE X
FixationSonication
Récupération et marquaged'ADN lié au facteur de transcription
Immunoprécipitation
Cy5Cy3
Contrôle:ADN génomique marqué
Microarray contenantdes régions intergéniques
Facteur de transcription
Glucose --> Galactose
Ren et al. (2000) Science 290:2306
promoteur
anticorps
et tous les autres gènes cibles
64
GENE Y
FixationSonication
ImmunoprécipitationElimination du facteur de transcription
Facteur de transcriptionpromoteur
ChIP-seqQuels sont les gènes contrôlés par un facteur de transcription
anticorps
Séquençage à haut débit (454, Illumina)
GENE X
promoteur
GENE Z
promoteur
GENE X
65
Evolution expérimentale(250 générations)
Levures dans un milieu pauvreen glucose
Analyse globale de l'expression génétique(tous les gènes: 6124)
Résultats3% de changement d'expression
Utilisation optimale du glucosepour la production d'ATP-diminution de la fermentation-augmentation de la respirationn
DiscussionL'identité des mutations n'est pasconnue et ne peut être mesurée:on mesure le résultat et pas la cause
Analyse de changements d'expression au cours de l'évolution
Ferea et al. (1999) PNAS 96:9721-9726
66
L'avenir
-séquençage à haut débit sans amplification d'ADN ni marquage
-séquençage et assemblage de génomes inconnus grace à des séquences plus longues
-analyses d'expression des génomes par séquençage à haut débit
-beaucoup plus de génomique pour les organismes non-modèles
67
Résumé
ADN
ARN codants
ARN non codants
SNP
AAA AAA
Facteur de transcription
(Re)séquençage:- shotgun (Sanger) Génome inconnu- Illumina/454 Génome connu
Analyse des variations- Affymetrix
Recherche de promoteurs:- microarrays- séquençage Illumina/454
Analyse de l'expression- Affymetrix- microarrays
Annotation du transcriptome- Affymetrix tiling array
Identification de mutations- séquençage Illumina/454
Analyse de l'expression- séquençage Illumina/454
68
Session de printemps 2006
A. Vous avez à disposition 12 puces Affymetrix qui contiennent chacune des sondes pour tous les
gènes humains. Décrivez le design expérimental qui vous permette d’identifier avec une certaine
fiabilité statistique tous les gènes qui sont induits dans les premiers stades d’un type de tumeur de la
peau causé par un fort rayonnement UV.
B. Quel outil diagnostique développez-vous par la suite pour analyser une population de personnes
à risque?
Session de mars 2007
Les racines de luzerne (Medicago truncatula) forment des nodules avec les bactéries du genre
Rhizobium, dont le génome est complètement séquencé. Pour Medicago, il y a une collection de
cDNAs disponible.
A. Décrivez les expériences qui permettent d'identifier quels sont les gènes qui sont exprimés lors de
la symbiose, tant chez la luzerne que chez Rhizobium.
B. Comment savoir si des gènes de défenses de la plante sont réprimés lors de la symbiose?
Session de janvier 2008
Vous découvrez un nouvel ecotype d'Arabidopsis thaliana qui est très résistant aux chenilles de la
piéride du chou.
A. Quelle méthode est appropriée pour séquencer rapidement le génome de ce nouvel écotype?
Comment procède-t-on?
B. Décrivez une expérience pour savoir si la résistance aux insectes de cet écotype est due à une
plus grande expression de gènes de défense?
Session de janvier 2009
Vous obtenez la séquence du génome de 10 souris récoltées en Suisse qui manifestent des signes
d'obésité. Après analyse bioinformatique, vous découvrez 2 millions de mutations ponctuelles dans
ces génomes. Certains SNPs modifient la séquence de 1500 protéines.
A. Quelle méthode vous permet de savoir si il y a une association entre l'obésité et les 2 mio de
SNPs chez les souris d'Europe?
B. Décrivez une expérience pour savoir l'expression des gènes codant pour les 1500 protéines
modifiées est corrélée à la prise de poids des souris.