Top Banner
Jessica Monhart ([email protected]) Camille Pitteloud ([email protected]) Supervisé par Micha Hersch
42

Jessica Monhart ([email protected]) Camille Pitteloud ([email protected])

Dec 30, 2015

Download

Documents

gannon-potter

Lab mouse similarity. Jessica Monhart ([email protected]) Camille Pitteloud ([email protected]) Supervisé par Micha Hersch. Sommaire. Introduction Objectifs Intérêts Méthodes et résultats a. K- means b. PCA Comparaison des méthodes Perspectives 7)Feedback. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

Jessica Monhart ([email protected])Camille Pitteloud ([email protected])Supervisé par Micha Hersch

Page 2: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

1) Introduction2) Objectifs3) Intérêts4) Méthodes et résultats

a. K-meansb. PCA

5) Comparaison des méthodes6) Perspectives7) Feedback

Page 3: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

-> Toutes les souris de laboratoire descendent de la même espèce ancestrale: Mus musculus

-> Le génome des souris de laboratoire a montré qu’elles descendaient de différentes sous-espèces de Mus musculus:

• Mus musculus musculus• Mus musculus domesticus• Mus musculus castaneus• Mus musculus molossinus

Page 4: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

-> Aujourd’hui, plus de 450 souches consanguines ont été créées en laboratoire.

-> Une souche est considérée comme consanguine lorsqu’il y a eu croisement entre frère et sœur plus de 20 fois consécutives.

-> Etant donné que la plupart des souches a été croisée sur plus de 150 générations, elles sont considérées comme homozygotes.

Page 5: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

a) Comparaison de souris de différentes souches sur une base de SNPs (au niveau du génome ou d’une région)

-> Sont-elles proches ou éloignées ?

-> Le regroupement par similarité coïncide-t-il avec leur phylogénie?

Page 6: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)
Page 7: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

c) Comparaison de différentes méthodes d’analyse

-> Quels sont leurs avantages et leurs inconvénients ?

Page 8: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

Connaître la distance génétique entre les différentes souches de souris permet:

-> L’obtention de meilleurs échantillonnages lors d’expériences-> L’élimination de variables confondantes génétiques

Page 9: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

Transformation de données génétiques en données mathématiques

• Codage des 4 bases (A-T,C-G) en valeurs -1,1

• Conversion des SNPs en vecteurs -> n SNPs stockés dans un vecteur = n dimensions

Page 10: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)
Page 11: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• 1ère étape:Décider de K, c’est-à-dire faire l’hypothèse sur le nombre de groupes à trouver.

-> Dans notre cas, nous avons 4 souches principales donc nous aurons 4 groupes.

Page 12: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)
Page 13: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)
Page 14: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)
Page 15: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)
Page 16: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

Résultats que l’on s’attendait à obtenir: 1ère analyse:

2ème analyse:

3ème analyse:

Page 17: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• Résultats pour les 3287 SNPs:1ère analyse:

2ème analyse:

3ème analyse:

Page 18: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• Résultats pour le chromosome 1 (263 SNPs):1ère analyse:

2ème analyse:

3ème analyse:

Page 19: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• Résultats pour le chromosome 10 (163 SNPs):1ère analyse:

2ème analyse:

3ème analyse:

Page 20: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• Résultats pour le chromosome 19 (73 SNPs):1ère analyse:

2ème analyse:

3ème analyse:

Page 21: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

Conclusion:

-> Même en réduisant le nombre de SNPs, les analyses ne donnent pas de résultats suffisamment similaires.

-> Cette méthode ne fonctionne pas pour nos données.

Page 22: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

Principe:

Méthode permettant de réduire le nombre de dimensions

Utile car représenter graphiquement les différentes souches (vecteurs) contenant plusieurs SNPs (dimensions) est impossible-> réduction des données en 2D (voire 3D)

Page 23: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

Marche à suivre:

1. Sélection des SNPs et des souches à comparer

Exemple:

rsnps X.1 X1.5 X1.7[1,] -1 -1 1[2,] -1 1 -1[3,] 1 1 -1[4,] -1 1 1[5,] 1 1 -1[6,] -1 1 -1

Page 24: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

2. Calcul de la matrice de covariance C -> évaluation de la relation entre les SNPs

Exemple:

matricecov<-cov(t(rsnps)) > matricecov [,1] [,2] [,3] [,4] [,5] [,6][1,] 1.3333333 -0.6666667 -1.3333333 0.6666667 -1.3333333 -0.6666667[2,] -0.6666667 1.3333333 0.6666667 0.6666667 0.6666667 1.3333333[3,] -1.3333333 0.6666667 1.3333333 -0.6666667 1.3333333 0.6666667[4,] 0.6666667 0.6666667 -0.6666667 1.3333333 -0.6666667 0.6666667[5,] -1.3333333 0.6666667 1.3333333 -0.6666667 1.3333333 0.6666667[6,] -0.6666667 1.3333333 0.6666667 0.6666667 0.6666667 1.3333333

Page 25: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

3. Diagonalisation de C -> obtention des vecteurs et des valeurs propresExemple:eigen(matricecov)$values [1] 5.154701e+00 2.845299e+00 5.529209e-16 3.268086e-16 -6.352955e-17[6] -2.158371e-16

-Le 1er vecteur propre est celui qui maximise la variance.

-Plus la valeur propre est grande, plus la variance est importante.

Page 26: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

4. Sélection de k vecteurs propres (2 ou 3) -> réduction du nombre de dimensions

5. Projection de tous les points (souches) sur le plan formé par les k vecteurs propres

Page 27: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

Comment tirer des conclusions à partir de nos plots?

1) 9 plots très semblables2) Mise en évidence des souches externes/groupées3) PCA sur les souches externes4) Enlever les souches externes5) PCA sur les souches restantes

Page 28: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• PCA sur les 20 souches:

Page 29: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• PCA sur les 5 souches extérieures au groupe central:

Page 30: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• PCA sur les 15 souches:

Page 31: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• PCA sur les 4 souches extérieures au 15:

Page 32: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• PCA sur les 11 souches:

Page 33: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• PCA sur les 9 souches:

Page 34: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• PCA sur les 7 souches:

Page 35: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• Résultats pour les 9 souches:

Page 36: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

• Résultat final de la PCA:

-> les distances estimées par laPCA correspondent aux distancesentre les groupes trouvés dans la littérature

Page 37: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

1) K-means:

Avantages:-> méthode plus rapide à assimiler-> méthode plus simple à appliquer

Inconvénient:-> méthode qui ne fonctionne pas sur nos données

Page 38: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

2) Analyse en composantes principales:

Avantage:-> méthode efficace pour analyser nos données

Inconvénients:-> méthode longue et compliquée-> nous ne pouvions pas utiliser tous les SNPs,

seulement 1000.

Page 39: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

-> Utilisation d’autres méthodes

-> Nous aurions pu analyser l’ADN mitochondrial et comparer les résultats avec ceux des SNPs

-> Deviner les SNPs manquants chez certaines souris au sein d’un certain groupe

Page 40: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

-> Apprentissage de méthodes de

programmation-> Réalisation du projet lui-même-> Aperçu d’analyses mathématiques sur

des données biologiques

Page 41: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

Nous tenons à remercier Micha Hersch pour sa disponibilité, son soutien et sa patience!

Page 42: Jessica  Monhart  (jessica.monhart@unil.ch) Camille  Pitteloud  (camille.pitteloud@unil.ch)

Jessica Monhart ([email protected])

Camille Pitteloud ([email protected])