Analyse statistique des données de protéomique quantitative
Analyse statistique des données de protéomique quantitative
Quantification des protéines
XtandemMascot
X!TandemPipeline
MassChroQ
Protein identification
Protein inference,filtering
Peptide quantification
Protein quantification
AllPSum
Mean,...
Statistics(R scripts)
Quantitative comparisons
PROTICdb
Objectif● Calculer une valeur représentant la quantité relative de chaque protéine ● Comparer les quantités de protéine estimées entre échantillons
Point de départ
● un fichier de résultats « peptides » : 1 ligne par peptide*z dans chaque échantillon(1 peptide = association sequence-modif )
● un fichier « protéines » : liaison peptide-protéine et descripteur de la protéineune ligne par association peptide-protéine
Données produites par MassChroQ
Colonnes : group msrun msrunfile mz rt maxintensity area rtbegin rtend peptideisotope sequence z mods+ variable « peptiz » créée par concaténation peptide-charge
Colonnes : peptide protein protein_description
Dans MassChroQ un sous-groupe de protéine n'est représenté que par une des protéines du sous-groupe (= une des protéines identifiées par le même set de peptides)
Métadonnées
Toutes les données associées à l'échantillon nécessaires à l'analyse : données biologiques, répétition, fraction, etc...
Quantification des protéines
Problèmes :
● Les peptides partagés : comment faire pour tenir compte du fait que la valeur quantitative observée sur certains peptides est le résultat de la présence de plusieurs protéines ?
● Effet peptide : tous les peptides ne répondent pas de la même façon.
● Effet MPT ou artefact : certains peptides répondent de façon non corrélée aux autres
● Données manquantes : les données manquantes ne doivent pas induire une variation importante de l'estimation de la quantité.
Comment fabriquer une valeur quantitative par protéine à partir de la quantification des peptides ?
Transformation de variable
0,8 1 1,2 1,4 1,6 1,8 2 2,20
10203040506070
Quantité de protéine
Inte
ns
ité p
ep
tide
0,8 1 1,2 1,4 1,6 1,8 2 2,20
0,5
1
1,5
2
Quantité de protéine
log
10
(In
ten
sité
pe
ptid
e)
Plus l'intensité est grande plus l'erreur de mesure est grande :liaison entre moyenne et variance
area log10
(area)
Transformation log : plus de liaison moyenne-variance
La plupart des tests statistiques supposent une indépendance entre moyenne et variance
L'intensité des peptides est proportionnelle à la quantité de protéine :
Ipep
=a*Qprot
Transformation de variable
L'intensité des peptides est proportionnelle à la quantité de protéine : Ipep=a*QprotLes peptides ne répondent pas de la même façon : la pente a dépend du peptide
0,8 1 1,2 1,4 1,6 1,8 2 2,20
50
100
150
200
250
Peptide 1
Peptide 2
0,8 1 1,2 1,4 1,6 1,8 2 2,20
0,5
1
1,5
2
2,5
Peptide 1
Peptide 2
area log10
(area)
area
log1
0(ar
ea)
Qprot Qprot
La variation de la quantité de protéine n'a pas le même effet sur les deux peptides
La variation de la quantité de protéine a le même effet sur les deux peptides : chaque peptide est le même estimateur de la quantité de protéine, inutile de connaître sa courbe de réponse propre.
Transformation de variable
Echantillons de grains de maïs, analyses shotgun● 2 traitements : déficit hydrique/témoin● 2 stades de prélèvement● 5 zones de prélèvement le long de l'épi● 3 répétitions biologiques
Echantillons de grains de maïs, analyses shotgun● 2 traitements : déficit hydrique/témoin● 2 stades de prélèvement● 5 zones de prélèvement le long de l'épi● 3 répétitions biologiques
area
log 10
(are
a)
En données réelles :
Vérification de la qualité des données
Contrôle qualité sur les peptides
● Eliminer les peptides qui traînent en LCMassChroQ nous donne pour chaque peptide un Rtbegin et un Rtend : on analyse la durée du passage du pic : Rtend-RTbegin
● Eliminer les peptides dont le RT n'est pas stable : éventuellement, erreurs d'appariement.MassChroQ nous donne le RT de chaque peptide (après alignement) : analyse de sa stabilité en étudiant l'écart type de la variation par peptide
Contrôle qualité sur les échantillons
● Eliminer les échantillons hors-type : problèmes techniques, …
✔ analyse par ACP des échantillons sur les peptides, données brutes✔ distributions des valeurs d'intensité par échantillon
Normalisation
Première méthode : utiliser un échantillon comme référence● Choisir une référence « moyenne » contenant un grand nombre de peptides● Pour chaque échantillon
✔ Pour chaque peptiz, calcul du rapport échantillon/refChaque rapport est une estimation du rapport global entre l'échantillon et la référence. On considère que la proportion de peptides non variables entre échantillons est importante (ou que les + compensent les -)
✔ Calculer la médiane de ces rapports : facteur de normalisation✔ Diviser toutes les intensités des peptiz de l'échantillon par la médiane des
rapports ( ou soustraire si on est déjà en log)
Deuxième méthode : pourcentages● Calculer le pourcentage représenté par le peptide● Multiplier par une constante (moyenne des sommes d'intensité par échantillon)
En théorie, même quantité totale de peptide dans tous les échantillons.
Dans les faits, variabilité : problèmes de dosage, variations de sensibilité de l'appareil…)
Normalisation
Sample 1Sample 2
Log
(inte
nsity
)
Sample 1
Peptide 1
Peptide 5
Peptide 4
Peptide 3
Peptide 2
Sample 2
Normalisation
Cas idéal : pas de variation des quantités relatives entre les échantillons
Normalisation parfaite
Normalisation :mediane des différences
oupourcentages
Sample 1Sample 2
Log
(inte
nsity
)
Sample 1
Peptide 1
Peptide 5
Peptide 4
Peptide 3
Peptide 2
Sample 2
Normalisation
Cas habituel : existence de variation des quantités relatives entre les échantillons
La médiane permet de ne pas tenir compte des valeurs extrèmes des différences
Normalisation :mediane des différences
Sample 1 Sample 2
Log
(inte
nsity
)
Sample 1
Peptide 1
Peptide 5
Peptide 4
Peptide 3
Peptide 2
Sample 2
Normalisation
Protéines majoritaires dans l'échantillon, saturation de la réponse
Mediane : correcte pour l'ensemble des protéines, incorrecte pour les majoritairesPourcentages : les protéines majoritaires comptent plus que les moins abondantes (rapport > 1/1000) : moins bonne normalisation pour la plupart des protéines
Normalisation :mediane des différences
Sample 1Sample 2
Log
(inte
nsity
)
Sample 1
Peptide 1
Peptide 5
Peptide 4
Peptide 3
Peptide 2
Sample 2Faible intensité, des peptides sont
manquants
Normalisation
Cas extrême : les peptides communs présentent de fortes différences
Normalisation :médiane des différences
Normalisation OK ?
Sample 1Sample 2
Log
(inte
nsity
)
Sample 1
Peptide 1
Peptide 5
Peptide 4
Peptide 3
Peptide 2
Normalisation
Que donnerait une normalisation par les pourcentages ?
Normalisation :pourcentages
Normalisation OK ?
= 1 %
= 0,8 %
= 0,5 %
= 0,3 %
= 0,1 %
= 3 %= 2 %
= 1 %
% in
tens
itéSample 2
Faible intensité, des peptides sont manquants
Sample 1Sample 2
Log
(inte
nsity
)
Sample 1
Peptide 1
Peptide 5
Peptide 4
Peptide 3
Peptide 2
Normalisation
Problème de la représentativité des peptides communs
Normalisation :médiane des différences
Ex : sample2 contient des protéines d'une autre espèce :La méthode des médianes permet de bien normaliser les communs mais ne rend pas compte de la proportion réelle des protéines dans les échantillonsLa méthode des % rendra bien compte de la chute en proportion des protéines communes.
La plupart des non communs sont en quantité supérieure
Sample 2Faible intensité, des peptides sont
manquants
Inte
nsi
ty r
atio
(lo
g10
)
RT
Normalisation
Normalisation en fonction du RT
Tient compte des variations affectant l’intensité de l’ensemble des peptides au cours de la LC.
Normalisation
Méthode des médianes
+ : facteur de normalisation calculé à partir de milliers de mesures différentes
+ : chaque rapport est précisément le rapport entre les intensités des 2 mêmes peptiz
+ : chaque peptide commun à la ref pèse le même poids dans le calcul du facteur de normalisation
- : représentativité des peptides commun ?
Méthode des pourcentages
+ : simplicité
+/- : pas d'échantillonnage : tous les peptides sont pris en compte, aussi bien communs que spécifiques
- : les protéines abondantes comptent plus que les autres dans le calcul
Variations quantitatives et qualitatives
Analyse quantitative : traitement 4 ignorétraitement 3 éliminé : trop de données manquantes
Peptide counting : semi-quantitatif sur toutes protéines : permet de repérer ce type de variation.Pas de sélection des peptides répétables.
Continuum entre variation qualitative (présence/absence) et quantitative(sauf cas de peptide ou protéine spécifique : mutant, ou variation allélique de la séquence du peptide)
Traitement 1 Traitement 2 Traitement 4
Inte
nsité
Traitement 3
Répétabilité des peptides
● Variations présence/absence déjà été prises en compte par peak counting
● Jeu de données complet nécessaire pour calculer la valeur des protéines
Minimiser le nombre de données manquantes Accepter par ex au maximum 10 % de données manquantes par peptide sur la totalité de l'expérience
Répétabilité des peptides pour les analyses quantitatives
Les peptides partagés
● Utiliser des modèles statistiques sophistiqués permettant de prendre en compte les peptides partagés et d'estimer leur contribution aux différentes protéines présentes dans l'échantillon (Blein-Nicolas et al 2012)
● Quantifier les protéines uniquement à partir de peptides protéotypiques, en utilisant les méthodes de type SRM
● Ne pas tenir compte des peptides partagés dans la quantification
Comment tenir compte des peptides partagés entre plusieurs protéines ?
Remarque : les peptides restant ne sont pas seulement des peptides protéotypiques :
Il peut rester des peptides communs● entre protéines d'un même sous-groupe ( = protéines indistinguables
sur la base des peptides identifiés)● avec des protéines non identifiées car représentées par un nombre
inférieur de peptides (sous-sous-groupes)
Fiabilité des peptides
Les peptides d'une même protéine peuvent avoir des comportements différents
● modifications post-traductionnelles● dégradation in vivo de la protéine ● peptides partagés avec protéines non identifiées● stabilité de l'analyse LC-MS/MS
Variation quantitative d'un peptide =
Variation de la protéine + variation individuelle du peptide
Pour s'assurer que c'est plutôt la quantité de la protéine qui est mesurée, quantifier une protéine avec au moins 2 peptides
Fiabilité des peptides
Doit-on garder tous les peptides ?
Si les peptides mesurent bien la même chose (i.e. la protéine dont ils proviennent), leur variation doit être corrélée.
Traitement A Traitement B Traitement C Traitement D
Protéine
Peptides
log 10
(I)
Fiabilité des peptides
Traitement A Traitement B Traitement C Traitement D
Protéine
Peptides
Doit-on garder tous les peptides ?
Si les peptides mesurent bien la même chose (i.e. la protéine dont ils proviennent), leur variation doit être corrélée.
log 10
(I)
Fiabilité des peptides
Traitement A Traitement B Traitement C Traitement D
Protéine
Peptides
Doit-on garder tous les peptides ?
Si les peptides mesurent bien la même chose (i.e. la protéine dont ils proviennent), leur variation doit être corrélée.Les peptides qui ne sont pas corrélés aux autres mesurent donc autre chose que la protéine (leur variation biologique propre, ou des variations techniques). Les éliminer.
log 10
(I)
Fiabilité des peptides : sélection des peptides corrélés entre eux
Pointillés : peptides non corrélés, supprimés de l'analyse
Fiabilité des peptides : sélection des peptides corrélés entre eux
Aucun peptide corrélé : protéine supprimée
Fiabilité des peptides : sélection des peptides corrélés entre eux
Pas de variation biologique : reste la variation technique aléatoire : peptides non corrélés, protéine suppriméeLa méthode tend à pré-sélectionner les protéines significatives
Fiabilité des peptides : sélection des peptides corrélés entre eux
Tous peptides conservésRemarque : présence de données manquantes
A CB
Femtomoles (log scale)
All peptidesMYG_HUMAN_UPS1 MYG_HUMAN_UPS1MYG_HUMAN_UPS1
Correlated peptides Computed protein value
log1
0(in
tens
ity)
Fiabilité des peptides : sélection des peptides corrélés entre eux
Exemple : Gamme de concentration pour une protéine de UPS1 dans lysat de levure en concentration constante. Elimination des peptides non reproductibles et non corrélés entre eux.
Calcul de la quantité relative de protéine
● Modéliser l'effet peptide dans des analyses de variance après retrait des peptides partagés
● IBAQ : somme de tous les peptides quantifiés, normalisés par le nombre de peptides théoriquement observables
● Moyenne des intensités de tous les peptides quantifiés● Top3 : somme des 3 peptides les plus intenses
Top3 serait meilleure que IBAQ et Moyenne (Ahrné et al 2013, Proteomics 13, 2567–2578)
De façon générale le problème des données manquantes n'est pas abordé dans ces méthodes.
Ex : Top3 : que doit-on faire quand l'un des 3 peptides est manquant ?
Méthodes de calcul de la quantité de protéine à partir des intensités des peptides
Moyenne ou somme ?
En termes de statistiques, le résultat sur la moyenne ou sur la somme sera le même, sauf s'il y a des données manquantes
Traitement A Traitement B Traitement C Traitement D
moyenne
Calcul de la quantité relative de protéine
somme
Calcul de la quantité relative de protéine
Traitement A
Traitement B
Traitement C
Traitement D
somme
moyenne
Traitement A
Traitement B
Traitement C
Traitement D
somme
moyenne
Somme et moyenne ne « répondent » pas de la même façon aux données manquantes.La somme est plus « logique » dans le cas où la valeur manquante peut être interprétée comme une valeur faible.
Les deux méthodes donnent plus de poids aux variations des peptides les plus intenses.
Pour éviter les variations brutales provoquées par les données manquantes, imputations.
Données manquantes
Imputation sur les peptides
On peut se servir des autres peptides de la même protéine pour prédire la valeur que « devrait prendre » le peptide s'il avait été détecté (régressions)
Introduction de données calculées : biais pour les analyses statistiques. On compense en ajoutant du bruit dans la prédiction.
Limiter au maximum le nombre de données imputées (ex : 5%).
Valeur prédite pour le peptide rouge
On calcule la valeur protéine par somme des intensités des peptides.
Pour les analyses statistiques on repasse ensuite aux logs :q=log10(I
pep1+I
pep2+...)
Calcul de la quantité relative de protéinear
ea
log 10
(are
a)
La somme est calculée sur les intensités non transformées : les variations des peptides les plus intenses ont plus d'influence que celles des peptides les moins intenses
Les analyses globales (ACP, clusters,...) ont besoin de tableaux complets.
Hypothèse : la protéine est en faible quantité, tous ses peptides sont sous le seuil de détection.
Imputation par une valeur faible (la plus faible valeur mesurée pour la protéine dans l'expérience)
Sample1 Sample 2 Sample 3 Sample 4
protéine protéine
Données manquantes dans les quantités de protéine calculées
Sample1 Sample 2 Sample 3 Sample 4
Si aucun autre peptide de la protéine n'est présent dans un échantillon, pas d'imputation au niveau des peptides : donnée manquante pour la protéine