Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Analyse statistique des données de protéomique quantitative

Quantification des protéines

XtandemMascot

X!TandemPipeline

MassChroQ

Protein identification

Protein inference,filtering

Peptide quantification

Protein quantification

AllPSum

Mean,...

Statistics(R scripts)

Quantitative comparisons

PROTICdb

Objectif● Calculer une valeur représentant la quantité relative de chaque protéine ● Comparer les quantités de protéine estimées entre échantillons

Point de départ

● un fichier de résultats « peptides » : 1 ligne par peptide*z dans chaque échantillon(1 peptide = association sequence-modif )

● un fichier « protéines » : liaison peptide-protéine et descripteur de la protéineune ligne par association peptide-protéine

Données produites par MassChroQ

Colonnes : group msrun msrunfile mz rt maxintensity area rtbegin rtend peptideisotope sequence z mods+ variable « peptiz » créée par concaténation peptide-charge

Colonnes : peptide protein protein_description

Dans MassChroQ un sous-groupe de protéine n'est représenté que par une des protéines du sous-groupe (= une des protéines identifiées par le même set de peptides)

Métadonnées

Toutes les données associées à l'échantillon nécessaires à l'analyse : données biologiques, répétition, fraction, etc...

Quantification des protéines

Problèmes :

● Les peptides partagés : comment faire pour tenir compte du fait que la valeur quantitative observée sur certains peptides est le résultat de la présence de plusieurs protéines ?

● Effet peptide : tous les peptides ne répondent pas de la même façon.

● Effet MPT ou artefact : certains peptides répondent de façon non corrélée aux autres

● Données manquantes : les données manquantes ne doivent pas induire une variation importante de l'estimation de la quantité.

Comment fabriquer une valeur quantitative par protéine à partir de la quantification des peptides ?

Transformation de variable

0,8 1 1,2 1,4 1,6 1,8 2 2,20

10203040506070

Quantité de protéine

Inte

ns

ité p

ep

tide

0,8 1 1,2 1,4 1,6 1,8 2 2,20

0,5

1

1,5

2

Quantité de protéine

log

10

(In

ten

sité

pe

ptid

e)

Plus l'intensité est grande plus l'erreur de mesure est grande :liaison entre moyenne et variance

area log10

(area)

Transformation log : plus de liaison moyenne-variance

La plupart des tests statistiques supposent une indépendance entre moyenne et variance

L'intensité des peptides est proportionnelle à la quantité de protéine :

Ipep

=a*Qprot


L'intensité des peptides est proportionnelle à la quantité de protéine : Ipep=a*QprotLes peptides ne répondent pas de la même façon : la pente a dépend du peptide

0,8 1 1,2 1,4 1,6 1,8 2 2,20

50

100

150

200

250

Peptide 1

Peptide 2

0,8 1 1,2 1,4 1,6 1,8 2 2,20

0,5

1

1,5

2

2,5

Peptide 1

Peptide 2

area log10

(area)

area

log1

0(ar

ea)

Qprot Qprot

La variation de la quantité de protéine n'a pas le même effet sur les deux peptides

La variation de la quantité de protéine a le même effet sur les deux peptides : chaque peptide est le même estimateur de la quantité de protéine, inutile de connaître sa courbe de réponse propre.


Echantillons de grains de maïs, analyses shotgun● 2 traitements : déficit hydrique/témoin● 2 stades de prélèvement● 5 zones de prélèvement le long de l'épi● 3 répétitions biologiques

Echantillons de grains de maïs, analyses shotgun● 2 traitements : déficit hydrique/témoin● 2 stades de prélèvement● 5 zones de prélèvement le long de l'épi● 3 répétitions biologiques

area

log 10

(are

a)

En données réelles :

Vérification de la qualité des données

Contrôle qualité sur les peptides

● Eliminer les peptides qui traînent en LCMassChroQ nous donne pour chaque peptide un Rtbegin et un Rtend : on analyse la durée du passage du pic : Rtend-RTbegin

● Eliminer les peptides dont le RT n'est pas stable : éventuellement, erreurs d'appariement.MassChroQ nous donne le RT de chaque peptide (après alignement) : analyse de sa stabilité en étudiant l'écart type de la variation par peptide

Contrôle qualité sur les échantillons

● Eliminer les échantillons hors-type : problèmes techniques, …

✔ analyse par ACP des échantillons sur les peptides, données brutes✔ distributions des valeurs d'intensité par échantillon

Normalisation

Première méthode : utiliser un échantillon comme référence● Choisir une référence « moyenne » contenant un grand nombre de peptides● Pour chaque échantillon

✔ Pour chaque peptiz, calcul du rapport échantillon/refChaque rapport est une estimation du rapport global entre l'échantillon et la référence. On considère que la proportion de peptides non variables entre échantillons est importante (ou que les + compensent les -)

✔ Calculer la médiane de ces rapports : facteur de normalisation✔ Diviser toutes les intensités des peptiz de l'échantillon par la médiane des

rapports ( ou soustraire si on est déjà en log)

Deuxième méthode : pourcentages● Calculer le pourcentage représenté par le peptide● Multiplier par une constante (moyenne des sommes d'intensité par échantillon)

En théorie, même quantité totale de peptide dans tous les échantillons.

Dans les faits, variabilité : problèmes de dosage, variations de sensibilité de l'appareil…)

Normalisation

Sample 1Sample 2

Log

(inte

nsity

)

Sample 1

Peptide 1

Peptide 5

Peptide 4

Peptide 3

Peptide 2

Sample 2

Normalisation

Cas idéal : pas de variation des quantités relatives entre les échantillons

Normalisation parfaite

Normalisation :mediane des différences

oupourcentages

Sample 1Sample 2

Log

(inte

nsity

)

Sample 1

Peptide 1

Peptide 5

Peptide 4

Peptide 3

Peptide 2

Sample 2

Normalisation

Cas habituel : existence de variation des quantités relatives entre les échantillons

La médiane permet de ne pas tenir compte des valeurs extrèmes des différences


Sample 1 Sample 2

Log

(inte

nsity

)

Sample 1

Peptide 1

Peptide 5

Peptide 4

Peptide 3

Peptide 2

Sample 2

Normalisation

Protéines majoritaires dans l'échantillon, saturation de la réponse

Mediane : correcte pour l'ensemble des protéines, incorrecte pour les majoritairesPourcentages : les protéines majoritaires comptent plus que les moins abondantes (rapport > 1/1000) : moins bonne normalisation pour la plupart des protéines


Sample 1Sample 2

Log

(inte

nsity

)

Sample 1

Peptide 1

Peptide 5

Peptide 4

Peptide 3

Peptide 2

Sample 2Faible intensité, des peptides sont

manquants

Normalisation

Cas extrême : les peptides communs présentent de fortes différences

Normalisation :médiane des différences

Normalisation OK ?

Sample 1Sample 2

Log

(inte

nsity

)

Sample 1

Peptide 1

Peptide 5

Peptide 4

Peptide 3

Peptide 2

Normalisation

Que donnerait une normalisation par les pourcentages ?

Normalisation :pourcentages

Normalisation OK ?

= 1 %

= 0,8 %

= 0,5 %

= 0,3 %

= 0,1 %

= 3 %= 2 %

= 1 %

% in

tens

itéSample 2

Faible intensité, des peptides sont manquants

Sample 1Sample 2

Log

(inte

nsity

)

Sample 1

Peptide 1

Peptide 5

Peptide 4

Peptide 3

Peptide 2

Normalisation

Problème de la représentativité des peptides communs

Normalisation :médiane des différences

Ex : sample2 contient des protéines d'une autre espèce :La méthode des médianes permet de bien normaliser les communs mais ne rend pas compte de la proportion réelle des protéines dans les échantillonsLa méthode des % rendra bien compte de la chute en proportion des protéines communes.

La plupart des non communs sont en quantité supérieure

Sample 2Faible intensité, des peptides sont

manquants

Inte

nsi

ty r

atio

(lo

g10

)

RT

Normalisation

Normalisation en fonction du RT

Tient compte des variations affectant l’intensité de l’ensemble des peptides au cours de la LC.

Normalisation

Méthode des médianes

+ : facteur de normalisation calculé à partir de milliers de mesures différentes

+ : chaque rapport est précisément le rapport entre les intensités des 2 mêmes peptiz

+ : chaque peptide commun à la ref pèse le même poids dans le calcul du facteur de normalisation

- : représentativité des peptides commun ?

Méthode des pourcentages

+ : simplicité

+/- : pas d'échantillonnage : tous les peptides sont pris en compte, aussi bien communs que spécifiques

- : les protéines abondantes comptent plus que les autres dans le calcul

Variations quantitatives et qualitatives

Analyse quantitative : traitement 4 ignorétraitement 3 éliminé : trop de données manquantes

Peptide counting : semi-quantitatif sur toutes protéines : permet de repérer ce type de variation.Pas de sélection des peptides répétables.

Continuum entre variation qualitative (présence/absence) et quantitative(sauf cas de peptide ou protéine spécifique : mutant, ou variation allélique de la séquence du peptide)

Traitement 1 Traitement 2 Traitement 4

Inte

nsité

Traitement 3

Répétabilité des peptides

● Variations présence/absence déjà été prises en compte par peak counting

● Jeu de données complet nécessaire pour calculer la valeur des protéines

Minimiser le nombre de données manquantes Accepter par ex au maximum 10 % de données manquantes par peptide sur la totalité de l'expérience

Répétabilité des peptides pour les analyses quantitatives

Les peptides partagés

● Utiliser des modèles statistiques sophistiqués permettant de prendre en compte les peptides partagés et d'estimer leur contribution aux différentes protéines présentes dans l'échantillon (Blein-Nicolas et al 2012)

● Quantifier les protéines uniquement à partir de peptides protéotypiques, en utilisant les méthodes de type SRM

● Ne pas tenir compte des peptides partagés dans la quantification

Comment tenir compte des peptides partagés entre plusieurs protéines ?

Remarque : les peptides restant ne sont pas seulement des peptides protéotypiques :

Il peut rester des peptides communs● entre protéines d'un même sous-groupe ( = protéines indistinguables

sur la base des peptides identifiés)● avec des protéines non identifiées car représentées par un nombre

inférieur de peptides (sous-sous-groupes)

Fiabilité des peptides

Les peptides d'une même protéine peuvent avoir des comportements différents

● modifications post-traductionnelles● dégradation in vivo de la protéine ● peptides partagés avec protéines non identifiées● stabilité de l'analyse LC-MS/MS

Variation quantitative d'un peptide =

Variation de la protéine + variation individuelle du peptide

Pour s'assurer que c'est plutôt la quantité de la protéine qui est mesurée, quantifier une protéine avec au moins 2 peptides


Doit-on garder tous les peptides ?

Si les peptides mesurent bien la même chose (i.e. la protéine dont ils proviennent), leur variation doit être corrélée.

Traitement A Traitement B Traitement C Traitement D

Protéine

Peptides

log 10

(I)



Protéine

Peptides


Si les peptides mesurent bien la même chose (i.e. la protéine dont ils proviennent), leur variation doit être corrélée.

log 10

(I)



Protéine

Peptides


Si les peptides mesurent bien la même chose (i.e. la protéine dont ils proviennent), leur variation doit être corrélée.Les peptides qui ne sont pas corrélés aux autres mesurent donc autre chose que la protéine (leur variation biologique propre, ou des variations techniques). Les éliminer.

log 10

(I)

Fiabilité des peptides : sélection des peptides corrélés entre eux

Pointillés : peptides non corrélés, supprimés de l'analyse


Aucun peptide corrélé : protéine supprimée


Pas de variation biologique : reste la variation technique aléatoire : peptides non corrélés, protéine suppriméeLa méthode tend à pré-sélectionner les protéines significatives


Tous peptides conservésRemarque : présence de données manquantes

A CB

Femtomoles (log scale)

All peptidesMYG_HUMAN_UPS1 MYG_HUMAN_UPS1MYG_HUMAN_UPS1

Correlated peptides Computed protein value

log1

0(in

tens

ity)


Exemple : Gamme de concentration pour une protéine de UPS1 dans lysat de levure en concentration constante. Elimination des peptides non reproductibles et non corrélés entre eux.

Calcul de la quantité relative de protéine

● Modéliser l'effet peptide dans des analyses de variance après retrait des peptides partagés

● IBAQ : somme de tous les peptides quantifiés, normalisés par le nombre de peptides théoriquement observables

● Moyenne des intensités de tous les peptides quantifiés● Top3 : somme des 3 peptides les plus intenses

Top3 serait meilleure que IBAQ et Moyenne (Ahrné et al 2013, Proteomics 13, 2567–2578)

De façon générale le problème des données manquantes n'est pas abordé dans ces méthodes.

Ex : Top3 : que doit-on faire quand l'un des 3 peptides est manquant ?

Méthodes de calcul de la quantité de protéine à partir des intensités des peptides

Moyenne ou somme ?

En termes de statistiques, le résultat sur la moyenne ou sur la somme sera le même, sauf s'il y a des données manquantes


moyenne


somme


Traitement A

Traitement B

Traitement C

Traitement D

somme

moyenne

Traitement A

Traitement B

Traitement C

Traitement D

somme

moyenne

Somme et moyenne ne « répondent » pas de la même façon aux données manquantes.La somme est plus « logique » dans le cas où la valeur manquante peut être interprétée comme une valeur faible.

Les deux méthodes donnent plus de poids aux variations des peptides les plus intenses.

Pour éviter les variations brutales provoquées par les données manquantes, imputations.

Données manquantes

Imputation sur les peptides

On peut se servir des autres peptides de la même protéine pour prédire la valeur que « devrait prendre » le peptide s'il avait été détecté (régressions)

Introduction de données calculées : biais pour les analyses statistiques. On compense en ajoutant du bruit dans la prédiction.

Limiter au maximum le nombre de données imputées (ex : 5%).

Valeur prédite pour le peptide rouge

On calcule la valeur protéine par somme des intensités des peptides.

Pour les analyses statistiques on repasse ensuite aux logs :q=log10(I

pep1+I

pep2+...)

Calcul de la quantité relative de protéinear

ea

log 10

(are

a)

La somme est calculée sur les intensités non transformées : les variations des peptides les plus intenses ont plus d'influence que celles des peptides les moins intenses

Les analyses globales (ACP, clusters,...) ont besoin de tableaux complets.

Hypothèse : la protéine est en faible quantité, tous ses peptides sont sous le seuil de détection.

Imputation par une valeur faible (la plus faible valeur mesurée pour la protéine dans l'expérience)

Sample1 Sample 2 Sample 3 Sample 4

protéine protéine

Données manquantes dans les quantités de protéine calculées

Sample1 Sample 2 Sample 3 Sample 4

Si aucun autre peptide de la protéine n'est présent dans un échantillon, pas d'imputation au niveau des peptides : donnée manquante pour la protéine

Analyse statistique des données de protéomique quantitativepappso.inra.fr/downloads/2016_11_formation_PAPPSO/cours...Vérification de la qualité des données Contrôle qualité

Documents