1 Analyse factorielle confirmatoire, Analyse factorielle confirmatoire, Modèle de causalité (Path analysis) et Modèle de causalité (Path analysis) et Modélisation d’équations structurelles Modélisation d’équations structurelles sur variables latentes sur variables latentes Michel Tenenhaus Michel Tenenhaus [email protected][email protected]
116
Embed
1 Analyse factorielle confirmatoire, Modèle de causalité (Path analysis) et Modélisation déquations structurelles sur variables latentes Michel Tenenhaus.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
Analyse factorielle confirmatoire,Analyse factorielle confirmatoire,Modèle de causalité (Path analysis) et Modèle de causalité (Path analysis) et
Les données sont les covariances entre les variables manifestes :
( , ) ( , )* ( ) * ( )i j i j i jCov X X Cor X X Var X Var X
8
Le 1er modèle spécifié par Long
XSI1
PSY67
D1
L11
1
PHY67
D2
L21
1
XSI2
PSY71
D3
L32
1
PHY71
D4
L42
1
phi12
theta13 theta24
Variablesmanifeste
Variableslatentes
Résidus
phi11 phi22
theta11 theta22 theta33 theta44
9
Étude du 1er modèle spécifié
Les 13 paramètres du modèle 11, 21, 12, 22
11 = Var(1) , 22 = Var(2) ,
12 = Cov(1, 2)
11 = Var(1) , 22 = Var(2) ,
33 = Var(3) , 44 = Var(4)
13 = Cov(1, 3) , 24 = Cov(2, 4)
Covariances sur la population PSY67 PHY67 PSY71 PSY71
PSY67PHY67PSY71PHY71
11
12
22
13
23
33
14
24
34
44
Matrice
Modèle identifiable
Les paramètres () du modèle peuvents’exprimer de manière unique enfonction de la matrice des covariancesvérifiant le modèle :
C.N. : Nb de paramètres q(q+1)/2.
1 2 1 2( ) ( )
Les équations factorielles PSY67 = 11 1 + 1
PHY67 = 21 1 + 2
PSY71 = 12 2 + 3
PHY71 = 22 2 + 4
avec ( ) 0i jE
10
Modèle identifiable
Espace des paramètresadmissibles
()
Espace de tous les possibles
Espace des () suivant le modèle
Si 1 2 , (1) (2)
11
Étude du 1er modèle spécifié
Les paramètres du modèle 11, 21, 12, 22
11 = Var(1) , 22 = Var(2) ,
12 = Cov(1, 2)
11 = Var(1) , 22 = Var(2) ,
33 = Var(3) , 44 = Var(4)
13 = Cov(1, 3) , 24 = Cov(2, 4)
Les équations factorielles
1 11 1
2 21 1 2
3 12 2 3
4 22 4
0
0
0
0
x
xx
x
x
11 12
21 22
( ')E
11 13
22 24
13 33
24 44
0 0
0 0( ')
0 0
0 0
E
( ') ( )( ) '
( ') ' ( ')
'
E xx E
E E
Décomposition de la covariance
12
2e modèle de Long (identifiable)
Normalisation des variables latentes
Var(1) = 11 = 1 , Var(2) = 22 = 1
Stabilité des saturations au cours du temps
PSY67,1 = PSY71,2
PHY67,1 = PHY71,2
Indépendance entre les résidus
13 = Cov(1, 3) = 0
24 = Cov(2, 4) = 0
13
Le 2e modèle (identifiable) spécifié par Long
Le nombre de paramètres (7) est inférieur au nombres devariances et covariances (10) : Nombre de degrés de liberté = 3.
1
XSI1
PSY67
theta11
D1
L11
1
PHY67
theta22
D2
L21
1
1
XSI2
PSY71
theta33
D3
L11
1
PHY71
theta44
D4
L21
1
phi12
14
Étude du 2e modèle spécifié
Les paramètres du modèle 11, 21
12 = Cov(1, 2)
11 = Var(1) , 22 = Var(2) ,
33 = Var(3) , 44 = Var(4)
Les équations factorielles
1 11 1
2 21 1 2
3 11 2 3
4 21 4
0
0
0
0
x
xx
x
x
12
12
1( ')
1E
11
22
33
44
0 0 0
0 0 0( ')
0 0 0
0 0 0
E
( ') ( )( ) '
( ') ' ( ')
'
E xx E
E E
Décomposition de la covariance
15
Calcul de la matrice des covariances théoriques (modèle 2)
Les équations factorielles PSY67 = 1 1 + 1
PHY67 = 2 1 + 2
PSY71 = 1 2 + 3
PHY71 = 2 2 + 4
Les covariances
PSY67 PHY67 PSY71 PSY71PSY67PHY67PSY71PHY71
11
12
22
13
23
33
14
24
34
44
Les 7 paramètres du modèle 1, 2, Var(h) = 1, 12 = Cov(1, 2), i = Var(i)
2 211 12 13 14 11 1 2 12 1 12 1 2
2 222 23 24 22 12 1 2 12 2
233 34 31 1 2
244 42
0 0 0
0 0
0
Modèle identifiable : les paramètress’expriment de manière uniqueen fonction des covariances.C.S.: 1 bloc 3 VM 2 blocs et + 2 VM par bloc
16
Estimation et validation du modèle
Notations
- q = Nombre de variables manifestes- n = Nombre d’observations (règle courante : n > 10*(nb de paramètres))- = Matrice des covariances au niveau de la population- S = Matrice des covariances observées- C = Matrice des covariances calculées à l’aide du modèle
Maximum de vraisemblance
En supposant les données multinormales le maximum de vraisemblance
conduit à rechercher les paramètres du modèle minimisant la fonction
- Si le modèle étudié est exact : Chi-Square = CMIN = (n-1)FMIN 2(dlM)- dlM = Nb de covariances - Nb de paramètres du modèle M- Modèle accepté si p-value 0.05 ou bien si Chi-Square/dlM 2 à 5- Modèle accepté si RMSEA 0.05 , toléré jusqu’à 0.08
Augmente avec n !!!
Dépend très peu de n
17
Estimation du modèle
Espace des paramètresadmissibles
()
Espace de tous les possibles
Espace des () suivant le modèle
S
C2 = CMIN=(n-1)FMIN
18
Résultats des estimations des paramètres avec AMOS
Modèle 2 de LONG
Chi-Square = 22.574DF = 3
P-Value = .000Chi-Square/df = 7.525
1.00
XSI1
PSY67
.52
D1
1.24
1
PHY67
.22
D2
.30
1
1.00
XSI2
PSY71
.40
D3
1.24
1
PHY71
.16
D4
.30
1
.67
RMSEA = .104 p-value = .010
2 2
2 2
2
2
.52 0 0 01.24 1.24*.30 .67*1.24 .67*1.24*.30
.22 0 0.30 .67*1.24*.30 .67*.30
.40 01.24 1.24*.30
.16.30
C
19
Matrice des covariances et des corrélations observées et reconstituées à
RMSEA LO 90 HI 90 PCLOSE---------- ---------- ---------- ---------- 0.104 0.067 0.146 0.010
L’hypothèse H0 : RMSEA 0.05 est rejetée puisque :
(1) l’intervalle de confiance du RMSEA est au-dessus de
0.05,
(2) Niveau de signification du test = 0.0108 = « Proba. (H0
vraie) »
Le modèle 2 n’est pas accepté.
Conclusion
31
Le modèle saturé :Ce modèle contient autant de paramètres que de données : [q(q+1)/2].
Ce modèle présente 0 degré de liberté.
[Il reconstitue parfaitement la matrice des covariances : FMIN=0]
Le modèle correspondant à l’indépendance entre les VM :Toutes les variables manifestes sont indépendantes entre elles. Les seuls paramètres à estimer sont les variances des VM.
Ce modèle présente le nombre maximum de degrés de liberté.
[C’est le modèle avec le plus de contraintes possibles]
Deux modèles extrêmes
32
Indices de Validation basés sur la comparaison au modèle de l’indépendance :
Bentler Comparative Fit Index (CFI)
CFI compare le modèle étudié au modèle correspondant au cas de l’indépendence entre les variables manifestes :
( ,0)1
( ,0)M M
IND IND
Max CMIN dlCFI
Max CMIN dl
Le modèle est accepté si CFI 0.9
33
Bentler-Bonnet Non-Normed Fit Index (NNFI)équivalent au Tucker-Lewis Index (TLI)
11
IND M
IND M
IND
IND
F F
dl dlNNFI TLI
F
dl n
Le modèle est accepté si :NNFI 0.9 ou même 0.95
34
Goodness-of-Fit Index (GFI)Adjusted Goodness-of-Fit Index (AGFI)
Le modèle est accepté si :
GFI et AGFI 0.9
1 M
IND
FGFI
F
1 1 IND
M
dlAGFI GFI
dl
35
Root Mean Square Residual (RMR)
2
1 1
2ˆ( )
( 1)
q j i
ij iji j
RMR sq q
Standardized RMR
2
1 1
2ˆStandardized RMR ( )
( 1)
q j i
ij iji j
r rq q
à comparer à .10.
36
Akaike Information Criterion (AIC) calculé dans AMOS
2 2(Nb de paramètres du modèle)MAIC
ECVI
1( )ECVI AIC
n
37
Amélioration du modèleUtilisation des indices de modification
Les indices de modification mesurent la diminution du khi-deuxobtenue en ajoutant une flèche (simple ou double) sur leschéma fléché.
On peut aussi estimer chaque facteur du premier ordre comme
combinaison linéaire de ses variables manifestes :
- en prenant le fragment du facteur de 2e ordre XSI correspondant
à chaque bloc (style AFM),
- par régression du facteur du second ordre XSI sur chaque bloc
(style ACG ou Mode B de l’approche PLS),
- par régression PLS de XSI sur chaque bloc (chaque variable
manifeste est pondérée par sa covariance avec XSI).
45
III. Autres méthodes d’estimation
Generalized Least Squares (GLS) *
Fonction minimisée : F = 0.5*||I - S-1C||2
Asymptotically distribution-free (ADF) *
Fonction minimisée :
ijkl ij ij kl klijkl
F u (s c )(s c )
‘ Scale free ’ Least Squares (SLS)
Fonction minimisée : F = 0.5*||{diag(S)}-1(S - C)||2
* Chi-Square = (n-1)F 2(ddl) si le modèle étudié est exact.
Unweighted Least Squares (ULS)
Fonction minimisée : F = 0.5*||S – C||2
46
IV. Les modèles de causalité (Path models)
X1
X2
Y1
Y2
D1
D2
1
1
Modèle récursif
X1
X2
Y1
Y2
D1
D2
1
1
Modèle non récursif
- Erreurs non corrélées- Pas de boucles
Récursif vs non récursif
47
Modèles de causalité (Path models)
X1
X2
Y1
Y2
D1
D2
1
1
Modèle partiellement récursif
X1
X2
Y1
Y2
D1
D2
1
1
Modèle non récursif
- Bow-Free pattern- Considéré comme récursif
- Bow pattern- Considéré comme non récursif
Récursif vs non récursif
48
Modèles identifiables
• Les modèles récursifs sont identifiables.
• Les conditions pour qu’un modèle non récursif soit identifiable sont complexes : voir Kline chapitre 9.
49
Un exemple de modèle de causalité
Variables observées sur 240 individus :
- Commitment- Satisfaction- Rewards- Costs- Investment size- Alternative value
Engagement sentimental d’une personne avec son
partenaire
- C. E. Rusbult : Commitment and satisfaction in romantic associations: A test of the investment model. Journal of Experimental Social Psychology, 1980- L. Hatcher : A step-by-step approach to using the SAS system for factor analysis and structural equation modeling. SAS Institute, 1994
50
Description des variables
• Commitment : the subject’s intention to maintain a current romantic relationship
• Satisfaction : the subject’s emotional response to the current relationship
• Investment size : the amount of time and effort that the subject has put into the current relationship
• Alternative value : perceived attractiveness of the subject’s alternatives to the current relationship
• Rewards : the subject’s perceptions of the number of good things associated with the current relationship
• Costs : the subject’s perceptions of the number of bad things associated with the current relationship
Utilisation du Bootstrap sur des données individuelles
et sur des données résumées par leurs moyennes
et leur matrice de variances/covariances
Les paramètres du modèle peuvent être validés en utilisant le Bootstrap :
- Sur des données individuelles sans hypothèse de loi de probabilité
- Sur des données résumées par leurs moyennes et leur matrice de variances/covariances en supposant des distributions multinormales avec les moyennes et variances/covariances observées sur les données étudiées.
AMOS génère N vecteurs des moyennes et N matrices de
variances/covariances : parametric bootstrap.
69
Résultats du parametric bootstrap
70
V. Modélisation de relations de causalité
sur variables latentes (SEM)
Des blocs de variables manifestes sont observées sur 240 individus pour décrire les variables latentes suivantes :
- Commitment- Satisfaction- Rewards- Costs- Investment size- Alternative value
Engagement sentimental d’une personne avec son
partenaire
71
Exemple de blocs
Investment Size
Please rate each of the following items to indicate the extent to whichyou agree or disagree with each statement. Use a response scale inwhich 1 = Strongly Disagree and 7 = Strongly Agree.
1. I have invested a great deal of time in my current relationship.
2. I have invested a great deal of energy in my current relationship.
3. I have invested a lot of my personal resources (e.g., money) in
developing my current relationship.
4. My partner and I have developed a lot of mutual friends which
I might lose if we were to break up.
72
Exemple de blocs
Satisfaction
1. I am satisfied with my current relationship.
2. My current relationship comes close to my ideal relationship.
3. I am more satisfied with my relationship than is the average
person.
4. I feel good about my current relationship.
73
Exemple de blocs
Alternative value
1. There are plenty of other attractive people around for me
to date if I were to break up with my current partner.
2. It would be attractive for me to break up with my current
partner and date someone else.
3. It would be attractive for me to break up with my partner and
“play the field” for a while.
74
1
Commitment
v1
e1
1
v2
e2
1
v3
e3
1
v4
e4
1
1
Rewards
v8
e81
v9
e9
v10
e10
1
1
Satisfaction
v5
e51
v6
e6
v7
e7
1
Costs
v11
e111
v12
e121
v13
e131
1
1
Investments
v14
e141
v15
e15
v16
e161
1
Alternatives
v17
e17
1
v18
e18
1
v19
e19
1
1
1
1
Validation del’outil de mesurepar Analyse Factorielle Confirmatoire
Variances desvariables latentesfixées à 1
75
Validation de l’uni-dimensionalité d’un bloc
Validité convergente
La corrélation entre chaque variable manifeste etsa variable latente doit être supérieure à 0.7 envaleur absolue
76
Validation de l’uni-dimensionalité d’un bloc
j j j
2j j j
X
et
Var(X ) Var( ) Var( )
AVE (Average Variance Explained)
De
et Var() = 1, on déduit :
2j
j
AVEVar(X )
Règle : AVE > 50%
77
Validation de l’uni-dimensionalité d’un bloc
j j j
j j j
X
et
X
Indice de concordance (Composite Reliability)
De
et Var() = 1, on déduit :
2 2j j
2j j j
( ) ( )IC
Var( X ) ( ) Var( )
Pour interpréter cet indice, il faut supposer tous les j > 0.
Règle : IC > .70
78
Regression Weights: (Group number 1 - Default model)
Tous les indices demodification entrevariables latentessont maintenantinférieurs à 4
88
Utilisation du Bootstrap pour testerles paramètres du modèles
.
Image
Perceivedvalue
CustomerExpectation
Perceivedquality
Loyalty
Customersatisfaction
Complaints
Modèle de causalité décrivant les causes et les conséquencesde la satisfaction client
Modèle complet en bleu et rouge,modèle simplifié en rouge
89
a) Expectations for the overall quality of“your mobil phone provider” at themoment you became customerof this provider.
b) Expectations for “your mobile phoneprovider” to provide products andservices to meet your personal need.
c) How often did you expect that thingscould go wrong at “your mobile phoneprovider” ?
L’outil de mesure pour l’industrie de la téléphonie mobile : Exemples de variables latentes et manifestes
Customer expectation Customer satisfaction
a) Overall satisfaction
b) Fulfilment of expectations
c) How well do you think “ your mobile phone provider” compares with your ideal mobil phone provider ?
90
L’outil de mesure pour l’industrie de la téléphonie mobile : Exemples de variables latentes et manifestes
Customer loyaltya) If you would need to choose a new mobile phone provider how likely is it that you would choose “your provider” again ?
b) Let us now suppose that other mobile phone providers decide to lower fees and prices, but “your mobile phone provider” stays at the same level as today. At which level of difference (in %) would you choose another phone provider ?
c) If a friend or colleague asks you for advice, how likely is it that you would recommend “your mobile phone provider” ?
Et ainsi de suite pour les autres variables latentes ...
91
Étude du modèlecomplet avec AMOS
CUST_EXP
CE1
e1
1
1
CE2
e2
1
CE3
e3
1
PER_QUALI
PQ1
e4
1
1
PQ2
e51
PQ3
e61
PQ4
e7
1
PQ5
e8
1
PQ6
e9
1
PQ7
e10
PER_VALUE
PV2
e12
PV1
e11
CUS_SAT
CSI3 e15
CSI2 e14
CSI1 e13
CUST_ LOY
CL3
e18
CL2
e17
CL1
e16
d1
d2d3
d4
1
1
1
1
1 1
1
1
1
1IMAGE
ima3e211
ima2e201
ima1e191
ima4e221
ima5e231
1
1 Complaints
d5
1
d7
1
1
11
11 e241
COMPLAINTS
0.8
92
Étude du modèle complet avec AMOS
Computation of degrees of freedom
Number of distinct sample moments = 300 Number of distinct parameters to be estimated = 60 Degrees of freedom = 300 - 60 = 240
Iteration limit reached (1000 iterations)
Chi-square = 658.758 Degrees of freedom = 240 Probability level = 0.000
This solution is not admissible.
The following variable has negative variance. d3 (-2167.38)
93
Étude du modèle simplifié avec AMOS (Résultats sur les variables réduites)
Comparer le modèle sans contraintes (M1)et le modèle avec contraintes (M2)
Test sur le modèle sans contraintes M1 :
- Les covariances sont égales sur les 3 groupes.- Les variances des VL sont égales sur les 3 groupes.- Les coefficients de régression VM-VL sont égaux sur les 3 groupes.
Hypothèse H0
105
Comparaison de deux modèles emboités
Calcul du Khi-deux global
Population g
2Population g Population g( 1)gn F
Global pour G populations
12Global Global( ) ( )
G
g gg
n F
n G n G Fn
1
où G
gg
n n
106
Comparaison de deux modèles emboités
Statistique utilisée
2 2 2(Modèle 2) - (Modèle 1)Global Global
Nombre de degrés de liberté
dl (modèle) = Nb de covariances – Nb de paramètres du modèle
On rejette le modèle avec contraintes M2 (hypothèse H0)au profit du modèle sans contrainte M1 au risque de se tromper si
Application
2
2
2344.75 2243.21 101.54
( 2) ( 1) 545 495 50
p-value=Prob (50) 101.54 .0000228
dl M dl M
Rejet de H0
108
CONCLUSION
• Covariance-based SEM représente la principale demande en analyse des données des chercheurs en sciences « soft » : Marketing, Stratégie, Sciences politiques, Psychologie, Sociologie,…
• Cov-SEM, l’approche PLS et la régression PLS permettent de modéliser les liens de causalité entre blocs de variables.
• Cov-SEM est une méthode confirmatoire : elle permet de valider les hypothèses du chercheur.
109
Références
L. Hatcher : A step-by-step approach to using the SAS system for factor analysis and structural equation modeling,SAS Institute, 1994