-
1
Le temps dans les analysesquantitatives de donnéesPrésentation
pour le cours SOL6210, Analyse
quantitative avancée
© Claire Durand, 2018
2
PTous les processus, accès à la jeunessecomme à l’âge adulte,
modification desfonctions assumées, des perceptions, etc.,se
déroulent dans le temps.
P Il est donc primordial et fort pertinent d’entenir compte dans
les analyses
PPrincipe fondamental: Le changements’explique par le
changement
Le temps ... en soi
3
PLorsque l’on travaille avec le temps, il faut< Décider du
“groupe à risque”, et par conséquent,
de la “période à risque”.< Donc, non seulement auprès de qui
on recueille
les données mais à partir de quand et jusqu’àquand et... portant
sur quelle période (donnéesrétrospectives)
Définir, recueillir, décider (1)Les décisions à prendre
© Claire Durand, 11/15/2018, 1
-
4
PPlusieurs types de données:< Données de type panel: les
mêmes personnes
interrogées à plusieurs reprises– Sur leur situation avant
l’entrevue– Sur leur situation au moment de l’entrevue– Sur leur
situation entre les moments d’entrevue
< Données de type longitudinal comprenantplusieurs
échantillons– Qui peuvent avoir été recueillis indépendamment
(plusieurs sondages auprès d’échantillons différentsmais
certaines questions identiques)
– Qui peuvent être recueillies sous forme de sondageroulant
(rolling cross-section): on met sur le terrain unnouveau
sous-échantillon à chaque jour (pendant unecampagne électorale par
exemple).
Définir, recueillir, décider (2)Les types de données
5
< Données de type archive– Statistiques institutionnelles, –
Données économiques, taux de chômage, évolution du
PIB, des salaires, etc.– Données sur les taux de criminalité, de
mortalité, etc.
Définir, recueillir, décider (2)Les types de données (suite)
6
PDonnées manquantes à certains moments,censure et troncature<
Personnes qui disparaissent, absence d’informations
pour certaines unités à certains moments: il fautconnaître les
raisons de l’absence de données ets’assurer que cette absence est
aléatoire, que ça nebiaise pas les analyses
PDépendance des données dans le temps,autocorrélation< Ce qui
fait que le postulat de base des analyses de
régression ordinaire n’est pas respecté à sa facemême. Ceci
biaise l’estimation de la variance.
Les problèmes associésDeux problèmes principaux
© Claire Durand, 11/15/2018, 2
-
7
P Graphique des transitions (...) (DeGenne, LeBourdais,Renaud,
etc. pour exemples)
P Tapis (ex: Degenne (site du CIQSS): description del’évolution
de la situation des finissants)
P Tables de survie (Renaud, Durand,etc.)P Graphiques de séries
chronologiques (Durand,
Larochelle et Blais, 2005; Durand, 2008, 2011)P Régressions
locales (Durand, à partir de 2014).P Classifications de
trajectoires (Durand et Lacourse;
Durand, Pelletier, Wutchiett)
Que faire? (1)D’abord et avant tout décrire...Visualiser aide à
se
représenter la situation. A cette étape, on peutrepérer des
problèmes
8
Activité post d.u.t (2 ans) De Genne (2003)
Rose = CDD; Rouge = CDI; Violet = alternance; Bleu = intérim;
Orange = stage; Jaune = Service national;Noir = chômage; Blanc =
autre situation;
Vert = études ; Cyan = non réponse ou inactivité
9
PQuel est, quels sont, les événementsd’intérêt?
PQu’est-ce qui donne la mesure du temps?(jours, mois, années,
essais)
PLe temps est-il discret ou continu?PLes événements qui
prédisent ou expliquent
la variable dépendante se modifient-ils dansle temps?
PQuelle est la forme de l’évolution dans letemps?
Que faire (2)Quelques décisions importantes
© Claire Durand, 11/15/2018, 3
-
10
PTables de survie et régressions de survie< S’utilisent quand
on a des informations sur un
événement d’intérêt qui survient à un moment donné;on
s’intéresse à ce qui explique la rapidité detransition à l’état
d’intérêt
< Exemple: – Qu’est-ce qui explique la rapidité avec laquelle
un immigrant
se trouve un travail en arrivant dans un pays? A peu prèstous
les immigrants finissent par se trouver un travail (d’oùpeu
d’intérêt à la régression logistique); ce qui nousintéresse donc,
c’est la rapidité d’accession. On peut aussise poser la question de
la rapidité d’accession à un travail detel type, dans telle langue,
etc.
Que faire? (3)Multiples analyses disponibles selon la
situation
11
Table de survie Renaud (1992)
12
Régression de survie, prédicteursrapidité d’accès à un
emploi
Renaud(1992)(voir suite p. Suivante)
© Claire Durand, 11/15/2018, 4
-
13
Suite du tableau précédent (3èmecolonne)
14
P Séries chronologiques simples ou croisées< Les données sont
des informations habituellement
agrégées pour tous les moments de mesure . S’ilmanque des
données à un moment, il y a desprocédures pour “intrapoler”.
< On peut voir si une série est influencée par desévénements
qui surviennent ou par d’autres sériesd’événements, si les séries
se distinguent d’une unité --pays, etc.-- à une autre
< Exemple: suite des taux de chômage pour chaquemois, suite
des sondages pendant une campagneélectorale, suite de taux de
chômage et de tauxd’inflation (relation entre les deux?), suite de
taux devols dans les résidences, etc.
Que faire? (4)Multiples analyses disponibles selon la
situation
15
Évolution de l’intention de vote (Canada2011 au Québec),
sondages publiés
Séries chronologiques
© Claire Durand, 11/15/2018, 5
-
16
Évolution de l’intention de voteRéférendum Écosse 2014
après répartition non proportionnelle des discrets
17
Évolution de l’intention de vote pourQuébec Solidaire, selon
l’âge
18
Évolution de l’intention de vote pour laCoalition Avenir Québec,
selon l’âge
© Claire Durand, 11/15/2018, 6
-
19
Une vue synthétique de l’évolution dela confiance
institutionnelle par
région du monde.
• En moyenne, la confiance est stable• Plus élevée en Asie et en
Afrique qu’en Amérique latine.• A diminué beaucoup depuis 2011 en
Afrique du Nord &
Asie de l’Ouest.
20
Confiance dans lesinstitutions politiques.
• Trust lower inSouth/CentralAmerica &WANA.
• Political parties,lowest in South/CentralAmerica
&WANA.
• Drop in trust ingvt in WANA, inState/President inAsia.
21
P Analyses multi-niveaux longitudinales< Dans ce cas, le
temps est considéré comme un niveau: les
diverses mesures prises sont “nichées” dans les individus
quipeuvent eux-mêmes être nichés dans des unités (classes,équipes
de travail, familles,...).
< L’intérêt est la flexibilité de la méthode, entre autres
parcequ’il n’est pas obligatoire d’avoir des mesures à chaquemoment
et au même moment pour tous les sujets.
< Il faut que le niveau supérieur (2 ou 3) soit un
échantillon (n>40).
< Exemple: évolution de l’emploi durant un certain
temps,évolution de la confiance institutionnelle dans le temps
pourun certain nombre de pays (échantillon de pays ou
depériodes).
Que faire? (5)Multiples analyses disponibles selon la
situation
© Claire Durand, 11/15/2018, 7
-
22
Modèle multiniveaux longitudinal
P Le temps peut être au niveau 1, par exemple, personnes(niveau
2) avec mesures prises à divers moments (niveau 1)
poll 1, p2, p3 p1 p2 p1 p2 …..etc.
time t2
t3
t4
etc. Level 2 Level 1
poll 1, p2, p3
time t2
t3
t4
etc. Level 2 Level 1
time t2
t3
t4
etc. Level 2 Level 1
Pers1 Pers2
Pers3
Pers4
etc. Level 2 Level 1
T1 t2 t3 t1 t2 t1 t3
Le temps peut être au niveau 2, par exemple, mois(niveau 2) avec
résultats de sondages faits à chaquemois (niveau 1)
23
Évolution de la confianceinstitutionnelle
24
Focus sur les niveaux 2 & 3• Individual level:
‚ Sex is not significant‚ Compared to middle age:
• being less than 30: +.009;• being 60+: +.094 .
‚ Prop. Non-response:+.003.
• Niveau pays-année: ‚ Le temps au carré est
significatif.• Variance explained:
minimal
© Claire Durand, 11/15/2018, 8
-
25
PAnalyse des trajectoires< Il s’agit de faire une
classification des trajectoires
individuelles pour en arriver à des regroupementsde
parcours.
< Méthode en développement, relativement récentemais en voie
d’être intégrée dans les principauxlogiciels.
< Exemple: Les trajectoires de délinquance entrel’âge de 5
ans et 18 ans, au moyen de mesuressimilaires prises à divers
moments durant cettepériode.
< Problème: prédire le passé avec le futur.
Que faire? (6)Multiples analyses disponibles selon la
situation
26
Analyses de trajectoires,avant et après formation, avec
groupe contrôle (bleu)
Trajectoires deperformance (NCPI)des interviewers. Groupe rouge:
bonneperformance, nonformésGroupe bleu: faibleperformance,
nonformésGroupe gris: faibleperformance, formés
27
Analyse de trajectoires demesures
L’évolution de certaines mesures dans le
temps:http://www.mapageweb.umontreal.ca/durandc/Reche
rche/Publications/confiance/WAPOR2018_CD.pdf
© Claire Durand, 11/15/2018, 9
-
28
PAnalyse de variance pour mesures répétées< Analyse
relativement traditionnelle en psychologie.
D’une certaine manière, c’est la base.< L’idée est de faire
une intervention et de mesurer la
variable dépendante à divers moments fixés pouranalyser
l’évolution entre les moments.
< Exemple : – Mesure de la dépression à divers moments durant
un
processus thérapeutique, évolution de la performance
enmathématique avant et après une intervention deremédiation,
etc.
< Problème: On ne peut garder que les cas pourlesquels on a
de l’information à tous les temps demesure.
Que faire? (7)Multiples analyses disponibles selon la
situation
29
PPour la plupart des analyses, il est très importantde se
demander quelle forme prend l’évolutiondans le temps en soi ou
suite à un événement(voir Effet “Bouchard” pendant la
campagneréférendaire de 1995 au Québec, Durand, 2008)
PL’évolution peut être simplement linéaire mais ellepeut aussi
être quadratique en “U”, cubique (enforme de dos de poisson),
...
PL’effet d’un événement peut être de provoquer unsaut. Il peut
aussi provoquer une modification del’évolution: accélération,
plafonnement, etc.
Quelle forme prend l’évolutiondans le temps?
30
PPour toutes ces procédures, plus ou moinsfacilement selon les
logiciels utilisés, lesvariables indépendantes et
dépendantespeuvent être de différents types.
PLes variables indépendantes peuvent êtrefixes ou varier dans le
temps.
PPour toutes ces procédures, les variablesindépendantes peuvent
être entréesensemble (régression standard) ou de façonhiérarchique/
séquencielle.
Les types d’analyses de prédictionTypes de variables et modes
d’entrée
© Claire Durand, 11/15/2018, 10
-
31
PLe choix de l’analyse dépend de plusieursfacteurs, dont la
question de recherche, letype de données, les finalités de
l’analyse.
PLa plupart du temps, le choix du typed’analyse est évident.
Dans certains cas,plusieurs analyses sont possibles.
Desinformations différentes seront mises enévidence selon le type
d’analyse mais lesconclusions statistiques seront
rarementdifférentes.
Avantages et inconvénientsQuel type d’analyse choisir?
32
PDans les analyses de ce type, il est souventnécessaire de faire
des interventions sur lesfichiers< Pour les analyses de survie
(tables, régressions de survie),
il faut “rectangulariser” le fichier (voir procédure
restructurerde SPSS) (voir travail sur les
fichiershttp://www.mapageweb.umontreal.ca/durandc/menuMethodesQuantitatives.html#travail_fichier).
< Il faut parfois créer des variables qui indiquent le
momentoù un événement survient.
< Pour les analyses multi-niveaux avec HLM, il faut faire
unfichier par niveau (procédures Agréger ou Restructurerdans
SPSS)
Avantages et inconvénientsInterventions sur les données
33
P Le logiciel STATA est probablement le plusapproprié pour les
régressions de survie mais SPSSréussit généralement à faire la même
chose. Stata ades modèles de risques simultanés (competingrisks):
équivalent à logistique multinomiale de survie.
PPour les analyses multi-niveaux, les logicielsspécifiques sont
HLM, MLWin, et dans une moindremesure Lisrel, Stata, SPSS, SAS, M+
et R.
P Le transfert de bases de données d’un logiciel à unautre est
habituellement facile. Les logicielsspécifiques lisent les fichiers
de SPSS, STATA, R ouSAS.
Choix des logiciels
© Claire Durand, 11/15/2018, 11
-
34
PAu départ, il peut être plus difficile detravailler sur les
fichiers pour pouvoir faire lesanalyses appropriées, MAIS
PLe jeu en vaut la chandelle. Une fois la basede données créée,
tout devient nettementplus simple.
PNe pas oublier que la première étape est dedécrire...
Conclusion
© Claire Durand, 11/15/2018, 12