POL1803: Analyse des techniques quantitatives Cours 4 Analyse bivariée et tableaux croisés
Feb 14, 2016
Question
Qui a voté pour le NPD au Québec lors de la dernière élection fédérale? Des souverainistes ou des fédéralistes?
D’abord, la théorie
Hypothèse:
– Énoncé au sujet d’une relation causale entre deux variables.
X Y
Cause Effet
Var. indép. Var. dép.
Variables
Variable indépendante:– Variable qui, dans une relation entre deux
variables ou dans un système de relations entre variables, est la variable explicative d’une autre.
Variable dépendante:– Variable qui, dans une relation entre deux
variables ou dans un système de relations entre variables, est la variable expliquée par une autre.
Hypothèses
Conditions Valeurséconomiques culturelles
Appui à la Vote poursouveraineté le PCC
Mode de Taux de scrutin
participation
Ensuite, l’empirie
Association statistique:
– Direction, force et forme du lien de dépendance statistique entre deux variables.
Association statistique
Direction
– Positive: lorsque des variables varient dans le même sens.Ex.: scolarité et participation électorale
– Négative: lorsque des variables varient en sens inverse.Ex.: scolarité et intolérance
Association statistique
Force
– Forte: lorsque la variation d’une variable est accompagnée par une importante variation de l’autre variable.
– Faible: lorsque la variation d’une variable n’est pas accompagnée par une importante variation de l’autre variable.
Association statistique
Forme
– Linéaire: lorsque la variation d’une variable est accompagnée d’une variation régulière (monotonique) de l’autre variable.
– Non-linéaire: lorsque la variation d’une variable est accompagnée d’une variation irrégulière de l’autre variable.
Le tableau croisé
Définition:
Technique pour représenter l’association statistique entre deux variables possédant un faible nombre de catégories.
Le tableau de fréquencesNombres de bonnes réponses
Fréquence Pourcentage
0-9 10 1
10-19 30 3
20-29 80 8
30-39 150 15
40-49 200 20
50-59 275 27,5
60-69 140 14
70-79 65 6,5
80-89 35 3,5
90-100 15 1,5
Total 1000 100
Le tableau croisé
Âge
Faible Élevé
Appui à la souv.
Élevé64
(80%)36
(30%)100
(50%)
Faible16
(20%)84
(70%)100
(50%)
80(100%)
120(100%)
200(100%)
Direction positive
Scolarité
Faible Élevée
Tolé-rance
Élevée36
(30%)64
(80%)100
(50%)
Faible84
(70%)16
(20%)100
(50%)
120(100%)
80(100%)
200 (100%)
Direction négative
Âge
Faible Élevé
Appui à la souv.
Élevé64
(80%)36
(30%)100
(50%)
Faible16
(20%)84
(70%)100
(50%)
80(100%)
120(100%)
200 (100%)
Force: trois cas de figure
Association nulle
Association positive parfaite
Association négative parfaite
L’association nulle
Définition:
– Il n’y a pas d’association statistique.
– La variation d’une variable n’est pas du tout accompagnée par une variation de l’autre variable.
– Connaître la valeur d’une observation sur une variable ne nous permet absolument pas de prédire la valeur de cette observation sur l’autre variable.
L’association nulle
Façons de la reconnaître:
1) La distribution de la variable dépendante est la même pour toutes les catégories de la variable indépendante.
2) Il y a égalité des pourcentages en colonne pour chacune des rangées.
L’association nulle: un exemple
Scolarité
Faible Élevée
Inform.polit.
Élevée90
(75%)60
(75%)150
(75%)
Faible30
(25%)20
(25%)50
(25%)
120(100%)
80(100%)
200 (100%)
L’association positive parfaite
Définition:
– Association positive la plus forte possible.
– La variation d’une variable est accompagnée par une variation identique de l’autre variable.
– Connaître la valeur d’une observation sur une variable nous permet de prédire parfaitement la valeur de cette observation sur l’autre variable.
L’association positive parfaite
Façons de la reconnaître:
1) Toutes les observations se trouvent sur une diagonale (axe SO-NE), alors que l’autre diagonale (axe NO-SE) est complètement vide.
2) Il y a divergence maximale (100%) des pourcentages en colonne pour chacune des rangées.
L’association positive parfaite: un exemple
Scolarité
Faible Élevée
Inform.politique
Élevée0
(0%)80
(100%)80
(40%)
Faible120
(100%)0
(0%)120
(60%)
120(100%)
80(100%)
200(100%)
L’association négative parfaite
Définition:
– Association négative la plus forte possible.
– La variation d’une variable est accompagnée par une variation identique de l’autre variable.
– Connaître la valeur d’une observation sur une variable nous permet de prédire parfaitement la valeur de cette observation sur l’autre variable.
L’association négative parfaite
Façons de la reconnaître:
1) Toutes les observations se trouvent sur une diagonale (axe NO-SE), alors que l’autre diagonale (axe SO-NE) est complètement vide.
2) Il y a divergence maximale (100%) des pourcentages en colonne pour chacune des rangées.
L’association négative parfaite: un exemple
Scolarité
Faible Élevée
Inform.politique
Élevée120
(100%)0
(0%)120
(60%)
Faible0
(0%)80
(100%)80
(40%)
120(100%)
80(100%)
200(100%)
Entre les cas de figure: la réalité
Façons d’évaluer la force d’une association non-nulle et non-parfaite:
1) L’ampleur des écarts entre les pourcentages en colonnes pour chacune des rangées.
2) Une mesure synthétique plus précise, le Gamma.
Le gamma (G ou )
Définition:
Mesure qui résume la direction et la force d’une association statistique dans un tableau croisé.
Calcul ... la semaine prochaine
Interprétation du gamma
L’échelle s’étend de -1 à +1.
0 signifie une association nulle.
Signe négatif signifie une ass. négative.
-1 signifie une ass. négative parfaite.
Signe positif signifie une ass. positive.
+1 signifie une ass. positive parfaite.
Interprétation du gamma
± ] 0 - 0,25 [ : Faible
± [ 0,25 - 0,50 [ : Moyenne
± [ 0,50 - 0,75 [ : Forte
± [ 0,75 - 1 [ : Très forte
Variables nominalesSexe
Femme Homme
Inform.politique
Élevée36
(30%)64
(80%)100
Faible84
(70%)16
(20%)100
120 80 200
Homme Information
Variables nominalesReligion
Autre Catholique
Vote fédéral
PLC36
(30%)64
(80%)100
Autre84
(70%)16
(20%)100
120 80 200
Catholique PLC
Variables nominales
Il faut tenir un discours en fonction de la catégorie de référence (celle qui se trouve dans la case élevée).
Exemple: il y a une association statistique positive entre le fait d’être catholique et le fait de voter pour le PLC.
Statistiques inférentielles
Est-ce que la relation entre les deux variables dans l’échantillon existe aussi dans la population?
Moyen:calculer la signification statistique de l’association dans l’échantillon
Signification statistique Quelle est la probabilité de trouver une
association dans l’échantillon quand il n’y en a pas dans la population?
Quand la probabilité est assez faible, on jugera que l’association est statistiquement significative.
Quand la probabilité n’est pas assez faible, on jugera que l’association n’est pas statistiquement significative.
Seuil: 1 sur 20, 5%, 0,05
Le chi-carré (2)
Définition:
Mesure du niveau de signification statistique d’une association statistique dans un tableau croisé.
Calcul ... la semaine prochaine
Interprétation du chi-carré
Est-ce que la valeur du chi-carré est supérieure à 3,84?
Si oui, l’association est statistiquement significative, on rejette l’hypothèse nulle, et on conclut que l’association existe probablement dans la population.
Interprétation du chi-carré
Est-ce que la valeur du chi-carré est supérieure à 3,84?
Si non, l’association n’est pas statistiquement significative, on ne rejette pas l’hypothèse nulle, et on ne peut pas conclure que l’association existe probablement dans la population.
Question
Qui a voté pour le NPD au Québec lors de la dernière élection fédérale? Des souverainistes ou des fédéralistes?
Remarque finale
Il ne faut jamais confondre association statistique et relation causale. Le fait de trouver que deux variables varient ensemble n’implique pas automatiquement que l’une est la cause de l’autre. Patientez quelques semaines. Pour le moment, limitez votre discours à l’usage du terme association statistique.