Top Banner
1 Les distances
25

Les distances

Jan 01, 2016

Download

Documents

emerald-england

Les distances. Analyses de données : Les tableaux à soumettre aux analyses? 1. Introduction. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Les distances

1

Les distances

Page 2: Les distances

2

Analyses de données :Les tableaux à soumettre aux analyses?

1. Introduction.Il existe deux groupes de méthodes d'analyses

de données correspondant à deux approches différentes de l'information. Le premier groupe est constitué des méthodes descriptives telles que l'analyse en composantes principales (A.C.P), l'analyse des correspondances (A.C.), les classifications. Elles mettent en évidence des ressemblances, des différences, des oppositions. Elles donnent des tendances et classent les individus, les variables ou les modalités.

Page 3: Les distances

3

Le deuxième groupe est constitué des méthodes dites explicatives parmi lesquelles on trouve la multi-corrélation et la segmentation qui permettent de représenter la variable à expliquer (de nature qualitative ou quantitative) par des variables de même nature appelées variables explicatives.

Page 4: Les distances

4

Ces méthodes s'appliquent sur des tableaux rectangulaires ou carrés appropriés et utilisent toutes la notion de proximité mise en évidence par des objets comme les distances. Il est donc impératif, lorsque l'on fait une étude, de préparer l'information (questions, codages,...etc) de telle sorte que les possibilités de traitements soient optimales.

Page 5: Les distances

5

Il est à noter, que ces méthodes ne font appel à aucune hypothèse particulière et permettent une étude globale de données nombreuses et complexes qu'il serait impossible de réaliser directement sur le fichier de base. C'est leur intérêt, même si parfois la quantité d'information restituée n'est pas excellente.

Nous devons enfin prendre conscience, que toutes ces méthodes constituent des moyens d'aide à la décision, mais qu'elles ne se substituent pas à la prise de décision. C’est en grande partie la qualité de l’analyste, sa connaissance et son expérience qui font la qualité d’une étude.

Page 6: Les distances

6

2. Présentation optimale pour l’utilisation des méthodes d’analyse de données

( , , , , , )X X X Xj p1 2

xij

21. Tableau de mesuresSur les individus interrogés, on a mesuré un certain nombre de variables quantitatives

A l'intersection de la ligne i (individu) et de la colonne j (variable) du tableau, on trouve le nombre

qui représente la valeur prise par la variable Xj sur l'individu i .

Page 7: Les distances

7

Exemple.On a relevé sur 4 individus les valeurs de 3 variables. Les résultats sont présentés sous forme d’un tableau de

mesures :

Individus Age en années Salaire en 1000 € Nombre d’enfants à charge.

1 20 7 1

2 25 9 3

3 20 11 4

4 35 9 0

Nous constatons que les variables ne sont pas comparables et ne sont pas exprimées dans les mêmes unités. Il est donc nécessaire de les centrer et de les réduire. Le calcul des moyennes arithmétiques et des écart-types est réalisé ci-après :

Page 8: Les distances

8

Moyenne 25 9000 2

Ecart-type 6,124 1414,214 1,581

Le tableau des valeurs centrées et réduites est donné ci-après :

Individus. Age Salaire Nombre d’enfants à charge.

1 - 0,816 - 1,414 - 0,633

2 0 0 0,633

3 - 0,816 1,414 1,265

4 1,633 0 - 1,265

Nous remarquons que les variables obtenues sont sans unité et qu’elles sont du même ordre de grandeur.

Page 9: Les distances

9

Une lecture en ligne du tableau signifie que l’on a choisi de représenter les individus alors qu’une lecture en colonne signifie que l’on a choisi de représenter les variables.

Dans les 2 cas on parlera de nuage de points.

Page 10: Les distances

10

1. Nuage des individus.

Chaque individu étudié dans l’échantillon peut-être

représenté par un point de l’espace euclidien ,

ayant comme coordonnées dans cet espace le p-uplet

( , , , )t t ti i ip1 2

iMp

L’ensemble

màdeieioùmM ii 1var,

porte le nom de nuage des individus.

Page 11: Les distances

11

X j

N jn

t t tj j nj1 2, ,

2. Le nuage des variables.

Chaque variable

peut-être représentée par un point

de l’espace euclidien ayant pour coordonnées

Pour i iant de à n m et mi ii

i n

var ,1 0 11

Il est possible d’accorder à chaque individu un

poids correspondant à l’importance qu’il doit avoir dans

l’étude. Naturellement, on doit avoir les relations

suivantes :

Page 12: Les distances

12

L’ensemble

N f où j iede à pj j, var 1

porte le nom de nuage des variables.

Page 13: Les distances

13

La ressemblance entre 2 individus du nuage des individus, peut-être mesurée par le nombre :

P i k M M t tr i k ij ikj

j p

, ,

2

1

1

2

Considérons l’exemple donné ci-dessus représentant 3 variables quantitatives étudiées sur 4 individus. En accordant à chaque variable un poids égal à 1/3, nous pouvons élaborer le tableau des distances entre les individus :

Page 14: Les distances

14

Proximités Ind. 1 Ind.2 Ind.3 Ind.4

Ind.1 0

Ind.2 1,193 0

Ind.3 1,966 1,011 0

Ind.4 1,673 1,446 2,191 0

La proximité entre 2 variables quelconques peut-être mesurée par le nombre :

Pr ,X X N N t tj l j l ij ili

i n

2

1

1

2

Page 15: Les distances

15

La proximité entre les variables peut-être représenter

en accordant à chaque individu le même poids ¼.Les résultats sont présentés dans le tableau suivant :

Proximités Age. Salaire. Enfants.

Age. 0

Salaire. 1,414 0

Enfants. 1,225 0,811 0

Nous pouvons remarquer que ces distances sont fortement associés à la notion de corrélation que nous connaissons par ailleurs. En effet, on montre que :

Pr , ,X X n r X Xj l j l 2 1

1

2

Page 16: Les distances

16

Pr , ,X X r X Xj l j l 2 1

1

2

mi

si on accorde à tous les individus le même poids 1 et que :

si on accorde à chaque individu le poids

.

r X Xj l,Age. Salaire. Enfants.

Age. 1

Salaire. 0,000 1

Enfants. -0,25 0,671 1

Page 17: Les distances

17

22. Tableau de contingence

La difficulté de l’élaboration d’une distance pour un tel tableau vient du fait que l’on doit travailler sur des populations qui ne sont pas de même taille. Pour contourner cette difficulté, on travaillera sur des profils ligne ou colonne en fonction de ce que l’on veut mettre en avant. N’oublions pas que nous voulons mettre en avant la ressemblance entre des modalités.

Page 18: Les distances

18

y y y n

x n n n n

x n n n n

x n n n n

n n n n n

j l i

j l

i i ij il i

r r rj rl r

j j l

1

1 11 1 1 1

1

1

1

.

.

.

.

. . . .

1

1

1

1

..1..

1

1

11111

1

ljj

rlrjrr

ilijii

lj

lj

pppp

xxxx

xxxx

xxxx

yyy

.i

ijij n

nx

1111.1

.1

.111111

.1

rrlrjrr

iilijii

lj

ilj

pyyyx

pyyyx

pyyyx

pyyy

j

ijij n

ny

.

Tableau de profil/ ligne

Tableau de profil/ colonne

Page 19: Les distances

19

2

1

1

2

...

,Pr

ri

i s

is

j

ij

isj n

n

n

n

n

nyy

2

1

1

2

...

,Pr

lj

j k

kj

i

ij

jki n

n

n

n

n

nxx

Concernant les profils ligne, elle peut-être définie par la relation 

Concernant les profils colonne , nous pouvons écrire :

Page 20: Les distances

20

Considérons le tableau de contingence suivant:

y y y n

x

x

x

x

n

i

j

1 2 3

1

2

3

4

3 5 9 17

6 9 17 32

1 10 3 14

5 5 5 15

15 29 34 78

.

.

y y y p

x

x

x

x

i1 2 3

1

2

3

4

0 2 0 172 0 265 0 218

0 4 0 310 0 500 0 410

0 067 0 345 0 088 0 179

0 333 0 172 0 147 0 192

1 1 1 1

.

, , , ,

, , , ,

, , , ,

, , , ,

y y y

y

y

y

1 2 3

1

2

3

0

0 767 0

0 476 0 705 0

,

, ,

y y y

x

x

x

x

p j

1 2 3

1

2

3

4

0 176 0 294 0 529 1

0 188 0 281 0 531 1

0 071 0 714 0 214 1

0 333 0 333 0 333 1

0 192 0 372 0 436 1

, , ,

, , ,

, , ,

, , ,

, , ,.

x x x x

x

x

x

x

1 2 3 4

1

2

3

4

0

0 034 0

0 871 0 892 0

0 470 0 468 0 883 0

,

, ,

, , ,

Profils

Proximités

Page 21: Les distances

21

x x x x xi i i ij ip 1 2, , , , ,

xij 0 C j

xij 1

Nous savons que dans un tel tableau, un individu i est représenté par une suite de 0 et de 1 en fonction de la présence ou de l’absence du critère étudié. Notons

l’ensemble des résultats qu’il a obtenus,

si le critère est absent chez l’individu et

si il est présent.

23. Tableau de présence/absence

Page 22: Les distances

22

n x x

n n n

q x x

ik ijj

j p

kj

ik ijj

j p

kj

ik ij kjj

j p

1

1

1

1 1

respectivement le nombre de concordances à 1 entre i et k, le nombre de concordances à 0 et le nombre de discordances.

Page 23: Les distances

23

Pr ,i kq

p qik

ik

2

Pr ,i kq

n qik

ik ik

Pr ,i kq

n qik

ik ik

2

Pr ,i kn q

pik ik

Pr ,i k qik1

2

Pour mesurer la proximité entre les deux individus i et k on peut utiliser l’une des distances suivantes :

Rogers et Tanimoto :

Jaccard :

Sokal- Sneath- Aldeberg :

Russel-Rao :

Hamming :

Page 24: Les distances

24

On a relevé la présence ou l’absence de 4 critères sur 8 individus d’un échantillon. Les résultats sont présentés dans le tableau suivant :

C C C C1 2 3 4

1 1 0 0 1

2 1 1 0 0

3 1 1 1 1

4 0 1 1 0

5 0 1 1 1

6 0 0 0 0

7 1 1 1 1

8 1 0 1 0

Page 25: Les distances

25

1 2 3 4 5 6 7 8

1 0

2 0 67 0

3 0 5 0 5 0

4 1 0 67 0 5 0

5 0 75 0 75 0 25 0 33 0

6 1 1 1 1 1 0

7 0 5 0 5 0 0 5 0 25 1 0

8 0 67 0 67 0 5 0 67 0 75 1 0 5 0

,

, ,

, ,

, , , ,

, , , ,

, , , , , ,

Le tableau qui suit donne les distances de Jaccard entre les individus.