5. DISTRIBUZIONI BIVARIATE - docenti-deps.unisi.itdocenti-deps.unisi.it/.../sites/35/2019/03/5.-Distribuzioni-bivariate.pdf · 74 5.2 Distribuzioni bivariate Come già descritto per

72

5. DISTRIBUZIONI BIVARIATE

5.1 Introduzione

Nei capitoli precedenti sono stati esaminati alcuni dei più comuni metodi statistici utilizzati per descrivere

l’assetto distributivo di una variabile per evidenziarne le caratteristiche principali. Scopo delle prossime

pagine sarà quello di estendere l'analisi a quei casi in cui su ogni unità statistica sono rilevate più variabili

contemporaneamente.

In questa situazione si possono studiare le caratteristiche delle singole variabili, ma l’interesse principale

consiste nell’analizzare le eventuali relazioni esistenti fra le variabili stesse e nel misurarne l’intensità.

Per semplicità sarà preso in considerazione solo il caso di due variabili e lo studio sarà quindi limitato alle

cosiddette distribuzioni bivariate.

Le due variabili statistiche oggetto dell'indagine saranno indicate genericamente con le lettere maiuscole X

e Y e si parlerà o di due variabili X e Y o di una variabile (X, Y) a due dimensioni. Le due variabili

considerate possono essere sia qualitative (sconnesse o ordinabili) sia quantitative (discrete o continue) e

possono essere dello stesso tipo, oppure di tipo diverso.

Su n individui può essere rilevato, per esempio, il titolo di studio e la posizione nella professione e in questo

caso le due variabili sono entrambe di qualitative sconnesse. Su n imprese si può rilevare il ramo di attività

economica (commercio, trasporti, credito, …) e il numero di addetti, per cui si tratta di una variabile

qualitativa e di una variabile quantitativa discreta. Su n famiglie si può rilevare il reddito medio annuo e il

consumo medio annuo, e in questo caso le due variabili prese in considerazione sono entrambe di tipo

quantitativo e possono essere considerate di tipo continuo.

L'osservazione delle due variabili su ognuna delle n unità considerate fornisce una sequenza di n coppie di

modalità o di valori di X e Y, in cui ogni coppia si riferisce a una stessa unità. Le determinazioni rilevate

su queste n coppie, indicate genericamente nel modo seguente

(x1, y

1), (x

2, y

2), ..., (x

i, y

i), ..., (x

n, y

n),

possono essere elencate in un prospetto analogo a quello della tabella 5.1.1, in cui con xi e y

i vengono

indicate le determinazioni delle variabili X e Y rilevate sull'i-esima unità (i = 1, 2, …, n) ordinate in base

all’ordine di rilevazione.

73

Tabella 5.1.1

Esempio di sequenza di coppie relative a n osservazioni

X x1 x

2 ... x

i ... x

n

Y y1 y

2 ... y

i ... y

n

Si supponga, per esempio, che su 20 clienti di un’azienda che vende fondi di investimento si sia rilevato se

il cliente è un pensionato o meno e la tipologia di investimento scelto. Indicata con X la variabile che

assume valore 1 se il cliente è pensionato e valore 0 in caso contrario, e con Y la variabile che assume le

seguenti modalità A= “azioni”, V= “polizza vita”, F= “fondi” il prospetto seguente riporta la sequenza delle

coppie di determinazioni rilevate su 20 clienti.

Tabella 5.1.2

Sequenza delle coppie di determinazioni assunte da due variabili su 20 unità

(elencate secondo l’ordine di rilevazione)

X 0 0 1 1 1 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0

Y A F V A A F V V V A F V V V A V A V A V

Dai dati della tabella 5.1.2 risulta, per esempio, che il quarto cliente rilevato è un pensionato che

ha acquistato azioni, mentre il nono cliente non è un pensionato e ha acquistato una polizza vita.

Se le variabili sono qualitative ordinate o quantitative, le coppie possono essere anche elencate sulla base

della sequenza ordinata delle determinazioni assunte da una o dall'altra variabile, così come si è già visto

nel caso univariato, dato che l’eventuale ordinamento non altera in alcun modo le informazioni raccolte.

74

5.2 Distribuzioni bivariate

Come già descritto per il caso univariato, anche i risultati della rilevazione di una coppia di variabili

qualitative o quantitative discrete sono presentati di solito sotto forma di distribuzioni di frequenza mediante

dei prospetti, detti tabelle a doppia entrata o distribuzioni bivariate, che hanno una struttura analoga a

quella della tabella successiva.

Tabella 5.2.1

Esempio di distribuzione bivariata – frequenze assolute

X\Y d1 d

2 ... d

l ... d

h

c1 n

11 n

12 ... n

1l ... n

1h n

1.

c2 n

21 n

22 ... n

2l ... n

2h n

2.

. . . . . . . .

cj n

j1 n

j2 ... n

jl ... n

jh n

j.

. . . . . . . .

ck n

k1 n

k2 ... n

kl .... n

kh n

k.

n.1 n

.2 ... n

.l ... n

.h n

I simboli cj (j = 1, 2, ..., k) che compaiono sulla prima colonna rappresentano le k determinazioni diverse

che la variabile X assume sulle n unità statistiche esaminate, mentre i simboli dl (l = 1, 2, ..., h) riportati

sulla prima riga rappresentano le h determinazioni diverse che la Y assume sullo stesse unità.

Se le variabili sono qualitative ordinabili o quantitative discrete, le determinazioni sono riportate secondo

il loro ordine naturale.

Il simbolo njl, che si legge all'incrocio fra la riga c

j e la colonna d

l, indica il numero di unità sui quali sono

state rilevate contemporaneamente le determinazioni cj e d

l delle variabili X e Y.

I simboli n.1, n

.1, ..., n

.h riportati nell'ultima riga della tabella 5.2.1 indicano i totali delle diverse colonne e,

quindi, il numero di unità sulle quali sono state rilevate le determinazioni d1, d

2, ..., d

h della variabile Y,

senza tener conto delle determinazioni assunte dalla X.

Risulta perciò

k

jj. nn

111 , ...,

k

jlj.l nn

1

, ...,

k

jhj.h nn

1

.

75

Un significato analogo hanno i simboli nj. che, corrispondendo ai totali delle diverse righe, indicano il

numero di unità sulle quali sono state rilevate le determinazioni c1, c

2, ..., c

k della X, senza tener conto delle

determinazioni assunte dalla Y.

Risulta ovviamente

h

ll. nn

111 , ...,

h

ljlj. nn

1

, ...,

h

lklk. nn

1

.

Nel quadratino in basso a destra della tabella 5.2.1 la lettera n indica il numero totale delle unità statistiche

esaminate, per cui risulta

.nnnnk

j

h

ljl

h

l.l

k

jij.

1 111

Un esempio di distribuzione bivariata riferita a una variabile qualitativa sconnessa e a una qualitativa

ordinabile è riportato nella tabella successiva.

Tabella 5.2.2

Arrivi negli esercizi ricettivi in Italia per residenza dei clienti e mese – Anno 2007

Fonte ISTAT- Movimento dei clienti negli esercizi ricettivi

Mese\Residenza Italiani Stranieri

Gennaio 2863439 1509739 4373178

Febbraio 2898551 1951340 4849891

Marzo 3518301 2660268 6178569

Aprile 4782364 3662612 8444976

Maggio 4091207 4677447 8768654

Giugno 6212762 4992022 11204784

Luglio 6566385 5963598 12529983

Agosto 7818714 5232409 13051123

Settembre 4647082 5246572 9893654

Ottobre 3318629 3718105 7036734

Novembre 2924948 1768584 4693532

Dicembre 3398903 1446432 4845335

53041285 42829128 95870413

In questo caso, per esempio, la frequenza 1951340 posta all'incrocio fra “Febbraio” e “Stranieri”

corrisponde al numero di stranieri arrivati negli esercizi ricettivi italiani durante il mese di febbraio del

2007.

76

Le coppie costituite dagli elementi della prima e dell'ultima riga della tabella costituiscono invece la

distribuzione degli arrivi negli esercizi ricettivi italiani durante l’anno 2007 per residenza dei clienti, senza

tener conto del mese. Così, per esempio, sono circa 53 milioni gli italiani arrivati in un esercizio ricettivo

durante il 2007.

In maniera analoga si possono commentare i valori indicati sull’ultima colonna, per cui 4373178 è il numero

di arrivi negli esercizi ricettivi in Italia nel gennaio 2007, senza tenere conto della residenza dei clienti.

Se le variabili rilevate sono qualitative o quantitative discrete, la distribuzione congiunta delle due variabili

contiene le stesse informazioni della sequenza originaria.

Se almeno una delle due variabili è quantitativa continua, le informazioni raccolte saranno sintetizzate

utilizzando delle classi di valori, per le quali valgono tutte le considerazioni fatte a proposito delle

distribuzioni univariate. Evidentemente questa operazione comporta necessariamente una perdita di

informazione, ma evidenzia l’assetto distributivo della variabile oggetto di indagine, cosi come accadeva

nel caso univariato.

In questo caso sulla prima riga della tabella, sulla prima colonna, o su entrambe, sono indicate non le singole

determinazioni cj e d

l ma degli opportuni intervalli di valori (che saranno considerati sempre aperti a sinistra

e chiusi a destra, se non sarà diversamente specificato).

Se, per esempio, si utilizzano classi di valori sia per la X sia per la Y, all'incrocio fra la riga indicata con

l'intervallo cj-1c

j e la colonna indicata con l'intervallo d

l-1d

l il simbolo n

jl rappresenta il numero di unità

su cui sono stati rilevati contemporaneamente valori della X compresi nell’intervallo (cj-1

, cj] e valori della

Y compresi nell’intervallo (dl-1

, dl].

Esempio 5.2.1

Date le due seguenti sequenze di dati che si riferiscono ai livelli di colesterolo, misurati in mg per 100 ml, di due

diversi gruppi di unità

Gruppo 1

233, 291, 312, 250, 246, 197, 268, 224, 239, 239,

254, 276, 234, 181, 248, 252, 202, 218, 212, 325

Gruppo 2

344, 185, 263, 246, 224, 212, 188, 250, 148, 169,

226, 175, 242, 252, 153, 183, 137, 202, 194, 213

si organizzino i dati in una tabella a doppia entrata in cui la variabile X, che identifica il gruppo, assume valore 1 per

il primo gruppo e valore 2 per il secondo, mentre la variabile Y, che indica i livelli di colesterolo, è raggruppata nelle

classi 130-180, 180-220, 220-250, 250-350.

77

La distribuzione bivariata di X e Y assume la forma indicata nella tabella successiva.

Distribuzione di 40 unità per gruppo di appartenenza e livelli di colesterolo

X\Y 130 - 180 180 - 220 220 - 250 250 - 350

1 0 5 8 7 20

2 5 7 5 3 20

5 12 13 10 40

Nelle successive tabelle 5.2.3 e 5.2.4 sono riportati alcuni esempi di distribuzioni bivariate con variabili di

diverso tipo. Nel primo caso entrambe le variabili sono qualitative sconnesse, mentre nel secondo caso una

è qualitativa sconnessa e l’altra quantitativa discreta ma, a causa dell’elevato numero dei suoi diversi valori,

si è utilizzato un raggruppamento in classi.

Tabella 5.2.3

Produzione di vino per regione e marchio di qualità - Anno 2007 (Fonte ISTAT)

Marchio\Regione D.O.C. e D.O.C.G. I.G.T. Da tavola

Piemonte 2276353 0 447593 2723946

Valle d'Aosta 11500 0 6000 17500

Lombardia 670701 181578 246785 1099064

Trentino-Alto Adige 1019845 179730 21820 1221395

Veneto 2329132 4541373 808550 7679055

Friuli-Venezia Giulia 669450 203881 156159 1029490

Liguria 45078 7957 36019 89054

Emilia-Romagna 1480163 2300051 1976967 5757181

Toscana 1749601 711084 357891 2818576

Umbria 307090 399637 291683 998410

Marche 272580 362615 121470 756665

Lazio 888984 323870 605219 1818073

Abruzzo 769150 130330 1246985 2146465

Molise 187595 0 131665 319260

Campania 235045 256206 1161104 1652355

Puglia 827925 1058798 3499152 5385875

Basilicata 29359 24007 167874 221240

Calabria 84454 28292 293361 406107

Sicilia 153015 1147173 2641120 3941308

Sardegna 239947 177775 444514 862236

14246967 12034357 14661931 40943255

78

Tabella 5.2.4

Fallimenti dichiarati dalle società per classe di ampiezza demografica dei comuni

e forma giuridica (Anno 2006) - Fonte ISTAT

forma\ampiezza 50.000 [50001, 100000] [100001, 500000] > 500000

Società di fatto 17 2 5 11 35

In nome collettivo 472 88 102 95 757

A resp. limitata 3152 818 1006 1843 6819

Per azioni 80 21 24 40 165

In acc. semplice 691 196 125 280 1292

In acc. per azioni 20 0 2 5 27

Cooperative 119 40 32 46 237

4551 1165 1296 2320 9332

Nella tabella 5.2.5 è invece riportata la sequenza originaria di coppie dei valori del reddito e del consumo

annui di 25 famiglie e nella 5.2.6 una delle possibili distribuzioni di frequenza corrispondente, espressa

mediante intervalli di valori.

Tabella 5.2.5

Reddito e consumo annui di 25 famiglie (dati in migliaia di euro)

Reddito 22.2 22.6 23.2 23.4 23.8 24.2 24.6 25.0 25.2 25.6

Consumo 18.4 19.0 19.8 19.4 20.2 20.6 22.2 22.2 20.0 21.4

Reddito 25.8 26.2 26.8 27.2 27.6 28.0 28.4 28.6 29.0 29.4

Consumo 21.0 21.6 22.2 21.8 22.0 23.0 24.0 23.6 24.2 22.0

Reddito 30.2 30.6 31.2 32.0 34.2

Consumo 23.4 24.2 23.6 24.4 25.8

Tabella 5.2.6

Distribuzione sintetica ottenuta dalla tabella 5.2.5

reddito\consumo 18 - 20 20 - 22 22 – 24 24 - 26

22 – 25 4 2 2 0 8

25 – 27 1 3 1 0 5

27 – 29 0 2 3 1 6

29 – 35 0 1 2 3 6

5 8 8 4 25

79

Esempio 5.2.2

Considerate le coppie di osservazioni della tabella 5.1.2 si costruisca la distribuzione doppia corrispondente

In questo caso le 3 determinazioni della variabile Y possono essere riportate secondo un ordine qualsiasi.

Distribuzione bivariata ottenuta dalla sequenza di coppie considerate nella tabella 5.1.2

X\Y A F V

0 5 3 6 14

1 2 0 4 6

7 3 10 20

80

5.3 Frequenze relative

Analogamente a quanto visto per le distribuzioni univariate, anche la distribuzione congiunta delle due

variabili X e Y può essere descritta mediante le frequenze relative, anziché mediante le frequenze assolute.

Queste frequenze si calcolano dividendo le frequenze assolute per il numero totale di osservazioni

n

nf

jljl ,

e indicano la frazione di unità che presentano una stessa coppia di determinazioni delle due variabili.

Tabella 5.3.1

Esempio di distribuzione bivariata – frequenze relative

X\Y d1 d

2 ... d

l ... d

h

c1 f

11 f

12 ... f

1l ... f

1h f

1.

c2 f

21 f

22 ... f

2l ... f

2h f

2.

. . . . . . . .

cj f

j1 f

j2 ... f

jl ... f

jh f

j.

. . . . . . . .

ck f

k1 f

k2 ... f

kl .... f

kh f

k.

f.1 f

.2 ... f

.l ... f

.h 1.0

Si ha evidentemente

,fk

j

h

ljl 1

1 1

5.3.1

mentre le frequenze relative riportate nell’ultima riga e nell’ultima colonna della tabella a doppia entrata

corrispondono rispettivamente a

.l

k

jjl ff

1

l = 1, 2, …, h 5.3.2

.j

h

ljl ff

1

j = 1, 2, …, k 5.3.3

con

81

.ffh

ll.

k

j.j 1

11

5.3.4

Nella tabella 5.3.2 è riportata, a titolo d’esempio, la stessa distribuzione della tabella 5.2.6 dove le frequenze

assolute sono state sostituite con quelle relative.

Tabella 5.3.2

Distribuzione espressa mediante frequenze relative ottenuta dalla tabella 5.2.6

reddito\consumo 18 - 20 20 - 22 22 – 24 24 – 26

22 – 25 0.16 0.08 0.08 0.00 0.32

25 – 27 0.04 0.12 0.04 0.00 0.20

27 – 29 0.00 0.08 0.12 0.04 0.24

29 – 35 0.00 0.04 0.08 0.12 0.24

0.20 0.32 0.32 0.16 1.00

Come nel caso univariato, anche in quello bivariato gli indici statistici possono essere calcolati

indifferentemente utilizzando uno qualunque dei diversi tipi di frequenza.

Esempio 5.3.1

Data la distribuzione bivariata costruita nell’esempio 5.2.1, si sostituiscano le frequenze assolute con le corrispondenti

frequenze relative.

Distribuzione di 40 unità per gruppo di appartenenza e livelli di colesterolo

(frequenze relative)

X\Y 130 - 180 180 - 220 220 - 250 250 - 350

1 0.000 0.125 0.200 0.175 0.500

2 0.125 0.175 0.125 0.075 0.500

0.125 0.300 0.325 0.250 1.000

82

5.4 Distribuzioni marginali e condizionate

Le informazioni contenute in una tabella a doppia entrata sono costituite dalle 2 distribuzioni di una

variabile senza tener conto delle determinazioni assunte dall’altra e dalla distribuzione congiunta delle due

variabili, riportata nel riquadro centrale della tabella.

L’insieme delle coppie (cj, f

j..) o delle coppie (c

j, n

j..) per j = 1, 2, ..., k, che costituisce la distribuzione di

frequenza della variabile X senza considerare la Y, viene chiamata distribuzione marginale della X.

Allo stesso modo l’insieme delle coppie (dl, f

.l) o (d

l, n

.l) per l = 1, 2, ..., h, costituisce la distribuzione

marginale della Y.

Tali distribuzioni sono utilizzate per calcolare tutti gli indici esaminati nei capitoli precedenti per quanto

riguarda le due variabili singolarmente considerate.

Le informazioni più rilevanti di una tabella a doppia entrata sono però contenute nel suo riquadro interno,

in quanto la distribuzione congiunta delle due variabili X e Y evidenzia le eventuali relazioni esistenti fra

esse e serve per misurare l’entità di tali relazioni.

Per ottenere questo tipo di informazione dai dati occorre analizzare e confrontare fra loro gli assetti

distributivi di una variabile rilevata all’interno dei diversi gruppi omogenei nell’altra, ossia per gruppi

“omogenei” di unità che presentano tutte una stessa determinazione (o una stessa classe di valori) dell’altra

variabile.

Le k righe del riquadro interno di ogni tabella a doppia entrata, in associazione con la prima riga,

rappresentano altrettante distribuzioni univariate della variabile Y all’interno dei diversi gruppi omogenei

in X. I valori fj1, f

j2, ..., f

jh della j-esima riga indicano infatti la distribuzione della variabile Y limitatamente

al gruppo di unità che presentano tutti la stessa determinazione cj di X oppure un’intensità compresa nella

j-esima classe (cj-1

, cj] di questa variabile (con j = 1, 2, …, k).

Ogni riga interna della tabella rappresenta la distribuzione della Y per un gruppo di unità omogenee rispetto

alla variabile X. Tali distribuzioni, note come distribuzioni condizionate della Y alle diverse

determinazioni (o classi di valori) della X, vengono indicate mediante la notazione Y|x.

La prima riga del riquadro interno della tabella 5.3.1, per esempio, rappresenta la distribuzione del consumo

delle sole famiglie con un reddito compreso fra 22 e 25 mila euro annui, mentre la seconda riga fornisce

informazioni sulla distribuzione del consumo per le famiglie con un reddito fra 25 e 27 mila euro annui.

83

Uno degli scopi dell’analisi di questa tabella può consistere nel confronto delle distribuzioni del consumo

fra gruppi di famiglie omogenee rispetto al reddito, per valutare se questi consumi variano a seconda del

livello di reddito.

In genere si presenta la difficoltà di confrontare distribuzioni relative a gruppi di numerosità diversa, per

cui conviene dividere le frequenze che compaiono su ciascuna riga per il totale di riga corrispondente,

ottenendo le frequenze relative di riga, che consentono di effettuare questi confronti quale che sia la

numerosità di ciascun gruppo.

Nel caso dei dati riportati nelle tabelle 5.2.6 o 5.3.1, per esempio, le frequenze relative di riga assumono i

valori riportati nella tabella successiva.

Tabella 5.4.1

Frequenze relative di riga ottenute dalla tabella 5.2.7 o 5.3.1

reddito\consumo 18 – 20 20 - 22 22 - 24 24 – 26

22 – 25 0.50 0.25 0.25 0.00 1.00

25 – 27 0.20 0.60 0.20 0.00 1.00

27 – 29 0.00 0.17 0.50 0.03 1.00

29 – 35 0.00 0.03 60,1 0.50 1.00

Le distribuzioni di frequenza della Y per i diversi gruppi omogenei in X quando è posta uguale ad 1 la

frazione complessiva di unità di ciascun gruppo, sono chiamate distribuzioni relative condizionate della

Y alle diverse determinazioni (o classi di valori) della X.

Nella successiva tabella 5.3.3 è riportato un altro esempio di distribuzioni condizionate. In questo caso si

tratta delle distribuzioni del tipo di visita medica a cui si sono sottoposte pazienti di sesso femminile,

condizionate alle classi di età delle pazienti.

84

Tabella 5.3.3

Distribuzione delle visite mediche specialistiche per tipo specializzazione del medico ed età del paziente1

- Femmine - Frequenze relative di riga

età\tipo A B C D E F

14 0.062 0.019 0.158 0.442 0.146 0.173 1.000

14-19 0.060 0.090 0.129 0.527 0.050 0.144 1.000

20-29 0.064 0.615 0.073 0.164 0.048 0.036 1.000

30-39 0.072 0.549 0.054 0.201 0.044 0.080 1.000

40-49 0.160 0.363 0.069 0.224 0.059 0.125 1.000

50-59 0.208 0.226 0.066 0.203 0.091 0.206 1.000

60-64 0.388 0.048 0.214 0.126 0.044 0.180 1.000

65 e + 0.371 0.075 0.157 0.177 0.049 0.171 1.000

A = cardiologiche, B = ginecologiche ed ostetriche, C = oculistiche, D = odontoiatriche, E = otorinolaringoiatriche,

F = ortopediche

Dai dati contenuti nella tabella risulta, per esempio, che per le pazienti con un'età inferiore a 20 anni le

visite sono soprattutto di tipo odontoiatrico (44% del totale in quella classe di età), per quelle con un'età

compresa fra 20 e 40 anni sono ostetriche e ginecologiche (oltre il 60%) ed infine, per quelle con un'età

superiore a 60, sono cardiologiche. Per quest’ultimo tipo di visita si nota un incremento dell'incidenza al

crescere dell'età delle pazienti, mentre per quelle oculistiche la maggiore incidenza si ha per le pazienti con

un'età inferiore a 20 anni e superiore a 60.

Quando ci si vuole riferire alla distribuzione della variabile Y condizionata ad una generica determinazione

cj (o alla j-esima classe) della X si utilizza la notazione

Y|cj, j = 1, 2, ..., k,

mentre le frequenze relative condizionate corrispondenti si ottengono dai rapporti

j.

jl

j.

jl

f

f

n

n , 5.4.1

dove

1Fonte: ISTAT (1986) Indagine statistica sulle condizioni di salute della popolazione e sul ricorso ai servizi sanitari. Note e relazioni n.1

85

111

h

l j.

jlh

l j.

jl

f

f

n

n j = 1, 2, ..., k. 5.4.2

Se si vuole scambiare il ruolo delle due variabili, analizzando la distribuzione condizionata della variabile

X condizionata ad una generica determinazione yl (o alla l-esima classe) della Y, si utilizza ovviamente la

notazione

X|dl, l = 1, 2, ..., h.

mentre le frequenze relative condizionate corrispondenti sono date dal rapporto

l.

jl

l.

jl

f

f

n

n , 5.4.3

dove

111

k

j .l

jlk

j .l

jl

f

f

n

n l = 1, 2, ..., h.

In una tabella a doppia entrata relativa a una variabile X che assume k determinazioni (o classi di valori)

diverse e a una variabile Y che assume h determinazioni (o classi di valori) diverse restano quindi

determinate:

- la distribuzione di frequenza congiunta delle due variabili;

- le due distribuzioni marginali da X e della Y;

- le k distribuzioni condizionate della Y|cj (con j = 1, 2, …, k);

- le h distribuzioni condizionate della X|dl (con l = 1, 2, …, h).

86

Esempio 5.4.1

Data la seguente distribuzione bivariata relativa ai residenti di un comune italiano classificati per classe di età (X) e

nazionalità (Y)

Distribuzione dei residenti per classe di età e nazionalità

X\Y Italiani Stranieri

14 10053 1245 11298

15 – 39 30247 4105 34352

40 – 64 41556 3470 45026

≥ 65 32144 2180 34324

114000 11000 125000

si determinino le distribuzioni relative condizionate della X dalla Y.

Le distribuzioni relative delle classi di età a seconda della nazionalità dei residenti risultano

Distribuzioni relative delle classi di età dei residenti condizionate alla nazionalità

X\Y Italiani Stranieri

14 0.09 0.11

15 – 39 0.27 0.37

40 – 64 0.36 0.32

≥ 65 0.28 0.20

1.00 1.00

Esempio 5.4.2

In un’indagine su 100 studenti universitari iscritti a un certo corso di laurea nel 2015, si è rilevato il voto di diploma

conseguito e se erano ancora iscritti al corso o se lo avevano abbandonato. Sulla base della distribuzione riportata nella

tabella successiva,

Distribuzione di un gruppo di studenti universitari per stato e voto di diploma

Condizione (X)\Voto (Y) 80 8190 >90

Abbandono 12 6 2 20

Iscritto 18 40 22 80

30 46 24 100

si calcolino le distribuzioni relative condizionate del voto di diploma (Y) a seconda della condizione dello studente

(X).

Distribuzioni relative del voto di diploma condizionate allo stato degli studenti

X\Y 80 8190 >90

Abbandono 0.600 0.300 0.100 1.000

Iscritto 0.225 0.500 0.275 1.000

87

5.5 Valori caratteristici

Le distribuzioni marginali delle variabili X e Y sono utilizzate per calcolare gli indici esaminati per le

distribuzioni univariate.

Se entrambe le variabili sono quantitative, il generico momento dall’origine di ordine r per X e Y è dato

rispettivamente da

l.

h

j

rll.

h

l

rlry

.j

k

j

rj.j

k

j

rjrx

fdndn

m

fcncn

m

11

11

1

1

r = 0, 1, 2, ...

nel caso in cui le variabili siano discrete, mentre la loro formula approssimata è

l.

h

j

rll.

h

l

rlry

.j

k

j

rj.j

k

j

rjrx

fdndn

m

fcncn

m

11

11

1

1

r = 0, 1, 2, ...

per variabili in classi di valore.

Allo stesso modo, il generico momento centrale di ordine r di X e Y corrisponde a

l.

h

j

rll.

h

l

rlry

.j

k

j

rj.j

k

j

rjrx

fydnydn

m

fxcnxcn

m

11

11

1

1

r = 0, 1, 2, ...

se la tabella riporta i valori delle variabili, mentre se la distribuzione è in classi, si utilizzano le medesime

espressioni in cui compaiono però i valori centrali delle singole classi

l

h

j

rll

h

l

rlry

j

k

j

rjj

k

j

rjrx

fydnydn

m

fxcnxcn

m

.1

.1

.1

.1

1

1

r = 0, 1, 2, ...

88

Esempio 5.5.1

Considerata la seguente distribuzione bivariata

X\Y 0 1 2

-1.5 -0.5 40 0 0 40

-0.5 0.5 0 40 40 80

0.5 1.5 0 20 60 80

40 60 100 200

si calcoli la media e la varianza delle variabili X e Y.

Risulta

20200

801800401.x

60

200

8014012 .m x

5602060 22 ...sx

31200

1002601400.y

32

200

10046012 .m x

6103132 22 ...sy

I diversi momenti possono essere calcolati anche sulle diverse distribuzioni condizionate.

Più in particolare, il momento di ordine r delle k distribuzioni della variabile quantitativa Y condizionata

alla variabile X (che può essere invece di qualsiasi tipo) corrisponde a

jl

h

j

rl

jjl

h

l

rl

jcry

jl

h

j

rl

jjl

h

l

rl

jcry

fdf

ndn

m

fdf

ndn

m

j

j

1.1.|

1.1.|

11

11

r = 0, 1, 2, ... 5.5.1

a seconda che nella tabella compaiano i singoli valori o le classi, mentre le corrispondenti formule per il

momento centrale r-esimo corrispondono a

jl

h

j

rxl

jjl

h

l

rxl

jcry

jl

h

j

rxl

jjl

h

l

rxl

jcry

fydf

nydn

m

fydf

nydn

m

jjj

jjj

1.1.|

1.1.|

11

11

r = 0, 1, 2, ... 5.5.2

Considerata la distribuzione doppia ottenuta nell’esempio 5.2.1, le distribuzioni relative condizionate di

1|Y x e di 2|Y x sono riportate nella tabella successiva

89

Tabella 5.5.1

Distribuzioni condizionate della Y in base alla distribuzione congiunta dell’esempio 5.2.1

X\Y 130 - 180 180 - 220 220 - 250 250 – 350

1 0.00 0.25 0.40 0.35 1.00

2 0.25 0.35 0.25 0.15 1.00

da cui, applicando la 5.5.1, si ottengono le medie

11 ymy| 2000.252350.43000.35 = 249.00,

22 ymy| 1550.252000.352350.253000.15 = 212.50,

e i momenti del secondo ordine

12y|m 20020.2523520.430020.35 = 63590,

22y|m 15520.2520020.3523520.2530020.15= 47312.5.

Le varianze delle due distribuzioni condizionate sono quindi rispettivamente pari a

21|ys = 63590 2492 = 1589.00,

2|2ys = 47312.5 212,52 = 2156,25.

Esempio 5.5.2

Considerata la distribuzione bivariata dell’esempio 5.5.1 si calcoli la media delle tre distribuzioni condizionate della

Y dalla X.

Risulta

040

02014005.0,5.1

y 5.1

80

4024015.0,5.0

y 75.1

80

6022015.1,5.0

y

Allo stesso modo, i momenti di ordine r delle h distribuzioni della variabile X|dl quando X è discreta

(qualitativa o quantitativa) risultano

90

jl

k

j

rj

ljl

k

j

rj

ldrx fc

fnc

nm

l

1.1.

|11

r = 0, 1, 2, ...

mentre nel caso di una distribuzione in classi occorre utilizzare i valori centrali degli intervalli.

Analogamente, per il momento centrale r-esimo della X|dl risulta

jl

k

j

ryj

ljl

k

j

ryj

ldrx fxc

fnxc

nm

lll

1.1.

|11

r = 0, 1, 2, ...

dove cj va sostituito con il valore centrale del j-esimo intervallo se la distribuzione è in classi.

Esempio 5.5.3

Considerata la distribuzione bivariata dell’esempio 5.5.1 si calcoli la media e la varianza delle tre distribuzioni

condizionate X|y.

Per quanto riguarda le medie risulta

140

01004010

x

3

2

60

201400011

x 6.0

100

601400012

x

I momenti di ordine 2 sono invece pari a

1

40

0100401 222

0|2

xm 3

2

60

2012

1|2

xm 6.0100

6012

2|2

xm

per cui le varianze sono

01120| xs

9

2

9

46

9

4

3

221|

xs 24.06.06.0 22

2| xs

91

5.6 Momenti misti e covarianza

Per analizzare e misurare le eventuali relazioni esistenti fra le variabili X e Y è necessario utilizzare degli

indici, diversi dai precedenti, che si basano sulla distribuzione congiunta delle due variabili.

Analogamente a quanto visto per una distribuzione univariata, per due variabili quantitative X e Y rilevate

contemporaneamente su n unità statistiche sono definiti i cosiddetti momenti misti dall'origine o momenti

misti ordinari, di ordine r,s (con r,s = 0, 1, ...), la cui espressione generale assume la forma

si

n

i

rir,s yx

nm

1

1 . 5.6.1

se si dispone della sequenza delle coppie di valori.

Se invece i dati rilevati sono organizzati in una distribuzione di frequenza, il momento misto di ordine r,s

assume la forma seguente

jlsl

k

j

h

l

rjjl

sl

k

j

h

l

rjr,s fdcndc

nm

1 11 1

1

se entrambe le variabili sono discrete. Se una o entrambe le variabili sono continue, il risultato approssimato

del generico momento misto di ordine r,s si calcola utilizzando i valori centrali delle classi.

Il momento più comunemente usato è quello che si ottiene ponendo r = s = 1 e che quindi, a seconda del

tipo di dati, assume le forme seguenti

i

n

ii, yx

nm

1

111

5.6.2

jll

k

j

h

ljjll

k

j

h

lj fdcndc

nm

1 11 1

1,11

5.6.3

jll

k

j

h

ljjll

k

j

h

lj fdcndc

nm

1 11 1

1,11

. 5.6.4

Considerata una distribuzione relativa a due variabili quantitative X e Y, il momento misto di ordine 1,1

corrisponde alla media aritmetica del prodotto fra le due variabili.

92

Esempio 5.6.1

Il momento misto dall’origine di ordine 1,1 sulla seguente sequenza di voti in matematica e in statistica ottenuti da 8

studenti universitari

Matematica 24 26 27 28 18 30 20 23

Statistica 24 28 23 26 20 24 24 27

risulta

25.604272324202430201826282327282624248

111 ,m

Esempio 5.6.2

Considerata la distribuzione riportata nell’esempio 5.5.1 se ne calcoli il momento misto di ordine 1,1

X\Y 0 1 2

-1.5 -0.5 40 0 0 40

-0.5 0.5 0 40 40 80

0.5 1.5 0 20 60 80

40 60 100 200

Considerando i soli prodotti che risultano diversi da zero si ottiene

7.0200

602120111,1

m

Oltre ai momenti misti ordinari, restano definiti anche i momenti misti centrali, usualmente indicati con

il simbolo r,sm , la cui espressione generica assume le seguenti forme, a seconda del tipo di dati ottenuti

nella rilevazione,

si

n

i

rir,s yyxx

nm

1

1 .

jl

k

j

h

l

sl

rjjl

sl

k

j

h

l

rjsr fydxcnydxc

nm

1 11 1

,1

jl

k

j

h

l

sl

rjjl

sl

k

j

h

l

rjsr fydxcnydxc

nm

1 11 1

,1

Anche in questo caso il momento più usato, detto covarianza ed indicato comunemente con sxy, è il

momento misto centrale di ordine 1,1. Le sue espressioni, a seconda del tipo di dati, si ottiene dalle

espressioni precedenti ponendo r = s = 1

93

yyxxn

ms i

n

ii,xy

111

1 . 5.6.5

jl

k

j

h

lljjll

k

j

h

ljxy fydxcnydxc

nms

1 11 1

1,11

5.6.6

jl

k

j

h

lljjll

k

j

h

ljxy fydxcnydxc

nms

1 11 1

1,11

5.6.7

Considerate due variabili quantitative X e Y rilevate contemporaneamente su n unità statistiche, la

covarianza sxy corrisponde alla media aritmetica del prodotto degli scarti dalla media delle due variabili.

Sviluppando la 5.6.5 si ottiene una formula di calcolo semplificata

yxyxn

yxyxyxyxn

yxn

xn

yyn

xyxn

yxyxyxyxn

s

n

iii

n

iii

n

i

n

ii

n

ii

n

iii

n

iiiiixy

11

1111

1

11

1111

1

5.6.8

da cui risulta che la covarianza corrisponde al momento centrale ordinario di ordine 1,1 meno il prodotto

delle medie delle due variabili.

La covarianza fra due variabili quantitative X e Y rilevate contemporaneamente su n unità statistiche,

corrisponde alla media di XY meno il prodotto delle medie �̅��̅�.

Nel caso della distribuzione riportata nell’esempio 5.5.1 per la quale sono stati ottenuti in precedenza i

risultati

2.0x , 3.1y , 7.01,1 m

la covarianza fra X e Y risulta

94

sxy

= 0.7 0.2×1.3 = 0.44.

Per la tabella 5.2.6 le medie delle due variabili risultano pari a 1227.x e a 8821.y mentre il momento

misto di ordine 1,1 è m1,1

= 597.44. In questo caso la covarianza fra le due variabili risulta

sxy

= 597.44 27.1221.88 = 4.0544.

La covarianza può assumere valori positivi o negativi, a seconda del tipo di relazione fra le variabili

considerate.

Se la relazione è di tipo diretto, ossia se al crescere dei valori assunti da una variabile anche l’altra tende a

crescere, gli scarti delle due variabili dalla propria media avranno tendenzialmente segno concorde: a scarti

negativi/positivi della X tenderanno a essere associati scarti negativi/positivi della Y. I prodotti degli scarti

delle due variabili risulteranno quindi positivi nella maggior parte dei casi e anche la covarianza, che

corrisponde alla media dei prodotti di tali scarti, avrà segno positivo.

Se invece la relazione fra X e Y è di tipo inverso, al crescere dei valori assunti da una variabile l’altra tende

a diminuire, per cui gli scarti delle due variabili dalla propria media avranno tendenzialmente segno

discorde: a scarti negativi/positivi della X tenderanno a essere associati scarti positivi/negativi della Y. I

prodotti degli scarti delle due variabili avranno segno discorde e risulteranno quindi tendenzialmente

negativi: di conseguenza la covarianza sarà minore di zero.

Esempio 5.6.3

Data la seguente tabella a doppia entrata

X\Y 1 2 3

1 0 10 20 30

2 5 10 5 20

5 20 25 50

calcolare la covarianza fra X e Y.

Si ottiene

4.150

202301

x ,

4.250

25320251

y ,

95

2.350

5321022512203110210111,1

m

da cui risulta

sxy

= 3.21.4×2.4 = 0.16.

Esempio 5.6.4

Dati i seguenti valori delle variabili X “contenuto di umidità” e Y “solidità” rilevate su n=10 assi di legno riportati

nella tabella seguente

X Y

11.1 11.14

8.9 12.74

8.8 13.13

8.9 11.51

8.8 12.38

9.9 12.60

10.7 11.13

10.5 11.70

10.5 11.02

10.7 11.41

In questo caso le medie delle due variabili risultano pari a 88009.x e a 876011.y mentre il momento misto di

ordine 1,1 è m1,1

= 116.8445.

Pertanto la covarianza fra le due variabili risulta pari a

sxy

= 116.8445 9.8811.876 = 0.49038.

Proprietà

La covarianza è invariante rispetto a eventuali traslazioni, ma non lo è rispetto a cambiamenti di scala.

Dimostrazione

Data la sequenza delle n osservazioni relative a due variabili quantitative X e Y con covarianza sxy

si

considerino le due nuove variabili trasformate

XW ba

.Y''Z ba

Se nella formula della covarianza fra W e Z

n

iiiwz zzww

ns

1

1

96

si sostituiscono alle due variabili W e Z e alle loro medie le rispettive espressioni in funzione delle variabili

originali X e Y si ottiene

xy

n

iii

n

iii

n

iiiwz

bb'syyxxbb'n

yb'a'yb'a'xbabxan

zzwwn

s

1

11

1

11

5.6.9

da cui risulta che la covarianza non è invariante rispetto a cambiamenti di scala, ma solo rispetto a eventuali

traslazioni.

Esempio 5.5.6

Date due variabili X e Y con covarianza sxy

= 1.5 si calcoli la covarianza delle variabili trasformate

X3

2

2

1W

.Y4

33Z

Si ottiene

75.05.14

3

3

2

wzs .

97

5.7 Coefficiente di correlazione lineare

Date due variabili quantitative X e Y con media rispettivamente pari a x e y e con deviazione standard sx

e sy si considerino le corrispondenti variabili standardizzate

xs

x

XU

ys

y

YV

Sulla base della proprietà della covarianza descritta alla fine del paragrafo precedente, la loro covarianza

risulta

yx

xyn

iii

yx

n

iii

yxuv

ss

syyxx

nssvu

nsss

11

1111

Questo indice, che verrà ripreso nelle pagine successive, è chiamato coefficiente di correlazione lineare

fra X e Y ed è usualmente indicato mediante la notazione

.yx

xyxy

ss

sr

5.7.1

Dalla formula precedente risulta che si tratta di un indice adimensionale (o numero puro) mentre la

dimostrazione che il suo campo di variazione è compreso nell’intervallo [-1, +1] si ottiene sulla base della

seguente disuguaglianza

n

ii

n

ii

n

iii zvzv

1

2

1

2

2

1

,

dovuta a Cauchy-Swartz.

Utilizzando la formula 5.6.5 ed applicando la disuguaglianza precedente, si ottiene il seguente risultato

98

22

1

2

1

2

2

1

2 111yx

n

ii

n

ii

n

iiixy ssyy

nxx

nyyxx

ns

in base al quale il quadrato della covarianza risulta sempre minore, o tutt’al più uguale, al prodotto delle

varianze delle due variabili.

Calcolando la radice quadrata dei due termini della disuguaglianza precedente si ottiene il campo di

variazione della covarianza, che risulta

yxxyyx sssss

I suoi due estremi, che differiscono solo per il segno, corrispondono quindi al prodotto delle deviazioni

standard delle due variabili, così che il coefficiente di correlazione 5.7.1 risulta essere un indice

adimensionale, svincolato dalle unità di misura utilizzate nella rilevazione delle variabili X e Y, che

assume valori nell’intervallo

11 xyr 5.7.2

Considerate due variabili quantitative X e Y, il loro coefficiente di correlazione lineare rxy

è un indice

adimensionale che assume valori compresi fra 1 e +1

Il segno di tale coefficiente dipende ovviamente dalla covarianza e indica se l’eventuale relazione fra X e

Y è diretta oppure inversa.

Esempio 5.7.1

Considerati i seguenti valori assunti dalla variabile età (X) e pressione sistolica (Y) rilevati su 8 individui, si determini

il coefficiente di correlazione lineare fra le due variabili

X 21 27 34 46 50 55 66 80

Y 130 113 120 135 129 144 175 206

Si ottiene

x 47.375 m2x

= 2590.375 9843753452 .sx

y 144.00 m2y

= 21291.5 58552 .s y

m1,1

= 7308.875 875486.sxy

Il coefficiente di correlazione lineare assume quindi il valore

99

894905855989375345

875486.

..

.rxy

Esempio 5.7.2

Data la seguente distribuzione bivariata, calcolare il coefficiente di correlazione lineare fra le due variabili

X\Y 0 1 2

-1.5 0.5 40 0 0 40

-0.5 0.5 0 40 40 80

0.5 1.5 0 20 60 80

40 60 100 200

Considerate le due distribuzioni marginali si ottengono le medie delle due variabili

20200

801800401.x

31

200

1002601400.y

e le varianze

560

200

802018020040201 2222 .

...sx

610

200

1003126031140310 2222 .

...sy

Il momento misto di ordine 1,1 è pari a

70

200

6021201111 .m ,

per cui la covarianza risulta

440312070 ....sxy

Il coefficiente di correlazione lineare risulta quindi pari a

75280610560

440.

..

.rxy

Proprietà

Il coefficiente di correlazione lineare è invariante rispetto a trasformazioni lineari delle due variabili, a parte

il segno

Dimostrazione

Questa proprietà deriva direttamente dalla proprietà della covarianza e dalla proprietà della

deviazione standard di trasformazioni lineari di variabili. Tenute presenti le formule 4.4.4 e 5.6.9,

risulta infatti che, date due variabili X e Y il cui coefficiente di correlazione lineare è rxy, il

coefficiente di correlazione lineare delle variabili trasformate

100

XW ba

Y''Z ba

corrisponde a

xy

yx

xy

yx

xy

zw

wzwz r

b'b

bb'

ssb'b

sbb'

sb'sb

sbb'

ss

sr

Seconda proprietà

Se fra due variabili quantitative X e Y esiste una relazione lineare diretta o inversa, il loro coefficiente di

correlazione lineare risulta necessariamente 1xyr .

Dimostrazione

Considerata una variabile X e la sua trasformazione lineare

Y = a + bX

la media, la varianza e la deviazione standard di Y sono rispettivamente uguali a

xbay 222xy sbs xy sbs

La covarianza fra X e Y è invece pari a

2

1

2

11

111x

n

ii

n

iii

n

iiixy sbxxb

nxbabxaxx

nyyxx

ns

per cui il coefficiente di correlazione lineare fra X e Y risulta

0per1

0per12

b

b

b

b

sbs

bs

ss

sr

xx

x

yx

xyxy

5. DISTRIBUZIONI BIVARIATE - docenti-deps.unisi.itdocenti-deps.unisi.it/.../sites/35/2019/03/5.-Distribuzioni-bivariate.pdf · 74 5.2 Distribuzioni bivariate Come già descritto per

Documents