72 5. DISTRIBUZIONI BIVARIATE 5.1 Introduzione Nei capitoli precedenti sono stati esaminati alcuni dei più comuni metodi statistici utilizzati per descrivere l’assetto distributivo di una variabile per evidenziarne le caratteristiche principali. Scopo delle prossime pagine sarà quello di estendere l'analisi a quei casi in cui su ogni unità statistica sono rilevate più variabili contemporaneamente. In questa situazione si possono studiare le caratteristiche delle singole variabili, ma l’interesse principale consiste nell’analizzare le eventuali relazioni esistenti fra le variabili stesse e nel misurarne l’intensità. Per semplicità sarà preso in considerazione solo il caso di due variabili e lo studio sarà quindi limitato alle cosiddette distribuzioni bivariate. Le due variabili statistiche oggetto dell'indagine saranno indicate genericamente con le lettere maiuscole X e Y e si parlerà o di due variabili X e Y o di una variabile (X, Y) a due dimensioni. Le due variabili considerate possono essere sia qualitative (sconnesse o ordinabili) sia quantitative (discrete o continue) e possono essere dello stesso tipo, oppure di tipo diverso. Su n individui può essere rilevato, per esempio, il titolo di studio e la posizione nella professione e in questo caso le due variabili sono entrambe di qualitative sconnesse. Su n imprese si può rilevare il ramo di attività economica (commercio, trasporti, credito, …) e il numero di addetti, per cui si tratta di una variabile qualitativa e di una variabile quantitativa discreta. Su n famiglie si può rilevare il reddito medio annuo e il consumo medio annuo, e in questo caso le due variabili prese in considerazione sono entrambe di tipo quantitativo e possono essere considerate di tipo continuo. L'osservazione delle due variabili su ognuna delle n unità considerate fornisce una sequenza di n coppie di modalità o di valori di X e Y, in cui ogni coppia si riferisce a una stessa unità. Le determinazioni rilevate su queste n coppie, indicate genericamente nel modo seguente (x 1 , y 1 ), (x 2 , y 2 ), ..., (x i , y i ), ..., (x n , y n ), possono essere elencate in un prospetto analogo a quello della tabella 5.1.1, in cui con x i e y i vengono indicate le determinazioni delle variabili X e Y rilevate sull'i-esima unità (i = 1, 2, …, n) ordinate in base all’ordine di rilevazione.
29
Embed
5. DISTRIBUZIONI BIVARIATE - docenti-deps.unisi.itdocenti-deps.unisi.it/.../sites/35/2019/03/5.-Distribuzioni-bivariate.pdf · 74 5.2 Distribuzioni bivariate Come già descritto per
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
72
5. DISTRIBUZIONI BIVARIATE
5.1 Introduzione
Nei capitoli precedenti sono stati esaminati alcuni dei più comuni metodi statistici utilizzati per descrivere
l’assetto distributivo di una variabile per evidenziarne le caratteristiche principali. Scopo delle prossime
pagine sarà quello di estendere l'analisi a quei casi in cui su ogni unità statistica sono rilevate più variabili
contemporaneamente.
In questa situazione si possono studiare le caratteristiche delle singole variabili, ma l’interesse principale
consiste nell’analizzare le eventuali relazioni esistenti fra le variabili stesse e nel misurarne l’intensità.
Per semplicità sarà preso in considerazione solo il caso di due variabili e lo studio sarà quindi limitato alle
cosiddette distribuzioni bivariate.
Le due variabili statistiche oggetto dell'indagine saranno indicate genericamente con le lettere maiuscole X
e Y e si parlerà o di due variabili X e Y o di una variabile (X, Y) a due dimensioni. Le due variabili
considerate possono essere sia qualitative (sconnesse o ordinabili) sia quantitative (discrete o continue) e
possono essere dello stesso tipo, oppure di tipo diverso.
Su n individui può essere rilevato, per esempio, il titolo di studio e la posizione nella professione e in questo
caso le due variabili sono entrambe di qualitative sconnesse. Su n imprese si può rilevare il ramo di attività
economica (commercio, trasporti, credito, …) e il numero di addetti, per cui si tratta di una variabile
qualitativa e di una variabile quantitativa discreta. Su n famiglie si può rilevare il reddito medio annuo e il
consumo medio annuo, e in questo caso le due variabili prese in considerazione sono entrambe di tipo
quantitativo e possono essere considerate di tipo continuo.
L'osservazione delle due variabili su ognuna delle n unità considerate fornisce una sequenza di n coppie di
modalità o di valori di X e Y, in cui ogni coppia si riferisce a una stessa unità. Le determinazioni rilevate
su queste n coppie, indicate genericamente nel modo seguente
(x1, y
1), (x
2, y
2), ..., (x
i, y
i), ..., (x
n, y
n),
possono essere elencate in un prospetto analogo a quello della tabella 5.1.1, in cui con xi e y
i vengono
indicate le determinazioni delle variabili X e Y rilevate sull'i-esima unità (i = 1, 2, …, n) ordinate in base
all’ordine di rilevazione.
73
Tabella 5.1.1
Esempio di sequenza di coppie relative a n osservazioni
X x1 x
2 ... x
i ... x
n
Y y1 y
2 ... y
i ... y
n
Si supponga, per esempio, che su 20 clienti di un’azienda che vende fondi di investimento si sia rilevato se
il cliente è un pensionato o meno e la tipologia di investimento scelto. Indicata con X la variabile che
assume valore 1 se il cliente è pensionato e valore 0 in caso contrario, e con Y la variabile che assume le
seguenti modalità A= “azioni”, V= “polizza vita”, F= “fondi” il prospetto seguente riporta la sequenza delle
coppie di determinazioni rilevate su 20 clienti.
Tabella 5.1.2
Sequenza delle coppie di determinazioni assunte da due variabili su 20 unità
(elencate secondo l’ordine di rilevazione)
X 0 0 1 1 1 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0
Y A F V A A F V V V A F V V V A V A V A V
Dai dati della tabella 5.1.2 risulta, per esempio, che il quarto cliente rilevato è un pensionato che
ha acquistato azioni, mentre il nono cliente non è un pensionato e ha acquistato una polizza vita.
Se le variabili sono qualitative ordinate o quantitative, le coppie possono essere anche elencate sulla base
della sequenza ordinata delle determinazioni assunte da una o dall'altra variabile, così come si è già visto
nel caso univariato, dato che l’eventuale ordinamento non altera in alcun modo le informazioni raccolte.
74
5.2 Distribuzioni bivariate
Come già descritto per il caso univariato, anche i risultati della rilevazione di una coppia di variabili
qualitative o quantitative discrete sono presentati di solito sotto forma di distribuzioni di frequenza mediante
dei prospetti, detti tabelle a doppia entrata o distribuzioni bivariate, che hanno una struttura analoga a
quella della tabella successiva.
Tabella 5.2.1
Esempio di distribuzione bivariata – frequenze assolute
X\Y d1 d
2 ... d
l ... d
h
c1 n
11 n
12 ... n
1l ... n
1h n
1.
c2 n
21 n
22 ... n
2l ... n
2h n
2.
. . . . . . . .
cj n
j1 n
j2 ... n
jl ... n
jh n
j.
. . . . . . . .
ck n
k1 n
k2 ... n
kl .... n
kh n
k.
n.1 n
.2 ... n
.l ... n
.h n
I simboli cj (j = 1, 2, ..., k) che compaiono sulla prima colonna rappresentano le k determinazioni diverse
che la variabile X assume sulle n unità statistiche esaminate, mentre i simboli dl (l = 1, 2, ..., h) riportati
sulla prima riga rappresentano le h determinazioni diverse che la Y assume sullo stesse unità.
Se le variabili sono qualitative ordinabili o quantitative discrete, le determinazioni sono riportate secondo
il loro ordine naturale.
Il simbolo njl, che si legge all'incrocio fra la riga c
j e la colonna d
l, indica il numero di unità sui quali sono
state rilevate contemporaneamente le determinazioni cj e d
l delle variabili X e Y.
I simboli n.1, n
.1, ..., n
.h riportati nell'ultima riga della tabella 5.2.1 indicano i totali delle diverse colonne e,
quindi, il numero di unità sulle quali sono state rilevate le determinazioni d1, d
2, ..., d
h della variabile Y,
senza tener conto delle determinazioni assunte dalla X.
Risulta perciò
k
jj. nn
111 , ...,
k
jlj.l nn
1
, ...,
k
jhj.h nn
1
.
75
Un significato analogo hanno i simboli nj. che, corrispondendo ai totali delle diverse righe, indicano il
numero di unità sulle quali sono state rilevate le determinazioni c1, c
2, ..., c
k della X, senza tener conto delle
determinazioni assunte dalla Y.
Risulta ovviamente
h
ll. nn
111 , ...,
h
ljlj. nn
1
, ...,
h
lklk. nn
1
.
Nel quadratino in basso a destra della tabella 5.2.1 la lettera n indica il numero totale delle unità statistiche
esaminate, per cui risulta
.nnnnk
j
h
ljl
h
l.l
k
jij.
1 111
Un esempio di distribuzione bivariata riferita a una variabile qualitativa sconnessa e a una qualitativa
ordinabile è riportato nella tabella successiva.
Tabella 5.2.2
Arrivi negli esercizi ricettivi in Italia per residenza dei clienti e mese – Anno 2007
Fonte ISTAT- Movimento dei clienti negli esercizi ricettivi
Mese\Residenza Italiani Stranieri
Gennaio 2863439 1509739 4373178
Febbraio 2898551 1951340 4849891
Marzo 3518301 2660268 6178569
Aprile 4782364 3662612 8444976
Maggio 4091207 4677447 8768654
Giugno 6212762 4992022 11204784
Luglio 6566385 5963598 12529983
Agosto 7818714 5232409 13051123
Settembre 4647082 5246572 9893654
Ottobre 3318629 3718105 7036734
Novembre 2924948 1768584 4693532
Dicembre 3398903 1446432 4845335
53041285 42829128 95870413
In questo caso, per esempio, la frequenza 1951340 posta all'incrocio fra “Febbraio” e “Stranieri”
corrisponde al numero di stranieri arrivati negli esercizi ricettivi italiani durante il mese di febbraio del
2007.
76
Le coppie costituite dagli elementi della prima e dell'ultima riga della tabella costituiscono invece la
distribuzione degli arrivi negli esercizi ricettivi italiani durante l’anno 2007 per residenza dei clienti, senza
tener conto del mese. Così, per esempio, sono circa 53 milioni gli italiani arrivati in un esercizio ricettivo
durante il 2007.
In maniera analoga si possono commentare i valori indicati sull’ultima colonna, per cui 4373178 è il numero
di arrivi negli esercizi ricettivi in Italia nel gennaio 2007, senza tenere conto della residenza dei clienti.
Se le variabili rilevate sono qualitative o quantitative discrete, la distribuzione congiunta delle due variabili
contiene le stesse informazioni della sequenza originaria.
Se almeno una delle due variabili è quantitativa continua, le informazioni raccolte saranno sintetizzate
utilizzando delle classi di valori, per le quali valgono tutte le considerazioni fatte a proposito delle
distribuzioni univariate. Evidentemente questa operazione comporta necessariamente una perdita di
informazione, ma evidenzia l’assetto distributivo della variabile oggetto di indagine, cosi come accadeva
nel caso univariato.
In questo caso sulla prima riga della tabella, sulla prima colonna, o su entrambe, sono indicate non le singole
determinazioni cj e d
l ma degli opportuni intervalli di valori (che saranno considerati sempre aperti a sinistra
e chiusi a destra, se non sarà diversamente specificato).
Se, per esempio, si utilizzano classi di valori sia per la X sia per la Y, all'incrocio fra la riga indicata con
l'intervallo cj-1c
j e la colonna indicata con l'intervallo d
l-1d
l il simbolo n
jl rappresenta il numero di unità
su cui sono stati rilevati contemporaneamente valori della X compresi nell’intervallo (cj-1
, cj] e valori della
Y compresi nell’intervallo (dl-1
, dl].
Esempio 5.2.1
Date le due seguenti sequenze di dati che si riferiscono ai livelli di colesterolo, misurati in mg per 100 ml, di due
diversi gruppi di unità
Gruppo 1
233, 291, 312, 250, 246, 197, 268, 224, 239, 239,
254, 276, 234, 181, 248, 252, 202, 218, 212, 325
Gruppo 2
344, 185, 263, 246, 224, 212, 188, 250, 148, 169,
226, 175, 242, 252, 153, 183, 137, 202, 194, 213
si organizzino i dati in una tabella a doppia entrata in cui la variabile X, che identifica il gruppo, assume valore 1 per
il primo gruppo e valore 2 per il secondo, mentre la variabile Y, che indica i livelli di colesterolo, è raggruppata nelle
classi 130-180, 180-220, 220-250, 250-350.
77
La distribuzione bivariata di X e Y assume la forma indicata nella tabella successiva.
Distribuzione di 40 unità per gruppo di appartenenza e livelli di colesterolo
X\Y 130 - 180 180 - 220 220 - 250 250 - 350
1 0 5 8 7 20
2 5 7 5 3 20
5 12 13 10 40
Nelle successive tabelle 5.2.3 e 5.2.4 sono riportati alcuni esempi di distribuzioni bivariate con variabili di
diverso tipo. Nel primo caso entrambe le variabili sono qualitative sconnesse, mentre nel secondo caso una
è qualitativa sconnessa e l’altra quantitativa discreta ma, a causa dell’elevato numero dei suoi diversi valori,
si è utilizzato un raggruppamento in classi.
Tabella 5.2.3
Produzione di vino per regione e marchio di qualità - Anno 2007 (Fonte ISTAT)
Marchio\Regione D.O.C. e D.O.C.G. I.G.T. Da tavola