23 3. INDICI DI POSIZIONE 3.1 Introduzione Nello studio delle caratteristiche di una variabile, le cosiddette medie sono particolari indici statistici, detti anche indici di posizione, che risultano di fondamentale importanza perché consentono di descrivere sinteticamente l’insieme dei dati osservati mediante una sola modalità o un unico valore numerico, a seconda che la variabile considerata sia qualitativa o quantitativa. Gli indici che saranno esaminati nei paragrafi seguenti si suddividono in medie di posizione, determinabili per una variabile di qualsiasi natura, e medie analitiche, che possono essere invece calcolate solo per variabili quantitative, dato che richiedono l’esecuzione di operazioni algebriche. L’obiettivo che si vuole conseguire con il calcolo degli indici di posizione è la sintesi di tutte le informazioni contenute nei dati originali attraverso una sola determinazione che sia in qualche modo rappresentativa di tutte le rilevazioni effettuate, per cui è evidente che la media di una variabile qualitativa dovrà necessariamente coincidere con una delle modalità assunte dalla variabile, mentre nel caso di una variabile quantitativa la media sarà sempre interna al suo campo di variazione.
25
Embed
3. INDICI DI POSIZIONE - unisi.it · determinabili per una variabile di qualsiasi natura, e medie analitiche, che possono essere invece calcolate solo per variabili quantitative,
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
23
3. INDICI DI POSIZIONE
3.1 Introduzione
Nello studio delle caratteristiche di una variabile, le cosiddette medie sono particolari indici statistici,
detti anche indici di posizione, che risultano di fondamentale importanza perché consentono di descrivere
sinteticamente l’insieme dei dati osservati mediante una sola modalità o un unico valore numerico, a
seconda che la variabile considerata sia qualitativa o quantitativa.
Gli indici che saranno esaminati nei paragrafi seguenti si suddividono in medie di posizione,
determinabili per una variabile di qualsiasi natura, e medie analitiche, che possono essere invece
calcolate solo per variabili quantitative, dato che richiedono l’esecuzione di operazioni algebriche.
L’obiettivo che si vuole conseguire con il calcolo degli indici di posizione è la sintesi di tutte le
informazioni contenute nei dati originali attraverso una sola determinazione che sia in qualche modo
rappresentativa di tutte le rilevazioni effettuate, per cui è evidente che la media di una variabile qualitativa
dovrà necessariamente coincidere con una delle modalità assunte dalla variabile, mentre nel caso di una
variabile quantitativa la media sarà sempre interna al suo campo di variazione.
24
3.2 Moda
La prima caratteristica che si nota esaminando una distribuzione di frequenza relativa a una variabile
qualitativa o quantitativa discreta è la determinazione (o le determinazioni) a cui è associata la frequenza
(assoluta o relativa) più elevata.
Questa determinazione è detta determinazione modale o, più semplicemente, moda. Se esistono più
determinazioni a cui è associata la stessa frequenza massima, tutte queste determinazioni rappresentano
altrettante mode della distribuzione.
Considerata una variabile qualitativa o quantitativa discreta X che assume k determinazioni diverse e
indicata con nj la frequenza assoluta associata alla j-esima determinazione (con j = 1,2, …, k), la moda M
x
della variabile X è quella determinazione della variabile per la quale risulta
𝑀𝑥 = arg max1≤𝑗≤𝑘
𝑛𝑗 3.2.1
dove arg max sta per argomento del massimo ossia, per il caso in esame, corrisponde all'insieme delle
determinazioni della variabile a cui è associata la frequenza massima.
Se la distribuzione è espressa mediante le frequenze relative, anziché mediante le frequenze assolute, la
moda corrisponde ovviamente a quella determinazione della X per la quale risulta
𝑀𝑥 = arg max1≤𝑗≤𝑘
𝑓𝑗 3.2.2
Dato che l’individuazione della moda si basa solo sui valori assunti dalle frequenze (assolute o relative),
risulta evidente che questo indice può essere determinato per una variabile di qualunque tipo.
Per esempio, la moda della variabile considerata nella tabella nella 2.1.1 è "altre attività", nella tabella
2.1.2 è il "diploma di scuola secondaria superiore", nella tabella 2.1.3 è "2 componenti" e nella 2.1.8 è
"prime edizioni".
Le mode appena individuate sulle distribuzioni di frequenza delle variabili considerate sarebbero potute
essere individuate anche attraverso l’analisi del grafico corrispondente, dato che in tutti i casi la moda
corrisponde alla determinazione a cui è associato il rettangolo o il segmento con l’altezza maggiore (per
grafici a colonna o per i diagrammi ad asta) oppure al rettangolo con la base maggiore (per grafici a
nastro).
25
Così, per esempio, la moda della distribuzione rappresentata nelle figure 2.3.2 o 2.3.3 è "industria", la
moda della distribuzione rappresentata nella figura 2.3.4 è "sufficiente", la moda della distribuzione
rappresentata nella figura 2.3.5 è il valore "2" e nella figura 2.3.6 la moda è “1”.
Ovviamente se in una distribuzione ci sono più determinazioni a cui è associata la stessa frequenza
massima, la variabile presenta più mode, mentre non c'è alcuna moda se tutte le frequenze sono uguali fra
loro.
Una distribuzione che presenta una sola moda è detta unimodale, mentre è detta plurimodale se presenta
più mode. In particolare, se esistono due mode, la distribuzione è detta “bimodale”, se ne esistono tre è
detta “trimodale” e così via.
Nel caso di una distribuzione di una variabile continua mediante classi di valori, l’individuazione della
moda non può essere effettuata in base ai valori delle frequenze associate a ciascuna classe in quanto,
come si è già detto in precedenza, all’aumentare dell’ampiezza della classe tende ad aumentare anche la
frequenza associata. Per determinare la moda occorre quindi individuare l’intervallo che, a parità di
ampiezza, contiene la frazione maggiore delle osservazioni.
Nelle distribuzioni di variabili continue date mediante classi di valori, è detto modale quell'intervallo che
presenta la massima densità di frequenza. Anche in questo caso possono esistere più classi modali, se a
più intervalli diversi è associata una stessa densità di frequenza massima.
Nel caso della tabella 2.4.1, per esempio, l'intervallo modale della distribuzione è la classe (160, 165] in
corrispondenza della quale si ha il massimo valore del rapporto fra frequenza e ampiezza.
In generale, quindi, considerata una variabile quantitativa continua X i cui valori sono stati suddivisi in k
classi e indicata con hj la densità di frequenza associata alla j-esima classe (con j = 1,2, …, k), la classe
modale Mx è quell’intervallo per il quale risulta
𝑀𝑥 = arg max
1≤𝑗≤𝑘ℎ𝑗 3.2.3
Anche in questo caso la determinazione della classe modale può avvenire graficamente, in quanto
corrisponde al rettangolo dell’istogramma che presenta la massima altezza. Per esempio, la figura 2.4.1
mostra chiaramente che la moda corrisponde alla classe (160, 165], così come si era rilevato anche dai
valori riportati nella tabella 2.4.1.
Se la determinazione della moda è estremamente semplice, va però notato che il suo utilizzo è abbastanza
limitato. Dato che la moda non fornisce alcuna informazione ulteriore sulla distribuzione della variabile,
26
la sua conoscenza non è particolarmente utile se le determinazioni assunte dalla variabile sono piuttosto
numerose, specie se la massima frequenza non è sensibilmente più elevata delle frequenze associate alle
altre determinazioni.
É inoltre evidente che la determinazione dell'intervallo modale per una variabile quantitativa continua
risente di tutte le arbitrarietà della suddivisione in classi che è stata effettuata.
Un pregio della moda è invece la sua “robustezza”, nel senso che questo indice non risente della eventuale
presenza di determinazioni molto grandi o molto piccole che potrebbero corrispondere a valori anomali
(in inglese, outlier), ossia a determinazioni che si discostano di molto dalle restanti determinazioni assunte
dalla variabile.
Nota
In una distribuzione possono essere individuati anche valori modali, detti secondari o locali, che corrispondono a
massimi relativi della distribuzione. In questo caso la determinazione della distribuzione a cui è associata la
frequenza massima è detta anche moda principale.
Nell’esempio 2.4.1 riportato alla fine del paragrafo 2.4 si ha una moda principale in corrispondenza dell’intervallo
[3001, 4000] e una moda secondaria in corrispondenza dell’intervallo [1001, 2000]
27
3.3 Quantili
Date n osservazioni relative alla variabile quantitativa X si definisce quantile di ordine p (con 0 < p < 1),
e si indica con xp, quel particolare valore della variabile per cui la proporzione di osservazioni inferiori o
uguali a xp è almeno p (e quindi la proporzione di osservazioni maggiore o uguale a xp è almeno 1-p).
Se, per esempio, per una distribuzione di redditi annui è noto che il quantile di ordine 0.25 è pari a 5 mila
euro, questo vuol dire che almeno un quarto delle unità considerate ha un reddito annuo inferiore o uguale
a 5 mila euro; se in una distribuzione di stature x0,8 vale 178 centimetri, significa che almeno l’80% delle
unità ha una statura inferiore o uguale a 178 centimetri.
Data una sequenza di n osservazioni relative a una variabile quantitativa X, il quantile xp di ordine p è
l’osservazione che nella sequenza ordinata occupa il posto corrispondente alla parte intera superiore del
prodotto np, indicato con np
Il simbolo np rappresenta quindi la parte intera superiore di np per cui
1< npnpnp .
Esempio 3.3.1
Considerata la seguente sequenza di osservazioni rilevate su 5 piantine di cui si è misurata l’altezza ottenendo i
seguenti valori in centimetri
23.4 18.2 21.0 22.7 19.1
si determini il quantile di ordine p = 0.5 della variabile.
In questo caso n = 5, per cui
35.25.05 np . Il quantile di ordine 0.5, x0.5, occupa quindi il terzo posto nella sequenza ordinata
18.2 19.1 21.0 22.7 23.4
per cui risulta
x0.5 = x(3 )= 21.
Esempio 3.3.2
Si supponga ora che alle unità dell’esempio precedente si sia aggiunta una nuova piantina, la cui altezza in
centimetri è pari a 21.5. Si vuole determinare il quantile di ordine p = 0.5 delle 6 unità statistiche.
In questo caso la sequenza ordinata è la seguente
18.2 19.1 21.0 21.5 22.7 23.4
per cui, dato che n = 6,
335.06 np .
Il quantile di ordine 0.5 occupa quindi il terzo posto nella sequenza ordinata per cui risulta ancora
x0.5 = x(3 ) = 21.0.
28
Considerata una generica sequenza, tutti i suoi termini sono evidentemente quantili di un certo ordine
della variabile X, ma fra questi alcuni sembrano più indicativi di altri perché fanno riferimento a quei
valori di p che corrispondono a quelli di uso più comune e sono considerati, quindi, come altrettanti valori
caratteristici della X.
Sono frequentemente utilizzati i quantili x0.25, x0.5 e x0.75 che, per la loro importanza nella descrizione delle
caratteristiche della variabile X, hanno un nome particolare e vengono detti quartili.
Il quartile più importante è il secondo, x0.5, comunemente chiamato mediana, perché indica quel
particolare valore della variabile tale che almeno la metà delle unità presenta un valore minore o uguale a
x0.5 e almeno la metà delle unità presenta un valore maggiore o uguale a x0.5.
Per esempio l’ISTAT fa espressamente riferimento al “reddito mediano” in numerosi studi volti a
confrontare la distribuzione del reddito in Italia rispetto a quella di altri Paesi europei, oppure per
analizzare condizioni di vita e livello di povertà delle famiglie italiane nei diversi anni.
Altri quantili di uso frequente sono i nove decili x0.1, x0.2, ..., x0.9 e i novantanove centili x0.01, x0.02, ..., x0.99.
In questi casi la mediana corrisponde al quinto decile o al cinquantesimo centile.
Esempio 3.3.3
Considerata la seguente sequenza di n=10 valori di una variabile quantitativa continua X 3.20 3.25 2.80 2.96 3.00 3.18 3.12 1.87 1.99 2.02
si determinino i suoi tre quartili.
La sequenza ordinata è
1.87 1.99 2.02 2.80 2.96 3.00 3.12 3.18 3.20 3.25
per cui il primo quartile occupa il posto 35.225.010 np , la mediana il posto 555.010 np
e il terzo quartile il posto 85.775.010 np . Risulta quindi x0.25 = 2.02 x0.5 = 2.96 x0.75 = 3.18 Esempio 3.3.4
Considerata la seguente sequenza di n=14 valori di una variabile quantitativa discreta X 3 1 5 -2 -3 -5 0 10 -9 20 12 6 -21 8
si determinino i suoi tre quartili.
La sequenza ordinata è
-21 -9 -5 -3 -2 0 1 3 5 6 8 10 12 20
per cui il primo quartile occupa il posto 45.325.014 np , la mediana il posto 775.014 np
e il terzo quartile il posto 115.1075.014 np . Risulta quindi x0.25 = -3 x0.5 = 1 x0.75 = 8
29
Se nella sequenza degli n valori alcuni di questi si presentano più di una volta, l’addensamento delle
frequenze in corrispondenza di alcune determinazioni fa sì che uno stesso valore della variabile possa
corrispondere a più quantili di ordine diverso.
Se, per esempio, si considera la seguente sequenza ordinata dei voti in statistica ottenuti da 20 studenti