1 Lez. 3 - Gli Indici di VARIABILITA’ - Campo di variazione - Scarto dalla media - Varianza - Scarto quadratico medio - Coefficiente di variazione Elementi di Statistica descrittiva
1
Lez. 3 - Gli Indici di VARIABILITA’
- Campo di variazione- Scarto dalla media- Varianza- Scarto quadratico medio- Coefficiente di variazione
Elementi di Statistica descrittiva
2
Indici di Variabilità
I valori medi sono indici importanti per la descrizione sintetica di un fenomeno statistico
Hanno però il limite di non darci alcuna informazione sulla distribuzione dei dati
3
EsempioIn tre differenti prove di matematica 4 studenti
hanno riportato le seguenti valutazioni
1a Prova 2a Prova 3a Prova1° studente 3 5 62° studente 5 7 73° studente 8 6 64° studente 9 7 6
media 6,25 6,25 6,25
In tutte e tre le prove la media è 6,25
ma i dati sono chiaramente distribuiti in modo diverso
4
Diagramma di distribuzione delle tre prove
Diagramma dispersione dati
0123456789
10
0 1 2 3 4
num prova
valu
tazi
oni
1 studente
2 sttudente
3 studente
4 studente
media
5
• nel caso della 1a prova e 2a prova sarà opportuno
fare un recupero per alcuni studenti• nel caso della 3a prova l’insegnante può ritenere
che gli obiettivi siano stati raggiunti dalla classe, anche se ad un livello solo sufficiente
Diagramma dispersione dati
0123456789
10
0 1 2 3 4
num prova
valu
tazi
oni
1 studente
2 sttudente
3 studente
4 studente
media
6
• Campo di variazione (Range)• Scarto medio dalla media• Varianza e scarto quadratico medio• Coefficiente di variazione
In statistica è possibile valutare in modo sintetico la distribuzione dei dati mediante gli
indici di variabilità (o dispersione)
Vedremo i seguenti indici
7
Campo variazione = x max – x min
Campo di variazione
E’ il più semplice degli indici di variazione:
Si calcola facendo la differenza tra il dato più grande e il dato più piccolo
Rappresenta l’ampiezza dell’intervallo dei dati
8
Esempio
Consideriamo le valutazioni della prima prova
1a Prova1° studente 32° studente 53° studente 84° studente 9
media 6,25
Xmax = 9;
Xmin = 3 Range = 9 – 3 = 6
9
Calcoliamo il Range per tutte le tre prove
1a Prova 2a Prova 3a Prova1° studente 3 2 62° studente 5 7 73° studente 8 8 64° studente 9 8 6
media 6,25 6,25 6,25range 6 6 1
Range 1a prova = 6 dati più dispersi, risultati più eterogenei
Range 3a prova = 1 dati più concentrati, risultati più omogenei
Range 2a prova = Range 1a prova = 6 Stessa Distribuzione?
10
Campo di variazione delle tre prove
0123456789
10
0 1 2 3 4
num prova
valu
tazi
oni
1 studente
2 sttudente
3 studente
4 studente
range
Vediamo graficamente
11
Osservazioni:1. Il campo di variazione dà informazioni sulla distribuzione dei dati:
• più R è piccolo più i dati sono concentrati; • più R è grande più i dati sono dispersi.
2. R è espresso nella stessa unità di misura dei dati
3. Tuttavia R tiene conto solo dei dati estremi della distribuzione e non di tutti i dati, pertanto distribuzioni diverse ma con gli stessi valori estremi hanno range uguali Es. Range 1aprova = Range 2a prova.
ma distribuzione 1a prova Distribuzione 2a prova
12
Scarto medio dalla media aritmetica
Un altro modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze
Scarto medio = Distanza media dei dati dalla media
n
xxxxxx n
.....S medio Scarto
21
m
13
Esempio
Consideriamo le valutazioni della prima prova
1a Prova1° studente 32° studente 53° studente 84° studente 9
media 6,25
x1 = 3 – 6,25 = 3,25; x2 = 5 – 6,25 = 1,25;
x3 = 8 – 6,25 = 1,75; x4 = 9 – 6,25 = 2,75;
Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25 4
14
Calcoliamo lo Scarto medio per tutte le tre prove
Scarto 1a prova = 2,25 dati più dispersi, risultati più eterogenei
Scarto 3a prova = 0,38 dati più concentrati, risultati più omogenei
Scarto 2a pr. Scarto 1a pr. “Le Distribuzioni Differiscono”
1a Prova 2a Prova 3a Prova1° studente 3 2 62° studente 5 7 73° studente 8 8 64° studente 9 8 6
media 6,25 6,25 6,25scarto medio 2,25 2,13 0,38
15
Diagramma degli scarti dalla media
Diagramma degli scarti dalla media
-5,00-4,00-3,00-2,00-1,000,001,002,003,004,00
1 2 3
num. prova
Scar
to d
alla
med
ia stud.1
stud.2
stud.3
stud.4
16
Osservazioni:1. Lo scarto medio dalla media dà informazioni sulla distribuzione dei dati:
• più SM è piccolo più i dati sono concentrati; • più SM è grande più i dati sono dispersi.
2. SM è espresso nella stessa unità di misura dei dati
3. Non ha l'inconveniente del “Campo di variazione” in quanto SM tiene conto di tutti i dati della distribuzione
17
Varianza e Scarto quadratico medio
Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati.
Varianza
Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M
n
xxxxxx n
22
2
2
12 ..... Varianza
18
n
x
n
xxn
i
n
i
1
2
1
2
Varianza
19
Esempio - Varianza
Consideriamo le valutazioni della prima prova
1a Prova1° studente 32° studente 53° studente 84° studente 9
media 6,25
(x1)2 = (3 – 6,25 )2 = 10,5625; (x2)2 = (5 – 6,25 )2 = 1,5625;
(x3)2 = (8 – 6,25 )2 = 3,0625; (x4)2 = (9 – 6,25 )2 = 7,5625;
2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875 4
20
Calcoliamo la Varianza per tutte le tre prove
Varianza 1aprova = 5,69 dati più dispersi, risultati più eterogenei
Varianza 3a prova = 0,19 dati più concentrati, risultati più omogenei
Varianza 2a pr. Varianza 1a pr “Le Distribuzioni Differiscono”
1a Prova 2a Prova 3a Prova1° studente 3 2 62° studente 5 7 73° studente 8 8 64° studente 9 8 6
media 6,25 6,25 6,25varianza 5,69 6,19 0,19
21
Scarto quadratico medio o Deviazione standard
È uguale alla radice quadrata della varianza
n
x
n
xxn
i
n
i
1
2
1
2
medioquadr Scarto
n
xxxxxx n
22
2
2
1 ..... medio quadr. Scarto
22
Esempio - Scarto quadratico medio
Riprendiamo le valutazioni della prima prova1a Prova scarti da M scarti2
1° studente 3 -3,25 10,56252° studente 5 -1,25 1,56253° studente 8 1,75 3,06254° studente 9 2,75 7,5625
media 6,25 0,00 5,6875
3848,26875,521
2
n
xn
i
23
Calcoliamo lo Scarto quadratico medio per tutte le prove
Scarto q. 1aprova = 2,38 dati più dispersi, risultati più eterogenei
Scarto q. 3aprova = 0,43 dati più concentrati, risultati più omogenei
Scarto q. 2a pr. Scarto q. 1a pr “Le Distribuzioni Differiscono”
1a Prova 2a Prova 3a Prova1° studente 3 2 62° studente 5 7 73° studente 8 8 64° studente 9 8 6
media 6,25 6,25 6,25scarto quadratico 2,38 2,49 0,43
24
Osservazioni:
1. La varianza 2 e lo scarto quadratico medio danno informazioni sulla distribuzione dei dati:
• più 2 e sono piccoli più i dati sono concentrati; • più 2 e sono grandi più i dati sono dispersi.
2. Entrambi gli indici tengono conto di tutti i dati della distribuzione
25
3. Entrambi si basano sulla proprietà della media per cui la somma dei quadrati degli scarti dalla media è minima
4. La varianza è espressa mediante il quadrato dell’unità di misura dei dati
5. Lo scarto quadratico nella stessa unità di misura dei dati e pertanto viene preferito alla varianza
26
Il coefficiente di variazione CV
Il CV è una misura relativa di dispersione (le precedenti sono misure assolute) ed è una grandezza adimensionale.
E’ particolarmente utile quando si devono confrontare le distribuzioni di due gruppi con medie molto diverse o con dati espressi in scale differenti (es. confronto tra variazione del peso e variazione dell’altezza).
%100
xCV
27
Se i valori di CV sono esterni a quelli indicati o si è in presenza di errori di rilevazione, oppure il fenomeno presenta aspetti particolari.• se CV è molto basso (2 – 3 %) bisogna sospettare
l’esistenza di fattori limitanti la variabilità,• se CV è molto alto (intorno al 40% o più) è molto
probabile l’esistenza di fattori che aumentano la variabilità
In natura il coeff. di variazione tende a rimanere costante per ogni fenomeno: i valori normalmente variano dal 5% al 15%
28
Calcoliamo il Coeff. di variazione delle tre prove
CV 1a prova = 38,16% dati più dispersi, risultati più eterogenei
CV 3a prova = 6,93% dati più concentrati, risultati più omogenei
CV 2a pr. CV 1a pr “Le Distribuzioni Differiscono”
1a Prova 2a Prova 3a Prova1° studente 3 2 62° studente 5 7 73° studente 8 8 64° studente 9 8 6
media 6,25 6,25 6,25scarto quadratico 2,38 2,49 0,43coeff. variazione 38,16% 39,80% 6,93%
29
Le misure di Forma
Sono indici sintetici utilizzati per evidenziare particolarità nella forma della distribuzione.
Noi esamineremo:• l’asimmetria• la curtosi
30
AsimmetriaUna distribuzione è simmetrica quando la sua curva di frequenza presenta un asse di simmetriaIn una distribuzione simmetrica media, mediana e moda sono coincidenti.
Confronto di distrib. normali
0
0,05
0,1
0,15
0,2
0,25
0 2 4 6 8 10 12 14 16
valori della variabile
freq
uenz
a
1° distrib. normale
media = mediana = moda
In una distribuzione asimmetrica media, mediana e moda non sono più coincidenti
e proprio la differenza (distanza) tra la media e la moda può essere considerata una misura della asimmetria
31
ii
ii
i
f
fxxa
3
3
1
Un altro coeff di asimmetria è il Coeff. di asimmetria (di Fisher)
= scarto quadratico medio
Se a = 0 distribuzione simmetrica
Se a > 0 asimmetria destra
Se a < 0 asimmetria sinistra
Sono state proposte diverse misure dell’ asimmetria, per esempio le più semplici sono:
modax
medio quadratico scartomodaeticamediaaritmasimmetria
mediana)x
medio quadratico scartoedianamtmetica3(mediaariasimmetria
(3)
Dette rispettivamente: primo e secondo coeff. di asimmetria di Pearson
32
moda < mediana < media
Asimmetria positiva (as. Destra)La distribuzione è asimmetrica quando non presenta nessun asse di simmetria.Si ha un’asimmetria positiva o destra quando il ramo destro della curva è più lungo di quello sinistro
In questo caso si ha:
Asimmetria positiva o destra
0
2
4
6
8
10
12
0 20 40 60 80 100 120 140 160
valori
frequ
enza
media=63,65moda = 48
mediana =58
33
media < mediana < moda
Asimmetria negativa (as. Sinistra)
Si ha un’asimmetria negativa o sinistra quando il ramo sinistro della curva è più lungo di quello destro
In questo caso si ha:
Asimmetria negativa o as. sinistra
0
2
4
6
8
10
12
14
0 20 40 60 80 100 120 140
valori
frequ
enza
media = 85,24
moda = 100mediana = 90
34
CurtosiSe una distribuzione è simmetrica o quasi simmetrica allora può esser più o meno appuntita o più o meno appiattita rispetto alla distribuzione normale (o di Gauss)
Se la curva è • più appuntita si dice curva Leptocurtica• più appiattita si dice curva Platicurtica
ii
ii
i
f
fxxK
4
4
1
Coeff. di curtosi di Pearson
= scarto quadratico medio 0 K < + infSe K = 3 distribuzione normalese K > 3 curva leptocurticaSe K < 3 curva platicurtica.
35
Curtosi
Confronto delle Curtosi
-0,05
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0 2 4 6 8 10 12 14 16
valori della variabile
freq
uenz
a
leptocurtosi K = 8,57
platicurtosi K = 2,8
curva normale K = 3
36
Curtosi
Spesso il coeff. di curtosi viene indicato con b2 che, come visto, nel caso della distribuzione normale è = 3 pertanto, talvolta, la curtosi viene indicata con (b2 – 3) Allora:
se la distribuzione è normale (b2 – 3 ) = 0
se la distribuzione è leptocurtica (b2 – 3 ) > 0
se la distribuzione è platicurtica (b2 – 3 ) < 0
37
Fine Lezione