Progetto di diffusione della cultura Statistica Dipartimento di Statistica Regione Toscana Comune di Firenze Introduzione alla statistica descrittiva: grafici, indici di posizione e dispersione Carla Rampichini Dipartimento di Statistica “G. Parenti” Università di Firenze Materiale: http://www.ds.unifi.it/didattica/percorsi/concorsoscuole/
53
Embed
Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Progetto di diffusione della cultura StatisticaDipartimento di Statistica Regione Toscana Comune di Firenze
Introduzione alla statisticadescrittiva: grafici, indici diposizione e dispersione
Carla RampichiniDipartimento di Statistica “G. Parenti”Università di Firenze
Diagrammi statisticiMigliore percezione Dalla tabella alla
rappresentazione grafica dell’informazioneTab. 1- Popolazione per sesso econdizione anno 1999 (%)
Fonte: Istat, Rapporto sull'Italiaedizione 2001, il Mulino
Fig. 1- Popolazione per sessoe condizione anno 1999 (%)
Condizione Maschi FemmineOccupati 47.4 25.7In cerca di occup. 4.6 4.8Non FF.LL. età lav. 18.7 36.1Non FF.LL. età non lav. 29.3 33.4TOTALE 100 100
0 5 10 15 20 25 30 35 40 45 50
Occupati
In cerca di occup.
Non FF.LL. età lav.
Non FF.LL. età non lav.
condizione
Femmine
Maschi
Diagrammi a barre per variabili qualitative
Categorie lungo l’asse orizzontaleAltezze proporzionali alle frequenze (o alle %)Barre possono essere anche tracciate orizzontalmente
NB. Le barre sono separate: la variabile non può assumere valori tra una categoria e l’altra
Cosa succede se cambiamo l’ordine delle barre?
VARIABILI SCONNESSE: nel diagramma per il mezzo di trasporto o in quello dell’arrivo a scuola in orario l’ordine delle barre è completamente arbitrario
VARIABILI ORDINALI: nel diagramma dell’ora in cui ci si alza le categorie sono ORDINATE e quindi devono essere rappresentate nell’ordine giusto per vedere l’andamento delle frequenze
Diagramma a barre per gruppi di osservazioni
Le barre del diagramma rappresentano le frequenze congiunte: ci sono 14 ragazze non fumatrici Confrontando le barre a coppie (barra verde e blu) possiamo vedere che sia trai maschi che tra le femmine di questa classe è più probabile essere non fumatori che fumatoriMentre confrontando le due barre verdi, possiamo vedere che tra i fumatori ci sono più maschi che femmine
Condizione TOTALEOccupati 20435disoccupati 996in cerca di 1a occup. 1152altri 596TOTALE 23179
Tab. 2- Forze lavoro percondizione anno 1999 (migliaia)
Fonte: Istat, Rapporto sull'Italiaedizione 2001, il Mulino
Diagramma con rettangoli distanziati: altezza proporzionale
alla frequenza
Fig. 2- Forze lavoro per condizioneanno 1999 (migliaia)
Diagramma circolare (torta): angolo al centro proporzionale alla
frequenzaOccupati
disoccupati
in cerca di 1a occup. altri
Nnj×°= 360α
0
5000
10000
15000
20000
25000
Occupati disoccupati in cerca di 1a occup. altri
Diagrammi per seriesconnesse o ordinate
Fig. 2- Forze lavoro per sesso econdizione anno 1999 (migliaia)Tab. 2- Forze lavoro per sesso e
condizione anno 1999 (migliaia)
0
2000
4000
6000
8000
10000
12000
14000
Occupati disoccupati in cerca di 1a occup. altri
MaschiFemmine
Condizione Maschi FemmineOccupati 13090 7345disoccupati 588 408in cerca di 1a occup. 607 545altri 118 478TOTALE 14403 8776Fonte: Istat, Rapporto sull'Italiaedizione 2001, il Mulino
0
2000
4000
6000
8000
10000
12000
14000
16000
Maschi Femmine
altri
in cerca di 1a occup.
disoccupati
Occupati
Diagramma a rettangoli distanziati: altezza proporzionale alla frequenza di ciascuna modalità
CartogrammiRappresentazione di serie territoriali
Aree geografiche: comuniCarattere: densità della popolazione
Fonte: regione Toscana, Toscana in cifre anno 2002http://www.regione.toscana.it/statistiche/index.htm
Grafici per variabili quantitative discrete
Tab. 3 – Famiglie per numero di componenti. Italia 1998 (v.a e %)Componenti v.a. %1 4594130 21.652 5527810 26.053 4954870 23.354 4466810 21.055 1294420 6.16 e più 381960 1.8Totale 21220000 100
0
5
10
15
20
25
30
0 1 2 3 4 5 6 7
n. componenti
%
Fig. 3 – Famiglie per numero di componenti. Italia 1998
(freq. rel. %)
Diagramma a bastoncini: altezza proporzionale alla frequenza
Fonte: Istat, Rapporto sull'Italiaedizione 2001, il Mulino
Grafici per variabili quantitative Istogramma
L’istogramma rappresenta un insieme di casi (raggrupati in classi) come rettangoliL’altezza dell’istogramma è proporzionale alla frequenza di ciascuna classe
frequenza n.casi
Esempio: istogramma velocità dei mammiferiL’istogramma mostra la forma, il centro e la dispersione dei dati
Istogramma (2)Cambiando l’ampiezza delle barre dell’istogramma (classi) a volte si ha un’impressione diversa della forma della distribuzionePer esempio, l’istogramma (1) per la velocità dei mammiferi ha meno barre più ampie rispetto all’ istogramma (2) e mostra una forma a campana più simmetrica, con un solo picco invece di 2 Se ci sono pochi valori è difficile identificare i picchi, in questi casi èmeglio utilizzare grafici che mostrano i singoli dati, come il dotplot o lo steamplot
Istogramma (3)Non c’è una regola per trovare qual è l’ampiezza di classe migliore per disegnare l’istogramma, proprio come per un fotografo non c’è una regola che gli dica quando usare lo zoom! Versioni diverse del grafico mettono in luce caratteristiche differenti della distribuzione: il lavoro dello statistico è trovare quella versione che mostra le caratteristiche più importanti!Un istogramma è una buona rappresentazione dei dati quando:
Ci sono molti valori da rappresentareNon interessa conoscere la posizione di ciascun valoreSi è interessati a mostrare la forma generale della distribuzione
Istogramma (4)
L’istogramma può essere costruito utilizzando sia le frequenze assolute che relative, o percentualiAttenzione: se le classi non hanno ampiezza costante, come negli esempi fatti, la costruzione dell’istogramma è più complicata!
EsempioQuale proporzione degli studenti ha un’altezza di 180 cm o più?
SoluzioneIndividuate l’intervallo di valori >180 sulla’asse XQuale proporzione dell’area totale corrisponde alle barre su questo intervallo?
•A occhio questa proporzione è circa 1/3 circa 1/3 degli studenti di questa classe hanno un’altezza>180
•In maniera più precisa: possiamo sommare le altezze delle 3 barre dell’istogramma alla destra di 180, cioè 22+6+2 = 30
•Se le classi non hanno uguale ampiezza: sommare le aree!
Provate voi a fare un esercizio
Costruite l’istogramma per la durata di vita media e massima per alcuni mammiferiConviene usare classi di 10 anni per la durata massima e di 5 anni per la duratamediaVediamo insieme cosa possiamo leggereda questi grafici
Istogramma durata vitala vita media varia tra 1 e 41, mentre la vita massima varia da 4 a 70 anni
Meglio utilizzare classi di 5 anni per la vita media e di 10 per la vita massima
La forma dell’istogramma della vita media è molto diversa da quella della vita massima
La distribuzione della vita mediaè centrata sul valore 13 (media)la maggior parte dei valori sono compresi tra 5 e 20ci sono valori anomali (outliers) a destra, nelle classi [35,40) e [40,45)
La distribuzione della vita massima èpiù regolarec’è un picco nella classe [20,30) annie un valore anomalo nella classe [70,80) anni. il valore centrale è molto più alto!
13
31
Media e medianaSono entrambi indici di posizione
indicano il centro della distribuzione
La mediana divide la distribuzione in due parti ugualiLa media è il punto di equilibrio dell’istogramma, come una bilancia, si ottiene sommando i valori e dividendo per il numero di valori
Negli istogrammi visti è più grande la media o la mediana?
La media è il punto di equilibrio di una distribuzione
•Per trovare la media osservando un istogramma, trovate il punto in cui dovreste mettere un dito sotto l’asse orizzontale per tenere in equilibrio la distribuzione immaginando che i rettangoli abbiano un peso proporzionale alla loro area.
•Se una distribuzione è approssimativamente normale, il suo punto di equilibrio corrisponde all’asse di simmetria, quindi la media si trova sull’asse orizzontale direttamente sotto il punto di massimo.
MedianaLa mediana è il
valore che divide i dati in due metà
La mediana divide l’area dell’istogramma in due parti uguali
Per trovare la mediana:• ordinare i valori dal più piccolo al più grande• e prendere quello che sta nel mezzo (N dispari) o la media dei due che stanno nel mezzo (N pari)
Media e mediana: speranza di vita dei mammiferi
Il valore in cui l’istogramma sta in equilibrio (media) è più grande del valore che divide l’area in due parti uguali (la mediana) perché la distribuzione non è simmetrica
Se la distribuzione fosse simmetrica media e mediana sarebbero uguali
I valori anomali a destra tendono a far crescere il valore medio ma non hanno effetto sulla medianaPer esempio, se i valori della classe [35, 40) fossero spostati nella classe [45, 50) la mediana resterebbe uguale mentre la media sarebbe più grande!
Quale indice?
Quale indice di posizione e dispersione utilizzaredipende anche dall’obiettivo con cui si calcolanoquesti indici.Se l’obiettivo è meramente descrittivo, e la variabile è quantitativa, gli indici più informativisono:
la media aritmetica e la deviazione standard se la distribuzione è approssimativamente normalela mediana e lo scarto interquartile se la distribuzioneè asimmetrica
Gli indici di posizione: medie
Sintesi della distribuzioneattraverso un valore rappresentativo
Distribuzioni sconnesse: modaDistribuzioni ordinate: medianaSeriazioni: media aritmetica
La modamodalità cui corrisponde la frequenza più alta.
Il centro non sintetizza la distribuzione!0 25 50 75 100
Media aritmetica
∑=
==N
iix
NM
1
1µX v.s. quantitativa{x1,x2,…,xN} successione
esempio X: 2 3 2 1 M=(2+3+2+1)/4=2
MEDIA: CENTRO DELL’INSIEME DEGLI N PUNTI
x1 x2 XN-1 XNMDistanza tra xi e xj in R: dij =|xi - xj|
Un esempioTroviamo la media e la mediana per questi 4 gruppi di dati e confrontiamo il loro valore
a. 1 2 3 b. 1 2 6c. 1 2 9d. 1 2 297
Concludendo:La mediana non cambia: 2 è sempre il valore centrale
La media diventa sempre più grande via via che l’ultimo valore cresce
La media cresce …2 è sempre il valore centrale
a. media= 2 mediana=2
b. media=3 mediana=2c. media=4 mediana=2
d. media=100; mediana=2
Indici di dispersioneSe utilizziamo la mediana come indice del centro della distribuzione, dividendo la distribuzione in due parti, possiamo usare la stessa idea per misurare la dispersione
Troviamo i valori che dividono queste due metà ancora in due metà!Q1 è il primo quartile e Q3 è il terzo quartileAdesso la distribuzione è divisa in 4 parti uguali!
x(1) x(n)Q1 Q3
Campo di variazione
SI
25%
La distanza tra Q1 e Q3è una misura di
dispersione detta scarto interquartile
SI= Q3 – Q1
Me
25%
25% 25%La distanza tra il valore più piccolo e il valore piùgrande è il campo di variazione (range)
Come si trovano i quartili?Ordinate i valori dal più piccolo al più grandeDividete i valori in due parti ugualiQuindi dividete ciascuna metà ancora in due parti uguali
Esempio1: n. di film visti in un anno da 8 studenti
2 4 5 7 8 9 10 11
Me=7.5Q1=4.5 Q3=9.5
Esempio2: n. di film visti in un anno da 9 studenti2 4 5 7 8 9 9 10 11
Me=8Q1=4.5 Q3=9.5
Campo di variazione (range): R= x(n)-x(1)
Scarto interquartile: DI=Q3-Q1
x(1) x(n)Q1 Q3
Campo di variazione
scarto interquartile
50%
Box-plotÈ possibile sintetizzare la distribuzione attraverso 5 numeri:
minimo: il più piccolo valore osservatoQ1: la mediana della prima metà dei valoriMediana: il valore che divide i dati in due partiQ3: la mediana della metà superiore dei valorimassimo: il valore più grande osservato
Valori anomali (outliers)Gli outliers sono valori ‘distantidistanti’ dagli altri
Per trovare gli outliers: si cercano i valori che sono più grandi o piùpiccoli di 1.5 volte SI rispetto a Q3 o Q1, cioè:
> Q3 + 1.5 · SI o < Q1 – 1.5 · SI
Esempio velocità dei mammiferiQ1 = 30 e Q3 = 42 SI = 42 – 30 = 12, 1.5 · SI = 18
All’estremo inferiore Q1 – 1.5 · SI = 30 – 18 = 12Il maiale con una velocità di 11 mph è un outlier.Lo scoiattolo è il non-outlier con la velocità più piccola: 12 mph
All’estremo superiore 42 + 1.5 · SI = 42 + 18 = 60Il ghepardo con una velocità di 70 mph, è un outlier.il leone con 50 mph è il non-outlier con la velocità più alta.
Speranza di vita media (anni) per 38 mammiferi
Ordiniamo i datiTroviamo i 5 numeri che sintetizzano la distribuzioneTroviamo SI=Q3-Q1
SI=15-8=7Calcoliamo Q1 – 1.5 · SI
Q1-1.5 · SI = 8- 1.5*7=-2.5<min=1no outliers nella metà inferiore
Calcoliamo Q3 + 1.5 · SIQ3 +1.5 *Si=15+1.5*7= 25.5<max=41outliers: elefante 35 anni e ippopotamo 41 anniIl valore più grande che non è un outlier è 25 anni (grizzly)
Disegnamo il boxplot.è possibile che un boxplot non abbia baffi?
Quando sono utili i box-plotper rappresentare una variabile quantitativa se si vogliono confrontare la forma, il centro e la dispersione di due o più gruppi di osservazioniQuando si hanno molti valori e non è possibile fare un dotplot o uno stemplotQuando non si è interessati a rappresentare i valori individualiQuando si vogliano individuare chiaramente gli outlier
Qualche ESEMPIO sui dati rilevati insiemeAltezza n. di CD possedutiCosto ultimo taglio capelli
Distribuzioni congiunteOsserviamo i grafici del battito cardiaco e del genere: possiamo dall’esame di questi grafici dire che le ragazze hanno in generale il battito più rallentato deiragazzi?No, perchè non abbiamo associato i dati sul battito al genere e quindi non siamo in grado di distinguerequali battiti sono dei maschi e quali delle femmine.
Studenti per genere
0
5
10
15
20
25
30
35
40
femmina maschio
freq
uenz
e
Grafici del battitocardiaco per genere
Grafici per distribuzioni congiunteLa tabella contienela distribuzionecongiunta del battitoper genere: chegrafico fareste per vedere se ci sonodifferenze tramaschi e femmine?
BibliografiaBartolomei G. (2007). Introduzione al modulo di statistica: Percorsointerattivo in una classe prima con l’ausilio della LIM, IPSIA “E. Medi” A.S. 2006/2007, progetto “La scuola siamo noi”, promossodall’INDIRE (Agenzia Nazionale per lo Sviluppo dell’AutonomiaScolastica), http://www.indire.it/lascuolasiamonoi/progetti/index.php.
Freedman D., Pisani R. e R. Purves (1998). Statistica, McGRaw-Hill.
Rossman A.J. e Chance B.L. (2008). Workshop Statistics: Discovery with Data, 2nd Edition, Key Curriculum Press
Scheaffer R.L., Watkins A., Witmer J., Gnanadesikan M. (2004). Activity based statistics, CA: Key College Publishing.
Watkins A.E., Scheaffer R.L. e Cobb G. W. (2001). Statistics in Action Understanding a World of Data, Key Curriculum Press.
Zenga M., 2007 - Lezioni di Statistica descrittiva, GiappichelliEditore, Torino.
R1La spiegazione più plausibile è che le velocità sono stime per gli animali selvaggiChi andrebbe a misurare la velocità di un grizzly in natura?
Le velocità che non finiscono per 0 o 5 sono quelle relative ad animali domestici: cane, volpe, giraffa, cavallo, maiale e scoiattolo.Per questi mammiferi, ad eccezione della giraffa, la velocità può essere misurata in maniera accurata: sicuramente nel caso di gare di corsa per cavalli e cani!
R2La distribuzione è centrata verso i valori più bassi, senza gruppi o buchi particolariC’è una sorta di ‘muro’ a 0 giorni, perché nessun mammifero può avere un periodo di gestazione piùpiccolo!
L’elefante è l’unico mammifero fuori norma (outlier)Circa la metà dei mammiferi hanno un periodo di gestazione superiore a 160 giorni e la metà hanno un periodo più breveLa metà centrale ha un periodo di gestazione che varia tra i 63 e i 284 giorni.
160160
Tipo variabili mammiferi
MammiferoPeriodo di gestazioneDurata vita mediaDurata vita maxVelocitàSelvaggioPredatore
È un’etichettaQuantitativa ggQuantitativa anniQuantitativa anniQuantitativa mphQualitativa sì/noQualitativa sì/no
Istogramma altezza
Tab. 4 – Consumatori di farmaci per classe di età, 1998 (migliaia).
Istat, Rapporto sull'Italia 2001 Un esempio di istogramma per classi di ampiezza
diversa
età nj aj dj0-14 1396 14 99.7115-34 2626 19 138.2135-64 7687 29 265.0765 e oltre 6933 30 231.10TOTALE 18642
Istogramma con poligono di frequenza
0
50
100
150
200
250
300
0 20 40 60 80 100 120
età
dj
xj-1 xj
Altezza = dj = fj / aj =densità classe
X
Area rettangolo= aj * dj = fj =frequenza classe
Base rettangolo= xj – xj-1 = aj =ampiezza classe
Come si costruisce l’ISTOGRAMMA quando le classi hanno ampiezza diversa?
Come si calcola la proporzione di u.s. con X≤x* dall’istogramma?