Statistica descrittiva in una variabile Dott. Piermario Schirru A.a. 2018-2019
Statistica descrittiva in una variabile
Dott. Piermario Schirru
A.a. 2018-2019
Cosa e la statistica?
La statistica e la scienza che studia con metodi matematici fenomenicollettivi.La statistica descrittiva e quella parte di statistica che si limita adescrivere i fenomeni attraverso indici e grafici.La statistica inferenziale, anche avvalendosi di metodi probabilistici,permette di trarre conclusioni generali a partire dall’esame di un campione.
Fasi dell’indagine statistica
1 Individuo il fenomeno di indagare.
2 Individuo le unita statistiche, ovvero il singolo oggetto interessato dalfenomeno. L’insieme delle unita statistiche e detta popolazionestatistiche o universo statistico.
3 Decido se la mia indagine prevede la rilevazione dei dati sull’interouniverso statistico o su un suo sottoinsieme.
4 Decido la modalita di svolgimento dell’indagine.
5 Raccolta dei dati.
6 Spoglio dei dati.
7 Rappresentazione ed elaborazione dei dati.
8 Interpretazione dei dati.
Il tipo di carattere
I dati che rilevo dalle unita statistiche sono di due tipi:
Qualitativo: se il dato che rilevo e descritto da un aggettivo.
Quantitativo: se il dato che rilevo e descritto da un valore numerico.
Qualitativo
Il colore degli occhi
Grado di infestazione da parassiti in un albero
Quantitativo
Il numero di animali in casa per nucleo famigliare
L’altezza di un gruppo di individui
La rappresentazione dei dati sul grafico dipende dal tipo di dato.
Rappresentazione dei dati: quantitativo discreto
Il seguente vettore contiene il numero di pazienti visitati da uno specialistain un certo poliambulatorio in un campione di venti giorni.
X = (2, 2, 4, 4, 3, 4, 4, 6, 3, 3, 4, 3, 1, 3, 1, 4, 1, 2, 3, 2)
Modalita Freq. Ass. Freq. Rel.
1 3 0.15
2 4 0.20
3 6 0.30
4 6 0.30
6 1 0.05
Rappresentazione dei dati: quantitativo continuoIstogramma a classi di ampiezza uguale
Il seguente vettore contiene la lunghezza dei sepali di un campione di 15fiori di iris setosa.
X = (5.0, 5.0, 5.3, 4.6, 5.8, 5.2, 4.8, 5.1, 5.0, 5.5, 4.9, 4.5, 5.0, 5.4, 5.1)
Classe Freq. Ass. Freq. Rel.
[4.5, 4.76] 2 0.13
(4.76, 5.02] 6 0.40
(5.02, 5.28] 3 0.20
(5.28, 5.54] 3 0.20
(5.54, 5.80] 1 0.07
Rappresentazione dei dati: quantitativo continuoIstogramma a classi di ampiezza diversa
X = (5.0, 5.0, 5.3, 4.6, 5.8, 5.2, 4.8, 5.1, 5.0, 5.5, 4.9, 4.5, 5.0, 5.4, 5.1)
Classe Freq. Ass. Freq. Rel. Densita di freq.
[4.5, 5.0] 8 0.53 frequenza rel.ampiezza classe = 0.53
0.5 = 11.5
(5.0, 5.5] 6 0.40 0.8
(5.5, 5.8] 1 0.07 0.23
Rappresentazione dei dati: qualitativoOrtogramma
X = (giallo, rosso, rosso, blu, rosso, verde, verde)
Modalita Freq. Ass. Freq. Rel.
Blu 1 0.14
Giallo 1 0.14
Rosso 3 0.43
Verde 2 0.29
Rappresentazione dei datiRicapitolando...
Se vogliamo rappresentare i dati di un vettore di rilevazioni di tipoquantitativo:
I se le classi sono della stessa ampiezza, usiamo l’istogramma difrequenza (relativa o assoluta), ovvero un istogramma in cui irettangoli hanno come base la classe e come altezza la frequenza(relativa o assoluta) di quella classe;
I se le classi sono di diversa ampiezza, usiamo l’istogramma di densitadi frequenza (relativa o assoluta) in cui i rettangoli hanno come basela classe e area la frequenza (relativa o assoluta) di quella classe.
Se vogliamo rappresentare un vettore di rilevazioni di tipoquantitativo usiamo un ortogramma o un diagramma a torta.
Indici di sintesi
Gli indici di sintesi permettono di riassumere gli elementi del vettore deidati rilevati.
Gli indici di centralita sintetizzano con un unico numero il centro delvettore dei dati.
Gli indici di dispersione sintetizzano quanto gli elementi del vettoredei dati sono distanti da un valore centrale.
Indici di centralitaMedie
Definizione
Sia dato il vettore delle rilevazioni X = (x1, · · · , xN).
Media aritmetica. Si usa per determinare il valore piu preciso di unaserie di misure purche gli errori di misurazione siano accidentali e nonsistematici.
x =1
N
N∑i=1
xi
Media geometrica. Si usa per determinare il tasso medio diaccrescimento di un fenomeno.
xg = N
√√√√ N∏i=1
xi
Per la media geometrica si richiede che xi > 0 per ogni i .
Indici di centralitaMedie
Esempio
Un malato si misura la febbre ogni 4 ore a partire dalle 7 di mattino finoalle 23 di sera, registrando i seguenti dati:
Ore 7 37.5◦C
Ore 11 38◦C
Ore 15 38.8◦C
Ore 19 38.5◦C
Ore 23 37.9◦C
Calcola la temperatura media.
x =37.5 + 38 + 38.8 + 38.5 + 37.9
5= 38.14◦C .
Indici di centralitaMedie
Esempio
Una colonia di batteri consiste di 2.7 · 106 unita. Dopo un’ora vi e unaumento del 30% e dopo un’altra ora di un ulteriore 50%. Calcolarel’incremento medio.
Ci aspettiamo che l’incremento medio sia quella percentuale p% che,applicata successivamente dopo un’ora e dopo due ore, porta allo stessonumero di batteri che abbiamo trovato applicando prima un aumento del30% e poi uno del 50%.
x0 = 2.7 · 10630%−→ x1 = 3.51 · 106
50%−→ x2 = 5.265 · 106
Indici di centralitaMedie
Se applichiamo un doppio incremento alla media aritmetica degliincrementi singoli non otteniamo x2:
2.7 · 10640%−→ 3.78 · 106
40%−→ 5.292 · 106 6= x2
Dunque l’incremento medio non puo essere la media aritmetica degliincrementi.Infatti l’incremento medio e la media geometrica dei singoli incrementi.
xg =√
1.3 · 1.5 ≈ 1.3964
Dunque l’incremento medio e 39.64%.
Indici di centralitaMediana e moda
Definizione
Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). Consideriamo ilvettore X avente gli stessi elementi di X ma posti in ordine crescente.Allora la mediana di X e
Me =
xN+1
2N dispari
xN2
+ xN2+1
2N pari
Definizione
Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). La moda e lamodalita (o le modalita) che compare piu frequentemente.
Indici di centralita
Esempio
Il seguente vettore contiene il numero di pazienti visitati da uno specialistain un certo poliambulatorio in un campione di venti giorni.
X = (2, 2, 4, 4, 3, 4, 4, 6, 3, 3, 4, 3, 1, 3, 1, 4, 1, 2, 3, 2)
Ricavare la mediana di X .
Costruiamo il vettore X in cui poniamo in ordine crescente gli elementi diX :
X = (1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 6).
Essendo pari il numero degli elementi di X allora la mediana sara la mediaaritmetica fra x10 = 3 e x11 = 3. Quindi la mediana di X e uguale a 3.
Simmetria di un istogramma
Distribuzione simmetrica: x = Me.
Distribuzione obliqua a destra: x > Me.
Distribuzione obliqua a sinistra: x < Me.
Indici di dispersioneDeviazione standard e varianza
Definizione
Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). Lo scarto medioquadratico o deviazione standard e
σX =
√√√√ 1
N
N∑i=1
(xi − x)2.
La varianza di X e il quadrato della deviazione standard della popolazione.
E un indice che esprime la dispersione dei dati intorno alla mediaaritmetica.
Indici di dispersioneDeviazione standard e varianza
Esempio
Consideriamo il vettore X = (1.08, 0.92, 1.07, 1.03, 0.87). Calcolare ladeviazione standard.
Abbiamo x = 0.994.
xi xi − x (xi − x)2
1.08 0.086 0.007396
0.92 −0.074 0.005476
1.07 0.076 0.005776
1.03 0.036 0.001296
0.87 −0.124 0.015376
σ =
√0.007396 + 0.005476 + 0.005776 + 0.001296 + 0.015376
5≈ 0.08
Indici di dispersioneDeviazione standard e varianza
La seguente formula e molto utile per il calcolo della varianza (e quindidella deviazione standard).
Formula di Konig
Var(X ) = x2 − x2.
Indici di dispersioneDeviazione standard e varianza
Esempio
Consideriamo il vettore X = (1.08, 0.92, 1.07, 1.03, 0.87). Calcolare ladeviazione standard utilizzando la formula di Konig.
Abbiamo x = 0.994.
X 2 = (1.1664, 0.8464, 1.1449, 1.0609, 0.7569)
da cui otteniamo che x2 = 0.9951. Quindi
Var(X ) = 0.9951− (0.994)2 = 0.007064
da cui abbiamo che σ ≈ 0.08.
Indici di dispersioneLa regola empirica
Sia dato il vettore di rilevazioni X = (x1, · · · , xN). Se
N > 20
i dati seguono una forma a campana (distribuzione gaussiana onormale)
allora approssimativamente
il 68% dei dati cadono dentro l’intervallo (x − σ, x + σ);
il 95% dei dati cadono dentro l’intervallo (x − 2σ, x + 2σ);
il 99% dei dati cadono dentro l’intervallo (x − 3σ, x + 3σ);
Queste percentuali possono differire notevolmente se i dati in X nonseguono un andamento a campana.
Indici di dispersioneLa regola empirica
Esempio
Consideriamo il vettore delle rilevazioni
X = (1, 2, 1, 3, 1, 2, 1, 1, 3, 2, 3, 2, 4, 1, 0, 2, 1, 3, 2, 3, 2, 1)
Quanti valori cadono nell’intervallo (x − σ, x + σ)?
Abbiamo µX = 3620 e σ ≈ 0.98. Nell’intervallo
(x − σ, x + σ) ≈ (0.82, 2.78)
cadono 15 elementi di X , ovvero il 70% circa del campione.
Esercizio proposto
Abbiamo misurato la glicemia a 20 topi di laboratorio dopo lasomministrazione di un farmaco. Si ha il seguente vettore delle rilevazioniin mg/dl :
X = (120, 110, 121, 122, 109, 103, 110, 111, 121, 102,
110, 109, 113, 114, 110, 125, 111, 120, 121, 101)
1 Si illustri con una rappresentazione tabellare la distribuzione X con leclassi M1 = [100, 110], M2 = (110, 120] e M3 = (120, 130].
2 Si calcoli la media aritmetica e mediana dei valori di X .
3 Si calcoli lo scarto quadratico medio dei valori di X . Si dica inpercentuale quanti valori di X appartengono all’intervallo X ± σ.
Esercizio proposto
Un certo comune ha avuto la seguente variazione di popolazione
Anno Popolazione
1990 20000
1995 24000
2000 22000
2005 23000
2010 25000
2005 15000
Calcolare la percentuale di incremento medio della popolazione.