G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Rappresentazione dei dati con istogrammi Giovanni Filatrella ( [email protected].

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

1

Rappresentazione Rappresentazione dei dati con dei dati con istogrammiistogrammi

Giovanni Filatrella (Giovanni Filatrella ([email protected]@unisannio.it))

Elaborazione Statistica dei Dati Elaborazione Statistica dei Dati SperimentaliSperimentali Facoltà di Scienze MM FF e NN,

Università Sannio


2

Dati grezziI dati sperimentali si presentano in

genere sotto forma di tabelle: Tasso di fecondità totale per 1.000 donne in età 15-49 per regione di residenza - Anni 1982-1997 Table 10.1 continue - Total fertility rate per 1.000 women aged 15-49 by region of residence - Years 1982-1997 REGIONI E RIPARTIZIONI 1990 1991 1992 1993 1994 1995 1996 1997 (a)Piemonte 1101 1124 1080 1046 1026 1028 1047 1088Valle d'Aosta 1.183 1.160 1.116 1.013 1.082 1.102 1.196 1.314Lombardia 1.147 1.124 1.125 1.100 1.068 1.074 1.099 1.141Trentino-Alto Adige 1.402 1.410 1.420 1.345 1.339 1.335 1.385 1.436Veneto .159 1.115 1.138 1.092 1.064 1.073 1.101 1.150Friuli-Venezia Giulia 1.029 1.024 1.043 950 942 941 975 1.02Liguria 1.011 1.007 1.027 960 928 915 938 969Emilia-Romagna 1.013 1.007 993 968 956 967 1.006 1.035Toscana 1.082 1.052 1.048 1.019 982 979 995 1.03Umbria 1.176 1.162 1.176 1.108 1.074 1.061 1.068 1.097Marche 1.230 1.207 1.187 1.131 1.087 1.107 1.085 1.116Lazio 1.280 1.233 1.259 1.208 1.168 1.109 1.121 1.167Abruzzo 1.394 1.353 1.349 1.296 1.245 1.175 1.191 1.185Molise 1.425 1.406 1.421 1.326 1.280 1.209 1.166 1.211Campania 1.809 1.810 1.794 1.663 1.601 1.499 1.570 1.573Puglia 1.654 1.601 1.584 1.486 1.437 1.369 1.367 1.386Basilicata 1.660 1.557 1.570 1.435 1.363 1.327 1.269 1.284Calabria 1.744 1.668 1.653 1.564 1.432 1.396 1.351 1.329Sicilia 1.853 1.775 1.792 1.670 1.548 1.455 1.468 1.487Sardegna 1.370 1.291 1.223 1.164 1.089 1.055 1.030 1.108Nord 1.117 1.104 1.101 1.064 1.040 1.043 1.075 1.115Centro 1.206 1.169 1.179 1.134 1.094 1.068 1.076 1.116Sud 1.712 1.664 1.654 1.547 1.466 1.391 1.403 1.419ITALIA 1.358 1.328 1.326 1.262 1.215 1.187 1.205 1.217 (a) Dati provvisori.(a) Provisional data.Fonte: ISTAT - Servizio "Popolazione e cultura".Source: ISTAT - Unit "Popolazione e cultura".


3

Analisi dei dati

I dati così raccolti devono essere elaborati per rispondere a delle domande:

1. Il tasso di fertilità è stato maggiore nel 1992 o nel 1993?

2. Le variazioni da una regione all’altra sono grandi?

3. Quale potrebbe essere stato sulla base di questi dati il tasso nel 1998?


4

Come si risponde in presenza di variabilità:

Il tasso di fertilità è stato maggiore nel 1992 o nel 1993?I valori sottolineati sono quelli maggiori, e non

sempre appartengono allo stesso anno.

1991 1992

1.124 1.0801.160 1.1161.124 1.1251.410 1.4201.115 1.1381.024 1.0431.007 1.0271.007 9931.052 1.0481.162 1.1761.207 1.1871.233 1.2591.353 1.3491.406 1.4211.810 1.7941.601 1.5841.557 1.5701.668 1.6531.775 1.7921.291 1.223

L’analisi statistica di questi dati dovrebbe dare una risposta quantitativa


5

Importante

In presenza di variabilità la domanda “qual è più grande” potrebbe dipendere da molti fattori – in seguito vedremo quindi vari approcci che potrebbero quindi dare risultati diversi per lo stesso insieme di dati.


6

Definizioni

• Individui: i soggetti delle misure

• Variabile casuale:Una grandezza misurabile che assume valori in principio diversi per i diversi individui

Ex: nella tabella (1) se si seleziona una regione un “individuo” è un anno. La variabile casuale è il tasso di fertilità.


7

Applicazione del concetto di “individuo” e “variabile

casuale” 1990 1991 1992 1993 1994 1995 1996 1997

Val d'Aosta 1.183 1.160 1.116 1.013 1.082 1.102 1.196 1.314

In corrispondenza di ogni anno (ovvero di ogni individuo) si misura una quantità: il numero di figli nati in quell’anno per 1000 donne (la variabile casuale).Nell’analisi di qualsiasi tipo di dati è essenziale innanzitutto comprendere quali siano gli “individui” e quale sia la “variabile casuale”.


8

Nomenclatura dei diversi tipi di variabili casuali

Una grandezza misurabile, cioè una variabile casuale, può comunque appartenere a diverse categorie:

1) Continua: può assumere un qualsiasi valore fra i numeri reali;

2) Discreta: può assumere un qualsiasi valore fra i numeri interi;

3) Nominale: può assumere diversi valori, ma fra questi non vi è nessun ovvio ordinamento.


9

Esempi di variabile continua:

1. Misurare l’altezza di coloro che seguono questo corso;

2. Misurare il peso di coloro che seguono questo corso;

3. Misurare la distanza che percorre ognuno di coloro che seguono questo corso per raggiungere la Facoltà.


10

Esempi di variabile discreta:

1. Misurare l’anno di nascita di coloro che seguono questo corso;

2. Misurare il numero di fratelli e sorelle di coloro che seguono questo corso;

3. Misurare il numero di crediti già conseguiti da coloro che seguono questo corso.


11

Esempi di variabile nominale:

1. Misurare il luogo di nascita di coloro che seguono questo corso;

2. Misurare la scuola di provenienza di coloro che seguono questo corso;

3. Misurare il Codice di Avviamento Postale della residenza di coloro che seguono questo corso.


12

Applicazione alla tabella sul tasso di fertilità:

REGIONI E RIPARTIZIONI 1990 1991 1992 1993 1994 1995 1996 1997Valle d'Aosta 1.183 1.160 1.116 1.013 1.082 1.102 1.196 1.314Lombardia 1.147 1.124 1.125 1.100 1.068 1.074 1.099 1.141Trentino-Alto Adige 1.402 1.410 1.420 1.345 1.339 1.335 1.385 1.436Veneto .159 1.115 1.138 1.092 1.064 1.073 1.101 1.150Friuli-Venezia Giulia 1.029 1.024 1.043 950 942 941 975 1.02Liguria 1.011 1.007 1.027 960 928 915 938 969Emilia-Romagna 1.013 1.007 993 968 956 967 1.006 1.035Toscana 1.082 1.052 1.048 1.019 982 979 995 1.03Umbria 1.176 1.162 1.176 1.108 1.074 1.061 1.068 1.097Marche 1.230 1.207 1.187 1.131 1.087 1.107 1.085 1.116Lazio 1.280 1.233 1.259 1.208 1.168 1.109 1.121 1.167Abruzzo 1.394 1.353 1.349 1.296 1.245 1.175 1.191 1.185Molise 1.425 1.406 1.421 1.326 1.280 1.209 1.166 1.211Campania 1.809 1.810 1.794 1.663 1.601 1.499 1.570 1.573Puglia 1.654 1.601 1.584 1.486 1.437 1.369 1.367 1.386Basilicata 1.660 1.557 1.570 1.435 1.363 1.327 1.269 1.284Calabria 1.744 1.668 1.653 1.564 1.432 1.396 1.351 1.329Sicilia 1.853 1.775 1.792 1.670 1.548 1.455 1.468 1.487Sardegna 1.370 1.291 1.223 1.164 1.089 1.055 1.030 1.108

Per le tre variabili casuali:x1 {Il tasso di fertilità per il 1991 nelle varie regioni}x2 {L’anno in cui ogni regione ha mostrato il minimo tasso di fertilità}x3 {La regione che ogni anno ha mostrato il massimo tasso di fertilità}

stabilire di quale tipo si tratti


13

Risposte

1. x1 {Il tasso di fertilità per il 1991 nelle varie regioni}

continua2. x2 {L’anno in cui ogni regione ha

mostrato il minimo tasso di fertilità} discreta

3. x3 {La regione che ogni anno ha mostrato il massimo tasso di fertilità}

nominale


14

Problema

Il tasso di fertilità è il numero di figli, quindi dovrebbe essere un intero. Perché invece asseriamo che può assumere un qualsiasi valore e quindi è una variabile continua?

Rispondere a casa scrivendo la motivazione.


15

Importanza dell’elaborazione dei dati

Es.: per le variabili x2 e x3, anche se la tabella contiene sicuramente l’informazione, non è ovvio sapere cosa succede.


16

x1 {Il tasso di fertilità misurato nel 1991}

OSSERVAZIONI

• Gli individui sono le regioni• La variabile casuale è continua

Ma aver isolato i dati non basta a darci un’ideadi cosa succeda.

19911,124 1,160 1,124 1,410 1,115 1,024 1,007 1,007 1,0521,162 1,207 1,233 1,353 1,406 1,810 1,601 1,557 1,6681,775 1,291


17

Ordinare i dati dal più piccolo al più grande è utile:

1,0071,0071,0241,0521,1151,1241,1241,1601,1621,2071,2331,2911,3531,4061,4101,5571,6011,6681,7751,810

1,007 1,0071,0241,0521,115

1,124 individui per i quali la variabile 1,124 compresa fra 1 ed 1,21,1601,162

1,207

1,233 individui per i quali la variabile è 1,291 compresa fra 1,2 ed 1,41,353

1,406

1,410 individui per i quali la variabile è 1,557 compresa fra 1,4 ed 1,6

1,601

1,668 individui per i quali la variabile è 1,775 compresa fra 1,6 ed 1,81,810 individui per i quali la variabile è

compresa fra 1,8 e 2

Questa prima elaborazione aiutaa comprendere cosa succede.

D: cosa si nota dalla tabella ordinata?


18

Suddivisione in “Classi”

Gli intervalli della slide precedente si dicono “classi”:

I classe: 1 b 1.2

II classe: 1.2 b 1.4

III classe: 1.4 b 1.6

IV classe: 1.6 b 1.8

V classe: 2 b

b{tasso di natalità}

Il numero di individui in una classe è la “frequenza assoluta” :

9

4

3

3

1

Ni{frequenza assoluta}


19

Definizioni

• Si dice “Classe” un intervallo di valori della variabile casuale cui un individuo può appartenere o no. Il numero di classi in cui suddividere dei dati grezzi dipende da come risulta più efficace la rappresentazione.

• L’intervallo della variabile casuale compreso in una classe si dice “Ampiezza della classe”. Anche le ampiezze delle classi non possono essere decise a priori. Ove possibile, è preferibile che siano tutte uguali.


20

Rappresentazione efficace della suddivisione in “Classi”

La “freq. assoluta” può essere espressa in percentuali:

45%

20%

15%

15%

5%

una percentuale {fiX100}

La “freq. assoluta” diviso il totale N di individui è la “frequenza relativa”:

0.45

0.20

0.15

0.15

0.05

fi=Ni/N{frequenza relativa}


21

Tabella riassuntiva

No b Classe frequenza frequenza frequenzaassoluta relativa relativa %

1 1,007 1 9 0.45 45.00%2 1,0073 1,0244 1,0525 1,1156 1,1247 1,1248 1,1609 1,16210 1,207 4 0.20 20.00%11 1,23312 1,29113 1,35314 1,406 3 3 0.15 15.00%15 1,41016 1,55717 1,601 4 3 0.15 15.00%18 1,66819 1,77520 1,810 5 1 0.05 5.00%

Totali 20 1 100.00%

Una tabella dei dati ordinati contiene gli elementi essenziali per rappresentare le misure:

Mi

Nf

N

Nf

N

Nf

iassolutai

irelativai

irelativai

,...2,1

100 %


22 1.0 1.2 1.4 1.6 1.8 2.0

Frequenza rel.

0.4

0.2

0.1

0.3

b (variabilecasuale)

Alcune regole:1. Chiarire cosa c’è sugli

assi;2. Indicare solo pochi

valori a distanze uniformi;

3. Scegliere dimensioni tali che simboli e numeri siano facilmente leggibili.

Rappresentazione grafica: l’Istogramma


23

La scelta delle classi influenza l’aspetto degli

istogrammiPuò capitare che i dati

siano distribuiti in modo tale che la divisione in classi ne influenzi molto l’aspetto:

S (%)1 Piemonte 0,34 2 Valle D'Aosta 0,45 3 Lombardia 0,27 4 Trentino - Alto Adige 0,04 5 Veneto 0,27 6 Friuli - Venezia Giulia 0,20 7 Liguria 2,34 8 Emilia - Romagna 0,12 9 Toscana 0,64 10 Umbria 0,74 11 Marche 0,93 12 Lazio 2,27 13 Abruzzo 0,73 14 Molise 1,48 15 Campania 4,91 16 Puglia 3,63 17 Basilicata 1,52 18 Calabria 2,43 19 Sicilia 0,87 20 Sardegna 1,75

Percentuale di boschi andati a fuoco nel 1985 nelle varie regioni italiane (Fonte: ISTAT).


24

Tabella distribuzione

superficie incendi 1985

No S(%) Classe frequenza frequenza frequenzaassoluta relativa relativa %

1 0,04 2 0,12 3 0,20 4 0,27 5 0,27 6 0,34 7 0,45 1 7 0,35 35%8 0,64 9 0,73 10 0,74 11 0,87 12 0,93 2 5 0,25 25%13 1,48 3 1 0,05 5%14 1,52 15 1,75 4 2 0,10 10%16 2,27 17 2,34 18 2,43 5 3 0,15 15% 6 0 0,00 0% 7 0 0,00 0%19 3,63 8 1 0,05 5% 9 0 0,00 0%20 4,91 10 1 0,05 5%

Totali 20 1,00 100%

E’ difficile rappresentare i dati in questa forma perché molte classi risultano vuote.


25 0.0 1.0 2.0 3.0 4.0 5.0

Frequenza rel.

0.4

0.2

0.1

0.3

% Superficie incendiata

I problemi che sono sorti:

1. I valori per piccolesuperfici cadonotutti nella stessaclasse

2. I singoli valori per grandi superfici sembrano costituire dei picchi con unsignificato

Istogrammi di dati distribuiti in modo “anomalo”

Ampiezza: 0.5%


26 0.0 1.0 2.0 3.0 4.0 5.0

Frequenza rel.

0.8

0.4

0.2

0.6


Molte regioni sono afflitte da piccoli incendiIn poche regioni gli incendi sono devastanti

Rimane il problema che il 60% è appiattito in una sola classe.

Un diverso tipo di suddivisione in classi

Ampiezza: 1%


27

Istogrammi di dati non uniformemente separati

Per ovviare a questi inconvenienti a volte la soluzione è scegliere classi di ampiezza non uniforme.


28

II elab

No S(%) Classe Area altezza freq. freq. Freq.del rett. assoluta relativa relativa %

1 0,04 2 0,12 3 0,20 1 0.25% 0,6 3 0,15 15%4 0,27 5 0,27 6 0,34 7 0,45 2 0,25% 0,8 4 0,2 20%8 0,64 9 0,73 10 0,74 11 0,87 12 0,93 3 0,5% 0,5 5 0,25 25%13 1,4814 1,52 15 1,75 4 1% 0,15 3 0,15 15%16 2,27 17 2,34 18 2,43 5 1% 0,15 3 0,15 15%19 3,63 6 1% 0,05 1 0,05 5%20 4,91 7 1% 0,05 1 0,05 5%Totali 20 1,00 100%

Si sono scelteclassi di ampiezzadiversa


29 0.0 1.0 2.0 3.0 4.0 5.0

Densità difrequenza

0.8

0.4

0.2

0.6


Si riescono a distinguerei dati anche vicino allo 0%Però:1. La frequenza è prop.

all’area dei rettangoli2. L’asse verticale è

una densità di frequenza

Istogrammi con ampiezza delle classi non uniforme

Ampiezzavariabile

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Rappresentazione dei dati con istogrammi Giovanni Filatrella ( [email protected].

Documents