YOU ARE DOWNLOADING DOCUMENT

Please tick the box to continue:

Transcript
Page 1: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti in un es perimento o raccolti sul campo, con lo scopo di � acquisire una certa familiarità con i dati prima di passare alle analisi statistiche inferenziali � evidenziare nei dati tendenze inattese a priori che possono suggerire analisi non previste

inizialmente o anche nuovi esperimenti o campionamenti � identificare rapidamente eventuali errori nella trascrizione dei valori o nel loro inserimento al

calcolatore � identificare preliminarmente alcune caratteristiche dei dati che potrebbero precludere il successivo

utilizzo di alcune tecniche statistiche � comunicare ad altre persone brevemente, con logica ed ordine, le principali caratteristiche dei dati

raccolti Attenzione: riassumere vuol quasi sempre dire perdere parte dell’informazione

Page 2: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

� Cos’è una variabile? o una qualsiasi caratteristica misurata o registrata in un’unità campionaria. Generalmente le

variabili sono indicate con lettere maiuscole e i valori che possono assumere con lettere minuscole, spesso indicizzati per indicare il valore assunto dalla variabile in una specifica osservazioni

� I valori che assume possono essere numerici oppure di semplice appartenenza ad una certa

categoria

o Variabili quantitative continue � Peso, altezza, concentrazione, …

o Variabili quantitative discrete � Numero uova, numero parassiti, numero piastre batteriche,…

o Variabili qualitative con valori ordinabili (scala ordinale) � “Abbondanza”, stato di salute, aggressività, …

o Variabili qualitative con valori non ordinabili (scala nominale) = variabili categoriche

� Gruppo sanguigno, tipo di malattia, tipo mutazione, specie…

Page 3: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Variabili risposta e variabili esplicative (dipendenti e indipendenti) � Ipertensione arteriosa e rischio di ictus � Piani edificio e lesione gatti � Intensità di caccia e livelli di variabilità genetica

0

0.5

1

1.5

2

12 14 16 18 20 22 24

Level of hunting

Nuc

leot

ide

dive

rsity

(%

)

Page 4: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Dati, frequenze e distribuzioni

� 22 nidi di merlo al momento dell’involo e di avere contato in ciascuno di essi il numero di piccoli sopravvissuti o unità campionaria = nido o la femmina o variabile è quantitativa discreta.

� x1 = 0; x2 = 2; x3 = 2; x4 = 0; x5 = 1; x6 = 3; x7 = 3; x8 = 2; x9 = 2; x10 = 4; x11 = 1; x12 = 4; x13 = 2;

x14 = 1; x15 = 2; x16 = 3; x17 = 3; x18 = 6; x19 = 4; x20 = 2; x21 = 3; x22 = 3,

� dove xi, indica il valore assunto dalla variabile X nella i-esima osservazione, con l'indice i che varia da 1 a n (n = 22 = dimensione del campione).

� classe di frequenza e tabella di frequenza:

xi ni 0 2 1 3 2 7 3 6 4 3 6 1

Page 5: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

� In questo caso xi indica il valore assunto dalla variabile X nella i-esima classe, con l'indice i che

varia da 1 a c, ni è il numero di volte che nel campione ricorre l'osservazione xi e c è il numero di classi (5 nel nostro caso)

� Chiaramente la somma di tutti gli ni deve dare n, ovvero

ni = ni = ni = ni∑i∑

i=1

c

∑i=1

i= c

∑ = n

� distribuzione di frequenza: ossia alla distribuzione dei dati nelle diverse classi

o distribuzione di probabilità o distribuzione di probabilità teorica

� diagramma a segmenti (o a barre)

o capisco quali sono i valori che ricorrono più frequentemente o distribuzione unimodale, bimodale, multimodale? o Simmetrica o asimmetrica? Asimmetrica a destra o a sinistra? o capisco e l'intervallo di variazione della variabile analizzata

Page 6: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Si noti come nella tabella di frequenza è stata inserita anche una categoria, la 5, in cui non si rilevano osservazioni. Questo permette di costruire un diagramma a segmenti che rappresenti correttamente la distribuzione di frequenza dei dati.

Page 7: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Esempio di una distribuzione bimodale.

Page 8: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

� Distribuzioni contagiose

o numero di animali che hanno contratto una certa parassitosi in 100 nidi di vespa o numero di piante in 100 quadrati di 1 metro x 1 metro

Page 9: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

� frequenze assolute (ni, dette anche numerosità) � frequenze relative (fi, o, a volte, pi,), ovviamente varia tra 0 e 1

� frequenza percentuale

fi = pi =ni

n

fi %( ) = fi ×100

� Il termine generico frequenza è spesso utilizzato per indicare cose diverse

Page 10: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti
Page 11: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

� Istogramma: quando la variabile analizzata assume molti valori diversi nel campione è una migliore rappresentazione della distribuzione di frequenza. Nell’istogramma i dati vengono raggruppati in classi che includono tutti i valori in certo intervallo.

� Definizione classi o Regolette: radice di n; (1 + ln(n)/ln(2)) o Evitare la presenza di molte classi circa vuote o Limiti di classe (>= e <) o Buon senso

Page 12: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti
Page 13: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Distribuzioni di frequenza per le variabili di tipo qualitativo ?

Diagramma a segmenti (o a barre)

Page 14: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Diagramma a torta

Page 15: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Rappresentazione grafica della relazione tra due va riabili numeriche Due variabili di tipo quantitativo misurate in ciascuna unità campionaria, o comunque di tipo ordinabile, la rappresentazione grafica delle singole osservazioni in un sistema di assi cartesiani diventa molto importante per evidenziare eventuali tendenze o associazioni.

� Scatterplot, o nube di punti (due esempi)

� E’ facile intuire che esiste una associazione tra le due variabili: le femmine di dimensioni maggiori depongono generalmente uova più grandi (a destra), e i maschi più brillanti generano figli più attraenti per le femmine.

� � Associazione positiva, negativa e nulla

Page 16: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Inserisco una terza variabile

In 30 località europee viene rilevato il livello di precipitazioni annue (mm di pioggia) e il ph medio delle piogge. Con il semplice utilizzo di simboli diversi (quadratini per le le località del Sud-Europa, asterischi per quelle del Nord-Europa), è possibile visualizzare in una nube di punti tre variabili (precipitazioni, ph e posizione geografica).

Page 17: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Diagramma a linee

Page 18: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

.

Tre esempi sulla differenza tra associazione e causazione Le variabili di confondimento creano problemi

Gli studi sperimentali possono risolvere il problema

Page 19: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Rappresentazione tridimensionale di temperatura, umidità, e numero di specie misurate in 13 stazioni di campionamento.

Page 20: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Analisi di due (o più) variabili categoriche

Tabella di contingenza (in questo caso, per 2 varia bili categoriche)

Page 21: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Diagramma a barre raggruppate

Page 22: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Considerazioni generali sulla visualizzazione grafi ca

- Chiarezza - Completezza - Onestà

Page 23: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti
Page 24: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Indici sintetici di una distribuzione

� Sintesi attraverso le distribuzioni di frequenza � Ulteriori sintesi attraverso le

o misure di tendenza centrale (o di posizione)

� cercano di identificare il valore "tipico" di una distribuzione, ovvero la posizione, nella scala della variabile analizzata, intorno alla quale si concentrano le osservazioni

o misure di dispersione

� sintetizzano il grado di variabilità dei dati

� Le misure di tendenza centrale e di dispersione dovrebbero quindi rispecchiare, rispettivamente, la posizione e l’ampiezza di una distribuzione di frequenza.

Page 25: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti
Page 26: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

� Conoscere la dispersione dei dati equivale a conoscere qualcosa sul valore di ogni singolo valore per la comprensione di un fenomeno.

� Se la dispersione è molto elevata, le singole osservazioni possono essere anche molto diverse,

e quindi singolarmente di scarso valore. � Si può dire quindi che all’aumentare della dispersione il numero di osservazioni necessarie per

trarre delle conclusioni generali a partire da un campione deve aumentare. � Quando la variabilità è molto bassa può anche non essere necessario effettuare molte

osservazioni, e forse nemmeno ricorrere alla statistica inferenziale.

Page 27: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Misure di tendenza centrale La media

� Media aritmetica. In genere quando si parla di media si intende la media aritmetica

� Media campionaria, della variabile X, la media campionaria viene indicata con x .

x =xi

1

n

n

� Media della popolazione

µ =x i∑

N

� La somma delle differenze dei singolo valori dalla media (detti scarti dalla media) è uguale a 0 e

quindi la media si può considerare il baricentro del campione dove si bilanciano gli scarti.

xi − x ( )= xi − x ∑∑∑ = nx − nx = 0

Page 28: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

� Media a partire da una tabella di frequenza :

x =xini

1

c

n oppure x = xi fi

1

c

Esempio

Aplotipo xi ni A 51 5

B 54 11 C 55 15 D 57 29 E 62 22 F 63 4

x =xini

1

c

n=

51 × 5 + 54 ×11 + 55 ×15 + 57 × 29 + 62 × 22 + 63 × 4

86=

5738

86= 57,44

� E se la variabile continua?

Page 29: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Proprietà della media • la media implica la somma di valori numerici e quindi ⇒ ha un significato solo per le variabili quantitative; ⇒ risente molto dei valori estremi; se un singolo valore nel campione è per esempio molto più

grande di tutti gli altri, la media non identifica un valore tipico del campione ⇒ non è calcolabile se alcune osservazioni sono “fuori scala”

• nel caso di distribuzioni multimodali, la media raramente identifica un valore tipico

Page 30: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Esempio: Supponiamo di sacrificare 12 trote campionate in natura per contare in ciascuna di esse il numero di parassiti intestinali di una certa specie. Dati: 3, 2, 3, 4, 6, 2, 44, 8, 5, 3, 4, 2.

� La media di questi valori risulta essere 7,16, ma come è facile rendersi conto, questo valore non identifica certamente un valore tipico del campione. Questio a causa di un valore estremo, detto outlier.

Esempio: Nove cavie sono sottoposte ad un test cognitivo all’interno di un labirinto, e per ogni animale si misura il tempo impiegato a percorrere un certo tracciato. I risultati ottenuti, in minuti, sono i seguenti: Dati: 23 ,25, 29, 22, 15, >120, 32, 20,>120

� In questo caso due valori sono “fuori scala”, e la media calcolata escludendo questi valori mancanti non rappresenterebbe correttamente l’esperimento.

Page 31: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

La mediana

� La mediana è il valore centrale in una serie di dati ordinati. Per esempio Dati: 30, 49, 74, 40, 63, 295, 60 Dati ordinati: 30, 40, 49, 60, 63, 74, 295

� La mediana è quindi il valore che divide un campione di dati ordinati in due parti ugualmente numerose. In altre parole, metà dei valori nel campione sono più piccoli della mediana, e metà sono più grandi. E’ evidente quindi che la mediana è una misura della tendenza centrale.

� Se il numero di osservazioni n è dispari, la mediana è il valore che occupa la posizione (n+1)/2

nella serie ordinata dei dati (il quarto valore nell’esempio appena visto). Se n è pari, la mediana è la media tra i 2 valori centrali, ossia la media dei valori nelle posizioni n/2 e n/2 +1. Nel caso di dati raccolti in una tabella di frequenza, è in genere sufficiente identificare la classe che contiene la mediana (la classe mediana).

Page 32: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Proprietà della mediana

� Il calcolo della mediana non implica l’elaborazione dei dati numerici osservati o L’informazione sul peso relativo dei singoli valori viene perduta.

� E’ spesso un buon indicatore della tendenza centrale di un set di dati

� è calcolabile anche se la variabile è qualitativa (ma deve essere ordinabile!) � non risente dei valori estremi � è calcolabile anche se alcune osservazioni sono “fuori scala”

Esempi precedenti

- la mediana del numero di parassiti nelle 12 trote è pari a 3,5 parassiti - la mediana del tempo impiegato dalla cavie nel labirinto è 25 minuti

In entrambi i casi la mediana e facilmente calcolabile e indica bene (meglio della media) dove si concentrano le osservazioni.

� La mediana, però, soffre dello stesso inconveniente della media, ovvero può portare ad un valore assolutamente non rappresentativo quando la distribuzione non è unimodale.

Page 33: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

La moda

� La moda è semplicemente il valore osservato più spesso nel campione. Dati: 0, 1, 5, 2, 2, 2, 3, 3, 3, 2, 4, 4, 1,2 vengono riassunti nella tabella di frequenza

xi ni 0 1 1 2 2 5 3 3 4 2 5 1

La moda è quindi pari a 2.

� Classe modale è quella che contiene il maggior numero di osservazioni.

� La stretta interpretazione della moda dovrebbe anche avere come conseguenza il fatto che praticamente tutte le distribuzioni osservate sono unimodali

Page 34: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Proprietà della moda

� La moda è una statistica molto semplice e intuitiva per riassumere una distribuzione di frequenza attraverso il suo “picco” più elevato. Anche se, come la mediana, non considera il peso delle singole osservazioni, ha alcune proprietà importanti:

• è possibile identificare la moda in qualsiasi tipo di variabile, quindi anche nelle variabili qualitative

non ordinabili • indica sempre un valore realmente osservato nel campione • non è influenzata dai valori estremi • nel caso di distribuzioni di frequenza molto asimmetriche, la moda è forse il miglior indice per

descrivere la tendenza centrale di un campione • è collegata direttamente al concetto di probabilità (che vedremo meglio nei prossimi capitoli): la

moda di una popolazione è il valore della variabile con la la maggior probabilità di essere osservata

Page 35: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Questa distribuzione presenta una forte asimmetria a destra. La mediana ha valore 3 e la media 5.24, mentre la moda è uguale a 2.

Page 36: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Misure di dispersione

� Basate sulle differenze tra le singole osservazioni e la media (scarti dalla media) o Varianza o Deviazione standard o Coefficiente di variazione o Tutti i valori concorrono al calcolo di queste tre misure di dispersione (inclusi gli outliers) o L’utilizzo di questi indici non è adatto allo studio della dispersione di variabili qualitative,

� Non basate sull’elaborazione numerica dei dati o Range o Distanza interquartile.

Page 37: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

La varianza

� La somma degli scarti della media è uguale a 0 o media degli scarti = 0

� Se però ogni singolo scarto dalla media viene elevato al quadrato…

o La media degli scarti al quadrato, chiamata anche scarto quadratico medio, è la varianza.

� Varianza campionaria:

s 2=

xi − x ( )2

∑n −1 ,

Page 38: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

� La somma degli scarti quadratici al numeratore, chiamata devianza, può essere calcolata anche con le formule semplificate:

Dev(X ) = xi2−

x i∑( )2

n∑

Infatti:

xi − x ( )∑2= xi

2+ x 2 − 2x x i( )∑ = x i

2+ n∑

x i∑( )2

n2 − 2xi∑

nx i∑ = xi

2−

xi∑( )2

n∑

� Così il calcolo (manuale) è più preciso. Perché? � Attenzione però che concettualmente…

Page 39: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

� Cosa c’è di strano nel calcolo di s2 ?

o Dal punto di vista della statistica descrittiva potrei usare n al denominatore o Anche se fossero disponibili i dati riferiti a tutte le N unità campionarie della popolazione,

allora

σ2=

xi − µ( )2

∑N

� Ma: o La varianza campionaria s2, calcolata utilizzando n al denominatore è una stima distorta

(una sottostima in questo caso) della varianza della popolazione σ2 � La media di un campione è imprecisa (non è uguale a µ) � I valori tendono ad essere più vicini alla media campionaria di quanto non siano a µ � Più il campione è piccolo, meno riesce a cogliere tutta la variabilità dei dati nella

popolazione � Tale distorsione (bias) si può correggere utilizzando il fattore n-1 a denominatore.

Page 40: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

� Nel caso di dati raggruppati in c classi di frequenza

s 2=

ni xi − x ( )2

1

c

n −1 ,

� Se poi i dati sono raccolti in classi corrispondenti ad un intervallo tra due valori, una stima di s2 si può ottenere utilizzando la stessa espressione sostituendo xi con i valori centrali degli intervalli.

Page 41: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

La deviazione standard

� L'unita di misura della varianza e l'unita di misura della deviazione standard

� La deviazione standard, s, indicata anche con l’abbreviativo D.S. o DS, è data da:

s = DS = s2

Page 42: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti
Page 43: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Coefficiente di variazione

� E’ una sorta di deviazione standard rielaborata per evitare i cosiddetti “effetti di scala”.

Esempio:

� Deviazione standard nella lunghezza del corpo dei maschi di Gambusia holbrooki (un piccolo pesce d’acqua dolce) é uguale a 3.2 mm

� Deviazione standard nella lunghezza dei maschi territoriali di Zosterisessor ophiocephalus (il gò, un ghiozzo di laguna) sia pari 10.6 mm.

� I maschi di Gambusia sono meno variabili dei maschi di gò, ossia i maschi di Gambusia si assomigliano tra loro (per la lunghezza) più di quanto facciano quelli di gò?

� Forse la maggiore dispersione indicata dalla deviazione standard è solo un effetto della diversa

dimensione media di queste due specie o Per esempio, la differenza nella lunghezza del femore tra due persone è senza dubbio di

molte volte maggiore della differenza nella lunghezza della zampa di due maggiolini.

Page 44: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

� Quando cioè si vuole confrontare la dispersione tra variabili con medie molto diverse, si ricorre

al CV

CV =s

x ×100

� Il coefficiente di variazione è dimensionale

o Esempio: Siamo interessati a sapere se nel ghiro è più variabile la lunghezza della coda oppure la durata del letargo (variabili con unità di misura diverse)

� Nell’esempio dei pesci, assumendo una lunghezza media di 29 mm per i maschi di gambusia e di 181 mm per i maschi di gò:

CV(Gambusia) = 11% CV(gò) = 6 %,

Un risultato di questo tipo suggerisce una conclusione molto diversa da quella basata sulla deviazione standard: la variabilità nelle dimensioni corporee è quasi doppia nei maschi di Gambusia rispetto a quelli di gò.

Page 45: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Il range

� Range = valore massimo – valore minimo

� Descrizione molto rozza della dispersione dei dati o si basa solamente sui due valori estremi (ed è quindi altamente influenzata da questi) e

non considera assolutamente la quale sia le distribuzione di frequenza dei dati tra essi.

Page 46: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

La distanza interquartile

� Cosa sono i quartili?

o Imparentati con la mediana, solo che invece di separare l’insieme dei dati ordinati in due gruppi lo separano il quattro

o Ogni gruppo contiene il 25% delle osservazioni: il primo quartile, Q1, è il valore che

separa il primo 25% delle osservazioni ordinate dal restante 75%, il secondo è la mediana, e il terzo quartile, Q3, è il valore che separa il primo 75% delle osservazioni dal restante 25%.

� La distanza interquartile è data dalla differenza Q3-Q1, e identifica quindi l’intervallo centrale della distribuzione di frequenza all’interno del quale cade il 50% delle osservazioni.

� E’ una misura della dispersione dei dati che non risente di eventuali valori estremi molto diversi

dalla gran parte degli altri, e può essere calcolata anche quando i valori estremi sono “fuori scala”.

� L’identificazione dei quartili non è banale quando il numero di osservazioni non è elevato

o Cerco la mediana delle due metà dei dati

Page 47: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Risultati per dati prima autoamputazione : Mediana: 2.90; primo quartile: 2.34; terzo quartile: 3.045; distanza interquartile: 0.705

Page 48: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

� Diagramma Box-and-Whiskers (scatola e baffi)

o Mediana, primo e terzo quartile, range (+ a volte valori estremi, cioè valori a una distanza dalla scatola superiore a 1.5 volte la distanza interquartile)

Page 49: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

ESEMPI

Fare la tabella di frequenza, l’istogramma, e discu tere la forma dell’istogramma

Page 50: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti
Page 51: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Classi con ampiezze diverse. E’ corretto?

Page 52: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Distribuzione di frequenza e distribuzione di densi tà

o Classi di ampiezza diversa

� La corretta e fedele rappresentazione della distribuzione dei dati è ottenuta quando l’altezza di ogni rettangolo corrisponde non alla frequenza ma alla densità media dei valori all’interno della classe corrispondente. E’ invece l’area dei rettangoli a contenere l’informazione relativa alla frequenza.

� Questa distinzione è teoricamente importante, anche se non sempre rilevante da un punto di vista pratico.

Page 53: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Qual’è la tabella più appropriata per rappresentare i dati?

Page 54: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Che varaibile è rappresentata nei due istogrammi? C he variabile distingue i due istogrammi? Che grafico è rappresentato? Cosa suggeriscono i gr afici?

Page 55: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Che tipo di grafico? Che tipo di associazione?

Page 56: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Numero di ondulazioni per secondo in serpenti che planano

Calcolare media, varianza, deviazione standard, CV, mediana, distanza

interquartile

Relazione con distribuzione di frequenza se la distribuzione è normale

Page 57: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Che tipo di diagrammi? Che tipo di variabile nei du e istogrammi? C’e’ una variabile

esplicativa e una risposta? Quali sono? In cosa dif fereriscono i due diagrammi? Conclusioni

Page 58: STATISTICA DESCRITTIVA - m.docente.unife.itm.docente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti

Calcolare il numero medio di ore dopo la morte fino al rigor mortis. Calcolare la deviazione

standard. Calcolare la mediana. Perché minore della media?


Related Documents