28/05/2012 1 Statistica parametrica e non parametrica Per un campione univariato 2 Gli intervalli di confidenza MEDIA VERA MEDIA CAMPIONARIA
28/05/2012
1
Statistica parametrica
e non parametrica
Per un campione univariato
2
Gli intervalli di confidenza
MEDIA VERA
MEDIA CAMPIONARIA
28/05/2012
2
3
Gli intervalli di confidenza
4Una introduzione alla
Biostatistica
Gli intervalli di confidenza
28/05/2012
3
Gli intervalli di confidenza
Nel 95% dei casi, l’intervallo di confidenza conterrà la media della
popolazione.
Come si calcolano gli estremi?
Partner Hours
Dunn 22
Hardy 26
Kiers 30
Malory 26
Tillman 22
Uno studio di avvocati
ha 5 associati.
All’incontro settima-
nale che svolgono,
ciascuno riporta il
numero di ore di lavoro
fatturato. Nell’ultima
settimana si è avuto:
Se 2 associati vengono
selezionati a caso, quanti
possibili campioni si
possono ottenere?
ESEMPIO
28/05/2012
4
10 differenti campioni
Partners Totale Media
1,2 48 24
1,3 52 26
1,4 48 24
1,5 44 22
2,3 56 28
2,4 52 26
2,5 48 24
3,4 56 28
3,5 52 26
4,5 48 24
E’ possibile definire una variabile aleatoria media campionaria, a
partire dal campione casuale.
Media
campionaria
Frequenza Frequenza
relative = prob
22 1 1/10
24 4 4/10
26 3 3/10
28 2 2/10
La distribuzione di probabilità di questa variabile “media campionaria”
risulta essere:
22(1) 24(4) 26(3) 28(2)25.2
10X
µ+ + +
= =
Media delle medie campionarie
28/05/2012
5
Questo risultato
empirico può essere
mostrato per via
teorica
Media della popolazione
2.255
2226302622=
++++=µ
Quindi la media
della media
campionaria è
proprio uguale alla
media della
popolazione.
La media della popolazione
risulta essere:Partner Hours
Dunn 22
Hardy 26
Kiers 30
Malory 26
Tillman 22
Effettuiamo il calcolo della varianza della media campionaria
Media campionaria
Frequenza Frequenza relative = prob
22 1 1/10
24 4 4/10
26 3 3/10
28 2 2/10
( ) ( ) ( ) ( )2 2 2 22 1 1 1 1
22 25.2 24 25.2 4 26 25.2 3 28 25.2 2 3.3610 10 10 10
Xs = − + − × + − × + − × =
28/05/2012
6
Mentre per la varianza della popolazione, si ha
( ) ( ) ( )2 2 22 2 2 1
22 25.2 26 25.2 30 25.2 6.085 5 5
Xs = − + − + − =
Partner Hours
Dunn 22
Hardy 26
Kiers 30
Malory 26
Tillman 22
22Osserviamo che risulta = , con X
s n=2n
σ
Anche questo risultato si
può mostrare per via
teorica…
La deviazione standard della media campionaria prende il nome di
errore standard o precisione
2
Abbiamo visto che [ ] [ ]E X e Var Xn
σµ= =
2
Se la popolazione da cui proviene il campione casuale ha legge
gaussiana ,X Nn
σµ
⇒ ≈
2
Se la popolazione da cui proviene il campione casuale non ha legge
gaussiana ,X N per n>30n
σµ
⇒ ≈
28/05/2012
7
GLI INTERVALLI DI CONFIDENZA
X ⇒/
X
n
µ
σ
−⇒ ( )0,1Z N≈ ⇒
( )/2 /2 1P z Z zα α α− ≤ ≤ = −
/2 /2 1/
XP z z
nα α
µα
σ
−− ≤ ≤ = −
/2 /2 1P X z X zn n
α α
σ σµ α
− ≤ ≤ + = −
ESERCIZIO: I dati seguenti rappresentano le misure del
diametro di 40 specie di ammoniti (file esempio4.txt).
1) Generare un rapporto di statistica descrittiva e
commentarlo.
2) Formulare una ipotesi sulla distribuzione della
popolazione.
3) Costruire un intervallo di confidenza per la media
della popolazione.
28/05/2012
8
0.05 (3.34 3.53) 0.95Per Pα µ= ⇒ < < =
media 3,44
st.dev. 0,308
quantile 1,959964
inf 3,344552
sup 3,535448
taglia 40
media 3,44
st.dev. 0,308
quantile 1,644854
inf 3,359897
sup 3,520197
taglia 40
0.10 (3.35 3.52) 0.90Per Pα µ= ⇒ < < =
Quali conclusioni si traggono?
Nell’esempio precedente abbiamo usato la varianza
campionaria!! E’ legittimo?
NO
Per usare l’informazione che la media campionaria ha legge
gaussiana, c’è bisogno di conoscere la varianza della popo-
lazione
Quando non si ha a disposizione questa informazione, e si
usa la varianza campionaria, la distribuzione di probabilità
della media campionaria non è più gaussiana.
VARIABILE ALEATORIA T-STUDENT
28/05/2012
9
(0,1)/
XN
n
µ
σ
−⇒ 1
/n
XT
S n
µ−
−⇒
[ ] 0E X se n>1, altrimenti è indefinita=
NB: fondamentale è l’ipotesi che la popolazione sia gaussiana.
[ ] 0E X se n>1, altrimenti è indefinita=
[ ]2
nVar X se n>2 (altrimenti indefinita)
n=
−
Al crescere di n converge
a una gaussiana standard.
28/05/2012
10
/ 2, 1ntα −/ 2, 1n
tα −−
/ 2, 1 / 2, 1 1n n
S SP X t X t
n nα αµ α− −
− ≤ ≤ + = −
INTERVALLI DI CONFIDENZA
PER LA MEDIA,
VARIANZA INCOGNITA
ESERCIZIO: Nell’esempio pre-
cedente calcolare l’intervallo
di confidenza per la media con
la varianza incognita.
In Statview c’è una procedura per il calcolo dell’IC
quando la varianza è incognita
28/05/2012
11
Un caso a parte…
1 2, , ,n
Popolazione di Bernoulli X X X…
( )2
1 2 1 2, , , ,n n
X X X i.i.d. X X X N µ σ⇒ + + +… ⋯ ∼
/2 /2 1P X z X zn n
α α
σ σµ α
− ≤ ≤ + = −
INTERPRETAZIONE
%successi (1 )p p−
28/05/2012
12
ESEMPIO:
Su 1000 rocce esaminate, 480 hanno tracce di un certo materiale.
Determinare l’intervallo di confidenza per la percentuale di rocce
che contengono quel materiale.
p 0,48
quan.inf. 1,959964
quan.sup. -1,95996
semi 0,015799
(0.465,0.495)
50% non è incluso!
INTERVALLO DI CONFIDENZA PER LA VARIANZA
Serve per verificare se la varianza di una certa popolazione ha un
valore prestabilito.
2
2
( 1)n S
σ
− 2
1nχ −≈
DISTRIBUZIONE CHI-QUADRATO
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5PDF distribuzione chi-quadrato
df=2
df=4
df=8
df=16
PUNTO DI PARTENZA
28/05/2012
13
[ ] , [ ] 2E X df Var X df= = ×
{ }1
2 2 2
1 2
n
i i
n
Se X sono variabili aleatorie gaussiane i.i.d., allora
W=X X X è una variabile aleatoria chi-quadrato con
n gradi di libertà
=
+ + +⋯
Teor :
2
2
( 1)n S
σ
−( )
2
21
1 n
i
i
X Xσ =
= −∑( )
2
21
ni
i
X X
σ=
−≈∑
La definizione dei quantili è più articolata, essendo la distri-
buzione asimmetrica
2
/ 2αχ2
1 / 2αχ −
( )2 2 2
1 / 2 / 2 1P α αχ χ χ α− < < = −
28/05/2012
14
( )2 2 2
1 / 2 / 2 1P α αχ χ χ α− < < = −
22 2
1 / 2 / 22( 1) 1
SP nα αχ χ α
σ−
< − < = −
2 2
1 / 2 / 2
2 2 2
11
( 1) ( 1)P
n S n S
α αχ χα
σ−
< < = −
− − 2 2
2
2 2
/ 2 1 / 2
( 1) ( 1)1
n S n SP
α α
σ αχ χ −
− −< < = −
ESERCIZIO: Nell’esempio precedente calcolare l’intervallo
di confidenza per la varianza.
28/05/2012
15
Proviamo ad usare Excel.
var 0,095
df 39
quantile 23,65432
quantile 58,12006
inf 0,063747
sup 0,156631
TEST DI IPOTESI
Supponiamo di voler verificare che un assegnato campione casuale
ha media 50.
Supponiamo che calcolata la media campionaria, questa risulti es-
sere 50.7.
In base a questa affermazione possiamo affermare che “la media della
popolazione è 50”?
REGIONE DI
ACCETTAZIONE
REGIONE
CRITICA
REGIONE
CRITICA
??
28/05/2012
16
X
REGIONE
CRITICA
REGIONE DI
ACCETTAZIONEREGIONE
CRITICA
Qual
è la
scelta
più
naturale
per gli
estremi
della
regione
di
accettazione?
Si rigetta l’ipotesi nulla se …
x
28/05/2012
17
Non si rigetta l’ipotesi nulla se …
x
0 / 2 0 / 2 1P z X zn n
α α
σ σµ µ α
− ≤ ≤ + = −
0 50µ =
28/05/2012
18
Nel formulare un test di ipotesi
0 0
1 0
:
:
H
H
µ µ
µ µ
=
≠
IPOTESI NULLA
IPOTESI ALTERNATIVA
TAVOLA DEGLI ERRORI
0 0
0
0
H vera H falsa
si rigetta H errore I tipo decisione corretta
non si rigetta H decisione corretta errore II tipo
Errore
di I tipo?
0 / 2 0 /2 1P z X zn n
α α
σ σµ µ α
− ≤ ≤ + = −
0µ
28/05/2012
19
Errore
di II tipo?
Supponiamo che
l’ipotesi alternativa
sia che la media è
pari a 51.
Per calcolare la probabilità di commettere l’errore di II tipo,
c’è bisogno di conoscere l’ipotesi alternativa…
Si fissa allora la probabilità di commettere l’errore di I tipo e si
determina la regione di accettazione.
ESEMPIO: Dieci campioni di roccia sono stati analizzati per il contenuto
in materia organica.
(a) Determinare l’intervallo di confidenza al 95% .
(b) Effettuare un test per verificare se è ragionevole ipotizzare un con-
tenuto medio della roccia pari al 18.0%.
28/05/2012
20
1) Effettuare un norm-plot per supporre che la popolazione sia ragio-
nevolmente gaussiana.
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
0 5 10 15 20 25 30 35
dati
dati
2) Non essendo nota la varianza, l’intervallo di confidenza va calcolato
usando la variabile aleatoria T-student. Usiamo la function di Statview.
6.53 6.5320.5 2.2621 20.5 2.2621 0.95
10 10P µ
− × ≤ ≤ + × =
3) Per il test
1818 X
6.53 6.5320.5 2.2621 20.5 2.2621 0.95
10 10P µ
− × ≤ ≤ + × =
28/05/2012
21
0
1
: 18
: 18
H
H
µ
µ
=
≠
/ 2, 1 / 2, 118 ,18n n
REGIONE DI ACCETTAZIONE
S St t
n nα α− −− +
?x ∈SI
NO0H si rigetta
0H non si rigetta
LEGAME TRA INTERVALLO DI CONFIDENZA E REGIONE DI
ACCETTAZIONE
/ 2, 1 / 2, 118 ,18n n
REGIONE DI ACCETTAZIONE
S St t
n nα α− −− +
?x ∈
/ 2, 1 / 2, 1,n n
INTERVALLO DI CONFIDENZA
S SX t X t
n nα α− −− +?µ ∈
28/05/2012
22
(13.32,22.67)REGIONE DI ACCETTAZIONE=
20.5∈0H non si rigetta
Per leggere l’esito del test con STATVIEW, è necessario introdurre il
concetto di p-value.
'E l'area a destra
del valore della
statistica x
0
0.025 Se p
H non si rigetta
>
⇒
0
0.025Se p
H si rigetta
<
⇒
x
Il p-value è l’area
a destra della statistica
test
28/05/2012
23
18
/
x
S n
−
0
0.025Essendo p
H non si rigetta
>
⇒
DECISIONE DEBOLE: non siamo in grado di valutare la proba-
bilità di commettere l’errore di II tipo.
DECISIONE FORTE: quando si rigetta l’ipotesi nulla, sappiamo
di commettere un errore di I tipo con probabilità 5%.
Si può calcolare l’errore di II tipo, al variare dell’ipotesi alternativa.
( )P X Regione di accettazione ∈
28/05/2012
24
14 15 16 17 18 19 20 21 220.97
0.975
0.98
0.985
0.99
0.995
1
1.005Power curve
Si definisce CURVA POTENZA associata al test, il complementare ad
uno della probabilità di commettere un errore di II tipo = probabilità
di rigettare l’ipotesi nulla quando è falsa.
TEST DI IPOTESI SULLA VARIANZA
Serve per verificare se la varianza di una certa popolazione ha un
valore prestabilito.
0 0
1 0
:
:
H
H
σ σ
σ σ
=
≠
Statistica Test
2
2
( 1)n S
σ
− 2
1nχ −≈
DISTRIBUZIONE CHI-QUADRATO
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5PDF distribuzione chi-quadrato
df=2
df=4
df=8
df=16
28/05/2012
25
Attenzione : il valore della statistica test è molto alto! Bisogna scegliere opportunamente
l’ipotesi alternativa
IPOTESI nulla
36
IPOTESI NULLA
40
IPOTESI nulla
46
TEST PER LA BONTA’ DI ADATTAMENTO
2.8 3 3.2 3.4 3.6 3.8 4 4.20
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
F(x
)
Empirical CDF
Il seguente grafico
riporta la funzione di
ripartizione empirica
del campione
AMMONITI
e la funzione di ripartizione
teorica di una popolazione
gaussiana con media, la
media campionaria e con
varianza, la varianza
campionaria.
Possiamo ritenere le due curve sufficientemente “vicine”,
in modo da ritenere valido il modello stocastico gaussiano
per la popolazione da cui il campione casuale è estratto?
28/05/2012
26
TEST DI KOLMOGOROV-SMIRNOV
ˆmax ( ) ( )i ii
D F x F x⇒ = −STATISTICA TEST
Per l’esecuzione del test in EXCEL è necessario effettuare i seguenti passi:
a) Ordinare i dati in ordine crescente
b) Costruire la funzione di ripartizione empirica
28/05/2012
27
c) Costruire la funzione di ripartizione teorica
d) Calcolare la differenza in valore assoluto tra le due funzioni:
e) Calcolare il massimo della differenza in valore assoluto tra le due funzioni:
28/05/2012
28
f) Confrontare il valore così ottenuto con il quantile associato alla distribuzione
della variabile aleatoria D.,ndα
Le tavole dei quantili sono disponibili all’indirizzo
http://www.unibas.it/utenti/dinardo/tavola.html
f) Come si legge la tavola: sulla riga corrispondente alla taglia n=40, si sceglie il valore di
riferimento nella colonna relativa a 1 - α
….
,072005da confrontare 0
Quindi possiamo
ritenere valido
il modello stoca-
stico gaussiano
per la popolazio-
ne da cui il cam-
pione casuale è
estratto…
28/05/2012
29
IN STATVIEW
STATISTICA NON PARAMETRICA
• Nel caso di campioni appartenenti a distribuzioni non norma-
li è possibile applicare una serie di test equivalenti a quelli de-
scritti nel capitolo precedente, detti test non parametrici.
• I test non parametrici non hanno la stessa efficacia dei test
parametrici.
• Quando applicati a campioni gaussiani, risultano più potenti.
• L’ampiezza del campione casuale può essere anche molto
piccola.
• Particolarmente utili nel caso i dati del campione siano sot-
to forma di ranghi (=posto che il dato occupa nel campione
casuale ordinato).
28/05/2012
30
TEST SUI SEGNI tra i tests non parametrici più diffusi
0 0
1 0
:
:
H M M
H M M
=
≠
E’ un test effettuato sulla mediana della popolazione anzicché sulla
media (che è un Indice di posizione meno robusto).
IDEA:
(1) (2) ( ) ( ), , , , ,M n
x x x x… …
50% 50%
Se indichiamo con
0R num. dati del campione casuale M= ≤
0 5 10 15 20 25 30 35 40 45 500
0.02
0.04
0.06
0.08
0.1
0.12p=1/2 ( ,0.5)R B n∼
Num. di dati che cadono
a sinistra di deve es-
sere all’incirca la metà
della taglia del campione.
0M
Se il numero di dati che
cadono a sinistra di è
troppo elevato (o troppo
basso) , la pdf corrisponden-
te assumerà valori bassi.
0M
Se questi valori sono troppo bassi….
si rigetta l’ipotesi nulla
28/05/2012
31
ESEMPIO:
IL PRIMO RISULTATO E’:
correzione
IL CAMPIONE CASUALE HA
MEDIANA PARI A 10.
28/05/2012
32
ESERCIZIO: I seguenti dati si riferiscono ad intensita’ di terremoti registrati in un dato sito.
Effettuare una anlisi dei dati completa (terremotI)