Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 1 Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi dei dati quantitativi : Confronto tra due medie
66
Embed
Università del Piemonte Orientale Corso di laurea in ...magnani/pdf/medicina_novara_2006_L_9_confronto... · A. Confronto tra una media campionaria ed una popolazione i cui parametri
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 1
Università del Piemonte Orientale
Corso di laurea in medicina e chirurgia
Corso di Statistica Medica
Analisi dei dati quantitativi :
Confronto tra due medie
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 2
Consideriamo diverse situazioni, tutte riconducibili all’analisi di una variabile quantitativa con il confronto tra diversi gruppi di soggetti:
A. Confronto tra una media campionaria ed una popolazione i cui parametri
sono noti
B. Confronto tra una media campionaria ed una popolazione di cui è nota
la media ma non la deviazione standard
C. Confronto tra 2 campioni appaiati
D. Confronto tra due campioni indipendenti
E. Confronto tra n campioni indipendenti
F. Confronto tra misure ripetute sugli stessi soggetti
I casi A e B sono già stati esaminati nella lezione sulle statistiche campionarie
Il caso E corrisponde all'analisi della varianza
Il caso F non sarà considerato in questo corso.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 3
Riepilogo del caso A: Confronto tra una media campionaria ed una
popolazione i cui parametri sono noti
Siamo interessati al confronto tra la media campionaria e la media della
popolazione. I parametri della distribuzione di probabilità della variabile nella
popolazione (µ e σ) sono noti.
Il processo di verifica dell’ipotesi si svolge secondo quanto visto in
precedenza:
L’ipotesi di lavoro: il campione non è parte dalla popolazione considerata ma
di un’altra popolazione, con media differente.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 4
L’ipotesi nulla: il campione estratto ha media uguale a quella della
popolazione (corrisponde cioè ad un campione tratto da tale popolazione).
L' errore di primo tipo è fissato al 5% (α=0,05)
L' errore di secondo tipo viene fissato al 20% e la dimensione del campione è
definita di conseguenza usando apposite tavole (l'argomento non è ancora
stato trattato).
L’esperimento consiste nell’estrazione di un campione e nel calcolo della
media campionaria.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 5
Il test statistico consiste nel calcolo della deviata normale standardizzata:
Z = ( X - µ)/ (σ/√n).
Dove
X : media campionaria
µ: media della popolazione
(σ/√n): errore standard della media (cioè deviazione standard della media
campionaria)
σ: deviazione standard della popolazione
n: numerosità del campione
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 6
Il test è di tipo parametrico, cioè è valido a condizione che siano validi i
presupposti relativi alla distribuzione di probabilità (gaussiana).
L’assunzione è generalmente vera dato il teorema del limite centrale (sempre
che n sia sufficientemente grande e la forma della distribuzione della
popolazione non sia troppo asimmetrica). Nel calcolo della dimensione del
campione occorre quindi anche considerare che la distribuzione di frequenza di
campioni piccoli si differenzia dalla distribuzione gaussiana maggiormente che la
distribuzione di frequenza di campioni grandi.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 7
Il valore di probabilità corrispondente al valore |Z| (valore assoluto di Z) così
ottenuto si legge dalla tabella della distribuzione normale standard.
Se Z>0 viene letto il valore di probabilità compreso tra Z e ∞∞∞∞.
Se Z<0 viene letto il valore di probabilità compreso tra Z e -∞∞∞∞.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 8
Esempio 1
Confronto della pressione sistolica di un gruppo di pazienti affetti da una forma
di arteriopatia di Burger con la popolazione generale.
H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno
pressione arteriosa (sistolica) diversa dalla popolazione generale. L’ipotesi è
nata osservando che i primi casi avevano valori pressori molto elevati.
H0= i pazienti appartengono ad una popolazione con media della pressione
sistolica 145 mmHg
La deviazione standard della misura della pressione della popolazione è nota da
precedenti studi ed è pari a 2,53 mmHg;
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 9
test bilaterale ('a due code'; sebbene l’ipotesi di lavoro sia indirizzata
maggiormente verso un rialzo pressorio, non ho informazioni sufficientemente
forti da scegliere un test ad una coda).
errore 1°tipo =0.05
numerosità campionaria non modificabile poichè sono inclusi tutti i pazienti
disponibili. Non è stata calcolata la potenza statistica
Test statistico: test Z (confronto tra una media campionaria e la media della
popolazione). Il valore del test si legge sulle tabelle della distribuzione di
probabilità normale standard (es. Tabella A3 del testo consigliato).
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 10
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 11
Requisiti del test scelto:
La deviazione standard della misura della pressione della popolazione è nota da
precedenti studi ed è pari a 2,53 mmHg;
La distribuzione della variabile nella popolazione è gaussiana, pertanto anche
piccoli campioni saranno distribuiti secondo tale distribuzione.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 12
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 13
Le statistiche campionarie necessarie per il test N (dimensione campionaria) 15 Media campionaria 149.14 mmHg (calcolo omesso) I parametri necessari per il test µ=145 mmHg σ=2,53 mmHg Memo: Il valore della statistica Z corrispondente al limite per il rifiuto dell’ipotesi nulla (dati errore 1° tipo <= 0,05 e test a due code) è 1,960.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 14
Il calcolo del test
Z = ( X - µ)/ (σ/√n).
Z = (149.14 - 145) / (2,53/√15) =
= 6,34
Conclusione = ?
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 15
Il calcolo del test
Z = ( X - µ)/ (σ/√n).
Z = (149.14 - 145) / (2,53/√15) =
= 6,34
Conclusione = rifiuto l’ipotesi nulla.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 16
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 17
Esempio 2
Una compagnia di assicurazioni intende controllare quali agenzie sono
troppo severe oppure troppo disponibili nella valutazione dei danni. Viene
effettuato un campione delle pratiche seguite da ciascuna agenzia. Per
rendere omogenea la popolazione di provenienza vengono esclusi gli
incidenti con feriti e quelli in autostrada.
Il costo medio nella popolazione (tutte le pratiche della compagnia di
assicurazione) (in migliaia di euro) = 1,6.
Deviazione standard della popolazione (in migliaia di euro) = 3,4
H lavoro: L'agenzia xxyy si discosta dai parametri definiti sulla base della
popolazione di tutti gli incidenti dell'anno in corso.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 18
H0: l'agenzia non si discosta.
test a due code (interessano entrambi gli scostamenti)
errore 1°tipo =0.10 (dato il piano di lavoro di controllo)
numerosità campionaria 22 pratiche.
Test statistico: test Z (confronto tra una media campionaria e la media
della popolazione)
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 19
Requisiti del test scelto:
La deviazione standard del costo medio è nota, poichè il centro di calcolo
della compagnia ha tutte le pratiche.
La distribuzione della variabile nella popolazione è asimmetrica con coda
a destra (valori elevati), come indicato dal centro di calcolo. Viene
effettuata una trasformazione logaritmica per renderla simile alla
gaussiana: dopo la trasformazione anche piccoli campioni si
distribuiscono secondo la distribuzione gaussiana.
Il centro di calcolo fornisce µ e σ della popolazione
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 20
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 24
Variable: lcosto (loge del costo) Moments N 22 Mean 0.216379
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 25
Il calcolo del test Media e deviazione standard della popolazione calcolati dai logaritmi dei dati originali. µ’ = 0,262364 σ’ = 0,875469 X = 0,216
Z = ( X - µ’)/ (σ’/√n).
Z = (0,216 - 0,262364) / (0,875469/√22) =
= - 0,2484
p=0,401 Conclusione = non rifiuto l’ipotesi nulla.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 26
Riepilogo del caso B: Confronto tra una media campionaria ed una
popolazione di cui non si conosce la deviazione standard.
Se non abbiamo informazioni sul parametro (il valore nella popolazione), usiamo
la statistica campionaria, che è stata calcolata proprio per avere informazioni
relative al valore (ignoto) del parametro nella popolazione.
Si ricorda che l’Atteso della varianza campionaria calcolata con il denominatore
è (n-1) è una stima non distorta della varianza della popolazione.
La varianza del campione però è affetta da variabilità casuale rispetto alla
varianza della popolazione, a causa del campionamento. Pertanto non potremo
usare statistiche basate sulla distribuzione normale standardizzata, che
risulterebbe troppo poco conservativa ma dovremo usare la distribuzione t di
Student.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 27
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 28
La probabilità corrispondente all’intervallo tra un dato t e ∞∞∞∞ si legge su apposite
tabelle (es. tabella A4 del testo consigliato).
Si noti che i valori di probabilità cumulativa esterni ad un dato valore di t sono
maggiori man mano che si riduce il numero di gradi di libertà.
La distribuzione t per 30 gradi di libertà è praticamente una distribuzione
normale standardizzata.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 29
Confronto tra un campione e la media della popolazione
La formula del test è simile a quella già vista per il calcolo del test Z, con l'errore
standard calcolato dalla deviazione standard del campione:
tgl = ( X - µ)/ (s/√n).
X : media campionaria
µ: media della popolazione
s: deviazione standard del campione
(s/√n): errore standard della media (cioè dev. standard della media campionaria)
n: numerosità del campione
il numero di gradi di libertà è gl= n-1
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 30
Il test è di tipo parametrico, cioè è valido a condizione che:
- nella popolazione la variabile sia distribuita secondo la distribuzione di
probabilità gaussiana;
- il campione abbia la stessa varianza della popolazione.
La prima assunzione è generalmente vera dato il teorema del limite centrale
(sempre che n sia sufficientemente grande e la forma della distribuzione della
popolazione non sia troppo asimmetrica).
La seconda è vera se vale H0 (il campione appartiene alla popolazione), mentre
non è valutabile altrimenti.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 31
Esempio Confronto della pressione sistolica tra un gruppo di pazienti affetti da una forma
di arteriopatia con la popolazione generale (è l’esempio precedente, sviluppato
senza fare uso della informazione sulla deviazione standard della popolazione).
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 32
H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno
pressione arteriosa (sistolica) diversa dalla popolazione generale. L’ipotesi è
nata osservando che i primi casi diagnosticati avevano valori pressori molto
elevati
H0= media della popolazione: pressione sistolica 145 mmHg
test a due code (sebbene l’ipotesi di lavoro sia indirizzata maggiormente verso
un rialzo pressorio, non ho informazioni sufficientemente forti da scegliere un
test ad una coda)
errore 1°tipo =0.05
errore 2°tipo =0.20
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 33
Test statistico: test t
(confronto tra una media campionaria e la media della popolazione, senza dati
sulla deviazione standard della popolazione).
Verifica dei Requisiti del test scelto:
La deviazione standard della misura della pressione della popolazione non è
nota.
La distribuzione della variabile nella popolazione è gaussiana, pertanto anche
piccoli campioni saranno distribuiti secondo tale distribuzione.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 34
I dati individuali: Obs pressure (mmHg)
1 150,00
2 146,00
3 147,00
4 139,00
5 154,00
6 145,00
7 161,00
8 143,00
9 142,00
10 143,00
11 157,00
12 148,00
13 161,00
14 152,00
15 149,00
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 35
Le statistiche campionarie
N 15 Mean 149.13 Std Deviation 5,8538 Variance 34,2667
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 36
I dati necessari per il test µ=145 mmHg media campione= 149.13 Std Deviation 5,8538 dimensione del campione = 15 numero di gradi di libertà= 14
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 37
Il calcolo del test
t14 = (X - µ)/ (s/√n).
t14 = (149,13 - 145) / (5,8538/√15) =
= 2,7325
Conclusione = rifiuto l’ipotesi nulla.
Memo: Il valore della statistica t corrispondente al limite per il rifiuto dell’ipotesi nulla (errore 1° tipo <= 0,05 e test a due code, 14 g.l.) = 2,145
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 38
t
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 39
Confronto tra due campioni appaiati
Parliamo di campioni appaiati quando ad ogni osservazione del primo gruppo
corrisponde un'osservazione del secondo gruppo.
E' una tecnica per ridurre l'influenza sui risultati da parte di variabili estranee
Due possibilità:
- misure ripetute nello stesso soggetto
- soggetti diversi ma appaiati perchè simili per caratteristiche importanti (es
della stessa età, sesso, luogo di nascita e professione)
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 40
L'ipotesi alternativa (di lavoro) è di solito:
H1: µ1 # µ2
e la corrispondente ipotesi nulla è:
Ho: µ1 = µ2 quindi Ho: µ1- µ2=0
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 41
In questo caso conviene costruire il test sulle differenze dei valori tra le coppie di
misure appaiate. Conviene quindi riformulare H1 ed H0
indichiamo la media delle differenze nella popolazione con δ
- L'ipotesi alternativa (di lavoro) è:
H1: δ # 0
e l'ipotesi nulla è:
Ho: δ = 0
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 42
Calcolo le differenze per le coppie di misure
di= xi1 - xi2
calcolo quindi media e deviazione standard di d nel campione, usando le
formule consuete.
n
ddMedia
n
ii∑
=== 1
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 43
( ))1(
._ 1
2
−==∑ −
=
ni
sstDeviazione
n
idd
Calcolo infine l'errore standard
nsSE =..
e la statistica t con g.l.= n.osservazioni – 1.
nsdt 0−=
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 44
Esempio: in uno studio viene valutato l'accrescimento in peso in coppie
di topi nati dalla stessa nidiata e sottoposti a due diverse diete.
H1: tra i topi alimentati con le due diete si osserva una differenza di
crescita in peso
H0: le due diete sono equivalenti e quindi tra i ratti alimentati con le due
diete non si osserva una differenza di crescita in peso.
errore di 1° tipo = 0,05
viene condotto un esperimento con coppie di topi.
La distribuzione della variazione del peso è gaussiana.
Userò il test t di student.
Università del Piemonte Orientale Corso di laurea in medicina e chirurgia Corso di Statistica Medica Confronto tra due medie 45