Il test (o i test) del Chi-quadrato (2 ) I dati: numerosità di osservazioni che cadono all’interno di determinate categorie Prima di tutto, è un test per confrontare proporzioni Esempio : confronto tra numero semi lisci e rugosi osservati in nella discendenza di una pianta eterozigote autofecondata DATI: 59 semi lisci e 14 semi rugosi o p = 59/73 = 0.808 Ci si chiede di verificare l’ipotesi nulla che la proporzione di semi lisci, 0 , sia 0.75 Ci ricorda qualcosa?
16
Embed
Test del Chi-quadrato - Docenti Unifedocente.unife.it/giorgio.bertorelle/didattica_insegnamenti/bio... · I dati: numerosità di osservazioni che cadono all’interno di determinate
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Il test (o i test) del Chi-quadrato (2)
I dati: numerosità di osservazioni che cadono all’interno di determinate categorie
Prima di tutto, è un test per confrontare proporzioni
Esempio: confronto tra numero semi lisci e rugosi osservati in nella discendenza di una pianta
eterozigote autofecondata DATI: 59 semi lisci e 14 semi rugosi
o p = 59/73 = 0.808
Ci si chiede di verificare l’ipotesi nulla che la proporzione di semi lisci, 0, sia 0.75 Ci ricorda qualcosa?
Sappiamo già affrontare questo problema con un semplice test z !
H0 : = 0
H1 : 0
1488.1
73
25.075.0
750.0808.0
1 00
0
n
pzcalc
Però questa analisi si può affrontare anche con il test del chi-quadrato, calcolando sulle
numerosità (non sulle proporzioni) la statistica
A
AO
Attesi
AttesiOsservaticalc
222 )()(
Osservati sono le numerosità osservate Attesi sono le numerosità attese se fosse vera l’ipotesi nulla La sommatoria è per tutte le categorie (2 in questo caso, semi lisci e semi rugosi)
Come per il test z, questo test è valido se le numerosità attese nelle 2 categorie sono maggiori
o uguali a 5
Nell’esempio o Valori attesi di semi lisci, su un totale di 73 semi, è pari a 0.75*73 = 54.75 o Valori attesi di semi rugosi, su un totale di 73 semi, è pari a 0.25*73 = 18.25
o I valori attesi possono avere numeri decimali: sono medie di tante repliche ipotetiche di un esperimento sotto H0
o Il totale dei valori attesi deve essere pari al numero totale di osservazioni!
Per le verifica della significatività, ci servono i valori critici di una distribuzione teorica nuova,
quella del 2 .
Infatti si può dimostrare che se è vera l’ipotesi nulla (= 0), allora la distribuzione della
statistica (2
calc) segue una distribuzione teorica nota, quella del 2 appunto, con un numero di
gradi di libertà pari al numero di categorie indipendenti gdl: numero di pezzettini di informazione indipendente oppure numero di pezzettini di
informazione meno il numero di parametri stimati dai dati per calcolare gli attesi In questo caso, c'è soltanto 1 gdl, e lo posso dimostrare in due modi:
o esiste solo una classe indipendente (la numerosità nell'altra la posso calcolare per differenza dal totale)
o se alle due classi di partenza tolgo una singola quantità che proviene dai dati e che mi serve per calcolare i valori attesi (il totale di osservazioni) ottengo 1.
La distribuzione del 2
Tante curve a seconda dei gradi di libertà Il valore medio è uguale a il numero di gradi di libertà
Il 2 è sempre positivo (si calcola con un quadrato al numeratore)
Varia tra 0 e +infinito
Estratto da tabella del Chi-quadrato
I valori interni alla tabella corrispondono ai valori critici riferiti alla coda di destra, ovvero ai valori alla cui destra cade la frazione della curva riportata nella prima riga. Per esempio, con 2 gradi di libertà, il 5% della distribuzione ha valori superiori a 5.991. Si tratta quindi di una tabella delle aree a una coda.
calc sono indice di allontanamento dall’ipotesi nulla, in
entrambe le direzioni
Tutte e due le deviazioni dall’ipotesi nulla ( > 0 e < 0) determineranno una deviazione verso
valori grandi 2 ,ossia verso la coda destra della distribuzione attesa quando è vera l'ipotesi nulla.
Le ipotesi sono definite in maniera bidirezionale,
ma se utilizziamo la statistica del 2
dobbiamo usarla ad una coda!
Quindi il valore di Chi quadrato calcolato
3196.12 calc
non è significativo per α = 0.05, visto che è inferiore al valore critico di 3.841
La conclusione è ovviamente identica a quella ottenuta con il test z
Ma quindi a cosa serve questo test se avevamo già z?
La generalizzazione del test del Chi-quadrato come test “goodness of fit” Il test che abbiamo visto per i piselli di Mendel si può considerare il caso più semplice di una
categoria di test definiti “test di bontà dell’adattamento di una distribuzione empirica ad una distribuzione teorica”, o più semplicemente “goodness of fit tests”
Le proporzioni osservate si confrontano con quelle previste da un modello teorico Il modello teorico è da considerarsi l’ipotesi nulla
Nel caso dei piselli lisci e rugosi, esistevano solo due categorie e solo una proporzione prevista
(l’altra era determinata automaticamente). Questa situazione si può però estendere ad un numero maggiore di categorie.
Per esempio, nella verifica della trasmissione di due geni indipendenti durante la trasmissione mendeliana in un incrocio di un doppio eterozigote
Assunzione del test (generalizzazione quando ci sono più di 2 categorie) Non più del 20% delle classi deve avere una numerosità attesa <5 (e nessuna classe deve
avere numerosità attesa <1) Se cio’ non si verifica, una soluzione è quella di raggruppare alcune classi
Esempio La proporzione di semi che possiedono le caratteristiche CS, Cs, cS e cs dopo
l'autofecondazione di piante eterozigoti a due geni è prevista, nel caso di geni indipendenti, nel rapporto 9:3:3:1.
Verificare questa distribuzione teorica attesa su un campione di 1000 semi che hanno dato la seguente distribuzione osservata
CS Cs cS cs 720 23 20 237
Calcolo le numerosità ( = frequenze assolute) attese
CS Cs cS cs 562,5 187,5 187,5 62,5
Calcolo il valore dei 4 elementi che devono essere sommati per ottenere il 2
calc
44,1 144,3 149,6 487,2
La somma porta a 3.8252 calc
Il calore critico della distribuzione teorica del chi-quadrato con 3 gradi di libertà è 7.81 (con = 0.05)
Quindi, la deviazione è altamente significativa ed è possibile respingere l'ipotesi nulla di
adeguamento alla distribuzione teorica prevista (le proporzioni osservate si discostano significativamente da quelle attese
Probabilmente i due geni sono localizzati in posizioni vicine sullo stesso cromosoma
Un esempio
Verificare con il test appropriato se la distribuzione osservata si adatta a quella attesa.
Altri esempi Dispersione di semi con legge quadratica inversa
Efficacia trappole per la cattura di uccelli
Verifica se i dati osservati in un campione seguono una distribuzione teorica normale
Vediamo quest’ultimo esempio
La distribuzione di frequenza del peso in chilogrammi di frutta prodotta da 81 piante è riportato nella seguente tabella:
Intervalli ni
48.5-49.5 4
49.5-50.5 7
50.5-51.5 9
51.5-52.5 10
52.5-53.5 15
53.5-54.5 11
54.5-55.5 10
55.5-56.5 8
56.5-57.5 5
57.5-58.5 2
Vogliamo testare l'ipotesi nulla che questi dati siano estratti da una popolazione in cui la
variabile "peso di frutta prodotta da un albero" ha una distribuzione gaussiana. Si deve cioè verificare se i dati osservati sono compatibili con un modello distributivo normale.
L'ipotesi nulla è che lo siano, l'ipotesi alternativa è che non lo siano. Come sempre, se l'ipotesi nulla non verrà rifiutata, non potremmo dire con certezza che i dati
provengono da una popolazione con distribuzione gaussiana della variabile, ma solo sono compatibili con questa ipotesi.
Per testare questa ipotesi, dobbiamo utilizzare (dopo aver calcolato media e varianza dei dati osservati) la distribuzione normale per calcolare le numerosità attese in ciascuna classe. Poi il test del chi-quadrato verrà utilizzato per confrontare le numerosità osservate con quelle attese
Le numerosità attese vengono calcolate sulla base della distribuzione teorica gaussiana che ha la stessa media e la stessa deviazione standard calcolati a partire dai dati osservati
Per il calcolo delle numerosità attese, avrò ovviamente bisogno della normale standardizzata, e quindi dovrò standardizzare i limiti delle classi
Attenzione alle classi estreme e alla determinazione dei gradi di libertà da utilizzare per definire la distribuzione nulla appropriata
Nel caso riportato, possiamo calcolare che
media = 52.25
varianza = 5.26
dev. St. = 2.29
A questo punto procedo con la standardizzazione dei limiti superori, il calcolo delle aree a sinistra di questi limiti, il calcolo delle aree relative a ciascun intervallo, e quindi al calcolo delle numerosità attese
Limite superiore
Limite superiore
stadardizz.
Area a sinistra del limite sup.
Area corrispondente
all'intervallo Numerosità
attese
49.50 -1.63 0.0516 0.0516 4.18
50.50 -1.20 0.1151 0.0635 5.15
51.50 -0.76 0.2236 0.1086 8.79
52.50 -0.33 0.3707 0.1471 11.91
53.50 0.11 0.5438 0.1731 14.02
54.50 0.55 0.7088 0.1650 13.37
55.50 0.98 0.8365 0.1276 10.34
56.50 1.42 0.9222 0.0857 6.94
57.50 1.85 0.9678 0.0456 3.70
58.50 2.29 1.0000 0.0322 2.60
Totali 1.0000 81.00
Ora calcolo la statistica test del chi-quadrato
OSSERVATI ATTESI (O-A)^2/A
4 4.18 0.01
7 5.15 0.66
9 8.79 0.01
10 11.91 0.31
15 14.02 0.07
11 13.37 0.42
10 10.34 0.01
8 6.94 0.16
5 3.7 0.46
2 2.6 0.14
24.22 calc
07.142
05.0,7, gdlcritico
CONCLUSIONE: Non ci sono forti evidenze per rifiutare il modello teorico gaussiano. La distribuzione di frequenza empirica (dei dati osservati) è compatibile con una distribuzione teorica gaussiana