Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 1 Università del Piemonte Orientale Corsi di laurea triennale ad indirizzo sanitario Corso di Statistica Medica Elementi di calcolo delle probabilità e di inferenza statistica.
84
Embed
Università del Piemonte Orientale Corsi di laurea ...magnani/pdf/statistica_du2_lezioni.pdf · ... con riferimento al caso delle estrazioni ripetute da sistemi ... probabilità di
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 1
Università del Piemonte Orientale
Corsi di laurea triennale ad indirizzo sanitario
Corso di Statistica Medica
Elementi di calcolo delle probabilità e di inferenza statistica.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 2
Statistica per Ricerca Sperimentale e Tecnologica (10 ore) Obiettivo generale: acquisire gli elementi di statistica inferenziale e di disegno dello studio necessari per la lettura di articoli scientifici che comprendono semplici analisi statistiche dei dati. Articolazione: 1. Probabilità. 2. Il calcolo delle probabilità condizionate applicato al caso della valutazione della sensibilità e della specificità di un test. 3. Variabilità campionaria, con riferimento al caso delle estrazioni ripetute da sistemi casuali semplici (dado, moneta ecc);
Valutazione della probabilità di eventi intuitivamente infrequenti; Discussione sull'uso dei valori di probabilità per trarre conclusioni.
4. Probabilità della somma di due eventi; probabilità di due eventi indipendenti; applicazione del calcolo della probabilità di eventi indipendenti al calcolo del numero atteso in tabelle di contingenza 2x2.
5. Misure di associazione nelle tabelle 2 x 2 (Calcolo delle probabilità di successo dopo un trattamento; Odds Ratio). 6. Chi quadrato, con riferimento alle tabelle di contingenza 2 x 2. 7. Nel corso della spiegazione delle misure di associazione e del Chi quadrato vengono illustrati per esempi ed in modo
intuitivo il concetto di potenza di uno studio e la formulazione e la verifica di un'ipotesi statistica. 8. Gli intervalli di confidenza (uso e significato). 9. Accuratezza e precisione (illustrati per esempi ed in modo intuitivo).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 3
Probabilità: valutazione della possibilità che accada (o sia accaduto) un
evento incerto.
Esempi:
1. La probabilità di incontrare una persona conosciuta ieri
2. La probabilità che domani piova
3. La probabilità che la Juventus batta il Perugia alla prima partita di
campionato
4. La probabilità di lanciare una moneta ed ottenere testa
5. La probabilità che un bambino nato oggi viva almeno 80 anni
6. La probabilità che un campione di sangue presenti una concentrazione di
emoglobina di 14,456 g/100ml
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 4
Queste affermazioni appartengono a due categorie diverse:
Le affermazioni 1-3 indicano la propensione soggettiva a valutare la
possibilità che l�evento accada. (giudizio di un esperto). Di solito non è
possibile stimare un valore di probabilità per affermazioni di questo tipo.
Le affermazioni 4-6 consentono la risposta in base alla definizione di uno
spazio campionario ed alla misura della probabilità associata all�evento.
Noi parleremo di probabilità limitatamente a questa seconda accezione.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 5
Inoltre si osservi che:
- la variabile considerata negli esempi 4-5 può assumere solo alcuni valori
in un intervallo, nel caso i valori 1,2,3,4,5,6 (variabile discreta);
- la variabile considerata nell�esempio 5 può assumere due soli valori (vivo,
morto) (variabile binaria);
- la variabile considerata nell�esempio 6 può assumere tutti i valori in un
intervallo (variabile continua).
L�intervallo in cui sono compresi i valori che possono essere assunti da una
variabile è detto �dominio della variabile� o �spazio campionario�.
In questo corso approfondiremo solo il caso delle variabili discrete e delle
variabili binarie.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 6
La stima della probabilità:
A priori:
• Simmetria (geometria): lancio di moneta o di dado, estrazione del lotto
• Logica1 �se x è vero allora consegue che y deve essere pari a�.�
A posteriori
• Frequenza di un evento osservata in un numero molto alto di prove
• Limite della frequenza di un evento osservata per un numero di prove
tendente all�infinito
1 Corrisponde alla stima della probabilità conseguente alla formulazione di un�ipotesi. L�argomento sarà ripreso nelle prossime lezioni
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 7
probabilità di ottenere croce
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0 20 40 60 80 100 120
n. lanci
prob
.
prob.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 8
Probabilità di un evento
P = r/N
Dove
r = frequenza dell�evento
N = Numero di possibili eventi
Evento = estrazione di un asso di cuori
r = 1 (c�è un asso di cuori nel mazzo)
N = 40 (il mazzo è di 40 carte)
P=1/40=0,025
Evento = estrazione di un topo maschio dalla gabbia
r = 10 (numero di topi di sesso maschile)
N = 20 (numero totale di topi)
P=10/20=0,5
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 9
Alcune ulteriori definizioni e regole:
Spazio Campionario (S): l�insieme di tutte le possibili evenienze.
P(S) = 1
La probabilità di un evento è compresa nell�intervallo
0 (evento impossibile) - 1 (evento certo)
0 <= P(A) <= 1
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 10
Anche nel caso del lancio di una monetina o del lancio di un dado la
probabilità di un evento può scostarsi rispetto all� atteso, soprattutto se
abbiamo poche osservazioni.
Esempio:
Nel caso della monetina la probabilità di ottenere testa è 0.5.
Lanciate una monetina 10 volte.
Con quale frequenza avete ottenuto testa?
Ripetete l�esperimento di 10 lanci altre 9 volte.
Annotate ogni volta il risultato.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 11
In questo grafico e nella tabella che lo accompagna troverete tutti i possibili
risultati, ciascuno con sua la probabilità, calcolata attraverso una formula
teorica (formula della probabilità binomiale, la formula è scritta nella tabella
ma non è necessario che la studiate).
Conclusione:
piccoli scostamenti rispetto al valore atteso si possono osservare anche in
situazioni sperimentali ben controllate.
Scostamenti maggiori sono invece poco frequenti.
Impareremo a valutare anche come considerare scostamenti più importanti
dal valore atteso.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 12
Questa tabella riassume i valori di probabilità associati a ciascuno dei
possibili risultati di un esperimento di 10 lanci di moneta.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 45
Conclusione: se il mio esperimento ha dato un risultato poco probabile è prudente che io chieda di sostituire la moneta per continuare il gioco.
Sono disposto a giocare con una monetina che ai primi 10 lanci ha dato 1 testa e 9 croci?
Distribuzione binomiale N=10, p=0.5
0,000
0,050
0,100
0,150
0,200
0,250
0,300
0 1 2 3 4 5 6 7 8 9 10
prob
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 46
Nelle pagine seguenti impareremo ad confrontare il valore atteso e quello osservato nel caso in cui i dati siano riassunti in una tabella di contingenza (tabelle 2 x 2).
Questa tecnica di analisi dei dati è molto frequentemente utilizzata.
Confrontate ad esempio le tabelle dell�articolo
(file meropenem_vs_ceftazidime.pdf)
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 47
Analisi dei dati in tabelle di contingenza
Spesso il risultato di uno studio è riassunto in tabelle come quella che segue:
La tabella presenta la frequenza di osservazioni, categorizzate secondo due variabili.
Neutropenia febbrile
Farmaco Curato Non curato Totale Proporzione curati
Meropenem a b a+b a/(a+b)
Ceftazidime c d c+d c/(c+d)
TOTALE a+c b+d a+b+c+d
Questa tabella corrisponde alla tabella 2 dell�articolo.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 48
Si noti che i totali marginali della tabella (totali di riga e di colonna) sono definiti dal disegno dello studio e dai suoi risultati principali.
Lo studio clinico in esempio include 409 pazienti, divisi in due gruppi di 206 e 203 pazienti
Il primo risultato dello studio sarà dato dal numero di pazienti che hanno mostrato un risultato favorevole del trattamento (201 risultati favorevoli, 208 con risultato non favorevole). La tabella completata relativamente ai totali marginali è: risultato
Farmaco Curato Non curato Totale
Meropenem a b 206
Ceftazidime c d 203
TOTALE 201 208 409
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 49
Successivamente inserisco i valori delle diverse celle La tabella completa: risultato
Farmaco Curato Non curato Totale
Meropenem 112 94 206
Ceftazidime 89 114 203
TOTALE 201 208 409
Si noti che, una volta definito un valore per una delle quattro celle, resta definito anche il
valore delle celle restanti, poiché i totali marginali sono fissati. In una tabella 2*2 una sola
delle celle è libera di assumere qualsiasi valore, le restanti sono fissate dai totali
marginali.
In altri termini, le tabelle 2*2 hanno un grado di libertà.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 50
RIEPILOGO
L�analisi di una tabella di contingenza prevede:
- il calcolo della probabilità di successo separatamente per i due farmaci
- il calcolo di indicatori di associazione tra le due variabili;
- la valutazione della probabilità di osservare la tabella in esame data l�ipotesi nulla (test
di significatività).
Conclusioni
- Se la probabilità è < 0.05 ( 5%), concludiamo che uno dei due farmaci è più efficace
dell�altro
- Se la probabilità è >= 0.05 ( 5%), concludiamo che i due farmaci sono equivalenti
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 51
Probabilità di guarigione:
Neutropenia febbrile Probabilità
Farmaco Curato Non curato Totale di essere curati
Meropenem a b a+b a/(a+b)
Ceftazidime c d c+d c/(c+d)
TOTALE a+c b+d a+b+c+d
Neutropenia febbrile Probabilità
Farmaco Curato Non curato Totale di essere curati
Meropenem 112 94 206 112/206 = 0,54
Ceftazidime 89 114 203 89/203 = 0,44
TOTALE 201 208 409
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 52
Indicatori di associazione:
Neutropenia febbrile
Farmaco Curato Non curato Totale
Meropenem a b a+b
Ceftazidime c d c+d
TOTALE a+c b+d a+b+c+d
La misura di associazione usata più frequentemente è l� Odds Ratio
(Rapporto Crociato), abbreviato con OR.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 53
Odds Ratio (OR) si calcola con la seguente formula
cbda
××= OR
L�intervallo di valori validi per OR è:
0 <= OR <= ∞
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 54
OR = ( 112 * 114 ) / (89 * 94) = 1,53
Interpretazione:
le due variabili sembrano associate: i pazienti trattati con meropenem mostrarono una
probabilità di essere trattati con successo1,53 volte maggiore di quella dei pazienti trattati
con Ceftazidime.
Dobbiamo considerare questa differenza come
o reale?
o dovuta al caso?
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 55
Test di significatività.
Il test adottato per risolvere il quesito è il Chi-quadro (χ2).
Questo test fornisce la probabilità di osservare una tabella come quella in esame o una
tabella più �estrema� (cioè con un OR maggiore) quando i due farmaci sono equivalenti.
In altri termini ci dice quanto è probabile osservare questi dati solo per effetto del caso
Esamineremo solo la formula approssimata di questo test, che si basa sulla misura della
differenza tra il numero di osservazioni in ciascuna cella della tabella ed il corrispondente
numero di osservazioni attese.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 56
Calcolo del numero di osservazioni attese
H0: Le due variabili non sono associate.
Se due eventi sono indipendenti
P(B|A) = P(B)
Quindi
La probabilità del realizzarsi congiunto di due eventi è data dal prodotto della probabilità
di ciascuno di essi.
P(A e B) = P(A) P(B)
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 57
Attesi
Dove E(a) = [(a+b)/T] * [(a+c)/T] * T = (a+b) * (a+c)/T
Il valore di χ2 , letto dall�apposita tabella, dato 1 grado di libertà corrisponde ad un valore di
probabilità uguale a 0,12.
Poiché l�errore α era stato fissato a 0,05, non rifiuto l�ipotesi nulla.
Posso anche calcolare il valore di probabilità esatto utilizzando una funzione di Excel:
dato χ2 = 2,400635 ed 1 grado di libertà calcolo:
p = 0,121286
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 68
Esercizio: calcolate OR e χ2 sui dati della seguente tabella:
Ulcera Peptica
Farmaco Curato Non curato Totale
Pirenzepina 230 70 300
Tritiozina 180 130 310
TOTALE 410 200 610
Confrontate i risultati con quelli ottenuti dalla tabella precedente.
Commentate le eventuali differenze.
Possiamo definire la Potenza Statistica di uno studio come la capacità di mettere in evidenza come
�statisticamente significativo� un risultato.
La potenza statistica è proporzionale alla dimensione dello studio (oltre che ad altri fattori che non
prendiamo adesso in considerazione).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 69
Meropenem versus ceftazidime in the treatment of cancer patients with febrile neutropenia: a randomized, double-blind trial. Feld R, DePauw B, Berman S, Keating A, Ho W.
J Clin Oncol. 2000 Nov 1;18(21):3690-8.
Princess Margaret Hospital, University of Toronto, Toronto, Ontario, Canada. [email protected] PURPOSE: To compare meropenem, a carbapenem antibiotic, with ceftazidime for the empirical treatment of patients with febrile neutropenia. PATIENTS AND METHODS: A prospective, double-blind, randomized clinical trial was conducted at medical centers in North America and the Netherlands. A total of 411 cancer patients (196 treated with meropenem and 215 treated with ceftazidime), who had 471 episodes of fever, participated in the trial. For each neutropenic episode, patients were allocated at random to receive intravenous administration of meropenem (1 g every 8 hours) or ceftazidime (2 g every 8 hours). Treatment could be modified at any time. Key end points were clinical and bacteriologic outcomes, eradication of infecting organism, and adverse events. RESULTS: The rate of successful clinical response at the end of therapy was significantly higher for patients treated with meropenem than for those on ceftazidime for all episodes (54% v 44%, respectively) and for episodes of fever of unknown origin (62% v 46%, respectively), but differences between groups were not statistically significant for clinically defined or microbiologically defined infections. Meropenem was significantly more effective than ceftazidime in severely neutropenic (</= 100 cells/microliter) patients (55% v 43%, respectively), bone marrow transplant patients (73% v 27%, respectively), and patients given antibiotic prophylaxis before study entry (71% v 52%, respectively). Common adverse effects of meropenem and ceftazidime therapy were rash, diarrhea, and nausea and vomiting. CONCLUSION: Monotherapy with meropenem represents a suitable choice for initial empirical antibiotic therapy for febrile episodes in neutropenic cancer patients.
Il testo integrale è disponibile sul sito del materiale didattico
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 70
Esempio: studio caso controllo per l�indagine di una epidemia di diarrea di
origine batterica in un ospedale
Diarrea da clostridium difficile
chirurgia
addominale
Casi Controlli Totale
Si
No
TOTALE 40 40
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 71
Diarrea da clostridium difficile
chirurgia
addominale
Casi Controlli Totale
Si 21
No 59
TOTALE 40 40 80
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 72
Diarrea da clostridium difficile
chirurgia
addominale
Casi Controlli Totale
Si 16 5 21
No 24 35 59
TOTALE 40 40 80
OR=
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 73
Tabella con i valori attesi
Diarrea da clostridium difficile
chirurgia
addominale
Casi Controlli Totale
Si 10,5 10,5 21
No 29,5 29,5 59
TOTALE 40 40 80
OR= 4,67
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 74
Soglia di significatività statistica fissata al 5%
OR= 4,67
Chi2 = 7,81
Probabilità corrispondente a X2 maggiore dei seguenti valori critici
p= 0,1 0,05 0,025 0,01 0,001
1 g.l. Χ2= 2,706 3,841 5,024 6,635 10,827
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 75
Soglia di significatività statistica fissata al 5%
OR= 4,67
Chi2 = 7,81
0,001 < p < 0,01 -> (p= 0,0052 se calcolato con Excel)
Conclusione:
l�aumento del rischio di malattia per chi ha subito un intervento di chirurgia
addominale è statisticamente significativo (cioè non può essere attribuito al
caso).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 76
Intervalli di confidenza
Una statistica calcolata su un campione di soggetti (detta statistica campionaria) è
affetta da una imprecisione, detta �errore campionario�.
Si osserva facilmente che campioni ripetuti dallo stesso gruppo di soggetti danno medie
campionarie diverse.
L�intervallo di confidenza fornisce una indicazione della precisione della statistica stimata.
�L�intervallo di confidenza fornisce un�espressione formale dell�incertezza che deve
essere aggiunta alla statistica campionaria a causa del semplice errore di
campionamento.� (Armitage).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 77
L�intervallo di confidenza della media campionaria è un intervallo di valori intorno alla
media campionaria;
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 78
Estrazione di 50 campioni di numerosità 20 da distribuzione gaussiana con µ=0 e δ=1.
Le barre rappresentano l�intervallo di confidenza al 95%
0 1 0 2 0 3 0 4 0 5 0ID
-1 .0
-0 .5
0 .0
0 .5
1 .0
MD
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 79
L�intervallo di confidenza è definito in modo tale da soddisfare la seguente equazione:
[X - Zα/2 *(σ/√n)] < µ < [X + Zα/2 *(σ/√n)].
Dove:
X: media campionaria
µ: media della popolazione
(σ/√n): errore standard della media (cioè deviazione standard della media campionaria)
Zα/2= valore della deviata normale standardizzata corrispondente all�errore di 1° tipo
scelto.
Limite fiduciale superiore = X + Zα/2 *(σ/√n).
Limite fiduciale inferiore = X - Zα/2 *(σ/√n).
Di solito l�intervallo di confidenza intorno alla media viene indicato come: X ± Zα/2 *(σ/√n)
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 80
Intervallo di confidenza = X ± Zα/2 *(σ/√n).
Statistica (es. media)
�sicurezza�dell�intervallo
Variabilità del campione (Errore Standard)
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica 81
Esempio: calcolo dell�intervallo di confidenza: N 15