La misclassificazione dello stato di esposizione: problema ......Farmacoepidemiologia Misclassificazione dell’esposizione Introduzione • Il problema della misclassificazione dello

La misclassificazione dello stato di

esposizione: problema e soluzione

Andrea Arfè

[email protected]

Anno accademico 2014-15

Lab

Farmacoepidemiologia

Misclassificazione

dell’esposizione

Introduzione

• Il problema della misclassificazione dello stato di esposizione negli studi di farmacoepidemiologia basati su healthcare utilization databases:

Figura tratta da:Schneeweiss S, Avorn J. A review of uses of health care utilization databases for epidemiologic research on therapeutics. J ClinEpidemiol 2005; 58:323-37.


Misclassificazione

dell’esposizione

Argomenti della lezione

Argomenti:1. Misclassificazione non-differenziale di una esposizione binaria

1.1 Definizione1.2 Impatto sulle misure di rischio relativo

2. Misclassificazione non-differenziale di una esposizione categorica2.1 Definizione2.2 Impatto sulle misure di rischio relativo

3. Metodi probabilistici per la valutazione quantitativa dell’impatto della misclassificazione non-differenziale: 3.1 Descrizione metodologia3.2 Applicazione: durata terapia antidiabetica e rischio di eventi avversi

4. Cenni alla misclassificazione differenziale dello stato di esposizione


Misclassificazione

dell’esposizione








Misclassificazione

dell’esposizione

1.1 Misclassificazione non-differenziale di

una esposizione binaria: definizioni

• Variabili di interesse in un ipotetico studio di coorte (no confondenti):

𝑬 (vero stato di esposizione):

𝒀 (variabile di outcome):

𝐸 = 1 per gli esposti𝐸 = 0 per i non esposti

𝑌 = 1 per chi sperimenta l’outcome𝑌 = 0 per chi non sperimenta l’outcome

• Misura dell’associazione fra E e Y: rapporto fra rischi

𝑅𝑅 =Pr(𝑌 = 1|𝐸 = 1)

Pr 𝑌 = 1 𝐸 = 0


Misclassificazione

dell’esposizione









𝑅𝑅 =Pr(𝑌 = 1|𝐸 = 1)

Pr 𝑌 = 1 𝐸 = 0

Non osservato


Misclassificazione

dell’esposizione









Non osservato

𝑬∗ (proxy dello stato di esposizione):𝐸 = 1 per chi viene classificato come esposto𝐸 = 0 per chi viene classificato come non esposto

𝑅𝑅 =Pr(𝑌 = 1|𝐸 = 1)

Pr 𝑌 = 1 𝐸 = 0


Misclassificazione

dell’esposizione









Non osservato

𝐸 = 1 per chi viene classificato come esposto𝐸 = 0 per chi viene classificato come non esposto

In generale non stimabile tramite i dati osservati se può essere 𝑬 ≠ 𝑬∗𝑅𝑅 =

Pr(𝑌 = 1|𝐸 = 1)

Pr 𝑌 = 1 𝐸 = 0

𝑬∗ (proxy dello stato di esposizione):


Misclassificazione

dell’esposizione








• Misura dell’associazione fra E* e Y: rapporto fra rischi apparente

Non osservato

𝐸 = 1 per chi viene classificato come esposto𝐸 = 0 per chi viene classificato come non esposto

Stimabile dai dati osservati.In generale può essere 𝑨𝑹𝑹 ≠ 𝑹𝑹𝐴𝑅𝑅 =

Pr(𝑌 = 1|𝐸∗ = 1)

Pr 𝑌 = 1 𝐸∗ = 0

𝑬∗ (proxy dello stato di esposizione):


Misclassificazione

dell’esposizione



Misclassificazione non-differenziale/differenziale (rispetto l’outcome):

La misclassificazione di E* come misura di E è non-differenziale (rispetto a Y) se

o equivalentemente

Buonaccorsi JP. Measurement error. Models, methods and applications. CRC Press, Boca Raton, Florida, 2010.

Pr 𝐸∗ = 1 𝐸 = 1, 𝒀 = 𝟏 = Pr 𝐸∗ = 1 𝐸 = 1, 𝒀 = 𝟎

Pr 𝐸∗ = 0 𝐸 = 0, 𝒀 = 𝟏 = Pr 𝐸∗ = 0 𝐸 = 0, 𝒀 = 𝟎

Sensibilità:

Specificità:

Misclassificazione non-differenziale e caratteristiche operative:

In caso contrario la misclassificazione è detta differenziale (rispetto Y).


Misclassificazione

dell’esposizione








Misclassificazione

dell’esposizione


una esposizione binaria: impatto

• Vogliamo valutare l’impatto della misclassificazione non-differenziale dello stato di esposizione sul rapporto fra rischi:

𝐴𝑅𝑅 = 𝑓 𝑅𝑅,misure intensitàdella misclassificazione

Flegal KM, Brownie C, Haas JD. The effects of exposure misclassification on estimates of relative risk. Am J Epidemiol 1986; 123:736-51.


Misclassificazione

dell’esposizione





Valori predittivi:

(𝑖, 𝑗 = 0,1)


𝑃𝑉𝑖𝑗 = Pr 𝐸 = 𝑖 𝐸∗ = 𝑗


Misclassificazione

dell’esposizione





Valori predittivi:

𝑃𝑉𝑖𝑗 = Pr 𝐸 = 𝑖 𝐸∗ = 𝑗 (𝑖, 𝑗 = 0,1)

• Esempi:

𝑃𝑉11 = Pr 𝐸 = 1 𝐸∗ = 1 = 𝑷𝑷𝑽 (positive predictive value)

𝑃𝑉00 = Pr 𝐸 = 0 𝐸∗ = 0 = 𝑵𝑷𝑽 (negative predictive value)

𝑃𝑉01 = Pr 𝐸 = 0 𝐸∗ = 1 = 1 − 𝑃𝑃𝑉

𝑃𝑉10 = Pr 𝐸 = 1 𝐸∗ = 0 = 1 − 𝑁𝑃𝑉



Misclassificazione

dell’esposizione





Valori predittivi:

(𝑖, 𝑗 = 0,1)


• Se la misclassificazione dello stato di esposizione (binaria) è non-differenziale, si può dimostrare che

𝐴𝑅𝑅 =1 + 𝑅𝑅 − 1 ⋅ 𝑃𝑉111 + 𝑅𝑅 − 1 ⋅ 𝑃𝑉10



Misclassificazione

dell’esposizione





Valori predittivi:

(𝑖, 𝑗 = 0,1)


• Se la misclassificazione dello stato di esposizione (binaria) è non-differenziale, si può dimostrare che

𝐴𝑅𝑅 =1 + 𝑅𝑅 − 1 ⋅ 𝑃𝑃𝑉

1 + 𝑅𝑅 − 1 ⋅ 1 − 𝑁𝑃𝑉



Misclassificazione

dell’esposizione




Misclassificazione

dell’esposizione



1 + 1 − 1 ⋅ 𝑃𝑃𝑉

1 + 1 − 1 ⋅ 1 − 𝑁𝑃𝑉= 1


Misclassificazione

dell’esposizione




Misclassificazione

dell’esposizione




Misclassificazione

dell’esposizione




Misclassificazione

dell’esposizione




Misclassificazione

dell’esposizione



Y

1 0

E

1 100 100

0 100 100

• Esempio: sensibilità=80%, specificità=80%

𝑹𝑹 = 𝟏


Misclassificazione

dell’esposizione



Y

1 0

E

1 100 100

0 100 100


Atteso:

Y

1 0

E*

1 80+20 80+20

0 20+80 20+80

𝑹𝑹 = 𝟏𝑹𝑹 = 𝟏


Misclassificazione

dell’esposizione



Y

1 0

E

1 100 100

0 100 100


Osservato per effetto del caso:

Y

1 0

E*

1 70+25 85+10

0 30+75 15+90

𝑹𝑹 = 𝟏.05>1𝑹𝑹 = 𝟏


Misclassificazione

dell’esposizione







• Variabili di interesse:

𝐸 (vero stato di esposizione): 𝐸 = 0 (riferimento),1,2, … ,K

• Misure di associazione:

Non osservato

𝐸∗ (proxy dello stato di esposizione): 𝐸∗ = 0,1,2, … , 𝐾

𝑅𝑅𝒊 =Pr(𝑌 = 1|𝐸 = 𝒊)

Pr 𝑌 = 1 𝐸 = 0


Misclassificazione

dell’esposizione


una esposizione categorica: definizioni

𝐴𝑅𝑅𝒊 =Pr(𝑌 = 1|𝐸∗ = 𝒊)

Pr 𝑌 = 1 𝐸∗ = 0

• Variabili di interesse:

𝐸 (vero stato di esposizione): 𝐸 = 0 (riferimento),1,2, … ,K

• Misure di associazione:

Non osservato

𝐸∗ (proxy dello stato di esposizione): 𝐸∗ = 0,1,2, … , 𝐾

𝑅𝑅𝑖 =Pr(𝑌 = 1|𝐸 = 𝑖)

Pr 𝑌 = 1 𝐸 = 0


Misclassificazione

dell’esposizione

𝐴𝑅𝑅𝑖 =Pr(𝑌 = 1|𝐸∗ = 𝑖)

Pr 𝑌 = 1 𝐸∗ = 0

• Misclassificazione non-differenziale (rispetto l’outcome):

o equivalentemente

Pr 𝐸∗ = 𝑖 𝐸 = 𝑗, 𝑌 = 1 = Pr 𝐸∗ = 𝑖 𝐸 = 𝑗, 𝑌 = 0 per ogni i, j=0, 1, 2, … K


una esposizione categorica: definizioni


Misclassificazione

dell’esposizione








Misclassificazione

dell’esposizione


• Se la misclassificazione dello stato di esposizione (categorica) è non-differenziale, si può dimostrare che

𝐴𝑅𝑅𝑖 =1 + 𝑘=1𝐾 𝑅𝑅𝑖 − 1 ⋅ 𝑃𝑉𝑘𝑖

1 + 𝑘=1𝐾 𝑅𝑅𝑗 − 1 ⋅ 𝑃𝑉𝑘0

(𝑖 = 1, 2, … , 𝐾)


una esposizione categorica: impatto

𝐴𝑅𝑅𝑖 = 𝑓 𝑅𝑅1, … , 𝑅𝑅𝐾 , 𝑃𝑉00, … , 𝑃𝑉𝐾𝐾

Valori predittiviRapporti fra rischi

Arfè A, et al. A Monte-Carlo Sensitivity Analysis for misclassified categorical exposures, with application to oral anti-hyperglycaemic drugs. Sumbitted manuscript.


Misclassificazione

dell’esposizione




Misclassificazione

dell’esposizione



Figura tratta da:Stayner L, Steenland K, Dosemeci M, Hertz-Picciotto I. Attenuation of exposure-response curves in occupational cohort studies at high exposure levels. Scand J Work Environ Health 2003; 29:317-24


Misclassificazione

dell’esposizione








Misclassificazione

dell’esposizione

• Misclassificazione non-differenziale può inficiare i risultati a volte in maniera imprevedibile, specialmente per esposizioni categoriche.

• Necessità di valutare quantitativamente l’impatto sui risultati.

3.1 Metodi probabilistici per la misclassificazione non-

differenziale: descrizione della metodologia


Misclassificazione

dell’esposizione

• Misclassificazione non-differenziale può inficiare i risultati a volte in maniera imprevedibile, specialmente per esposizioni categoriche.

• Necessità di valutare quantitativamente l’impatto sui risultati.

Problemi:1) Conoscendo i valori predittivi e gli ARR, come posso

ricavare il vero RR (aggiustato per la misclassificazione)?

𝑅𝑅 = 𝑓−1 𝐴𝑅𝑅, 𝑃𝑃𝑉,𝑁𝑃𝑉

2) Come posso tenere conto dell’incertezza sui valori predittivi?




Misclassificazione

dell’esposizione

1) Conoscendo i valori predittivi e gli ARR, come posso ricavare il vero RR (aggiustato per la misclassificazione)?

Se la misclassificazione dello stato di esposizione (categorica) è non-differenziale, si può dimostrare che:


1 + 𝑘=1𝐾 𝑅𝑅𝑖 − 1 ⋅ 𝑃𝑉𝑘0

=1 + 𝐏𝐕𝑖

𝑇 ⋅ 𝐑𝐑 − 𝟏

1 + 𝐏𝐕0𝑇 ⋅ 𝐑𝐑 − 𝟏

(𝑖 = 1, 2, … , 𝐾)

Dove: 𝐏𝐕𝑖 = 𝑃𝑉1𝑖 , … , 𝑃𝑉𝐾𝑖𝑇 , 𝐑𝐑 = 𝑅𝑅1, … , 𝑅𝑅𝐾

𝑇,

𝟏 = 1,… , 1 𝑇 il vettore 𝐾 × 1 unitario





Misclassificazione

dell’esposizione

1) Conoscendo i valori predittivi e gli ARR, come posso ricavare il vero RR (aggiustato per la misclassificazione)?

Se la misclassificazione dello stato di esposizione (categorica) è non-differenziale, si può dimostrare che:


1 + 𝑘=1𝐾 𝑅𝑅𝑖 − 1 ⋅ 𝑃𝑉𝑘0

=1 + 𝐏𝐕𝑖

𝑇 ⋅ 𝐑𝐑 − 𝟏

1 + 𝐏𝐕0𝑇 ⋅ 𝐑𝐑 − 𝟏

(𝑖 = 1, 2, … , 𝐾)

Dove: 𝐏𝐕𝑖 = 𝑃𝑉1𝑖 , … , 𝑃𝑉𝐾𝑖𝑇 , 𝐑𝐑 = 𝑅𝑅1, … , 𝑅𝑅𝐾

𝑇,

𝟏 = 1,… , 1 𝑇 il vettore 𝐾 × 1 unitario

𝐑𝐑 = 𝟏 + 𝐏𝐕 − 𝐀𝐑𝐑 ∙ 𝐏𝐕0𝑇 −1 𝐀𝐑𝐑 − 𝟏

Dove: 𝐀𝐑𝐑 = 𝐴𝑅𝑅1, … , 𝐴𝑅𝑅𝐾𝑇

𝐏𝐕 = 𝑃𝑉𝑖𝑗 𝒊,𝒋=𝟏,…,𝑲 matrice 𝐾 × 𝐾 di valori predittivi.





Misclassificazione

dell’esposizione

2) Come posso tenere conto dell’incertezza sui valori predittivi?



Lash TL, Fink AK. Semi-autometed sensitivity analysis to assess systematic errors in observational data. Epidemiology 2003; 14:451-8Phillips CV. Quantifying and reporting uncertainty from systematic errors. Epidemiology 2003; 14:459-66Greenland S. Interval estimation by simulation as an alternative to and extension of confidence intervals. Int J Epidemiol 2004; 33:1389-97Greenland S. Multiple-bias modeling for analysis of observational data. J Roy Stat Soc A 2005; 168:267-306

Probabilistic (Monte Carlo) Bias Analysis: uso distribuzioni di probabilità per quantificare l’incertezza totale, i.e. casuale + sistematica, sui parametri di interesse.

PVARR RR

Distribuzione sui parametri stimati

(incertezza casuale)

Distribuzione sui parametri del processo di bias

(incertezza sistematica)

Distribuzione sui parametri target

(incertezza totale)


Misclassificazione

dell’esposizione



In pratica:

1) Simulo PV dalla distribuzione multivariata Pr(PV) dei valori predittivi.

Greenland S. Interval estimation by simulation as an alternative to and extension of confidence intervals. Int J Epidemiol 2004; 33:1389-97



Misclassificazione

dell’esposizione



In pratica:


2) Simulo ARR dalla distribuzione multivariata Pr(ARR) degli ARRi.




Misclassificazione

dell’esposizione



In pratica:



3) Calcolo 𝐑𝐑 = 𝟏 + 𝐏𝐕 − 𝐀𝐑𝐑 ∙ 𝐏𝐕0𝑇 −1 𝐀𝐑𝐑 − 𝟏 e ne memorizzo il valore.




Misclassificazione

dell’esposizione



In pratica:




4) Ripeto 1)-3) in maniera indipendente un numero elevato di volte.




Misclassificazione

dell’esposizione



In pratica:





5) La distribuzione multivariata dei valori 𝐑𝐑 simulati rappresenta l’incertezza totale sui

valori dei rapporti fra rischi aggiustati per l’impatto della misclassificazione.




Misclassificazione

dell’esposizione



In pratica:





5) La distribuzione multivariata dei valori 𝐑𝐑 simulati rappresenta l’incertezza totale sui

valori dei rapporti fra rischi aggiustati per l’impatto della misclassificazione.

• Dalla distribuzione dei singoli 𝑅𝑅𝑖 simulati posso ottenere delle stime intervallari al 95% (e.g. tramite i corrispondenti quantili di livello 2.5% e 97.5%).

• Questi possono talvolta essere interpretati come intervalli di confidenza ma sono più propriamente degli intervalli di credibilità (in senso Bayesiano).




Misclassificazione

dell’esposizione








Misclassificazione

dell’esposizione


differenziale: durata della terapia antidiabetica

• Studio di coorte per valutare impatto della misclassificazione della durata della terapia con antidiabetici quando le DDD sono usate al posto delle PDD.

• Fonte dei dati: database MMG HealthSearch(registra sia le DDD che la PDD).

• Pazienti inclusi: nuovi utilizzatori di farmaci antidiabetici non-insulinici orali con ≥40anni e che hanno iniziato la terapia per il diabete nel 2003-2010. Sono stati esclusitutti i pazienti con meno di un anno di osservazione dopo la data di ingresso (i.e. ladata della prima prescrizione di antidiabetici).

• Follow-up: tutti i pazienti inclusi hanno accumulato 1 anno di follow-up.



Misclassificazione

dell’esposizione




• Durata terapia con farmaci anti-diabetici non-insulinici:

• Per ogni membro della coorte sono state identificate tutte le prescrizioni di farmaci antidiabetici non-insulinici ricevute durante il follow-up.

Durata calcolata tramite le PDD (esposizione vera, E):

E = 1-2, 3-4, …, 11-12 mesi

Durata calcolata tramite le DDD (esposizione proxy, E*):

E* = 1-2, 3-4, …, 11-12 mesi

• La classe 1-2 mesi è stata presa come riferimento.


Misclassificazione

dell’esposizione



(E*)

(E)

• Matrice dei valori predittivi, mesi coperti dalla terapia con antidiabetici orali durante il primo

anno dopo l’inizio della terapia in base alla dose prescritta (PDD) e a quella stimata (DDD).


OAD: Oral Antidiabetic Drugs


Misclassificazione

dell’esposizione



Distribuzioni considerate per la Probabilistic Bias Analysis:


• Pr(PV) = Distribuzione normale multivariata stimata empiricamente dai dati (i.e. quella asintotica degli stimatori di massima verosimiglianza degli PVij):

Pr 𝐏𝐕 = 𝑁 𝐏𝐕, Σ𝐏𝐕

Questa distribuzione è stata troncata per precludere valori impossibili (e.g. PVij < 0).

• Pr(ARR) = Distribuzione log-normale (compatibile con quella empirica corrispondente a comuni stimatori degli ARRi):

Pr log 𝐀𝐑𝐑 = 𝑁 log 𝐀𝐑𝐑 , Σlog 𝐀𝐑𝐑

Nelle nostre analisi abbiamo fissato dei possibili ARRi

Questi sono stati considerati come noti, i.e. abbiamo posto Σ𝐀𝐑𝐑 = 𝟎


Misclassificazione

dell’esposizione



Misclassified ARR

Adjusted RR

95% Monte-Carlo bound

for RR

a) b)

c) Months with drug available

Months with drug available

Months with drug available


• Impatto degli errori di misclassificazione (assunta non differenziale) su degli ipotetici profili di

durata-risposta per l’associazione fra uso di farmaci antidiabetici ed un ipotetico evento avverso:


Misclassificazione

dell’esposizione








Misclassificazione

dell’esposizione

Argomenti della lezione4. Cenni alla misclassificazione

differenziale dello stato di esposizione

• Il bias dovuto alla misclassificazione differenziale è ancora più imprevedibile rispetto a quello associato alla misclassificazione differenziale (può essere sia conservativo che anti-conservativo).

• I metodi di Probabilistic Bias Analysis possono essere estesi anche al caso della misclassificazione differenziale (richiedono più informazioni rispetto i soli valori predittivi; c.f. referenza sotto).

La misclassificazione di E* come misura di E è differenziale (rispetto a Y) se

o equivalentemente

• Misclassificazione differenziale (rispetto l’outcome):

Pr 𝐸∗ = 𝑖 𝐸 = 𝑗, 𝑌 = 1 ≠ Pr 𝐸∗ = 𝑖 𝐸 = 𝑗, 𝑌 = 0 per dei qualche i, j=0, 1, 2, … K

Fox MP, Lash TL, Greenland S. A method to automate probabilistic sensitivity analyses of misclassified binary variables. Int J Epidemiol 2005; 34:1370-6


Misclassificazione

dell’esposizione

Argomenti della lezione4. Cenni alla misclassificazione

differenziale dello stato di esposizione


Misclassificazione

dell’esposizione

Conclusioni

• L’impatto della misclassificazione di una variabile di esposizione categorica può essere complesso.

• Valutazione impatto della misclassificazione:Quantitativo > Euristico

• L’impiego di tecniche di Probabilistic Bias Analysis può essere di grande aiuto in questo contesto.

La misclassificazione dello stato di esposizione: problema ......Farmacoepidemiologia Misclassificazione dell’esposizione Introduzione • Il problema della misclassificazione dello

Documents