Curva ROC para Distribuições Bimodais
Vanda Inácio
Vanda Inácio Curva ROC para Distribuições Bimodais
Conceitos Introdutórios/Motivação
Curva ROC: ferramenta destinada a descreverquantitativamente o desempenho de um teste dediagnóstico.Indivíduo considerado doente se X > c e não doente seX < c.
-4 -2 0 2 4 6
0.0
0.1
0.2
0.3
0.4
Resultados do Teste de Diagnóstico
Den
sida
de d
e P
roba
bilid
ade Doente
Não Doente
Área abaixo da curva ROC (AUC): medida resumo dodesempenho global de um teste.Para um teste sem qualquer utilidade clínica, AUC=0.5.
Vanda Inácio Curva ROC para Distribuições Bimodais
Conceitos Introdutórios/MotivaçãoContinuação
Lee e Hsiao(1996) apresentam um exemplo hipotético deum teste perfeito mas cuja AUC=0.5
Propõem duas novas medidas resumo: PLC (ProjectedLength of the Curve) e a ASC (Area Swept Out by theCurve).
Geometricamente:PLC - soma de todos os comprimentos projectados nadiagonal negativa dos segmentos que compõem a curvaROC.ASC - soma das áreas “varridas por um raio que emana”desde a origem até cada ponto da curva.
Vanda Inácio Curva ROC para Distribuições Bimodais
Conceitos Introdutórios/MotivaçãoContinuação
-5 0 5
0.0
0.1
0.2
0.3
0.4
Resultados do Teste de Diagnóstico
Den
sida
de d
e P
roba
bilid
ade
DoenteNão Doente
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
TFP
TVP
Vanda Inácio Curva ROC para Distribuições Bimodais
Conceitos Introdutórios/MotivaçãoContinuação
Para estes testes, um indivíduo é considerado doente seX 6 c1 ou X > c2. Se c1 < X < c2, o indivíduo éconsiderado não doente.
A curva ROC “tradicional”, não é apropriada para lidar comeste tipo de distribuições dos resultados dos testes.
O problema não está na medida resumo AUC, mas naforma como é construída a própria curva.
Vanda Inácio Curva ROC para Distribuições Bimodais
O Método
Teste de diagnóstico utilizado para discrminar os pacientesem uma de duas classes distintas (doentes e nãodoentes).
Admitimos a existência de um teste gold standard.
X0 = (X01, ...,X0n0) e X1 = (X11, ...,X1n1) resultadosobtidos no teste pelos indivíduos pertencentes àpopulação dos não doentes e dos doentes, de dimensãon0 e n1, respectivamente.
X = (X1, ...,Xn0+n1), conjunto total de observações para oteste.
Para uma tomada de decisão quanto ao diagnóstico decada indivíduo utilizou-se a seguinte regra de decisão:
Vanda Inácio Curva ROC para Distribuições Bimodais
O MétodoContinuação
1 SE Xi 6 c1 ENTÃO o indivíduo i é considerado DOENTE;2 SENÃO SE c1 < Xi < c2 ENTÃO o indivíduo i é
considerado NÃO DOENTE;3 SENÃO o indivíduo i é considerado DOENTE.
As taxas de verdadeiros e falsos positivos produzidas são
TVP(c1, c2) = P(X1i 6 c1 ∨ X1i > c2), i = 1, ...,n1,
TFP(c1, c2) = P(X0j 6 c1 ∨ X0j > c2), j = 1...,n0.
À semelhança da curva ROC tradicional, esta curvatambém é monótona.
Vanda Inácio Curva ROC para Distribuições Bimodais
O MétodoContinuação
Suponhamos que X0 ∼ N (µ0, σ20) e que X1 é dada por
uma mistura de distribuições normais, ou seja,
fX1(xj) = ωφX11(xj ;µ1, σ21)+(1−ω)φX12(xj ;µ2, σ
22), j = 1, ...,n1.
Assumimos que µ1 < µ0 < µ2.
Sob o pressuposto de normalidade,
TFP(c1, c2) = Φ
(c1 − µ0
σ0
)+ Φ
(µ0 − c2
σ0
)(1)
TVP(c1, c2) = π
[Φ
(c1 − µ1
σ1
)+ Φ
(µ1 − c2
σ1
)]+ (1− π)
[Φ
(c1 − µ2
σ2
)+ Φ
(µ2 − c2
σ2
)].
(2)
Vanda Inácio Curva ROC para Distribuições Bimodais
O MétodoContinuação
Questão: Como fazer variar os pontos de corte c1 e c2?
Técnica adoptada:Tomou-se como referência a distribuição dos resultadosdos indivíduos não doentes.
O primeiro par de pontos de corte considerado foi:c1 = c2 = µ0.
Para os pares de pontos de corte seguintes impôs-se que :φ(c1) = φ(c2) e c2 − c1 = 2α (α ∈ [0,6σ0]).
Dada a simetria da distribuição normal em relação à média,a restrição enunciada no ponto anterior simplifica-se parac1 = µ0 − α e c2 = µ0 + α.
Vanda Inácio Curva ROC para Distribuições Bimodais
O MétodoContinuação
Substituindo c1 e c2 nas expressões (1) e (2),
TFP = Φ
(µ0 − α− µ0
σ0
)+ Φ
(µ0 − µ0 − α
σ0
)= 2Φ
(− α
σ0
) (3)
TVP = π
[Φ
(µ0 − α− µ1
σ1
)+ Φ
(µ1 − µ0 − α
σ1
)]+ (1− π)
[Φ
(µ0 − α− µ2
σ2
)+ Φ
(µ2 − µ0 − α
σ2
)](4)
Vanda Inácio Curva ROC para Distribuições Bimodais
O MétodoContinuação
Resolvendo (3) em ordem a α,
α = −σ0Φ−1(
TFP2
).
Substituindo este valor em (4),
TVP = π
»Φ
„a + bΦ−1
„TFP
2
««+ Φ
„−a + bΦ−1
„TFP
2
««–+ (1− π)
»Φ
„d + eΦ−1
„TFP
2
««+ Φ
„−d + eΦ−1
„TFP
2
««–,
a = µ0−µ1σ1
, b = σ0σ1
, d = µ0−µ2σ2
e e = σ0σ2
.
Vanda Inácio Curva ROC para Distribuições Bimodais
O MétodoEstimação dos Parâmetros
Estimação de µ0 e σ20 - máxima verosimilhança.
µ0 = = x =1n0
n0∑j=1
xj
σ20 =
1n0
n0∑j=1
(xj − x)2
Estimação dos parâmetros da mistura - algoritmo EM.
ω(k+1) =
∑nj=1 z(k)
1j
n
µ(k+1)1 =
∑kj=1 z(k)
1j xj∑kj=1 z(k)
1j
Vanda Inácio Curva ROC para Distribuições Bimodais
O MétodoEstimação dos Parâmetros - Continuação
µ(k+1)2 =
∑kj=1(1− z(k)
1j )xj∑nj=1(1− z(k)
1j )
σ(k+1)1 =
∑kj=1 z(k)
1j (xj − µ1)2∑nj=1 z(k)
1j
σ(k+1)2 =
∑kj=1(1− z(k)
1j )(xj − µ2)2∑nj=1(1− z(k)
1j )
z(k)1j =
ω(k)φ(xj ;µ1, σ21)
ω(k)φ(xj ;µ1, σ21) + (1− ω(k))φ(xj ;µ2, σ
22)
Vanda Inácio Curva ROC para Distribuições Bimodais
O MétodoÁrea Abaixo da Curva ROC - AUC
Índice mais utilizado para a descrição da exactidão de umteste de diagnóstico.
A AUC foi calculada através da regra dos trapézios.
Ai (i = 1, ..., r − 1 , r - número de pontos de corte) - áreado i-ésimo trapézio
Ai =
(TVP[i + 1] + TVP[i]
2
)× (TFP[i + 1]− TFP[i]).
AUC - soma das áreas de todos os trapézios
AUC =r−1∑i=1
Ai .
Vanda Inácio Curva ROC para Distribuições Bimodais
Análise da Curva ROC
Estudo de diversos cenários hipotéticos, (situações ondese verifica e não verifica a igualdade de variâncias, bemcomo casos equilibrados (ω = 0.5) e desequilibrados(ω 6= 0.5)).
Igualdade de variâncias
σ0 = σ1 = σ2 = 1, µ0 = 0, ω = 0.5 e
µ1 = −4, µ2 = 4µ1 = −2.5, µ2 = 2.5µ1 = −1, µ2 = 1
Objectivo: averiguar o efeito da diferença entre as médiase a razão dos desvios, σ0/σ1 e σ0/σ2.
Vanda Inácio Curva ROC para Distribuições Bimodais
Análise da Curva ROCContinuação - Igualdade de Variâncias
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
TFP
TVP
mu1=-4,mu2=4mu1=-2.5,mu2=2.5mu1=-1,mu2=1
Figura:Curvas ROC para distribuições normais de igualvariância.
Vanda Inácio Curva ROC para Distribuições Bimodais
Análise da Curva ROCContinuação - Variâncias diferentes
Quatro situações consideradas:σ0σ1> 1 e σ0
σ2< 1
σ0σ1< 1 e σ0
σ2> 1
σ0σ1< 1 e σ0
σ2< 1
σ0σ1> 1 e σ0
σ2> 1
Para a primeira situação considerou-se
µ1 = 0, σ0 = 1, µ1 = −1, µ2 = 1, ω = 0.5 e
σ1 = 0.1, σ2 = 2σ1 = 0.5, σ2 = 2σ1 = 0.8, σ2 = 2
Vanda Inácio Curva ROC para Distribuições Bimodais
Análise da Curva ROCContinuação - Variâncias diferentes
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
TFP
TVP
sigma1=0.1sigma1=0.5sigma1=0.9
Figura:Curvas ROC para distribuições normais de diferentesvariâncias.
Vanda Inácio Curva ROC para Distribuições Bimodais
Análise da Curva ROCContinuação - Variâncias diferentes
Fixando σ1 = 2 e σ2 ∈ {0.1,0.5,0.8} e mantendo osrestantes parâmetros iguais aos da situação anterior,obtêm-se os mesmos resultados.
Se em vez de ω = 0.5, considerarmos ω = 0.2, já háalteração de resultados.
Situação hipotéticaµ0 = 0, σ0 = 1, µ1 = −1, µ2 = 1, ω = 0.2 e
σ1 = 2 e σ1 = 0.1σ1 = 2 e σ1 = 0.5σ1 = 2 e σ1 = 0.8
Vanda Inácio Curva ROC para Distribuições Bimodais
Análise da Curva ROCContinuação - Variâncias diferentes
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
TFP
TVP
Figura:Curvas ROC para distribuições normais de diferentesvariâncias.
Vanda Inácio Curva ROC para Distribuições Bimodais
Análise da Curva ROCContinuação - Variâncias diferentes
Para a terceira situação considerou-seµ1 = 0, σ0 = 1, µ1 = −4, µ2 = 4, ω = 0.5 e
σ1 = 1.5, σ2 = 1.5σ1 = 2, σ2 = 2σ1 = 3, σ2 = 3σ1 = 4, σ2 = 4
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
TFP
TVP
1234
Vanda Inácio Curva ROC para Distribuições Bimodais
Análise da Curva ROCContinuação - Variâncias diferentes
Para a última situação considerou-seµ1 = 0, σ0 = 1, µ1 = −1, µ2 = 1, ω = 0.5 e
σ1 = 0.1, σ2 = 0.1σ1 = 0.1, σ2 = 0.7σ1 = 0.5, σ2 = 0.5σ1 = 0.9, σ2 = 0.9
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
TFP
TVP
1234
Vanda Inácio Curva ROC para Distribuições Bimodais
Comparação AUCs : verdadeiros valores versusvalores estimados.
v.v. v.i.(EM) v.e. AUCv.v AUCv.e |∆|µ0 = 0 µ1 = −2 cµ0 = −0.121 0.9666437 0.962251 0.0043916σ0 = 1 σ1 = 2 bσ0 = 0.957µ1 = −3 µ2 = 2 cµ1 = −2.806σ1 = 1 σ2 = 2 bσ1 = 0.94µ2 = 3 ω = 0.3 cµ2 = 3.017σ2 = 1 bσ2 = 1.106ω = 0.5 bω = 0.509µ0 = 0 µ1 = −1 cµ0 = 0.283 0.9666437 0.9557074 0.0109363σ0 = 1 σ1 = 1 bσ0 = 0.946µ1 = −3 µ2 = 3 cµ1 = −2.903σ1 = 1 σ2 = 3 bσ1 = 1.017µ2 = 3 ω = 0.3 cµ2 = 3.093σ2 = 1 bσ2 = 1.228ω = 0.5 bω = 0.45
Vanda Inácio Curva ROC para Distribuições Bimodais
Comparação AUCs : verdadeiros valores versusvalores estimados.
v.v. v.i.(EM) v.e. AUCv.v AUCv.e |∆|µ0 = 0 µ1 = −3 cµ0 = 0.018 0.6354124 0.6321659 0.0032465σ0 = 1 σ1 = 3 bσ0 = 0.996µ1 = −1 µ2 = 3 cµ1 = −0.779σ1 = 1 σ2 = 3 bσ1 = 0.847µ2 = 1 ω = 0.2 cµ2 = 1.398σ2 = 1 bσ2 = 0.746ω = 0.5 bω = 0.65µ0 = 0 µ1 = 0 cµ0 = 0.027 0.6354124 0.5786248 0.0567736σ0 = 1 σ1 = 2 bσ0 = 1.132µ1 = −1 µ2 = 2 cµ1 = −1.06σ1 = 1 σ2 = 2 bσ1 = 0.471µ2 = 1 ω = 0.3 cµ2 = 0.688σ2 = 1 bσ2 = 1.07ω = 0.5 bω = 0.45
Vanda Inácio Curva ROC para Distribuições Bimodais
Pepe, M. S. (2003) “The Statistical Evaluation of Medical Tests for Classification and Prediction,” New York:Oxford University Press.
Zhou, X. H., Obuchowski, N.A., McClish,D.K. (2002) “ Statistical Methods in Diagnostic Medicine,” WileySeries in Probability and Statistics.
Lee, W.C., Hsiao, C.K. (1996) “Alternative summary indices for the Receiver Operating Characteristic curve,”Epidemiology, 7, 605-611.
Dempster, A.P., Laird, N.M., Rubin, D.B. (1977) “Maximum likelihood from incomplete data via the EMalgorithm,” Journal of Royal Statistical Society B, 39, 1-38.
Thompson, M.L., Zucchini, W.(1989) “On the statistical analysis of ROC curves,” Statistics in Medicine, 8,1277-1290.
Vanda Inácio Curva ROC para Distribuições Bimodais