Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Estatística Métodos Estatísticos Avançados em Epidemiologia Aula 1-1 Aula 1-1 Correlação e Regressão Linear Simples: Estimação e Interpretação da Reta Tabela ANOVA e R 2 Estimação da Média e de Resposta Individual Análise dos Resíduos
56
Embed
Métodos Estatísticos Avançados em Epidemiologiaedna/mae/MAE-Aula01-1.pdf · Coeficiente de Determinação: 2 = Reg , 0 ≤R2 ≤1 SQ SQ Total R 2 ( )2 R =rXY Quanto mais próximo
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Universidade Federal de Minas GeraisInstituto de Ciências ExatasDepartamento de Estatística
Métodos Estatísticos Avançados em Epidemiologia
Aula 1-1Aula 1-1
Correlação e Regressão Linear Simples:
Estimação e Interpretação da RetaTabela ANOVA e R 2
Estimação da Média e de Resposta IndividualAnálise dos Resíduos
Representação visual da relação entre duas variáveis quantitativas
Capacidade Vital Forçada (litros)
6,00
8,00Indivíduo
Capacidade Vital Forçada (litros)
Sentado Deitado
1 4,66 4,63
2 5,70 6,34
3 5,37 5,72
2,00
4,00
2,00 4,00 6,00 8,00Sentado
Deitado
3 5,37 5,72
4 3,34 3,23
5 3,77 3,60
6 7,43 6,96
7 4,15 3,66
8 6,21 5,81
9 5,90 5,61
10 5,77 5,33
Representação visual da relação duas variáveis quantitativas:
Gráfico de Dispersão ( Scatter Plot)
O Exemplo dos Ursos Marrons : relação entre o peso do animal e outras medidas como altura e perímetro do tórax
Quantificando a relacionamento linear entre duas variáveis quantitativas
O Coeficiente de Correlação Linear de Pearson
( )( ) ∑∑
∑=
−−
−−
=nn
n
iii
XY
yyxx
yyxxr 1
22( ) ∑∑
==
−−
ii
ii yyxx
11
2
-1 ≤ r ≤ 1
rXY = 1 , correlação linear positiva perfeita entre X e Y
rXY = 0 , correlação linear nula entre X e Y
rXY = -1 , correlação linear negativa perfeita entre X e Y
Sinal do coeficiente de correlação linear de Pearson
( )∑=
−−
n
iii yyxx
1
(-)(+) = (-) (+)(+) = (+)
(-)(-) = (+) (+)(-) = (-)
No exemplo da Capacidade Vital Forçada
67
Capacidade Vital Forcada (litros)
r = 0.955
4 5 6 7
45
Sentado
Dei
tado r = 0.955
2 3 4 5 6 7 8 9
24
68
10
xis
ypsi
+ 1
0
r = -0 .879
1 .0 1 .5 2 .0 2 .5 3 .0
56
78
9
xis
ypsi
+ 5
r = -0 .1 9 7
2 3 4 5 6 7 8 9
910
1112
1314
xis
ypsi
+ 1
0
r = 0 .357
2 3 4 5 6 7 8 9
23
45
67
xis
ypsi
+ 5
r = 0 .0025
Exemplo dos Ursos Marrons
r = 0.874
r = 0.964
1500
2000
2500
Gas
to M
ensa
l (R
$)
Exemplo: relação entre gasto e renda mensais.
r = 0.8503
500 1000 1500 2000 2500
050
010
00
Renda Mensal (R$)
Gas
to M
ensa
l (R
$)
r = 0.8503
Teste da Significância do Coeficiente Linear de Pea rson
Estudar o relacionamento entre duas variáveis:
Como a variável X explica a variável Y ?
•Variação no peso e tempo de exercício físico semanal;•Salário e idade;•Venda de um produto e gasto com propaganda;•Desempenho no emprego e resultado em testes de aptidão.
� Como a variável X explica a variável Y ?� Posso prever os valores deY usando os valores de X ?
Y : variável resposta ( dependente ) X : variável explicativa ( preditora, independente )
Uma das primeiras utilizações da regressão: estudar a herançade traços físicos entre gerações.
No período de 1893 a 1898, E. S. Pearson coletou informaçõessobre altura de n=1375 mulheres do Reino Unido com mais de65 anos e de uma de suas filhas com mais de 18 anos paraverificar se havia associação entre altura de mães e filhas.
Um exemplo clássico: altura de mães e filhas
verificar se havia associação entre altura de mães e filhas.
As filhas herdam a altura de suas mães?
Em outras palavras: mães mais altas tendem a ter filhas maisaltas e mães mais baixas tendem a ter filhas mais baixas?
A nuvem de pontos apresentam uma forma elíptica: algumas filhas têm altura muita maior/menor que a esperada pela altura de suas mães.
A altura da filha não é exatamente igual à da sua mae (os pontos não estão todos sobre a reta de 45º) , mas há uma tendência de mães mais altas terem filhas mais altas.
1500
2000
2500
Gas
to M
ensa
l (R
$)
Outro exemplo: renda e gasto
500 1000 1500 2000 2500
050
010
00
Renda Mensal (R$)
Gas
to M
ensa
l (R
$)
Exemplo: desempenho ensino médio X na universidade
A Equação da Reta
XY 10 ββ +=Intercepto:valor de Y quando X=0
Inclinação:aumento em Y a cada aumento de 1 unidade em X
2.0
2.5
3.0
3.5
Y = 1 + 0.5X
Exemplo de equação da reta: Y = 1 + 0.5X
X = 0, Y = 1
X = 1, Y = 1.5
0 1 2 3 4
0.0
0.5
1.0
1.5
X
Y X = 2, Y = 2
ββββ0 + ββββ1Xparte da variabilidade de Y que é explicada pela variação em X
O Modelo de Regressão Linear Simples
εββ ++= XY 10
εεεε erro aleatórioεεεε erro aleatório
parte da variabilidade de Y que NÃO é
explicada pela variação
em X:um mesmo valor de X
associado a valores de Y
diferentes.
O Modelo de Regressão Linear Simples
εββ ++= XY 10
parte da variabilidade de Y que é explicada pela variação de X
erro aleatório: parte da variabilidade
de Y que é NÃO é explicada
pela variação de X
O objetivo de um modelo de regressão é explicar parte davariabilidade da variável resposta Y através da variávelexplicativa X.
A parte não explicada da variabilidade de Y é representada porum termo de erro aleatório.
Suposições do Modelo de Regressão Linear:
A variável resposta Yé contínua.
A relação entreY e X
é linear.
Os erros εi são independentes e seguem a distribuição Normalcom média igual a zero e variância constante (σ2) ao longo da reta.
é contínua.
Estimação e Interpretação da Reta
A determinação da equação da reta, ou seja,a estimação dos valores de B0 e B1,
é feita a partir de uma amostra de n pares de valores
εββ ++= XY 10
é feita a partir de uma amostra de n pares de valores
das variáveis resposta e explicativa:
(x1,y1), (x2,y2), (x3,y3), ..., (xn,yn).
niiii xy ,...,3,2,1 ),( 10 =+−= ββε
( ) [ ]∑∑==
+−==n
iii
n
ii xySQE
1
210
1
2 )( ββε
Achar a reta que minimize o valor de SQE
E quais são os valores de β0 e β1 que levam ao menor valor de SQE?
0 1ˆ ˆ .y xβ β= −
( )( )( )
11
1
2ˆ
n
i ii
n
ii
y yx x
x xβ =
=
− −=
−
∑
∑
∑=
=n
iix
nx
1
1∑
=
=n
iiy
ny
1
1
Onde:
(médias amostrais)
1ix x
=
niii xy ,...,3,2,1 ,ˆˆ10 =+= ββ)
Exemplo da altura de mães e filhas
Exemplo: Renda e GastoY = gasto mensal (R$)X = renda (R$)
0210.07β̂ =
1 0.74β̂ =
1000
1500
2000
2500
Gas
to M
ensa
l (R
$)
A equação estimada
210.07 0.74ˆ iiy x= +
A cada real a mais na renda mensal, o gasto mensal aumenta, em média , R$ 0.74 (74 centavos).
500 1000 1500 2000 2500
050
0
Renda Mensal (R$)
Exemplo: desempenho ensino médio X na universidade
Não faz sentidointerpretrar β 0=66.48,pois não há nota zerono ensino médio.
Quando ao β1=0.18, significa que, a cada 1 ponto a mais na nota doensino médio, acrescenta-se, em média, 0.18 pontos na nota dauniversidade.
ββββ0 + ββββ1Xparte da variabilidade de Y que é explicada pela variação em X
O Modelo de Regressão Linear Simples
εββ ++= XY 10
εεεε erro aleatórioεεεε erro aleatório
parte da variabilidade de Y que NÃO é
explicada pela variação
em X:um mesmo valor de X
associado a valores de Y
diferentes.
As Fontes da Variabilidade de Y
A Análise de Regressão trabalha com a idéia de que avariabilidade total da variável resposta Y é o resultado de duasfontes de variação:
( ) ( ) ( )∑∑∑===
−+−=−n
iii
n
ii
n
ii yyyyyy
1
2
1
2
1
2 ˆˆ
sRegTotal SQ SQ SQ Re+=
Variabilidade Total de Y
Variabilidade Y explicada por X
Variabilidade Y devida ao erro
1000
1500
2000
2500
Gas
to M
ensa
l (R
$)
500 1000 1500 2000 2500
050
010
00
Renda Mensal (R$)
Gas
to M
ensa
l (R
$)
( ) ( ) ( )∑∑∑===
−+−=−n
iii
n
ii
n
ii yyyyyy
1
2
1
2
1
2 ˆˆ
A Tabela de Análise de Variância (ANOVA)
Fonte de Soma de Graus de Quadrado Estatística Valor -p
Variação Quadrados Liberdade Médio F
Regressão SQReg 1 QMReg QMReg valor
Residuos SQRes n-2 QMResQMRes
Total SQTotal n-1
Teste F da Tabela ANOVA:
Hipótese nula (o modelo linear de Y em X não é apropriado):
H0 : β1 = 0
H0 é rejeitada se o valor-p < α (nível de significância do teste)
Exemplo: desempenho ensino médio X na universidade
Não faz sentidointerpretrar β 0=66.48,pois não há nota zerono ensino médio.
Quando ao β1=0.18, significa que, a cada 1 ponto a mais na nota doensino médio, acrescenta-se, em média, 0.18 pontos na nota dauniversidade.
Exemplo: desempenho ensino médio X na universidade
Qual a proporção da variabilidade total de Y que é explicada pelo modelo de regressão ?
Coeficiente de Determinação:
10 , 2Reg2 ≤≤= RSQ
SQ
TotalR
( )22
XYrR =
Quanto mais próximo de 1, maior é a capacidade de explicação do modelo,
onde rxy é o coeficiente de correlação linear de Pearson.
No exemplo do desempenho ensino médio X na universi dade:
81% da variação total da nota na universidade é explicada pela variação da nota no ensino médio.
Qual é a estimativa para a variância do erro ε, ou seja, da parte de Y que não é explicada pelo modelo de regressão ?
( )
res
ii
QMn
yyn
i
=−
−=∑=
2
2
2
ˆ2
ˆ
ˆ 1
σσ
resQM=2σ̂
No exemplo do desempenho ensino médio X na universi dade:
Exemplo: desempenho ensino médio X na universidade
Regression Analysis: Univ versus EM
The regression equation isUniv = 66,5 + 0,180 EM
Predictor Coef SE Coef T PConstant 66,480 2,155 30,85 0,000EM 0,18000 0,02418 7,44 0,000
Exemplo: Saída do MINITAB
Analysis of Variance
Source DF SS MS F PRegression 1 11,340 11,340 55,42 0,000Residual Error 13 2,660 0,205Total 14 14,000
R-Sq = 81,0%
No MRLS, o teste T para ββββ1 é equivalente ao Teste F da ANOVA
Estimativa de ββββ0
Estimativa de ββββ1
SE Coef = Erro-Padrão do Coeficiente (mede a variabilidade da estimativa)
Intervalo de Confiança para ββββ0 e ββββ1
[ ])ˆ(ˆ00
)%1(100
0ββα
β EPtIC ⋅±=−
[ ])ˆ(ˆ11
)%1(100
1ββα
β EPtIC ⋅±=−
onde EP é o Erro-Padrão do Coeficientee t é o valor na Tabela T com gl= graus de liberdade do s resíduos na ANOVA
Estimação da Média de Y
Exemplo: desempenho ensino médio X na universidade
Veja arquivo Regressao-Simples-exemplo.xls.
Estimação de Resposta Individual de Y
Relembrando as Suposições do Modelo de Regressão Linear:
A variável resposta Yé contínua.
A relação entreY e X
é linear.
Os erros εi são independentes e seguem a distribuição Normalcom média igual a zero e variância constante (σ2) ao longo da reta.
é contínua.
Análise dos Resíduos
Os resíduos, , são uma estimativa dos erros εi.iii yye ˆ−=
Gráficos mais utilizados:
• Resíduos versus preditos pelo modelo;
• Resíduos versus variáveis no modelo;
• Resíduos versus variáveis fora do modelo;
• Histograma (ou boxplot) dos resíduos;
• Gráfico de Probabilidade Normal (e teste) dos resíduos.• Gráfico de Probabilidade Normal (e teste) dos resíduos.
Variância Constante e Linearidaderesíduo
( )xy,ˆ resíduo
( )xy,ˆ
resíduo
( )xy,ˆ resíduo
( )xy,ˆ
Exemplo: desempenho ensino médio X na universidade