Relações entre variáveis: Regressão Prof. a Dr. a Simone Daniela Sartorio de Medeiros DTAiSeR-Ar Disciplina: 220124 1
Relações entre variáveis: Regressão
Prof.a Dr.a Simone Daniela Sartorio de Medeiros
DTAiSeR-Ar
Disciplina: 220124
1
2
Introdução
Considere uma variável aleatória Y de interesse. Já vimos que podemos
escrever essa variável como sendo:
Y
onde é o valor esperado desta variável e é o erro.
Esse modelo sugere que podemos utilizar a esperança e a variância de Y
para descrever essa variável de forma resumida.
No R:
y<- c(10,12,25,23,26,12,15)
ybarra = mean(y); ybarra
var(y)
e = y - ybarra ; e
round(mean(e),4)
var(e)
cbind(y, ybarra, e)
• Portanto podemos dizer que o erro é também uma
variável aleatória que tem média zero e variância
igual de a Y.
• Esse erro é geralmente chamado de resíduo e
representa os inúmeros fatores que, conjuntamente,
fazem as observações de Y oscilarem em torno de .
• No caso particular de Y ter distribuição Normal,
teremos também que:
),0(~ 2
yN
4
Uma variável auxiliar
Considere agora que exista uma outra variável X, com alguma relação com
a variável Y.
Isso sugere uma maneira alternativa de estudar Y tendo como base
informações sobre X. Portanto, as quantidades que descrevem Y são agora
esperanças e variâncias condicionadas a valores específicos de X, ou seja:
]|[]|[ xYVarexYE
onde x é um valor conhecido de X.
• Se existir uma certa associação entre X e Y,
talvez os valores de E[Y|x] sigam um padrão
e
os valores de Var[Y|x] sejam menores do que Var[Y]
História
Por isso, ele chamou de regressão, ou seja, existe uma
tendência de os dados regredirem à média.
A teoria de regressão teve origem no século
XIX com Galton.
Francis Galton foi um antropólogo,
meteorologista, matemático e
estatístico inglês.
Em um de seus trabalhos ele estudou a relação entre a
altura dos pais e dos filhos (Xi e Yi), procurando saber
como a altura do pais influenciava a altura do filho. Notou
que se os pais fossem muito alto ou muito baixo, o filho
teria uma altura tendendo à média.
5
Introdução
Frequentemente estamos interessados em avaliar a relação entre duas, ou mais
variáveis, como por exemplo:
Relação entre área foliar e o peso para diversas variedades de plantas;
Relação existente entre pressão sanguínea e idade;
Relação produção de uma certa variedade e certos níveis de adubação;
A população de bactérias pode ser predita a partir da relação entre população e o
tempo de armazenamento.
Concentrações de soluções de proteína de arroz integral e absorbâncias médias
corrigidas.
Relação entre textura e aparência.
Temperatura usada num processo de desodorização de um produto e cor do produto
final.
A porcentagem de acerto ou, então, bytes transferidos, podem estar relacionados com
o tamanho da cache (bytes), para um determinado tipo de pré-carregamento.
Análise de regressão é uma metodologia estatística que utiliza a relação entre
duas ou mais variáveis quantitativas (ou qualitativas), de tal forma que uma
variável pode ser predita a partir da outra (ou outras). 6
É muito útil quantificar essa associação.
Existem muitos tipos de associações possíveis, iremos apresentar o tipo de
relação mais simples, que é a relação linear simples.
Quantificando a associação entre 2 variáveis quantitativas
Objetivos – Modelo de Regressão Linear Simples
1) Determinar como duas variáveis se relacionam;
2) Estimar a função que determina a relação entre as variáveis;
3) Usar a equação ajustada para prever valores da variável dependente.
7
Definição:
Dados n pares de valores (x1 , y1), (x2 ,y2), …, (xn , yn), chama-se de coeficiente
de correlação linear de Pearson entre as duas variáveis X e Y a:
ou seja, a média dos produtos dos valores padronizados das variáveis.
yx
n
i
YiXi
ssn
mymx
YXcorrr)1(
)ˆ)(ˆ(
),( 1
Coeficiente de Correlação de Pearson
Esse mede o grau de associação entre 2 variáveis quantitativas e também da
proximidade dos dados a uma reta.
Esta medida avalia o quanto a nuvem de pontos do gráfico de dispersão se aproxima de
uma reta.
–1 ≤ r ≤ 1
No R:
cor(x,y)8
9
+1–1 0
Ou seja,
r = cor(X, Y) ≈ 0
Correlação negativa Correlação positiva
A correlação é forte
positiva se
r = cor(X, Y) ≈ +1
A correlação é forte
negativa se
r = cor(X, Y) ≈ –1
Classificação da correlação
Existe
associação
Existe
associação
Não existe associação
–1 ≤ r ≤ 1
CUIDADO
10Site: http://www.tylervigen.com/spurious-correlations
Você já deve ter visto inúmeras vezes estudos correlacionando coisas.
Mas sem saber tudo sobre os dois ou mais fatores, ou sem buscar saber,
você pode acabar sendo enganado achando que uma coincidência é
causalidade.
Pra provar isso, Tyler Vigen fez um site mostrando coisas
completamente aleatórias que se relacionam em gráfico, podendo ser uma
relação diretamente proporcional ou inversamente. Veja:
12
Assim, se pudermos descrever a E[Y|x] como:
XxYE ]|[
A variável aleatória Y será então descrita como:
]|[ xYEY
XY
Este modelo chama-se modelo de regressão linear simples
em que:
Y é a variável dependente (variável resposta, ou variável endógena);
X é a variável independente (covariável, variável explanatória, variável
regressora, ou variável exógena);
, e x são constantes;
é o intercepto (ou coeficiente linear), isto é, o valor de y quando x = 0;
é a declividade (ou coeficiente angular): quando x aumenta 1 unidade, y
aumenta unidades.
O modelo de regressão linear simples é dado por:
yi = + xi + i , i=1,2,...,n
Ou
Modelo de Regressão Linear Simples
y = + x +
13
14
Significado dos parâmetros do modelo de regressão linear simples
α
x x+1
x=1
yyi = α + xi
x
y
adjacentecat
opostocat
ˆtan
.
.ˆtan
α (intercepto); quando a região experimental inclui X=0, α é o valor da média da distribuição de Y
em X = 0, caso contrário, não tem significado prático como um termo separado (isolado) no modelo;
(inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre a
mudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidade
de Y por unidade de acréscimo em X.
X
Y
^ ^ ^
^
^
Pressuposições do modelo de regressão
Para procedermos ao estudo da regressão linear simples, as seguintes
exigências do modelo devem ser satisfeitas:
1) Os erros ei são independentes Cov(ei, ej) = 0, todo i,j=1, ..., n; i j.
2) Os erros ei têm média nula E(ei) = 0;
3) Os erros ei possuem variância constante Var(ei) = 2 ;
4) Os erros ei possuem distribuição normal com média zero e variância
constante 2 ei ~ N(0, 2).
Além destas, poderíamos acrescentar:
a) Existe uma relação linear entre X e Y.
b) A variável X é pré-determinada com precisão (fixa), enquanto que Y é uma
variável aleatória.
OBS: Se X for uma variável aleatória, e, portanto, sujeita a erros de determinação,
podemos admitir os valores de X pré-determinados, isto é, fixos, sem prejudicar a
validade dos resultados. 15
16
Y
X
Estimação dos parâmetros
Seja uma amostra de observações de tamanho n, onde cada elemento dessa
amostra tem duas informações (variáveis).
Existe alguma associação entre essas variáveis? Faz sentido?
Como determinar o “melhor” modelo para representar esses dados?
17
Y
Estimação dos parâmetros
IDADE
VA
LO
R
1,5
2,5
3,5
4,5
5,5
6,5
2 6 10 14 18 22
X
Assim, considerando nosso modelo original:
yi = + xi + ei
n
i
n
i
iii xyeS1 1
22 )]([),(
IDADE
VA
LO
R
1,5
2,5
3,5
4,5
5,5
6,5
2 6 10 14 18 22
X
e5
e2
e1
e3
18
Estimação dos parâmetros
Como determinar a estimativa de e ?
Através do método de estimação dos mínimos quadrados (MMQ).
yi = + xi + ei ei = yi – ( + xi)
19
n
i
n
i
iii xyeS1 1
22 )]([),(
Deseja-se encontrar os valores de α e β que minimizem a
soma de quadrados dos desvios, S(,).
Para encontrar o mínimo, basta derivar S(,) em
relação a α e β e igualar a zero.
OBS: Lembre-se de verificar se este é mesmo um
ponto de mínimo!!!
n
x
x
n
xy
yx
n
i
in
i
i
n
i
i
n
i
in
i
ii
2
1
1
2
11
1ˆ
20
n
i
n
i
iii xyeS1 1
22 )]([),(
02)1(2),(
11
n
i
ii
n
i
ii xyxyS
02)(2),(
1
2
1
n
i
iiii
n
i
iii xxyxxxyS
(I)
(II)
(I)
Para minimizar S(,) temos:
0ˆˆ11
n
i
i
n
i
i xny
n
i
i
n
i
i xyn11
ˆˆ
xy ˆˆ
(II) 0ˆˆ1
2
11
n
i
i
n
i
i
n
i
ii xxyx
0ˆˆ
1
2
1
11
1
n
i
i
n
i
i
n
i
i
n
i
in
i
ii xxn
x
n
y
yx
0ˆ
2
1
1
211
1
n
x
xn
xy
yx
n
i
in
i
i
n
i
i
n
i
in
i
ii
Estimação dos parâmetros
xy ˆˆˆ
xyn
x
n
yn
i
i
n
i
i
ˆˆˆ 11
XX
XY
n
i
in
i
i
n
i
i
n
i
in
i
ii
s
s
n
x
x
n
yx
yx
2
1
1
2
11
1
Assim, a curva estimada é dada por:Logo, encontrando os valores
estimados de α e β obtém então
os valores esperados de Y.
Os estimadores e de mínimos quadrados para e , respectivamente são:
21
22
Como obter na calculadora:
1) Limpar a memória:
2) Mudar para o módulo regressão (Reg) Linear (Lin):
3) Entrar com os dados
... ...
4) Pedir a função:
Modelo Cassio fx-82MS
SHIFT Scl =
Regressão linear: y = + x
MODE 3 1
M+coord x , coord y
M+coord x , coord y
SHIFT 1 =
SHIFT 2 =
Somatórios
Coeficiente de correlação linear
23
Como obter na calculadora:
Regressão
y = + x
Modelo Cassio fx-83WA
1) Limpar a memória:
2) Mudar para o módulo regressão (Reg) Linear (Lin):
3) Entrar com os dados
...
4) Funções:
MODE
SHIFT Scl =
3 1
M+coord x , coord y
M+coord x , coord y
SHIFT r = Coeficiente de correlação linear
SHIFT 1 = Somatórios
Nove amostras de solo foram preparadas com diversas quantidades de
fósforo inorgânico (X). Plantas de milho, que foram cultivadas em ambos os
solos, foram colhidas ao final do 38º dia e analisadas para verificar a quantidade
de fósforo que elas continham (Y). A partir daí foi estimada a quantidade de
fósforo disponível no solo. Os valores observados foram os que se seguem:
Objetivo: É possível prever o P nas plantas utilizando apenas a informação de P
inorgânico no solo?
Faça um gráfico de dispersão, verifique se as variáveis possuem alguma
relação. Se sim, encontre a equação que possa representar essa relação.
Exemplo
24
P inorgânico no solo (x) 1 4 5 9 11 13 23 23 28
P nas plantas (y) 64 71 54 81 76 93 77 95 109
0 5 10 15 20 25
60
70
80
90
10
01
10
x
y
No R:
# Coeficiente de correlação
cor(x,y)
0.8049892
Exemplo
Pelo gráfico é possível verificar
que existe um relação linear
crescente (ou positiva) entre as
variáveis X e Y.
O coeficiente de correlação linear de
Pearson confirma e quantifica a existência
dessa relação, sendo uma relação
fortemente positiva. Ou seja, se a variável
X cresce, Y cresce também.
25
No R:
x<- c( 1, 4, 5, 9, 11, 13, 23, 23, 28)
y<- c(64, 71, 54, 81, 76, 93, 77, 95, 109)
# O gráfico de dispersão
plot(x, y, pch=19)
Exemplo
No R:
RLS<- lm(y ~ x); RLS
coef(RLS)
(Intercept) x
61.580381 1.416894
abline(RLS, col=‘red’) # Veja como o modelo estimado está explicando os dados
26
0 5 10 15 20 25
60
70
80
90
10
01
10
x
y
xy
xy
416894,1580381,61ˆ
ˆˆˆ
Tarefa 1: Obtenha essa equação sem o
uso do software. Faça as contas na mão.
Será que realmente existe uma relação entre Y e X?
Será que o coeficiente de inclinação da regressão linear é significativamente
diferente de zero?
Respondemos essas questões através da construção da análise de variância
(ANOVA) para testar o modelo de regressão linear.
Análise de Variância
A divisão da variação na amostra dos valores de
y em uma variação que pode ser atribuída à
regressão linear (chamada de Soma de
Quadrados de Regressão - SQReg) e uma
variação residual (variação dos pontos acima e
abaixo da reta de regressão - SQRes), ou seja:
SQTotal = SQReg + SQRes
27
XX
XY
n
i
in
i
i
n
i
i
n
i
i
i
n
i
i
s
s
n
x
x
n
yx
yx
gSQ2
2
1
1
2
2
11
1
Re
Em que:Análise de Variância
n
y
ySQTotal
n
i
in
i
i
2
1
1
2
gSQSQTotalsSQ ReRe
28
No R:
sum(x); sum(x^2)
[1] 117
[1] 2255
sum(y); sum(y^2)
[1] 720
[1] 59874
sum(x*y)
[1] 10400
H0: β = 0
H0: β ≠ 0
FV gl. SQ QM Fcalc
Regressão linear 1 SQReg QMReg=SQReg/1 QMReg/QMRes
Resíduo n – 2 SQRes QMRes=SQRes/(n – 2) -
Total n – 1 SQTotal - -
Conclusão:
Rejeitaremos H0 a um nível de significância pré fixado α se Fcalc > F(1, n-2) ,
concluindo que β ≠ 0 e portanto, a regressão é significativa.
Caso contrario, aceitamos H0 .
Análise de Variância
Número de parâmetros do
modelo – 1 = 2 – 1 =1
29
No R:
anova(RLS)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x 1 1473.57 1473.57 12.887 0.008859
Residuals 7 800.43 114.35
Exemplo
Conclusão: Rejeitaremos H0 a um nível de significância de 1%, pois Fcalc > F(1, 7, 1%) ,
concluindo que β ≠ 0 e portanto, a regressão é significativa.
30
31
Verificando as pressuposições do modelo
shapiro.test(rstudent(RLS))
Shapiro-Wilk normality test
data: rstudent(RLS) W = 0.88286, p-value = 0.1683
# valores preditos versus resíduos estudentizados
plot(predict(RLS), rstudent(RLS), ylim=c(-5,5))
abline(h=c(-3,3), lty=2)
Intervalo de confiança para os α e
n
i
i
n
xx
sQMtIC
1
22/;2
)(
Reˆ:%);(
n
i
i
n
xx
x
nsQMtIC
1
2
2
2/;2
)(
1Reˆ:%);(
32
]4447,83;7171,39[734
169
9
1114,355809,61:%)99;(
2
%1,495,0;7
tIC
]7982,2;0356,0[734
35,1141,4169:%)99;( 495,0;7 tIC
confint(RLS, level=.99)
0.5 % 99.5 %
(Intercept) 39.71682983 83.443933
x 0.03565517 2.798132
=0,01
Predição
Um dos usos mais comuns de regressão é a estimativa (ou predição) de um
valor de y para um determinado valor para x (que não foi incluído no estudo).
Isso é obtido pela substituição do valor particular de x na equação de regressão
linear. Assim, por exemplo, se x = 20 ppm de fósforo inorgânico, teremos:
OBS: Só podemos fazer a predição dentro do intervalo de x estudado (no caso,
de 1 a 28). A utilização de valores fora desse intervalo recebe o nome de
extrapolação e, deve ser usada com muito cuidado, pois o modelo adotado
pode não ser correto fora do intervalo estudado.
9,89)20).(417,1(58,61)20(ˆ y0 5 10 15 20 25
60
70
80
90
10
01
10
x
y
No R:
plot(x,y, pch=19); abline(RLS, col="red")
y_chapeu<- function(x) {coef(RLS)[1] +
coef(RLS)[2]*x}
y_chapeu(20)
89.91826
33
34
No R:
cbind(y, y_chapeu(x))
y y_chapeu
[1,] 64 62.9973
[2,] 71 67.2480
[3,] 54 68.6649
[4,] 81 74.3325
[5,] 76 77.1663
[6,] 93 80.0001
[7,] 77 94.1691
[8,] 95 94.1691
[9,] 109 101.2536
Coeficiente de Determinação
A quantidade R2, ou r2, é conhecida como coeficiente de determinação. Essa
medida indica a proporção da variação na variável Y que é explicada pela
regressão em X, sendo dada por:
Quanto mais próximo de 1 maior é a relação entre X e Y.
SQTotal
gSQYXcorrrR
Re),( 222 0 ≤ R2 ≤ 1
648197,02274
1474Re2 SQTotal
gSQR
Interpretação:
64,8% da variação em Y é explicada pela relação linear com X.
Portanto, ainda permanecem 35,2% de variação devida ao acaso (inexplicada).
Assim, no exemplo:
35
Adequação do modelo
Para verificar se o modelo de regressão é adequado utilizamos o coeficiente
de determinação R2. Contudo, como o R2 depende do número de observações da
amostra, o coeficiente de determinação ajustado acaba sendo mais utilizado:
1
)1( 22
kn
kRnRajustado
Sendo:
k o número de parâmetros fixos desconhecidos do modelo menos 1.
Exemplo: Para a regressão linear simples k = 1;
n o tamanho da amostra observada.
0,5977119
164,0)19(2
ajustadoR
Assim, no exemplo:
OBS: Sua interpretação é a mesma do R2
36
Exemplo
No R:
summary(RLS)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-17.169 -1.166 1.003 6.668 13.000
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 61.5804 6.2477 9.857 2.35e-05 ***
x 1.4169 0.3947 3.590 0.00886 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 10.69 on 7 degrees of freedom
Multiple R-squared: 0.648, Adjusted R-squared: 0.5977
F-statistic: 12.89 on 1 and 7 DF, p-value: 0.008859
37
• Cuidado com algumas situações:
OBS: O R2 deve ser analisado com
cuidado, pois R2 grande não implica
necessariamente que o modelo seja
um bom preditor linear.
38
OBS: Dizer que não existe relação linear entre X e Y não implica que não
existe relação. Pode existir outro tipo de relação entre variáveis.
• Cuidado com algumas situações:
39
Interpretações errôneas do R2 e r
1) Um alto coeficiente de correlação indica que predições úteis podem ser feitas. Isto
não é necessariamente correto. Observe se as amplitudes dos intervalos de confiança
são grandes, isto é, não são muito precisos.
2) Um alto coeficiente de correlação indica que a equação de regressão estimada está
bem ajustada aos dados. Isto também não é necessariamente correto (veja Figura 1).
3) Um coeficiente de correlação próximo de zero indica que X e Y não são
correlacionadas. Idem (veja Figura 2).
Figura 1. Tem um alto valor de r; o ajuste de
uma equação de regressão linear não é adequada
Figura 2. Tem um baixo valor de r; porém
existe uma forte relação entre X e Y.
40
Calibração ou capacidade de predição de novas observações, pode ser feita
usando uma nova amostra e comparando os valores estimados com os
observados.
Ou seja, dado um valor de Y0, para o qual o correspondente valor de X0 é
desconhecido, estimar o valor de X0.
Calibração
41
Tipos de modelos de regressão
• Regressão linear simples: quando há relação de um única variável resposta (Y)
com uma única variável explanatória (X)
y = 0 + 1 x +
• Regressão linear múltipla: quando há relação de um única variável resposta
(Y) com duas ou mais variável explanatória (X1 , X2 , ..., Xp)
y = 0 + 1 x1 + 2 x2 + ... + p xp +
• Regressão linear multivariada: quando há relação de um conjunto de duas ou
mais variáveis respostas (Y1 , Y2 , ..., Yk) com um conjunto de duas ou mais
variável explanatória (X1 , X2 , ..., Xp) sendo que este último conjunto pode ser
diferente (ou igual) para cada uma das variáveis.
• Regressão não linear: ocorre quando pelo menos uma das primeiras derivadas
parciais referentes aos parâmetros desconhecidos (0 , 1 , 2 , ...,p ) dependem
de algum parâmetro desconhecido. Exemplo:
y = 0 + 1 [1 – exp(– 2 x)] +
OBS: Considere que cada unidade
amostral pode ser escrita como:
42