Top Banner
Relações entre variáveis: Regressão Prof. a Dr. a Simone Daniela Sartorio de Medeiros DTAiSeR-Ar Disciplina: 220124 1
42

Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Dec 02, 2018

Download

Documents

trantuyen
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Relações entre variáveis: Regressão

Prof.a Dr.a Simone Daniela Sartorio de Medeiros

DTAiSeR-Ar

Disciplina: 220124

1

Page 2: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

2

Introdução

Considere uma variável aleatória Y de interesse. Já vimos que podemos

escrever essa variável como sendo:

Y

onde é o valor esperado desta variável e é o erro.

Esse modelo sugere que podemos utilizar a esperança e a variância de Y

para descrever essa variável de forma resumida.

No R:

y<- c(10,12,25,23,26,12,15)

ybarra = mean(y); ybarra

var(y)

e = y - ybarra ; e

round(mean(e),4)

var(e)

cbind(y, ybarra, e)

• Portanto podemos dizer que o erro é também uma

variável aleatória que tem média zero e variância

igual de a Y.

• Esse erro é geralmente chamado de resíduo e

representa os inúmeros fatores que, conjuntamente,

fazem as observações de Y oscilarem em torno de .

• No caso particular de Y ter distribuição Normal,

teremos também que:

),0(~ 2

yN

Page 3: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Modelo de Regressão Linear

Simples

Prof.a Dr.a Simone Daniela Sartorio de Medeiros

DTAiSeR-Ar

3

Page 4: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

4

Uma variável auxiliar

Considere agora que exista uma outra variável X, com alguma relação com

a variável Y.

Isso sugere uma maneira alternativa de estudar Y tendo como base

informações sobre X. Portanto, as quantidades que descrevem Y são agora

esperanças e variâncias condicionadas a valores específicos de X, ou seja:

]|[]|[ xYVarexYE

onde x é um valor conhecido de X.

• Se existir uma certa associação entre X e Y,

talvez os valores de E[Y|x] sigam um padrão

e

os valores de Var[Y|x] sejam menores do que Var[Y]

Page 5: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

História

Por isso, ele chamou de regressão, ou seja, existe uma

tendência de os dados regredirem à média.

A teoria de regressão teve origem no século

XIX com Galton.

Francis Galton foi um antropólogo,

meteorologista, matemático e

estatístico inglês.

Em um de seus trabalhos ele estudou a relação entre a

altura dos pais e dos filhos (Xi e Yi), procurando saber

como a altura do pais influenciava a altura do filho. Notou

que se os pais fossem muito alto ou muito baixo, o filho

teria uma altura tendendo à média.

5

Page 6: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Introdução

Frequentemente estamos interessados em avaliar a relação entre duas, ou mais

variáveis, como por exemplo:

Relação entre área foliar e o peso para diversas variedades de plantas;

Relação existente entre pressão sanguínea e idade;

Relação produção de uma certa variedade e certos níveis de adubação;

A população de bactérias pode ser predita a partir da relação entre população e o

tempo de armazenamento.

Concentrações de soluções de proteína de arroz integral e absorbâncias médias

corrigidas.

Relação entre textura e aparência.

Temperatura usada num processo de desodorização de um produto e cor do produto

final.

A porcentagem de acerto ou, então, bytes transferidos, podem estar relacionados com

o tamanho da cache (bytes), para um determinado tipo de pré-carregamento.

Análise de regressão é uma metodologia estatística que utiliza a relação entre

duas ou mais variáveis quantitativas (ou qualitativas), de tal forma que uma

variável pode ser predita a partir da outra (ou outras). 6

Page 7: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

É muito útil quantificar essa associação.

Existem muitos tipos de associações possíveis, iremos apresentar o tipo de

relação mais simples, que é a relação linear simples.

Quantificando a associação entre 2 variáveis quantitativas

Objetivos – Modelo de Regressão Linear Simples

1) Determinar como duas variáveis se relacionam;

2) Estimar a função que determina a relação entre as variáveis;

3) Usar a equação ajustada para prever valores da variável dependente.

7

Page 8: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Definição:

Dados n pares de valores (x1 , y1), (x2 ,y2), …, (xn , yn), chama-se de coeficiente

de correlação linear de Pearson entre as duas variáveis X e Y a:

ou seja, a média dos produtos dos valores padronizados das variáveis.

yx

n

i

YiXi

ssn

mymx

YXcorrr)1(

)ˆ)(ˆ(

),( 1

Coeficiente de Correlação de Pearson

Esse mede o grau de associação entre 2 variáveis quantitativas e também da

proximidade dos dados a uma reta.

Esta medida avalia o quanto a nuvem de pontos do gráfico de dispersão se aproxima de

uma reta.

–1 ≤ r ≤ 1

No R:

cor(x,y)8

Page 9: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

9

+1–1 0

Ou seja,

r = cor(X, Y) ≈ 0

Correlação negativa Correlação positiva

A correlação é forte

positiva se

r = cor(X, Y) ≈ +1

A correlação é forte

negativa se

r = cor(X, Y) ≈ –1

Classificação da correlação

Existe

associação

Existe

associação

Não existe associação

–1 ≤ r ≤ 1

Page 10: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

CUIDADO

10Site: http://www.tylervigen.com/spurious-correlations

Você já deve ter visto inúmeras vezes estudos correlacionando coisas.

Mas sem saber tudo sobre os dois ou mais fatores, ou sem buscar saber,

você pode acabar sendo enganado achando que uma coincidência é

causalidade.

Pra provar isso, Tyler Vigen fez um site mostrando coisas

completamente aleatórias que se relacionam em gráfico, podendo ser uma

relação diretamente proporcional ou inversamente. Veja:

Page 11: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

11

Page 12: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

12

Assim, se pudermos descrever a E[Y|x] como:

XxYE ]|[

A variável aleatória Y será então descrita como:

]|[ xYEY

XY

Este modelo chama-se modelo de regressão linear simples

Page 13: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

em que:

Y é a variável dependente (variável resposta, ou variável endógena);

X é a variável independente (covariável, variável explanatória, variável

regressora, ou variável exógena);

, e x são constantes;

é o intercepto (ou coeficiente linear), isto é, o valor de y quando x = 0;

é a declividade (ou coeficiente angular): quando x aumenta 1 unidade, y

aumenta unidades.

O modelo de regressão linear simples é dado por:

yi = + xi + i , i=1,2,...,n

Ou

Modelo de Regressão Linear Simples

y = + x +

13

Page 14: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

14

Significado dos parâmetros do modelo de regressão linear simples

α

x x+1

x=1

yyi = α + xi

x

y

adjacentecat

opostocat

ˆtan

.

.ˆtan

α (intercepto); quando a região experimental inclui X=0, α é o valor da média da distribuição de Y

em X = 0, caso contrário, não tem significado prático como um termo separado (isolado) no modelo;

(inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre a

mudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidade

de Y por unidade de acréscimo em X.

X

Y

^ ^ ^

^

^

Page 15: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Pressuposições do modelo de regressão

Para procedermos ao estudo da regressão linear simples, as seguintes

exigências do modelo devem ser satisfeitas:

1) Os erros ei são independentes Cov(ei, ej) = 0, todo i,j=1, ..., n; i j.

2) Os erros ei têm média nula E(ei) = 0;

3) Os erros ei possuem variância constante Var(ei) = 2 ;

4) Os erros ei possuem distribuição normal com média zero e variância

constante 2 ei ~ N(0, 2).

Além destas, poderíamos acrescentar:

a) Existe uma relação linear entre X e Y.

b) A variável X é pré-determinada com precisão (fixa), enquanto que Y é uma

variável aleatória.

OBS: Se X for uma variável aleatória, e, portanto, sujeita a erros de determinação,

podemos admitir os valores de X pré-determinados, isto é, fixos, sem prejudicar a

validade dos resultados. 15

Page 16: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

16

Y

X

Estimação dos parâmetros

Seja uma amostra de observações de tamanho n, onde cada elemento dessa

amostra tem duas informações (variáveis).

Existe alguma associação entre essas variáveis? Faz sentido?

Como determinar o “melhor” modelo para representar esses dados?

Page 17: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

17

Y

Estimação dos parâmetros

IDADE

VA

LO

R

1,5

2,5

3,5

4,5

5,5

6,5

2 6 10 14 18 22

X

Assim, considerando nosso modelo original:

yi = + xi + ei

Page 18: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

n

i

n

i

iii xyeS1 1

22 )]([),(

IDADE

VA

LO

R

1,5

2,5

3,5

4,5

5,5

6,5

2 6 10 14 18 22

X

e5

e2

e1

e3

18

Estimação dos parâmetros

Como determinar a estimativa de e ?

Através do método de estimação dos mínimos quadrados (MMQ).

yi = + xi + ei ei = yi – ( + xi)

Page 19: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

19

n

i

n

i

iii xyeS1 1

22 )]([),(

Deseja-se encontrar os valores de α e β que minimizem a

soma de quadrados dos desvios, S(,).

Para encontrar o mínimo, basta derivar S(,) em

relação a α e β e igualar a zero.

OBS: Lembre-se de verificar se este é mesmo um

ponto de mínimo!!!

Page 20: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

n

x

x

n

xy

yx

n

i

in

i

i

n

i

i

n

i

in

i

ii

2

1

1

2

11

20

n

i

n

i

iii xyeS1 1

22 )]([),(

02)1(2),(

11

n

i

ii

n

i

ii xyxyS

02)(2),(

1

2

1

n

i

iiii

n

i

iii xxyxxxyS

(I)

(II)

(I)

Para minimizar S(,) temos:

0ˆˆ11

n

i

i

n

i

i xny

n

i

i

n

i

i xyn11

ˆˆ

xy ˆˆ

(II) 0ˆˆ1

2

11

n

i

i

n

i

i

n

i

ii xxyx

0ˆˆ

1

2

1

11

1

n

i

i

n

i

i

n

i

i

n

i

in

i

ii xxn

x

n

y

yx

2

1

1

211

1

n

x

xn

xy

yx

n

i

in

i

i

n

i

i

n

i

in

i

ii

Page 21: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Estimação dos parâmetros

xy ˆˆˆ

xyn

x

n

yn

i

i

n

i

i

ˆˆˆ 11

XX

XY

n

i

in

i

i

n

i

i

n

i

in

i

ii

s

s

n

x

x

n

yx

yx

2

1

1

2

11

1

Assim, a curva estimada é dada por:Logo, encontrando os valores

estimados de α e β obtém então

os valores esperados de Y.

Os estimadores e de mínimos quadrados para e , respectivamente são:

21

Page 22: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

22

Como obter na calculadora:

1) Limpar a memória:

2) Mudar para o módulo regressão (Reg) Linear (Lin):

3) Entrar com os dados

... ...

4) Pedir a função:

Modelo Cassio fx-82MS

SHIFT Scl =

Regressão linear: y = + x

MODE 3 1

M+coord x , coord y

M+coord x , coord y

SHIFT 1 =

SHIFT 2 =

Somatórios

Coeficiente de correlação linear

Page 23: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

23

Como obter na calculadora:

Regressão

y = + x

Modelo Cassio fx-83WA

1) Limpar a memória:

2) Mudar para o módulo regressão (Reg) Linear (Lin):

3) Entrar com os dados

...

4) Funções:

MODE

SHIFT Scl =

3 1

M+coord x , coord y

M+coord x , coord y

SHIFT r = Coeficiente de correlação linear

SHIFT 1 = Somatórios

Page 24: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Nove amostras de solo foram preparadas com diversas quantidades de

fósforo inorgânico (X). Plantas de milho, que foram cultivadas em ambos os

solos, foram colhidas ao final do 38º dia e analisadas para verificar a quantidade

de fósforo que elas continham (Y). A partir daí foi estimada a quantidade de

fósforo disponível no solo. Os valores observados foram os que se seguem:

Objetivo: É possível prever o P nas plantas utilizando apenas a informação de P

inorgânico no solo?

Faça um gráfico de dispersão, verifique se as variáveis possuem alguma

relação. Se sim, encontre a equação que possa representar essa relação.

Exemplo

24

P inorgânico no solo (x) 1 4 5 9 11 13 23 23 28

P nas plantas (y) 64 71 54 81 76 93 77 95 109

Page 25: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

0 5 10 15 20 25

60

70

80

90

10

01

10

x

y

No R:

# Coeficiente de correlação

cor(x,y)

0.8049892

Exemplo

Pelo gráfico é possível verificar

que existe um relação linear

crescente (ou positiva) entre as

variáveis X e Y.

O coeficiente de correlação linear de

Pearson confirma e quantifica a existência

dessa relação, sendo uma relação

fortemente positiva. Ou seja, se a variável

X cresce, Y cresce também.

25

No R:

x<- c( 1, 4, 5, 9, 11, 13, 23, 23, 28)

y<- c(64, 71, 54, 81, 76, 93, 77, 95, 109)

# O gráfico de dispersão

plot(x, y, pch=19)

Page 26: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Exemplo

No R:

RLS<- lm(y ~ x); RLS

coef(RLS)

(Intercept) x

61.580381 1.416894

abline(RLS, col=‘red’) # Veja como o modelo estimado está explicando os dados

26

0 5 10 15 20 25

60

70

80

90

10

01

10

x

y

xy

xy

416894,1580381,61ˆ

ˆˆˆ

Tarefa 1: Obtenha essa equação sem o

uso do software. Faça as contas na mão.

Page 27: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Será que realmente existe uma relação entre Y e X?

Será que o coeficiente de inclinação da regressão linear é significativamente

diferente de zero?

Respondemos essas questões através da construção da análise de variância

(ANOVA) para testar o modelo de regressão linear.

Análise de Variância

A divisão da variação na amostra dos valores de

y em uma variação que pode ser atribuída à

regressão linear (chamada de Soma de

Quadrados de Regressão - SQReg) e uma

variação residual (variação dos pontos acima e

abaixo da reta de regressão - SQRes), ou seja:

SQTotal = SQReg + SQRes

27

Page 28: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

XX

XY

n

i

in

i

i

n

i

i

n

i

i

i

n

i

i

s

s

n

x

x

n

yx

yx

gSQ2

2

1

1

2

2

11

1

Re

Em que:Análise de Variância

n

y

ySQTotal

n

i

in

i

i

2

1

1

2

gSQSQTotalsSQ ReRe

28

No R:

sum(x); sum(x^2)

[1] 117

[1] 2255

sum(y); sum(y^2)

[1] 720

[1] 59874

sum(x*y)

[1] 10400

Page 29: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

H0: β = 0

H0: β ≠ 0

FV gl. SQ QM Fcalc

Regressão linear 1 SQReg QMReg=SQReg/1 QMReg/QMRes

Resíduo n – 2 SQRes QMRes=SQRes/(n – 2) -

Total n – 1 SQTotal - -

Conclusão:

Rejeitaremos H0 a um nível de significância pré fixado α se Fcalc > F(1, n-2) ,

concluindo que β ≠ 0 e portanto, a regressão é significativa.

Caso contrario, aceitamos H0 .

Análise de Variância

Número de parâmetros do

modelo – 1 = 2 – 1 =1

29

Page 30: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

No R:

anova(RLS)

Analysis of Variance Table

Response: y

Df Sum Sq Mean Sq F value Pr(>F)

x 1 1473.57 1473.57 12.887 0.008859

Residuals 7 800.43 114.35

Exemplo

Conclusão: Rejeitaremos H0 a um nível de significância de 1%, pois Fcalc > F(1, 7, 1%) ,

concluindo que β ≠ 0 e portanto, a regressão é significativa.

30

Page 31: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

31

Verificando as pressuposições do modelo

shapiro.test(rstudent(RLS))

Shapiro-Wilk normality test

data: rstudent(RLS) W = 0.88286, p-value = 0.1683

# valores preditos versus resíduos estudentizados

plot(predict(RLS), rstudent(RLS), ylim=c(-5,5))

abline(h=c(-3,3), lty=2)

Page 32: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Intervalo de confiança para os α e

n

i

i

n

xx

sQMtIC

1

22/;2

)(

Reˆ:%);(

n

i

i

n

xx

x

nsQMtIC

1

2

2

2/;2

)(

1Reˆ:%);(

32

]4447,83;7171,39[734

169

9

1114,355809,61:%)99;(

2

%1,495,0;7

tIC

]7982,2;0356,0[734

35,1141,4169:%)99;( 495,0;7 tIC

confint(RLS, level=.99)

0.5 % 99.5 %

(Intercept) 39.71682983 83.443933

x 0.03565517 2.798132

=0,01

Page 33: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Predição

Um dos usos mais comuns de regressão é a estimativa (ou predição) de um

valor de y para um determinado valor para x (que não foi incluído no estudo).

Isso é obtido pela substituição do valor particular de x na equação de regressão

linear. Assim, por exemplo, se x = 20 ppm de fósforo inorgânico, teremos:

OBS: Só podemos fazer a predição dentro do intervalo de x estudado (no caso,

de 1 a 28). A utilização de valores fora desse intervalo recebe o nome de

extrapolação e, deve ser usada com muito cuidado, pois o modelo adotado

pode não ser correto fora do intervalo estudado.

9,89)20).(417,1(58,61)20(ˆ y0 5 10 15 20 25

60

70

80

90

10

01

10

x

y

No R:

plot(x,y, pch=19); abline(RLS, col="red")

y_chapeu<- function(x) {coef(RLS)[1] +

coef(RLS)[2]*x}

y_chapeu(20)

89.91826

33

Page 34: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

34

No R:

cbind(y, y_chapeu(x))

y y_chapeu

[1,] 64 62.9973

[2,] 71 67.2480

[3,] 54 68.6649

[4,] 81 74.3325

[5,] 76 77.1663

[6,] 93 80.0001

[7,] 77 94.1691

[8,] 95 94.1691

[9,] 109 101.2536

Page 35: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Coeficiente de Determinação

A quantidade R2, ou r2, é conhecida como coeficiente de determinação. Essa

medida indica a proporção da variação na variável Y que é explicada pela

regressão em X, sendo dada por:

Quanto mais próximo de 1 maior é a relação entre X e Y.

SQTotal

gSQYXcorrrR

Re),( 222 0 ≤ R2 ≤ 1

648197,02274

1474Re2 SQTotal

gSQR

Interpretação:

64,8% da variação em Y é explicada pela relação linear com X.

Portanto, ainda permanecem 35,2% de variação devida ao acaso (inexplicada).

Assim, no exemplo:

35

Page 36: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Adequação do modelo

Para verificar se o modelo de regressão é adequado utilizamos o coeficiente

de determinação R2. Contudo, como o R2 depende do número de observações da

amostra, o coeficiente de determinação ajustado acaba sendo mais utilizado:

1

)1( 22

kn

kRnRajustado

Sendo:

k o número de parâmetros fixos desconhecidos do modelo menos 1.

Exemplo: Para a regressão linear simples k = 1;

n o tamanho da amostra observada.

0,5977119

164,0)19(2

ajustadoR

Assim, no exemplo:

OBS: Sua interpretação é a mesma do R2

36

Page 37: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Exemplo

No R:

summary(RLS)

Call:

lm(formula = y ~ x)

Residuals:

Min 1Q Median 3Q Max

-17.169 -1.166 1.003 6.668 13.000

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 61.5804 6.2477 9.857 2.35e-05 ***

x 1.4169 0.3947 3.590 0.00886 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.69 on 7 degrees of freedom

Multiple R-squared: 0.648, Adjusted R-squared: 0.5977

F-statistic: 12.89 on 1 and 7 DF, p-value: 0.008859

37

Page 38: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

• Cuidado com algumas situações:

OBS: O R2 deve ser analisado com

cuidado, pois R2 grande não implica

necessariamente que o modelo seja

um bom preditor linear.

38

Page 39: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

OBS: Dizer que não existe relação linear entre X e Y não implica que não

existe relação. Pode existir outro tipo de relação entre variáveis.

• Cuidado com algumas situações:

39

Page 40: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Interpretações errôneas do R2 e r

1) Um alto coeficiente de correlação indica que predições úteis podem ser feitas. Isto

não é necessariamente correto. Observe se as amplitudes dos intervalos de confiança

são grandes, isto é, não são muito precisos.

2) Um alto coeficiente de correlação indica que a equação de regressão estimada está

bem ajustada aos dados. Isto também não é necessariamente correto (veja Figura 1).

3) Um coeficiente de correlação próximo de zero indica que X e Y não são

correlacionadas. Idem (veja Figura 2).

Figura 1. Tem um alto valor de r; o ajuste de

uma equação de regressão linear não é adequada

Figura 2. Tem um baixo valor de r; porém

existe uma forte relação entre X e Y.

40

Page 41: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Calibração ou capacidade de predição de novas observações, pode ser feita

usando uma nova amostra e comparando os valores estimados com os

observados.

Ou seja, dado um valor de Y0, para o qual o correspondente valor de X0 é

desconhecido, estimar o valor de X0.

Calibração

41

Page 42: Relações entre variáveis: Regressão Linear Simples · 2 Introdução Considere uma variável aleatória Y de interesse. Já vimos que podemos escrever essa variável como sendo:

Tipos de modelos de regressão

• Regressão linear simples: quando há relação de um única variável resposta (Y)

com uma única variável explanatória (X)

y = 0 + 1 x +

• Regressão linear múltipla: quando há relação de um única variável resposta

(Y) com duas ou mais variável explanatória (X1 , X2 , ..., Xp)

y = 0 + 1 x1 + 2 x2 + ... + p xp +

• Regressão linear multivariada: quando há relação de um conjunto de duas ou

mais variáveis respostas (Y1 , Y2 , ..., Yk) com um conjunto de duas ou mais

variável explanatória (X1 , X2 , ..., Xp) sendo que este último conjunto pode ser

diferente (ou igual) para cada uma das variáveis.

• Regressão não linear: ocorre quando pelo menos uma das primeiras derivadas

parciais referentes aos parâmetros desconhecidos (0 , 1 , 2 , ...,p ) dependem

de algum parâmetro desconhecido. Exemplo:

y = 0 + 1 [1 – exp(– 2 x)] +

OBS: Considere que cada unidade

amostral pode ser escrita como:

42