1 Regressão Linear - Introdução •Na análise de regressão linear pretende-se estudar e modelar a relação (linear) entre duas ou mais variáveis. • Na regressão linear simples relacionam-se duas variáveis, x e Y, através do modelo linear À variável Y chama-se variável dependente e à variável x variável independente ou explicativa. Exemplos: 1º) O número de horas de estudo poderá está relacionado com a nota obtida pelo aluno. As horas de estudo é a variável independente (x) e a nota obtida será a variável dependente (Y). 2º) A relação entre o nº de fogos florestais (Y) e a temperatura máxima mensal (x).
33
Embed
Regressão Linear - Introduçãofiles.cfleiria.webnode.com/200000015-45ed446e79/SPSS - Slides... · 3 Regressão Linear Simples - Correlação O ponto de partida da análise da regressão
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
Regressão Linear - Introdução
•Na análise de regressão linear pretende-se estudar e modelar a relação (linear) entre duas ou mais variáveis.
• Na regressão linear simples relacionam-se duas variáveis, x e Y, através do modelo linear
À variável Y chama-se variável dependente e à variável x variável independente ou explicativa.
Exemplos:1º) O número de horas de estudo poderá está relacionado com a nota obtida pelo aluno. As horas de estudo é a variável independente (x) e a nota obtida será a variável dependente (Y).
2º) A relação entre o nº de fogos florestais (Y) e a temperatura máxima mensal (x).
2
Regressão Linear - Introdução
• Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes x1, x2, …, xk
através do modelo linear
Exemplos:1º) O peso de uma pessoa depende da sua altura, mas certamente também dependerá da sua idade, densidade dos ossos e perímetro da cintura. 2º) O consumo de energia dependerá da temperatura mas também dependedo preço da electricidade.
kk xxxY ββββ ++++= ...22110
3
Regressão Linear Simples - Correlação
O ponto de partida da análise da regressão linear deve ser o estudo da existência (ou não) de uma relação linear entre as variáveis. Para estudar a relação entre duas variáveis existem métodos:
- gráficos: diagramas de dispersão- numéricos: coeficiente de correlação de pearson
Método gráfico: Os diagramas de dispersão consistem na representação gráfica dos pares ordenados (xi;Yi) num sistema de eixos cartesianos, de modo a observamos uma nuvem de pontos correspondentes à amostra obtida. Quanto mais os pontos representados se ajustarem a uma recta, melhor será a relação linear entre as variáveis.
4
Regressão Linear Simples - Correlação
Exemplo: Num estudo realizado a 10 pessoas registaram-se as suas idades e os níveis de colesterol, tendo-se obtido:
De uma forma intuitiva podemos concluir que parece existir uma relação linear entre as variáveis, que matematicamente se traduzirá através de uma recta.
5
Regressão Linear Simples - Correlação
Através dos seguintes gráficos pode-se concluir que:
Y
xHá uma forte correlação linear positiva.
Y
xHá uma forte correlação linear negativa.
Y
xHá uma fraca correlação linear.
6
Regressão Linear Simples - Correlação
Método numérico: O coeficiente de correlação (amostral), ou coeficiente de correlação linear de Pearson, é uma medida habitual do grau de associação linear das variáveis:
( )( )
( ) ( ) YYXX
XY
n
i
n
iii
n
iii
SQSQSQ
yyxx
yyxxR =
∑ ∑ −−
∑ −−=
= =
=
1 1
22
1
onde SQXY, SQXX e SQYY também podem ser definidos por:
( )( )2
2
11
2
11
2
111 1
11
∑−∑=
∑−∑=∑∑−∑=
==
==
=== n
ii
n
iiYY
n
ii
n
iiXXn
ii
n
ii
n
iiiXY
yn
ySQ
xn
xSQyx
nyxSQ
7
Regressão Linear Simples - Correlação
Interpretação do coeficiente de correlação (amostral):
• Este coeficiente varia entre -1 e 1:
• Quanto maior for o valor absoluto de R, mais forte será a associação linear entre as variáveis. Se R estiver próximo de zero então as variáveis serão não correlacionadas.
• Se R for positivo então a relação linear é positiva (x e Y variam no mesmo sentido) e se R for negativo a relação linear é negativa (x e Yvariam em sentidos opostos).
• Se R for igual a 1 ou -1 a relação linear será perfeita!
11 ≤≤− R
-1 -0,8 0,8 10
Forte correlação linear positiva
Forte correlação linear negativa
Fraca correlação linear
8
Regressão Linear Simples – O modelo
Objectivo: Quando existe uma forte correlação entre as variáveis em estudo qual é a melhor relação linear entre as elas?
Método dos mínimos quadrados:
Um dos métodos mais utilizados para estimar a recta que melhor se ajusta aos valores observados é o método dos mínimos quadrados. Este método consiste em determinar os valores de e queminimizam a soma do quadrado dos erros (desvios dos valores observados Yi dos valores obtidos pelo modelo ).
ℜ∈+= 1010ˆ,ˆ;ˆˆˆ ββββ xY
0β 1β
iY
9
Regressão Linear Simples – O modelo
Y
xix
iY
iY iexY 10
ˆˆˆ ββ += Os valores de e que minimizam a soma do quadrado dos erros
são dados por:
0β 1β
( )∑ −−=∑===
n
iii
n
iiE xYeSQ
1
2
101
2 ˆˆ ββ
xYSQSQ
XX
XY101
ˆˆeˆ βββ −==
10
Regressão Linear Simples – O modelo
Exemplo: Pegando novamente no exemplo das variáveis Idade/Colesterol, verifica-se que:
Estando o modelo de regressão linear estabelecido torna-se necessário avaliar a sua qualidade. Para isso existem vários métodos, gráficos e numéricos:
• Coeficiente de determinação
• Análise de resíduos
•Teste ao declive da recta
13
Regressão Linear Simples – Avaliação do modelo
Coeficiente de determinação – R2:
• É uma medida da proporção da variabilidade de Y explicada pelo modelo de regressão linear, já que consiste na razão entre a soma dos quadrados dos resíduos e a soma dos quadrados total.
• Por definição, o coeficiente de determinação é:
T
R
YYXX
XY
SQSQ
SQSQSQR ==
2
2
( ) ( )2
1
2
1eˆ ∑ −=∑ −=
==
n
iiT
n
iiR YYSQYYSQ
onde já foram definidos anteriormente e se tem: YYXXXY SQSQSQ e,
14
Regressão Linear Simples – Avaliação do modelo
• O coeficiente de determinação é simplesmente o quadrado do coeficiente de correlação amostral.
• R2 só pode assumir valores entre 0 e 1:
• Em geral, se a relação entre x e Y for fortemente linear R2 deve assumir um valor próximo de 1 (superior a 0.9).
• No entanto, se R2 estiver próximo de zero deve-se ter cuidado com as conclusões a tirar. Pode não significar que o modelo de regressão linear esteja desajustado.
10 2 ≤≤ R
15
Model Summary
,955a ,911 ,900 ,16493Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Idadea.
Coeficiente de correlação
Coeficiente de determinação
Exemplo: Considerando novamente no exemplo das variáveis Idade/Colesterol, verifica-se que :
Regressão Linear Simples – Avaliação do modelo
logo .
6.78;456.2;2769 === XYYYXX SQSQSQ
911.0e955.0 2 == RR
No SPSS:
16
Regressão Linear Simples – Avaliação do modelo
Análise dos resíduos:
• Este método de análise da qualidade do modelo de regressão consiste em representar graficamente os valores preditos versus resíduos, .
• Se ajustamento for bom, os pontos representados não devem apresentar qualquer correlação ou padrão: devem ser normais, comvariância constante e independentes.
• O diagrama de resíduos deve apresentar uma mancha de pontos aleatórios e com a mesma dispersão em torno do eixo dos xx.
( )ii eY ;ˆ
17
Regressão Linear Simples – Avaliação do modelo
Exemplo: No exemplo que tem sido considerando, efectuando as previsões e calculando os erros correspondentes obtém-se:
30 1,6 1,76 -0,16
60 2,5 2,60 -0,10
40 2,2 2,04 0,16
20 1,4 1,48 -0,08
50 2,7 2,32 0,38
30 1,8 1,76 0,04
40 2,1 2,04 0,06
20 1,5 1,48 0,02
70 2,8 2,88 -0,08
60 2,6 2,60 0,00
ix iYiY iii YYe ˆ−=
18
Regressão Linear Simples – Avaliação do modelo
Teste ao declive da recta:
• Esta análise da qualidade de ajustamento do modelo de regressãolinear é no fundo a resposta à questão:
Será que Y depende mesmo de x?
• Para responder a esta pergunta realiza-se o teste de hipóteses:
A forma mais simples de se tomar uma decisão é usando a estatística e o p-value que resultam da tabela ANOVA.
• Deve-se rejeitar a hipótese nula, e portanto assumir que x influencia Y, se o p-value for baixo (menor do que 0.05).
0:0: 1110 ≠= ββ HvsH
E
R
MQMQ
F =
19
Regressão Linear Simples – ANOVA
ANOVA – Analysis of Variance
• A análise da variância, num modelo de regressão linear, consiste em separar a variabilidade das observações em duas parcelas: variabilidade devida à regressão e a variabilidade residual.
( ) ( ) ( )∑ −+∑ −=∑ −===
n
iii
n
ii
n
ii YYYYYY
1
2
1
2
1
2 ˆˆ
ERT SQSQSQ +=
• O significado da regressão é tanto maior quanto maior for SQR e menor for SQE.
• Usualmente esta informação é agrupada numa tabela: tabela ANOVA.
20
Regressão Linear Simples – ANOVA
Tabela ANOVA
n – 1SQTTotal
n – 2SQEResidual
MQR = SQR1SQRRegressão
Desvios Quadráticos
Médios
Graus de Liberdade
(Nº de variáveis independentes)
Variações
(Somas dos desvios
quadráticos)
Fontes de variação
2−=
nSQ
MQ EE
21
Regressão Linear Simples – ANOVA
Exemplo: A tabela ANOVA do exemplo das variáveis Idade/Colesterol é dada (no SPSS) por:
ANOVAb
2,238 1 2,238 82,291 ,000a
,218 8 ,0272,456 9
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), Idadea.
Dependent Variable: Colesterolb.
Conclusão:
• A estatística F toma o valor 82,291 e o p-value do teste é nulo. Por assumir um valor baixo, pode-se concluir que faz sentido utilizar um modelo de regressão linear entre estas variáveis.
( )027,0/238,2≈
22
Regressão Linear Múltipla – O modelo
Um modelo de regressão linear múltipla descreve a relação (linear) entre um conjunto de variáveis independentes, X1,X2,…,Xk, e uma variável dependente Y:
kk xxxY ββββ ++++= ...22110
• Para estimar coeficientes do modelo, , pode-se aplicar novamente o método dos mínimos quadrados e minimizar a soma do quadrado dos erros:
kβββ ,...,, 10
( )∑ ++−−==
n
ikikii xxYSQE 1
2
110ˆ...ˆˆ βββ
23
Regressão Linear Múltipla – O modelo
• Após a realização dos cálculos adequados, os estimadores dos coeficientes são dados pelas soluções das igualdades:
onde .
kk
YXXXkXX
YXXXkXX
xxY
SQSQSQ
SQSQSQ
kkkk
k
βββ
ββ
ββ
ˆ...ˆˆ
ˆ...ˆ...
ˆ...ˆ
110
1
1
1
1111
−−−=
=++
=++
( ) ∑∑−∑=∑ −=i iq
i ipi iqip
i iqipqXpX XXn
XXXXSQ 12
24
Regressão Linear Múltipla – O modelo
Exemplo: Supondo agora que o nível de colesterol numa pessoa depende da sua idade e também do seu peso, registou-se o peso das 10 pessoas analisadas anteriormente.
Considerando x1 como sendo a variável Idade e x2 a variável Peso, o modelo é:
25
Regressão Linear Múltipla – Avaliação do modelo
Novamente existem diversos métodos para analisar a qualidade de ajustamento do modelo de regressão linear múltipla e a sua significância:
• Coeficiente de determinação (ajustado)
• Análise gráfica das previsões e dos resíduos
• Teste ao significado da regressão
26
Regressão Linear Múltipla – Avaliação do modelo
Coeficiente de determinação (ajustado):
• O coeficiente de determinação, para a regressão múltipla, é definido de forma análoga ao da regressão simples:
• Tal como anteriormente se o ajustamento do modelo for bom, R2
estará próximo de 1.
No entanto:• Na regressão múltipla já não se tem o quadrado de nenhum coeficiente de correlação.
• Ao introduzirmos novas variáveis independentes no modelo o valor de R2 aumenta, o que pode induzir em erro uma vez que muitas variáveis pode não significar um melhor modelo. Para contornar o problema é usual considerar o coeficiente de determinação ajustado.
T
R
SQSQR =2
27
Regressão Linear Múltipla – Avaliação do modelo
O coeficiente de determinação ajustado define-se pela expressão:
onde k representa o nº de variáveis independentes no modelo.
( )( ) T
Ea SQkn
SQnR
11
12
−−−
−=
Model Summaryb
,970a ,941 ,924 ,14379Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), peso, idadea.
Dependent Variable: colesterolb.
Exemplo: No exemplo anterior tem-se R2 = 0.924, o que representa boas indicações quanto à qualidade do modelo.
28
Regressão Linear Múltipla – Avaliação do modelo
Análise gráfica:
• Como o modelo de regressão múltipla é uma hipersuperfície, nem sempre é possível verificar simultaneamente o comportamento de Y em função das diversas variáveis independentes. Normalmente analisa-se a relação entre Y e cada uma das variáveis x individualmente, através dos respectivos diagramas de dispersão.
• Um outro método gráfico muito utilizado consiste em representargraficamente as observações versus os valores previstos . Se o modelo for adequado, os valores previstos devem estar próximos dos observados e portanto o diagrama de dispersão deve conter todos os pontos próximos da recta .
iYiY
xY =
29
Regressão Linear Múltipla – Avaliação do modelo
Exemplo: No exemplo anterior verifica-se que os pontos estão próximos da recta , o que sugere que o modelo considerado não será desajustado.
• A análise dos resíduos é completamente análoga à da regressão linear simples: quanto mais aleatória for a disposição dos pontos em torno do eixo das abcissas melhor será a qualidade do modelo.
( )ii eY ;ˆ
Exemplo: Ao lado encontra-se
representado o diagrama dos
resíduos do exemplo anterior.
31
Regressão Linear Múltipla – Avaliação do modelo
Teste ao significado da regressão:
• Pretende-se com esta análise testar se tem significado considerar no modelo de regressão todas as variáveis independentes x1,…,xk. As hipóteses a considerar são:
• Mais uma vez deve-se usar a estatística e o p-value que decorre da tabela ANOVA para tomar uma decisão.
• Rejeita-se a hipótese nula, e assume-se que há variáveis independentes a influenciar Y, se o p-value for baixo (≤ 0.05).
0Algum:0...: 110 ≠=== jk HvsH βββ
E
R
MQMQ
F =
32
Regressão Linear Múltipla – ANOVA
A interpretação da tabela ANOVA é análoga ao caso da regressão simples e no contexto da regressão linear múltipla é dada por:
n – 1SQTTotal
n – k – 1SQEResidual
kSQRRegressão
Desvios Quadráticos
Médios
Graus de Liberdade
(Nº de variáveis independentes)
Variações
(Somas dos desvios
quadráticos)
Fontes de variação
kSQ
MQ RR =
1−−=
knSQ
MQ EE
33
Regressão Linear Múltipla – ANOVA
Exemplo: A tabela ANOVA do exemplo considerado é dada por:
Como o p-value do teste é zero, poderá fazer sentido utilizar um modelo de regressão linear com todas estas variáveis independentes.