This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Essa Unidade está no capítulo 11 do livro base: MONTGOMERY,
Douglas C, RUNGER, George C. Estatística aplicada e Probabilidade
para Engenheiros. 4ª edição. Rio de Janeiro: LTC, 2009.
Você também pode, se preferir, fazer a leitura do capítulo 10 do
livro do Mario Triola, Introdução à Estatística, LTC, 2005.
Cópias desses capítulos podem ser obtidas por meio da Pasta do
Professor Professor (www.pastadoprofessor.com.br), fazendo login
nessa página e enviando-as para serem impressas na Copiadora
Set (casa amarela) da Unidade do Coração Eucarístico, ou em
alguma outra copiadora da Unidade a que o aluno pertence.
Não deixem de ler!
Nota importante:
• Essas aulas foram produzidas por meio de coletânea dos textos indicados na bibliografia. Não são citadas diretamente para não poluir o visual dos mesmos.
• Os textos estão organizados e traduzidos para minha linguagem didática pessoal.
• Um estudo mais aprofundado deverá ser baseado nas referências bibliográficas indicadas.
Algumas notas de aulas: 1. Introdução
A associação entre duas variáveis quantitativas também é chamada de medida de relação. As medidas de relação aqui estudadas são as que objetivam linearidade: correlação e regressão.
Segundo ou dicionário Aurélio, correlação significa relação mútua entre dois termos, qualidade
de correlativo, correspondência. Correlacionar significa estabelecer relação ou correlação entre; ter correlação. Enquanto que a palavra regressão significa: ato ou efeito de regressar, de
voltar, retorno, regresso; dependência funcional entre duas ou mais variáveis aleatórias. A palavra regredir significa ir em marcha regressiva, retroceder.
Os termos correlação e regressão surgiram com Francis Galton (1822-1911), primo de Charles
Darwin, que usou pela primeira vez esses termos. Seu trabalho influenciou a Estatística e a Psicologia.
Galton publicou o livro Gênio Hereditário, em 1869, onde aplicou conceitos estatísticos a problemas da hereditariedade. Galton ficou impressionado com a distribuição normal aplicada a
área de biologia por Adolph Quételet (1796-1874), que mostrara no livro “O homem Médio”, que a estatura de dez mil sujeitos seguia uma distribuição normal, ou seja, a maioria dos
sujeitos tinha suas estaturas em torno da média e que uma quantidade, cada vez menor, vai
Galton cunhou o termo regressão quando observou que filhos de homens altos, não são, em
média, tão altos quanto os pais, enquanto que os filhos de homens muito baixos são, em média, mais altos do que os pais. Ele concebeu uma forma gráfica de representar as
propriedades básicas do coeficiente de correlação. Ele aplicou o seu método de correlação a variações de medidas físicas, por exemplo, mostrou a correlação entre a altura do corpo e o
comprimento da cabeça. Seu aluno Karl Pearson desenvolveu a fórmula matemática, que usamos hoje e que tem o seu
nome em homenagem. O símbolo do coeficiente de correlação r, vem da primeira letra de
regressão, em reconhecimento a Galton.
2. A Covariância e o Coeficiente de Correlação de Pearson
Quando estudamos a relação entre duas variáveis X e Y devemos apreender um novo conceito
que é a covariância. Se a variância é uma estatística através da qual chegamos ao desvio-padrão que é uma medida da dispersão dos dados. Semelhantemente, a covariância é uma
medida da variação (dispersão) conjunta entre os dados de X e Y. Essa medida estatística nos possibilita chegar ao coeficiente de correlação o qual mede o grau de associação “linear” entre
duas variáveis aleatórias. Apresentaremos esses conceitos por meio do exemplo a seguir.
Exemplo 1: Sejam as variáveis aleatórias X, renda bruta anual em milhões de reais e Y,
percentual da renda bruta gasto com assistência médica, que tomam os seguintes valores:
Calculando as estatísticas descritivas temos:
Uma forma mais simplificada para os cálculos é por meio da utilização da escrita de algumas
somas intermediárias, tais como:
n
x
xS
n
i
in
i
ixx
2
1
1
2
n
yx
yxS
n
i
i
n
i
in
i
iixy
11
1
A covariância é obtida por meio da seguinte fórmula:
11),cov(
n
S
n
yyxxYX
xy
Renda bruta (X), em R$ 12 16 18 20 28 30 40 48 50 54
O próximo quadro apresenta alguns cálculos intermediários para esse banco de dados:
Renda bruta (X) % gasto (Y) XY X2
Y2
12 7,2 86,4 144 51,84
16 7,4 118,4 256 54,76
18 7,0 126,0 324 49,00
20 6,5 130,0 400 42,25
28 6,6 184,8 784 43,56
30 6,7 201,0 900 44,89
40 6,0 240,0 1600 36,00
48 5,6 268,8 2304 31,36
50 6,0 300,0 2500 36,00
54 5,5 297,0 2916 30,25
X = 316 Y = 64,5 X Y = 1952,4 X2 = 12128 Y
2 =419,91
8,852,20384,195210
)5,64)(316(4,1952 xyS
53,99
8,85),cov(
YX
Verifica-se graficamente a relação entre duas variáveis por meio do diagrama de dispersão
entre elas. Nesse gráfico foram desenhadas as linhas das médias de X, E(X), e de Y , E(Y), e indicados os sinais da covariância em cada um dos quadrantes determinados por essas linhas:
X: Renda bruta
Y:
% g
asto
co
m a
ssis
t. m
éd
ica
605040302010
7,5
7,0
6,5
6,0
5,5
E(X)
E(Y)
Diagrama de dispersão: % gasto com assist. médica vs Renda bruta
X-E(X)<0 e Y-E(Y)<0
X-E(X)<0 e Y-E(Y)>0
X-E(X)>0 e Y-E(Y)<0
X-E(X)>0 e Y-E(Y)>0
I
III II
IV
Cov(X,Y) < 0
Cov(X,Y) > 0Cov(X,Y) < 0
Cov(X,Y) > 0
X: Renda bruta
Y:
% g
asto
co
m a
ssis
t. m
éd
ica
605040302010
7,5
7,0
6,5
6,0
5,5
E(X)
E(Y)
Diagrama de dispersão: % gasto com assist. médica vs Renda bruta
Observe que os desvios dos pontos que caem no quadrante II (supondo x e y os eixos
centrais do plano cartesiano) tomam valores positivos, por tanto seus produtos, também, tomarão valores positivos. O mesmo acontece quando os pontos caem no IV quadrante, os dois
desvios tomarão valores negativos, portanto seus produtos tomarão valores positivos. Se a maioria dos pontos estiverem espalhados no II e IV quadrante, a soma dos produtos dos
desvios sempre será positivo, logo afirmaremos que a covariância destas duas variáveis é positiva, ou em outras palavras, a relação entre elas é direta, ou seja, a medida que uma
cresce, a outra, também cresce e vice-versa.
Agora, vejamos o que acontece se os pontos estivessem no quadrante I. Neste caso, os desvios de X seriam todos positivos, enquanto que os desvios de Y seriam todos negativos, logo os
produtos tomarão valores negativos. O mesmo vai acontecer com os pontos do quadrante III, nele, os desvios de X tomarão valores negativos e os desvios de Y, valores positivos, logo os
produtos tomarão valores negativos. Assim, se a maioria dos pontos cai nos quadrantes I e III
a covariância tomará valores negativos, indicando que essas duas variáveis se relacionam de forma negativa ou inversa, ou seja, que quando uma cresce a outra diminui e vice-versa.
Quando os pontos se distribuem nos quatro quadrantes, haverá valores positivos e negativos, logo a soma tenderá para zero, e neste caso, afirmaremos que não existe relação linear entre
essas variáveis. Observamos que esta estatística tenderá para zero, mesmo havendo uma
relação que não for linear, por exemplo, se os dados tivessem o formato de uma parábola, ou relação quadrática.
A pesar de a covariância ser uma estatística adequada para medir relação linear entre duas variáveis, ela é complicada para comparar graus de relação entre variáveis devido a influencia
das unidades de medida de cada variável, que pode ser metros, quilometro, quilogramas, centímetros, etc... Para evitar a influência da ordem de grandeza e unidades de cada variável,
dividimos a covariância pelo desvio padrão de X e de Y, dando origem ao coeficiente de
Vale a pena considerar que o fato de duas variáveis estarem fortemente correlacionadas por si
só não implica em uma relação de causa e efeito entre elas. Exemplo, podemos ter em uma certa região um grande número de cegonhas e um alta taxa de nascimento de bebes. Essas
duas variáveis podem estar altamente correlacionadas, mas não podemos acreditar numa relação de causa e efeito entre elas (ainda...). Esse tipo de correlação é chamado de “espúria”.
Exemplo 2: O estatístico F. J. Anscombe preparou os seguintes conjuntos de dados para
exemplificar a correlação, os quais são bastante utilizados para efeitos didáticos:
interesse apenas para nos ajudar a entender, explicar ou predizer o comportamento de Y e são
chamadas de variáveis explicativas ou preditoras ou independentes. Na análise de regressão linear utilizamos a equação matemática de uma reta para
descrevermos a relação entre Y e X. Essa reta é ajustada aos dados da melhor maneira possível, ou seja, de tal forma que as distâncias das observações a ela sejam as menores
possíveis. Esse método é conhecido como “mínimos quadrados”, por considerar o quadrado dessas distâncias (ou resíduos).
A equação de uma reta em matemática é: Y = a + bX. Em estatística é usual descrever essa
reta como:
XY 10
Em que 0 é o valor do intercepto, ponto em que a reta cruza o eixo das coordenadas, Y e 1 é
a taxa de acréscimo ou decréscimo que cada unidade de X produz em Y.
O gráfico a seguir exemplifica a equação de uma reta e seu significado, por eixo coordenado, para a reta de regressão estimada:
Considerando que estamos ajustando uma reta aos dados, costuma-se escrever essa reta de
maneira indicada de estimação, ou seja, colocamos um “chapéu” na variável resposta Y e nos
valores dos ’s, isto é:
XˆˆY 10
O valor de y é o valor previsto para certo valor de x observado. As estimativas de mínimos
quadrados para os valores do intercepto e da taxa ou inclinação são:
xˆyˆ10
Em que,
n
1i
iyn
1y e
n
1i
ixn
1x
0
x
(variável independente ou explicativa ou preditora)
y
(variável dependenteou resposta)
Y = b0 + b1 x
b0
y
x
x
y)(tgb
1
0
x
(variável independente ou explicativa ou preditora)
Obs.: Sxx e Sxy são convenientes expressões facilitadoras para a notação dos numeradores e
dos denominadores aqui utilizados.
Considerando os dados apresentados no exemplo 1, temos os seguintes resultados:
6,31x ; 45,6y ; 316x ; 5,64y ; 4,1952xy ; 12128x2
Com esses dados podemos calcular:
8,85
10
5,643164,1952Sxy e
4,2142
10
31612128S
2
xx
Dessa maneira, os coeficientes estimados são:
04005,04,2142
8,85ˆ1
xx
xy
S
S e 716,7)6,31)(04007,0(5,64xˆyˆ
10
Dessa maneira temos que a reta de regressão linear simples ajustada a esses dados é:
x04,072,7y
Em que Y significa o percentual gasto em assistência médica e X é a renda bruta anual. Essa
reta indica que cada unidade da renda bruta anual produz um decréscimo 0,04 na previsão do percentual da renda bruta gasto em assistência médica.
Em termos numéricos, se a renda bruta anual for de 22 milhões de reais, espera-se em média
um percentual de 6,9% de gasto com assistência médica. Em termos de reais, o gasto com assistência médica, considerando essa renda bruta anual é de aproximadamente 1,38 milhões,
em média. Nesse exemplo em particular, os planos de saúde estarão em situação de determinar as
políticas de vendas por segmentos de rendas anuais.
Importante: Essa técnica só poderá ser utilizada se existir correlação linear significativa entre
as variáveis Y e X. A reta de regressão ajustada pelo software Minitab para esse exemplo é:
O coeficiente de determinação R2 é obtido facilmente pelo quadrado do coeficiente de
correlação linear e multiplicando esse valor por 100, ele fornece o percentual da variação em Y explicada pela variável X. No exemplo acima, temos R2 = 0,884 = 88,4% da variação no
percentual de gasto com assistência médica é explicada pela renda bruta anual. Observe que 0,884= (-0,9401)2.
De maneira geral, o coeficiente de determinação é calculado por:
T
ET2
SQ
SQSQR
, em que
2
1
2 ynySQn
i
iT
é a soma dos quadrados dos erros sem
considerar o efeito da variável Y, e
n
1i
2iE )yy(SQ é a soma dos quadrados dos erros
considerando o efeito da variável X.
Um estimador não-tendencioso da variância do termo do erro (resíduos: diferença entre o y
observado e o Y estimado) é: 2
ˆ 2
n
SQE
O termo SQE pode ser mais convenientemente calculado pela fórmula: xyTE SSQSQ 1
O coeficiente de correlação também pode ser calculado por meio dessas expressões
facilitadoras:
Txx
xy
SQS
Sr
Para efeito de demonstração, para os dados do exemplo 1:
O coeficiente de correlação r = -0,9401
Renda Bruta
% g
asto
605040302010
7,5
7,0
6,5
6,0
5,5
S 0,236864
R-Sq 88,4%
R-Sq(adj) 87,0%
Reta de Regressão Linear ajustada% gasto = 7,716 - 0,04005 Renda Bruta