Análise de correlação Introdução Nesta unidade serão estudados os princípios da análise de correlação e de regressão. Estas técnicas estatísticas são apropriadas para analisar o relacionamento entre variáveis de qualquer natureza. No nosso caso, estamos interessados no relacionamento entre variáveis do agronegócio, sejam elas de natureza econômica, financeira ou contábil. A análise de correlação tem por objetivo apenas medir o grau de relacionamento entre variáveis, enquanto a análise de regressão estabelece uma relação de dependência entre as variáveis e desenvolve métodos para estimar, com base em uma amostra de dados, os parâmetros que caracterizam essa relação. Correlação e regressão são técnicas bastante relacionadas e, de certa forma, complementares em muitos aspectos. Podemos estar interessados, por exemplo, no relacionamento entre o preço a vista e o preço futuro de café, entre gastos com propaganda e volume de vendas de uma empresa, ou entre salário do trabalhador e seu nível educacional. Pela correlação, vamos procurar medir o grau de relacionamento entre as variáveis, que será dado pelo coeficiente de correlação. Este coeficiente vai nos dizer 1
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Análise de correlação
Introdução
Nesta unidade serão estudados os princípios da análise de correlação e de
regressão. Estas técnicas estatísticas são apropriadas para analisar o relacionamento
entre variáveis de qualquer natureza. No nosso caso, estamos interessados no
relacionamento entre variáveis do agronegócio, sejam elas de natureza econômica,
financeira ou contábil. A análise de correlação tem por objetivo apenas medir o grau de
relacionamento entre variáveis, enquanto a análise de regressão estabelece uma relação
de dependência entre as variáveis e desenvolve métodos para estimar, com base em uma
amostra de dados, os parâmetros que caracterizam essa relação.
Correlação e regressão são técnicas bastante relacionadas e, de certa forma,
complementares em muitos aspectos. Podemos estar interessados, por exemplo, no
relacionamento entre o preço a vista e o preço futuro de café, entre gastos com
propaganda e volume de vendas de uma empresa, ou entre salário do trabalhador e seu
nível educacional. Pela correlação, vamos procurar medir o grau de relacionamento
entre as variáveis, que será dado pelo coeficiente de correlação. Este coeficiente vai nos
dizer se a relação é forte ou fraca e se é no mesmo sentido ou em sentido contrário. Já a
regressão procura estimar o relacionamento entre as variáveis por meio de uma equação
matemática que melhor descreve a relação.
Embora a análise de correlação e de regressão lide com a dependência de uma
variável em relação a outra, elas não implicam necessariamente relação de causalidade
de uma variável para outra. A especificação das variáveis a serem analisadas tanto na
correlação quanto na regressão deve ser feita com base na teoria subjacente ou no
conhecimento a priori relacionado com a área em estudo. Um relacionamento forte
entre as variáveis não identifica uma relação causa-efeito. Isto significa que,
estatisticamente, podemos relacionar qualquer coisa, mas, na prática, só devemos
relacionar aquilo que faz sentido de acordo com nosso conhecimento do problema. Nos
1
estudos relacionados com o agronegócio, vamos usar com freqüência a teoria
econômica para estabelecer relações causais a serem investigadas pela estatística.
Os dados utilizados em análise empírica de correlação e regressão podem ser
de série temporal ou de seção cruzada. Os dados de série temporal são aqueles coletados
para períodos de tempo sucessivos e regulares. O período pode ser ano, mês, semana,
dia, etc. Por exemplo, dados referentes à área, produção e produtividade de milho em
Minas Gerais no período de 1980 a 2000 e dados mensais de preços de milho, arroz e
feijão no mercado atacadista de Belo Horizonte, no período de janeiro de 1990 a
dezembro de 2000, são dados de série temporal.
Os dados de seção cruzada, também chamados de dados de corte seccional, são
dados referentes a uma ou mais variáveis coletados em unidades amostrais (família,
consumidor, firma, propriedade rural, estado, região, país) no mesmo período de tempo.
Por exemplo, dados sobre a produção de soja, milho e trigo nos municípios do Estado
do Paraná em 2000, ou dados sobre a produção diária de leite, número de vacas em
lactação, número de empregados permanentes e quantidade usada de ração, coletados de
uma amostra de 200 produtores de Minas Gerais em julho de 2000, são dados de seção
cruzada.
É possível combinar dados de seção cruzada e de série temporal para análise
estatística. Neste caso, refere-se a dados de combinação de série temporal e seção
cruzada. Quando as unidades amostrais de seção cruzada são as mesmas ao longo do
tempo, denomina-se dados em painel.
Tanto os dados de série temporal quanto os de seção cruzada podem ser de
natureza quantitativa ou qualitativa. Dado quantitativo é aquele que se apresenta na
forma numérica, como renda, produção, preço, etc. Já o dado qualitativo é aquele
expresso na forma de um atributo ou uma característica qualitativa da unidade de
observação. Normalmente, este dado refere-se à presença ou ausência de uma
característica, ou à tomada ou não de uma decisão, como, por exemplo, dado referente a
homem ou mulher, a casado ou solteiro, a empregado ou desempregado, ao setor rural
ou setor urbano, se adota ou não adota certa tecnologia, se período com ou sem
tabelamento de preços, se período com ou sem acordo comercial, etc.
Os dados para a análise de correlação e de regressão provêm de observações de
variáveis emparelhadas. É preciso ter várias observações (amostra) de cada variável. Por
exemplo, um estudo com dados de seção cruzada sobre empresas do setor de alimentos
pode focalizar volume de vendas, número de empregados, gastos com propaganda e
2
parcela de mercado. Cada observação, que representa os dados de cada empresa, é
composta de quatro valores, um para cada variável. Pode-se imaginar os dados
dispostos em uma planilha em que as linhas são as observações e as colunas
representam as variáveis.
Objetivos específicos
Ao finalizar esta unidade, você deverá ser capaz de:
Entender o significado e a finalidade da análise de correlação e de regressão.
Relacionar e explicar as premissas ou pressuposições fundamentais da análise de
correlação e de regressão.
Diferenciar análise de correlação de análise de regressão.
Entender que o modelo de regressão linear pode ser usado para estimar vários tipos
de modelos não-lineares.
Entender as limitações da análise de correlação e de regressão.
Calcular coeficientes de correlação e estimar modelos de regressão para análise de
relações entre variáveis.
Entender e ser capaz de explicar resultados de análise de correlação e de regressão.
1. Análise de correlação
1.1. Introdução
A estatística fornece vários métodos para se medir a associação entre variáveis,
sendo a correlação um dos mais simples destes métodos. A análise de correlação
constitui uma técnica própria de análise estatística com aplicações em inúmeras áreas. A
correlação é intimamente ligada à regressão. O entendimento dos conceitos de
correlação facilita muito o estudo das técnicas de regressão.
3
1.2. O significado da correlação entre variáveis
O termo “correlação” significa literalmente “co-relacionamento” e indica até
que ponto os valores de uma variável estão relacionados com os de outra. Na análise de
correlação procura-se uma medida que “sintetize” o grau de relacionamento entre as
variáveis.
Tem-se um relacionamento forte entre duas variáveis sempre que valores altos
de uma estejam relacionados com valores também altos ou baixos da outra variável. Por
outro lado, se valores altos de uma variável ocorrem em conjunto com valores altos e
baixos da outra variável, o grau de relacionamento entre elas não é forte.
Muitos exemplos podem ser dados de variáveis que apresentam certo tipo de
relacionamento: a) grau de escolaridade e nível de renda; b) notas de microeconomia e
notas de matemática; c) idade e resistência física; d) produtividade e quantidade
utilizada de fertilizante; e) idade e altura de uma planta; f) tempo depois do corte e
resistência física da madeira; g) preço em nível de consumidor (varejo) e em nível de
atacado; h) tamanho da propriedade e consumo de energia elétrica; i) preço e quantidade
demandada de certa mercadoria; j) ordem de classificação em um concurso e sucesso
profissional.
O interesse de se conhecer melhor o relacionamento entre variáveis, como os
casos citados anteriormente, conduz naturalmente à análise de correlação. O resultado é
uma medida do grau de correlação, denominada “coeficiente de correlação”.
A principal utilidade da medida de correlação é que se pode dizer o que se
espera para uma variável com base no conhecimento de outra. Pode-se inferir uma com
base na outra.
Contudo, chama-se a atenção para o fato de que esse processo de inferência
não significa que uma variável “causa” a outra. Ou seja, não implica, em hipótese
alguma, a existência de relação causal entre as variáveis. Apenas o relacionamento
esperado é indicado pela análise de correlação. Por exemplo, se existir um
relacionamento forte na mesma direção entre grau de escolaridade e renda, só se pode
inferir que pessoas com grau de instrução formal mais elevado deverão apresentar
também níveis de renda mais altos.
1.3. Formas de correlação
A correlação entre duas variáveis (X e Y) pode ser de várias formas:
4
a) Correlação linear - quando todos os pontos (X, Y) colocados num diagrama de
dispersão tendem a se concentrar ao longo de uma reta.
b) Correlação não-linear - quando os pontos (X, Y) tendem a se concentrar em torno de
uma curva.
c) Correlação positiva - duas variáveis apresentam correlação positiva se elas tendem a
mudar na mesma direção, ou seja, aumentam ou diminuem ao mesmo tempo.
Exemplo deste tipo de correlação é a relação entre preço e quantidade ofertada
(Figuras 2.1 e 2.2).
Figura 2.1 - Correlação positiva linear. Figura 2.2 - Correlação positiva não-linear.
d) Correlação negativa - neste caso, as variáveis tendem a mudar em direções opostas.
Por exemplo, preço e quantidade demandada (Figuras 2.3 e 2.4).
5
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
..
.. .
..
.. .
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
0 X
Y
X
Y
0
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
..
.. .
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
.
..
.. .
X00
YY
X
Figura 2.3 - Correlação negativa linear. Figura 2.4 - Correlação negativa não-linear.
e) Não-correlação ou correlação nula - duas variáveis são não-correlacionadas quando
não é possível identificar nenhuma conexão entre elas. O diagrama de dispersão não
apresenta forma definida (Figura 2.5).
Figura 2.5 - Correlação nula.
A correlação entre duas variáveis também será nula quando uma delas não
apresentar variação, ou seja, assumir um valor constante (Figura 2.6).
Figura 2.6 - Correlação nula.
Quando, porventura, todos os pontos (X, Y) se localizarem exatamente sobre
uma reta ou uma curva, diz-se que a correlação é perfeita. Quando a maioria dos pontos
se concentra ao longo da reta ou da curva, a correlação será forte; caso contrário, a
correlação será fraca.
6
..........................
. ....
......
......
.....
......
....
X X0 0
Y
(a) (b)
Y
.. . ....
.
....
. ..
...
...
. .. .
...
. . . . .
. .
.
. .
. .
.
.
.
.
. .
Y
X0
.
.
A teoria da correlação desenvolve medidas próprias e diretas somente para a
correlação linear. A correlação não-linear é estudada de forma indireta através de
transformações ou com uso de ajustamento de relações entre as variáveis. A seguir serão
desenvolvidas medidas de correlação linear.
1.4. Correlação linear simples
Na correlação linear simples procura-se medir o grau de relacionamento linear
entre duas variáveis. A medida usada é o “coeficiente de correlação”.
Coeficiente de correlação
A correlação se refere ao grau de relacionamento entre as variáveis. A medida
desse grau é feita pelo coeficiente de correlação.
Dadas duas variáveis (X e Y) definidas para uma amostra de tamanho n, o
coeficiente de correlação linear (rXY) é calculado com a seguinte fórmula:
. (2.1)
Propriedades do coeficiente de correlação
1. O coeficiente de correlação independe das unidades de medida das variáveis; é
um número adimensional que varia entre –1 e +1, isto é, -1 r + 1.
2. O coeficiente de correlação de uma variável e ela mesma é igual a +1.
3. A permutação das variáveis não altera o resultado do coeficiente de correlação,
isto é, rXY = rYX.
4. Somando-se ou subtraindo-se uma constante a uma ou a ambas as variáveis, o
coeficiente de correlação não se altera.
5. Multiplicando-se ou dividindo-se uma ou ambas as variáveis por uma constante,
o coeficiente de correlação não se altera.
Interpretação do coeficiente de correlação
Os valores possíveis do coeficiente de correlação limitados no intervalo –1 e
+1 apresentam os seguintes significados:
7
1. r = +1: correlação positiva perfeita. Existe uma relação linear perfeita entre as
variáveis cujos pares de valores se situam numa reta com inclinação positiva.
2. r próximo de +1: correlação positiva forte. A maioria dos pares de valores das
variáveis se situa próxima a uma reta com inclinação positiva.
3. r positivo e próximo de zero: correlação positiva fraca. Os pares de valores
formam uma nuvem de pontos com ligeira tendência de inclinação positiva.
4. r = 0: correlação nula. Os pares de valores formam uma nuvem de pontos sem
nenhuma tendência de inclinação positiva ou negativa. As variáveis tendem a variar
sem nenhuma relação uma com a outra.
5. r negativo e próximo de zero: correlação negativa fraca. Os pares de valores
formam uma nuvem de pontos com ligeira tendência de inclinação negativa.
6. r próximo de -1: correlação negativa forte. A maioria dos pares de valores das
variáveis se situa próxima a uma reta com inclinação negativa.
7. r = -1: correlação negativa perfeita. Existe uma relação linear perfeita entre as
variáveis cujos pares de valores se situam numa reta com inclinação negativa.
Normalmente, alerta-se para o fato de que um coeficiente de correlação igual a
zero indica ausência de correlação linear entre as variáveis. Pode ocorrer, no entanto,
que as variáveis sejam relacionadas, porém não linearmente.
O coeficiente de correlação linear simples sempre se refere a duas variáveis.
Num estudo com mais de duas variáveis podemos calcular o coeficiente para diferentes
pares de variáveis. Neste caso, os coeficientes de correlação são organizados em uma
tabela denominada matriz de correlação de tamanho definido pelo número de variáveis.
Para quatro variáveis, X, Y, Z e W, por exemplo, os possíveis coeficientes de correlação
das quatro variáveis tomadas duas a duas podem ser registrados como na Tabela 2.1.
Tabela 2.1 - Coeficientes de correlação linear simples entre as variáveis X, Y, Z e W
X Y Z W
X rXX rXY rXZ rXW
Y rYX rYY rYZ rYW
Z rZX rZY rZZ rZW
W rWX rWY rWZ rWW
8
Observando-se que o coeficiente de correlação de uma variável com ela mesma
é igual a + 1 e que a permutação das variáveis não altera o resultado do coeficiente, a
Tabela 2.1 pode ser simplificada como se apresenta na Tabela 2.2.
Tabela 2.2 - Coeficientes de correlação linear simples entre as variáveis X, Y, Z e W
X Y Z W
X 1Y rYX 1Z rZX rZY 1W rWX rWY rWZ 1
Na prática, o cálculo do coeficiente de correlação é feito a mão, com o auxílio
de uma calculadora, ou pelo computador. As planilhas eletrônicas e os programas
estatísticos calculam coeficientes de correlação como procedimentos rotineiros. Como
exemplo, apresentamos, a seguir, o cálculo do coeficiente de correlação entre duas
variáveis X e Y, com o detalhamento dos cálculos dos componentes da fórmula.
Exemplo 2.1
Calcular o coeficiente de correlação entre as variáveis X e Y registradas na
Tabela 2.3.
9
Tabela 2.3 - Cálculo do coeficiente de correlação entre as variáveis X e Y
Tabela 2.5 - Matriz de correlação entre preço da soja (PRSO), preço do mi-lho (PRMI), salário de tratorista (SATO) e preço de fertilizan-te (PRFE) no Estado do Paraná, 1986-1999