Análise de correlação

Análise de correlação

Introdução

Nesta unidade serão estudados os princípios da análise de correlação e de

regressão. Estas técnicas estatísticas são apropriadas para analisar o relacionamento

entre variáveis de qualquer natureza. No nosso caso, estamos interessados no

relacionamento entre variáveis do agronegócio, sejam elas de natureza econômica,

financeira ou contábil. A análise de correlação tem por objetivo apenas medir o grau de

relacionamento entre variáveis, enquanto a análise de regressão estabelece uma relação

de dependência entre as variáveis e desenvolve métodos para estimar, com base em uma

amostra de dados, os parâmetros que caracterizam essa relação.

Correlação e regressão são técnicas bastante relacionadas e, de certa forma,

complementares em muitos aspectos. Podemos estar interessados, por exemplo, no

relacionamento entre o preço a vista e o preço futuro de café, entre gastos com

propaganda e volume de vendas de uma empresa, ou entre salário do trabalhador e seu

nível educacional. Pela correlação, vamos procurar medir o grau de relacionamento

entre as variáveis, que será dado pelo coeficiente de correlação. Este coeficiente vai nos

dizer se a relação é forte ou fraca e se é no mesmo sentido ou em sentido contrário. Já a

regressão procura estimar o relacionamento entre as variáveis por meio de uma equação

matemática que melhor descreve a relação.

Embora a análise de correlação e de regressão lide com a dependência de uma

variável em relação a outra, elas não implicam necessariamente relação de causalidade

de uma variável para outra. A especificação das variáveis a serem analisadas tanto na

correlação quanto na regressão deve ser feita com base na teoria subjacente ou no

conhecimento a priori relacionado com a área em estudo. Um relacionamento forte

entre as variáveis não identifica uma relação causa-efeito. Isto significa que,

estatisticamente, podemos relacionar qualquer coisa, mas, na prática, só devemos

relacionar aquilo que faz sentido de acordo com nosso conhecimento do problema. Nos

1

estudos relacionados com o agronegócio, vamos usar com freqüência a teoria

econômica para estabelecer relações causais a serem investigadas pela estatística.

Os dados utilizados em análise empírica de correlação e regressão podem ser

de série temporal ou de seção cruzada. Os dados de série temporal são aqueles coletados

para períodos de tempo sucessivos e regulares. O período pode ser ano, mês, semana,

dia, etc. Por exemplo, dados referentes à área, produção e produtividade de milho em

Minas Gerais no período de 1980 a 2000 e dados mensais de preços de milho, arroz e

feijão no mercado atacadista de Belo Horizonte, no período de janeiro de 1990 a

dezembro de 2000, são dados de série temporal.

Os dados de seção cruzada, também chamados de dados de corte seccional, são

dados referentes a uma ou mais variáveis coletados em unidades amostrais (família,

consumidor, firma, propriedade rural, estado, região, país) no mesmo período de tempo.

Por exemplo, dados sobre a produção de soja, milho e trigo nos municípios do Estado

do Paraná em 2000, ou dados sobre a produção diária de leite, número de vacas em

lactação, número de empregados permanentes e quantidade usada de ração, coletados de

uma amostra de 200 produtores de Minas Gerais em julho de 2000, são dados de seção

cruzada.

É possível combinar dados de seção cruzada e de série temporal para análise

estatística. Neste caso, refere-se a dados de combinação de série temporal e seção

cruzada. Quando as unidades amostrais de seção cruzada são as mesmas ao longo do

tempo, denomina-se dados em painel.

Tanto os dados de série temporal quanto os de seção cruzada podem ser de

natureza quantitativa ou qualitativa. Dado quantitativo é aquele que se apresenta na

forma numérica, como renda, produção, preço, etc. Já o dado qualitativo é aquele

expresso na forma de um atributo ou uma característica qualitativa da unidade de

observação. Normalmente, este dado refere-se à presença ou ausência de uma

característica, ou à tomada ou não de uma decisão, como, por exemplo, dado referente a

homem ou mulher, a casado ou solteiro, a empregado ou desempregado, ao setor rural

ou setor urbano, se adota ou não adota certa tecnologia, se período com ou sem

tabelamento de preços, se período com ou sem acordo comercial, etc.

Os dados para a análise de correlação e de regressão provêm de observações de

variáveis emparelhadas. É preciso ter várias observações (amostra) de cada variável. Por

exemplo, um estudo com dados de seção cruzada sobre empresas do setor de alimentos

pode focalizar volume de vendas, número de empregados, gastos com propaganda e

2

parcela de mercado. Cada observação, que representa os dados de cada empresa, é

composta de quatro valores, um para cada variável. Pode-se imaginar os dados

dispostos em uma planilha em que as linhas são as observações e as colunas

representam as variáveis.

Objetivos específicos

Ao finalizar esta unidade, você deverá ser capaz de:

Entender o significado e a finalidade da análise de correlação e de regressão.

Relacionar e explicar as premissas ou pressuposições fundamentais da análise de

correlação e de regressão.

Diferenciar análise de correlação de análise de regressão.

Entender que o modelo de regressão linear pode ser usado para estimar vários tipos

de modelos não-lineares.

Entender as limitações da análise de correlação e de regressão.

Calcular coeficientes de correlação e estimar modelos de regressão para análise de

relações entre variáveis.

Entender e ser capaz de explicar resultados de análise de correlação e de regressão.

1. Análise de correlação

1.1. Introdução

A estatística fornece vários métodos para se medir a associação entre variáveis,

sendo a correlação um dos mais simples destes métodos. A análise de correlação

constitui uma técnica própria de análise estatística com aplicações em inúmeras áreas. A

correlação é intimamente ligada à regressão. O entendimento dos conceitos de

correlação facilita muito o estudo das técnicas de regressão.

3

1.2. O significado da correlação entre variáveis

O termo “correlação” significa literalmente “co-relacionamento” e indica até

que ponto os valores de uma variável estão relacionados com os de outra. Na análise de

correlação procura-se uma medida que “sintetize” o grau de relacionamento entre as

variáveis.

Tem-se um relacionamento forte entre duas variáveis sempre que valores altos

de uma estejam relacionados com valores também altos ou baixos da outra variável. Por

outro lado, se valores altos de uma variável ocorrem em conjunto com valores altos e

baixos da outra variável, o grau de relacionamento entre elas não é forte.

Muitos exemplos podem ser dados de variáveis que apresentam certo tipo de

relacionamento: a) grau de escolaridade e nível de renda; b) notas de microeconomia e

notas de matemática; c) idade e resistência física; d) produtividade e quantidade

utilizada de fertilizante; e) idade e altura de uma planta; f) tempo depois do corte e

resistência física da madeira; g) preço em nível de consumidor (varejo) e em nível de

atacado; h) tamanho da propriedade e consumo de energia elétrica; i) preço e quantidade

demandada de certa mercadoria; j) ordem de classificação em um concurso e sucesso

profissional.

O interesse de se conhecer melhor o relacionamento entre variáveis, como os

casos citados anteriormente, conduz naturalmente à análise de correlação. O resultado é

uma medida do grau de correlação, denominada “coeficiente de correlação”.

A principal utilidade da medida de correlação é que se pode dizer o que se

espera para uma variável com base no conhecimento de outra. Pode-se inferir uma com

base na outra.

Contudo, chama-se a atenção para o fato de que esse processo de inferência

não significa que uma variável “causa” a outra. Ou seja, não implica, em hipótese

alguma, a existência de relação causal entre as variáveis. Apenas o relacionamento

esperado é indicado pela análise de correlação. Por exemplo, se existir um

relacionamento forte na mesma direção entre grau de escolaridade e renda, só se pode

inferir que pessoas com grau de instrução formal mais elevado deverão apresentar

também níveis de renda mais altos.

1.3. Formas de correlação

A correlação entre duas variáveis (X e Y) pode ser de várias formas:

4

a) Correlação linear - quando todos os pontos (X, Y) colocados num diagrama de

dispersão tendem a se concentrar ao longo de uma reta.

b) Correlação não-linear - quando os pontos (X, Y) tendem a se concentrar em torno de

uma curva.

c) Correlação positiva - duas variáveis apresentam correlação positiva se elas tendem a

mudar na mesma direção, ou seja, aumentam ou diminuem ao mesmo tempo.

Exemplo deste tipo de correlação é a relação entre preço e quantidade ofertada

(Figuras 2.1 e 2.2).

Figura 2.1 - Correlação positiva linear. Figura 2.2 - Correlação positiva não-linear.

d) Correlação negativa - neste caso, as variáveis tendem a mudar em direções opostas.

Por exemplo, preço e quantidade demandada (Figuras 2.3 e 2.4).

5

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

..

.. .

..

.. .

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

0 X

Y

X

Y

0

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

..

.. .

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

.

..

.. .

X00

YY

X

Figura 2.3 - Correlação negativa linear. Figura 2.4 - Correlação negativa não-linear.

e) Não-correlação ou correlação nula - duas variáveis são não-correlacionadas quando

não é possível identificar nenhuma conexão entre elas. O diagrama de dispersão não

apresenta forma definida (Figura 2.5).

Figura 2.5 - Correlação nula.

A correlação entre duas variáveis também será nula quando uma delas não

apresentar variação, ou seja, assumir um valor constante (Figura 2.6).

Figura 2.6 - Correlação nula.

Quando, porventura, todos os pontos (X, Y) se localizarem exatamente sobre

uma reta ou uma curva, diz-se que a correlação é perfeita. Quando a maioria dos pontos

se concentra ao longo da reta ou da curva, a correlação será forte; caso contrário, a

correlação será fraca.

6

..........................

. ....

......

......

.....

......

....

X X0 0

Y

(a) (b)

Y

.. . ....

.

....

. ..

...

...

. .. .

...

. . . . .

. .

.

. .

. .

.

.

.

.

. .

Y

X0

.

.

A teoria da correlação desenvolve medidas próprias e diretas somente para a

correlação linear. A correlação não-linear é estudada de forma indireta através de

transformações ou com uso de ajustamento de relações entre as variáveis. A seguir serão

desenvolvidas medidas de correlação linear.

1.4. Correlação linear simples

Na correlação linear simples procura-se medir o grau de relacionamento linear

entre duas variáveis. A medida usada é o “coeficiente de correlação”.

Coeficiente de correlação

A correlação se refere ao grau de relacionamento entre as variáveis. A medida

desse grau é feita pelo coeficiente de correlação.

Dadas duas variáveis (X e Y) definidas para uma amostra de tamanho n, o

coeficiente de correlação linear (rXY) é calculado com a seguinte fórmula:

. (2.1)

Propriedades do coeficiente de correlação

1. O coeficiente de correlação independe das unidades de medida das variáveis; é

um número adimensional que varia entre –1 e +1, isto é, -1 r + 1.

2. O coeficiente de correlação de uma variável e ela mesma é igual a +1.

3. A permutação das variáveis não altera o resultado do coeficiente de correlação,

isto é, rXY = rYX.

4. Somando-se ou subtraindo-se uma constante a uma ou a ambas as variáveis, o

coeficiente de correlação não se altera.

5. Multiplicando-se ou dividindo-se uma ou ambas as variáveis por uma constante,

o coeficiente de correlação não se altera.

Interpretação do coeficiente de correlação

Os valores possíveis do coeficiente de correlação limitados no intervalo –1 e

+1 apresentam os seguintes significados:

7

1. r = +1: correlação positiva perfeita. Existe uma relação linear perfeita entre as

variáveis cujos pares de valores se situam numa reta com inclinação positiva.

2. r próximo de +1: correlação positiva forte. A maioria dos pares de valores das

variáveis se situa próxima a uma reta com inclinação positiva.

3. r positivo e próximo de zero: correlação positiva fraca. Os pares de valores

formam uma nuvem de pontos com ligeira tendência de inclinação positiva.

4. r = 0: correlação nula. Os pares de valores formam uma nuvem de pontos sem

nenhuma tendência de inclinação positiva ou negativa. As variáveis tendem a variar

sem nenhuma relação uma com a outra.

5. r negativo e próximo de zero: correlação negativa fraca. Os pares de valores

formam uma nuvem de pontos com ligeira tendência de inclinação negativa.

6. r próximo de -1: correlação negativa forte. A maioria dos pares de valores das

variáveis se situa próxima a uma reta com inclinação negativa.

7. r = -1: correlação negativa perfeita. Existe uma relação linear perfeita entre as

variáveis cujos pares de valores se situam numa reta com inclinação negativa.

Normalmente, alerta-se para o fato de que um coeficiente de correlação igual a

zero indica ausência de correlação linear entre as variáveis. Pode ocorrer, no entanto,

que as variáveis sejam relacionadas, porém não linearmente.

O coeficiente de correlação linear simples sempre se refere a duas variáveis.

Num estudo com mais de duas variáveis podemos calcular o coeficiente para diferentes

pares de variáveis. Neste caso, os coeficientes de correlação são organizados em uma

tabela denominada matriz de correlação de tamanho definido pelo número de variáveis.

Para quatro variáveis, X, Y, Z e W, por exemplo, os possíveis coeficientes de correlação

das quatro variáveis tomadas duas a duas podem ser registrados como na Tabela 2.1.

Tabela 2.1 - Coeficientes de correlação linear simples entre as variáveis X, Y, Z e W

X Y Z W

X rXX rXY rXZ rXW

Y rYX rYY rYZ rYW

Z rZX rZY rZZ rZW

W rWX rWY rWZ rWW

8

Observando-se que o coeficiente de correlação de uma variável com ela mesma

é igual a + 1 e que a permutação das variáveis não altera o resultado do coeficiente, a

Tabela 2.1 pode ser simplificada como se apresenta na Tabela 2.2.

Tabela 2.2 - Coeficientes de correlação linear simples entre as variáveis X, Y, Z e W

X Y Z W

X 1Y rYX 1Z rZX rZY 1W rWX rWY rWZ 1

Na prática, o cálculo do coeficiente de correlação é feito a mão, com o auxílio

de uma calculadora, ou pelo computador. As planilhas eletrônicas e os programas

estatísticos calculam coeficientes de correlação como procedimentos rotineiros. Como

exemplo, apresentamos, a seguir, o cálculo do coeficiente de correlação entre duas

variáveis X e Y, com o detalhamento dos cálculos dos componentes da fórmula.

Exemplo 2.1

Calcular o coeficiente de correlação entre as variáveis X e Y registradas na

Tabela 2.3.

9

Tabela 2.3 - Cálculo do coeficiente de correlação entre as variáveis X e Y

OBS. Xi Yi XiYi

1 6.5 16 104 42.25 2562 5.5 13 71.5 30.25 1693 5.5 15 82.5 30.25 2254 5.5 14 77 30.25 1965 4.5 10 45 20.25 1006 2.5 8 20 6.25 647 3.5 14 49 12.25 1968 2.5 9 22.5 6.25 819 3.0 10 30 9.0 100

10 2.5 8 20 6.25 6411 4.5 13 58.5 20.25 16912 4.5 13 58.5 20.25 16913 5.5 13 71.5 30.25 16914 2.5 6 15 6.25 3615 3.5 11 38.5 12.25 121

SOMA 62 173 763.5 282.50 2115

Aplicando a fórmula 2.1, tem-se:

.

O coeficiente de correlação de 0,86 é relativamente alto, indicando correlação

positiva e forte entre as variáveis. O resultado indica, então, que existe forte associação

positiva entre as variáveis. Assim, pode-se dizer que, à medida que X aumenta, Y

também aumenta, e à medida que X diminui, Y também diminui. As variáveis tendem a

variar juntas e no mesmo sentido.

No exemplo 2.2 analisa-se a correlação entre quatro variáveis, cujo resultado é

apresentado em forma de matriz na Tabela 2.5.

Exemplo 2.2

Os dados da Tabela 2.4 referem-se ao preço da soja recebido pelos agricultores

(R$/t), preço do milho recebido pelos agricultores (R$/t), salário de tratorista (R$/mês)

e preço de fertilizante (índice). Todos os preços foram deflacionados pelo IGP/FGV,

10

base dezembro de 1999. O cálculo do coeficiente de correlação entre os pares de

variáveis encontra-se na Tabela 2.5.

Tabela 2.4 - Preço da soja (PRSO), preço do milho (PRMI), salário de tra-torista (SATO) e preço de fertilizante (PRFE) no Estado do Paraná, 1986-1999

ANO PRSO PRMI SATO PRFE

1986 577.89 364.43 358.22 74.641987 483.89 230.60 328.53 77.151988 366.60 183.59 224.20 142.221989 384.89 205.11 494.61 86.981990 268.89 204.42 280.32 110.001991 369.89 217.95 300.02 109.631992 289.26 175.73 332.03 116.641993 321.06 164.58 389.11 176.301994 278.24 146.37 315.54 180.681995 224.14 126.04 266.19 168.921996 285.64 156.00 265.14 160.551997 301.84 120.27 265.71 167.961998 250.47 134.70 272.06 173.831999 264.17 147.27 262.67 162.35

Fonte: FNP (2000).

Tabela 2.5 - Matriz de correlação entre preço da soja (PRSO), preço do mi-lho (PRMI), salário de tratorista (SATO) e preço de fertilizan-te (PRFE) no Estado do Paraná, 1986-1999

PRSO PRMI SATO PRFE

PRSO 1.000000PRMI 0.898984 1.000000SATO 0.404765 0.374035 1.000000PRFE -0.772708 -0.821557 -0.464695 1.000000

11

Verifica-se que o preço da soja e o preço do milho apresentam correlação alta e

positiva (rPRSO,PRMI = 0,899). O preço da soja e o salário de tratorista apresentam

correlação positiva moderada a fraca (rPRSO,SATO = 0,405). Já o preço da soja e o preço do

fertilizante apresentam correlação negativa e relativamente forte (rPRSO,PRFE = -0,773). O

preço do milho e o salário de tratorista também apresentam fraca correlação positiva

(rPRMI,SATO = 0,374). O milho também apresenta preços correlacionados negativamente

com o preço do fertilizante e com grau forte (rPRMI,PRFE = -0,822). Por fim, o salário de

tratorista e o preço do fertilizante apresentam correlação negativa e relativamente fraca

(rSATO,PRFE = -0,465).

Teste estatístico de r

A conclusão de que a correlação é forte ou fraca é de caráter dúbio. Não se

sabe qual valor pode ser considerado baixo para caracterizar uma correlação fraca entre

as variáveis e, da mesma forma, qual valor é alto para caracterizar uma correlação forte.

Um teste estatístico do coeficiente pode auxiliar na interpretação de seu valor.

Realizando um teste para verificar se o coeficiente é estatisticamente igual a zero,

podemos ter suporte para afirmar que valores baixos de r podem ser considerados

estatisticamente iguais a zero, ou que valores não muito altos de r podem ser

considerados estatisticamente diferentes de zero.

Para efetuar o teste estatístico é necessário conhecer a distribuição amostral de

r. Admitindo que X e Y são variáveis aleatórias com distribuição normal bivariada,

pode-se mostrar que a distribuição de r é uma distribuição de t. O teste para verificar se

o coeficiente é estatisticamente igual a zero, que significa ausência de associação linear

entre X e Y, consiste no cálculo de um valor de t dado por:

. (2.2)

isto é, a variável tcal segue uma distribuição t de Student com n-2 graus de liberdade.

Dessa forma, pode-se usar a distribuição de t para estabelecer a significância ou não-

significância estatística de r.

12

Exemplo 2.3 Suponha que, com base em uma amostra de 20 observações de preços e

quantidades vendidas, calculou-se r = 0,62. Deseja-se testar se essa estimativa é

estatisticamente igual a zero. Ou seja, pode-se inferir, em dado nível de significância,

que as variáveis não são relacionadas?

Calcula-se:

Figura 2.7 - Distribuição de “t” e regiões de rejeição de H0.

13

0,025 0,025

RA H0

0,95Região Crítica

RRH0Região Crítica

t = - 2,10t = - 2,10

Examinando a tabela de t para 18 graus de liberdade, verifica-se que t/2 = 2,10

para = 0,05. Graficamente, representa-se a distribuição de “t” com as regiões de

rejeição da hipótese nula como na Figura 2.7.

Cada área hachurada representa 2,5% de probabilidade. Estas áreas constituem

o que se denomina região de rejeição da hipótese nula. Quando a estatística de teste

calculada cai na área de rejeição, rejeita-se a hipótese estabelecida (hipótese nula); caso

contrário, aceita-se. No caso, como tcal = 3,35 > t/2 = 2,10, conclui-se que o coeficiente r

= 0,62 é estatisticamente diferente de zero e que as variáveis preço e quantidade vendida

são correlacionadas. Então, o teste estatístico dá suporte para interpretar o coeficiente r

= 0,62 como um grau de correlação relativamente forte.

Exemplo 2.4

Suponha que, com base em uma amostra de 20 observações de produção e

volume de crédito utilizado, calculou-se r = 0,32. Deseja-se testar se essa estimativa é

estatisticamente igual a zero. Ou seja, pode-se inferir, em nível de significância de 5%,

que as variáveis não são relacionadas?

Calcula-se:

.

Como tcal = 1,33 < t/2 = 2,10, conclui-se que o coeficiente r = 0,30 é

estatisticamente igual a zero e que as variáveis produção e volume de crédito utilizado

não são correlacionadas. Então, o teste estatístico dá suporte para interpretar o

coeficiente r = 0,30 como um grau de correlação fraco e praticamente nulo.

1.5. Correlação parcial

A correlação simples, vista anteriormente, mede o grau de associação entre

duas variáveis, desconsiderando a presença de outras variáveis, isto é, o coeficiente de

correlação linear simples pode ser visto como uma medida da correlação “total” ou

“bruta” entre duas variáveis.

Um estudo normalmente envolve mais de duas variáveis e pode ser de interesse

o conhecimento da correlação entre duas variáveis isolando o efeito das outras sobre

estas. Este seria o caso do cálculo da correlação parcial.

14

O coeficiente de correlação parcial mede o grau de associação entre duas

variáveis mantendo constante as outras variáveis.

Simbolicamente, supõe-se que existem três variáveis X1, X2 e X3. A correlação

parcial entre X1 e X2, por exemplo, mede a associação entre elas independentemente da

relação de X3 com X1 e de X3 com X2. Ou seja, controla-se o efeito de X3.

Exemplo 2.5

Considere a produção de leite e as variáveis: X1 = produtividade

(litros/vaca/dia), X2 = número de vacas em lactação e X3 = quantidade de concentrado

(kg/vaca/dia) e X4 = índice de carga genética. A correlação linear simples entre essas

variáveis mede o grau de relacionamento entre elas duas a duas, sem considerar a

presença das outras. Já a correlação parcial mede o grau de relacionamento entre duas

delas mantendo-se constante o nível das outras. Tanto a produtividade quanto a resposta

à quantidade de concentrado estão relacionadas com a carga genética. Uma medida da

correlação pura entre produtividade e uso de concentrado é obtida pela correlação

parcial em que a influência de X4 é isolada de ambas as variáveis. Ou seja, mantém-se

fixo o efeito de carga genética. De forma semelhante, pode-se medir a correlação parcial

entre produtividade e uso de concentrado mantendo-se constante o número de vacas em

lactação e a carga genética. Neste caso, são controlados os efeitos de duas variáveis.

Quando se estuda a correlação parcial há necessidade de definir a “ordem” da

correlação. Por ordem entende-se o número de variáveis controladas no cálculo da

correlação.

Como referência, o coeficiente de correlação simples é definido como

“coeficiente de correlação de ordem zero”. Se existem três variáveis, X1, X2 e X3, pode-

se definir três coeficientes de ordem zero:

r12 = coeficiente de correlação entre X1 e X2.



Escolhendo X3 como a variável de controle, define-se: r12.3 = coeficiente de

correlação entre X1 e X2 mantendo-se X3 constante. Similarmente, pode-se definir r13.2 e

r23.1, que são denominados “coeficientes de correlação de primeira ordem”.

A mesma idéia pode ser expandida para o caso em que estão envolvidas mais

de três variáveis. Assim, pode-se definir: r12.34 = coeficiente de correlação entre X1 e X2,

15

mantendo-se constante X3 e X4. Este é um coeficiente de correlação de “segunda

ordem”.

Coeficientes de correlação parcial de ordens superiores podem ser definidos

facilmente.

O cálculo dos coeficientes de correlação parcial é feito por meio de fórmulas

próprias. O coeficiente de correlação parcial de determinada ordem pode ser calculado

através dos coeficientes de ordem inferior. Para o caso de três variáveis, o coeficiente de

correlação de primeira ordem pode ser calculado em função dos coeficientes de

correlação simples, ou de ordem zero. Por exemplo, o coeficiente de correlação parcial

entre X1 e X2 mantendo-se constante X3 é dado por:

(2.3)

Esta fórmula pode ser generalizada para qualquer correlação parcial,

envolvendo três variáveis. Fazendo i, j, k = 1, 2, 3, tem-se:

(2.4)

Dessa forma, vê-se que o coeficiente de correlação parcial de determinada

ordem é calculado em função dos coeficientes de ordem imediatamente inferior.

Para o caso de mais de três variáveis, podemos calcular o coeficiente de

correlação parcial entre duas variáveis controlando para mais de uma variável.

Desejando-se, por exemplo, o coeficiente de correlação parcial entre X1 e X2 mantendo

constante X3 e X4, a fórmula seria dada por:

(2.5)

Para se calcular, então, r12.34, seria necessário calcular primeiro os coeficientes

de ordem zero, tipo r12, r23, etc., depois os de primeira ordem, tipo r12.3, r23.4, etc.

16

O coeficiente de correlação parcial também varia de -1 a +1 e apresenta

interpretação semelhante ao coeficiente de correlação simples, desde que ressaltado o

aspecto da variável ou das variáveis de controle.

Exemplo 2.6

Considere uma amostra de 10 crianças cujos dados referentes a peso (kg),

altura (cm) e idade (anos) são apresentados na tabela a seguir.

Peso (X1) 30 32 24 30 26 35 25 23 35 31

Altura (X2) 145 150 125 157 127 140 132 107 155 145

Idade (X3) 7 10 7 11 8 10 10 6 12 9

A aplicação da fórmula 2.1 fornece os seguintes resultados para os coeficientes

de correlação simples ou de ordem zero: r12 = 0,81, r13 = 0,70 e r23 = 0,78. Com base

nesses resultados, podemos calcular os coeficientes de correlação parcial de primeira

ordem aplicando a fórmula 2.3. Obtém-se: r12.3 = 0,58, r13.2 = 0,19 e r23.1 = 0,51. Observa-

se que, duas a duas, as variáveis peso, altura e idade apresentam correlações altas, acima

de 0,70. Quando se controla o efeito de uma das variáveis, a correlação diminui.

Verifica-se que o coeficiente de correlação linear simples entre peso e altura é r12 = 0,81

enquanto o coeficiente de correlação linear parcial entre peso e altura para crianças com

a mesma idade é r12.3 = 0,58. Este valor representa o coeficiente de correlação linear

entre peso e altura retirando-se o efeito de idade sobre peso e sobre altura. De forma

semelhante, tem-se que o coeficiente de correlação linear simples entre peso e idade é

r13 = 0,70, enquanto o coeficiente de correlação linear parcial entre peso e idade para

crianças com a mesma altura cai para r13.2= 0,19, significando que existe fraca relação

entre peso e idade para crianças de mesma altura. Por fim, o coeficiente de correlação

linear simples entre altura e idade é r13 = 0,78, enquanto o coeficiente de correlação

linear parcial entre altura e idade para crianças com o mesmo peso é r 23.1 = 0,51,

significando que existe relação não muito forte entre peso e idade para crianças de

mesma altura.

O teste de significância do coeficiente de correlação parcial é feito da mesma

maneira que o do coeficiente de correlação simples.

17

1.6. Correlação múltipla

À medida que se aprofunda na análise de correlação, distanciando da

correlação simples, torna-se necessário usar conceitos da análise de regressão ou, mais

especificamente, torna-se necessário usar o conceito de uma relação funcional linear

entre as variáveis.

A correlação múltipla envolve no mínimo três variáveis. Um relacionamento

forte entre estas variáveis tomadas em conjunto pode ser entendido como um

ajustamento bom de um plano em três dimensões.

No caso de três variáveis X1, X2 e X3, por exemplo, pode-se estabelecer a

relação

X1 = a + bX2 + cX3 + e (2.6)

em que a, b e c são parâmetros da relação e e é um erro aleatório. Se esta relação

apresentar bom ajustamento aos dados, conclui-se que as variáveis têm alto grau de

correlação múltipla. Qualquer uma das variáveis poderá ser escolhida como variável

dependente. Todas são supostas aleatórias e a relação causal implícita pela relação não é

relevante. O objetivo não é explicar o comportamento de X1, na relação anterior, mas

apenas verificar o grau de associação linear entre as três variáveis. Para um número

maior de variáveis o raciocínio é semelhante.

Considerando três variáveis, o coeficiente de correlação múltipla pode ser

calculado pela seguinte fórmula:

(2.7)

O valor de R1.23 varia de 0 a 1 e indica o grau da associação linear entre X 1, X2

e X3 quando X1 é tomada como dependente. Este coeficiente pode ser visto, também,

como um indicador do grau de relacionamento entre X2 e X3, tomadas como um grupo,

e X1.

O coeficiente de correlação múltipla pode ser calculado também como a raiz

quadrada do coeficiente de determinação (R2) do modelo de regressão 2.6.

1.7. Correlação por posto ou correlação ordinal

18

A análise de correlação pode ser aplicada também a variáveis de natureza

qualitativa quando se pode dispor os valores em ordem de importância, de preferência,

de ocorrência, ou qualquer outro critério de julgamento. Os valores das variáveis serão

dados, neste caso, pelos números 1, 2, 3, ..., n, os quais indicam ordem, posição ou

posto ocupado por cada um desses valores em relação aos demais.

A medida de correlação, nesse caso, indica o grau de relacionamento entre as

ordenações das variáveis, e, por isso, é denominada correlação por postos ou correlação

ordinal.

A correlação por posto se aplica principalmente às situações em que as

variáveis são por natureza qualitativas, como preferência por diferentes tipos de

produtos, julgamento de concurso, classificação em provas esportivas etc. Contudo,

pode-se fazer a análise de correlação por posto também com variáveis quantitativas,

desde que transformadas em escala ordinal. O objetivo do cálculo de um coeficiente de

correlação, nesses casos, é determinar se as variáveis tendem a apresentar associação

entre suas ordenações.

Em princípio, qualquer variável quantitativa pode ser convertida em escala

ordinal ou postos. O contrário não é, normalmente, possível, a menos que seja associada

à ordem uma escala numérica qualquer.

O objetivo da correlação por posto é fornecer uma medida que indique o grau

de concordância entre os dois conjuntos de ordens de preferência.

Coeficiente de correlação de Spearman

O método desenvolvido por Spearman calcula o coeficiente de correlação por

posto pela seguinte fórmula:

(2.8)

em que d = diferença entre os postos de pares de valores correspondentes; e n = número

de observações.

O coeficiente rs assume valores compreendidos no intervalo [-1, +1], isto

é,

- 1 rs 1

19

e deve ser interpretado da mesma forma que o coeficiente de correlação simples.

Quando rs é próximo de +1, há alto grau de concordância entre as ordenações. Quando rs

se aproxima de -1, há alto grau de discordância entre as classificações. E, quando rs é

próximo de zero, não existe associação relevante entre os conjuntos de ordenações.

A significância estatística do coeficiente de Spearman pode ser testada

observando que a distribuição de rs pode ser aproximada por uma distribuição normal,

com média zero e desvio-padrão , isto é: rs N .

Calcula-se a estatística de teste

(2.9)

que deve ser comparada com valores tabulares da distribuição normal padronizada. Para

um nível de significância = 5%, o valor da tabela e 1,96 e a hipótese nula deve ser

aceita se -1,96 Z +1,96. Este teste é considerado aceitável quando n > 10.

Exemplo 2.7

Como exemplo de variáveis ordinais, considere a preferência dos eleitores por

candidatos à Presidência da República. Considere dois grupos de eleitores: homens e

mulheres. Ambos os grupos possuem características socioeconômicas semelhantes.

Suponha a existência de 10 candidatos, designados por A, B, C, D, ..., J. Usando

qualquer processo, os dois grupos classificam os candidatos em ordem de preferência

dando a cada candidato um número de 1 a 10, referente à ordem de preferência.

Considere os resultados da Tabela 2.6.

Tabela 2.6 - Ordem de preferência de eleitores homens e mulheres para diferentes candidatos

20

Candidato Homens Mulheres d d2

A 8 9 -1 1B 3 5 -2 4C 9 10 -1 1D 2 1 1 1E 7 8 -1 1F 10 7 3 9G 4 3 1 1H 6 4 2 4I 1 2 -1 1J 5 6 -1 1

O coeficiente de correlação ordinal é dado por:

(2.10)

rs = 0,855

Este valor indica que há correlação ordinal alta, ou seja, há boa concordância

entre as preferências dos homens e das mulheres pelos candidatos.

Para testar a significância estatística de rs = 0,885, calcula-se:

Z = 0,855 = 0,855 3

Z = 2,565.

Como Z = 2,565 > 1,96 rejeita-se a hipótese nula de que o coeficiente é

estatisticamente igual a zero.

1) Considere as seguintes variáveis:

X1 = Exportações do Estado de São Paulo para outros estados;

X2 = Renda dos estados importadores;

21

X3 = Distância entre a cidade de São Paulo e as demais capitais.

Com base em uma amostra de dados, obteve-se a seguinte matriz

de correlação:

X1 (exportações) X2 (renda) X3 (distância)

X1 (Exportações) 1 0,74 -0,55X2 (Renda) 0,74 1 -0,67X3 (Distância) -0.55 -0,67 1

Interprete os resultados obtidos.

2) Com base nos dados do exercício anterior, calculou-se o coeficiente de correlação

parcial entre exportações e renda, isolando-se a influência da distância. Obteve-se r12.3 =

0,69. Interpretar esta estimativa.

22

Análise de correlação

Economy & Finance