1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho
1
Estatística 4.1
Dirceu da Silva
Jomar Barros Filho
2
DETERMINAÇÃO DA FORÇA DA RELAÇÃO ENTRE DUAS VARIÁVEIS
Idéia básica em análise de dados estatísticos nas Ciências Humanas, Sociais e da Saúde é a busca de relações entre duas variáveis de uma mesma população.
O procedimento mais usado é a correlação expressa por um coeficiente. Este, é zero quando duas variáveis são absolutamente independentes entre si, ou seja, não existe nenhuma relação entre elas.
Pode assumir um valor máximo de + 1,00, quando a associação for positiva e o mais “forte” possível.Pode, também assumir um valor máximo de -1,00, quando a associação for negativa e o menos forte possível.
3
Como exemplo, podemos citar a correlação fortemente positiva da relação entre idade e estatura de uma criança; quanto maior a idade maior a estatura.
Um exemplo de forte correlação negativa é a relação entre a temperatura e o consumo de cobertores; quando maior a temperatura, menor o consumo de cobertores.
Um exemplo da inexistência de correlação é a relação entre o número do calçado de um adulto e o seu nível intelectual.
Ou ainda, a paixão pelo Timão em função do número de vitórias ou derrotas!
4
EXEMPLO: Taxas de analfabetismo (X) e de crescimento demográfico (Y) em 20 países (dados UNESCO/1991).
Países Taxa de analfabetismo (%)
(X)
Taxa de cresc. demográfico (%) (Y)
A 15,0 1,5 B 10,0 1,7 C 25,0 3,2 D 30,0 2,8 E 32,0 2,6 F 16,0 1,7 G 15,0 1,9 H 6,5 1,1 I 5,0 1,0 J 20,0 1,2 L 22,0 1,6 M 30,0 2,3 N 35,0 2,1 O 16,0 1,3 P 5,0 0,7 Q 15,0 1,2 R 25,0 2,2 S 21,0 2,0 T 23,0 2,0 U 16,0 1,9
5
Gráfico 21: Comparação entre as taxas de analfabetismo e crescimento populacional em 20
países
0
0,5
1
1,5
2
2,5
3
3,5
0 10 20 30 40
TAXA DE ANALFABETISMO (%)
TA
XA
DE
CR
ESC
IMEN
TO
D
EMO
GR
ÁFI
CO
(%
)
6
Análise estatística mais usada, para obtenção da correlação entre variáveis é o coeficiente de (Karl) PEARSON (r), para dados paramétricos.
No Microsoft Excel: =PEARSON($A$2:$A$21;$B$2:$B$21)
])y(yN][)x(xN[
)x)(y(xyNr
2222
7
No SPSS:
8
9
Correlations
1,000 ,786**
, ,000
147293,750 8345,000
7752,303 439,211
20 20
,786** 1,000
,000 ,
8345,000 766,000
439,211 40,316
20 20
Pearson Correlation
Sig. (2-tailed)
Sum of Squares andCross-products
Covariance
N
Pearson Correlation
Sig. (2-tailed)
Sum of Squares andCross-products
Covariance
N
VAR00001
VAR00002
VAR00001 VAR00002
Correlation is significant at the 0.01 level (2-tailed).**.
10
valores dos coeficientes calculados (Q)
descrição
+ 1,00 Correlação positiva perfeita + 0,70 a 0,99 Correlação positiva muito forte + 0,50 a 0,69 Correlação positiva substancial + 0,30 a 0,49 Correlação positiva moderada + 0,10 a 0,29 Correlação positiva baixa + 0,01 a 0,09 Correlação positiva ínfima 0,00 Nenhuma Correlação - 0,01 a 0,09 Correlação negativa ínfima - 0,10 a 0,29 Correlação negativa baixa - 0,30 a 0,49 Correlação negativa moderada - 0,50 a 0,69 Correlação negativa substancial - 0,70 a 0,99 Correlação negativa muito forte - 1,00 Correlação negativa perfeita
11
Para dados não-paramétricos (ordinais)
recomenda-se usar o coeficiente de correlação de Spearman ().
NN
)yx(61
3
N
1i
2
Idem para o de Kendall
NN21S
3
12
Para dados não-paramétricos (nominais)recomenda-se usar o coeficiente de correlação de Contingência(C).
Ou, V de Cramér
2
2
N
C
1
2
kNV
13
Correlations
1,000 ,681**
, ,000
20 20
,681** 1,000
,000 ,
20 20
1,000 ,850**
, ,000
20 20
,850** 1,000
,000 ,
20 20
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
VAR00001
VAR00002
VAR00001
VAR00002
Kendall's tau_b
Spearman's rho
VAR00001 VAR00002
Correlation is significant at the .01 level (2-tailed).**.
14
O nível de significância (ou p-value) é a probabilidade de obter-se resultados fora da região de possibilidades de conclusão.
Se o p-value é pequeno (<0,50) a correlação é significativa e as duas variáveis são linearmente dependentes ou relacionadas e vice-versa.
Como detalhe pode-se usar os coeficientes de correlação de Spearman e Kendall para dados intervalares ou métricos, sabendo-se que as suas eficiências são de aproximadamente 91% do coeficiente de Pearson.
15
Pelos três testes obteve-se:
r = 0,786
= 0,850
= 0,681
Nota-se que a correlação é positiva muito forte.
Como interpretar os resultados?
16
REGRESSÃO LINEAR: Muitas pesquisas necessitam fazer previsões específicas. O procedimento mais usado é a análise de regressão estimar valores não conhecidos de uma variável, a partir de uma série de valores conhecidos. dada uma série de pontos (x,y), procura-se descobrir a equação.
bmxy
b
y
x
tgm
17
Exemplo:
Um pesquisador está querendo analisar a relação que existe entre o investimento em equipamentos informatizados e o desempenho escolar de alunos. Tomado um período de 10 meses
O objetivo é ter uma equação matemática que permita fazer projeções e estimativas de qualidade do ensino a partir do investimento novos equipamentos .
Variável dependente = quantidade de alunos aprovados(y)
Variável independente = investimento em equipamentos (x)
18
Y X (em mil
reais) 430 30 335 21 520 35 490 42 470 37 210 20 195 8 270 17 400 35 480 25
19
Analisando os dados da tabela 1, deve-se manter os investimento em novos equipamentos?
20
Grafico 1: Investimento equipamentos X alunos aprovados
0
5
10
15
20
25
30
35
40
45
0 100 200 300 400 500 600
n° alunos aprovados
Inve
stim
ento
em
nov
os
equi
pam
ento
s (x
100
0 re
ais)
21
Teste de Pearson = 0,859Correlação positiva muito forte Vê-se através do gráfico que há uma dependência entre o crescimento do número de alunos aprovados e o investimento em novos equipamentos.
Para obtermos a RETA DE REGRESSÃO:
USANDO O EXCEL: Há três funções (de biblioteca) no excel para o cálculo da regressão linear:
22
Interceptação: calcula o coeficiente b
=INTERCEPÇÃO(A2:A11;B2:B11)
inclinação: calcula o coeficiente m
=INCLINAÇÃO(A2:A11;B2:B11)
previsão: calculo de um valor de X que você queira:
=PREVISÃO(20;A2:A11;B2:B11)
23
INTERCEPTAÇÃO b = 117,0702INCLINAÇÃO m = 9,7381
PREVISÃO X = 20 y = 311,8330PREVISÃO X = 30 y = 406,6744PREVISÃO X = 45 y = 551,5763
ERRO PADRÃO DE ESTIMATIVA: 65,1734TESTE DE PEARSON r = 0,8594 COEFICIENTE DE DETERMINAÇÃO r2 = 0,7385
Pode-se usar também a ferramenta [ferramentas] [análise de dados] [regressão] do excel para a obtenção da ANOVA
24
Grafico 1: Investimento em novos equipamentos X Alunos aprovados
y = 0,0758x - 1,818
R2 = 0,7385
0
5
10
15
20
25
30
35
40
45
0 100 200 300 400 500 600
n° Alunos aprovados
Inve
stim
ento
em
nov
os
equi
pam
ento
s (x
100
0 re
ais)
25
há dois parâmetros que podem ajudar a analisar os dados obtidos:
ERRO PADRÃO DA ESTIMATIVA: calcula o maior erro padrão da estimativa, para a faixa de 95% da amostra (dois graus de liberdade) Mede a variabilidade em torno da linha ajustada de regressão (em unidades da variável dependente Y)
COEFICIENTE DE DETERMINAÇÃO r2 (mede o modo de associação de duas variáveis) parcela de y que é explicada por x!
26
NO EXEMPLO O VALOR de r2 é 0,7385.
Isto significa que 73,85% das variações dos de alunos aprovados (y) são “explicadas” pelo investimento em Novos equipamentos, ficando 26,15% sem explicação.
27
Ainda resta saber se a correlação positiva forte é devida aos dois parâmetros X e Y ou se a diminuição de problemas estão relacionadas com outros parâmetros (não considerados aqui).
Aplicando o Teste completo de Fisher (F) ou teste de hipótese F
testa a hipótese de que nenhum dos coeficientes de regressão tenha significado.
28
F
r
kr
n k
2
21
1
onde:
k = graus de liberdade (gl) (95% 2 graus de liberdade)
n = Nº. de elementos da amostra
r2 coeficiente de determinação
F
0 7385
2 11 0 7385
10 2
22 59
,
,,Então:
29
Valor crítico de F (caudas inferior e superior da distribuição):
significância de 0,01,
para k=2 k-1= 2-1 = 1 no numerador e
n-K = 10-2 = 8 no denominador
Usando o Excel:
=INVF (0,01;1;8) Fcrit. = 11,258 (< 22,59)
Portanto: é menor que o valor de F A regressão deve ser aceita!