Top Banner
1 Aula 03 Estatística, Correlação e Regressão BIS0005-15 Bases Computacionais da Ciência Prof. Rodrigo de Alencar Hausen [email protected] Prof. Rodrigo de Alencar Hausen [email protected] http://bcc.compscinet.org
46

Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

Nov 11, 2018

Download

Documents

doannhan
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

1

Aula 03 Estatística, Correlação e Regressão

BIS0005-15Bases Computacionais da Ciência

Prof. Rodrigo de Alencar [email protected]. Rodrigo de Alencar [email protected]

http://bcc.compscinet.org

Page 2: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

2

Medidas de tendência central:Média, mediana, moda.

Page 3: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

3

Medidas de tendência central

⚫ Média: valor esperado de uma variável (também chamada esperança ou expectância)

⚫ Mediana: valor intermediário quando listado em ordem (se número de amostras é par, então média aritmética dos dois valores intermediários)

⚫ Moda ou modo: valor que mais ocorre (pode ser mais de um)

Exemplo 1: Abaixo temos as alturas das jogadoras de um time de futebol. Use o LibreOffice para calcular as três medidas acima:

1,60 1,52 1,66 1,68 1,69 1,66 1,64 1,48 1,61 1,66 1,62

Page 4: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

4

Medidas de tendência central

No LibreOffice em português:

⚫ Média: MÉDIA(...)

⚫ Mediana: MED(...)

⚫ Moda: MODO(...)

Obs.: → se não há números repetidos, MODO retorna erro (#VALOR! ou #N/A!) → se há mais de uma moda, MODO retorna apenas a menor delas

Page 5: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

5

Medidas de variabilidade:Variância, desvio padrão.

Page 6: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

6

Medidas de variabilidade

Para valores que se distribuem em torno da média, duas medidas indicam o quão concentrados esses valores estão em relação à média (menores = valores mais próx. média)

⚫ Variância (de população): VAR.P(...) O valor esperado entre o quadrado do desvio de cada valor e a média.

⚫ Desvio padrão: DESVPAD(...) Raiz quadrada da variância. Vantagem: está na mesma unidade da variável sendo analisada.

Ex: se X é medida em m (metros), a unidade de var.p(X) é m², mas desvpad(X) está em m, assim como X.

Page 7: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

7

Medidas de variabilidade

Outras medidas de variabilidade úteis:

⚫ MÍNIMO(...) : menor valor de uma variável

⚫ MÁXIMO(...) : maior valor

Volte ao exemplo 1 e calcule variância, desvio padrão, mínimo e máximo da altura.

Page 8: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

8

Visualizando a distribuição de valores:Histogramas.

Page 9: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

9

Histograma

⚫ Diagrama que mostra a distribuição de valores de uma variável

Faixa de valores da variável dividida em classes.

Qtde. de vezes que um valor da faixa aparece

Page 10: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

10

Histograma

Voltando ao exemplo 1, vamos construir o histograma

1. Em algum lugar da planilha, coloque numa coluna os nomes das classes e na coluna adjacente os seus limites superio- res. Selecione a célula à direita do primeiro limite superior.

2. Inserir → Função → Matriciais → FREQUÊNCIA Clique no botão “Próximo >>”

3. Clique na caixa de texto ao lado de “Dados” e selecione as alturas

4. Clique na caixa de texto ao lado de “Classes”, selecione os limites superiores das classes e clique OK

5. Selecione a coluna com os nomes das classes a a coluna com as frequências (use Ctrl) e insira um gráfico de colunas

Page 11: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

11

Variáveis dependentes

Page 12: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

12

Variáveis dependentes

Até agora, analisamos indepententemente apenas 1 variável.

É comum analisar mais de uma variável para tentar identificar uma relação de dependência entre elas:

A análise visual de tais dependências é feita por meio de gráficos de dispersão.

Variável Independente Variável Depentente

Horas de treinamento Número de acidentes

Número do sapato Altura da pessoa

Cigarros por dia Capacidade pulmonar

Faltas de um aluno Nota do aluno no curso

Peso da pessoa QI

Page 13: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

13

Gráfico de dispersão(scatter plot)

Page 14: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

14

Gráfico de dispersão

Índice de sucesso financeiro

Razão indicador/anular independente:

contínua

dependente:contínua Pontos de dados

Linha de tendência:opcional

John M. Coates, Mark Gurnell, and Aldo RustichiniSecond-to-fourth digit ratio predicts success among high-frequency financial tradersPNAS 2009 106:623-628; published online before print January 12, 2009, doi:10.1073/pnas.0810907106

Page 15: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

15

Gráfico de dispersão

Exemplo 2:Análise da dependência entre o número de faltas de alunos num semestre e suas respectivas notas finais em uma determinada disciplina.

⚫ Copie os dados do exemplo 2 para uma planilha

⚫ Construa o gráfico de dispersão: 1. Selecione as colunas “faltas” e “nota” (com cabeçalhos) 2. Inserir → Gráfico ou Inserir → Objeto → Gráfico 3. Escolha o tipo “XY (Dispersão)” 4. Em elementos do gráfico, coloque título, nomes dos eixos e desmarque “exibir legenda” 5. (opcional) Clique sobre o eixo Y e ajuste o seu intervalo

⚫ Interprete o gráfico

Page 16: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

16

Gráfico de dispersão

Page 17: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

17

Correlação e regressão

Page 18: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

18

Correlação e regressão

As técnicas de correlação e regressão analisam dados amostrais, procurando determinar como duas (ou mais) variáveis estão relacionadas umas com as outras.

Variável Independente Variável Depentente

Horas de treinamento Número de acidentes

Número do sapato Altura da pessoa

Cigarros por dia Capacidade pulmonar

Faltas de um aluno Nota do aluno no curso

Peso da pessoa QI

Page 19: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

19

Correlação e regressão

A análise de correlação tem como resultado um número que expressa o grau de relacionamento entre duas variáveis.

A análise de regressão expressa o resultado em uma equação matemática, descrevendo o relacionamento.

Ambas análises geralmente são utilizadas em pesquisas exploratórias.

Page 20: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

20

Correlação

Variável independente

Var

iáve

l dep

ende

nte

A análise gráfica do comportamento entre as variáveis mostra a existência de correlação negativa, pois à medida que X cresce, Y decresce

O gráfico mostra que a empresa, ao investir em treinamento, reduz o número de acidentes na fábrica

Page 21: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

21

Correlação

A análise gráfica do comportamento entre as variáveis mostra a existência de correlação positiva, pois à medida que X cresce, Y também cresce.

O gráfico mostra que, com o aumento médio da renda da população, o consumo de bens duráveis aumenta.

Page 22: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

22

Correlação

Page 23: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

23

Correlação

Não há correlação linear, o gráfico mostra que não existe evidência de alguma relação entre o peso de uma pessoa com seu Q.I.

Page 24: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

24

Exemplos

Page 25: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

25

Correlação: tipos

Podemos ter dois tipos de correlação entre as variáveis:

Correlação linear: a relação entre as duas variáveis é expressa adequadamente por uma reta.

Correlação não-linear: apesar de existir uma relação clara entre as variáveis, esta não pode ser modelada por uma reta.

Page 26: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

26

Determinando correlações

Interpretando correlação entre duas variáveis.

● Subjetivamente: visualmente, pelo gráfico

● Objetivamente: usando uma medida de correlação→ Coeficiente de correlação

Page 27: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

27

Coeficiente de correlação(de Pearson)

Page 28: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

28

Coeficiente de correlação

O intervalo de variação do coeficiente de correlação r ou coeficiente de correlação de Pearson está entre -1 e 1.

Valor de r próximo de 1: as variáveis X e Y têm forte correlação linear positiva

Valor de r próximo de -1: as variáveis X e Y têm forte

correlação linear negativa

Valor de r próximo de zero: se não existir, ou se existir pouca correlação

linear entre as variáveis X e Y

Page 29: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

29

Coeficiente de correlação

r (X ,Y )=cov (X ,Y )

√var (X )var (Y )

Onde:● var(X) : variância de X = valor esperado de [X – média(X)]²

● cov(X,Y) : covariância entre X e Y = valor esperado de [X – média(X)] [Y – média(Y)]

Note que r(X,X) é sempre 1 (uma variável é semprediretamente correlacionada com ela mesma)

Page 30: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

30

Coeficiente de correlação

Continuação exemplo 2:Análise da correlação entre o número de faltas de alunos num semestre e suas respectivas notas finais em uma determinada disciplina.

⚫ Use a função CORREL ou PEARSON para obter o coeficiente de correlação.

Page 31: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

31

Coeficiente de correlação

Page 32: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

32

Coeficiente de correlação

Page 33: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

33

Coeficiente de correlação

Page 34: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

34

Coeficiente de correlação

Page 35: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

35

Coeficiente de correlação

r = -0,975 (forte correlação linear negativa)

Page 36: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

36

Coeficiente de correlação

Page 37: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

37

Coeficiente de correlação

Page 38: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

38

Interpretando o coeficiente r

O significado dado a um valor de r depende de cada contexto em particular.

Na falta de contexto ou melhores informações, podemos usar um guia simples:

Valor absoluto de r Interpretação da correlação

0 a 0,199... bem fraca

0,20 a 0,399... fraca

0,40 a 0,699... moderada

0,70 a 0,899... forte

0,90 e acima muito forte

Fonte: http://leg.ufpr.br/~silvia/CE003/node74.html

Page 39: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

39

Coeficiente de correlação

Atenção:

⚫ O coeficiente de correlação de Pearson só funciona para variáveis cuja correlação é linear (ou próxima disso)

⚫ Para outros tipos de correlação (quadrática, exponencial, logarítmica, etc.) é necessário transformar uma das variáveis.

⚫ Correlação, por si só, não implica causa! http://tylervigen.com/page

Page 40: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

40

Coeficiente de determinação

Page 41: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

41

Coeficiente de determinação

⚫ Coeficiente de determinação = r² (= quadrado do coeficiente r) r² está sempre no intervalo [0,1]

⚫ Medida da proporção da variabilidade em uma variável em relação à outra.

⚫ No exemplo anterior: r² = –0,975, logo r² = 0,95 Ou seja, 95% da variação nas notas é devida ao número de faltas.

⚫ Na prática, raramente teremos uma determinação perfeita r²=1 pois existem inúmeros fatores que influenciam as relações entre variáveis na vida real.

Page 42: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

42

Regressão

Page 43: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

43

Regressão

Encontrada uma correlação significante entre duas variáveis, geralmente é necessário prever de que forma uma alteração na variável independente se reflete em alteração na variável dependente.

1. De acordo com a correlação, escolha uma curva: reta, parábola, exponencial, etc.

2. Trace a curva que melhor aproxima os pontos dados

3. Determine a equação dessa curva

O LibreOffice faz isso automaticamente.

Page 44: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

44

Regressão no LibreOffice

1. Clique duas vezes sobre o gráfico para permitir edição

2. Clique sobre um dos pontos do gráfico de dispersão e escolha “inserir linha de tendência...”

3. Escolha o tipo e marque “mostrar equação”

f(x) = – 0,39 + 10,57

Page 45: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

45

Mais exercícios para a aula

Vamos fazer as atividades 2 e 3 do livro de bases.(pp. 100 a 106)

Page 46: Aula 03 Estatística, Correlação e Regressãocompscinet.org/hausen/courses/2016/q3/bcc/aulas/03estatistica/BCC... · dos dois valores intermediários) ... da população, o consumo

46

Para casa

Estudar os capítulos 2 e 3 e fazer os exercícios desses capítulos.

Ler o capítulo 4 para a próxima aula

Para entregar no Tidia: Atividade 03

Faça os exercícios 3 e 4 do capítulo 3(págs. 108 e 109 do livro de Bases Computacionais)e entregue um mini-relatório em PDF com duas seções, cada uma versando sobre a solução de um dos exercícios. Explique bem a sua solução!