Page 1
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Estatística para Cursos de Estatística para Cursos de Engenharia e InformáticaEngenharia e Informática
Cap. 3 Cap. 3 –– Análise exploratória de Análise exploratória de dadosdados
Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar BorniaSão Paulo: Atlas, 2004
APOIO:Fundação de Apoio à Pesquisa Científica e Tecnológica do Estado de Santa Catarina (FAPESC)Departamento de Informática e Estatística – UFSC (INE/CTC/UFSC)
Page 2
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Dados e variáveisDados e variáveis
Page 3
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Dados e variáveisDados e variáveis
Page 4
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Dados e variáveisDados e variáveis
variávelqualitativa ou
categórica
quantitativa
dados qualitativos ou categorizados
dados quantitativos
Page 5
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüênciasDistribuição de freqüências
• A distribuição de freqüências consiste na
organização dos dados de acordo com as
ocorrências dos diferentes resultados observados.
• Pode ser apresentada em tabela ou gráfico.
Page 6
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
DadosDadosProvedor usado por cada usuárioProvedor usado por cada usuário
AABCBDBBBC
31323334353637383940
BAABAABDDC
21222324252627282930
CABDABBCDB
11121314151617181920
CABBCBDBBA
12345678910
provedorindivíduoprovedorindivíduoprovedorindivíduoprovedorindivíduo
Page 7
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüências para variáveis qualitativasDistribuição de freqüências para variáveis qualitativas
100,040Total 15,06D17,57C42,517B25,010A
PercentagemFreqüênciaProvedor
Tabela. Distribuição de freqüências do provedor usado pelo visitante do site.
Page 8
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Gráfico de colunas para a apresentação da distribuição de freqüências do provedor usado pelo visitante do site.
0%
10%
20%
30%
40%
50%
A B C D
provedor
Distribuição de freqüências para variáveis qualitativasDistribuição de freqüências para variáveis qualitativas
Page 9
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüências para variáveis qualitativasDistribuição de freqüências para variáveis qualitativas
Gráfico de setores para a apresentação da distribuição de freqüências do provedor usado pelo visitante do site.
25%
42%
18%
15%
A
B
C
D
Page 10
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüências para variáveis Distribuição de freqüências para variáveis quantitativas discretasquantitativas discretas
0
2
4
6
8
10
12
14
16
0 1 2 3 4 5 6 7
Número de defeitos
% de itens
Page 11
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Variáveis contínuasVariáveis contínuasConstrução da distribuição de freqüênciasConstrução da distribuição de freqüências
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,15,5 6,2 4,9 5,7 6,3 5,1 8,4 6,28,9 7,3 5,4 4,8 5,6 6,8 5,0 6,78,2 7,1 4,9 5,0 8,2 9,9 5,4 5,65,7 6,2 4,9 5,1 6,0 4,7 14,1 5,34,9 5,0 5,7 6,3 6,0 6,8 7,3 6,96,5 5,9
amplitude dos dados
11 classes de amplitude unitária
4 5 6 7 8 9 10 11 12 13 14 15
4,7 14,1
Page 12
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Tabela de freqüências: variável contínuaTabela de freqüências: variável contínua
-10050-Total
14507684949898989898100
143626810400002
7181345200001
4,55,56,57,58,59,510,511,512,513,514,5
4 |— 55 |— 66 |— 77 |— 88 |— 99 |— 10
10 |— 1111 |— 1212 |— 1313 |— 1414 |— 15
Percentagem acumulada100Fj
Percentagem de observações
100fj
Número de observações
nj
Pontomédio
Classes detempo
Page 13
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
HistogramaHistograma
tempo (em segundos) para carga de um aplicativo
núm
ero
de o
bser
vaçõ
es
0
2
4
6
8
10
12
14
16
18
20
3 4 5 6 7 8 9 10 11 12 13 14 15
Page 14
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Formas de uma distribuição de freqüênciasFormas de uma distribuição de freqüências
• Distribuições diferentes em termos da posição central
Page 15
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Formas de uma distribuição de freqüênciasFormas de uma distribuição de freqüências
• Distribuições diferentes quanto à dispersão
Page 16
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Formas de uma distribuição de freqüênciasFormas de uma distribuição de freqüências
• Distribuições diferentes quanto à assimetria
Page 17
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Formas de uma distribuição de freqüênciasFormas de uma distribuição de freqüências
• Distribuições diferentes quanto à curtose
Page 18
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Medidas descritivasMedidas descritivas• A média aritmética: uma medida de posição
central.
∑=
=+++
=n
ii
n xnn
xxxx
1
21 1...
Page 19
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
ExemploExemplo
36,0 31,3 36,632,5 39,2 35,9
37,0 34,4 29,833,9 43,2 35,5
40,2 33,6 33,435,2 38,1 33,0
80
34,8 36,8 37,438,9 38,7 42,5
35,7 40,4 41,736,9 34,5 40,0
36,6 35,7 35,335,1 30,2 37,2
70
32,9 32,7 34,834,9 33,8 34,9
31,0 30,6 32,831,9 31,2 31,2
29,7 28,7 30,231,3 31,2 31,7
60
302520Temperatura (0C)
Tempo (minutos)
Page 20
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
ExemploExemplo
35,335,635,680
38,238,235,070
34,031,430,560
302520tura (0C)
Tempo (minutos)Tempera-
Médias aritméticas do rendimento, para diferentes níveis detemperatura e tempo de reação, num processo químico.
Page 21
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
ExemploExemploRendimento médio em função
do tempo e temperatura
60 graus 70 graus 80 graus20 25 30
Tempo (minutos)
29
30
31
32
33
34
35
36
37
38
39
Ren
dim
ento
(%)
Page 22
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplo: notas dos alunos de três turmasExemplo: notas dos alunos de três turmas
6,006,006,00
4 5 5 6 6 7 7 81 2 4 6 6 9 10 100 6 7 7 7 7,5 7,5
ABC
Média da turmaNotas dos alunosTurma
Page 23
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplo: notas dos alunos de três turmasExemplo: notas dos alunos de três turmas
0 2 4 6 8 10 12
notas
Turma A
Turma B
Turma C
Page 24
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Como medir a dispersão?Como medir a dispersão?
Exemplo: Turma A (4 5 5 6 6 7 7 8)
4 5 6 7 8
distância (desvio) em relação à média
Page 25
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Como medir a dispersão?Como medir a dispersão?
xxi −4 1 1 0 0 1 1 4Desvios quadráticos
-2 -1 -1 0 0 1 1 2Desvios em relação à média
6Média
4 5 5 6 6 7 7 8xiValores (notas dos alunos)
resultados numéricosnotaçãoDescrição
( )2xxi −
x
( )∑=
−−
=n
ii xx
ns
1
22
11Variância (da amostra):
1,7118
411001142 =−
+++++++=s
Page 26
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Como medir a dispersão?Como medir a dispersão?
xxi −4 1 1 0 0 1 1 4Desvios quadráticos
-2 -1 -1 0 0 1 1 2Desvios em relação à média
6Média
4 5 5 6 6 7 7 8xiValores (notas dos alunos)
resultados numéricosnotaçãoDescrição
( )2xxi −
x
Desvio padrão (da amostra): ( )∑=
−−
=n
ii xx
ns
1
2
11
31,11,7118
41100114==
−+++++++
=s
Page 27
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Medidas descritivas das notas finais dos Medidas descritivas das notas finais dos alunos de três turmas. alunos de três turmas.
1,313,512,69
6,006,006,00
887
ABC
Desviopadrão
MédiaNúmero dealunos
Turma
Interprete.
Page 28
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Ex:Ex: Rendimento de um processo químicoRendimento de um processo químico
Desvio padrão do rendimento em função do tempo e temperatura
60 graus 70 graus80 graus20 25 30
Tempo
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
Des
vio
padr
ão d
o re
ndim
ento
Rendimento médio em função do tempo e temperatura
60 graus 70 graus80 graus20 25 30
Tempo (minutos)
29
30
31
32
33
34
35
36
37
38
39
Ren
dim
ento
(%)
Interprete.
Page 29
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Outra forma de calcular o desvio padrãoOutra forma de calcular o desvio padrão
⎟⎟⎠
⎞⎜⎜⎝
⎛−
−= ∑
=
2
1
2
11 xnx
ns
n
ii
Valores xi : 4 5 5 6 6 7 7 8
481
=∑=
n
iix 6=x
Valores ao quadrado xi2 : 16 25 25 36 36 49 49 64
3001
2 =∑=
n
iix
1,31 = 7
12 = 7
288 300 = 7
)8.(6 300 =
2 −−s
Page 30
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Medidas baseadas na ordenação dos dadosMedidas baseadas na ordenação dos dados
25%25%
25%
25%
Quartilinferior mediana Quartil
superior
qi md qs
Page 31
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Medidas baseadas na ordenação dos dadosMedidas baseadas na ordenação dos dados
41:deposição +nqi
21:deposição +nmd
4)1(3:deposição +nqs
Dados ordenados:
25%25%25%
25%
qi md qs
Se fracionário interpolação linear
Page 32
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
ExemploExemplo
Observações: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12. Ordenando:3 5 5 6 7 8 9 11 12 15 18
n = 11
34
1: deposição =+nqi
62
1: de posição =+nmd
5=iq
8=dm
94
)1(3:deposição =+nqs
12=sq
Page 33
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Comparação entre média e medianaComparação entre média e mediana
• A média é mais influenciada por valores discrepantes.
0 10 20 30 40 50 60 70
md = 22,5
50% dos valores 50% dos valores
7,24=x
Page 34
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Comparação entre média e medianaComparação entre média e mediana
50%50%
média = mediana
(a) distribuiçãosimétrica
50%50%
mediana média
(b) distribuiçãoassimétrica
Page 35
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Diagrama em caixasDiagrama em caixas
qs + 1,5dq
qi
md
qs
max
min
dq = qs - qi
Page 36
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Diagrama em caixas e forma da distribuiçãoDiagrama em caixas e forma da distribuição
25%
25%25%
25%
25% 25%25%
25%
Page 37
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Interprete o gráficoInterprete o gráfico
3
8
13
18
23
28
MonteVerde
Encostado Morro
Rendafamiliar
(sal. mín.)
Page 38
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Observações ao longo do tempoObservações ao longo do tempo
• EXEMPLO: todos os dias é retirada uma amostra de dez sacos de leite de um laticínio, durante 23 dias.
• Quer-se acompanhar o nível e a variabilidade do peso.
Page 39
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Observações ao longo do tempoObservações ao longo do tempo
Gráfico das médias amostrais
amostra
peso
(g)
1029,8
1033,0
1036,2
1029
1030
1031
1032
1033
1034
1035
1036
1037
1 5 10 15 20
Page 40
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Observações ao longo do tempoObservações ao longo do tempo
Gráfico dos desvios padrão amostrais
amostra
peso
(g)
0,92
3,30
5,68
0
1
2
3
4
5
6
7
1 5 10 15 20
Page 41
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Orientação geral para análise exploratória de Orientação geral para análise exploratória de dados não temporaisdados não temporais
Análise univariada
Variável qualitativa
Variável quantitativa
Distribuição de freqüências
Percentagens
Tabela
Gráfico de barras, colunas
ou setores
Distribuição de freqüências
Medidas descritivas (média, desvio padrão, mediana, etc.)
Histograma
Ramo-e-folhas
Page 42
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Orientação geral para análise exploratória de Orientação geral para análise exploratória de dados não temporaisdados não temporais
Análise biivariada
Uma variável quantitativa e outra qualitativa
Duas variáveis qualitativas
Duas variáveis quantitativas
Medidas descritivas da variável quantitativa em cada
categoria da qualitativa
Diagrama em caixas múltiplo
Tabela de contingência (Cap. 10)
Diagrama de dispersão (Cap. 11)
Coeficiente de correlação (Cap. 11)