1 Rui Carvalho Oliveira [email protected]INTRODU INTRODU Ç Ç ÃO ÃO À À ESTAT ESTAT Í Í STICA STICA DESCRITIVA DESCRITIVA Introdução à Estatística Descritiva Rui Carvalho Oliveira • da recolha • tratamento • síntese • apresentação … da informação A Estatística é a ciência que trata: Introdução à Estatística Descritiva Rui Carvalho Oliveira A Estatística é a menos exacta das Ciências Exactas! Incertezas... Incertezas... Só incertezas! A Estatística é uma Ciência Exacta Instrumento de modelação da incerteza apoio à decisão Introdução à Estatística Descritiva Rui Carvalho Oliveira A incerteza (como nível de conhecimento) não é atributo da situação decisional mas sim do estado de conhecimento (do decisor) acerca dessa situação Descrever a situação Reduzir a incerteza Grandes alterações Pequenas alterações Grandes efeitos Pequenos efeitos Medir os efeitos da incerteza Decidir (com risco assumidos) níveis de Redução da incerteza - Reprocessamento da informação disponível - Aquisição de nova informação
22
Embed
INTRODU ÇÃO À ESTAT ÍSTICA · Estatística Descritiva: recolha, organização, apresentação, análise e interpretação de conjuntos de dados
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Introdução à Estatística Descritiva Rui Carvalho Oliveira
• da recolha
• tratamento
• síntese
• apresentação
… da informação
A Estatística é a ciência que trata:
Introdução à Estatística Descritiva Rui Carvalho Oliveira
A Estatística é a menos exacta das Ciências Exactas!
Incertezas... Incertezas... Só incertezas!
� A Estatística é uma Ciência Exacta
� Instrumento de
� modelação da incerteza
� apoio à decisão
Introdução à Estatística Descritiva Rui Carvalho Oliveira
A incerteza (como nível de conhecimento) não é atributo da situação decisional mas sim do estado de conhecimento (do decisor) acerca dessa situação
Descrever a
situação
Reduzir a
incerteza
Grandesalterações
Pequenasalterações
Grandesefeitos
Pequenosefeitos
Medir os efeitosda incerteza
Decidir (com
risco assumidos)níveis de
� Redução da incerteza- Reprocessamento da informação disponível- Aquisição de nova informação
2
Introdução à Estatística Descritiva Rui Carvalho Oliveira
A Estatística é uma ciência para ignorantes !
� Representação da variabilidade de resultados quando não éconhecida “explicação” dessa variabilidade
� Utilizada em todos os domínios para os quais o conhecimento dos fenómenos não é suficiente para produzir modelos explicativos
Introdução à Estatística Descritiva Rui Carvalho Oliveira
1) "A pluviosidade diária média durante os três últimos meses foi de 13 mm."
2) "Atendendo à pluviosidade registada durante os três últimos meses, este vai ser um ano de seca."
1) Afirmação descritiva, sumarizando a informação disponível
2) Afirmação que transcende o observado, partindo deste para inferir sobre o futuro
Amostra População
� Regular a recolha de informação adicional
� Quantificar e controlar erros
� Generalizar (inferir sobre a população a partir da informação da amostra)
� Sumarizar� Descrever a amostra
� Inferência Estatística� Estatística Descritiva
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva
�Estatística Descritiva: recolha, organização, apresentação, análise e interpretação de conjuntos de dados
� Tratamento e descrição de dados: representações sin téticas visando
i) simplificar e tornar mais atraente a apresentação
ii) facilitar a leitura e interpretação
� Transformar dados em informação
(observações que constituem uma amostraextraída de uma fonte, que se designa por população )
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva
� Descrição de resultados das observações:
Variáveis
Categorias Quantidades
Nominal Ordinal Discretas(contagem)
Contínuas(Medição)
3
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva
� Tratamento e apresentação de resultados das observações:
�É habitual sintetizar e apresentar os dados recolhidos através de Tabelas (de frequência) e Gráficos
Exemplo: dados sobre estado civil (amostra de 150 indivíduos)
Gráfico de barras
52%
33%
3%
11%
0%
10%
20%
30%
40%
50%
60%
Solteiro Casado Viúvo Divorciado
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva
Apresentação de dados: representações gráficas
� Gráficos de barras:
Taxa de Saída Precoce - Ensino Secundário
32,6%29,4%
24,8%
38,7%
26,3%
36,1%33,2%
35,7%
23,8%
44,0%
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
Portugal GrandeLisboa
Porto Coimbra Sintra Lisboa Loures Odivelas Amadora Oeiras
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva
Apresentação de dados: representações gráficas
� Gráficos de barras (acumulado):
Repartição modal do tráfego de mercadorias – 1998(ton.km em %)
0%
20%
40%
60%
80%
100%
Eslov
énia
Eslov
áquia
Rom
énia
Polón
ia
Litu
ânia
Letó
nia
Hun
gria
Est
ónia
Rep
. Che
ca
Bul
gária
PEC
O
Por
tuga
l
UE 1
5
Rodoviário Ferroviário Fluvial Pipeline
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva
Apresentação de dados: representações gráficas
� Gráficos de sectores circulares
22%
30%
14%
21%13%
Pré-escolar
1º Ciclo E.B.
2º Ciclo E.B.
3º Ciclo E.B.
Secundário
Repartição de alunos por nível e ciclo de ensino
4
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva
Apresentação de dados: representações gráficas
� Gráficos de “bolhas”
Pol ó nia: 1,27 km 2 Eslov á quia: 0,11 km 2
Let ó nia: 0,40 km 2
Portugal: 1,29 km 2
Rep.Checa : 1,68 km 2
Est ó nia: 0,88 km 2
Lituânia: 1,72 km 2
Hungria: 10,23 km 2
Eslov é nia: 1,24 km 2
0,00
0,20
0,40
0,60
0,80
1,00
1,20
0,0 20,0 40,0 60,0 80,0 100,0 120,0
m 2 de Plataforma Logística por km
2 de Superfície Nacional
m 2 de Plataforma Logística por
Habitante
Nota: dimensão da “bolhas” proporcional à área total de Plataformas Logísticas (em Portugal e países do Alargamento -PECO)
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva
� Uso (e abuso) de gráficos (pictogramas)
• Kennedy: 94 c • Johnson: 83 c • Nixon: 64 c • Carter: 44 c
Convenção: poder de compra proporcional ao “comprimento” da nota representada
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva - Distribuições de frequência
Exemplo: observações do nº de acidentes ao longo de 16 semanas:
18161716151716171615181716191516Nº de acidentes
16151413121110987654321Semana
� Amostra: conjunto de observações (valores numéricos ) de uma grandeza
� Variabilidade (aleatória, logo inexplicável e imprevisível) é inerente a muitos fenómenos
� Distribuição de frequências : caracterização e descrição sintética do comportamento de uma variável aleatória tirando partido de observações (numéricas) dessa grandeza (amostra)
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva - Distribuições de frequência
Observações (nº de acidentes ao longo de 16 semanas):
18161716151716171615181716191516Nº de acidentes
16151413121110987654321Semana
• Absoluta (f’): número de vezes que o valor x foi observado
• Relativa (f): quociente entre o número de vezes que o valor x foi observado e o número total de observações
� Frequência simples (para um dado valor x da grandeza em estudo):
0,06119
0,13218
0,25417
0,38616
0,19315
RelativaAbsoluta
Frequência simplesNº de acidentes
5
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva - Distribuições de frequência
Observações (nº de acidentes ao longo de 16 semanas):
18161716151716171615181716191516Nº de acidentes
16151413121110987654321Semana
0,06119
0,13218
0,25417
0,38616
0,19315
RelativaAbsoluta
Frequência simplesNº de acidentes
Histograma de Frequências Simples
0,00
0,10
0,20
0,30
0,40
15 16 17 18 19
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva - Distribuições de frequência
Observações (nº de acidentes ao longo de 16 semanas):
18161716151716171615181716191516Nº de acidentes
16151413121110987654321Semana
1,00160,06119
0,94150,13218
0,81130,25417
0,5690,38616
0,1930,19315
RelativaAbsolutaRelativaAbsoluta
Frequência acumuladaFrequência simplesNº de acidentes
• Absoluta (F’): número de vezes que o se observou um valor . menor ou igual a x
• Relativa (F): quociente entre a frequência acumulada absoluta e o número total de observações
Frequência acumulada (para um dado valor x da grandeza em estudo):
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva - Distribuições de frequência
Observações (nº de acidentes ao longo de 16 semanas)
1,00160,06119
0,94150,13218
0,81130,25417
0,5690,38616
0,1930,19315
RelativaAbsolutaRelativaAbsoluta
Frequência acumuladaFrequência simplesNº de acidentes
Histograma de Frequências Acumuladas
0,00
0,20
0,40
0,60
0,80
1,00
14 15 16 17 18 19 20 21
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva - Distribuições de frequência
Observações ordenadas
1,001000,011439.9430
0,99990,077429.9420
0,92920,1616419.9410
0,76760,2525409.9400
0,51510,2727399.9390
0,24240,1414389.9380
0,10100,088379.9370
0,0220,022369.9360
RelativaAbsolutaRelativaAbsolutaSuperiorInferior
Freq.ia acumuladaFreq.ia simplesLimites das classes
Tratamento de dados:
8 classes de amplitude 10 (abertas à direita)
Muitas vezes (nomeadamente quando a grandeza é contínua) as frequências são apuradas não para valores singulares da grandeza mas sim para intervalos de variação (classes)
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Histograma de Frequências Acumuladas
0,00
0,20
0,40
0,60
0,80
1,00
355 365 375 385 395 405 415 425 435 445
Histograma de Frequências Simples
0.00
0.05
0.10
0.15
0.20
0.25
0.30
355 365 375 385 395 405 415 425 435 445
1,001000,011440430
0,99990,077430420
0,92920,1616420410
0,76760,2525410400
0,51510,2727400390
0,24240,1414390380
0,10100,088380370
0,0220,022370360
RelativaAbsolutaRelativaAbsolutaSuperiorInferior
Freq.ia acumuladaFreq.ia simplesLimites das classesEstatística Descritiva Distribuições de
frequência
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva - Histogramas
Amplitude: 1 nº classes: 71
Média: 398,74 desvio padrão: 14,77
Amplitude: 5 nº classes: 15
Média: 398,70 desvio padrão: 14,88
Amplitude: 3 nº classes: 25
Média: 398,73 desvio padrão: 14,79
Amplitude: 10 nº classes: 8
Média: 399,6 desvio padrão: 14,52
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva - Histogramas
Amplitude: 5 nº classes: 15
Média: 398,70 desvio padrão: 14,88
Amplitude: 10 nº classes: 8
Média: 399,6 desvio padrão: 14,52
Amplitude: 15 nº classes: 5
Média: 399,00 desvio padrão: 15,44
Amplitude: 25 nº classes: 3
Média: 398,75 desvio padrão: 16,01
7
Introdução à Estatística Descritiva Rui Carvalho Oliveira
75 %
50 %
25 %
Estatística Descritiva
Quartil de 25% : = 390.4 Mediana =
Quartil de 50% : = 399.6
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
360 370 380 390 400 410 420 430 440 450
Quartil de 75% : = 409.6
q50%
q25%q75%
� Quartisvalores da variável que
dividem a distribuiçãode frequências em 4 partes iguais
Quartil de 50% : = 399.6
1,001000,011440430
0,99990,077430420
0,92920,1616420410
0,76760,2525410400
0,51510,2727400390
0,24240,1414390380
0,10100,088380370
0,0220,022370360
RelativaAbsolutaRelativaAbsolutaSuperiorInferior
Freq.ia acumuladaFreq.ia simplesLimites das classes Estatística Descritiva
q50%
Interpolação linear:
q 50% =
Quartil de 50% estáentre 390 e 400
0,1
0,2
0,3
0,4
0,5
0,6
385 390 395 400 405
0,51- 0,24
10
0,24 -0,510,24 -0,5x10390 +
0,5 – 0,24
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva – Medidas de tendência não central
100,0%0,8%46093941 1/2
99,2%0,9%45704041
98,3%3,3%453015040 1/2
95,0%5,4%438025040
89,6%9,5%413044039 1/2
80,1%16,3%369075039
63,8%17,8%294082038 1/2
46,0%20,6%212095038
25,4%13,0%117060037 1/2
12,4%6,5%57030037
5,9%3,3%27015036 1/2
2,6%1,1%1205036
1,5%0,9%704035 1/2
0,7%0,7%303035
Acum.SimplesAcum.Simples
Frequênciasabsolutas
FrequênciasabsolutasTamanho
dos sapatos� Quartis : valores da variável quedividem a distribuição de frequênciasem 4 partes iguais
� Q1 (quartil de 25%) – valor da variávelpara o qual a frequência acumuladaatinge 25%
Q1 = 37 ½
� Q2 (quartil de 50%) – idem, para 50%Q2 = 38 ½
� Q3 (quartil de 75%) – idem, para 75%Q3 = 39
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva – Medidas de tendência não central
100,0%0,8%46093941 1/2
99,2%0,9%45704041
98,3%3,3%453015040 1/2
95,0%5,4%438025040
89,6%9,5%413044039 1/2
80,1%16,3%369075039
63,8%17,8%294082038 1/2
46,0%20,6%212095038
25,4%13,0%117060037 1/2
12,4%6,5%57030037
5,9%3,3%27015036 1/2
2,6%1,1%1205036
1,5%0,9%704035 1/2
0,7%0,7%303035
Acum.SimplesAcum.Simples
Frequênciasrelativas
FrequênciasabsolutasTamanho
dos sapatos
• Decis : valores da variável quedividem a distribuição de
frequências em 10 partes iguais
• Percentil (ou quantil) de αααα %:valor da variável para o qual a
frequência acumulada atinge α%
8
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva - Diagramas de “caixa e bigodes”
299.8
298.9
301.3
305.1
297.5
Exemplo: selecção de fornecedor de baterias
Dados: distribuição da duração (vida útil, em horas) das baterias
Fornecedor A
FornecedorB
100,0%0,2%290280
99,8%0,2%280270
99,6%1,2%270260
98,4%2,6%260250
95,8%5,2%250240
90,6%5,2%240230
85,4%10,0%230220
75,4%11,6%220210
63,8%12,4%210200
51,4%12,2%200190
39,2%10,6%190180
28,6%11,2%180170
17,4%8,0%170160
9,4%4,2%160150
5,2%2,2%150140
3,0%1,6%140130
1,4%0,6%130120
0,8%0,6%120110
0,2%0,2%110100
Acum.Simplesa [de [
Frequências relativasVida útil (horas)
100,0%0,2%460440
99,8%0,4%440420
99,4%0,4%420400
99,0%0,6%400380
98,4%0,8%380360
97,6%1,2%360340
96,4%1,4%340320
95,0%2,6%320300
92,4%2,8%300280
89,6%4,2%280260
85,4%5,8%260240
79,6%8,6%240220
71,0%9,8%220200
61,2%16,4%200180
44,8%19,6%180160
25,2%15,8%160140
9,4%7,8%140120
1,6%1,6%120100
Acum.Simplesa [de [
Frequências relativasVida útil (hoas)
Média=201hD. padrão= 60h
Média= 199hD. padrão=30h
Exemplo: selecção de fornecedor de baterias
a) Política de manutenção: substituição da bateria cada 200 horas. Risco de falha?
Fornecedor A
FornecedorB
100,0%0,2%290280
99,8%0,2%280270
99,6%1,2%270260
98,4%2,6%260250
95,8%5,2%250240
90,6%5,2%240230
85,4%10,0%230220
75,4%11,6%220210
63,8%12,4%210200
51,4%12,2%200190
39,2%10,6%190180
28,6%11,2%180170
17,4%8,0%170160
9,4%4,2%160150
5,2%2,2%150140
3,0%1,6%140130
1,4%0,6%130120
0,8%0,6%120110
0,2%0,2%110100
Acum.Simplesa [de [
Frequências relativasVida útil (horas)
100,0%0,2%460440
99,8%0,4%440420
99,4%0,4%420400
99,0%0,6%400380
98,4%0,8%380360
97,6%1,2%360340
96,4%1,4%340320
95,0%2,6%320300
92,4%2,8%300280
89,6%4,2%280260
85,4%5,8%260240
79,6%8,6%240220
71,0%9,8%220200
61,2%16,4%200180
44,8%19,6%180160
25,2%15,8%160140
9,4%7,8%140120
1,6%1,6%120100
Acum.Simplesa [de [
Frequências relativasVida útil (hoas)
Risco de falha =
61.2 %
Risco de falha =
51.4%
Exemplo: selecção de fornecedor de baterias
b) Risco de falha: max. de 10%. Intervalo de temp o entre substituições?
Fornecedor A
FornecedorB
100,0%0,2%290280
99,8%0,2%280270
99,6%1,2%270260
98,4%2,6%260250
95,8%5,2%250240
90,6%5,2%240230
85,4%10,0%230220
75,4%11,6%220210
63,8%12,4%210200
51,4%12,2%200190
39,2%10,6%190180
28,6%11,2%180170
17,4%8,0%170160
9,4%4,2%160150
5,2%2,2%150140
3,0%1,6%140130
1,4%0,6%130120
0,8%0,6%120110
0,2%0,2%110100
Acum.Simplesa [de [
Frequências relativasVida útil (horas)
100,0%0,2%460440
99,8%0,4%440420
99,4%0,4%420400
99,0%0,6%400380
98,4%0,8%380360
97,6%1,2%360340
96,4%1,4%340320
95,0%2,6%320300
92,4%2,8%300280
89,6%4,2%280260
85,4%5,8%260240
79,6%8,6%240220
71,0%9,8%220200
61,2%16,4%200180
44,8%19,6%180160
25,2%15,8%160140
9,4%7,8%140120
1,6%1,6%120100
Acum.Simplesa [de [
Frequências relativasVida útil (hoas)
Intervalo =
140 horas
Intervalo =
160 horas
9
Exemplo: selecção de fornecedor de baterias
c) Baterias “Muito Boas”: duram pelo menos 260 hora s.
Fornecedor A
FornecedorB
100,0%0,2%290280
99,8%0,2%280270
99,6%1,2%270260
98,4%2,6%260250
95,8%5,2%250240
90,6%5,2%240230
85,4%10,0%230220
75,4%11,6%220210
63,8%12,4%210200
51,4%12,2%200190
39,2%10,6%190180
28,6%11,2%180170
17,4%8,0%170160
9,4%4,2%160150
5,2%2,2%150140
3,0%1,6%140130
1,4%0,6%130120
0,8%0,6%120110
0,2%0,2%110100
Acum.Simplesa [de [
Frequências relativasVida útil (horas)
100,0%0,2%460440
99,8%0,4%440420
99,4%0,4%420400
99,0%0,6%400380
98,4%0,8%380360
97,6%1,2%360340
96,4%1,4%340320
95,0%2,6%320300
92,4%2,8%300280
89,6%4,2%280260
85,4%5,8%260240
79,6%8,6%240220
71,0%9,8%220200
61,2%16,4%200180
44,8%19,6%180160
25,2%15,8%160140
9,4%7,8%140120
1,6%1,6%120100
Acum.Simplesa [de [
Frequências relativasVida útil (hoas)
% de baterias “muito boas” =
1-0.854
14.6%
% de baterias “muito boas” =
1-0.984
1.6%
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Síntese de Informação
Parâmetros : números singulares que evidenciam determinadas propriedades das distribuições de frequência
i. Medidas de tendência central (localização do “centro da distribuição”);
ii. Medidas de dispersão (grau de variação dos valores em torno do ponto central);
iii. Medidas de assimetria (grau de simetria em relação ao ponto central).
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Medidas de tendência central - Média
18161716151716171615181716191516Nº de acidentes
16151413121110987654321Semana
1,00160,0625119
0,94150,125218
0,81130,25417
0,5690,375616
0,1930,1875315
RelativaAbsolutaRelativaAbsoluta
Frequência acumuladaFrequência simplesNº de acidentes
Média = 16.5 16 / 18)1617161517161716151817161915(16X =+++++++++++++++=
(usando dados originais, sem tratamento)
X = (3 x 15 + 6 x 16 + 4 x 17 + 2 x 18 + 1 x 19) / 16(usando frequências absolutas , após tratamento estatístico dos dados)
X = (0.1875 x 15 + 0.375 x 16 + 0.25 x 17 + 0.125 x 18 + 0.0625 x 19) (usando frequências relativas , após tratamento estatístico dos dados)
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Medidas de tendência central - Média
18161716151716171615181716191516Nº de acidentes
16151413121110987654321Semana
Média = 16.5 16 / 18)1617161517161716151817161915(16X =+++++++++++++++=
(usando dados originais, sem tratamento)
∑=
=n
1iiX
n
1X
n – número de observações
Xi – valor da i-ésima observação(nº de acidentes na semana i, neste exemplo)
10
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Medidas de tendência central - Média
18161716151716171615181716191516Nº de acidentes
16151413121110987654321Semana
1,00160,0625119
0,94150,125218
0,81130,25417
0,5690,375616
0,1930,1875315
RelativaAbsolutaRelativaAbsoluta
Frequência acumuladaFrequência simplesNº de acidentes
X
(usando frequências relativas , após tratamento estatístico dos dados)
∑=
⋅=c
1kkk XfX
c – número de classes
fk – frequência relativa da k-ésima classe
Xk – valor (médio) da k-ésima classe
= (0.1875 x 15 + 0.375 x 16 + 0.25 x 17 + 0.125 x 18 + 0.0625 x 19)
Nota: quando classes contêm mais do que um valor da grandeza, esta expressão produz uma aproximação
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Limites das classes Freq.ia simples Freq.ia acumuladaMarca da classe
Média = 0.02 x 365 + 0.08 x 375 + 0.14 x 385 + 0.27 x 395 + 0.25 x 405 +
+ 0.16 x 415 + 0.07 x 425 + 0.01 x 435 = 399.6
(Nota: Média = 399.17 para dados originais, não tratados)
Medidas de tendência central - Média
∑=
⋅=c
1kkk XfX
c – número de classesfk – frequência relativa da k-ésima classeXk – valor (médio) da k-ésima classe
Cálculo da média para dados tratados (usando frequências relativas de ocorrência)
Introdução à Estatística Descritiva Rui Carvalho Oliveira
A média corresponde ao “centro de gravidade” da distribuição de frequências
Estatística Descritiva – Medidas de centralidade
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Medidas de tendência central - Mediana
Distribuição de salários numa organização com 25 colaboradores:
100%4%120.000
96%4%110.000
92%8%25.000
84%12%32.000
72%20%51.200
52%4%1800
48%48%12600
Frequênciaacumulada
Frequênciarelativa (%)
Nº de colaboradores
Salário
� Média: 2400X =
�Mediana (Med): valor da grandeza tal que há um número igual de observações abaixo e acima desse valor mediano (divide a distribuiçãode frequência em duas partes iguais)
Med = 800
11
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Medidas de tendência central - Mediana
Notas:
1) Quando o nº de observações é par, há dois valores median os, convencionando-se que a mediana é a média aritmética desses dois valores
Dados : 5 ; 8 ; 14 ; 21 Med = (8+1 4)/2 = 11
2) Para dados agrupados em classes, pode falar-se de “classe mediana” que correspondeà primeira classe para a qual a frequência acumulada é igua l ou superior a 50%
1,001000,011440430
0,99990,077430420
0,92920,1616420410
0,76760,2525410400
0,51510,2727400390
0,24240,1414390380
0,10100,088380370
0,0220,022370360
RelativaAbsolutaRelativaAbsolutaSuperiorInferior
Freq.ia acumuladaFreq.ia simplesLimites das classes
Classe mediana
Introdução à Estatística Descritiva Rui Carvalho Oliveira
100%4%120.000
96%4%110.000
92%8%25.000
84%12%32.000
72%20%51.200
52%4%1800
48%48%12600
Frequênciaacumulada
Frequênciarelativa (%)
Nº de colaboradores
Salário
Medidas de tendência central - Moda
Moda (Mod): corresponde ao valor da grandeza com maior frequência de ocorrência
Mod = 600
Nota: para dados tratados (agrupados em classes), pode falar-se de “classe modal”
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Medidas de tendência central
( )X� Propriedades da Média
X corresponde ao “centro da gravidade” dos valores observados
Requer dados quantitativos
� Mediana corresponde a um “centro posicional ”, quando as observaçõessão ordenadas do menor para o maior valor, não interessando o valor numérico de cada observação mas apenas a sua posição nessaordenação.
� É, portanto, aplicável a dados qualitativos (sem métrica), desde queexpressos numa escala ordinal.
� Propriedades da Mediana :
→ Soma dos desvios (em relação à média) é nula(desvios positivos “compensam” desvios negativos)
( ) 0XXn
1ii =−∑
=
0)(...)()( 21 =−++−+− XXXXXX n
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Medidas de tendência central
� Propriedades da moda (Mod):
• É aplicável a todos os tipos de dados (qualitativos ou quantitativos), mesmoquando estes são puramente nominais.
• Quando os dados são quantitativos e estão classificados em classes (ou sãoqualitativos), usa-se o termo classe (ou categoria) modal.
• Pode haver mais de uma moda ou classe (ou categoria) modal
12
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Comparação das medidas de tendência central
�Média requer dados quantitativos, enquanto a mediana pode ser aplicada a dados qualitativos ordinais e a moda é até aplicável a simples categorias
�Média é sensível aos valores numéricos das observações, sendo afectada poralterações dos casos extremos, o que não sucede com a mediana :
57 ; 69 ; 72 ; 81 ; 86 →72
73
==
Med
X 57 ; 69 ; 72 ; 81 ; 961 →72
248
==
Med
X
�No caso de distribuições muito assimétricas, a média é “puxada” para o lado emque a “cauda” da distribuição é mais estendida (com valores extremos maisafastados dos “casos típicos” ou mais frequentes), podendo dar indicaçõesenganadoras quanto à localização do “centro” da distribuição.
� Média usa toda a informação disponível (nomeadamente, de carácter numérico), enquanto que à mediana apenas importa a posição relativa das observações.
� Mediana é mais sensível aos resultados amostrais, apresentando maioresvariações de amostra para amostra
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Comparação das medidas de tendência central
100%4%120.000
96%4%110.000
92%8%25.000
84%12%32.000
72%20%51.200
52%4%1800
48%48%12600
Frequênciaacumulada
Frequênciarelativa (%)
Nº de colaboradores
Salário
Média = 2400 Mediana=800 Moda=600
100%4%15.000
96%4%14.000
92%8%23.000
84%12%32.000
72%20%51.200
52%4%1800
48%48%12600
Freq.Acumul.
Freq.Relat. (%)
Nº de colabor.
Salário
Média = 1400 Mediana=800 Moda=600
� Média é sensível aos valores (numéricos) das observações , particularmentea “casos extremos”
� O mesmo não sucede com a mediana (desde que o “valor central” naordenação das observações não sofra alteração)
�Domínio (diferença entre o máximo e o mínimo das observações)
�Crítica: demasiado sensível a valores extremos (e eventualmente “atípicos”)
Estatística Descritiva – Medidas de dispersão
� Diferença inter-quartílica : diferença entre os quartis de 75% (q75%)e de 25% (q25%)
�Corresponde a ignorar os valores mais altos (25%) e mais baixos (25%)
421385380352338335…….634118Observações ->
500º499º498º497º496º495º…….3º2º1ºNº de ordem ->
q75% = 274
q25% = 142
Introdução à Estatística Descritiva Rui Carvalho Oliveira
VARIÂNCIA : desvio quadrático médio
644937246Observações →a)
ΧMédia: = (6+24+37+49+64) / 5 = 36
Variância: 399.6 = 5
784+169+1+144+900 = 2S
Desvio padrão : S = 399.6 = 20
Coeficiente de variação:
Estatística Descritiva – Medidas de dispersão
7841691144900Desvio quadrático →
a)
+28+13+1-12-30Desvio →
.55603620 =
Médiapadrão Desvio =
( )S2 = 1
n i=1
ni ∑ −Χ Χ
2
13
Introdução à Estatística Descritiva Rui Carvalho Oliveira
1641425Desvio quadrático →+4+2+1-2-5Desvio →
120118117114111Observação →b)
Média: ΧΧΧΧ = (111+114+117+118+120) / 5 = 116
Variância: S2 = 25+4+1+4+165
= 10
Desvio padrão: S 10 = 3.16=
Coeficiente de variação: .02701163.16 =
Médiapadrão Desvio =
Estatística Descritiva – Medidas de dispersão
[ ]SXSX 3,3 +−
X
S6
Desvio Padrão
� Para uma distribuição normal…
…aproximadamente 68% das observações estão no
intervalo [ ]SXSX +− ,
…aproximadamente 95% das observações estão no
intervalo
95%
68%
[ ]SXSX 2,2 +−
…aproximadamente 99% das observações
estão no intervalo [ ]SXSX 3,3 +−99%
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Estatística Descritiva – medidas de dispersão
0.420.30.62Coeficiente de variação
503674Desvio padrão
253612905498Variância
119119119Média
12500
25350
41310200
122020160
926830120
32497080
71350
Empresa CEmpresa BEmpresa A
Número de trabalhadoresSaláriomensal
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Medidas de dispersão - Variância
18161716151716171615181716191516Nº de acidentes
16151413121110987654321Semana
Média = 16.5 =X
(usando dados originais, sem tratamento)
n – número de observações
Xi – valor da i-ésima observação(nº de acidentes na semana i, neste exemplo)
ProbabilidadesFreq.ia acumuladaFreq.ia simplesLimite das classes
0,00
0,05
0,10
0,15
0,20
0,25
0,30
365 375 385 395 405 415 425 435
Observado
Normal
Distribuições “empíricas”
vsmodelos “teóricos”
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Modelos “teóricos” - Distribuição normal (de Gauss)
Densidade de probabilidade:
[ ]( ) iânciaXE
médiaXE
x
exf
var22
2
2
1
2
1)(
→
−=
→=
−−
Π=
µσµ
σµ
σ
µ (média)
� Distribuição simétrica � centrada na média� 50% dos valores abaixo da
média e 50% acima da mesma� Moda = mediana = média
� Maiores probabilidades na vizinhança da média, decaindo àmedida que os valores se vão afastando da média (quer para esquerda, quer para a direita)
µ – média
σ – desvio padrão
Modelos “teóricos” - Distribuição normal (de Gauss)
Efeito da alteração da média (localização do “centro” da distribuição)
Média = 10 Média = 15
Efeito da alteraçãoda variância(grau de dispersão)
20
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Distribuição normal (de Gauss)
[ ] %68105X95P
)5,100(Normal~X
≈≤≤
[ ] %68130Y70P
)30,100(Normal~Y
≈≤≤
� Cerca de 68% das probabilidades concentram-se no in tervalo
(média – desvio padrão) ; (média + desvio padrão)
Exemplo 1:
Exemplo 2:
Maior dispersão Intervalo mais largo
X ~ Normal (Média=100, Desvio padrão=5)
Introdução à Estatística Descritiva Rui Carvalho Oliveira
[ ] %5.95110X90P ≈≤≤
[ ] %5.95160Y40P ≈≤≤
[ ] %7.99115X85P ≈≤≤
[ ] %7.99190Y10P ≈≤≤
X ~ Normal (100, 5)Y ~ Normal (100, 30)
Distribuição normal (de Gauss)
� Cerca de 95.5% das probabilidades concentram-se no intervalo
(média – 2 d. padrão) ; (média + 2 d. padrão)
� Cerca de 99.7% das probabilidades concentram-se no intervalo
(média – 3 d. padrão) ; (média + 3 d. padrão)
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Distribuição normal padrão (ou reduzida, ou standardizada)
( )
[ ][ ]
( )
[ ] [ ]
977.0)2(
215
100130130
15,100~
1
0
,~
≈∅=
≤=
−≤=≤
=
=
−=→
ZPZPXP
NormalX
ZVAR
ZE
XZNormalX
σµσµ
Função cumulativa da lei normal padrão(estão disponíveis tabelas)
Padronização da variável X
Z – variável normal padrão• média nula
• variância unitária
Introdução à Estatística Descritiva Rui Carvalho Oliveira
Teorema do Limite Central (TLC)
� Seja Y uma variável que resulta da soma de n variáveis (Xi) independentes e com idêntica distribuição:
nXXXY +++= ...21
� À medida que n cresce, a distribuição de Y tendeassimptóticamente para a distribuição normal (qualquer que seja a distribuição dos Xi )
( )yyn
n
ii NormalXY σµ ,
1
→= ∞→=∑
Média de Y = soma das médias das variáveis
Variância de Y = soma das variâncias das variáveis Xi
Xi
21
Introdução à Estatística Descritiva Rui Carvalho Oliveira
TLC - População Uniforme
Introdução à Estatística Descritiva Rui Carvalho Oliveira
TLC - População Uniforme
Introdução à Estatística Descritiva Rui Carvalho Oliveira
TLC - População Exponencial
Introdução à Estatística Descritiva Rui Carvalho Oliveira
TLC - População Exponencial
22
Introdução à Estatística Descritiva Rui Carvalho Oliveira
� Note-se que:
1. Rapidez da convergência depende da distribuição dos Xi, sendo necessárias menos parcelas se esta distribuição for simétrica. Por exemplo:
� Se Xi ~ Uniforme, a aproximação normal será "razoável" se n ≥ 12
� Se Xi ~ exponencial negativa (muito assimétrica), poderão ser necessárias algumas dezenas de parcelas para a aproximação à normal ser "aceitável“
2. Convergência para a normal verifica-se mesmo quando as parcelas (Xi) não têm a mesma distribuição!
Teorema do Limite Central (TLC)
� A distribuição da soma de n variáveis aleatórias (independentes e identicamente distribuídas) tende para a distribuiç ão normal àmedida que n cresce (qualquer que seja a distribuição das parcelas!)