Apontamentos de Estatística Descritiva Apontamentos de Estatística Descritiva • Unidade Curricular: Estatística Aplicada A L ti 2007/2008 • Área Científica: Matemática • Ano Lectivo: 2007/2008 • Curso: Contabilidade e Finanças • Escola: Superior de Tecnologia e Gestão do Instituto • Regime: Diurno + Pós-Laboral Escola: Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria D t Mi lFl i J éM ti RiPi • Docentes: Miguel Felgueiras, José Martins, Rui Paiva A F d Sb i Hl Sil • Autores: Fernando Sebastião e Helena Silva
43
Embed
Apontamentos de Estatística Descritiva · Apontamentos de Estatística Descritiva • Unidade Curricular: Estatística Aplicada ALti2007/2008 • Área Científica: Matemática •
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Apontamentos de Estatística DescritivaApontamentos de Estatística Descritiva
• Unidade Curricular: Estatística Aplicada
A L ti 2007/2008
• Área Científica: Matemática
• Ano Lectivo: 2007/2008
• Curso: Contabilidade e Finanças
• Escola: Superior de Tecnologia e Gestão do Instituto• Regime: Diurno + Pós-Laboral
Escola: Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria
D t Mi l F l i J é M ti R i P i• Docentes: Miguel Felgueiras, José Martins, Rui Paiva
A F d S b i H l Sil• Autores: Fernando Sebastião e Helena Silva
Quadros de frequências:Frequências absolutas.Frequências relativasFrequências relativas.Frequências acumuladas.Dados agrupados em classes.
Representação gráfica de frequências:Representação gráfica de frequências:Diagrama de barras.Diagrama de sectores.Histograma.P lí d f ê iPolígono de frequências.
Redução dos dados:Medidas de tendência central.M did d di ãMedidas de dispersão.Medidas de assimetria.Medidas de achatamento.Medidas de concentração.
Estatística Descritiva 2
Medidas de concentração.
Objectivos/resultados de aprendizagemObjectivos/resultados de aprendizagemGerais:• Explorar a informação contida num conjunto de dados.• Usar espírito crítico na análise dos resultados obtidos quer em
termos numéricos quer em termos computacionaistermos numéricos quer em termos computacionais.
Específicos:No fim deste capítulo da unidade curricular o estudante deverá saber:
Noções básicas:çIdentificar a população em estudo.Identificar a amostra em análise.Identificar a unidade estatística.Identificar o atributo em estudo na população.Distinguir atributos qualitativos e quantitativos.Caracterizar as modalidades para um determinado atributo.
Estatística Descritiva 3
p
Objectivos/resultados de aprendizagemObjectivos/resultados de aprendizagemEspecíficos (continuação):Quadros de frequências:
Determinar e interpretar as frequências absolutas. Determinar e interpretar as frequências relativas. p qDeterminar e interpretar as frequências acumuladas. Distinguir os vários tipos de frequências (absolutas, relativas e acumuladas). Agrupar os dados em classes para um determinado atributo.
Representação gráfica de frequências:Representar e interpretar o diagrama de barras para atributos qualitativos e quantitativosquantitativos.Representar e interpretar o diagrama de sectores para atributos qualitativos e quantitativos.Representar e interpretar o histogramaRepresentar e interpretar o histograma. Distinguir as várias representações gráficas.Identificar as representações gráficas mais adequadas a cada tipo de atributo.Representar e interpretar o polígono de frequências
Estatística Descritiva 4
Representar e interpretar o polígono de frequências.
Objectivos/resultados de aprendizagemObjectivos/resultados de aprendizagemEspecíficos (continuação):Redução dos dados:
Definir, determinar e interpretar as medidas de tendência central: média aritmética, mediana e moda.Definir, determinar e interpretar as medidas de dispersão, nomeadamente amplitude total, amplitude interquartis, desvio padrão e variância.Definir e determinar os percentis, nomeadamente os quartis. Definir e identificar outliersDefinir e identificar outliers.Representar e interpretar diagramas de extremos e quartis. Definir as medidas de assimetria.Interpretar as medidas de assimetria através das medidas de tendência centralInterpretar as medidas de assimetria através das medidas de tendência central assim como através do coeficiente de assimetria. Distinguir a simetria da assimetria negativa e da assimetria positiva. Definir as medidas de achatamento.Interpretar as medidas de achatamento através do coeficiente de achatamento. Distinguir os tipos de achatamento (leptocúrtica, mesocúrtica e platicúrtica).Definir as medidas de concentração.Interpretar as medidas de concentração no contexto dos problemas em análise
Estatística Descritiva 5
Interpretar as medidas de concentração no contexto dos problemas em análise.
BibliografiaBibliografia
[1] Murteira B (1993) Análise Exploratória de Dados[1] Murteira, B. (1993) Análise Exploratória de Dados –Estatística Descritiva, McGraw Hill
[2] Murteira, B., Ribeiro, C., Silva, J. e Pimenta, C. (2002) Introdução à Estatística, McGraw Hill
[3] Pereira, A. (2004) SPSS – Guia Prático de Utilização, Edições SílaboEdições Sílabo
Tem como objectivo tirar conclusões sobre as características dacontida num conjunto
de dados, permitindo assim facilitar a sua
as características da população a partir da informação contidaassim facilitar a sua
compreensão e interpretação
informação contida numa amostra.
Estatística Descritiva 7
interpretação.
Noções básicas Indivíduo ou unidade estatística
Unidade base sobre a qual o observador realiza as observações.
População ou universoConjunto formado por todos os indivíduos em estudoConjunto formado por todos os indivíduos em estudo.
AmostraSubconjunto finito da população que seja representativo desta.
A ib iá lAtributo ou variávelCaracterística em estudo na população.
Modalidades ou categoriasResultados possíveis para um determinado atributo.
Estatística Descritiva 8
Resultados possíveis para um determinado atributo.
Noções básicas Atributos ou Variáveis
Q d j t d t i
Qualitativas
Quando assumem um conjunto de categorias que, embora possam ser representadas por números, não tem significado transformá-las através de operações usuais, tais como, adições ou subtracções.
QuantitativasQuantitativas
Quando assumem um conjunto de valores numéricos.
Estatística Descritiva 9
Noções básicas Variáveis Qualitativas
Nominais Ordinais
P d t b lNão se pode estabelecer uma
l ã d d
Pode-se estabelecer uma relação de ordem entre as categoriasrelação de ordem
entre as categorias.
as categorias.
Exemplo:o grau de satisfaçãoExemplo:
o sexo, feminino ou masculino pode ser
o grau de satisfação relativamente a um serviço, pode ser codificado por
masculino, pode ser codificado por 0 ou 1.
insatisfeito (1), pouco satisfeito (2), satisfeito (3) ou muito satisfeito (4)
Estatística Descritiva 10
ou muito satisfeito (4).
Noções básicas Variáveis Quantitativas ou de Escala
Discretas Contínuas
As categorias definem-se no conjunto dos números i t i
As categorias definem-se no conjunto dos números
inteiros.
Exemplos:
reais.
Exemplos:
• Nº de clientes;• Nº de animais de estimação;
p
• Altura;P• Nº de animais de estimação;
• Nº de livros editados.• Peso;• Lucro anual.
Estatística Descritiva 11
Quadros de FrequênciasDefinição de Frequências
Seja p o número total de modalidades distintas, nas n observações válidas.
Frequências absolutas - ni: número de observaçõesque pertencem à modalidade i, com i = 1, 2, …, p.
.nnp
1ii∑
=
=
q p p
Verifica-se que:1i=
Frequências relativas - fi: percentagem de observaçõesque pertencem à modalidade i com i = 1 2 pque pertencem à modalidade i, com i 1, 2, …, p.
.f e 100nnf
p
1ii
ii 100=×= ∑Verifica-se que:
Estatística Descritiva 12
n 1i=
Quadros de FrequênciasF ê i l ti l d F tFrequências relativas acumuladas - Fi: percentagem de observações que pertencem à modalidade i e
t i i 1 2anteriores, com i = 1, 2, …, p.. 100F e fF p
i
1jji == ∑Verifica-se que:
1j=
Notas:Para o caso em que as variáveis são qualitativas nominaisnão faz sentido determinar as frequências relativas qacumuladas, uma vez que as modalidades não são ordenáveis.
Para o caso em que as variáveis são qualitativas ordinaisPara o caso em que as variáveis são qualitativas ordinaispode fazer sentido determinar as frequências relativas acumuladas uma vez que as modalidades são ordenáveis
Estatística Descritiva 13
acumuladas, uma vez que as modalidades são ordenáveis.
Quadros de FrequênciasVariáveis Qualitativas
O ficheiro SegSocial.sav contém informações de algumas características g ç gpessoais, profissionais, familiares, sociais, etc., que se obtiveram através de um inquérito efectuado a 1500 indivíduos inscritos na Segurança
Estado civil
Social. Considere-se a seguinte variável:
795 53,0 53,0165 11 0 11 0
CasadoViúvo
ValidFrequency (ni) Percent Valid Percent (fi)
165 11,0 11,0213 14,2 14,240 2,7 2,7
286 19 1 19 1
ViúvoDivorciadoSeparadoSolteiro 286 19,1 19,1
1499 99,9 100,01 ,1
1500 100 0
SolteiroTotalNAMissing
Total
Estatística Descritiva 14
1500 100,0Total
Quadros de FrequênciasVariáveis Quantitativas - Dados Não Agrupados em Classes
As idades seguintes obtiveram-se através de um inquérito realizado a
Idade do indivíduo (em anos)
C l ti
g qalguns alunos inscritos no 2º ano de um determinado curso da ESTG.
• 23 alunos dos 58 inquiridos têm 19 anos;• 31% dos alunos inquiridos têm 20 anos;
%Estatística Descritiva 15
• 89,7% dos alunos têm 21 anos ou menos.
Quadros de FrequênciasVariáveis Quantitativas - Dados Agrupados em Classes
Notas:
Para o caso em que as variáveis são quantitativasdiscretas e o número de modalidades é relativamente elevado, os dados são agrupados em classes.
Para o caso em que as variáveis são quantitativascontínuas os dados são agrupados em classes.
Estatística Descritiva 16
Quadros de Frequências
Quantas classes deverão ser utilizadas?
Variáveis Quantitativas - Dados Agrupados em Classes
Quantas classes deverão ser utilizadas?O número de classes, p, a utilizar é o menor inteiro tal que n2p ≥tal que .
Nota: Sempre que possível o número de classes d á t 5 20 i l i
n2 ≥
Seja xi, (i = 1, ..., n) cada uma das observações da variável.
deverá ser entre 5 e 20 inclusive.
• Amplitude total dos dados: IT = max(xi) – min(xi)
P l tê lit dPara o caso em que as classes têm a mesma amplitude:
• Amplitude de cada classe: II TC =
Estatística Descritiva 17
Amplitude de cada classe: p
IC
Quadros de FrequênciasVariáveis Quantitativas - Dados Agrupados em Classes
No ficheiro SegSocial.sav, considere-se a variável quantitativa discreta horas1 (Número de horas trabalhadas na semana passada) cujo número de modalidades é relativamente elevado, pelo que as observações foram agrupadas em classes e apresentadas no seguinte quadro de frequências:
Notas:
agrupadas em classes e apresentadas no seguinte quadro de frequências:Número de horas trabalhadas na semana passada (Binned)
Quadros de FrequênciasVariáveis Quantitativas - Dados Agrupados em Classes
Notas:
Se ao agrupar os dados em classes, existir alguma classe que não contenha observações então não faz sentido usar classes de igual amplitude!!!....
Neste caso usam-se classes de diferentes amplitudes!
Estatística Descritiva 19
Representação Gráfica de Frequências
Variáveis Qualitativas
Diagrama de Barras (“Bar Chart”)
Formado porFormado por rectângulos separados com a mesma largura ecom a mesma largura e com altura igual à frequência (quer sejafrequência (quer seja absoluta ou relativa) correspondente a cada pmodalidade ou categoria.
Estatística Descritiva 20
Representação Gráfica de Frequências Variáveis Qualitativas
Diagrama de Sectores ou Circular (“Pie Chart”)
Círculo constituídoCírculo constituído por sectores, cuja área de cada sectorárea de cada sector é proporcional à frequência (quer sejafrequência (quer seja absoluta ou relativa) de cada uma das modalidades ou categorias.
Estatística Descritiva 21
Representação Gráfica de Frequências Variáveis Quantitativas - Dados Não Agrupados em Classes
Diagrama de Barras (“Bar Chart”)Diagrama de Sectores ou Circular (“Pie Chart”)g ( )
Estatística Descritiva 22
Representação Gráfica de Frequências
Histograma (“Histogram”)
Variáveis Quantitativas - Dados Agrupados em Classes
Histograma ( Histogram )
Formado por 10 classesprectângulos adjacentes com
1 → <102 → 10 - 183 → 19 - 274 28 36largura igual à
Representação Gráfica de Frequências V iá i Q tit ti
Polígono de Frequências
Variáveis Quantitativas
g qÉ a linha poligonal que une os pontos médios superiores de cada rectângulo do diagrama de barras ou do histograma.g g g
Estatística Descritiva 24
Representação Gráfica de Frequências
Variáveis Quantitativas
P iá i ã di t
Notas:Para o caso em que as variáveis são discretas e o número de modalidades é relativamente elevado, os dados são agrupados em classes e consequentemente representados em histogramas.
Para o caso em que as variáveis são contínuas, os dados também podem ser representados em diagramasdados também podem ser representados em diagramas de sectores.
Estatística Descritiva 25
Redução dos DadosA redução dos dados tem por objectivo resumir a informação neles contida, isto é, representar as
observações através de alguns resultados numéricos que analisam as características mais importantes.
Medidas de tendência central
Medidas de dispersão
M did d i iMedidas de assimetria
Medidas de achatamentoMedidas de achatamento
Medidas de concentração
Estatística Descritiva 26
Medidas de Tendência CentralAs medidas de tendência
central representam a Média Aritmética
Medianap
localização do centro das observações.
Mediana
Modaoda
Média Aritmética (“Mean”)
p
Indica o valor em torno do qual se distribuem as observações.Sejam xi, i = 1, 2, …, p, as diferentes modalidades do atributo.
Interpretação:. xnx
p
1iiin
1 Então, ∑=
=
Interpretação:A média indica o valor que cada observação deveria ter para que a soma de todas as observações fosse igual à verificada.
Estatística Descritiva 27
que a soma de todas as observações fosse igual à verificada.
Medidas de Tendência Central
É o alor q e di ide as obser ações em d as partes ig ais
Mediana (“Median”)
É o valor que divide as observações em duas partes iguais. Consideremos as observações ordenadas por ordem
t
⎪⎧ ⎞⎛ + ímpar é n se,nx 1
crescente: .xx...xxx )n()n()()()( ≤≤≤≤≤ −1321
⎪⎪
⎪⎪⎨ +=
⎟⎠⎞
⎜⎝⎛ +⎟
⎠⎞
⎜⎝⎛
⎟⎠⎞
⎜⎝⎛ +
parénse
p
,Então n2n
n
xxMe 1
2
21
Interpretação:⎪⎪⎩
⎠⎝⎠⎝ par é n se,2
50% das observações têm valor superior ou igual à mediana e 50% das observações têm valor inferior ou igual à mediana.
Estatística Descritiva 28
50% das obse ações tê a o e o ou gua à ed a a
Medidas de Tendência Central
É a modalidade ou categoria mais frequente na amostra
Moda (“Mode”)
É a modalidade ou categoria mais frequente na amostra e representa-se por Mo.
A moda não tem de ser única, pois pode haver mais do que uma modalidade com igual frequência, sendo essa frequência máxima. Nesse caso, o SPSS devolve o menor valor da moda.
Observação:P iá i lit ti ú i did d t dê iPara variáveis qualitativas a única medida de tendência central que faz sentido determinar é a moda.
Se todos os indivíduos tivessem a mesma idade, para que a soma de todas as idades fosse igual p q g
a 1149, essa idade teria que ser 19,81 anos.
50% dos indivíduos têm idade inferior A idade mais ou igual a 20 anos e os restantes 50% dos indivíduos têm idade superior ou
igual a 20 anos
frequente entre os indivíduos é 19
anosEstatística Descritiva 30
igual a 20 anos. anos.
Medidas de Dispersão As medidas de dispersão analisam o grau de
variabilidade das observações de um conjunto de dados em torno das medidas de tendência central.em torno das medidas de tendência central.
Amplitude Total (“Range”)É a diferença entre o valor observado mais elevado e o valor observado mais baixo: IT = max (xi) – min (xi).
Quartis (“Quartiles”):O t ê ti ( ) ã l di id d dOs três quartis (q1, q2 e q3) são os valores que dividem os dados em 4 partes iguais em termos de percentagem de observações.
q1 q2 q3min (xi) max (xi)
25 % obs.25 % obs.25 % obs. 25 % obs.
Estatística Descritiva 31
q2( i)
Medidas de Dispersão Consideremos as observações ordenadas por ordem crescente: Os valores dos 1º, 2º e . xx...xx )n()n()()( ≤≤≤≤ −121
3º quartis com r = 1, 2 e 3, respectivamente, são dados por: xx
nrnr
⎪⎪⎧ +
⎟⎞
⎜⎛ +×⎟
⎞⎜⎛ × 1
( ) natural énão n4r se,
natural é n4r se ,
rq
x m
nn4
×
×
⎪⎪⎩
⎪⎪⎨=
⎟⎠
⎜⎝
+×⎟⎠
⎜⎝
×
2
14
( )
n.4r
4,
a superior inteiro número menor o é m
m
×
⎪⎩
Nota:Existem diferentes formas de definir os quartis podendo surgirExistem diferentes formas de definir os quartis, podendo surgir valores ligeiramente diferentes para o mesmo quartil. Uma possível definição é a apresentada anteriormente.
Estatística Descritiva 32
p ç p
Medidas de Dispersão Q (” ”)Percentis ou Quantis (”Percentiles”):
São os valores Qp tais que p% das observações da amostra são inferiores ou iguais a Qp.