ENGENHARIA DE CONTROLE E AUTOMAÇÃO ESTATÍSTICA BÁSICA PROF. SEBASTIÃO ALVES CARNEIRO VITÓRIA 2011-2
ENGENHARIA DE CONTROLE E AUTOMAÇÃO
ESTATÍSTICA BÁSICA
PROF. SEBASTIÃO ALVES CARNEIRO
VITÓRIA 2011-2
DIREITOS RESERVADOS IFES – Centro Federal de Educação Tecnológica do Espírito Santo Créditos de autoria da editoração COPYRIGHT – É proibido a reprodução, mesmo que parcial, por qualquer meio, sem autorização escrita dos autores e do detentor dos direitos autorais. Catalogação na fonte: Rogéria Gomes Belchior - CRB 12/417
C289 Carneiro, Sebastião Alves Probabilidade e estatística. / Sebastião Alves Carneiro. – Vitória: CEFETES, 2008.
1. Probabilidade. 2. Estatística. I. Centro Federal de Educação Tecnológica do Espírito Santo. II. Título.
CDD 519
sumário
Olá, Aluno (a)! Seja bem-vindo (a) ao nosso curso de Estatística Básica! Sou o professor Sebastião Alves Carneiro, responsável pela gerência e produção de material dessa disciplina, no curso de Tecnologia em Análise e Desenvolvimento de Sistemas. Sou formado em Engenharia Elétrica e tenho Mestrado em Controle de Sistemas pela Universidade Federal do Espírito Santo - UFES. Atualmente, ocupo o cargo de Diretor Adjunto, no Campus Serra. Já lecionei a disciplina de Probabilidade e Estatística no curso de Análise e Desenvolvimento de Sistemas, no Campus Serra. Acredito que, com tecnologia na sala de aula, o papel do educador muda de detentor do conhecimento para guia das investigações dos alunos. O novo professor tem que estar preparado para deixar de ser o que apenas fornece informações para ser um orientador, aquele que ajuda a selecionar informações e fazer articulações. Nós aprendemos uns com os outros, a toda hora, a qualquer momento. A disciplina de Estatística é importante para sua formação, pois é uma área do conhecimento que utiliza teorias probabilísticas para explicação de eventos, estudos e experimentos. Tem por objetivo obter, organizar e analisar dados, determinar as correlações que apresentem, tirando delas suas conseqüências para descrição e explicação do que passou e previsão e organização do futuro. Portanto, serão estudados neste curso tanto os conceitos fundamentais, como as técnicas formais da estatística. Nosso curso será dividido em 6 capítulos:no primeiro, faremos a introdução de nossos estudos; no segundo, estudaremos a construção de gráficos, bem como suas propriedades e aplicações; no terceiro, veremos métodos gráficos; no quarto estudaremos medidas de ordenamento e posição; no quinto, estudaremos medidas de dispersão e por fim Correlação e Regressão. Um curso de Estatística Básica requer um tempo diário de estudo e dedicação. Por isso é muito importante que você faça todas as atividades propostas, tanto neste material como na sua sala de aula virtual. • Leia os textos com bastante atenção, sempre com espírito questionador e investigativo. • Personalize o seu estudo. Dê novos títulos e subtítulos, reorganizando a divisão do texto. Assim,
você o verá por uma nova ótica e será mais fácil reter as informações por partes. • Crie perguntas e tente respondê-las sem pesquisar. Depois, confira as respostas. • Sintetize com suas palavras o que foi estudado. Faça resumos: destaque o tema central, as
definições essenciais, os exemplos, os casos particulares, as observações. • Leia bem os enunciados das questões propostas e interprete o que se pede. Comece, então, a
responder com atenção, sempre pesquisando no livro texto ou em outros meios que facilitem sua resposta. Verifique se todas estão corretas, revendo o que foi feito.
• Interesse-se, participe e discuta com o professor e com seus colegas. • Faça análise dos exercícios resolvidos que se encontram ao longo deste fascículo e, se houver
dúvidas, entre em contato com o seu professor. Você logo perceberá que o sucesso neste curso é questão de tempo!
CAPÍTULO 1 AMOSTRAGEM
1.1. INTRODUÇÃO
Olá, Aluno (a)! O objetivo fundamental da Introdução é dar uma visão inicial da estatística. Neste capítulo, veremos históricos da estatística, método estatístico, definições básicas da estatística e iniciaremos amostragem. A estatística é uma área do conhecimento que utiliza teorias probabilísticas para explicação de eventos, estudos e experimentos. Tem por objetivo obter, organizar e analisar dados; bem como determinar suas correlações, tirando delas suas conseqüências, explicar o que passou e prever o que ocorrerá no futuro. Bons estudos! Prof. Sebastião A. Carneiro
1.2. HISTÓRICO Faremos um breve histórico para expor o modo como a estatística surgiu. � ANTIGUIDADE : os povos na antiguidade registravam o número de habitantes, nascimentos,
óbitos. Já faziam "estatísticas". � IDADE MÉDIA : as informações na Idade Média eram tabuladas com finalidades tributárias e
bélicas. � SÉCULO XVI : no século XVI surgem as primeiras análises sistemáticas, as primeiras tabelas e
os números relativos. � SÉCULO XVIII : no século XVIII a estatística surge com notação científica a qual é adotada
pelo acadêmico alemão GODOFREDO ACHENWALL. As tabelas ficam mais completas, surgindo às primeiras representações gráficas e os cálculos de probabilidades. A estatística deixa de ser uma simples tabulação de dados numéricos para se tornar o estudo de como se chegar à conclusão sobre uma população, partindo de observação de partes dessa população.
1.3 MÉTODO ESTATÍSTICO
O método estatístico se aplica ao estudo dos fenômenos aleatórios. Um fenômeno é considerado aleatório se seus resultados variarem, a cada repetição, nas mesmas condições.
1.4. FASES DO MÉTODO ESTATÍSTICO
É importante conhecer todas as fases do método estatístico, pois você deverá segui-las quando desejar fazer uma pesquisa.
Comentando as fases do método estatístico:
1a - DEFINIÇÃO DO PROBLEMA: Saber exatamente o que se quer pesquisar é o mesmo que
definir corretamente o problema.
2a - PLANEJAMENTO: Como levantar informações? Que dados deverão ser obtidos? Qual o
levantamento a ser utilizado: censitário, por amostragem? E o cronograma de atividades? Os custos
envolvidos?
3a - COLETA DE DADOS: Fase operacional. É o registro sistemático de dados, com um objetivo
determinado.
MÉTODO : é um meio mais eficaz para atingir determinada meta. MÉTODO CIENTÍFICO : é um conjunto de regras básicas para desenvolver uma experiência a fim de produzir novo conhecimento, bem como corrigir e integrar conhecimentos pré-existentes.Destacamos o método experimental e o método estatístico. MÉTODO EXPERIMENTAL : consiste em manter constantes toda a causa, menos uma, que é a que sofre variação para se observarem seus efeitos. Exemplos: Estudos da Química, da Física, etc. MÉTODO ESTATÍSTICO : é um processo para obter, apresentar e analisar características ou valores numéricos para uma melhor tomada de decisão em situações de incerteza. Exemplo: Quais as causas que definem o preço de uma mercadoria quando a sua oferta diminui? Comentário: Seria impossível, no momento da pesquisa, manter constantes a uniformidade dos salários, o gosto dos consumidores, o nível geral de preços de outros produtos, etc.
Apresentação dos dados
Definição do
problema
Coleta de
dados
Apuração dos dados
Planejamento
4º - APURAÇÃO DOS DADOS : Resumo dos dados por meio de sua contagem e de seu
agrupamento. É a condensação e tabulação de dados.
5º - APRESENTAÇÃO DOS DADOS : Há duas formas de apresentação, que não se excluem
mutuamente. A apresentação tabular é uma apresentação numérica dos dados em linhas e colunas
distribuídas de modo ordenado, segundo regras práticas fixadas pelo Conselho Nacional de
Estatística. A apresentação gráfica dos dados numéricos constitui uma apresentação geométrica que
permite uma visão rápida e clara do fenômeno.
6º - ANÁLISE E INTERPRETAÇÃO DOS DADOS: A última fase do trabalho estatístico é a
mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja
finalidade principal é descrever o fenômeno (estatística descritiva).
1.5. CONCEITOS BÁSICOS
Muitas vezes, apesar dos recursos computacionais e da boa vontade, não é possível estudar todo um
conjunto de dados de interesse, pois fica caro e leva muito tempo. Assim, normalmente, se trabalha
com partes da população denominadas de amostras.
1.5.1 População
ATIVIDADE 1 Responda a questão a seguir:
Em que fase do método estatístico devemos:
a) ter uma visão rápida e clara do fenômeno?
b) fazer o registro sistemático de dados?;
c) fazer a condensação e tabulação de dados?
d) ser mais cuidadosos, pois é a fase mais importante e delicada do
método?
e) fazer o cronograma de atividades?
f) definir corretamente o problema?
População é o conjunto total de elementos portadores de, pelo menos, uma característica comum.
Note-se que o termo população é usado num sentido amplo e não significa, em geral, conjunto de
pessoas.o
Exemplos:
a) o conjunto das rendas de todos os habitantes do Espírito Santo;
b) o conjunto de todas as notas dos alunos de Estatística;
c) o conjunto das alturas de todos os alunos da Universidade; etc.
Um levantamento efetuado sobre toda uma população é denominado de levantamento censitário ou
Censo.
1.5.2 Amostras
Amostras são parcelas representativas de uma população, examinada com o propósito de se tirarem
conclusões sobre essa população.
Exemplos:
a) antes da eleição diversos órgãos de pesquisa e imprensa ouvem um conjunto selecionado
de eleitores para ter uma idéia do desempenho dos vários candidatos nas futuras eleições;
b) uma empresa metal-mecânica toma uma amostra do produto fabricado em intervalos de
tempo especificados para verificar se o processo está sob controle e evitar a fabricação
de itens defeituosos;
c) o IBGE faz levantamentos periódicos sobre emprego, desemprego, inflação, etc;
d) redes de rádio e TV se utilizam constantemente dos índices de popularidade dos
programas para fixar valores da propaganda, ou então, modificar ou eliminar programas
com audiência insatisfatória;
e) biólogos marcam pássaros, peixes, etc, para tentar prever e estudar seus hábitos.
1.5.3 Variável
Variável é, convencionalmente, o conjunto de resultados possíveis de um fenômeno.
• Variável qualitativa: quando seus valores são expressos por atributos:
Exemplo: sexo, cor da pele, etc.
• Variável quantitativa: quando os dados são de caráter nitidamente quantitativo, e o conjunto
dos resultados possui uma estrutura numérica. Divide-se em:
a) Variável discreta: seus valores são expressos geralmente por números inteiros não
negativos. Resulta normalmente de contagens.
Exemplo:
ATIVIDADE 2
1) Estabeleça a população, a amostra e o tipo de fonte de dados em cada
caso:
a) Numa escola de primeiro grau com 560 alunos matriculados, foram
sorteados 100 alunos que responderam a um questionário sobre
preferência por sites na internet.
b) Entre os 1300 funcionários de uma empresa de manutenção em
informática selecionaram 65 pessoas e perguntaram qual componente do
computador que apresentava maior quantidade de defeitos. Os resultados
obtidos foram os seguintes:
Componente defeituoso Número de funcionários
Mouse 35
Teclado 10
Fonte de tensão 20
a) número de computadores vendidos no mês (231);
b) quantidade de placa mãe em estoque (346).
b) Variável contínua: resulta normalmente de uma mensuração, e a escala numérica de seus
possíveis valores corresponde ao conjunto R dos números Reais, ou seja, pode assumir, teoricamente,
qualquer valor entre dois limites.
Exemplos:
a) quando se mede a temperatura do corpo de alguém com um termômetro de mercúrio,
o que ocorre é o seguinte: o filete de mercúrio, ao dilatar-se, passa por todas as
temperaturas intermediárias até chegar à temperatura do corpo no momento da
medição (37,6oC).
b) diâmetro de um furo (23,456mm);
c) peso de um objeto (12,2345kg).
ATIVIDADE 3 1) Classifique as variáveis abaixo em qualitativas ou quantitativas:
- cor dos olhos dos alunos;
- índice de liquidez nas indústrias capixabas;..
- produção de café no Brasil;
- número de defeitos em aparelhos de TV;.
- comprimento dos pregos produzidos por uma empresa;
- pontuação obtida em cada jogada de um dado.
2) Para os seguintes valores, indique as variáveis discretas (D) e as contínuas (C):
(a) peso do conteúdo de um pacote de DVD virgem;
(b) diâmetro de um CD;
(c) número de artigos defeituosos produzidos;
(d) número de indivíduos, em uma área geográfica, que recebem seguro- desemprego;
(e) número médio de clientes potenciais visitados por vendedores de uma empresa durante
o último mês;
(f) temperatura interna de um computador;
(g) número de unidades estocadas de um artigo;
(h) razão entre o ativo circulante e o passivo exigível;
(i) total de toneladas embarcadas;
(j) quantidade embarcada de computadores;
(k) volume de tráfego de um posto de pedágio;
(l) número de comparecimento ao encontro anual de uma companhia.
1.6 AMOSTRAGEM
O processo de escolha de uma amostra da população é denominado de amostragem.
Quando a amostra é tendenciosa, não podemos extrapolar os resultados obtidos para o universo da
população. É o caso da amostragem por conveniência, que ocorre quando a participação é voluntária
ou os elementos da amostra são escolhidos por uma questão de conveniência (muitas vezes,
os amigos e os amigos dos amigos). Deste modo, o processo amostral não garante que a amostra seja
representativa.
A melhor forma de conseguir este objetivo é obter uma amostra aleatória de uma população bem
definida. Existem técnicas de amostragem a que devemos recorrer para assegurar que a amostra
forneça uma boa estimativa dos parâmetros populacionais.
Há vários métodos de amostragem: aleatória simples, (cada elemento da população tem igual
probabilidade de ser escolhido para caracterizar a amostra); amostragem sistemática (depois de
ordenada a população, seleciona-se a amostra probabilística);amostragem estratificada, etc.
1.6.1 AMOSTRAGEM CASUAL OU ALEATÓRIA SIMPLES
A amostragem casual ou aleatória simples é o processo mais elementar e frequentemente utilizado na
coleta de dados. Todos os elementos da população têm que ter a mesma probabilidade de
pertencerem à amostra. Equivale a um sorteio lotérico. Pode ser realizada numerando-se a população
de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, x números dessa
seqüência, os quais corresponderão aos elementos pertencentes à amostra.
Exemplo 1:
Vamos obter uma amostra, de 10%, representativa para a pesquisa da estatura de 90 alunos de
uma escola:
1º passo - Numeramos os alunos de 1 a 90.
2º passo - Escrevemos os números dos alunos, de 1 a 90, em pedaços iguais de papel, colocamos
em uma urna e, após mistura, retiramos, um a um, os nove números que formarão a amostra.
Resultado obtido= {aluno 20, aluno 27, aluno 15, aluno 56, aluno 81, aluno 12, aluno 66, aluno
54, aluno 72}.
Exemplo 2: Uma cidade turística tem 30 hotéis de três estrelas. Pretende-se conhecer o custo médio da diária para
apartamento de casal. Os valores populacionais consistem nos seguintes preços diários: 125, 120, 135,
121, 122, 124, 125, 130, 138, 124, 120, 120, 125, 120, 119, 125, 123, 124, 128, 124, 124, 122, 128,
126, 123, 125, 122, 127, 125, 123.
Extraia uma amostra aleatória simples de tamanho 5 desta população por sorteio.
R: Escrevemos os valores em papéis, então os colocamos em uma urna, misturamos e sorteamos a
amostra de n=5 .
Resultado obtido: n= (120, 124, 122, 128, 123)
Obs.: Quando o número de elementos da amostra é muito grande, esse tipo de sorteio torna-se muito
trabalhoso. Nesse caso, utiliza-se uma tabela de números aleatórios ou isso é feito por meio de
software que gera esses números.
1.6.2 Amostragem sistemática
Amostra sistemática é constituída de elementos retirados da população, segundo um sistema
preestabelecido.
É conveniente quando a população está naturalmente ordenada, como fichas em um fichário, listas
telefônicas, etc.
Exemplo 1:
Suponha que uma empresa de telefonia fixa deseja saber o grau da satisfação de seus usuários com os
serviços prestados. O número de assinantes é da ordem de 50.000 e nós desejamos selecionar uma
amostra aleatória de 1.000 assinantes com o intuito de obter a avaliação sobre os serviços.
Um modo alternativo de seleção é a seleção de 1 assinante a cada 50. O procedimento será selecionar
aleatoriamente um assinante entre os primeiros 50, digamos que o vigésimo assinante (20) fosse
selecionado. O próximo selecionado seria o de ordem 70 (20+50), o seguinte de ordem 120 (70+50) e
assim por diante, ou seja: 20, 70, 120, 170, 220 ....... . Com esse método são economizados recursos
físicos e financeiros.
A amostra sistemática é frequentemente utilizada em pesquisas nas quais o tamanho da população é
grande ou que a pesquisa seja feita por pessoas que não estão familiarizadas com tabelas de números
aleatórios ou com uso de software.
No caso da seleção de amostra aleatória simples de assinantes, seria necessário que tivéssemos os
assinantes numerados, sequencialmente, de 1 a 50.000 e seriam selecionados os 1.000 assinantes. A
seleção poderia ser feita com o uso de uma tabela de números aleatórios ou de software que gerasse
esses números.
Exemplo 2:
É dada uma população constituída pelas 12 primeiras letras do alfabeto. Explique o que você faria
para obter uma amostra sistemática de 3 elementos.
Resolução:
Dividindo 12 por 3 obtém-se 4. Sorteie então uma das quatro primeiras letras do alfabeto. Essa letra
sorteada será a primeira da amostra. Depois, a partir dessa letra, conte quatro e retire a quarta letra
para a amostra. Repita o procedimento e retire mais uma letra de forma sucessiva.
Exemplo: Se a letra sorteada for B, então a amostra será C, G e K.
As amostras sistemáticas são suscetíveis a erros induzidos por periodicidade naturais da população,
permitindo ao investigador prever e, possivelmente, manipular quem entrará na amostra.
1.6.3 AMOSTRAGEM PROPORCIONAL ESTRATIFICADA
Quando a população se divide em estratos (subpopulações), convém que o sorteio dos elementos da amostra os leve em consideração. Desse modo, obtemos os elementos da amostra proporcionalmente ao número de elementos desses estratos.
Exemplo:
Vamos obter uma amostra proporcional estratificada, de 10%, do exemplo anterior, supondo que, dos 90 alunos, 54 sejam meninos e 36 sejam meninas. São, portanto, dois estratos (sexo masculino e sexo feminino). Logo, temos:
Tabela 1.1 Amostra proporcional estratificada Numeramos, então, os alunos de 01 a 90 (de 01 a 54 para os meninos e de 55 a 90 para as meninas) e procedemos ao sorteio. Exemplo: Em determinada região, a população com cursos superiores é composta por 40% de homens e 60% de mulheres. Deseja-se fazer uma pesquisa com 50 pessoas com cursos superiores. Neste caso, seleciona, os dois grupos (homens e mulheres) e sorteiam-se 20 homens e 30 mulheres. Homens = 40% de 50 = 20; Mulheres= 60% de 50 =30.
Riscos da amostragem. O processo de amostragem envolve riscos, pois se toma decisões sobre toda a população com base em apenas uma parte dela. A teoria da probabilidade, que veremos neste curso, pode ser utilizada para fornecer uma idéia do risco envolvido, ou seja, do erro cometido ao utilizar uma amostra ao invés de toda a população.
SEXO POPULACÃO 10 % AMOSTRA MASC. 54 5,4 5 FEMIN. 36 3,6 4
Total 90 9,0 9
Na realidade, a amostragem proporcional estratificada leva em consideração as diferenças que há dentro de uma população e é mais democrática.
ATIVIDADE 4
1) Imagine que você tem 500 cadastros arquivados em sua empresa, dos quais você
quer uma amostra de 2%. Como você procederia para obter uma amostra
sistemática e uma amostra aleatória?
2) Uma população se encontra dividida em quatro estratos, com tamanhos 90N1 = ,
120N2 = , 60N3 = e 480N4 = . Ao se realizar uma amostra, doze elementos
da amostra foram retirados do primeiro estrato. Qual o número de elementos de
cada estrato?
3) Com o objetivo de fazer testes de qualidade com determinados produtos de uma
empresa de informática, optou-se por realizar um levantamento por amostragem. A
população é constituída por:
Produto A : A1, A2, A3, A4, A5, A6, A7, A8, A9, A10;
Produto B : B1, B2, B3, B4, B5, B6, B7, B8, B9, B10;
Produto C : C1, C2, C3, C4, C5, C6, C7, C8, C9, C10,
C11, C12, C13, C14,C15,C16, C17, C18, C19, C20,
C21, C22, C23, C24, C25, C26, C27, C28, C29, C30.
Como você faria para obter uma amostra global, de tamanhos 10?
4) Uma escola possui 120 alunos, sendo 32 na quinta série, 24 na sexta série, 26 na sétima série e 38 na oitava série. Em uma amostra de 15 alunos, quantos de cada série farão parte dessa amostra, nessa mesma ordem de séries?
a) 4, 2, 3 e 6 alunos b) 4, 3, 4 e 4 alunos c) 5, 2, 3 e 5 alunos d) 4, 3, 3 e 5 alunos
CAPÍTULO 2
SÉRIES E CONSTRUÇÃO DE GRÁFICOS
Olá, Aluno (a)!
Neste capítulo, estudaremos séries e construção de gráficos. As tabelas, os gráficos e as figuras são elementos gráficos que apresentam dados ou informações com a finalidade de facilitar sua leitura e compreensão.
Bons estudos!
Prof. Sebastião A. Carneiro
2.1 SÉRIE ESTATÍSTICA
Qualquer tabela que apresente a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie é uma série estatística.
Os trabalhos técnico-científicos utilizam-se, em geral, de tabelas estatísticas para apresentar dados. Elas podem ser definidas como conjuntos de dados estatísticos associados a um fenômeno, dispostos numa determinada ordem de classificação. Expressam, pois, as variações qualitativas e quantitativas de um fenômeno.
TABELA é um quadro que resume um conjunto de dados dispostos em linhas e colunas de maneira sistemática.
De acordo com a Resolução 886, do IBGE, nas casas ou células da tabela, devem-se inserir:
- um traço horizontal (-) quando o valor é zero;
- três pontos (...), quando não se têm os dados;
- zero (0),quando o valor é muito pequeno para ser expresso pela unidade utilizada;
- um ponto de interrogação (?),quando há dúvidas quanto à exatidão de determinado valor.
Obs.: o lado direito e o esquerdo de uma tabela oficial devem ser abertos.
2.1.1 SÉRIE TEMPORAL
Também chamada de histórica ou evolutiva, a série temporal identifica-se pelo caráter variável do fator cronológico (tempo). O local e a espécie (fenômeno) são elementos fixos. Exemplo:
Tabela 2.1 Evolução das reservas brasileiras
Ano Evolução das reservas brasileiras
(em bilhões de dólares)
2000 32 2001 36 2002 37 2003 49 2004 52 2005 53 2006 85 2007 180 2008 190
Fonte: Revista Veja - edição 2050 Observar que a Evolução das reservas brasileiras (em bilhões de dólares) variou com o tempo (de 2000 a 2008).
2.1.2 SÉRIE GEOGRÁFICA
Também chamada de espacial, territorial ou de localização, a série geográfica apresenta como elemento variável o fator geográfico. A época e o fato (espécie) são elementos fixos. Exemplo:
Tabela 2.2 Vendas em 2007 da empresa ABC Informática Ltda..
FILIAIS COMPUTADOR
ES VENDIDOS
São Paulo 12.645
Rio de Janeiro 15.765
Minas Gerais 13.410 Espírito Santo 8.546 TOTAL 50.366
Observar como as vendas de computadores da empresa ABC Informática Ltda. variaram em 2007 nos estados da região Sudeste; ou seja, houve variação geográfica.
2.1.3 SÉRIE ESPECÍFICA
Também chamada de categórica, a série específica tem como caráter variável apenas o fato ou espécie. Exemplo:
Tabela 2.3 Vendas por setor em 2006 das 200 maiores empresas de tecnologia do Brasil.
Observar que houve variação por setores de empresas de tecnologia do Brasil e não há informação quanto à variação no tempo ou por região. De uma forma geral, se a série simples não for temporal ou geográfica, você pode considerá-la específica. 2.1.4 SÉRIES CONJUGADAS
Também chamadas de tabelas de dupla entrada, as séries conjugadas são apropriadas à apresentação de duas ou mais séries de maneira conjugada, com duas ordens de classificação: uma horizontal e outra vertical. O exemplo abaixo é o de uma série geográfico-temporal. Exemplo:
Tabela 2.4 Vendas no 1º bimestre de 2007 da empresa ABC Informática Ltda.
FILIAIS Janeiro Fevereiro Março Abril Maio Junho
São Paulo 1200 1280 1360 1440 1520 1600 Rio de Janeiro 1350 1390 1430 1470 1510 1550 Minas Gerais 1410 1670 1930 2190 2450 2710 Espírito Santo 1046 1099 1152 1205 1258 1311 TOTAL 5006 5439 5872 6305 6738 7171
Observar que as vendas de computadores variam nos estados da região Sudeste, de janeiro a junho de 2007, caracterizando, assim, a série conjugada geográfico-temporal.
Setores Vendas
(milhões de dólares)
Comunicação 56.927,70 Hardware 20.488,20 Serviços de Software 7.300,40 Serviços 5.603,50 Software 2.419,10 Distribuição 1.380,40 Internet 657,40 Fonte: Info Exame- ago. 2007.
ATIVIDADE 1 1. Que tipo de série está representado nesta tabela?
TERMINAIS TELEFÔNICOS EM SERVIÇO
1992-1993 REGIÕES 1992 1993 Norte 375.658 403.494 Nordeste 1.379.101 1.486.649 Sudeste 6.729.467 7.231.634 Sul 1.608.989 1.746.232 Centro-oeste 778.925 884.822
Fonte: Ministério das Comunicações.
2. qual a origem dos dados para a elaboração da tabela?
3. Procure identificar em jornais ou em revistas exemplos das séries apresentadas.
2.2 Gráficos Estatísticos
Gráficos estatísticos são representações visuais dos dados estatísticos. Não substituem as tabelas estatísticas apenas fornecem uma representação mais imediata dos dados.
Os gráficos estatísticos têm como características a simplicidade, a clareza e a veracidade. Fazem uso de escalas e do sistema de coordenadas e possibilitam uma compreensão mais imediata dos dados. Veremos a seguir os tipos de gráficos mais utilizados 2.2.1DIAGRAMAS
Diagramas são gráficos geométricos dispostos em duas dimensões. São os mais usados na representação de séries estatísticas, por esse motivo não abordaremos os outros tipos de gráficos. Os diagramas podem ser: a) Gráficos Em Linhas Ou Lineares Gráficos em linhas ou lineares são os frequentemente usados para representação de séries cronológicas com um grande número de períodos de tempo. As linhas são mais eficientes do que as colunas quando existem intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um mesmo gráfico. Exemplo:
Tabela 2.5 Evolução das reservas
Ano Evolução das reservas brasileiras
(em bilhões de dólares)
2000 32 2001 36 2002 37 2003 49 2004 52 2005 53 2006 85 2007 180 2008 190
Fonte: Revista Veja - edição 2050
0
20
40
60
80
100
120
140
160
180
200
1998 2000 2002 2004 2006 2008 2010
Figura 1 - Gráfico Evolução das reservas brasileiras
Observe que as reservas brasileiras dispararam depois de 2005. O gráfico retrata isso mais facilmente!
B) GRÁFICOS EM BARRAS HORIZONTAIS
Quando as legendas não são breves, usam-se de preferência, os gráficos em barras horizontais. Neles, os retângulos têm a mesma altura e as bases são proporcionais aos respectivos dados. Exemplo :
Tabela 2.6 Empresas com maior número de funcionários entre as maiores empresas de tecnologia do Brasil
Empresas Funcionários
ATENTO BRASIL (Serviços) 54.415
CONTAX (Serviços) 49.397
DEDIC (Serviços) 14.903
EMBRATEL (Comunicação) 14.268
TELEFUTURA (Serviços) 11.174
CSU CARDSYSTEM (Serviços) 10.153
TIM (Comunicação) 9.972
SERPRO (Serviços de Software) 9.960
CTBC (Comunicação) 8.734
EDS (Serviços) 8.239
Fonte: Info Exame, ago. 2007
a
0 10.000 20.000 30.000 40.000 50.000 60.000
ATENTO BRASIL (Serviços)
CONTAX (Serviços)
DEDIC (Serviços)
EMBRATEL (Comunicação)
TELEFUTURA (Serviços)
CSU CARDSYSTEM (Seviços)
TIM (Comunicação)
SERPRO (Serviços de Software)
CTBC (Counicação)
EDS (Serviços)
Figura 2 - Gráfico Empresas com maior número de funcionários entre as maiores empresas de tecnologia do Brasil.
ATIVIDADE 2
Reproduza os dois tipos de gráficos anteriores usando uma planilha eletrônica, buscando novos dados em jornais ou em revistas, e, a seguir, compare os resultados: lembre-se de que o resultado deverá ser o mesmo..
c) Gráficos em barras verticais (colunas) Quando as legendas não são breves, usam-se, de preferência, os gráficos em barras verticais. Nesses gráficos, os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados. Exemplo: A tabela a seguir mostra alguns resultados das empresas com maior crescimento de vendas - em % - entre as 200 maiores empresas de tecnologia do Brasil.
Tabela 2.7 Empresas com maior crescimento de vendas entre as 200 maiores empresas de tecnologia do Brasil.
Empresas Vendas (%)
VIATELECOM (Comunicação) 181,80 NEXTSYS (Software) 156,90 PROVIDER (Serviços) 85,30 TEELAP (Distribuição) 84,10 POSITIVO (Hardware) 77,60 HOLDI TI (Serviços) 74,40 SYNTAX (Hardware) 71,10
TIVIT (Serviços) 70,90 NEXTEL (Comunicação) 67,10 WITTEL (Software) 65,00 Fonte: Info Exame, ago. 2007.
0,00
20,00
40,00
60,00
80,00
100,00
120,00
140,00
160,00
180,00
200,00
VIAT ELECOM
(Comuni cação)
NEXT SYS
(Ser v i ços de
Sof twar e
PROVIDER
(Ser v i ços)
T EELAP
(Di st r i bui ção)
POSIT IVO
(Har dwar e)
HOLDI T I
(Ser v i ços)
SYNT AX
(Har dwar e)
T IV IT (Ser v i ços) NEXT EL
(Comuni cação)
WIT T EL (Ser v i ços
de Sof twar e)
Figura 3 - Gráfico Empresas com maior crescimento de vendas entre as 200 maiores empresas de tecnologia do Brasil.
d) Gráficos em colunas superpostas Os gráficos em colunas superpostas diferem dos gráficos em barras ou colunas convencionais apenas pelo fato de apresentarem cada barra ou coluna segmentada em partes por componentes. Servem para representar comparativamente dois ou mais atributos. Exemplo: Construção de um diagrama em colunas superpostas que retrate os lucros retidos e os dividendos da Empresa de Aço Steel Corporation , 1969-74, em milhões de dólares. Tabela 2.8 lucros retidos e os dividendos da Steel Corporation, 1969-74.
Ano Lucros Dividendos Lucros Retidos 1969 1970 1971 1972 1973 1974
217 148 154 157 326 635
130 130 98 87 87 119
87 18 56 70 239 516
Fonte: Fictícia
0
100
200
300
400
500
600
700
1969 1970 1971 1972 1973 1974
Figura 4 - Gráfico lucros retidos e os dividendos da Steel Corporation, 1969-74.
ATIVIDADE 2.3
Reproduza os dois tipos de gráficos anteriores, usando uma planilha eletrônica, buscando também novos dados em jornais ou em revistas. A seguir, compare os resultados; lembrando-se de que este deverá ser o mesmo.
E) GRÁFICOS EM SETORES (PIZZA )
Os gráficos em setores são construídos com base em um círculo e são empregados sempre que desejamos ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em tantos setores quantas são as partes. Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série. O gráfico em setores só deve ser empregado quando há, no máximo, sete dados para não sobrecarregar sua partição. Exemplo: Construção de um diagrama em setores que retrate a participação no mercado mundial das empresas de smartphones.
Tabela 2.9 Participação no mercado mundial dos fabricantes de smartphones.
Empresas Participação no
mercado mundial (%)
Symbian 71,7 Linux 14,3 Windows Mobile 6,9 Blackberry 4,7 Palm OS 2,3 Outros 0,1
Fonte: Info Exame, ago. 2007
Symbian71,7%
Linux14,3%
Window s Mobile6,9%
Blackberry4,7% Outros
0,1%
Palm OS2,3%
Symbian
Linux
Window s Mobile
Blackberry
Palm OS
Outros
Figura 5 - Gráfico Participação no mercado mundial dos fabricantes de smartphones.
Observe que, atualmente, a empresa Symbian domina o mercado de smartphones!
F) GRÁFICO POLAR (RADAR)
O gráfico polar é o ideal para representar séries temporais cíclicas, isto é, séries ideais que apresentem em seu desenvolvimento determinada periodicidade, como a ocorrência de chuvas no ano numa determinada região, a variação da temperatura ao longo do dia, a venda de monitores da filial 1 durante a semana, o consumo de energia elétrica durante o mês ou ano, o número de passageiros de uma linha de ônibus ao longo da semana, etc. O gráfico polar faz uso do sistema de coordenadas polares. Exemplo: Dada a série: número de ocorrências de manutenção efetuadas nos computadores da companhia InfoWay em 2007.
Tabela 2.10 Número de ocorrências de manutenção
MESES OCORRÊNCIAS
Janeiro 148 Fevereiro 164 Março 152 Abril 188
1. traçamos uma circunferência de raio arbitrário (em particular, damos preferência ao raio de
comprimento proporcional à média dos valores da série); 6 construímos uma semi-reta (de preferência, na horizontal) partindo de O (pólo) e com uma
escala (eixo polar); 7 dividimos a circunferência em tantos arcos quantas forem às unidades temporais; 8 traçamos, a partir do centro O (pólo), semi-reta passando pelos pontos de divisão; 9 marcamos os valores correspondentes das ocorrências de manutenção, iniciando pela semi-reta
horizontal (eixo polar); 10 ligamos os pontos encontrados com segmentos de reta; 11 se pretendermos fechar a poligonal obtida, empregamos uma linha interrompida.
Figura 6 - Gráfico número de ocorrências efetuadas nos computadores em 2007
Pelo gráfico, percebemos que os meses em que houve mais ocorrências efetuadas nos computadores foram outubro e novembro; com essa informação, podemos nos planejar para esses meses, contratando mais funcionários, etc. Observe quanto uma informação como essa é importante em sua vida profissional!
Maio 160 Junho 176 Julho 164 Agosto 184 Setembro 164 Outubro 219 Novembro 211 Dezembro 140 FONTE: Sindan.
Exemplo 2: Comparar os itens mais vendidos de uma empresa de informática, por meio de gráfico polar, nos meses de janeiro e fevereiro de 2010. 2.11 Itens mais vendidos de uma empresa de informática.
Itens mais
Vendidos Janeiro Fevereiro
Placas-mãe 280 250 Teclados 350 400 Mouses 400 320 Impressoras 180 220 Fontes 203 150 Gabinetes 281 260 Processadores 98 130
0
100
200
300
400Placas-mãe
Teclados
Mouses
ImpressorasFontes
Gabinetes
Processadores
Figura 7 – Gráfico itens mais vendidos de uma empre sa de informática ____ Vendas em janeiro - - - - Vendas em fevereiro Análise: Observando o gráfico polar, verificamos que houve queda de vendas em Placas-mãe, mouses, fontes e gabinetes, enquanto as vendas aumentaram para teclados, impressoras e processadores.
2.3 Uso indevido de gráficos
Muitas vezes, o uso indevido dos gráficos pode trazer uma interpretação falsa dos dados que estão
sendo analisados, chegando mesmo a confundir o leitor. Vejamos, através de um exemplo, como esse
fato pode ocorrer. Os dois gráficos apresentados a seguir representam os mesmos dados, e a primeira
impressão é a de que os dois representam dados nitidamente diferentes.
No gráfico (a), as flutuações das vendas aparecem nitidamente, já no gráfico(b), tem-se a impressão
de que a flutuação das vendas não manifesta praticamente tendência alguma, exceto leve flutuação.
Trata-se, na realidade, de um problema de construção de escalas. Enquanto o gráfico apresenta-se
com uma escala mais ou menos convencional, o gráfico(b) revela proporções consideravelmente
diferentes para as escalas em que foram divididos os dois eixos.
Vendas de computadores no ano de 2009 da empresa ABC informática.
0
1000
2000
3000
4000
Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago Set
Out
Nov
Dez
Figura 8 – Gráfico A – Visão real dos dados
0
1000
2000
3000
4000
Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Figura 9 – Gráfico B - Visão distorcida dos dados
Veja os dados reais de vendas de computadores no ano de 2009 da empresa ABC informática:
Tabela 2.12 Vendas de computadores no ano de 2009 da empresa ABC informática
Mês Vendas
Jan 2401 Fev 2520 Mar 1900 Abr 2610 Mai 1940 Jun 2750 Jul 2200 Ago 2970 Set 2980 Out 3180 Nov 3420 Dez 3800
ATIVIDADE 2.4
1) Reproduza os gráficos anteriores, manualmente e usando uma planilha eletrônica, buscando
novos dados em jornais ou em revistas, e, a seguir, compare os resultados; lembrando-se de que
o resultado deverá ser o mesmo.
2) Monte um gráfico do tipo barras verticais das empresas que apresentaram maior lucro, em
milhões de reais, entre as empresas de tecnologia:
Empresas Lucro
(em Milhões de Reais)
Empresa 1 150,50
Empresa 2 95,70
Empresa 3 47,30
Empresa 4 42,90
Empresa 5 37,50
Empresa 6 33,60
Empresa 7 27,30
Empresa 8 19,10
Empresa 9 9,30
Empresa 10 7,90
3) Numa empresa de manutenção em informática, 60% dos funcionários vão fazer manutenção
em monitores, 24 % em mouses e teclados, 8% em fontes e 8% nas demais peças do computador.
O gráfico que melhor representa essa situação é o de:
e) ( ) Linha
f) ( ) Barras
g) ( ) Setores
h) ( ) Colunas superpostas
Chegamos ao final de mais um capítulo; nele, vimos às diversas formas de organizar e analisar os dados de uma série de observações, as tabelas de frequências e os métodos gráficos. É importante que esses conceitos estejam bem compreendidos; caso contrário, faça uma revisão, pois eles serão necessários nos próximos capítulos. Vamos para o capítulo 3!
CAPÍTULO 3 MÉTODOS GRÁFICOS
3.1 Distribuição de frequência
Distribuição de frequência é um tipo de tabela que condensa uma coleção de dados conforme as frequências (repetições de seus valores).
Distribuição de frequências é uma técnica para apresentar uma coleção de objetos classificados de modo a mostrar a quantidade existente em cada classe. Será muito utilizada em frequências de probabilidades. Resumidamente, significa agrupar os dados repetidos.
3.1.1 Tabela primitiva ou tabela de dados brutos
É a tabela inicial de coleta de dados, os elementos não são numericamente organizados. É difícil formar uma idéia exata do comportamento da pesquisa efetuada.
Olá, Aluno (a)! Neste capítulo, estudaremos métodos gráficos, que são os histogramas que servirão de base para a compreensão dos capítulos seguintes. Entender esse conteúdo, então, é de fundamental importância, pois a análise gráfica em estatística é feita com base nele. Bons estudos! Prof. Sebastião A. Carneiro
Olá, Turma! Acompanhe atentamente os passos seguintes, pois vamos usar um exemplo para deixar bem clara cada etapa. Prof. Sebastião A. Carneiro
Exemplo: Foram tomados os preços de 20 monitores de 15 polegadas, LCD, em 20 empresas de informática.
Figura 10 - M onitores LCD
Tabela 3.1 Preços de 20 monitores LCD
Empresas Valor do monitor
Empresa 1 R$ 418,0 Empresa 2 R$ 420,0 Empresa 3 R$ 418,0 Empresa 4 R$ 410,0 Empresa 5 R$ 413,0 Empresa 6 R$ 430,0 Empresa 7 R$ 420,0 Empresa 8 R$ 430,0 Empresa 9 R$ 416,0 Empresa 10 R$ 418,0 Empresa 11 R$ 418,0 Empresa 12 R$ 420,0 Empresa 13 R$ 417,0 Empresa 14 R$ 418,0 Empresa 15 R$ 420,0 Empresa 16 R$ 430,0 Empresa 17 R$ 418,0 Empresa 18 R$ 430,0 Empresa 19 R$ 415,0 Empresa 20 R$ 418,0
Como podemos ver, não é possível identificar, de imediato, quem tem o menor ou o maior preço.
3.1.2 ROL É a tabela obtida após a ordenação dos dados (crescente ou decrescente).
Exemplo Tabela 3.2 Ordenação dos preços dos monitores
Empresas Valor do monitor
Empresa 4 R$ 410,0 Empresa 5 R$ 413,0 Empresa 19 R$ 413,0 Empresa 9 R$ 415,0 Empresa 13 R$ 416,0 Empresa 1 R$ 416,0 Empresa 3 R$ 416,0 Empresa 10 R$ 416,0 Empresa 11 R$ 416,0 Empresa 14 R$ 417,0 Empresa 17 R$ 417,0 Empresa 20 R$ 418,0 Empresa 2 R$ 418,0 Empresa 7 R$ 418,0 Empresa 12 R$ 420,0 Empresa 15 R$ 420,0 Empresa 6 R$ 420,0 Empresa 8 R$ 420,0 Empresa 16 R$ 430,0 Empresa 18 R$ 430,0
3.1.3 Distribuição de frequência sem intervalos de classe
Vamos continuar utilizando o exemplo anterior para construir nossa tabela ROL.
Observou!? Agora temos, de imediato, a empresa que vende mais barato, a que vende mais caro...
A distribuição de frequência sem intervalos de classe é a simples condensação dos dados, conforme as repetições de seus valores; ou seja, é a ocorrência que o valor repete. É usada para diminuir o tamanho da série. Exemplo: Vamos continuar utilizando o exemplo anterior para construir a distribuição de frequência sem intervalos de classe. Tabela 3.3 Valor do monitor e número de empresas com o mesmo preço
Valor do monitor
Número de empresas com o mesmo preço
R$ 410,0 1 R$ 413,0 2 R$ 415,0 1 R$ 416,0 5 R$ 417,0 2 R$ 418,0 3 R$ 420,0 4 R$ 430,0 2
Total 20
a) Diagrama de uma distribuição de frequência Uma distribuição de frequência sem intervalos de classe é representada graficamente por um diagrama, em que cada valor da variável é representado por um segmento de reta vertical e de comprimento proporcional à respectiva frequência.
Notou!? O tamanho da tabela foi reduzido; as informações continuaram as mesmas.
FIGURA 11 – Diagrama de uma distribuição de freqüência sem intervalo de classe.
3.1.4 Distribuição de frequência com intervalos de classe Quando a amostra é grande, a tabela também tende a ser grande; nesse caso, é mais racional efetuar o grupamento dos valores em vários intervalos de classe. Exemplo: Ao acaso, foram pesquisados os preços de 200 monitores LCD, de um mesmo modelo, em 200
empresas de informática. Veja os valores no anexo da apostila e observe que, após o ordenamento dos
preços em ordem crescente (ROL), o valor mínimo encontrado é R$ 412,0 e o valor máximo é R$
440,0. Com os preços ordenados, montamos a tabela a seguir:
Tabela 3.4 Preços de 200 monitores LCD em 200 empresas de informática
Valor do monitor (R$)
Frequências
412 |------- 415 10
415 |------- 418 15
418 |------- 421 20
421 |------- 424 25
A partir de agora, chamaremos o número de repetições de “frequência de ocorrência” ou simplesmente de “frequência”. Número de repetições = frequência de ocorrência = frequência.
424 |------- 427 30
427 |------- 430 30
430 |------- 433 28
433 |------- 436 22
436 |------- 439 12
439 |------- 442 * 8
Total 200
* Se você está com dúvida sobre o modo como a tabela foi montada, não se preocupe, pois o objetivo deste capítulo é exatamente esse. Fique atento e não perca os próximos passos da matéria.
A partir de agora, iremos chamar a primeira coluna de “classe”.
a) Elementos de uma distribuição de frequência com intervalos de classe
a) Classe Classe é o intervalo de variação da variável, simbolizada por i. O número total de classes é simbolizado por k. Exemplo: Na tabela anterior, temos: k=10 e para 415 |------- 418 a classe é 2 (i =2). b) Limites de classe: São os extremos de cada classe. O menor número é o limite inferior de classe (li) e o maior número é o limite superior de classe (Li). Exemplo: Em 427 |------- 430... Limite inferior l6= 427 e limite superior L6= 430 O símbolo |------ representa um intervalo fechado à esquerda e aberto à direita. O dado 427 do ROL, não pertence à classe 5, e sim, classe 6, representada por 427 |----- 430. c) Amplitude de intervalo de classe É a diferença entre o limite superior e o inferior da classe. É simbolizada por hi = Li - li .
Antes de iniciarmos a construção de uma distribuição de frequência com intervalos de classe, vamos ver alguns conceitos importantes.
Exemplo: Na tabela anterior, hi= 427 – 424 = 3. Obs.: Na distribuição de frequência com classe, o hi será igual em todas as classes. d) Amplitude total da distribuição É a diferença entre o limite superior da última classe e o limite inferior da primeira classe. AT = L(max) - l(min). Exemplo: Na tabela anterior, AT = 442 - 412= 30. e) Amplitude total da amostra É a diferença entre o valor máximo e o valor mínimo da amostra. Em que: AA = Xmax - Xmin. Xmax = 440 (máximo valor real encontrado do monitor) Xmin = 412 (mínimo valor real encontrado do monitor) Em nosso exemplo, AA = 440 - 412 = 28. Observe que: AT sempre será maior que AA. Você tem que estar convencido dessa afirmação. f) Ponto médio de classe: É o ponto que divide o intervalo de classe em duas partes iguais. Exemplo: Em 418 |------- 421 o ponto médio x3 = (418+421)/2 = 419,5, ou seja, x3=(l3+L3)/2. Veja como fica a distribuição de frequência de preços de 200 monitores anterior: Tabela 3.5 Classe Frequência de preços de 200 monitores
Classe Frequências
i=1 (primeira classe) 412 |------- 415 10
i=2 (segunda classe) 415 |------- 418 15
i=3 (terceira classe) 418 |------- 421 20
i=4 (quarta classe) 421 |------- 424 25
i=5 (quinta classe) 424 |------- 427 30
i=6 sexta classe) 427 |------- 430 30
i=7 (sétima classe) 430 |------- 433 28
i=8 (oitava classe) 433 |------- 436 22
i=9 (nona classe) 436 |------- 439 12
i=10 (décima classe) 439 |------- 442 8
Total 200
ATIVIDADE 3.3
1. Determine a amplitude da amostra -1, -2 , 3, 4, 5. 2. Dada a distribuição de frequência a seguir, que representa os diâmetro de furos encontrados
em gabinetes de computadores: Determine:
a) o limite superior da sexta classe; b) o limite inferior da segunda classe; c) a Amplitude total da distribuição; d) o Ponto médio da quinta classe; e) o intervalo de classe; f) quantos computadores apresentaram diâmetros de furos entre 28 a 30,99 mm; g) quantos computadores apresentaram diâmetros de furos igual ou superiores a 22 mm; h) percentualmente, quantos computadores apresentaram diâmetros de furos entre 16 e 27,99
mm.
Diâmetros de Furos (mm) Computadores
10 |------- 13 5
13 |------- 16 15
16 |------- 19 25
19 |------- 22 35
22 |------- 25 45
25 |------- 28 30
28 |------- 31 28
31 |------- 34 22
34 |------- 37 12
37 |------- 40 8
Total 225
c) Método prático para construção de uma distribuição de freqüência
Depois de feita a pesquisa de campo, siga os seguintes passos: (Vamos utilizar o exemplo dos preços de 200 monitores LCD levantados em 200 empresas de informática). 1º - Organize os dados brutos em um ROL; 2º - Calcule a amplitude amostral AA; No nosso exemplo: AA =440 - 412 =28. 3º - Calcule o número de classes por meio da "Regra de Sturges";
A Regra de Sturges é uma fórmula que compacta os dados e estabelecerá o número de classes (número de linhas) que a distribuição de frequência terá. Ela é dada conforme a fórmula seguir: i =1 + 3,3 . log n Em que: i = número de classes (valor inteiro mais próximo); n = quantidade de amostras da pesquisa.
Obs.: Qualquer regra para determinação do número de classes da distribuição de frequência (o número de linhas que terá a tabela) não nos leva a uma decisão final; isso pois esta vai depender de um julgamento pessoal, que deve estar ligado à natureza dos dados e à clareza que se deseja obter na distribuição de frequência. Existem outras opções à regra de Sturges, como: i = n 1/2
No caso do nosso exemplo dos 200 monitores: n = 200 amostras i =1 + 3,3 . log 200 i = 8,6 , adotamos i = 9, ou seja a tabela terá 9 linhas
Vamos mostrar um método prático para construção de uma distribuição de frequência.
Observe que, efetivamente no nosso exemplo, i = 10. Veremos em breve o motivo.
4º - Calcule a amplitude do intervalo de classe h = AA/i .; No nosso exemplo: AA/i = 28/9 = 3,11. Obs.: Adotaremos neste caso h = 3 para termos intervalos de classe valores inteiros e assim obter uma melhor visualização na tabela. 5º - Monte a tabela da seguinte forma: ℓi |------- Li= ℓi + h
Exemplo: ℓ1 |------- L1= ℓ1 + h
412 |------- 415
Em que: ℓ1 é o menor número inteiro da amostra. Obs.: ℓ1 deve ser preferencialmente um valor inteiro menor ou igual a Xmin e L1 deve ser preferencialmente um valor inteiro maior ou igual a ℓ1+ h.
No nosso exemplo: o menor número da amostra é 412. Assim, teremos: L1= ℓ1+ h = 412+3 = 415, logo, a primeira classe será representada por 412 |------- 415. O primeiro elemento das classes seguintes sempre serão formados pelo último elemento da classe anterior. Assim a segunda classe fica: ℓ2= L1 e L2= ( ℓ2+ h )
ℓ2 |------- L2= ( ℓ2+ h ) ℓ2 = 415 e L2= 415 + 3 = 418 415 |------- 418 Observe que confere com a tabela 3.6. As classes seguintes respeitarão o mesmo procedimento.
Ao final da montagem da tabela, percebemos que a última classe é 10 e não 9, conforme estabelecia a regra de sturges. Isso ocorre porque a regra de sturges fornece a orientação do número de classe, mas preferimos utilizar números inteiros nos limites inferiores e superiores de classe para melhorar a apresentação da tabela, com isto, a classe passou de 9 para 10.
c) Representação gráfica de uma distribuição Em todos os gráficos acima, utilizamos o primeiro quadrante do sistema de eixos coordenados cartesianos ortogonais. Na linha horizontal (eixo das abscissas), colocamos os valores da variável e, na linha vertical (eixo das ordenadas), as frequências. .
Histograma: é formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os pontos médios dos intervalos de classe. A área de um histograma é proporcional à soma das frequências simples ou absolutas.
Exemplo: Vamos montar o histograma da distribuição de frequência anterior: Tabela 3.6 Valores dos monitores
Valor do monitor (R$)
Frequências
412 |------- 415 10
415 |------- 418 15
418 |------- 421 20
421 |------- 424 25
424 |------- 427 30
427 |------- 430 30
430 |------- 433 28
433 |------- 436 22
436 |------- 439 12
439 |------- 442 8
Total 200 Histograma da distribuição de frequência
Figura 12 - Histograma da distribuição de frequênci a
Quem estiver utilizando a planilha eletrônica Excel deve instalar esse recurso em Ferramentas/Suplementos/Ferramentas de Análise; caso contrário, pode-se utilizar as ferramentas de desenho dos aplicativos.
3.1.5 Polígono de frequência
É um gráfico em linha, sendo as frequências marcadas sobre perpendiculares ao eixo horizontal, levantadas pelos pontos médios dos intervalos de classe. Fornece, na realidade, o contorno, ou seja, a envoltória, em vez de retângulos paralelos. Exemplo de polígono de frequência:
Figura 13 - Exemplo de Polígono de frequência da di stribuição de dados a) Frequências simples ou absolutas
São os valores que realmente representam o número de dados de cada classe. A soma das
frequências simples é igual ao número total dos dados da distribuição. Veja exemplo a seguir.
b) Frequências relativas São os valores das razões entre as frequências absolutas de cada classe e a frequência total da
distribuição. A soma das frequências relativas é igual a 1 (100 %).
Exemplo de frequências relativas fri (%) Tabela 3.7 Exemplo de frequências relativas fri
classe fi fri (%)
412 |------- 415 10 5,0%
415 |------- 418 15 7,5%
418 |------- 421 20 10,0%
421 |------- 424 25 12,5%
424 |------- 427 30 15,0%
427 |------- 430 30 15,0%
430 |------- 433 28 14,0%
433 |------- 436 22 11,0%
436 |------- 439 12 6,0%
439 |------- 442 8 4,0%
Total 200 100% c) Frequência simples acumulada de uma classe – Fi
É o total das frequências de todos os valores inferiores ao limite superior do intervalo de uma determinada classe.
Tabela 3.8 Exemplo de frequências relativas fri e acumulada Fri
classe fi fri (%) Fi
412 |------- 415 10 5,0% 10
415 |------- 418 15 7,5% 25
418 |------- 421 20 10,0% 45
421 |------- 424 25 12,5% 70
424 |------- 427 30 15,0% 100
427 |------- 430 30 15,0% 130
430 |------- 433 28 14,0% 158
433 |------- 436 22 11,0% 180
436 |------- 439 12 6,0% 192
439 |------- 442 8 4,0% 200
Total 200 100% d) Frequência relativa acumulada de uma classe – Fri
É a frequência acumulada da classe, dividida pela frequência total da distribuição.
Tabela 3.9 Exemplo de frequências relativas fri e acumulada Fri
classe fi fri (%) Fi Fri (%)
412 |------- 415 10 5,0% 10 5,0%
415 |------- 418 15 7,5% 25 12,5%
418 |------- 421 20 10,0% 45 22,5%
421 |------- 424 25 12,5% 70 35,0%
424 |------- 427 30 15,0% 100 50,0%
427 |------- 430 30 15,0% 130 65,0%
430 |------- 433 28 14,0% 158 79,0%
433 |------- 436 22 11,0% 180 90,0%
436 |------- 439 12 6,0% 192 96,0%
439 |------- 442 8 4,0% 200 100,0%
Total 200 1
Observar que temos o valor acumulativo em percentagens. Como exemplo, podemos ver da tabela anterior que o preço do monitor até R$ 436,00 está entre os 90% dos monitores pesquisados, ou seja, apenas 10% dos monitores custam mais do que R$ 436,00
3.1.6 Curva de Frequência (Curva polida): Enquanto o polígono de frequência nos dá a imagem real do fenômeno estudado, a curva de frequência nos dá a imagem tendencial; ou seja, mostra o comportamento dos dados segundo um gráfico de linha já estudado. O polimento, do ponto de vista geométrico, corresponde à eliminação dos vértices da linha poligonal de um polígono de frequência. Para conseguir o polimento, vamos utilizar uma fórmula bastante simples, apresentada a seguir:
A fci (frequência calculada da classe ou frequência polida) é, na realidade, uma média ponderada das frequências em torno da frequência a ser polida.
( )4
.2 fpostfifantfci
++=
Em que: fci = frequência calculada da classe considerada (frequência polida). fi = frequência simples da classe a ser polida. fant = frequência simples da classe anterior a ser polida. fpost = frequência simples da classe posterior a ser polida.
Figura 14 - Curva de Frequência ou Curva polida da distribuição de dados
ATIVIDADE 3.5 1) A tabela a seguir apresenta as velocidades dos Links de Internet de 400 computadores conectados a uma grande empresa.
Kbytes Quantidade de computadores
conectados
300 |------- 400 14
400 |------- 500 46
500 |------- 600 58
600 |------- 700 76
700 |------- 800 68
800 |------- 900 62
900 |------- 1000 48
1000 |------- 1100 22
1100 |------- 1200 6 Com relação a essa tabela, determine:
a) a frequência da quarta classe; b) a frequência relativa da sexta classe; c) a frequência acumulada da quinta classe; d) o número de computadores cuja velocidade do link não atinge 700 kbites; e) o número de computadores cuja velocidade do link atinge e ultrapassa 800 kbites; f) a percentagem de computadores cuja velocidade do link não atinge 600 kbites; g) a percentagem de computadores cuja velocidade do link seja maior ou igual a 900
kbites; h) a percentagem de computadores cuja velocidade do link seja maior ou igual a 500
kbites e inferior a 1000 kbites; i) a classe dos 72º computadores mais rápidos no link.
2) Os dados a seguir, obtidos em uma pesquisa realizada no comércio local, apresentam as diferenças encontradas nos preços de 100 placas-mãe. Com base nisso: a) forme com esses dados uma distribuição de frequência com intervalo de classe; b) confeccione o histograma e o polígono de frequência correspondentes.
3,9 7,4 10.0 11,8 2,3 4,5 10,5 8,4 15,6 7,6 18,8 2,9 2,3 0,4 5 9 5,5 9,2 12,4 8,7 4,5 4,4 10,6 5,6 8,5 2,4 17,8 11,6 0,8 4,4 7,1 3.2 2,7 9,5 2,7 9,5 13,1 3,8 6,3 7,9 4,8 5,3 12,9 6,9 6,3 7,5 2,6 3,3 4,6 16 3,9 7,4 10.0 11,8 2,3 4,5 10,5 8,4 15,6 7,6 18,8 2,9 2,3 0,4 5 9 5,5 9,2 12,4 8,7 4,5 4,4 10,6 5,6 8,5 2,4 17,8 11,6 0,8 4,4 7,1 3.2 2,7 9,5 2,7 9,5 13,1 3,8 6,3 7,9 4,8 5,3 12,9 6,9 6,3 7,5 2,6 3,3 4,6 16
3) Examinando o histograma abaixo, que corresponde às notas relativas à aplicação de um teste de inteligência a um grupo de alunos do curso de análise e desenvolvimento de sistema, responda:
a. Qual é o intervalo de notas que apresentou maior frequência? b. Qual a amplitude total da distribuição? c. Qual o número total de alunos? d. Qual é a frequência do intervalo de classe 14 |– 15? e. Quantos alunos receberam notas entre 9 e 16? f. Quantos alunos receberam notas não-inferiores a 12?
25
20
15
10
5
1 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Olá, Aluno (a)! Chegamos ao final do terceiro capítulo, em que foram apresentadas diversas formas de organizar e analisar os dados de uma série de observações, as tabelas de frequências e os métodos gráficos. É importante que esses conteúdos estejam bem compreendidos; caso contrário, faça uma revisão, pois eles serão necessários nos próximos capítulos. Sigamos adiante!
NOTAS
CAPÍTULO 4
MEDIDAS DE ORDENAMENTO E DE POSIÇÃO
4.1 MEDIDAS DE POSIÇÃO
As mais importantes medidas de posição são as medidas de tendência central, pois se verifica uma tendência dos dados observados a se agruparem em torno dos valores centrais.
As medidas de tendência central mais utilizadas são: média aritmética, moda e mediana. Outras medidas de tendência central menos utilizadas, que não estudaremos neste curso, são as médias: geométrica, harmônica, quadrática, cúbica e bi quadrática.
Outras medidas de posição são as separatrizes, que englobam: a própria mediana, os decis, os quartis e os percentis.
4.2 MÉDIA DE POPULAÇÃO E DE AMOSTRAS
Em estatística, o conceito de média também pode ser usado para descrever um conjunto de observações. Quando o conjunto das observações é uma população, é chamado de média da população e representaremos por µ. Quando o conjunto das observações é uma amostra estatística, é
chamado de média amostral e representaremos por X . Na prática, ao lidar com grandes populações, é quase sempre impossível achar o valor exato da média da população, devido ao tempo, ao custo e a outras restrições de recursos. Por esse motivo, estudaremos somente a média amostral que será chamada de média, simplesmente.
4.3 REPRESENTAÇÃO DOS VALORES DE UMA SÉRIE DE VALORES
Os valores de uma série de valores serão representados por uma letra maiúscula, normalmente X, e a sua posição na série, por uma letra minúscula, normalmente i. A quantidade total de valores na série será representada por n.
Na série X: 4, 8, 12, 20 e 50, temos: X1= 4; X2= 8; X3=12; X4=12; X5=50 e n=5.
Olá, Aluno (a)! Neste capítulo, estudaremos as medidas de ordenamento e de posição, denominadas também de medidas de tendência central, tais como média, moda, mediana e separatrizes, as quais nos permitirão resumir e analisar uma série de dados. Bons estudos! Prof. Sebastião A. Carneiro
Em um conjunto de dados, podemos definir vários tipos de médias. Porém, em nossos estudos, vamos nos limitar ao mais importante: a média aritmética.
4.4 MÉDIA ARITMÉTICA ( )
É igual ao quociente da soma dos valores do conjunto e o número total dos valores.
n
XiX ∑=
A média sempre será indicada por uma letra maiúscula com um traço superior.
Exemplo 1:
Calcular a média dos valores anteriores:
4, 8, 12, 20 e 50.
= 4+ 8+ 12+ 20 + 50 = 94_ = 18,8
5 5
Exemplo 2:
Calcular a média dos valores a seguir:
2; -4; 0; 11; 1; 20; 30.
= 2+ -4+ 0+ 11+ 1+ 20+ 30 = 60 = 8,57
7 7
4.4.1 Média Aritmética para dados não-agrupados:
Quando desejamos conhecer a média dos dados não-agrupados em tabelas de frequências, determinamos a média aritmética simples, conforme já visto no item anterior.
Exemplo:
A venda diária de memória RAM 1 GB , durante uma semana, foi de 100, 140, 130, 150, 160, 180 e 120 unidades; então, a venda média diária de memória RAM foi:
Figura 15 - Memória RAM
.= (100+140+130+150+160+180+120) / 7 = 140 unidades
O resultado obtido, 140, representa o valor diário de venda de memórias RAM. Ou seja, 140 representa os 7 valores.
4.4.2 DESVIO EM RELAÇÃO À MÉDIA
É a diferença entre cada elemento da série de valores e a média aritmética, ou seja: di = Xi -
No exemplo anterior, temos sete desvios:... d1 = 100 - 140 = - 40 , ...d2 = 140 - 140 = 0 , ...d3 = 130 - 140 = -10 , ...d4 = 150 - 140 = 10 ,... d5 = 160 - 140 = 20 ,... d6 = 180 - 140 = 40 ...e... d7 = 120 - 140 = - 20.
4.4.3 PROPRIEDADES DA MÉDIA
1ª propriedade: A soma algébrica dos desvios em relação à média é sempre nula.
No exemplo anterior: d1+d2+d3+d4+d5+d6+d7 = 0
2ª propriedade: Somando-se (ou subtraindo-se) uma constante (c) a todos os valores de uma variável, a média do conjunto fica maior (ou menor) dessa constante.
Se no exemplo original somarmos a constante 2 a cada um dos valores da variável, teremos:
= 102+142+132+152+162+182+122 / 7 = 142 unidades ou
= .+ 2 = 140 +2 = 142 unidades
3ª propriedade: Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante (c), a média do conjunto fica multiplicada (ou dividida) por essa constante.
Se no exemplo original multiplicarmos a constante 3 a cada um dos valores da variável, teremos:
a) Z = 300+420+390+450+480+540+360 / 7 = 420 unidades
Z= x 3 = 140 x 3 = 420 unidades
ATIVIDADE 4.1
1) Marque a opção correta. Na tabela primitiva: {6, 2, 7, 6, 5, 4} a soma dos desvios em relação à média aritmética é igual:
a) ( ) ao número - 4 b) ( ) ao número 8 c) ( ) ao número 0 d) ( ) ao número 25 e) ( ) ao número 4
2) Numa empresa de informática, a média de vendas é de 130 computadores. A empresa faz uma promoção e a quantidade de unidades vendidas aumenta em 20%. Assim, qual a média de vendas no período da promoção?
3) Marque a opção correta. um professor, após verificar que toda a classe obteve nota baixa, eliminou as questões a que os alunos não responderam. Com isso, as notas de todos os alunos foram aumentadas de 3 pontos. Então:
a) ( ) a média aritmética ficou alterada de 3, assim como a soma dos desvios;
b) ( ) a média aritmética diminui de 3;
c) ( ) não houve alteração nem na média nem nos desvios;
d) ( ) a média aritmética aumentou de 3.
4) Considerando que você tem série aritmética, na qual o primeiro termo é -3, a razão é -5 e o número de elementos é 389, pede-se: qual a soma dos desvios da série considerada?
5) Qual a soma dos desvios da média da série considerada a seguir?
33 28 23 18 13 8 12 33 54 75 96 117 -9 38 85 132 179 226
-30 43 116 189 262 335 -51 48 147 246 345 444 -72 53 178 303 428 553 -93 58 209 360 511 662
b) Média Aritmética para dados agrupados:
b1) Sem intervalos de classe
Numa rede, trafega um fluxo diário de dados, conforme a tabela a seguir. Qual a média diária de dados que trafega na rede?
Tabela 4.1 Tráfego de fluxo diário de dados na rede
Fluxo de dados Duração (h) 128 MB 2
Tabela 4.2 Tráfego de fluxo diário de dados na rede representada por Xi fi.
Como a duração são números indicadores da intensidade de cada valor da variável, as frequências funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada da seguinte forma:
∑∑=
fi
fiXiX
.
Devemos, assim, montar uma nova coluna (Xi.fi) na tabela:
Tabela 4.3 Ocorrência de tráfego de fluxo diário (Xi x fi)
256 MB 6 350 MB 8 380 MB 5 400 MB 3 Total 24
O fluxo de dados será representado pela variável Xi, a duração com que os dados trafegam na rede, representaremos por fi.
Xi fi 128 MB 2 256 MB 6 350 MB 8 380 MB 5 400 MB 3 Total 24
Devemos observar que a média ponderada não é uma nova fórmula para o cálculo da média. Na realidade, há um agrupamento dos valores repetidos.
Xi fi Xi.fi 128 MB 2 128 . 2 = 256 256 MB 6 256 . 6 = 1536 350 MB 8 350 . 8 = 2800 380 MB 5 380 . 5 = 1900 400 MB 3 400 . 3 = 1200
Total ΣΣΣΣ fi = 24 ΣΣΣΣ Xi.fi = 7692
Calcular a média conforme a fórmula a seguir:
5,32024
7692.===
∑∑
fi
fiXiX
Ou seja, a quantidade média de dados que trafegam na rede é de 320,5 MB.
ATIVIDADE 4.2
1-Marque a alternativa correta:
Em uma prova de Estatística, 3 alunos obtiveram a nota 8,2; outros 3 obtiveram a nota 9,0; 5 obtiveram a nota 8,6; 1 obteve a nota 7,0 e 1, a nota 8,9. A média aritmética é:
a) ( ) uma média aritmética simples com valor 8,0; b) ( ) uma média aritmética simples com valor 8,7; c) ( ) uma média aritmética ponderada com valor 8,0; d) ( ) uma média aritmética ponderada com valor 8,5; e) ( ) nenhuma das respostas anteriores.
2 – Em uma classe de 50 alunos, as notas obtidas foram as seguintes:
Notas Número de
alunos 4 3 5 8 6 12 7 12 8 8 9 5 10 2
Qual a nota média da turma? 3- Suponha que adicionamos 100 a cada um dos valores de uma amostra. O que acontece com a média?
b2) Com intervalos de classe
No caso de média aritmética para dados agrupados com intervalos de classe, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e definimos a média da mesma maneira como calculamos a média aritmética para dados agrupados sem intervalos de classe.
Xi =(Li +li)/2 Em que:
Xi – Ponto médio da classe; Li – Limite superior da classe; Li - Limite inferior da classe.
∑∑=
fi
fiXiX
.
Exemplo:
Vamos usar o exemplo da pesquisa dos preços de 200 monitores LCD da marca AOC, em 200 empresas de informática, para calcular a média de preços.
Tabela 4.4 Preços de 200 monitores LCD da marca AOC em 200 empresas de informática.
Calculando os valores de Xi. fi, teremos:
Tabela 4.5 Ocorrências de Preços de 200 monitores LCD da marca AOC, em 200 empresas de informática (Xi. fi)
Classe Fi Xi Xi. fi
412 |------- 415 10 413,5 4135
415 |------- 418 15 416,5 6247,5
418 |------- 421 20 419,5 8390
Valor do monitor (R$)
Frequências
412 |------- 415 10
415 |------- 418 15
418 |------- 421 20
421 |------- 424 25
424 |------- 427 30
427 |------- 430 30
430 |------- 433 28
433 |------- 436 22
436 |------- 439 12
439 |------- 442 8
Total 200
421 |------- 424 25 422,5 10562,5
424 |------- 427 30 425,5 12765
427 |------- 430 30 428,5 12855 430 |------- 433 28 431,5 12082
433 |------- 436 22 434,5 9559
436 |------- 439 12 437,5 5250
439 |------- 442 8 440,5 3524
Total 200 85370
Logo, a média será:
9,426200
85370.===
∑∑
fi
fiXiX
ATIVIDADE 4.3 1) Calcule o valor médio da placa-mãe (mainboard ou motherboard), cujos valores estão distribuídos a seguir:
Tipo de placa-mãe
Valor R$
Quantidade
Tipo 1 300 |------- 305 14
Tipo 2 305 |------- 310 46
Tipo 3 310 |------- 315 58
Tipo 4 315 |------- 320 76
Tipo 5 320 |------- 325 68
Tipo 6 325 |------- 330 62
Tipo 7 330 |------- 335 48
Tipo 8 335 |------- 340 22 2) Marque a opção correta: Um aluno faz três provas com pesos 2, 2 e 3. Se ele tirou 2 e 7 nas duas primeiras, quanto precisa tirar na terceira prova para ficar com média maior ou igual a 6?
a) ( ) pelo menos 5 b) ( ) pelo menos 6 c) ( ) pelo menos 7 d) ( ) pelo menos 8
4.5 MODA (MO)
A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição. Já a média aritmética é a medida de posição que possui a maior estabilidade.
É especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentado sob a forma de nomes ou categorias, para os quais não se pode calcular a média.
É o valor que ocorre com maior frequência em uma série de valores.
Desse modo, o salário modal dos empregados de uma fábrica é o salário mais comum, isto é, o recebido pelo maior número de empregados dessa fábrica.
4.5.1 MODA QUANDO OS DADOS NÃO ESTÃO AGRUPADOS
A moda é facilmente reconhecida, basta, de acordo com a definição, procurar o valor que mais se repete.
Exemplo:
Na série {7 , 8 , 9 , 10 , 10 , 10 , 11 , 12}, a moda é 10.
1. Há séries nas quais não existe o valor modal, isto é, não há repetições de valores.
Exemplo:
A série {3 , 5 , 8 , 10 , 12} não apresenta moda. Ela é amodal.
• .Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois ou mais valores modais.
Exemplo:
A série {2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9} apresenta duas modas: 4 e 7. Ela é bimodal.
4.5.2 MODA QUANDO OS DADOS ESTÃO AGRUPADOS
a) Sem intervalos de classe
Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta fixar o valor da variável de maior frequência.
Exemplo: Na medição de temperatura durante o mês de junho de 2005, na cidade de Curitiba, qual a mais recorrente?
Tabela 4.6 Ocorrências de temperaturas em junho de 2005, na cidade de Curitiba.
Temperaturas Frequência
0º C 3
1º C 9
2º C 12
3º C 6
Resposta: 2º C é a temperatura modal, pois é a de maior frequência.
a) Com intervalos de classe
A classe que apresenta a maior frequência é denominada classe modal. Pela definição, podemos afirmar que a moda, nesse caso, é o valor dominante que está compreendido entre os limites inferior e superior da classe modal. O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal. Damos a esse valor a denominação de moda bruta.
Mo = (ℓ* + L* ) / 2
Em que:
ℓ* = limite inferior da classe modal e,
L*= limite superior da classe modal.
Exemplo:
Calcule o preço modal dos pendrives de 4Gb, os preços estão dispostos na tabela a seguir:
Figura 16 - P endrive de 4Gb
Tabela 4.7 Distribuição de Frequência dos preços dos pendrives
Preço R$
Frequência
54|------ 58 9 58|------ 62 11 62|------ 66 8 66|------ 70 5
Resposta: a classe modal é 58|-------- 62, pois é a de maior frequência. ℓ*=58 e L*=62
Mo = (58+62) / 2 = R$ 60 (esse valor é estimado, pois não conhecemos o valor real da moda).
.
O cálculo da moda também pode ser feito pela fórmula de CZUBER. Vale a pena pesquisá-lo.
ATIVIDADE 4.4 1- Calcule o tipo modal dos mouses ópticos a seguir: 2- Calcule o valor modal da placa-mãe (mainboard ou motherboard), cujos valores estão distribuídos na tabela a seguir:
Tipo de placa-mãe
Valor R$ Quantidade
Tipo 1 300 |------- 305 14
Tipo 2 305 |------- 310 46
Tipo 3 310 |------- 315 58
Tipo 4 315 |------- 320 76
Tipo 5 320 |------- 325 68
Tipo 6 325 |------- 330 62
Tipo 7 330 |------- 335 48
Tipo 8 335 |------- 340 22 3-quando queremos verificar que tipo de monitor apresentou maior número de defeitos, utilizamos: a) ( ) moda; b) ( ) mediana; c) ( ) média; d) ( ) qualquer das anteriores.
Mouse Quantidades Tipo 1 344 Tipo 2 234 Tipo 3 656 Tipo 4 125 Tipo 5 111 Tipo 6 256
4.6 MEDIANA (MD)
Ordenados os elementos da série de dados, a mediana é o valor (pertencente ou não à série) que a
divide ao meio e ocupa a (n+1)/2 posição na série, isto é, 50% dos elementos da série são menores ou
iguais à mediana e os outros 50% são maiores ou iguais à mediana.
Emprego da Mediana
• Quando desejamos obter o ponto que divide a distribuição em duas partes iguais. • Quando há valores extremos que afetam de maneira acentuada a média aritmética.
A mediana é usada em computação em diversas aplicações. Exemplo: Processamento de imagens, mantendo as propriedades das bordas da imagem(filtro
mediana). filtro de mediana é um dos coringas para processamento de imagens.
4.6.1 MEDIANA PARA SÉRIE COM NÚMERO ÍMPAR DE TERMOS
Para Série com número ímpar de termos a mediana pertence à série de dados.
.Exemplo:
Cálculo da mediana da série {1, 3, 0, 0, 2, 4, 1, 2, 5}:
1º - Ordenar a série {0, 0, 1, 1, 2, 2, 3, 4, 5};
Temos n = 9; logo, a mediana ocupa a 5 a posição, ou seja (9+1)/2 = 5 elemento da série será a
mediana;
Observe que a mediana pertence à série de dados.
4.6.2 MEDIANA PARA SÉRIE COM NÚMERO PAR DE TERMOS:
Para Série com número par de termos a mediana não pertence à série de dados.
A mediana é obtida pela média dos dois elementos centrais da série.
Exemplo:
Cálculo da mediana da série {1, 3, 0, 0, 2, 4, 1, 3, 5, 6}:
1º - Ordenar a série {0, 0, 1, 1, 2, 3, 3, 4, 5, 6};
Temos n = 10; logo, a mediana ocupa a 5,5 a posição, ou seja (10+1)/2 = 5,5 elemento da série será a
mediana;
Para obter o valor 5,5 a da série, basta dividir os valores da 5 a e da 6 a posição ;
Temos:
5 a posição = 2
6 a posição = 3
A mediana será a média desses 2 valores, ou seja Md= (2+3) / 2, ou seja, Md = 2,5 .
Observe que a mediana(2,5) não pertence à série de dados.
Notas:
• Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos elementos da série.
• Em uma série a mediana, a média e a moda não têm, necessariamente, o mesmo valor.
• A mediana depende da posição e não dos valores dos elementos na série ordenada. Essa é uma das diferenças marcantes entre mediana e média (que se deixa influenciar, e muito, pelos valores extremos). Vejamos:
Em {5, 7, 10, 13, 15}, a média = 10 e a mediana = 10;
Em {5, 7, 10, 13, 65}, a média = 20 e a mediana = 10;
A média do segundo conjunto de valores é maior do que a do primeiro por influência dos valores extremos, ao passo que a mediana permanece a mesma.
.
4.6.3 MEDIANA PARA SÉRIE COM DADOS AGRUPADOS
a) Sem intervalos de classe:
(Caso 1) Não haver nenhuma frequência acumulada igual à metade da frequência acumulada total.
Fcifi
Fi ≠= ∑2
No caso da mediana para série com dados agrupados sem intervalos de classe, é o bastante, identificar a frequência acumulada imediatamente superior à metade da soma das frequências. A mediana será o valor da variável que corresponde a tal frequência acumulada.
Exemplo:
Calcule a mediana da tabela abaixo:
Tabela 4.8 Distribuição de Frequência
Variável Xi
Frequência fi
Frequência acumulada Fc
0 2 2 1 6 8 2 9 17 3 13 30 4 5 35
total 35
Como o somatório das frequências é 35, a fórmula ficará: (35+1) / 2 = 18 e não existe este valor na freqüência acumulada(2,8,17,30,35)⇒ (30 é o valor imediatamente superior a 18); logo, a mediana será igual a 3.
.
(Caso 2) Haver nenhuma frequência acumulada igual à metade da frequência acumulada total.
Fcifi
Fi == ∑2
No caso de existir uma frequência acumulada (Fci), tal que:
Fcifi
Fi == ∑2
a mediana será dada por:
2
X X 1) Fc(iFci ++=Md
.
Exemplo 1:
Calcule a mediana da tabela abaixo:
Tabela 4.9 Distribuição de Frequência
Variável Xi
Frequência Fi
Frequência acumulada
Fc 12 1 1 14 2 3 15 1 4 ���� 16 2 6 17 1 7 20 1 8
total 8
Temos 2∑=
fiFi =8/2=4, neste caso existe este valor na freqüência acumulada(1,3,4,6,7,8)⇒ logo,
a mediana será igual:
XFci =15
XFc(i+1) =16
Md= [15+16)]/2 = 15,5
Md=15,5
Exemplo 2
Calcule a mediana da tabela abaixo:
Tabela 4.10 Distribuição de Frequência
Variável Xi
Frequência Fi
Frequência acumulada
Fc 1 2 2 7 7 9 � 83 9 18
total 18
Temos 2∑=
fiFi =18/2=9, neste caso existe este valor na freqüência acumulada(2,9,18)⇒ logo, a
mediana será igual:
XFci =7
XFc(i+1) =83
Md= [7+83]/2 = 45
Md=45
b) Com intervalos de classe
Desejamos calcular a mediana da tabela abaixo, que representa os pesos de 40 alunos.
Tabela 4.10 Pesos de 40 alunos
Primeiramente, vamos incluir a frequência acumulada na Tabela.
Tabela 4.11 Pesos de 40 alunos
Classes frequência fi
Frequência acumulada
F 50 |----- 54 4 4 54 |----- 58 9 13 58 |----- 62 11 24 62 |----- 66 8 32 66 |----- 70 5 37 70 |----- 74 3 40 Total 40
Temos:
Pesos (kg) fi 50 |------ 54 4 54 |------ 58 9 58 |------ 62 11 62 |------ 66 8 66 |------ 70 5 70 |------ 74 3 Total 40
Devemos seguir estes passos:
1º) Determinamos as frequências acumuladas;
2º) Calculamos2∑ fi
;
3º) Marcamos a classe correspondente à frequência acumulada imediatamente superior à 2∑ fi
. Tal
classe será a classe mediana;
4º) Calculamos a mediana pela seguinte fórmula:..
*
*
*
.)(2
f
hantFfi
Md
−
+=
∑
l
Em que:
ℓ* é o limite inferior da classe mediana;
F(ant) é a frequência acumulada da classe anterior à classe mediana;
f* é a frequência simples da classe mediana;
h* é a amplitude do intervalo da classe mediana.
202
40
2==∑ fi
Logo, a classe mediana será 58 |----- 62, pois 24, correspondente a frequência acumulada imediatamente superior 20, veja na tabela anterior.
Assim:
ℓ* = 58 (limite inferior do intervalo)
F(ant) = 13 (frequência acumulada inferior a 20)
f* = 11 (frequência simples do intervalo 58 |----- 62)
h* = 4 (intervalo de classe, observe que é fixo e igual a 4)
Portanto, a mediana será:
( )[ ]4.
11
132058
.)(2
*
*
* −+=
−
+=
∑
f
hantFfi
Md l
Md= 60,54 kg
Interpretação: Md = 60,54 kg
50% dos alunos, ou seja, 20 alunos, pesam menos ou igual a 60,54 kg.
ATIVIDADE 4.5
1. Calcule a marca mediana dos mouses ópticos a seguir:
2. medida que tem o mesmo número de valores, abaixo e acima dela, é:
a) ( ) a moda. b) ( ) a média. c) ( ) a mediana. d) ( ) o lugar mediano.
Calcule a marca mediana dos teclados: 4) Calcule o tipo mediano da placa-mãe (mainboard ou motherboard), cujos valores estão distribuídos abaixo:
Tipo de placa-mãe
Valor R$ Quantidade
Tipo 1 300 |------- 305 14
Tipo 2 305 |------- 310 46
Tipo 3 310 |------- 315 58
Tipo 4 315 |------- 320 76
Tipo 5 320 |------- 325 68
Tipo 6 325 |------- 330 62
Tipo 7 330 |------- 335 48
Tipo 8 335 |------- 340 22
Mouse Quantidades Tipo 1 344 Tipo 2 234 Tipo 3 656 Tipo 4 125 Tipo 5 111 Tipo 6 256
Teclados Quantidades Fabricante A 344 Fabricante B 234 Fabricante C 656 Fabricante D 125 Fabricante E 111
4.7 ASSIMETRIA
As medidas de assimetria mostram o quanto a curva de frequência se desvia ou afasta da posição simétrica (área do lado esquerdo igual a área lado direito do gráfico de distribuição de frequência).
Simetria: uma distribuição de frequência é simétrica quando a média, a mediana e a moda são iguais, ou seja, apresentam um mesmo valor ou, ainda, coincidem num mesmo ponto. Neste caso, temos o lado esquerdo igual ao lado direito. Assimetria: uma distribuição de frequência é assimétrica quando a média, a mediana e a moda recaem em pontos diferentes da distribuição, isto é, apresentam valores diferentes, sendo que o deslocamento desses pontos pode ser para a direita ou para a esquerda. Quanto ao grau de deformação, as curvas de frequência podem ser:
a) Simétrica ⇒ Média = Moda b) Assimétrica Positiva ⇒ Média > Moda c) Assimétrica Negativa ⇒ Média < Moda
A Figura 4.3 a seguir ilustra os tipos de assimetria:
Figura 17 - T ipos de assimetria
ATIVIDADE 4.6 a) Determine o tipo de assimetria das séries a seguir:
1. Série A
Estatura(m) frequência fi
2 |----- 6 6 6 |----- 10 12 10|----- 14 24
14|----- 18 12 18|----- 22 6 Total 60
2. Série B
Estatura(m) frequência fi
2 |----- 6 6 6 |----- 10 12 10|----- 14 24 14|----- 18 30 18|----- 22 6 Total 78
3. Série C
Estatura(m) frequência fi
2 |----- 6 6 6 |----- 10 30 10|----- 14 24 14|----- 18 12 18|----- 22 6 Total 78
4.8 SEPARATRIZES
As medidas separatrizes são medidas de posição e têm por finalidade dividir uma série de dados. As medidas separatrizes são: mediana, quartil, decil e percentil.
4.8.1 QUARTIS
Denominamos quartis os três valores que separam a série em 4 partes iguais.
Q1 – Primeiro quartil, valor que representa os primeiros 25% dos elementos da série;
Q2 – Segundo quartil (mediana) , valor que representa os primeiros 50% dos elementos da série;
Q3 – Terceiro e último quartil, valor que representa os primeiros 75% dos elementos da série;
Quartis em dados não agrupados
Deve-se utilizar o mesmo princípio do cálculo da mediana para os 3 quartis. Efetivamente, serão calculadas "3 medianas" na mesma série.
Exemplo1:
Calcule os quartis da série {5, 2, 6, 9, 10, 13, 15}.
O primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores:
{2, 5, 6, 9, 10, 13, 15}.
O valor que divide a série acima em duas partes iguais é 9; logo, a Md = 9, que será = Q2.
Observe que temos agora {2, 5, 6} e {10, 13, 15} como os dois grupos de valores iguais
proporcionados pela mediana (quartil 2). Para o cálculo dos quartis 1 e 3, basta calcular as medianas
das partes iguais provenientes da verdadeira Mediana da série (quartil 2).
Logo, em {2, 5, 6} a mediana é = 5. Ou seja: o quartil 1;
em {10, 13, 15} a mediana é =13. Ou seja: o quartil 3.
Exemplo 2:
Calcule os quartis da série {1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13}.
A série já está ordenada, então calcularemos o Quartil 2 = Md = (5+6)/2 = 5,5.
O quartil 1 será a mediana da série à esquerda de Md: {1, 1, 2, 3, 5, 5}
Q1 = (2+3)/2 = 2,5
O quartil 3 será a mediana da série à direita de Md: {6, 7, 9, 9, 10, 13}
Q3 = (9+9)/2 = 9
b) Quartis para dados agrupados em classes
Usamos a mesma técnica do cálculo da mediana, bastando substituir, na fórmula da mediana,
2∑ fi
por 4
.∑ fik.
Para determinar os quartis, devemos seguir estes passos:
1º) determinamos as frequências acumuladas;
2º) calculamos4
.∑ fik ,
Sendo k o número de ordem do quartil;
3º) calculamos a Mediana pela seguinte fórmula:..
*
*
*
.)(4
.
f
hantFfik
Qk
−
+=
∑
l
Em que:
ℓ* é o limite inferior da classe mediana. F(ant) é a frequência acumulada da classe anterior à classe mediana.
f* é a frequência simples da classe mediana.
h* é a amplitude do intervalo da classe mediana.
Exemplo 3:
Calcule os quartis da tabela abaixo, que representa os pesos de 40 alunos.
Tabela 4.12 Pesos de 40 alunos
Vamos calcular o primeiro quartil (Q1).
Primeiramente, vamos incluir a frequência acumulada na Tabela.
Pesos (kg) fi 50 |------ 54 4 54 |------ 58 9 58 |------ 62 11 62 |------ 66 8 66 |------ 70 5 70 |------ 74 3 Total 40
Temos k=1 para o primeiro quartil
Calculamos 104
40.1
4
. ==∑ fik
Procuramos na tabela anterior a frequência acumulada, imediatamente, superior a 10; neste caso, temos o valor 13.
Logo, a classe do primeiro quartil é 54 |------ 58,
Assim:
ℓ* = 54.
F(ant) = 4
f* = 9
h* = 4
Logo, o primeiro quartil será:
[ ]67,564.
9
41054
.)(4
.
*
*
*1 =−+=
−
+=
∑
f
hantFfik
Q l
Q1 = 56,66 kg
Interpretação: Q1 = 56,66 kg
25% dos alunos pesam menos ou igual a 56,66 kg.
Ou ainda, podemos afirmar que 75% dos alunos pesam mais que 56,66 kg.
4. Vamos calcular o terceiro quartil (Q3):
Temos k=3
Calculamos 304
40.3
4
. ==∑ fik
Pesos (kg) fi F 50 |------ 54 4 4 54 |------ 58 9 13 58 |------ 62 11 24 62 |------ 66 8 32 66 |------ 70 5 37 70 |------ 74 3 40 Total 40
Pesos (kg) fi F 50 |------ 54 4 4 54 |------ 58 9 13 ⇐ Valor imediatamente superior a 10 58 |------ 62 11 24
Logo,.a classe do terceiro quartil é 62 |------ 66
Assim:
ℓ* = 62
F(ant) = 24
f* = 8
h* = 4
Logo, o terceiro quartil (Q3) será:
[ ]0,654.
8
243062
.)(4
.
*
*
*3 =−+=
−
+=
∑
f
hantFfik
Q l
Q3 = 65 kg
Interpretação: Q3 = 65 kg
75% dos alunos pesam menos ou igual a 65kg.
.
4.8.2 DECIS
Denominamos decis os nove valores que separam uma série em 10 partes iguais.
D1 – Primeiro decil, valor que representa os primeiros 10% dos elementos da série;
D2 – Segundo decil, valor que representa os primeiros 20% dos elementos da série;
D5 – Quinto decil (mediana), valor que representa os primeiros 50% dos elementos da série;
ATIVIDADE 4.7 Calcule os 3 quartis das séries a seguir:
a) Teclados:
b) Tipos de placa-mãe:
Tipos de placa-mãe
Valor R$ Quantidade
Tipo 1 300 |------- 305 14
Tipo 2 305 |------- 310 46
Tipo 3 310 |------- 315 58
Tipo 4 315 |------- 320 76
Tipo 5 320 |------- 325 68
Tipo 6 325 |------- 330 62
Tipo 7 330 |------- 335 48
Tipo 8 335 |------- 340 22
Teclados Quantidades Tipo 1 344 Tipo 2 234 Tipo 3 656 Tipo 4 125 Tipo 5 111
D9– Nono e último decil, valor que representa os primeiros 20% dos elementos da série;
Para o cálculo dos percentis, usaremos a mesma técnica do cálculo dos quartis, bastando
substituir, na fórmula, 4
.∑ fik por
10
.∑ fik.
4.8.3 PERCENTIL OU CENTIL
Denominamos percentis ou centis os noventa e nove valores que separam uma série em 100 partes
iguais.
Indicamos: P1, P2, ... , P99.
É evidente que P50 = Md ; P25 = Q1 e P75 = Q3.
Os percentis, normalmente, são usados para grandes séries de dados.
Para o cálculo dos percentis, usaremos a mesma técnica do cálculo dos quartis, bastando
substituir, na fórmula, 4
.∑ fik por
100
.∑ fik.
Exemplo:
Vamos calcular o 8º percentil (P8) da tabela abaixo, que representa os pesos de 40 alunos:
Tabela 4.13 Pesos de 40 alunos
Pesos (kg) fi 50 |------ 54 4 54 |------ 58 9 58 |------ 62 11 62 |------ 66 8 66 |------ 70 5 70 |------ 74 3 Total 40
Novamente, vamos incluir a frequência acumulada na Tabela.
Temos k=8
Calculamos 2,3100
40.8
100
. ==∑ fik
Logo,.a classe do 8º percentil é 50 |------ 54
Assim:
ℓ* = 50
f* = 4
h* = 4
Logo, o 8º percentil (P8) será:
P8 = 53,2 kg
Interpretação: P8 = 53,2 kg
8% das pessoas pesam menos ou igual a 53,2kg.
Pesos (kg) fi F 50 |------ 54 4 4 54 |------ 58 9 13 58 |------ 62 11 24 62 |------ 66 8 32 66 |------ 70 5 37 70 |------ 74 3 40 Total 40
F(ant) = 0
Cuidado! Sempre a frequência acumulada anterior da primeira classe será zero.
ATIVIDADE 4.8 1- Calcule o 16o, o 29o e o 73o percentis das séries a seguir:
a) Teclados:
b) Tipos de placa-mãe:
Tipos de placa-mãe
Valor R$ Quantidade
Tipo 1 300 |------- 305 14
Tipo 2 305 |------- 310 46
Tipo 3 310 |------- 315 58
Tipo 4 315 |------- 320 76
Tipo 5 320 |------- 325 68
Tipo 6 325 |------- 330 62
Tipo 7 330 |------- 335 48
Tipo 8 335 |------- 340 22
Teclados Quantidades Tipo 1 344 Tipo 2 234 Tipo 3 656 Tipo 4 125 Tipo 5 111
ATIVIDADE 4.8 Após construir o histograma e a curva polida do seu trabalho prático, calcule a média, a mediana, o primeiro, o segundo e o terceiro quartis, além dos percentis (P15,P25,P35,P50,P75 e P80), determinando também o tipo de assimetria que o histograma apresenta.
Chegamos ao final deste capítulo, no qual aprendemos a calcular as medidas de ordenamento e posição. É importante que esse conteúdo esteja bem compreendido; caso contrário, faça uma revisão, pois ele será necessário para entender os próximos conteúdos. Vamos para o capítulo 5! Prof. Sebastião A. Carneiro
CAPÍTULO 5
MEDIDAS DE VARIABILIDADE
Será que a média é uma medida suficiente para caracterizar uma série de dados? Veja o exemplo a seguir: Exemplo 1: Observe o tráfego de dados numa rede de computadores: em uma hora há tráfego de dados a 49 Mbps(rápida) e na próxima hora há tráfego de dados a 51 Mbps(rápida também), enquanto que em outra rede uma hora o tráfego de dados é 1 Mbps (muito lenta) e na próxima hora o tráfego de dados é 99 Mbps(muito rápida).
49Mbps49Mbps
51Mbps51Mbps
01:00h
02:00h
Figura 18 Dois computadores se comunicando a 49 Mbps e 51 Mbps
Olá, Turma! Neste capítulo, veremos que a média não é suficiente para identificar uma série de dados. Devemos encontrar uma medida que nos mostre a forma como os elementos da série se distribuem, dispersam-se ou variam em torno da média. Bons estudos! Prof. Sebastião A. Carneiro
1Mbps1Mbps
99Mbps99Mbps
01:00h
02:00h
Figura 19 Dois computadores se comunicando a 1 Mbps e 99 Mbps As duas redes têm a mesma média de comunicação de dados nas 2 horas de comunicação, 50 Mbps, mas em condições diferentes: observe que a primeira rede é mais estável que a segunda. Portanto, temos a mesma média, mas em condições diferentes.
MEDIDAS DE DISPERSÃO Dispersão ou Variabilidade:
É a maior ou a menor diversificação dos valores de uma variável em torno de um valor de tendência central (média ou mediana) tomado como ponto de comparação.
A média é o valor que melhor representa uma série de valores, mas ela, por si só, não pode destacar o grau de homogeneidade ou heterogeneidade existente entre os valores que compõem o conjunto. Por esse motivo, precisamos de mais elementos que concretizem bem uma série de valores. Consideremos os seguintes conjuntos de valores das variáveis X, Y e Z:
Por esse motivo, vamos estudar o conceito de variabilidade, pois, se alguém pedisse para você escolher, qual você escolheria?Embora a média de tráfego das duas redes de computadores seja 50 Mbps. A responda, com certeza, seria uma rede mais estável (Figura 5.1), pois varia menos. Assim, veremos a seguir como quantificar as variações das séries em torno da média.
X = { 5, 5, 5, 5, 5 } ⇒⇒⇒⇒ 5=X
Y = { 3, 4, 5, 6, 7 } ⇒⇒⇒⇒ 5=Y
Z = { 0, 1, 5, 9, 10 } ⇒⇒⇒⇒ 5=Z Observe que os três conjuntos apresentam a mesma média aritmética (25/5 = 5). Entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z.
5.1 MEDIDAS DE DISPERSÃO ABSOLUTA
5.1.1 Amplitude total (AT):
a) Para uma série de dados, a amplitude total é a diferença entre o maior e o menor valor observado: AT = X máximo - X mínimo. Exemplo: Para os valores 4, 5, 8, 2 e 17 a amplitude total será: AT = 17 - 14 = 13 b) Para uma série de dados, mesmo quando os dados estão agrupados sem intervalos de classe, ainda temos: AT = X máximo - X mínimo Exemplo: Para os dados seguintes, agrupados sem intervalos, a amplitude total será:
Tabela 5.1 dados agrupados sem intervalos AT = 14 - 10 = 4 c) Para uma série de dados com intervalos de classe, a amplitude total será o limite superior da última classe e o limite inferior da primeira classe. Logo:
AT = L máximo - l mínimo
Exemplo: Para os dados agrupados em intervalos de classe conforme a seguir, a amplitude total será:
Tabela 5.2 Dados agrupados em intervalos de classe.
Xi Fi 10 11 11 6 13 5 14 13
AT = 26 - 10 = 16
A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série. É a única medida de dispersão que não tem na média o ponto de referência.
5.1.2 VARIÂNCIA Variância é a medida que considera a totalidade dos valores da variável em estudo. Baseia-se nos desvios em torno da média.
a) VARIÂNCIA DA POPULAÇÃO (σ 2)
A variância de uma população, que representaremos por 2σ , é a média aritmética dos quadrados dos desvios absolutos.
n
d∑=2
2σ
Sabemos que:
d= xi -µ Em que: µ - Média aritmética da população, representada por uma série xi, em que i = 1, 2, ....,n Logo:
( )n
xi∑ −=
2
2µ
σ
Também pode ser representada deste modo:
( )2
1
2 1∑
=
−=n
i
xin
µσ
b) VARIÂNCIA DA AMOSTRA (s 2)
Classes fi 10 |------ 16 4 16 |------ 22 5 22|-------26 2
Se o conjunto das observações é uma amostra estatística, teremos, neste caso, a variância amostral e
a representaremos por 2s ; sua média é representada por X .
A variância de uma amostra, que representaremos por 2s , é dada conforme indicação a seguir:
1
22
−= ∑
n
ds
Sabemos que:
d= xi -x Em que:
x - Média aritmética da amostra, representada por uma série xi ,, em que i = 1, 2, ....,n Logo:
( )1
2
2
−−
= ∑n
xxis
Também pode ser representada deste modo:
( )2
1
2
1
1∑
=
−−
=n
i
xxin
s
No cálculo da variância de uma amostra, devemos dividir a soma dos desvios quadráticos por (n-1) e não n, para que o valor esperado da variância seja o melhor estimador da variabilidade do conjunto de dados.
c) VARIÂNCIA PARA SÉRIE DE DADOS SIMPLES
Exemplo: Cálculo da variância da amostra representada por - 2 cm , -1 cm, 0 cm , 1 cm , 4 cm. Primeiramente, devemos calcular a média:
4,05
2 === ∑n
XiX
O passo seguinte é calcular os desvios e seus quadrados. Acompanhe a tabela a seguir:
Tabela 5.3 Desvios e seus quadrados de uma série de dados. Xi x d= xi -x d2 = 2)( xxi −
- 2 0,4 - 2,4 5,76 - 1 0,4 - 1,4 1,96
Temos n = 5, a variância fica:
( )2
2
2 3,54
2,21
15
2,21
1cm
n
xxis ==
−=
−−
= ∑
Propriedades:
PROPRIEDADE 1 Quando somamos ou subtraímos uma constante (k) a todos os valores de uma variável, a sua variância fica inalterada, pois a variância de uma constante é igual a zero. PROPRIEDADE 2 Quando multiplicamos ou dividimos todos os valores de uma variável por uma constante (k), a sua variância fica multiplicada ou dividida pelo quadrado da constante.
ATIVIDADE 5.1 1) Marque a opção correta: Para a série amostral de valores 0, -1, -2, 5, 4, -3, -7, 2, -4 e 6: a. ( ) a média é 3,4 e a variância, 17,8. b. ( ) a média é zero e a variância, 16. c. ( ) a média é 3,4 e a variância, 4. d. ( ) a média é zero e a variância, 17,8. e. ( ) a média é zero, mas é impossível calcular a variância. 2) Faça uma análise visual e observe qual série é mais dispersa: X: 10,11,12,13 e Y: 1, 110, 120, 130 Agora, comprove a sua afirmação. 3) Calcule a variância da série amostral: 3 kg, 4kg e 7kg, indicando o valor correto dentre as opções a seguir:
a) ( ) 4,3 kg b) ( ) 2,9 kg c) ( ) 2,9 kg2 d) ( ) 4,3 kg2
4) Calcule a variância, considerando os dois casos, população e a mostra, da série 31 Kbytes, 38 Kbytes , 19 Kbytes , 27 Kbytes , 24 Kbytes, 42 Kbytes , 32 Kbytes , 18 Kbytes , 43 Kbytes , 15 Kbytes, 39 Kbytes, indicando o valor correto dentre as opções a
0 0,4 - 0,4 0,16 1 0,4 0,6 0,36 4 0,4 3,6 12,96
2,21)( 2 =−∑ xxi
seguir: a) ( ) S2=90,7 Kbytes e σ2=99,8 Kbytes b) ( ) S2=90,7 Kbytes2 e σ2=99,8 Kbytes2 c) ( ) S2=90,7 e σ2=99,8 d) ( ) S2=99,8 Kbytes2 e σ2=90,7 Kbytes2
5)- Suponha que adicionamos 500 a cada um dos valores de uma amostra. O que acontece com a média, desvio médio e a variância?
D) VARIÂNCIA PARA DISTRIBUIÇÃO DE FREQUÊNCIA - σσσσ2
Quando os dados estiverem agrupados em intervalos de frequencia, a variância é calculada conforme a seguir:
( )∑
∑ −=
fi
fixi .2
2µ
σ
Exemplo: Cálculo da variância da série a seguir, que representa a variação interna de computadores em oC: X: 0,0,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4 Considerar os dados como populacional Inicialmente, montar a DF:
Tabela 5.4 Distribuição de frequência Em seguida, calcular a média:
Tabela 5.5 Distribuição de frequência com Xi Fi
===∑∑
30
63.
fi
fiXiµ 2,1°C
Montar a tabela a seguir para facilitar os cálculos:
Xi f i 0 2 1 6 2 12 3 7 4 3
xi f i xi.f i 0 2 0 1 6 6 2 12 24 3 7 21 4 3 12 Σfi =30 Σxi.fi= 63
Tabela 5.6 Distribuição de frequência com (xi-µµµµ) 2 . f i
Usamos a fórmula a seguir para calcular a variância:
( ) ( )20
2
2 09,130
7,32.C
fi
fixi==
−=
∑∑ µ
σ
Outra maneira de calcular a variância populacional é desenvolver o somatório:
( ) ( )n
xixixxi
2
22 ∑∑∑ −=−
Tente resolver essa igualdade!
Assim, a variância para dados não agrupados fica:
( )22
2
2
2
−=
−= ∑∑
∑∑
n
xi
n
xi
nn
xixi
σ
E para dados agrupados, a variância na população fica:
22
2.
−= ∑∑
n
fixi
n
fixiσ
ou 22
2.
−=∑∑
∑∑
fi
fixi
fi
fixiσ
Para calcular a variância de dados agrupados amostrais, bastar substituir o denominador n por (n-1) ou ∑fi por ∑fi-1 Uma das vantagens de calcular a variância dessa forma é o fato de não usar a média, pois a média em alguns casos tem que ser arredondada, o que gera erros de arredondamento. Nos casos em que a média não é arredondada, as duas fórmulas fornecem o mesmo resultado.
Exemplo:
Xi f i xi-µµµµ (xi- µ µ µ µ)2 (xi- µ µ µ µ)2 f i
0 2 -2,1 4,41 8,82 1 6 -1,1 1,21 7,26 2 12 -0,1 0,01 0,12 3 7 0,9 0,81 5,67 4 3 1,9 3,61 10,83 Σfi =30 32,7
Resolução do exemplo anterior, usando a segunda maneira de calcular a variância: Montar a tabela a seguir:
Tabela 5.7 Distribuição de frequência com xi2 f i Calcular a variância:
( )20222
2 09,130
63
30
165.C
n
fixi
n
fixi=
−=
−= ∑∑σ
Observou? Como não houve arredondamento na média, os dois valores da variância são
idênticos, como já era esperado.
ATIVIDADE 5.2
2) Calcule a variância populacional das distâncias a seguir:
2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 2m 13m 15m 2m 13m 15m
13m 15m 13m 15m 13m 15m 13m 15m 13m 15m 13m 15m 13m 15m 13m 13m
xi xi 2 f i xi . f i xi 2 . f i 0 0 2 0 0 1 1 6 6 6 2 4 12 24 48 3 9 7 21 63 4 16 3 12 48
Total Σfi =30 Σxi.fi= 63 Σxi 2 . f i =165
Observe que a unidade da série está elevada ao quadrado (oC)2, o que, sob o ponto de vista prático, é um inconveniente. Por esse motivo, imaginou-se uma nova medida com utilidade e interpretação prática. A variância, na verdade, é uma medida que tem pouca utilidade como estatística descritiva pois amplifica os desvios, além de apresentar sua unidade ao quadrado; porém, é extremamente importante na inferência estatística, além de ser base para o conceito de desvio padrão.
5.1.3 DESVIO PADRÃO – S O desvio padrão, que é representado por s, é a medida de dispersão mais empregada no cálculo de variabilidade, pois elimina a amplificação dos desvios e sua unidade é a mesma da série de dados.
O desvio padrão por definição é simplesmente a raiz quadrada positiva da variância.
2ss = Assim, todas as fórmulas de variância são utilizadas no cálculo de desvio padrão; basta, é claro, tirar a raiz quadrada positiva das fórmulas da variância.
Exemplo: Cálculo do desvio padrão populacional da série seguinte, que representa a variação interna de computadores em oC: X: 0,0,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4 Como já calculada no exemplo anterior, a variância da série é s2 =1,09 (oC)2
O desvio padrão é a raiz quadrada de σ2 =1,09 (oC)2 , ou seja:
=== C)( 1,09 2o2σσ 1,04 oC
O desvio padrão possui algumas propriedades, dentre as quais destacamos:
PROPRIEDADE 1 Se somarmos, ou subtrairmos, uma constante(k) a todos os valores da série, o desvio padrão não se altera. yi= xi ± k ⇒ Sy =Sx ou sy = sx Exemplo: Y= { 11,12,13,14} e X= {1,2,3,4} ⇒ Y = 10 + X : Sy = Sx = 1,118
Observe: Sy = Sx PROPRIEDADE 2 Se multiplicarmos, ou dividirmos uma constante(k) a todos os valores da série por uma constante (diferente de zero), o desvio padrão fica multiplicado, ou dividido, por essa constante. yi= xi . k ⇒ sy = sx . k ou sy= sx . k Exemplo: Y= { 10,20,30,40} e X= {1,2,3,4} ⇒ Y = 10.X : Sy = 11,18 e Sx = 1,118 Observe: Sy = 10. Sx
ATIVIDADE 5.3 1- Marque a opção correta: Dados os conjuntos de números: A = {-2, -1, 0, 1, 2} e B = {220, 225, 230, 235, 240}. Podemos afirmar, de acordo com as propriedades do desvio padrão, que o desvio padrão de B é igual: a) ( ) ao desvio padrão de A; b) ( ) ao desvio padrão de A, multiplicado pela constante 5; c) ( ) ao desvio padrão de A, multiplicado pela constante 5; d) ( ) ao desvio padrão de A mais a constante 230. 2- Considere os seguintes conjuntos de números: A = {10, 20, 30, 40, 50} B = {100, 200, 300, 400, 500} Que relação existe entre os desvios padrões dos dois conjuntos de números? 3- Dados os conjuntos de números: A = {220, 230, 240, 250, 260} B = {20, 30, 40, 50, 60} Que relação existe entre os desvios padrões dos dois conjuntos de números? 4- Suponha que adicionamos 100 a cada um dos valores de uma amostra. O que acontece com a média, desvio médio, variância e o desvio padrão? 5- Marque a opção correta: O desvio padrão de um conjunto de dados é 9. A variância será:
a) ( ) 3; b) ( ) 18; c) ( ) 36; d) ( ) 81. 6- Marque a opção correta: A variância de um conjunto de dados é 9. desvio padrão será:
a) ( ) 3; b) ( ) 18; c) ( ) 36; d) ( ) 81.
Na estatística descritiva, o desvio padrão por si só tem limitações. Veja o exemplo: Um desvio padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito. Além disso, o fato do desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, expressas em unidades diferentes. Veja outro exemplo: O desvio padrão da temperatura interna de computadores é 2,5 oC, enquanto o desvio padrão dos preços desses computadores é de R$ 30,00. A pergunta em relação à variabilidade é, quem variou mais a temperatura interna dos computadores ou os preços? Para contornar essas dificuldades e limitações, iremos definir a seguir o Coeficiente de Variação
de Pearson - CVP.
5.1.4 COEFICIENTE DE VARIAÇÃO DE PEARSON - CVP O coeficiente de variação de Pearson contorna as limitações de comparação de séries diferentes do desvio padrão.
O Coeficiente de Variação de Pearson é a razão entre o desvio padrão e a média referente a dados de uma mesma série:
(%)100.x
sCVP=
Exemplo: Vamos tomar os resultados das estaturas e dos pesos de um grupo de indivíduos:
Tabela 5.8 Estaturas e pesos de um grupo de alunos Qual das duas medidas, estatura ou peso, apresenta maior variabilidade? Resposta: Observe que não podemos compará-las, pois são séries diferentes; para resolver o problema, basta calcular o CVP da estatura e o CVP do peso. O resultado maior será o mais heterogêneo (maior dispersão ou variabilidade). CVP estatura = ( 5 / 175 ) x 100 = 2,86 % CVP peso = ( 2 / 68 ) x 100 = 2,94 %.
DISCRIMINAÇÃO MÉDIA DESVIO PADRÃO ESTATURAS 175 cm 5,0 cm
PESOS 68 kg 2,0 kg
Logo, nesse grupo de alunos, os pesos apresentam maior grau de dispersão que as estaturas. (Se tomássemos somente o desvio padrão para responder a pergunta, teríamos, com certeza, uma resposta errada).
Observe! A série estatura apresenta maior desvio padrão; mesmo assim, é mais homogênea que a
série peso, que apresenta menor desvio padrão.
ATIVIDADE 5.4 1- A renda média mensal na localidade A é R$ 1.750,00 e na localidade B é R$ 1.500,00. Os desvios padrões são R$ 100,00 e R$ 80,00. Faça uma análise comparativa quanto ao grau de homogeneidade da renda nessas duas localidades. 2- Um grupo de 95 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97 cm. Outro grupo de 128 moças tem uma estatura média de 161,9 cm, com um desvio padrão igual a 6,01 cm. Qual é o coeficiente de variação de cada um dos grupos? Qual o grupo mais homogêneo? 3- Um grupo de 200 famílias tem renda média de R$ 1.063,8, com um coeficiente de variação de 4,3%. Qual o desvio padrão da renda desse grupo? 4- Uma distribuição apresenta as seguintes estatísticas: S = 2,6 e CVP = 1,9%. Determine a média dessa distribuição. 5- Numa pequena cidade, 165 famílias têm a renda média de R$ 1.350,98, com um desvio padrão de R$ 55,98. Qual a variabilidade relativa das famílias? 6- Ao se formar você obteve duas ofertas de empregos de empresas de informática . Qual a empresa representa a melhor opção? Porque?
Empresa 1 Empresa 2
Média Salarial R$ 3900,00 R$ 4500,00
Mediana R$ 3500,00 R$ 2700,00
Desvio Padrão R$ 117,00 R$ 225,00
ATIVIDADE 5.5 Após construir o histograma e a curva polida do seu trabalho prático, calcule a média, a mediana e o primeiro, o segundo e o terceiro quartis; calcule também os percentis (P15,P25,P35,P50,P75 e P80) e o coeficiente de variação de Pearson.
Chegamos ao final deste capítulo, em que aprendemos a calcular as medidas de variabilidade. Observe, no exemplo mostrado no início do capítulo, envolvendo os tráfegos de dados de duas redes de computadores, que temos: Primeiro caso: 2 computadores que se comunicam a 49 Mbps e 51 Mbps Velocidade média = 50 Mbps e desvio padrão = 1 Mbps Segundo caso: 2 computadores que se comunicam a 1 Mbps e 99 Mbps Velocidade média = 50 Mbps e desvio padrão = 49 Mbps Ou seja, no primeiro caso teremos uma média de 50 Mbps com uma pequena variação de velocidade (desvio padrão = 1Mbps), enquanto que no segundo caso temos também a mesma média de 50 Mbps, só que neste caso com uma grande variação de velocidade (desvio padrão = 49 Mbps). Embora já no início, intuitivamente, você tenha percebido o conceito de variabilidade, para esse exemplo simples, o desvio padrão na realidade quantifica a variabilidade para qualquer série de dados, e aí sim você poderá comparar os dados. Concluindo, a média não é uma medida suficiente por si só, necessita-se de mais informações para se representar uma série de dados. Vamos adiante! Prof. Sebastião A. Carneiro
CAPÍTULO 6 6.1 INTRODUÇÃO
Em diversas investigações deseja-se avaliar a relação entre duas medidas quantitativas. Por exemplo, o uso do cigarro e incidência do câncer ou câncer ou consumo e a renda familiar.
Procuramos até agora descrever a distribuição de valores de uma única variável. Assim, calculamos as medidas de tendência central e variabilidade.
Quando temos duas ou mais variáveis, temos um novo problema: as relações que podem existir entre as variáveis estudadas. Nesse caso, as medidas estudadas não são eficientes.
Assim, quando consideramos variáveis como peso e altura de um grupo de pessoas, uso do cigarro e incidência do câncer, vocabulário e compreensão da leitura, dominância e submissão, procuramos verificar se existe alguma relação entre as variáveis de cada um dos pares e qual o grau dessa relação. Para isso, é necessário o conhecimento de novas medidas.
Sendo a relação entre as variáveis de natureza quantitativa, a correlação c o instrumento adequado para descobrir e medir essa relação.
Uma vez caracterizada a relação, procuramos descrevê-la através de uma função matemática. A regressão é o instrumento adequado para a determinação dos parâmetros dessa função.
NOTA: • No nosso curso ficaremos restritos às relações entre duas variáveis (correlação simples).
6.2 CORRELAÇÃO
6.2.1. Relação funcional
Sabemos que o perímetro de uma circunferência e o seu raio estão relacionados. A relação entre os dois é perfeitamente definida e pode ser expressa por meio de uma sentença matemática:
C = 2 π . R
Em que:
C é o perímetro de uma circunferência
R é o raio da circunferência
Vemos que esta relação é exata, portanto, é uma relação funcional.
6.2.2 Relação Estatística
Quando existe uma relação entre as variáveis que não é exata, veja o exemplo: A relação entre o peso e a altura de um grupo de pessoas. Observamos facilmente que a ligação entre peso e altura não é tão precisa quanto à ligação entre o raio e a área de um círculo, porém, em média quanto maior a altura, maior o peso.
6.2.3 Correlação Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas. A correlação, então, é a verificação da existência e do grau de relação entre duas variáveis.
Assim As relações do tipo raio e a área de um círculo são conhecidas como relações
funcionais e as do tipo peso e estatura são conhecidas como relações estatísticas.
6.2.4 Diagrama de Dispersão
Diagrama de Dispersão é uma forma simples de verificar a tendência da correlação existente.
Consideremos uma amostra aleatória, formada por dez dos 183 alunos(só alunos do sexo masculinos) do curso de Engenharia de Controle e automação:
Tabela 1
Quantidade Aluno Altura Peso 1 1 160 65 2 22 163 67 3 138 167 68 4 34 168 69 5 11 169 74 6 67 171 71 7 87 173 72 8 90 175 74 9 56 176 77 10 74 178 76
Se plotarmos os dados amostrais num sistema cartesiano ortogonal de pares ordenados, obteremos o gráfico a seguir:
Os pares de valores das duas variáveis colocados num diagrama cartesiano chamamos de “diagrama de dispersão”
A vantagem de construir um diagrama de dispersão está em que, muitas vezes uma simples observação já nos dá uma idéia bastante clara de como as duas variáveis se relacionam.
Uma vez caracterizada esta relação, procura-se descrevê-la sob forma matemática, através de uma função no nosso exemplo temos uma reta imagem. A estimação dos parâmetros dessa função matemática é o objeto da regressão que veremos a seguir.
A correlação pode ser: • linear positiva se os pontos do diagrama têm como "imagem" uma reta ascendente; • linear negativa se os pontos têm como "imagem" uma reta descendente; • não-linear se os pontos têm como "imagem" uma curva.
Se os pontos apresentam-se dispersos, não oferecendo uma "imagem" definida, concluímos que não há relação alguma entre as variáveis em estudo. Algumas situações que podem se apresentar os diagramas de dispersão
6.3. Coeficiente de correlação linear
Empregamos para a medir a correlação linear o coeficiente de correlação. Esse coeficiente deve indicar o grau de intensidade da correlação entre as duas variáveis e o sentido da correlação (positivo ou negativo).
Usaremos o coeficiente de correlação de Pearson, que é dado de acordo com a fórmula a seguir:
∑ ∑ ∑∑∑ ∑ ∑
−−
−=
])(.][)(.[
)).((.2222
iiii
iiii
yynxxn
yxyxnr
Em que:
n é o número de observações.
O coeficiente de correlação de Pearson ( r ) assume valores limites de -1 a +1, assim, o valor de r pertence ao intervalo [-1, +1].
Pode-se verificar que:
a. se a correlação entre duas variáveis é perfeita e positiva, então r = +1;
b. se a correlação é perfeita e negativa, então r = -1;
c. se não há correlação entre as variáveis, ou a relação não é linear então r = 0.
NOTAS: • Para que uma relação possa ser descrita por meio do coeficiente de correlação de Pearson é
imprescindível que ela se aproxime de uma função linear. Uma maneira prática de verificarmos a linearidade da relação é a inspeção do diagrama de dispersão.
Analise do comportamento simultâneo das variáveis
• Se 0,6 ≤ | r | ≤ 1 há uma forte correlação entre as variáveis analisadas • Se 0,3 ≤ | r | ≤ 0,6 há uma correlação fraca entre as variáveis analisadas • Se 0 ≤ | r | ≤ 0,3 não há uma correlação entre as variáveis analisadas ou nada podemos con-
cluir sobre a relação entre as variáveis. Exemplo 1:
Calcular o coeficiente de correlação relativo do exemplo dado na tabela a seguir.
Quantidade Aluno Altura Peso 1 1 160 65 2 22 163 67 3 138 167 68 4 34 168 69 5 11 169 74 6 67 171 71 7 87 173 72 8 90 175 74 9 56 176 77 10 74 178 76
Resolução: O modo simples para obtermos r é criarmos novas colunas na tabela correspondentes aos valores de xi yi , x
2 e y2. Assim:
Altura (xi) Peso (yi) xi . yi xi2 yi2
160 65 10400 25600 4225 163 67 10921 26569 4489 167 68 11356 27889 4624 168 69 11592 28224 4761 169 74 12506 28561 5476 171 71 12141 29241 5041 173 72 12456 29929 5184 175 74 12950 30625 5476 176 77 13552 30976 5929 178 76 13528 31684 5776
Σxi= 1700 Σyi= 713 Σxi .yi= 121402 Σxi2= 289298 Σyi2= 50981
Como r= 0,927 há uma forte correlação entre as variáveis analisadas, pois 0,6 ≤ | r | ≤ 1
Exemplo 2:
Calcular o coeficiente de correlação relativo do exemplo dado na tabela a seguir.
∑ ∑ ∑∑∑ ∑ ∑
−−
−=
])(.][)(.[
)).((.2222
iiii
iiii
yynxxn
yxyxnr
Quantidade xi yi 1 20 64 2 16 61 3 34 84 4 23 70 5 27 88 6 32 92 7 18 72 8 22 77
Resolução: O modo simples para obtermos r é criarmos novas colunas na tabela correspondentes aos valores de xi yi , x
2 e y2. Assim:
n (xi) (yi) xi . yi xi2 yi2 1 20 64 1280 400 4096 2 16 61 976 256 3721 3 34 84 2856 1156 7056 4 23 70 1610 529 4900 5 27 88 2376 729 7744 6 32 92 2944 1024 8464 7 18 72 1296 324 5184 8 22 77 1694 484 5929
n= 8 Σxi= 192 Σyi= 608 Σxi .yi= 15032 Σxi2= 4902 Σyi2= 47094
Como r= 0,862 há uma forte correlação entre as variáveis analisadas, pois 0,6 ≤ | r | ≤ 1
∑ ∑ ∑∑∑ ∑ ∑
−−
−=
])(.][)(.[
)).((.2222
iiii
iiii
yynxxn
yxyxnr
Exemplo 3:
Calcular o coeficiente de correlação relativo do exemplo dado na tabela a seguir.
Quantidade xi yi 1 1 60 2 2 51 3 3 95 4 4 70
Resolução: O modo simples para obtermos r é criarmos novas colunas na tabela correspondentes aos valores de xi yi , x
2 e y2. Assim:
n (xi) (yi) xi . yi xi2 yi2 1 1 60 60 1 3600 2 2 51 102 4 2601 3 3 95 285 9 9025 4 4 70 280 16 4900
n= 4 Σxi= 10 Σyi= 276 Σxi .yi= 727 Σxi2= 30 Σyi2= 20126
Como r= 0,503 há uma fraca correlação entre as variáveis analisadas, pois 0,3 ≤ | r | ≤ 0,6 ATIVIDADE 6.1
1) Considere os resultados de 2 grandezas físicas, X(Temperatura) e Y(Pressão), obtidos num laboratório de calibragem:
Temperatura (oC) 50 55 60 65 70 75 80 85 90 Pressão(kgf/cm²) 20 35 37 42 37 52 50 68 66
a)Verifique, pelo diagrama, se existe correlação retilínea. b) Em caso afirmativo, calcule o coeficiente de correlação.
6.3 REGRESSÃO
6.3.1. Ajustamento da reta
Em regressão linear simples desejamos estudar determinada variável em função de outra,
utilizamos para isso a análise de regressão.
A análise de regressão tem por objetivo descrever, através de um modelo matemático, a relação
entre as duas variáveis, partindo de n observações entre as mesmas.
Quando estamos analisando o comportamento de duas variáveis a variável na qual desejamos
fazer uma estimativa recebe o nome de variável dependente e a outra recebe o nome de variável
independente.
Para a determinação dos parâmetros utilizaremos o método dos mínimos quadrados
Método dos Mínimos Quadrados
É o método mais utilizado para ajustar uma linha reta a um conjunto de pontos, pois utiliza a técnica
dos mínimos quadrados. A reta resultante tem duas características importantes: (1a) aa soma dos
desvios verticais dos pontos em relação à reta é zero, e (2a) a soma dos quadrados desses desvios é
mínima, ou seja, nenhuma outra reta apresenta uma menor soma de quadrados de tais desvios.
Para o nosso exemplo podemos considerar a altura como a variável independente(X) e o peso a
variável como a dependente(Y), Nosso problema agora consiste em determinar o ajustamento de uma
reta à relação entre essas duas variáveis, ou seja, vamos obter uma função definida por:
Reta de regressão linear
= a . X + b
Em que :
a e b são os parâmetros.
• Calculo do parâmetro a:
∑ ∑∑ ∑ ∑
−−
=22 )(.
)).((.
ii
iiii
xxn
yxyxna
• Calculo do parâmetro b:
Em que :
é a média da variável Y.
é a média da variável X.
Ou seja:
Exemplo 4:
Estabeleca a equação de regresssão da altura (X) sobre o peso (Y) do exemplo 1
Resolução:
Devemos obter:
• Cálculo do parâmetro a:
Quantidade Aluno Altura Peso 1 1 160 65 2 22 163 67 3 138 167 68 4 34 168 69 5 11 169 74 6 67 171 71 7 87 173 72 8 90 175 74 9 56 176 77 10 74 178 76
Devemos reutilizar a Tabela feita no exemplo 1:
Altura (xi) Peso (yi) xi . yi xi2 yi2
160 65 10400 25600 4225 163 67 10921 26569 4489 167 68 11356 27889 4624 168 69 11592 28224 4761 169 74 12506 28561 5476 171 71 12141 29241 5041 173 72 12456 29929 5184 175 74 12950 30625 5476 176 77 13552 30976 5929 178 76 13528 31684 5776
Σxi= 1700 Σyi= 713 Σxi .yi= 121402 Σxi2= 289298 Σyi2= 50981
• Cálculo do parâmetro b:
b= -38,23
∑ ∑∑ ∑ ∑
−−
=22 )(.
)).((.
ii
iiii
xxn
yxyxna
Assim, temos a equação da reta:
Plotando a reta imagem teremos a Figura a seguir:
6.3.2 Interpolação e extrapolação
Na regressão, os valores Y são preditos com base em valores dados ou conhecios de X.
Ou seja, basta atribuir valores a X e obter através da equação Y = a . X +b o valor de Y.
Exemplo 5:
Considerando os dados do exemplo 1, qual o peso de um aluno de 162 cm ?
Resolução:
Podemos observar que tal altura não existe na Tabela do exemplo 1, neste caso vamos lançar mão da reta imagem para resolver o problema.
X= 162 � Y = 0,644 . X – 38,23 = 0,644 . 162 – 38,23 = 66,1 kg
Assim, para um aluno que tem 162 estimamos que ele deve pesar 66,1 kg
Observe que o valor 162 pertence ao intervalo de altura dado na Tabela [160 – 178 ], dizemos neste caso que fizemos uma interpolação.
162 ∈ [160 – 178 ] � interpolação
Exemplo 6:
Considerando os dados do exemplo 1, qual o peso de um aluno de 158 cm ?
Resolução:
Podemos observar que tal altura não existe na Tabela do exemplo 1, neste caso vamos lançar mão da reta imagem para resolver o problema.
X= 158 � Y = 0,644 . X – 38,23 = 0,644 . 158 – 38,23 = 63,5 kg
Assim, para um aluno que tem 158 estimamos que ele deve pesar 63,5 kg
Observe que o valor 158 não pertence ao intervalo de altura dado na Tabela [160 – 178 ], dizemos neste caso que fizemos uma extrapolação.
158 ∉ [160 – 178 ] � extrapolação
IMPORTANTE:
Devemos ter o cuidado de só usar a extrapolação em casos onde as considerações teóricas ou experimentais demonstrem a sua possibilidade, pois estamos fora do campo de observação que foi feito o levantamento.
Exemplo:
Ao fazer o levantamento da temperatura versus pressão numa caldeira, podemos utilizar a interpolação
para obter medidas não observadas durante o ensaio, mas se fizermos uma extrapolação tomando
temperaturas acima da temperatura da caldeira a pressão interna poderá destruí-la parcial ou
totalmente.
6.4 Outros tipos de regressão
Para as funções não lineares são aplicados modelos de regressão não lineares, as funções mais comuns
não lineares são:
6.4 1.Função Múltipla
Quando uma função tem diversas variáveis explanatórias.
6.4 2.Função Potencial
Também conhecida como função de Cobb-Douglas.
6.4 3.Função Exponencial
6.4 4.Função Logística
Os diversos tipos de regressão são freqüentemente usados para o cálculo de demandas.
Exemplos que podemos citar são: o tempo de execução de uma tarefa em função do tempo de
experiência na execução desta tarefa, o cálculo do volume de vendas em função dos anos, o cálculo do
custo em função da taxa de câmbio.
ATIVIDADE 6.2
1) A tabela abaixo apresenta o desempenho de um veículo(km) adicionando aditivo(ml) colocado em 1 litro de gasolina em proporções variáveis:
Ensaio Aditivo
(ml/1Lgasolina) Desempenho
(km)
1 1,0 10 2 2,0 11,25 3 3,0 12,5 4 4,0 16,25 5 5,0 17,5 6 6,0 17,5 7 7,0 20
a. Verifique, pelo diagrama de dispersão, se há correlação retilínea entre o aditivo e o desempenho do veículo
b. Calcule o coeficiente de correlação;
c. Caso se verifique a correlação retilínea obtenha a equação do desempenho do veículo em função do aditivo adicionado.
d. Caso se verifique a correlação retilínea verifique o desempenho do veículo para a condição de não adicionar aditivo.
e. Caso se verifique a correlação retilínea verifique o desempenho do veículo para uma quantidade de 3,5 ml/1L gasolina.
f. Caso se verifique a correlação retilínea verifique o desempenho do veículo para uma quantidade de 3,5 ml/1L gasolina.
g. Caso se verifique a correlação retilínea verifique o desempenho do veículo para uma quantidade de 100 ml/1L gasolina. (Comente o resultado )
2) Considere os resultados de 2 grandezas físicas, X(Temperatura) e Y(Pressão), obtidos num laboratório de calibragem:
Temperatura (oC) 50 55 60 65 70 75 80 85 90
Pressão(kgf/cm²) 20 35 37 42 37 52 50 68 66
Caso se verifique a correlação retilínea verifique a pressão para as temperaturas possíveis a:
a) 57 oC
b) 76,5 oC
c) 110 oC
d) 40 oC
3) Um departamento de vendas de uma industria relacionou as vendas anuais em milhões,
denominada como variável dependente y, com o investimento anual em propaganda em milhões denominada como variável independente x, cujos valores estão registrados na tabela seguinte. Pede-se:
Propaganda (milhões)
30 21 35 42 37 20 8 17 35 25
vendas (milhões)
430 335 520 490 470 210 195 270 400 480
a) analisar a possibilidade de definir um modelo que represente a relação entre as variáveis da amostra.
b) Obter a reta de regressão linear, com o método dos quadrados mínimos e desenhar os dados e a reta de regressão.
c) Projetar os valores para valores de investimentos em propaganda iguais a 20, 30 e 45 milhões.
4) Suponha que um analista toma uma amostra aleatória de 10 carregamentos recentes por caminhão feitos por uma companhia e anota a distância em quilômetros(X) e o tempo de entrega em dias(Y) e anote os dados na Tabela a seguir. Pede-se:
a) Faça considerações se parece apropriada a análise de regressão linear simples entre a distância em quilômetros e o tempo de entrega em dias.
b) Caso se confirme a regressão linear simples, obtenha a reta de regressão linear.
c) Analise do ponto de vista de interpolação ou extrapolação o ponto X = 0
Distância(km) 825 215 1070 550 480 920 1350 325 670 1215
tempo de entrega(dias) 3,5 1 4 2 1 3 4,5 1,5 3 5
5- Um departamento de manutenção de uma industria relacionou uma amostra dos atendimentos/hora
dos seus clientes e no número de reclamações no Procon, cujos valores estão registrados na tabela seguinte. Pede-se:
Atendimentos/h 2 4 6 8 10 12 14 16 18 20 Reclamações 50 40 45 30 20 23 15 8 10 5
d) analisar a possibilidade de definir um modelo que represente a relação entre as variáveis da amostra.
e) Obter a reta de regressão linear, com o método dos quadrados mínimos e desenhar os dados e a reta de regressão.
f) Projetar os valores para valores de investimentos em propaganda iguais a 0, 1 e 25 Atendimentos/h.
6- Suponha que um analista de um laboratório de industria química toma uma amostra aleatória de 10 produtos embalados sob pressão, onde a pressão [g/cm2] (X) e o PH(Y) são anotados na Tabela a seguir. Pede-se:
a) Faça considerações se parece apropriada a análise de regressão linear simples entre a pressão e o PH nos produtos embalados.
b) Caso se confirme a regressão linear simples, obtenha a reta de regressão linear. c) Projetar os valores para pressões iguais a 168, 171 e 174 [g/cm2]
Pressão PH
166 6,5 167,5 7,5 169 7,2
170,5 6,5 172 7,4
173,5 7,1 175 7,8
176,5 6,6 178 7,7
179,5 7
Leitura Complementar
Embora o conceito Arredondamento de dados esteja em Leitura Complementar é importantíssimo que você leia com atenção, pois iremos utilizá-lo constantemente no curso e em toda sua vida profissional.
Arredondamento de dados de acordo com a resolução 886/66 do IBGE
Muitas vezes, é necessário ou conveniente suprimir unidades inferiores às de determinada ordem. Esta técnica é denominada arredondamento de dados.
De acordo com a resolução 886/66 do IBGE, o arredondamento é feito da seguinte maneira:
1 - Quando o primeiro algarismo a ser abandonado é 0,1,2,3 ou 4, fica inalterado o último algarismo a permanecer.
Ex: 54,24 passa a 54,2 ; 34,03 passa a 34,0
2 - Quando o primeiro algarismo a ser abandonado é 6,7,8, ou 9, aumenta-se de uma unidade o algarismo a permanecer.
Ex: 13,87 passa a 13,9 ; 24,08 passa a 24,1 ; 14,99 passa a 15,0
3 - Quando o primeiro algarismo a ser abandonado é 5, há duas soluções:
a) Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma unidade ao algarismo a permanecer.
Ex: 7,352 passa a 7,4 ; 95,6501 passa a 95,7 ; 86,250002 passa a 86,3
b) Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo a ser conservado só será aumentando de uma unidade se for ímpar.
Exemplos:
• 34,75 passa a 34,8 • 44,65 passa a 44,6 • 54,75000 passa 54,8 • 74,6500 passa a 74,6
Obs: Não devemos nunca fazer arredondamento sucessivos. Exemplo: 37,3452 passa a 37,3 e não para 37,35 e depois para 37,4.
Compensação
Suponhamos os dados abaixo, aos quais aplicamos as regras do arredondamento:
15,32 + 37,85 + 40,44 + 71,17 = 164,78 ( (167,8)
15,3 + 37,8 + 40,4 + 71,2 = 167,7
Verificamos que houve uma pequena discordância: a soma é exatamente 164,78 quando, pelo arredondamento, deveria ser 164,8, entretanto, para a apresentação dos resultados, é necessário que desapareça tal diferença, o que é possível pela prática do que denominamos compensação, conservando o mesmo número de casas decimais.
Usamos "descarregar" a diferença na(s) maior(es) parcela(s). Veja:
15,3 + 37,8 + 40,4 + 71,3 = 167,8
Obs: Se a maior parcela é igual ou maior que o dobro de qualquer outra parcela, "descarregamos" a diferença apenas na maior parcela.
ANEXOS Resultado da pesquisa de campo referente aos preços (R$) de 200 monitores LCD de uma determinada marca em 200 empresas de informática
431,3 431,3 431,3 432,0 413,0 413,0 413,0 414,0 414,0 414,0 422,0 422,5 422,5 422,5 422,8 416,0 416,0 417,0 417,0 417,0 425,5 425,5 426,0 426,0 426,0 419,0 419,0 419,0 420,0 420,0 421,0 421,0 421,0 421,0 421,0 422,0 422,0 422,0 422,0 422,0
424,0 424,0 424,0 424,0 424,0 424,0 424,5 424,5 424,5 424,5 427,0 427,0 427,0 427,0 427,0 427,0 427,5 427,5 427,5 427,5 430,0 430,0 430,0 430,0 430,0 430,0 430,6 430,6 430,6 430,6 433,0 433,0 433,0 433,0 433,0 434,0 434,0 434,0 434,0 434,0 436,0 436,0 436,0 436,0 437,0 437,0 437,0 437,0 438,0 438,0 439,0 439,0 439,0 440,0 440,0 440,0 440,0 440,0 417,0 438,0 420,0 420,0 420,3 420,3 420,3 420,3 420,7 420,7 420,7 420,7 418,0 418,0 418,0 418,0 419,0 422,8 422,8 422,8 423,0 423,0 424,5 424,5 425,0 425,0 425,0 425,0 425,5 425,5 425,5 425,5 427,5 427,5 428,0 428,0 428,0 428,0 428,5 428,5 428,5 428,5 430,6 430,6 431,0 431,0 431,0 431,0 431,0 431,3 431,3 431,3 434,0 434,0 435,0 435,0 435,0 435,0 435,0 435,0 435,0 435,0 417,8 417,8 417,8 417,8 438,0 435,0 435,0 423,0 423,0 423,5 415,0 415,0 415,0 415,0 416,0 426,0 426,0 426,3 423,5 423,5 428,5 428,5 429,0 429,0 429,0 429,0 429,0 429,8 429,8 429,8 412,0 412,0 412,5 412,5 432,0 432,0 432,0 432,0 426,3 426,3
REFERÊNCIAS
Bibliografia Básica (títulos; periódicos etc.)
Título/Periódico Autor Ed. Local Editora Ano CURSO DE ESTATÍSTICA
FONSECA, JAIRO S. & MARTINS, GILBERTO A.
6ª SÃO PAULO ATLAS 2008
INTRODUÇÃO À ESTATÍSTICA
TRIOLA, MARIO F. 10ª RIO DE JANEIRO
LTC 2008
ESTATÍSTICA BÁSICA
TOLEDO, GERALDO L. & OVALLE, IVO I.
2ª SÃO PAULO ATLAS 1995
Bibliografia Complementar (títulos; periódicos etc. )
Título/Periódico Autor Ed. Local Editora Ano
ESTATÍSTICA USANDO EXCEL
LAPPONI, JUAN CARLOS
1ª SÃO PAULO LAPPONI
TREINAMENTO E EDITORA
2002
ESTATÍSTICA SPIEGEL, MURRAY R.
3ª SÃO PAULO MAKRON BOOKS
2004
ESTATÍSTICA BÁSICA
BUSSAB, WILTON O. & MORETTTIN, PEDRO A.
5ª SÃO PAULO SARAIVA 2004
ESTATÍSTICA APLICADA À ADMINISTRAÇÃO
STEVENSON, WILLIAM J.
1ª SÃO PAULO HARBRA 2001
ESTATÍSTICA FÁCIL
CRESPO, ANTÔNIO ARNOT
18ª SÃO PAULO SARAIVA 2006