Apostila Estatatística Basica 29-08-2011 para Eng C&A

ENGENHARIA DE CONTROLE E AUTOMAÇÃO

ESTATÍSTICA BÁSICA

PROF. SEBASTIÃO ALVES CARNEIRO

VITÓRIA 2011-2

DIREITOS RESERVADOS IFES – Centro Federal de Educação Tecnológica do Espírito Santo Créditos de autoria da editoração COPYRIGHT – É proibido a reprodução, mesmo que parcial, por qualquer meio, sem autorização escrita dos autores e do detentor dos direitos autorais. Catalogação na fonte: Rogéria Gomes Belchior - CRB 12/417

C289 Carneiro, Sebastião Alves Probabilidade e estatística. / Sebastião Alves Carneiro. – Vitória: CEFETES, 2008.

1. Probabilidade. 2. Estatística. I. Centro Federal de Educação Tecnológica do Espírito Santo. II. Título.

CDD 519

sumário

Olá, Aluno (a)! Seja bem-vindo (a) ao nosso curso de Estatística Básica! Sou o professor Sebastião Alves Carneiro, responsável pela gerência e produção de material dessa disciplina, no curso de Tecnologia em Análise e Desenvolvimento de Sistemas. Sou formado em Engenharia Elétrica e tenho Mestrado em Controle de Sistemas pela Universidade Federal do Espírito Santo - UFES. Atualmente, ocupo o cargo de Diretor Adjunto, no Campus Serra. Já lecionei a disciplina de Probabilidade e Estatística no curso de Análise e Desenvolvimento de Sistemas, no Campus Serra. Acredito que, com tecnologia na sala de aula, o papel do educador muda de detentor do conhecimento para guia das investigações dos alunos. O novo professor tem que estar preparado para deixar de ser o que apenas fornece informações para ser um orientador, aquele que ajuda a selecionar informações e fazer articulações. Nós aprendemos uns com os outros, a toda hora, a qualquer momento. A disciplina de Estatística é importante para sua formação, pois é uma área do conhecimento que utiliza teorias probabilísticas para explicação de eventos, estudos e experimentos. Tem por objetivo obter, organizar e analisar dados, determinar as correlações que apresentem, tirando delas suas conseqüências para descrição e explicação do que passou e previsão e organização do futuro. Portanto, serão estudados neste curso tanto os conceitos fundamentais, como as técnicas formais da estatística. Nosso curso será dividido em 6 capítulos:no primeiro, faremos a introdução de nossos estudos; no segundo, estudaremos a construção de gráficos, bem como suas propriedades e aplicações; no terceiro, veremos métodos gráficos; no quarto estudaremos medidas de ordenamento e posição; no quinto, estudaremos medidas de dispersão e por fim Correlação e Regressão. Um curso de Estatística Básica requer um tempo diário de estudo e dedicação. Por isso é muito importante que você faça todas as atividades propostas, tanto neste material como na sua sala de aula virtual. • Leia os textos com bastante atenção, sempre com espírito questionador e investigativo. • Personalize o seu estudo. Dê novos títulos e subtítulos, reorganizando a divisão do texto. Assim,

você o verá por uma nova ótica e será mais fácil reter as informações por partes. • Crie perguntas e tente respondê-las sem pesquisar. Depois, confira as respostas. • Sintetize com suas palavras o que foi estudado. Faça resumos: destaque o tema central, as

definições essenciais, os exemplos, os casos particulares, as observações. • Leia bem os enunciados das questões propostas e interprete o que se pede. Comece, então, a

responder com atenção, sempre pesquisando no livro texto ou em outros meios que facilitem sua resposta. Verifique se todas estão corretas, revendo o que foi feito.

• Interesse-se, participe e discuta com o professor e com seus colegas. • Faça análise dos exercícios resolvidos que se encontram ao longo deste fascículo e, se houver

dúvidas, entre em contato com o seu professor. Você logo perceberá que o sucesso neste curso é questão de tempo!

CAPÍTULO 1 AMOSTRAGEM

1.1. INTRODUÇÃO

Olá, Aluno (a)! O objetivo fundamental da Introdução é dar uma visão inicial da estatística. Neste capítulo, veremos históricos da estatística, método estatístico, definições básicas da estatística e iniciaremos amostragem. A estatística é uma área do conhecimento que utiliza teorias probabilísticas para explicação de eventos, estudos e experimentos. Tem por objetivo obter, organizar e analisar dados; bem como determinar suas correlações, tirando delas suas conseqüências, explicar o que passou e prever o que ocorrerá no futuro. Bons estudos! Prof. Sebastião A. Carneiro

1.2. HISTÓRICO Faremos um breve histórico para expor o modo como a estatística surgiu. � ANTIGUIDADE : os povos na antiguidade registravam o número de habitantes, nascimentos,

óbitos. Já faziam "estatísticas". � IDADE MÉDIA : as informações na Idade Média eram tabuladas com finalidades tributárias e

bélicas. � SÉCULO XVI : no século XVI surgem as primeiras análises sistemáticas, as primeiras tabelas e

os números relativos. � SÉCULO XVIII : no século XVIII a estatística surge com notação científica a qual é adotada

pelo acadêmico alemão GODOFREDO ACHENWALL. As tabelas ficam mais completas, surgindo às primeiras representações gráficas e os cálculos de probabilidades. A estatística deixa de ser uma simples tabulação de dados numéricos para se tornar o estudo de como se chegar à conclusão sobre uma população, partindo de observação de partes dessa população.

1.3 MÉTODO ESTATÍSTICO

O método estatístico se aplica ao estudo dos fenômenos aleatórios. Um fenômeno é considerado aleatório se seus resultados variarem, a cada repetição, nas mesmas condições.

1.4. FASES DO MÉTODO ESTATÍSTICO

É importante conhecer todas as fases do método estatístico, pois você deverá segui-las quando desejar fazer uma pesquisa.

Comentando as fases do método estatístico:

1a - DEFINIÇÃO DO PROBLEMA: Saber exatamente o que se quer pesquisar é o mesmo que

definir corretamente o problema.

2a - PLANEJAMENTO: Como levantar informações? Que dados deverão ser obtidos? Qual o

levantamento a ser utilizado: censitário, por amostragem? E o cronograma de atividades? Os custos

envolvidos?

3a - COLETA DE DADOS: Fase operacional. É o registro sistemático de dados, com um objetivo

determinado.

MÉTODO : é um meio mais eficaz para atingir determinada meta. MÉTODO CIENTÍFICO : é um conjunto de regras básicas para desenvolver uma experiência a fim de produzir novo conhecimento, bem como corrigir e integrar conhecimentos pré-existentes.Destacamos o método experimental e o método estatístico. MÉTODO EXPERIMENTAL : consiste em manter constantes toda a causa, menos uma, que é a que sofre variação para se observarem seus efeitos. Exemplos: Estudos da Química, da Física, etc. MÉTODO ESTATÍSTICO : é um processo para obter, apresentar e analisar características ou valores numéricos para uma melhor tomada de decisão em situações de incerteza. Exemplo: Quais as causas que definem o preço de uma mercadoria quando a sua oferta diminui? Comentário: Seria impossível, no momento da pesquisa, manter constantes a uniformidade dos salários, o gosto dos consumidores, o nível geral de preços de outros produtos, etc.

Apresentação dos dados

Definição do

problema

Coleta de

dados

Apuração dos dados

Planejamento

4º - APURAÇÃO DOS DADOS : Resumo dos dados por meio de sua contagem e de seu

agrupamento. É a condensação e tabulação de dados.

5º - APRESENTAÇÃO DOS DADOS : Há duas formas de apresentação, que não se excluem

mutuamente. A apresentação tabular é uma apresentação numérica dos dados em linhas e colunas

distribuídas de modo ordenado, segundo regras práticas fixadas pelo Conselho Nacional de

Estatística. A apresentação gráfica dos dados numéricos constitui uma apresentação geométrica que

permite uma visão rápida e clara do fenômeno.

6º - ANÁLISE E INTERPRETAÇÃO DOS DADOS: A última fase do trabalho estatístico é a

mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja

finalidade principal é descrever o fenômeno (estatística descritiva).

1.5. CONCEITOS BÁSICOS

Muitas vezes, apesar dos recursos computacionais e da boa vontade, não é possível estudar todo um

conjunto de dados de interesse, pois fica caro e leva muito tempo. Assim, normalmente, se trabalha

com partes da população denominadas de amostras.

1.5.1 População

ATIVIDADE 1 Responda a questão a seguir:

Em que fase do método estatístico devemos:

a) ter uma visão rápida e clara do fenômeno?

b) fazer o registro sistemático de dados?;

c) fazer a condensação e tabulação de dados?

d) ser mais cuidadosos, pois é a fase mais importante e delicada do

método?

e) fazer o cronograma de atividades?

f) definir corretamente o problema?

População é o conjunto total de elementos portadores de, pelo menos, uma característica comum.

Note-se que o termo população é usado num sentido amplo e não significa, em geral, conjunto de

pessoas.o

Exemplos:

a) o conjunto das rendas de todos os habitantes do Espírito Santo;

b) o conjunto de todas as notas dos alunos de Estatística;

c) o conjunto das alturas de todos os alunos da Universidade; etc.

Um levantamento efetuado sobre toda uma população é denominado de levantamento censitário ou

Censo.

1.5.2 Amostras

Amostras são parcelas representativas de uma população, examinada com o propósito de se tirarem

conclusões sobre essa população.

Exemplos:

a) antes da eleição diversos órgãos de pesquisa e imprensa ouvem um conjunto selecionado

de eleitores para ter uma idéia do desempenho dos vários candidatos nas futuras eleições;

b) uma empresa metal-mecânica toma uma amostra do produto fabricado em intervalos de

tempo especificados para verificar se o processo está sob controle e evitar a fabricação

de itens defeituosos;

c) o IBGE faz levantamentos periódicos sobre emprego, desemprego, inflação, etc;

d) redes de rádio e TV se utilizam constantemente dos índices de popularidade dos

programas para fixar valores da propaganda, ou então, modificar ou eliminar programas

com audiência insatisfatória;

e) biólogos marcam pássaros, peixes, etc, para tentar prever e estudar seus hábitos.

1.5.3 Variável

Variável é, convencionalmente, o conjunto de resultados possíveis de um fenômeno.

• Variável qualitativa: quando seus valores são expressos por atributos:

Exemplo: sexo, cor da pele, etc.

• Variável quantitativa: quando os dados são de caráter nitidamente quantitativo, e o conjunto

dos resultados possui uma estrutura numérica. Divide-se em:

a) Variável discreta: seus valores são expressos geralmente por números inteiros não

negativos. Resulta normalmente de contagens.

Exemplo:

ATIVIDADE 2

1) Estabeleça a população, a amostra e o tipo de fonte de dados em cada

caso:

a) Numa escola de primeiro grau com 560 alunos matriculados, foram

sorteados 100 alunos que responderam a um questionário sobre

preferência por sites na internet.

b) Entre os 1300 funcionários de uma empresa de manutenção em

informática selecionaram 65 pessoas e perguntaram qual componente do

computador que apresentava maior quantidade de defeitos. Os resultados

obtidos foram os seguintes:

Componente defeituoso Número de funcionários

Mouse 35

Teclado 10

Fonte de tensão 20

a) número de computadores vendidos no mês (231);

b) quantidade de placa mãe em estoque (346).

b) Variável contínua: resulta normalmente de uma mensuração, e a escala numérica de seus

possíveis valores corresponde ao conjunto R dos números Reais, ou seja, pode assumir, teoricamente,

qualquer valor entre dois limites.

Exemplos:

a) quando se mede a temperatura do corpo de alguém com um termômetro de mercúrio,

o que ocorre é o seguinte: o filete de mercúrio, ao dilatar-se, passa por todas as

temperaturas intermediárias até chegar à temperatura do corpo no momento da

medição (37,6oC).

b) diâmetro de um furo (23,456mm);

c) peso de um objeto (12,2345kg).

ATIVIDADE 3 1) Classifique as variáveis abaixo em qualitativas ou quantitativas:

- cor dos olhos dos alunos;

- índice de liquidez nas indústrias capixabas;..

- produção de café no Brasil;

- número de defeitos em aparelhos de TV;.

- comprimento dos pregos produzidos por uma empresa;

- pontuação obtida em cada jogada de um dado.

2) Para os seguintes valores, indique as variáveis discretas (D) e as contínuas (C):

(a) peso do conteúdo de um pacote de DVD virgem;

(b) diâmetro de um CD;

(c) número de artigos defeituosos produzidos;

(d) número de indivíduos, em uma área geográfica, que recebem seguro- desemprego;

(e) número médio de clientes potenciais visitados por vendedores de uma empresa durante

o último mês;

(f) temperatura interna de um computador;

(g) número de unidades estocadas de um artigo;

(h) razão entre o ativo circulante e o passivo exigível;

(i) total de toneladas embarcadas;

(j) quantidade embarcada de computadores;

(k) volume de tráfego de um posto de pedágio;

(l) número de comparecimento ao encontro anual de uma companhia.

1.6 AMOSTRAGEM

O processo de escolha de uma amostra da população é denominado de amostragem.

Quando a amostra é tendenciosa, não podemos extrapolar os resultados obtidos para o universo da

população. É o caso da amostragem por conveniência, que ocorre quando a participação é voluntária

ou os elementos da amostra são escolhidos por uma questão de conveniência (muitas vezes,

os amigos e os amigos dos amigos). Deste modo, o processo amostral não garante que a amostra seja

representativa.

A melhor forma de conseguir este objetivo é obter uma amostra aleatória de uma população bem

definida. Existem técnicas de amostragem a que devemos recorrer para assegurar que a amostra

forneça uma boa estimativa dos parâmetros populacionais.

Há vários métodos de amostragem: aleatória simples, (cada elemento da população tem igual

probabilidade de ser escolhido para caracterizar a amostra); amostragem sistemática (depois de

ordenada a população, seleciona-se a amostra probabilística);amostragem estratificada, etc.

1.6.1 AMOSTRAGEM CASUAL OU ALEATÓRIA SIMPLES

A amostragem casual ou aleatória simples é o processo mais elementar e frequentemente utilizado na

coleta de dados. Todos os elementos da população têm que ter a mesma probabilidade de

pertencerem à amostra. Equivale a um sorteio lotérico. Pode ser realizada numerando-se a população

de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, x números dessa

seqüência, os quais corresponderão aos elementos pertencentes à amostra.

Exemplo 1:

Vamos obter uma amostra, de 10%, representativa para a pesquisa da estatura de 90 alunos de

uma escola:

1º passo - Numeramos os alunos de 1 a 90.

2º passo - Escrevemos os números dos alunos, de 1 a 90, em pedaços iguais de papel, colocamos

em uma urna e, após mistura, retiramos, um a um, os nove números que formarão a amostra.

Resultado obtido= {aluno 20, aluno 27, aluno 15, aluno 56, aluno 81, aluno 12, aluno 66, aluno

54, aluno 72}.

Exemplo 2: Uma cidade turística tem 30 hotéis de três estrelas. Pretende-se conhecer o custo médio da diária para

apartamento de casal. Os valores populacionais consistem nos seguintes preços diários: 125, 120, 135,

121, 122, 124, 125, 130, 138, 124, 120, 120, 125, 120, 119, 125, 123, 124, 128, 124, 124, 122, 128,

126, 123, 125, 122, 127, 125, 123.

Extraia uma amostra aleatória simples de tamanho 5 desta população por sorteio.

R: Escrevemos os valores em papéis, então os colocamos em uma urna, misturamos e sorteamos a

amostra de n=5 .

Resultado obtido: n= (120, 124, 122, 128, 123)

Obs.: Quando o número de elementos da amostra é muito grande, esse tipo de sorteio torna-se muito

trabalhoso. Nesse caso, utiliza-se uma tabela de números aleatórios ou isso é feito por meio de

software que gera esses números.

1.6.2 Amostragem sistemática

Amostra sistemática é constituída de elementos retirados da população, segundo um sistema

preestabelecido.

É conveniente quando a população está naturalmente ordenada, como fichas em um fichário, listas

telefônicas, etc.

Exemplo 1:

Suponha que uma empresa de telefonia fixa deseja saber o grau da satisfação de seus usuários com os

serviços prestados. O número de assinantes é da ordem de 50.000 e nós desejamos selecionar uma

amostra aleatória de 1.000 assinantes com o intuito de obter a avaliação sobre os serviços.

Um modo alternativo de seleção é a seleção de 1 assinante a cada 50. O procedimento será selecionar

aleatoriamente um assinante entre os primeiros 50, digamos que o vigésimo assinante (20) fosse

selecionado. O próximo selecionado seria o de ordem 70 (20+50), o seguinte de ordem 120 (70+50) e

assim por diante, ou seja: 20, 70, 120, 170, 220 ....... . Com esse método são economizados recursos

físicos e financeiros.

A amostra sistemática é frequentemente utilizada em pesquisas nas quais o tamanho da população é

grande ou que a pesquisa seja feita por pessoas que não estão familiarizadas com tabelas de números

aleatórios ou com uso de software.

No caso da seleção de amostra aleatória simples de assinantes, seria necessário que tivéssemos os

assinantes numerados, sequencialmente, de 1 a 50.000 e seriam selecionados os 1.000 assinantes. A

seleção poderia ser feita com o uso de uma tabela de números aleatórios ou de software que gerasse

esses números.

Exemplo 2:

É dada uma população constituída pelas 12 primeiras letras do alfabeto. Explique o que você faria

para obter uma amostra sistemática de 3 elementos.

Resolução:

Dividindo 12 por 3 obtém-se 4. Sorteie então uma das quatro primeiras letras do alfabeto. Essa letra

sorteada será a primeira da amostra. Depois, a partir dessa letra, conte quatro e retire a quarta letra

para a amostra. Repita o procedimento e retire mais uma letra de forma sucessiva.

Exemplo: Se a letra sorteada for B, então a amostra será C, G e K.

As amostras sistemáticas são suscetíveis a erros induzidos por periodicidade naturais da população,

permitindo ao investigador prever e, possivelmente, manipular quem entrará na amostra.

1.6.3 AMOSTRAGEM PROPORCIONAL ESTRATIFICADA

Quando a população se divide em estratos (subpopulações), convém que o sorteio dos elementos da amostra os leve em consideração. Desse modo, obtemos os elementos da amostra proporcionalmente ao número de elementos desses estratos.

Exemplo:

Vamos obter uma amostra proporcional estratificada, de 10%, do exemplo anterior, supondo que, dos 90 alunos, 54 sejam meninos e 36 sejam meninas. São, portanto, dois estratos (sexo masculino e sexo feminino). Logo, temos:

Tabela 1.1 Amostra proporcional estratificada Numeramos, então, os alunos de 01 a 90 (de 01 a 54 para os meninos e de 55 a 90 para as meninas) e procedemos ao sorteio. Exemplo: Em determinada região, a população com cursos superiores é composta por 40% de homens e 60% de mulheres. Deseja-se fazer uma pesquisa com 50 pessoas com cursos superiores. Neste caso, seleciona, os dois grupos (homens e mulheres) e sorteiam-se 20 homens e 30 mulheres. Homens = 40% de 50 = 20; Mulheres= 60% de 50 =30.

Riscos da amostragem. O processo de amostragem envolve riscos, pois se toma decisões sobre toda a população com base em apenas uma parte dela. A teoria da probabilidade, que veremos neste curso, pode ser utilizada para fornecer uma idéia do risco envolvido, ou seja, do erro cometido ao utilizar uma amostra ao invés de toda a população.

SEXO POPULACÃO 10 % AMOSTRA MASC. 54 5,4 5 FEMIN. 36 3,6 4

Total 90 9,0 9

Na realidade, a amostragem proporcional estratificada leva em consideração as diferenças que há dentro de uma população e é mais democrática.

ATIVIDADE 4

1) Imagine que você tem 500 cadastros arquivados em sua empresa, dos quais você

quer uma amostra de 2%. Como você procederia para obter uma amostra

sistemática e uma amostra aleatória?

2) Uma população se encontra dividida em quatro estratos, com tamanhos 90N1 = ,

120N2 = , 60N3 = e 480N4 = . Ao se realizar uma amostra, doze elementos

da amostra foram retirados do primeiro estrato. Qual o número de elementos de

cada estrato?

3) Com o objetivo de fazer testes de qualidade com determinados produtos de uma

empresa de informática, optou-se por realizar um levantamento por amostragem. A

população é constituída por:

Produto A : A1, A2, A3, A4, A5, A6, A7, A8, A9, A10;

Produto B : B1, B2, B3, B4, B5, B6, B7, B8, B9, B10;

Produto C : C1, C2, C3, C4, C5, C6, C7, C8, C9, C10,

C11, C12, C13, C14,C15,C16, C17, C18, C19, C20,

C21, C22, C23, C24, C25, C26, C27, C28, C29, C30.

Como você faria para obter uma amostra global, de tamanhos 10?

4) Uma escola possui 120 alunos, sendo 32 na quinta série, 24 na sexta série, 26 na sétima série e 38 na oitava série. Em uma amostra de 15 alunos, quantos de cada série farão parte dessa amostra, nessa mesma ordem de séries?

a) 4, 2, 3 e 6 alunos b) 4, 3, 4 e 4 alunos c) 5, 2, 3 e 5 alunos d) 4, 3, 3 e 5 alunos

CAPÍTULO 2

SÉRIES E CONSTRUÇÃO DE GRÁFICOS

Olá, Aluno (a)!

Neste capítulo, estudaremos séries e construção de gráficos. As tabelas, os gráficos e as figuras são elementos gráficos que apresentam dados ou informações com a finalidade de facilitar sua leitura e compreensão.

Bons estudos!

Prof. Sebastião A. Carneiro

2.1 SÉRIE ESTATÍSTICA

Qualquer tabela que apresente a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie é uma série estatística.

Os trabalhos técnico-científicos utilizam-se, em geral, de tabelas estatísticas para apresentar dados. Elas podem ser definidas como conjuntos de dados estatísticos associados a um fenômeno, dispostos numa determinada ordem de classificação. Expressam, pois, as variações qualitativas e quantitativas de um fenômeno.

TABELA é um quadro que resume um conjunto de dados dispostos em linhas e colunas de maneira sistemática.

De acordo com a Resolução 886, do IBGE, nas casas ou células da tabela, devem-se inserir:

- um traço horizontal (-) quando o valor é zero;

- três pontos (...), quando não se têm os dados;

- zero (0),quando o valor é muito pequeno para ser expresso pela unidade utilizada;

- um ponto de interrogação (?),quando há dúvidas quanto à exatidão de determinado valor.

Obs.: o lado direito e o esquerdo de uma tabela oficial devem ser abertos.

2.1.1 SÉRIE TEMPORAL

Também chamada de histórica ou evolutiva, a série temporal identifica-se pelo caráter variável do fator cronológico (tempo). O local e a espécie (fenômeno) são elementos fixos. Exemplo:

Tabela 2.1 Evolução das reservas brasileiras

Ano Evolução das reservas brasileiras

(em bilhões de dólares)

2000 32 2001 36 2002 37 2003 49 2004 52 2005 53 2006 85 2007 180 2008 190

Fonte: Revista Veja - edição 2050 Observar que a Evolução das reservas brasileiras (em bilhões de dólares) variou com o tempo (de 2000 a 2008).

2.1.2 SÉRIE GEOGRÁFICA

Também chamada de espacial, territorial ou de localização, a série geográfica apresenta como elemento variável o fator geográfico. A época e o fato (espécie) são elementos fixos. Exemplo:

Tabela 2.2 Vendas em 2007 da empresa ABC Informática Ltda..

FILIAIS COMPUTADOR

ES VENDIDOS

São Paulo 12.645

Rio de Janeiro 15.765

Minas Gerais 13.410 Espírito Santo 8.546 TOTAL 50.366

Observar como as vendas de computadores da empresa ABC Informática Ltda. variaram em 2007 nos estados da região Sudeste; ou seja, houve variação geográfica.

2.1.3 SÉRIE ESPECÍFICA

Também chamada de categórica, a série específica tem como caráter variável apenas o fato ou espécie. Exemplo:

Tabela 2.3 Vendas por setor em 2006 das 200 maiores empresas de tecnologia do Brasil.

Observar que houve variação por setores de empresas de tecnologia do Brasil e não há informação quanto à variação no tempo ou por região. De uma forma geral, se a série simples não for temporal ou geográfica, você pode considerá-la específica. 2.1.4 SÉRIES CONJUGADAS

Também chamadas de tabelas de dupla entrada, as séries conjugadas são apropriadas à apresentação de duas ou mais séries de maneira conjugada, com duas ordens de classificação: uma horizontal e outra vertical. O exemplo abaixo é o de uma série geográfico-temporal. Exemplo:

Tabela 2.4 Vendas no 1º bimestre de 2007 da empresa ABC Informática Ltda.

FILIAIS Janeiro Fevereiro Março Abril Maio Junho

São Paulo 1200 1280 1360 1440 1520 1600 Rio de Janeiro 1350 1390 1430 1470 1510 1550 Minas Gerais 1410 1670 1930 2190 2450 2710 Espírito Santo 1046 1099 1152 1205 1258 1311 TOTAL 5006 5439 5872 6305 6738 7171

Observar que as vendas de computadores variam nos estados da região Sudeste, de janeiro a junho de 2007, caracterizando, assim, a série conjugada geográfico-temporal.

Setores Vendas

(milhões de dólares)

Comunicação 56.927,70 Hardware 20.488,20 Serviços de Software 7.300,40 Serviços 5.603,50 Software 2.419,10 Distribuição 1.380,40 Internet 657,40 Fonte: Info Exame- ago. 2007.

ATIVIDADE 1 1. Que tipo de série está representado nesta tabela?

TERMINAIS TELEFÔNICOS EM SERVIÇO

1992-1993 REGIÕES 1992 1993 Norte 375.658 403.494 Nordeste 1.379.101 1.486.649 Sudeste 6.729.467 7.231.634 Sul 1.608.989 1.746.232 Centro-oeste 778.925 884.822

Fonte: Ministério das Comunicações.

2. qual a origem dos dados para a elaboração da tabela?

3. Procure identificar em jornais ou em revistas exemplos das séries apresentadas.

2.2 Gráficos Estatísticos

Gráficos estatísticos são representações visuais dos dados estatísticos. Não substituem as tabelas estatísticas apenas fornecem uma representação mais imediata dos dados.

Os gráficos estatísticos têm como características a simplicidade, a clareza e a veracidade. Fazem uso de escalas e do sistema de coordenadas e possibilitam uma compreensão mais imediata dos dados. Veremos a seguir os tipos de gráficos mais utilizados 2.2.1DIAGRAMAS

Diagramas são gráficos geométricos dispostos em duas dimensões. São os mais usados na representação de séries estatísticas, por esse motivo não abordaremos os outros tipos de gráficos. Os diagramas podem ser: a) Gráficos Em Linhas Ou Lineares Gráficos em linhas ou lineares são os frequentemente usados para representação de séries cronológicas com um grande número de períodos de tempo. As linhas são mais eficientes do que as colunas quando existem intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um mesmo gráfico. Exemplo:

Tabela 2.5 Evolução das reservas

Ano Evolução das reservas brasileiras

(em bilhões de dólares)

2000 32 2001 36 2002 37 2003 49 2004 52 2005 53 2006 85 2007 180 2008 190

Fonte: Revista Veja - edição 2050

0

20

40

60

80

100

120

140

160

180

200

1998 2000 2002 2004 2006 2008 2010

Figura 1 - Gráfico Evolução das reservas brasileiras

Observe que as reservas brasileiras dispararam depois de 2005. O gráfico retrata isso mais facilmente!

B) GRÁFICOS EM BARRAS HORIZONTAIS

Quando as legendas não são breves, usam-se de preferência, os gráficos em barras horizontais. Neles, os retângulos têm a mesma altura e as bases são proporcionais aos respectivos dados. Exemplo :

Tabela 2.6 Empresas com maior número de funcionários entre as maiores empresas de tecnologia do Brasil

Empresas Funcionários

ATENTO BRASIL (Serviços) 54.415

CONTAX (Serviços) 49.397

DEDIC (Serviços) 14.903

EMBRATEL (Comunicação) 14.268

TELEFUTURA (Serviços) 11.174

CSU CARDSYSTEM (Serviços) 10.153

TIM (Comunicação) 9.972

SERPRO (Serviços de Software) 9.960

CTBC (Comunicação) 8.734

EDS (Serviços) 8.239

Fonte: Info Exame, ago. 2007

a

0 10.000 20.000 30.000 40.000 50.000 60.000

ATENTO BRASIL (Serviços)

CONTAX (Serviços)

DEDIC (Serviços)

EMBRATEL (Comunicação)

TELEFUTURA (Serviços)

CSU CARDSYSTEM (Seviços)

TIM (Comunicação)

SERPRO (Serviços de Software)

CTBC (Counicação)

EDS (Serviços)

Figura 2 - Gráfico Empresas com maior número de funcionários entre as maiores empresas de tecnologia do Brasil.

ATIVIDADE 2

Reproduza os dois tipos de gráficos anteriores usando uma planilha eletrônica, buscando novos dados em jornais ou em revistas, e, a seguir, compare os resultados: lembre-se de que o resultado deverá ser o mesmo..

c) Gráficos em barras verticais (colunas) Quando as legendas não são breves, usam-se, de preferência, os gráficos em barras verticais. Nesses gráficos, os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados. Exemplo: A tabela a seguir mostra alguns resultados das empresas com maior crescimento de vendas - em % - entre as 200 maiores empresas de tecnologia do Brasil.

Tabela 2.7 Empresas com maior crescimento de vendas entre as 200 maiores empresas de tecnologia do Brasil.

Empresas Vendas (%)

VIATELECOM (Comunicação) 181,80 NEXTSYS (Software) 156,90 PROVIDER (Serviços) 85,30 TEELAP (Distribuição) 84,10 POSITIVO (Hardware) 77,60 HOLDI TI (Serviços) 74,40 SYNTAX (Hardware) 71,10

TIVIT (Serviços) 70,90 NEXTEL (Comunicação) 67,10 WITTEL (Software) 65,00 Fonte: Info Exame, ago. 2007.

0,00

20,00

40,00

60,00

80,00

100,00

120,00

140,00

160,00

180,00

200,00

VIAT ELECOM

(Comuni cação)

NEXT SYS

(Ser v i ços de

Sof twar e

PROVIDER

(Ser v i ços)

T EELAP

(Di st r i bui ção)

POSIT IVO

(Har dwar e)

HOLDI T I

(Ser v i ços)

SYNT AX

(Har dwar e)

T IV IT (Ser v i ços) NEXT EL

(Comuni cação)

WIT T EL (Ser v i ços

de Sof twar e)

Figura 3 - Gráfico Empresas com maior crescimento de vendas entre as 200 maiores empresas de tecnologia do Brasil.

d) Gráficos em colunas superpostas Os gráficos em colunas superpostas diferem dos gráficos em barras ou colunas convencionais apenas pelo fato de apresentarem cada barra ou coluna segmentada em partes por componentes. Servem para representar comparativamente dois ou mais atributos. Exemplo: Construção de um diagrama em colunas superpostas que retrate os lucros retidos e os dividendos da Empresa de Aço Steel Corporation , 1969-74, em milhões de dólares. Tabela 2.8 lucros retidos e os dividendos da Steel Corporation, 1969-74.

Ano Lucros Dividendos Lucros Retidos 1969 1970 1971 1972 1973 1974

217 148 154 157 326 635

130 130 98 87 87 119

87 18 56 70 239 516

Fonte: Fictícia

0

100

200

300

400

500

600

700

1969 1970 1971 1972 1973 1974

Figura 4 - Gráfico lucros retidos e os dividendos da Steel Corporation, 1969-74.

ATIVIDADE 2.3

Reproduza os dois tipos de gráficos anteriores, usando uma planilha eletrônica, buscando também novos dados em jornais ou em revistas. A seguir, compare os resultados; lembrando-se de que este deverá ser o mesmo.

E) GRÁFICOS EM SETORES (PIZZA )

Os gráficos em setores são construídos com base em um círculo e são empregados sempre que desejamos ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em tantos setores quantas são as partes. Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série. O gráfico em setores só deve ser empregado quando há, no máximo, sete dados para não sobrecarregar sua partição. Exemplo: Construção de um diagrama em setores que retrate a participação no mercado mundial das empresas de smartphones.

Tabela 2.9 Participação no mercado mundial dos fabricantes de smartphones.

Empresas Participação no

mercado mundial (%)

Symbian 71,7 Linux 14,3 Windows Mobile 6,9 Blackberry 4,7 Palm OS 2,3 Outros 0,1

Fonte: Info Exame, ago. 2007

Symbian71,7%

Linux14,3%

Window s Mobile6,9%

Blackberry4,7% Outros

0,1%

Palm OS2,3%

Symbian

Linux

Window s Mobile

Blackberry

Palm OS

Outros

Figura 5 - Gráfico Participação no mercado mundial dos fabricantes de smartphones.

Observe que, atualmente, a empresa Symbian domina o mercado de smartphones!

F) GRÁFICO POLAR (RADAR)

O gráfico polar é o ideal para representar séries temporais cíclicas, isto é, séries ideais que apresentem em seu desenvolvimento determinada periodicidade, como a ocorrência de chuvas no ano numa determinada região, a variação da temperatura ao longo do dia, a venda de monitores da filial 1 durante a semana, o consumo de energia elétrica durante o mês ou ano, o número de passageiros de uma linha de ônibus ao longo da semana, etc. O gráfico polar faz uso do sistema de coordenadas polares. Exemplo: Dada a série: número de ocorrências de manutenção efetuadas nos computadores da companhia InfoWay em 2007.

Tabela 2.10 Número de ocorrências de manutenção

MESES OCORRÊNCIAS

Janeiro 148 Fevereiro 164 Março 152 Abril 188

1. traçamos uma circunferência de raio arbitrário (em particular, damos preferência ao raio de

comprimento proporcional à média dos valores da série); 6 construímos uma semi-reta (de preferência, na horizontal) partindo de O (pólo) e com uma

escala (eixo polar); 7 dividimos a circunferência em tantos arcos quantas forem às unidades temporais; 8 traçamos, a partir do centro O (pólo), semi-reta passando pelos pontos de divisão; 9 marcamos os valores correspondentes das ocorrências de manutenção, iniciando pela semi-reta

horizontal (eixo polar); 10 ligamos os pontos encontrados com segmentos de reta; 11 se pretendermos fechar a poligonal obtida, empregamos uma linha interrompida.

Figura 6 - Gráfico número de ocorrências efetuadas nos computadores em 2007

Pelo gráfico, percebemos que os meses em que houve mais ocorrências efetuadas nos computadores foram outubro e novembro; com essa informação, podemos nos planejar para esses meses, contratando mais funcionários, etc. Observe quanto uma informação como essa é importante em sua vida profissional!

Maio 160 Junho 176 Julho 164 Agosto 184 Setembro 164 Outubro 219 Novembro 211 Dezembro 140 FONTE: Sindan.

Exemplo 2: Comparar os itens mais vendidos de uma empresa de informática, por meio de gráfico polar, nos meses de janeiro e fevereiro de 2010. 2.11 Itens mais vendidos de uma empresa de informática.

Itens mais

Vendidos Janeiro Fevereiro

Placas-mãe 280 250 Teclados 350 400 Mouses 400 320 Impressoras 180 220 Fontes 203 150 Gabinetes 281 260 Processadores 98 130

0

100

200

300

400Placas-mãe

Teclados

Mouses

ImpressorasFontes

Gabinetes

Processadores

Figura 7 – Gráfico itens mais vendidos de uma empre sa de informática ____ Vendas em janeiro - - - - Vendas em fevereiro Análise: Observando o gráfico polar, verificamos que houve queda de vendas em Placas-mãe, mouses, fontes e gabinetes, enquanto as vendas aumentaram para teclados, impressoras e processadores.

2.3 Uso indevido de gráficos

Muitas vezes, o uso indevido dos gráficos pode trazer uma interpretação falsa dos dados que estão

sendo analisados, chegando mesmo a confundir o leitor. Vejamos, através de um exemplo, como esse

fato pode ocorrer. Os dois gráficos apresentados a seguir representam os mesmos dados, e a primeira

impressão é a de que os dois representam dados nitidamente diferentes.

No gráfico (a), as flutuações das vendas aparecem nitidamente, já no gráfico(b), tem-se a impressão

de que a flutuação das vendas não manifesta praticamente tendência alguma, exceto leve flutuação.

Trata-se, na realidade, de um problema de construção de escalas. Enquanto o gráfico apresenta-se

com uma escala mais ou menos convencional, o gráfico(b) revela proporções consideravelmente

diferentes para as escalas em que foram divididos os dois eixos.

Vendas de computadores no ano de 2009 da empresa ABC informática.

0

1000

2000

3000

4000

Jan

Fev

Mar

Abr

Mai

Jun

Jul

Ago Set

Out

Nov

Dez

Figura 8 – Gráfico A – Visão real dos dados

0

1000

2000

3000

4000

Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez

Figura 9 – Gráfico B - Visão distorcida dos dados

Veja os dados reais de vendas de computadores no ano de 2009 da empresa ABC informática:

Tabela 2.12 Vendas de computadores no ano de 2009 da empresa ABC informática

Mês Vendas

Jan 2401 Fev 2520 Mar 1900 Abr 2610 Mai 1940 Jun 2750 Jul 2200 Ago 2970 Set 2980 Out 3180 Nov 3420 Dez 3800

ATIVIDADE 2.4

1) Reproduza os gráficos anteriores, manualmente e usando uma planilha eletrônica, buscando

novos dados em jornais ou em revistas, e, a seguir, compare os resultados; lembrando-se de que

o resultado deverá ser o mesmo.

2) Monte um gráfico do tipo barras verticais das empresas que apresentaram maior lucro, em

milhões de reais, entre as empresas de tecnologia:

Empresas Lucro

(em Milhões de Reais)

Empresa 1 150,50

Empresa 2 95,70

Empresa 3 47,30

Empresa 4 42,90

Empresa 5 37,50

Empresa 6 33,60

Empresa 7 27,30

Empresa 8 19,10

Empresa 9 9,30

Empresa 10 7,90

3) Numa empresa de manutenção em informática, 60% dos funcionários vão fazer manutenção

em monitores, 24 % em mouses e teclados, 8% em fontes e 8% nas demais peças do computador.

O gráfico que melhor representa essa situação é o de:

e) ( ) Linha

f) ( ) Barras

g) ( ) Setores

h) ( ) Colunas superpostas

Chegamos ao final de mais um capítulo; nele, vimos às diversas formas de organizar e analisar os dados de uma série de observações, as tabelas de frequências e os métodos gráficos. É importante que esses conceitos estejam bem compreendidos; caso contrário, faça uma revisão, pois eles serão necessários nos próximos capítulos. Vamos para o capítulo 3!

CAPÍTULO 3 MÉTODOS GRÁFICOS

3.1 Distribuição de frequência

Distribuição de frequência é um tipo de tabela que condensa uma coleção de dados conforme as frequências (repetições de seus valores).

Distribuição de frequências é uma técnica para apresentar uma coleção de objetos classificados de modo a mostrar a quantidade existente em cada classe. Será muito utilizada em frequências de probabilidades. Resumidamente, significa agrupar os dados repetidos.

3.1.1 Tabela primitiva ou tabela de dados brutos

É a tabela inicial de coleta de dados, os elementos não são numericamente organizados. É difícil formar uma idéia exata do comportamento da pesquisa efetuada.

Olá, Aluno (a)! Neste capítulo, estudaremos métodos gráficos, que são os histogramas que servirão de base para a compreensão dos capítulos seguintes. Entender esse conteúdo, então, é de fundamental importância, pois a análise gráfica em estatística é feita com base nele. Bons estudos! Prof. Sebastião A. Carneiro

Olá, Turma! Acompanhe atentamente os passos seguintes, pois vamos usar um exemplo para deixar bem clara cada etapa. Prof. Sebastião A. Carneiro

Exemplo: Foram tomados os preços de 20 monitores de 15 polegadas, LCD, em 20 empresas de informática.

Figura 10 - M onitores LCD

Tabela 3.1 Preços de 20 monitores LCD

Empresas Valor do monitor

Empresa 1 R$ 418,0 Empresa 2 R$ 420,0 Empresa 3 R$ 418,0 Empresa 4 R$ 410,0 Empresa 5 R$ 413,0 Empresa 6 R$ 430,0 Empresa 7 R$ 420,0 Empresa 8 R$ 430,0 Empresa 9 R$ 416,0 Empresa 10 R$ 418,0 Empresa 11 R$ 418,0 Empresa 12 R$ 420,0 Empresa 13 R$ 417,0 Empresa 14 R$ 418,0 Empresa 15 R$ 420,0 Empresa 16 R$ 430,0 Empresa 17 R$ 418,0 Empresa 18 R$ 430,0 Empresa 19 R$ 415,0 Empresa 20 R$ 418,0

Como podemos ver, não é possível identificar, de imediato, quem tem o menor ou o maior preço.

3.1.2 ROL É a tabela obtida após a ordenação dos dados (crescente ou decrescente).

Exemplo Tabela 3.2 Ordenação dos preços dos monitores

Empresas Valor do monitor

Empresa 4 R$ 410,0 Empresa 5 R$ 413,0 Empresa 19 R$ 413,0 Empresa 9 R$ 415,0 Empresa 13 R$ 416,0 Empresa 1 R$ 416,0 Empresa 3 R$ 416,0 Empresa 10 R$ 416,0 Empresa 11 R$ 416,0 Empresa 14 R$ 417,0 Empresa 17 R$ 417,0 Empresa 20 R$ 418,0 Empresa 2 R$ 418,0 Empresa 7 R$ 418,0 Empresa 12 R$ 420,0 Empresa 15 R$ 420,0 Empresa 6 R$ 420,0 Empresa 8 R$ 420,0 Empresa 16 R$ 430,0 Empresa 18 R$ 430,0

3.1.3 Distribuição de frequência sem intervalos de classe

Vamos continuar utilizando o exemplo anterior para construir nossa tabela ROL.

Observou!? Agora temos, de imediato, a empresa que vende mais barato, a que vende mais caro...

A distribuição de frequência sem intervalos de classe é a simples condensação dos dados, conforme as repetições de seus valores; ou seja, é a ocorrência que o valor repete. É usada para diminuir o tamanho da série. Exemplo: Vamos continuar utilizando o exemplo anterior para construir a distribuição de frequência sem intervalos de classe. Tabela 3.3 Valor do monitor e número de empresas com o mesmo preço

Valor do monitor

Número de empresas com o mesmo preço

R$ 410,0 1 R$ 413,0 2 R$ 415,0 1 R$ 416,0 5 R$ 417,0 2 R$ 418,0 3 R$ 420,0 4 R$ 430,0 2

Total 20

a) Diagrama de uma distribuição de frequência Uma distribuição de frequência sem intervalos de classe é representada graficamente por um diagrama, em que cada valor da variável é representado por um segmento de reta vertical e de comprimento proporcional à respectiva frequência.

Notou!? O tamanho da tabela foi reduzido; as informações continuaram as mesmas.

FIGURA 11 – Diagrama de uma distribuição de freqüência sem intervalo de classe.

3.1.4 Distribuição de frequência com intervalos de classe Quando a amostra é grande, a tabela também tende a ser grande; nesse caso, é mais racional efetuar o grupamento dos valores em vários intervalos de classe. Exemplo: Ao acaso, foram pesquisados os preços de 200 monitores LCD, de um mesmo modelo, em 200

empresas de informática. Veja os valores no anexo da apostila e observe que, após o ordenamento dos

preços em ordem crescente (ROL), o valor mínimo encontrado é R$ 412,0 e o valor máximo é R$

440,0. Com os preços ordenados, montamos a tabela a seguir:

Tabela 3.4 Preços de 200 monitores LCD em 200 empresas de informática

Valor do monitor (R$)

Frequências

412 |------- 415 10

415 |------- 418 15

418 |------- 421 20

421 |------- 424 25

A partir de agora, chamaremos o número de repetições de “frequência de ocorrência” ou simplesmente de “frequência”. Número de repetições = frequência de ocorrência = frequência.

424 |------- 427 30

427 |------- 430 30

430 |------- 433 28

433 |------- 436 22

436 |------- 439 12

439 |------- 442 * 8

Total 200

* Se você está com dúvida sobre o modo como a tabela foi montada, não se preocupe, pois o objetivo deste capítulo é exatamente esse. Fique atento e não perca os próximos passos da matéria.

A partir de agora, iremos chamar a primeira coluna de “classe”.

a) Elementos de uma distribuição de frequência com intervalos de classe

a) Classe Classe é o intervalo de variação da variável, simbolizada por i. O número total de classes é simbolizado por k. Exemplo: Na tabela anterior, temos: k=10 e para 415 |------- 418 a classe é 2 (i =2). b) Limites de classe: São os extremos de cada classe. O menor número é o limite inferior de classe (li) e o maior número é o limite superior de classe (Li). Exemplo: Em 427 |------- 430... Limite inferior l6= 427 e limite superior L6= 430 O símbolo |------ representa um intervalo fechado à esquerda e aberto à direita. O dado 427 do ROL, não pertence à classe 5, e sim, classe 6, representada por 427 |----- 430. c) Amplitude de intervalo de classe É a diferença entre o limite superior e o inferior da classe. É simbolizada por hi = Li - li .

Antes de iniciarmos a construção de uma distribuição de frequência com intervalos de classe, vamos ver alguns conceitos importantes.

Exemplo: Na tabela anterior, hi= 427 – 424 = 3. Obs.: Na distribuição de frequência com classe, o hi será igual em todas as classes. d) Amplitude total da distribuição É a diferença entre o limite superior da última classe e o limite inferior da primeira classe. AT = L(max) - l(min). Exemplo: Na tabela anterior, AT = 442 - 412= 30. e) Amplitude total da amostra É a diferença entre o valor máximo e o valor mínimo da amostra. Em que: AA = Xmax - Xmin. Xmax = 440 (máximo valor real encontrado do monitor) Xmin = 412 (mínimo valor real encontrado do monitor) Em nosso exemplo, AA = 440 - 412 = 28. Observe que: AT sempre será maior que AA. Você tem que estar convencido dessa afirmação. f) Ponto médio de classe: É o ponto que divide o intervalo de classe em duas partes iguais. Exemplo: Em 418 |------- 421 o ponto médio x3 = (418+421)/2 = 419,5, ou seja, x3=(l3+L3)/2. Veja como fica a distribuição de frequência de preços de 200 monitores anterior: Tabela 3.5 Classe Frequência de preços de 200 monitores

Classe Frequências

i=1 (primeira classe) 412 |------- 415 10

i=2 (segunda classe) 415 |------- 418 15

i=3 (terceira classe) 418 |------- 421 20

i=4 (quarta classe) 421 |------- 424 25

i=5 (quinta classe) 424 |------- 427 30

i=6 sexta classe) 427 |------- 430 30

i=7 (sétima classe) 430 |------- 433 28

i=8 (oitava classe) 433 |------- 436 22

i=9 (nona classe) 436 |------- 439 12

i=10 (décima classe) 439 |------- 442 8

Total 200

ATIVIDADE 3.3

1. Determine a amplitude da amostra -1, -2 , 3, 4, 5. 2. Dada a distribuição de frequência a seguir, que representa os diâmetro de furos encontrados

em gabinetes de computadores: Determine:

a) o limite superior da sexta classe; b) o limite inferior da segunda classe; c) a Amplitude total da distribuição; d) o Ponto médio da quinta classe; e) o intervalo de classe; f) quantos computadores apresentaram diâmetros de furos entre 28 a 30,99 mm; g) quantos computadores apresentaram diâmetros de furos igual ou superiores a 22 mm; h) percentualmente, quantos computadores apresentaram diâmetros de furos entre 16 e 27,99

mm.

Diâmetros de Furos (mm) Computadores

10 |------- 13 5

13 |------- 16 15

16 |------- 19 25

19 |------- 22 35

22 |------- 25 45

25 |------- 28 30

28 |------- 31 28

31 |------- 34 22

34 |------- 37 12

37 |------- 40 8

Total 225

c) Método prático para construção de uma distribuição de freqüência

Depois de feita a pesquisa de campo, siga os seguintes passos: (Vamos utilizar o exemplo dos preços de 200 monitores LCD levantados em 200 empresas de informática). 1º - Organize os dados brutos em um ROL; 2º - Calcule a amplitude amostral AA; No nosso exemplo: AA =440 - 412 =28. 3º - Calcule o número de classes por meio da "Regra de Sturges";

A Regra de Sturges é uma fórmula que compacta os dados e estabelecerá o número de classes (número de linhas) que a distribuição de frequência terá. Ela é dada conforme a fórmula seguir: i =1 + 3,3 . log n Em que: i = número de classes (valor inteiro mais próximo); n = quantidade de amostras da pesquisa.

Obs.: Qualquer regra para determinação do número de classes da distribuição de frequência (o número de linhas que terá a tabela) não nos leva a uma decisão final; isso pois esta vai depender de um julgamento pessoal, que deve estar ligado à natureza dos dados e à clareza que se deseja obter na distribuição de frequência. Existem outras opções à regra de Sturges, como: i = n 1/2

No caso do nosso exemplo dos 200 monitores: n = 200 amostras i =1 + 3,3 . log 200 i = 8,6 , adotamos i = 9, ou seja a tabela terá 9 linhas

Vamos mostrar um método prático para construção de uma distribuição de frequência.

Observe que, efetivamente no nosso exemplo, i = 10. Veremos em breve o motivo.

4º - Calcule a amplitude do intervalo de classe h = AA/i .; No nosso exemplo: AA/i = 28/9 = 3,11. Obs.: Adotaremos neste caso h = 3 para termos intervalos de classe valores inteiros e assim obter uma melhor visualização na tabela. 5º - Monte a tabela da seguinte forma: ℓi |------- Li= ℓi + h

Exemplo: ℓ1 |------- L1= ℓ1 + h

412 |------- 415

Em que: ℓ1 é o menor número inteiro da amostra. Obs.: ℓ1 deve ser preferencialmente um valor inteiro menor ou igual a Xmin e L1 deve ser preferencialmente um valor inteiro maior ou igual a ℓ1+ h.

No nosso exemplo: o menor número da amostra é 412. Assim, teremos: L1= ℓ1+ h = 412+3 = 415, logo, a primeira classe será representada por 412 |------- 415. O primeiro elemento das classes seguintes sempre serão formados pelo último elemento da classe anterior. Assim a segunda classe fica: ℓ2= L1 e L2= ( ℓ2+ h )

ℓ2 |------- L2= ( ℓ2+ h ) ℓ2 = 415 e L2= 415 + 3 = 418 415 |------- 418 Observe que confere com a tabela 3.6. As classes seguintes respeitarão o mesmo procedimento.

Ao final da montagem da tabela, percebemos que a última classe é 10 e não 9, conforme estabelecia a regra de sturges. Isso ocorre porque a regra de sturges fornece a orientação do número de classe, mas preferimos utilizar números inteiros nos limites inferiores e superiores de classe para melhorar a apresentação da tabela, com isto, a classe passou de 9 para 10.

c) Representação gráfica de uma distribuição Em todos os gráficos acima, utilizamos o primeiro quadrante do sistema de eixos coordenados cartesianos ortogonais. Na linha horizontal (eixo das abscissas), colocamos os valores da variável e, na linha vertical (eixo das ordenadas), as frequências. .

Histograma: é formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os pontos médios dos intervalos de classe. A área de um histograma é proporcional à soma das frequências simples ou absolutas.

Exemplo: Vamos montar o histograma da distribuição de frequência anterior: Tabela 3.6 Valores dos monitores


Frequências

412 |------- 415 10

415 |------- 418 15

418 |------- 421 20

421 |------- 424 25

424 |------- 427 30

427 |------- 430 30

430 |------- 433 28

433 |------- 436 22

436 |------- 439 12

439 |------- 442 8

Total 200 Histograma da distribuição de frequência

Figura 12 - Histograma da distribuição de frequênci a

Quem estiver utilizando a planilha eletrônica Excel deve instalar esse recurso em Ferramentas/Suplementos/Ferramentas de Análise; caso contrário, pode-se utilizar as ferramentas de desenho dos aplicativos.

3.1.5 Polígono de frequência

É um gráfico em linha, sendo as frequências marcadas sobre perpendiculares ao eixo horizontal, levantadas pelos pontos médios dos intervalos de classe. Fornece, na realidade, o contorno, ou seja, a envoltória, em vez de retângulos paralelos. Exemplo de polígono de frequência:

Figura 13 - Exemplo de Polígono de frequência da di stribuição de dados a) Frequências simples ou absolutas

São os valores que realmente representam o número de dados de cada classe. A soma das

frequências simples é igual ao número total dos dados da distribuição. Veja exemplo a seguir.

b) Frequências relativas São os valores das razões entre as frequências absolutas de cada classe e a frequência total da

distribuição. A soma das frequências relativas é igual a 1 (100 %).

Exemplo de frequências relativas fri (%) Tabela 3.7 Exemplo de frequências relativas fri

classe fi fri (%)

412 |------- 415 10 5,0%

415 |------- 418 15 7,5%

418 |------- 421 20 10,0%

421 |------- 424 25 12,5%

424 |------- 427 30 15,0%

427 |------- 430 30 15,0%

430 |------- 433 28 14,0%

433 |------- 436 22 11,0%

436 |------- 439 12 6,0%

439 |------- 442 8 4,0%

Total 200 100% c) Frequência simples acumulada de uma classe – Fi

É o total das frequências de todos os valores inferiores ao limite superior do intervalo de uma determinada classe.

Tabela 3.8 Exemplo de frequências relativas fri e acumulada Fri

classe fi fri (%) Fi

412 |------- 415 10 5,0% 10

415 |------- 418 15 7,5% 25

418 |------- 421 20 10,0% 45

421 |------- 424 25 12,5% 70

424 |------- 427 30 15,0% 100

427 |------- 430 30 15,0% 130

430 |------- 433 28 14,0% 158

433 |------- 436 22 11,0% 180

436 |------- 439 12 6,0% 192

439 |------- 442 8 4,0% 200

Total 200 100% d) Frequência relativa acumulada de uma classe – Fri

É a frequência acumulada da classe, dividida pela frequência total da distribuição.

Tabela 3.9 Exemplo de frequências relativas fri e acumulada Fri

classe fi fri (%) Fi Fri (%)

412 |------- 415 10 5,0% 10 5,0%

415 |------- 418 15 7,5% 25 12,5%

418 |------- 421 20 10,0% 45 22,5%

421 |------- 424 25 12,5% 70 35,0%

424 |------- 427 30 15,0% 100 50,0%

427 |------- 430 30 15,0% 130 65,0%

430 |------- 433 28 14,0% 158 79,0%

433 |------- 436 22 11,0% 180 90,0%

436 |------- 439 12 6,0% 192 96,0%

439 |------- 442 8 4,0% 200 100,0%

Total 200 1

Observar que temos o valor acumulativo em percentagens. Como exemplo, podemos ver da tabela anterior que o preço do monitor até R$ 436,00 está entre os 90% dos monitores pesquisados, ou seja, apenas 10% dos monitores custam mais do que R$ 436,00

3.1.6 Curva de Frequência (Curva polida): Enquanto o polígono de frequência nos dá a imagem real do fenômeno estudado, a curva de frequência nos dá a imagem tendencial; ou seja, mostra o comportamento dos dados segundo um gráfico de linha já estudado. O polimento, do ponto de vista geométrico, corresponde à eliminação dos vértices da linha poligonal de um polígono de frequência. Para conseguir o polimento, vamos utilizar uma fórmula bastante simples, apresentada a seguir:

A fci (frequência calculada da classe ou frequência polida) é, na realidade, uma média ponderada das frequências em torno da frequência a ser polida.

( )4

.2 fpostfifantfci

++=

Em que: fci = frequência calculada da classe considerada (frequência polida). fi = frequência simples da classe a ser polida. fant = frequência simples da classe anterior a ser polida. fpost = frequência simples da classe posterior a ser polida.

Figura 14 - Curva de Frequência ou Curva polida da distribuição de dados

ATIVIDADE 3.5 1) A tabela a seguir apresenta as velocidades dos Links de Internet de 400 computadores conectados a uma grande empresa.

Kbytes Quantidade de computadores

conectados

300 |------- 400 14

400 |------- 500 46

500 |------- 600 58

600 |------- 700 76

700 |------- 800 68

800 |------- 900 62

900 |------- 1000 48

1000 |------- 1100 22

1100 |------- 1200 6 Com relação a essa tabela, determine:

a) a frequência da quarta classe; b) a frequência relativa da sexta classe; c) a frequência acumulada da quinta classe; d) o número de computadores cuja velocidade do link não atinge 700 kbites; e) o número de computadores cuja velocidade do link atinge e ultrapassa 800 kbites; f) a percentagem de computadores cuja velocidade do link não atinge 600 kbites; g) a percentagem de computadores cuja velocidade do link seja maior ou igual a 900

kbites; h) a percentagem de computadores cuja velocidade do link seja maior ou igual a 500

kbites e inferior a 1000 kbites; i) a classe dos 72º computadores mais rápidos no link.

2) Os dados a seguir, obtidos em uma pesquisa realizada no comércio local, apresentam as diferenças encontradas nos preços de 100 placas-mãe. Com base nisso: a) forme com esses dados uma distribuição de frequência com intervalo de classe; b) confeccione o histograma e o polígono de frequência correspondentes.

3,9 7,4 10.0 11,8 2,3 4,5 10,5 8,4 15,6 7,6 18,8 2,9 2,3 0,4 5 9 5,5 9,2 12,4 8,7 4,5 4,4 10,6 5,6 8,5 2,4 17,8 11,6 0,8 4,4 7,1 3.2 2,7 9,5 2,7 9,5 13,1 3,8 6,3 7,9 4,8 5,3 12,9 6,9 6,3 7,5 2,6 3,3 4,6 16 3,9 7,4 10.0 11,8 2,3 4,5 10,5 8,4 15,6 7,6 18,8 2,9 2,3 0,4 5 9 5,5 9,2 12,4 8,7 4,5 4,4 10,6 5,6 8,5 2,4 17,8 11,6 0,8 4,4 7,1 3.2 2,7 9,5 2,7 9,5 13,1 3,8 6,3 7,9 4,8 5,3 12,9 6,9 6,3 7,5 2,6 3,3 4,6 16

3) Examinando o histograma abaixo, que corresponde às notas relativas à aplicação de um teste de inteligência a um grupo de alunos do curso de análise e desenvolvimento de sistema, responda:

a. Qual é o intervalo de notas que apresentou maior frequência? b. Qual a amplitude total da distribuição? c. Qual o número total de alunos? d. Qual é a frequência do intervalo de classe 14 |– 15? e. Quantos alunos receberam notas entre 9 e 16? f. Quantos alunos receberam notas não-inferiores a 12?

25

20

15

10

5

1 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Olá, Aluno (a)! Chegamos ao final do terceiro capítulo, em que foram apresentadas diversas formas de organizar e analisar os dados de uma série de observações, as tabelas de frequências e os métodos gráficos. É importante que esses conteúdos estejam bem compreendidos; caso contrário, faça uma revisão, pois eles serão necessários nos próximos capítulos. Sigamos adiante!

NOTAS

CAPÍTULO 4

MEDIDAS DE ORDENAMENTO E DE POSIÇÃO

4.1 MEDIDAS DE POSIÇÃO

As mais importantes medidas de posição são as medidas de tendência central, pois se verifica uma tendência dos dados observados a se agruparem em torno dos valores centrais.

As medidas de tendência central mais utilizadas são: média aritmética, moda e mediana. Outras medidas de tendência central menos utilizadas, que não estudaremos neste curso, são as médias: geométrica, harmônica, quadrática, cúbica e bi quadrática.

Outras medidas de posição são as separatrizes, que englobam: a própria mediana, os decis, os quartis e os percentis.

4.2 MÉDIA DE POPULAÇÃO E DE AMOSTRAS

Em estatística, o conceito de média também pode ser usado para descrever um conjunto de observações. Quando o conjunto das observações é uma população, é chamado de média da população e representaremos por µ. Quando o conjunto das observações é uma amostra estatística, é

chamado de média amostral e representaremos por X . Na prática, ao lidar com grandes populações, é quase sempre impossível achar o valor exato da média da população, devido ao tempo, ao custo e a outras restrições de recursos. Por esse motivo, estudaremos somente a média amostral que será chamada de média, simplesmente.

4.3 REPRESENTAÇÃO DOS VALORES DE UMA SÉRIE DE VALORES

Os valores de uma série de valores serão representados por uma letra maiúscula, normalmente X, e a sua posição na série, por uma letra minúscula, normalmente i. A quantidade total de valores na série será representada por n.

Na série X: 4, 8, 12, 20 e 50, temos: X1= 4; X2= 8; X3=12; X4=12; X5=50 e n=5.

Olá, Aluno (a)! Neste capítulo, estudaremos as medidas de ordenamento e de posição, denominadas também de medidas de tendência central, tais como média, moda, mediana e separatrizes, as quais nos permitirão resumir e analisar uma série de dados. Bons estudos! Prof. Sebastião A. Carneiro

Em um conjunto de dados, podemos definir vários tipos de médias. Porém, em nossos estudos, vamos nos limitar ao mais importante: a média aritmética.

4.4 MÉDIA ARITMÉTICA ( )

É igual ao quociente da soma dos valores do conjunto e o número total dos valores.

n

XiX ∑=

A média sempre será indicada por uma letra maiúscula com um traço superior.

Exemplo 1:

Calcular a média dos valores anteriores:

4, 8, 12, 20 e 50.

= 4+ 8+ 12+ 20 + 50 = 94_ = 18,8

5 5

Exemplo 2:

Calcular a média dos valores a seguir:

2; -4; 0; 11; 1; 20; 30.

= 2+ -4+ 0+ 11+ 1+ 20+ 30 = 60 = 8,57

7 7

4.4.1 Média Aritmética para dados não-agrupados:

Quando desejamos conhecer a média dos dados não-agrupados em tabelas de frequências, determinamos a média aritmética simples, conforme já visto no item anterior.

Exemplo:

A venda diária de memória RAM 1 GB , durante uma semana, foi de 100, 140, 130, 150, 160, 180 e 120 unidades; então, a venda média diária de memória RAM foi:

Figura 15 - Memória RAM

.= (100+140+130+150+160+180+120) / 7 = 140 unidades

O resultado obtido, 140, representa o valor diário de venda de memórias RAM. Ou seja, 140 representa os 7 valores.

4.4.2 DESVIO EM RELAÇÃO À MÉDIA

É a diferença entre cada elemento da série de valores e a média aritmética, ou seja: di = Xi -

No exemplo anterior, temos sete desvios:... d1 = 100 - 140 = - 40 , ...d2 = 140 - 140 = 0 , ...d3 = 130 - 140 = -10 , ...d4 = 150 - 140 = 10 ,... d5 = 160 - 140 = 20 ,... d6 = 180 - 140 = 40 ...e... d7 = 120 - 140 = - 20.

4.4.3 PROPRIEDADES DA MÉDIA

1ª propriedade: A soma algébrica dos desvios em relação à média é sempre nula.

No exemplo anterior: d1+d2+d3+d4+d5+d6+d7 = 0

2ª propriedade: Somando-se (ou subtraindo-se) uma constante (c) a todos os valores de uma variável, a média do conjunto fica maior (ou menor) dessa constante.

Se no exemplo original somarmos a constante 2 a cada um dos valores da variável, teremos:

= 102+142+132+152+162+182+122 / 7 = 142 unidades ou

= .+ 2 = 140 +2 = 142 unidades

3ª propriedade: Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante (c), a média do conjunto fica multiplicada (ou dividida) por essa constante.

Se no exemplo original multiplicarmos a constante 3 a cada um dos valores da variável, teremos:

a) Z = 300+420+390+450+480+540+360 / 7 = 420 unidades

Z= x 3 = 140 x 3 = 420 unidades

ATIVIDADE 4.1

1) Marque a opção correta. Na tabela primitiva: {6, 2, 7, 6, 5, 4} a soma dos desvios em relação à média aritmética é igual:

a) ( ) ao número - 4 b) ( ) ao número 8 c) ( ) ao número 0 d) ( ) ao número 25 e) ( ) ao número 4

2) Numa empresa de informática, a média de vendas é de 130 computadores. A empresa faz uma promoção e a quantidade de unidades vendidas aumenta em 20%. Assim, qual a média de vendas no período da promoção?

3) Marque a opção correta. um professor, após verificar que toda a classe obteve nota baixa, eliminou as questões a que os alunos não responderam. Com isso, as notas de todos os alunos foram aumentadas de 3 pontos. Então:

a) ( ) a média aritmética ficou alterada de 3, assim como a soma dos desvios;

b) ( ) a média aritmética diminui de 3;

c) ( ) não houve alteração nem na média nem nos desvios;

d) ( ) a média aritmética aumentou de 3.

4) Considerando que você tem série aritmética, na qual o primeiro termo é -3, a razão é -5 e o número de elementos é 389, pede-se: qual a soma dos desvios da série considerada?

5) Qual a soma dos desvios da média da série considerada a seguir?

33 28 23 18 13 8 12 33 54 75 96 117 -9 38 85 132 179 226

-30 43 116 189 262 335 -51 48 147 246 345 444 -72 53 178 303 428 553 -93 58 209 360 511 662

b) Média Aritmética para dados agrupados:

b1) Sem intervalos de classe

Numa rede, trafega um fluxo diário de dados, conforme a tabela a seguir. Qual a média diária de dados que trafega na rede?

Tabela 4.1 Tráfego de fluxo diário de dados na rede

Fluxo de dados Duração (h) 128 MB 2

Tabela 4.2 Tráfego de fluxo diário de dados na rede representada por Xi fi.

Como a duração são números indicadores da intensidade de cada valor da variável, as frequências funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada da seguinte forma:

∑∑=

fi

fiXiX

.

Devemos, assim, montar uma nova coluna (Xi.fi) na tabela:

Tabela 4.3 Ocorrência de tráfego de fluxo diário (Xi x fi)

256 MB 6 350 MB 8 380 MB 5 400 MB 3 Total 24

O fluxo de dados será representado pela variável Xi, a duração com que os dados trafegam na rede, representaremos por fi.

Xi fi 128 MB 2 256 MB 6 350 MB 8 380 MB 5 400 MB 3 Total 24

Devemos observar que a média ponderada não é uma nova fórmula para o cálculo da média. Na realidade, há um agrupamento dos valores repetidos.

Xi fi Xi.fi 128 MB 2 128 . 2 = 256 256 MB 6 256 . 6 = 1536 350 MB 8 350 . 8 = 2800 380 MB 5 380 . 5 = 1900 400 MB 3 400 . 3 = 1200

Total ΣΣΣΣ fi = 24 ΣΣΣΣ Xi.fi = 7692

Calcular a média conforme a fórmula a seguir:

5,32024

7692.===

∑∑

fi

fiXiX

Ou seja, a quantidade média de dados que trafegam na rede é de 320,5 MB.

ATIVIDADE 4.2

1-Marque a alternativa correta:

Em uma prova de Estatística, 3 alunos obtiveram a nota 8,2; outros 3 obtiveram a nota 9,0; 5 obtiveram a nota 8,6; 1 obteve a nota 7,0 e 1, a nota 8,9. A média aritmética é:

a) ( ) uma média aritmética simples com valor 8,0; b) ( ) uma média aritmética simples com valor 8,7; c) ( ) uma média aritmética ponderada com valor 8,0; d) ( ) uma média aritmética ponderada com valor 8,5; e) ( ) nenhuma das respostas anteriores.

2 – Em uma classe de 50 alunos, as notas obtidas foram as seguintes:

Notas Número de

alunos 4 3 5 8 6 12 7 12 8 8 9 5 10 2

Qual a nota média da turma? 3- Suponha que adicionamos 100 a cada um dos valores de uma amostra. O que acontece com a média?

b2) Com intervalos de classe

No caso de média aritmética para dados agrupados com intervalos de classe, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e definimos a média da mesma maneira como calculamos a média aritmética para dados agrupados sem intervalos de classe.

Xi =(Li +li)/2 Em que:

Xi – Ponto médio da classe; Li – Limite superior da classe; Li - Limite inferior da classe.

∑∑=

fi

fiXiX

.

Exemplo:

Vamos usar o exemplo da pesquisa dos preços de 200 monitores LCD da marca AOC, em 200 empresas de informática, para calcular a média de preços.

Tabela 4.4 Preços de 200 monitores LCD da marca AOC em 200 empresas de informática.

Calculando os valores de Xi. fi, teremos:

Tabela 4.5 Ocorrências de Preços de 200 monitores LCD da marca AOC, em 200 empresas de informática (Xi. fi)

Classe Fi Xi Xi. fi

412 |------- 415 10 413,5 4135

415 |------- 418 15 416,5 6247,5

418 |------- 421 20 419,5 8390


Frequências

412 |------- 415 10

415 |------- 418 15

418 |------- 421 20

421 |------- 424 25

424 |------- 427 30

427 |------- 430 30

430 |------- 433 28

433 |------- 436 22

436 |------- 439 12

439 |------- 442 8

Total 200

421 |------- 424 25 422,5 10562,5

424 |------- 427 30 425,5 12765

427 |------- 430 30 428,5 12855 430 |------- 433 28 431,5 12082

433 |------- 436 22 434,5 9559

436 |------- 439 12 437,5 5250

439 |------- 442 8 440,5 3524

Total 200 85370

Logo, a média será:

9,426200

85370.===

∑∑

fi

fiXiX

ATIVIDADE 4.3 1) Calcule o valor médio da placa-mãe (mainboard ou motherboard), cujos valores estão distribuídos a seguir:

Tipo de placa-mãe

Valor R$

Quantidade

Tipo 1 300 |------- 305 14

Tipo 2 305 |------- 310 46

Tipo 3 310 |------- 315 58

Tipo 4 315 |------- 320 76

Tipo 5 320 |------- 325 68

Tipo 6 325 |------- 330 62

Tipo 7 330 |------- 335 48

Tipo 8 335 |------- 340 22 2) Marque a opção correta: Um aluno faz três provas com pesos 2, 2 e 3. Se ele tirou 2 e 7 nas duas primeiras, quanto precisa tirar na terceira prova para ficar com média maior ou igual a 6?

a) ( ) pelo menos 5 b) ( ) pelo menos 6 c) ( ) pelo menos 7 d) ( ) pelo menos 8

4.5 MODA (MO)

A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição. Já a média aritmética é a medida de posição que possui a maior estabilidade.

É especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentado sob a forma de nomes ou categorias, para os quais não se pode calcular a média.

É o valor que ocorre com maior frequência em uma série de valores.

Desse modo, o salário modal dos empregados de uma fábrica é o salário mais comum, isto é, o recebido pelo maior número de empregados dessa fábrica.

4.5.1 MODA QUANDO OS DADOS NÃO ESTÃO AGRUPADOS

A moda é facilmente reconhecida, basta, de acordo com a definição, procurar o valor que mais se repete.

Exemplo:

Na série {7 , 8 , 9 , 10 , 10 , 10 , 11 , 12}, a moda é 10.

1. Há séries nas quais não existe o valor modal, isto é, não há repetições de valores.

Exemplo:

A série {3 , 5 , 8 , 10 , 12} não apresenta moda. Ela é amodal.

• .Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois ou mais valores modais.

Exemplo:

A série {2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9} apresenta duas modas: 4 e 7. Ela é bimodal.

4.5.2 MODA QUANDO OS DADOS ESTÃO AGRUPADOS

a) Sem intervalos de classe

Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta fixar o valor da variável de maior frequência.

Exemplo: Na medição de temperatura durante o mês de junho de 2005, na cidade de Curitiba, qual a mais recorrente?

Tabela 4.6 Ocorrências de temperaturas em junho de 2005, na cidade de Curitiba.

Temperaturas Frequência

0º C 3

1º C 9

2º C 12

3º C 6

Resposta: 2º C é a temperatura modal, pois é a de maior frequência.

a) Com intervalos de classe

A classe que apresenta a maior frequência é denominada classe modal. Pela definição, podemos afirmar que a moda, nesse caso, é o valor dominante que está compreendido entre os limites inferior e superior da classe modal. O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal. Damos a esse valor a denominação de moda bruta.

Mo = (ℓ* + L* ) / 2

Em que:

ℓ* = limite inferior da classe modal e,

L*= limite superior da classe modal.

Exemplo:

Calcule o preço modal dos pendrives de 4Gb, os preços estão dispostos na tabela a seguir:

Figura 16 - P endrive de 4Gb

Tabela 4.7 Distribuição de Frequência dos preços dos pendrives

Preço R$

Frequência

54|------ 58 9 58|------ 62 11 62|------ 66 8 66|------ 70 5

Resposta: a classe modal é 58|-------- 62, pois é a de maior frequência. ℓ*=58 e L*=62

Mo = (58+62) / 2 = R$ 60 (esse valor é estimado, pois não conhecemos o valor real da moda).

.

O cálculo da moda também pode ser feito pela fórmula de CZUBER. Vale a pena pesquisá-lo.

ATIVIDADE 4.4 1- Calcule o tipo modal dos mouses ópticos a seguir: 2- Calcule o valor modal da placa-mãe (mainboard ou motherboard), cujos valores estão distribuídos na tabela a seguir:

Tipo de placa-mãe

Valor R$ Quantidade

Tipo 1 300 |------- 305 14

Tipo 2 305 |------- 310 46

Tipo 3 310 |------- 315 58

Tipo 4 315 |------- 320 76

Tipo 5 320 |------- 325 68

Tipo 6 325 |------- 330 62

Tipo 7 330 |------- 335 48

Tipo 8 335 |------- 340 22 3-quando queremos verificar que tipo de monitor apresentou maior número de defeitos, utilizamos: a) ( ) moda; b) ( ) mediana; c) ( ) média; d) ( ) qualquer das anteriores.

Mouse Quantidades Tipo 1 344 Tipo 2 234 Tipo 3 656 Tipo 4 125 Tipo 5 111 Tipo 6 256

4.6 MEDIANA (MD)

Ordenados os elementos da série de dados, a mediana é o valor (pertencente ou não à série) que a

divide ao meio e ocupa a (n+1)/2 posição na série, isto é, 50% dos elementos da série são menores ou

iguais à mediana e os outros 50% são maiores ou iguais à mediana.

Emprego da Mediana

• Quando desejamos obter o ponto que divide a distribuição em duas partes iguais. • Quando há valores extremos que afetam de maneira acentuada a média aritmética.

A mediana é usada em computação em diversas aplicações. Exemplo: Processamento de imagens, mantendo as propriedades das bordas da imagem(filtro

mediana). filtro de mediana é um dos coringas para processamento de imagens.

4.6.1 MEDIANA PARA SÉRIE COM NÚMERO ÍMPAR DE TERMOS

Para Série com número ímpar de termos a mediana pertence à série de dados.

.Exemplo:

Cálculo da mediana da série {1, 3, 0, 0, 2, 4, 1, 2, 5}:

1º - Ordenar a série {0, 0, 1, 1, 2, 2, 3, 4, 5};

Temos n = 9; logo, a mediana ocupa a 5 a posição, ou seja (9+1)/2 = 5 elemento da série será a

mediana;

Observe que a mediana pertence à série de dados.

4.6.2 MEDIANA PARA SÉRIE COM NÚMERO PAR DE TERMOS:

Para Série com número par de termos a mediana não pertence à série de dados.

A mediana é obtida pela média dos dois elementos centrais da série.

Exemplo:

Cálculo da mediana da série {1, 3, 0, 0, 2, 4, 1, 3, 5, 6}:

1º - Ordenar a série {0, 0, 1, 1, 2, 3, 3, 4, 5, 6};

Temos n = 10; logo, a mediana ocupa a 5,5 a posição, ou seja (10+1)/2 = 5,5 elemento da série será a

mediana;

Para obter o valor 5,5 a da série, basta dividir os valores da 5 a e da 6 a posição ;

Temos:

5 a posição = 2

6 a posição = 3

A mediana será a média desses 2 valores, ou seja Md= (2+3) / 2, ou seja, Md = 2,5 .

Observe que a mediana(2,5) não pertence à série de dados.

Notas:

• Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos elementos da série.

• Em uma série a mediana, a média e a moda não têm, necessariamente, o mesmo valor.

• A mediana depende da posição e não dos valores dos elementos na série ordenada. Essa é uma das diferenças marcantes entre mediana e média (que se deixa influenciar, e muito, pelos valores extremos). Vejamos:

Em {5, 7, 10, 13, 15}, a média = 10 e a mediana = 10;

Em {5, 7, 10, 13, 65}, a média = 20 e a mediana = 10;

A média do segundo conjunto de valores é maior do que a do primeiro por influência dos valores extremos, ao passo que a mediana permanece a mesma.

.

4.6.3 MEDIANA PARA SÉRIE COM DADOS AGRUPADOS

a) Sem intervalos de classe:

(Caso 1) Não haver nenhuma frequência acumulada igual à metade da frequência acumulada total.

Fcifi

Fi ≠= ∑2

No caso da mediana para série com dados agrupados sem intervalos de classe, é o bastante, identificar a frequência acumulada imediatamente superior à metade da soma das frequências. A mediana será o valor da variável que corresponde a tal frequência acumulada.

Exemplo:

Calcule a mediana da tabela abaixo:

Tabela 4.8 Distribuição de Frequência

Variável Xi

Frequência fi

Frequência acumulada Fc

0 2 2 1 6 8 2 9 17 3 13 30 4 5 35

total 35

Como o somatório das frequências é 35, a fórmula ficará: (35+1) / 2 = 18 e não existe este valor na freqüência acumulada(2,8,17,30,35)⇒ (30 é o valor imediatamente superior a 18); logo, a mediana será igual a 3.

.

(Caso 2) Haver nenhuma frequência acumulada igual à metade da frequência acumulada total.

Fcifi

Fi == ∑2

No caso de existir uma frequência acumulada (Fci), tal que:

Fcifi

Fi == ∑2

a mediana será dada por:

2

X X 1) Fc(iFci ++=Md

.

Exemplo 1:



Variável Xi

Frequência Fi

Frequência acumulada

Fc 12 1 1 14 2 3 15 1 4 �� 16 2 6 17 1 7 20 1 8

total 8

Temos 2∑=

fiFi =8/2=4, neste caso existe este valor na freqüência acumulada(1,3,4,6,7,8)⇒ logo,

a mediana será igual:

XFci =15

XFc(i+1) =16

Md= [15+16)]/2 = 15,5

Md=15,5

Exemplo 2



Variável Xi

Frequência Fi


Fc 1 2 2 7 7 9 � 83 9 18

total 18

Temos 2∑=

fiFi =18/2=9, neste caso existe este valor na freqüência acumulada(2,9,18)⇒ logo, a

mediana será igual:

XFci =7

XFc(i+1) =83

Md= [7+83]/2 = 45

Md=45

b) Com intervalos de classe

Desejamos calcular a mediana da tabela abaixo, que representa os pesos de 40 alunos.

Tabela 4.10 Pesos de 40 alunos

Primeiramente, vamos incluir a frequência acumulada na Tabela.


Classes frequência fi


F 50 |----- 54 4 4 54 |----- 58 9 13 58 |----- 62 11 24 62 |----- 66 8 32 66 |----- 70 5 37 70 |----- 74 3 40 Total 40

Temos:

Pesos (kg) fi 50 |------ 54 4 54 |------ 58 9 58 |------ 62 11 62 |------ 66 8 66 |------ 70 5 70 |------ 74 3 Total 40

Devemos seguir estes passos:

1º) Determinamos as frequências acumuladas;

2º) Calculamos2∑ fi

;

3º) Marcamos a classe correspondente à frequência acumulada imediatamente superior à 2∑ fi

. Tal

classe será a classe mediana;

4º) Calculamos a mediana pela seguinte fórmula:..

*

*

*

.)(2

f

hantFfi

Md

−

+=

∑

l

Em que:

ℓ* é o limite inferior da classe mediana;

F(ant) é a frequência acumulada da classe anterior à classe mediana;

f* é a frequência simples da classe mediana;

h* é a amplitude do intervalo da classe mediana.

202

40

2==∑ fi

Logo, a classe mediana será 58 |----- 62, pois 24, correspondente a frequência acumulada imediatamente superior 20, veja na tabela anterior.

Assim:

ℓ* = 58 (limite inferior do intervalo)

F(ant) = 13 (frequência acumulada inferior a 20)

f* = 11 (frequência simples do intervalo 58 |----- 62)

h* = 4 (intervalo de classe, observe que é fixo e igual a 4)

Portanto, a mediana será:

( )[ ]4.

11

132058

.)(2

*

*

* −+=

−

+=

∑

f

hantFfi

Md l

Md= 60,54 kg

Interpretação: Md = 60,54 kg

50% dos alunos, ou seja, 20 alunos, pesam menos ou igual a 60,54 kg.

ATIVIDADE 4.5

1. Calcule a marca mediana dos mouses ópticos a seguir:

2. medida que tem o mesmo número de valores, abaixo e acima dela, é:

a) ( ) a moda. b) ( ) a média. c) ( ) a mediana. d) ( ) o lugar mediano.

Calcule a marca mediana dos teclados: 4) Calcule o tipo mediano da placa-mãe (mainboard ou motherboard), cujos valores estão distribuídos abaixo:

Tipo de placa-mãe

Valor R$ Quantidade

Tipo 1 300 |------- 305 14

Tipo 2 305 |------- 310 46

Tipo 3 310 |------- 315 58

Tipo 4 315 |------- 320 76

Tipo 5 320 |------- 325 68

Tipo 6 325 |------- 330 62

Tipo 7 330 |------- 335 48

Tipo 8 335 |------- 340 22

Mouse Quantidades Tipo 1 344 Tipo 2 234 Tipo 3 656 Tipo 4 125 Tipo 5 111 Tipo 6 256

Teclados Quantidades Fabricante A 344 Fabricante B 234 Fabricante C 656 Fabricante D 125 Fabricante E 111

4.7 ASSIMETRIA

As medidas de assimetria mostram o quanto a curva de frequência se desvia ou afasta da posição simétrica (área do lado esquerdo igual a área lado direito do gráfico de distribuição de frequência).

Simetria: uma distribuição de frequência é simétrica quando a média, a mediana e a moda são iguais, ou seja, apresentam um mesmo valor ou, ainda, coincidem num mesmo ponto. Neste caso, temos o lado esquerdo igual ao lado direito. Assimetria: uma distribuição de frequência é assimétrica quando a média, a mediana e a moda recaem em pontos diferentes da distribuição, isto é, apresentam valores diferentes, sendo que o deslocamento desses pontos pode ser para a direita ou para a esquerda. Quanto ao grau de deformação, as curvas de frequência podem ser:

a) Simétrica ⇒ Média = Moda b) Assimétrica Positiva ⇒ Média > Moda c) Assimétrica Negativa ⇒ Média < Moda

A Figura 4.3 a seguir ilustra os tipos de assimetria:

Figura 17 - T ipos de assimetria

ATIVIDADE 4.6 a) Determine o tipo de assimetria das séries a seguir:

1. Série A

Estatura(m) frequência fi

2 |----- 6 6 6 |----- 10 12 10|----- 14 24

14|----- 18 12 18|----- 22 6 Total 60

2. Série B


2 |----- 6 6 6 |----- 10 12 10|----- 14 24 14|----- 18 30 18|----- 22 6 Total 78

3. Série C


2 |----- 6 6 6 |----- 10 30 10|----- 14 24 14|----- 18 12 18|----- 22 6 Total 78

4.8 SEPARATRIZES

As medidas separatrizes são medidas de posição e têm por finalidade dividir uma série de dados. As medidas separatrizes são: mediana, quartil, decil e percentil.

4.8.1 QUARTIS

Denominamos quartis os três valores que separam a série em 4 partes iguais.

Q1 – Primeiro quartil, valor que representa os primeiros 25% dos elementos da série;

Q2 – Segundo quartil (mediana) , valor que representa os primeiros 50% dos elementos da série;

Q3 – Terceiro e último quartil, valor que representa os primeiros 75% dos elementos da série;

Quartis em dados não agrupados

Deve-se utilizar o mesmo princípio do cálculo da mediana para os 3 quartis. Efetivamente, serão calculadas "3 medianas" na mesma série.

Exemplo1:

Calcule os quartis da série {5, 2, 6, 9, 10, 13, 15}.

O primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores:

{2, 5, 6, 9, 10, 13, 15}.

O valor que divide a série acima em duas partes iguais é 9; logo, a Md = 9, que será = Q2.

Observe que temos agora {2, 5, 6} e {10, 13, 15} como os dois grupos de valores iguais

proporcionados pela mediana (quartil 2). Para o cálculo dos quartis 1 e 3, basta calcular as medianas

das partes iguais provenientes da verdadeira Mediana da série (quartil 2).

Logo, em {2, 5, 6} a mediana é = 5. Ou seja: o quartil 1;

em {10, 13, 15} a mediana é =13. Ou seja: o quartil 3.

Exemplo 2:

Calcule os quartis da série {1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13}.

A série já está ordenada, então calcularemos o Quartil 2 = Md = (5+6)/2 = 5,5.

O quartil 1 será a mediana da série à esquerda de Md: {1, 1, 2, 3, 5, 5}

Q1 = (2+3)/2 = 2,5

O quartil 3 será a mediana da série à direita de Md: {6, 7, 9, 9, 10, 13}

Q3 = (9+9)/2 = 9

b) Quartis para dados agrupados em classes

Usamos a mesma técnica do cálculo da mediana, bastando substituir, na fórmula da mediana,

2∑ fi

por 4

.∑ fik.

Para determinar os quartis, devemos seguir estes passos:

1º) determinamos as frequências acumuladas;

2º) calculamos4

.∑ fik ,

Sendo k o número de ordem do quartil;

3º) calculamos a Mediana pela seguinte fórmula:..

*

*

*

.)(4

.

f

hantFfik

Qk

−

+=

∑

l

Em que:

ℓ* é o limite inferior da classe mediana. F(ant) é a frequência acumulada da classe anterior à classe mediana.

f* é a frequência simples da classe mediana.

h* é a amplitude do intervalo da classe mediana.

Exemplo 3:

Calcule os quartis da tabela abaixo, que representa os pesos de 40 alunos.


Vamos calcular o primeiro quartil (Q1).

Primeiramente, vamos incluir a frequência acumulada na Tabela.

Pesos (kg) fi 50 |------ 54 4 54 |------ 58 9 58 |------ 62 11 62 |------ 66 8 66 |------ 70 5 70 |------ 74 3 Total 40

Temos k=1 para o primeiro quartil

Calculamos 104

40.1

4

. ==∑ fik

Procuramos na tabela anterior a frequência acumulada, imediatamente, superior a 10; neste caso, temos o valor 13.

Logo, a classe do primeiro quartil é 54 |------ 58,

Assim:

ℓ* = 54.

F(ant) = 4

f* = 9

h* = 4

Logo, o primeiro quartil será:

[ ]67,564.

9

41054

.)(4

.

*

*

*1 =−+=

−

+=

∑

f

hantFfik

Q l

Q1 = 56,66 kg

Interpretação: Q1 = 56,66 kg

25% dos alunos pesam menos ou igual a 56,66 kg.

Ou ainda, podemos afirmar que 75% dos alunos pesam mais que 56,66 kg.

4. Vamos calcular o terceiro quartil (Q3):

Temos k=3

Calculamos 304

40.3

4

. ==∑ fik

Pesos (kg) fi F 50 |------ 54 4 4 54 |------ 58 9 13 58 |------ 62 11 24 62 |------ 66 8 32 66 |------ 70 5 37 70 |------ 74 3 40 Total 40

Pesos (kg) fi F 50 |------ 54 4 4 54 |------ 58 9 13 ⇐ Valor imediatamente superior a 10 58 |------ 62 11 24

Logo,.a classe do terceiro quartil é 62 |------ 66

Assim:

ℓ* = 62

F(ant) = 24

f* = 8

h* = 4

Logo, o terceiro quartil (Q3) será:

[ ]0,654.

8

243062

.)(4

.

*

*

*3 =−+=

−

+=

∑

f

hantFfik

Q l

Q3 = 65 kg

Interpretação: Q3 = 65 kg

75% dos alunos pesam menos ou igual a 65kg.

.

4.8.2 DECIS

Denominamos decis os nove valores que separam uma série em 10 partes iguais.

D1 – Primeiro decil, valor que representa os primeiros 10% dos elementos da série;

D2 – Segundo decil, valor que representa os primeiros 20% dos elementos da série;

D5 – Quinto decil (mediana), valor que representa os primeiros 50% dos elementos da série;

ATIVIDADE 4.7 Calcule os 3 quartis das séries a seguir:

a) Teclados:

b) Tipos de placa-mãe:

Tipos de placa-mãe

Valor R$ Quantidade

Tipo 1 300 |------- 305 14

Tipo 2 305 |------- 310 46

Tipo 3 310 |------- 315 58

Tipo 4 315 |------- 320 76

Tipo 5 320 |------- 325 68

Tipo 6 325 |------- 330 62

Tipo 7 330 |------- 335 48

Tipo 8 335 |------- 340 22

Teclados Quantidades Tipo 1 344 Tipo 2 234 Tipo 3 656 Tipo 4 125 Tipo 5 111

D9– Nono e último decil, valor que representa os primeiros 20% dos elementos da série;

Para o cálculo dos percentis, usaremos a mesma técnica do cálculo dos quartis, bastando

substituir, na fórmula, 4

.∑ fik por

10

.∑ fik.

4.8.3 PERCENTIL OU CENTIL

Denominamos percentis ou centis os noventa e nove valores que separam uma série em 100 partes

iguais.

Indicamos: P1, P2, ... , P99.

É evidente que P50 = Md ; P25 = Q1 e P75 = Q3.

Os percentis, normalmente, são usados para grandes séries de dados.

Para o cálculo dos percentis, usaremos a mesma técnica do cálculo dos quartis, bastando

substituir, na fórmula, 4

.∑ fik por

100

.∑ fik.

Exemplo:

Vamos calcular o 8º percentil (P8) da tabela abaixo, que representa os pesos de 40 alunos:


Pesos (kg) fi 50 |------ 54 4 54 |------ 58 9 58 |------ 62 11 62 |------ 66 8 66 |------ 70 5 70 |------ 74 3 Total 40

Novamente, vamos incluir a frequência acumulada na Tabela.

Temos k=8

Calculamos 2,3100

40.8

100

. ==∑ fik

Logo,.a classe do 8º percentil é 50 |------ 54

Assim:

ℓ* = 50

f* = 4

h* = 4

Logo, o 8º percentil (P8) será:

P8 = 53,2 kg

Interpretação: P8 = 53,2 kg

8% das pessoas pesam menos ou igual a 53,2kg.

Pesos (kg) fi F 50 |------ 54 4 4 54 |------ 58 9 13 58 |------ 62 11 24 62 |------ 66 8 32 66 |------ 70 5 37 70 |------ 74 3 40 Total 40

F(ant) = 0

Cuidado! Sempre a frequência acumulada anterior da primeira classe será zero.

ATIVIDADE 4.8 1- Calcule o 16o, o 29o e o 73o percentis das séries a seguir:

a) Teclados:

b) Tipos de placa-mãe:

Tipos de placa-mãe

Valor R$ Quantidade

Tipo 1 300 |------- 305 14

Tipo 2 305 |------- 310 46

Tipo 3 310 |------- 315 58

Tipo 4 315 |------- 320 76

Tipo 5 320 |------- 325 68

Tipo 6 325 |------- 330 62

Tipo 7 330 |------- 335 48

Tipo 8 335 |------- 340 22

Teclados Quantidades Tipo 1 344 Tipo 2 234 Tipo 3 656 Tipo 4 125 Tipo 5 111

ATIVIDADE 4.8 Após construir o histograma e a curva polida do seu trabalho prático, calcule a média, a mediana, o primeiro, o segundo e o terceiro quartis, além dos percentis (P15,P25,P35,P50,P75 e P80), determinando também o tipo de assimetria que o histograma apresenta.

Chegamos ao final deste capítulo, no qual aprendemos a calcular as medidas de ordenamento e posição. É importante que esse conteúdo esteja bem compreendido; caso contrário, faça uma revisão, pois ele será necessário para entender os próximos conteúdos. Vamos para o capítulo 5! Prof. Sebastião A. Carneiro

CAPÍTULO 5

MEDIDAS DE VARIABILIDADE

Será que a média é uma medida suficiente para caracterizar uma série de dados? Veja o exemplo a seguir: Exemplo 1: Observe o tráfego de dados numa rede de computadores: em uma hora há tráfego de dados a 49 Mbps(rápida) e na próxima hora há tráfego de dados a 51 Mbps(rápida também), enquanto que em outra rede uma hora o tráfego de dados é 1 Mbps (muito lenta) e na próxima hora o tráfego de dados é 99 Mbps(muito rápida).

49Mbps49Mbps

51Mbps51Mbps

01:00h

02:00h

Figura 18 Dois computadores se comunicando a 49 Mbps e 51 Mbps

Olá, Turma! Neste capítulo, veremos que a média não é suficiente para identificar uma série de dados. Devemos encontrar uma medida que nos mostre a forma como os elementos da série se distribuem, dispersam-se ou variam em torno da média. Bons estudos! Prof. Sebastião A. Carneiro

1Mbps1Mbps

99Mbps99Mbps

01:00h

02:00h

Figura 19 Dois computadores se comunicando a 1 Mbps e 99 Mbps As duas redes têm a mesma média de comunicação de dados nas 2 horas de comunicação, 50 Mbps, mas em condições diferentes: observe que a primeira rede é mais estável que a segunda. Portanto, temos a mesma média, mas em condições diferentes.

MEDIDAS DE DISPERSÃO Dispersão ou Variabilidade:

É a maior ou a menor diversificação dos valores de uma variável em torno de um valor de tendência central (média ou mediana) tomado como ponto de comparação.

A média é o valor que melhor representa uma série de valores, mas ela, por si só, não pode destacar o grau de homogeneidade ou heterogeneidade existente entre os valores que compõem o conjunto. Por esse motivo, precisamos de mais elementos que concretizem bem uma série de valores. Consideremos os seguintes conjuntos de valores das variáveis X, Y e Z:

Por esse motivo, vamos estudar o conceito de variabilidade, pois, se alguém pedisse para você escolher, qual você escolheria?Embora a média de tráfego das duas redes de computadores seja 50 Mbps. A responda, com certeza, seria uma rede mais estável (Figura 5.1), pois varia menos. Assim, veremos a seguir como quantificar as variações das séries em torno da média.

X = { 5, 5, 5, 5, 5 } ⇒⇒⇒⇒ 5=X

Y = { 3, 4, 5, 6, 7 } ⇒⇒⇒⇒ 5=Y

Z = { 0, 1, 5, 9, 10 } ⇒⇒⇒⇒ 5=Z Observe que os três conjuntos apresentam a mesma média aritmética (25/5 = 5). Entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z.

5.1 MEDIDAS DE DISPERSÃO ABSOLUTA

5.1.1 Amplitude total (AT):

a) Para uma série de dados, a amplitude total é a diferença entre o maior e o menor valor observado: AT = X máximo - X mínimo. Exemplo: Para os valores 4, 5, 8, 2 e 17 a amplitude total será: AT = 17 - 14 = 13 b) Para uma série de dados, mesmo quando os dados estão agrupados sem intervalos de classe, ainda temos: AT = X máximo - X mínimo Exemplo: Para os dados seguintes, agrupados sem intervalos, a amplitude total será:

Tabela 5.1 dados agrupados sem intervalos AT = 14 - 10 = 4 c) Para uma série de dados com intervalos de classe, a amplitude total será o limite superior da última classe e o limite inferior da primeira classe. Logo:

AT = L máximo - l mínimo

Exemplo: Para os dados agrupados em intervalos de classe conforme a seguir, a amplitude total será:

Tabela 5.2 Dados agrupados em intervalos de classe.

Xi Fi 10 11 11 6 13 5 14 13

AT = 26 - 10 = 16

A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série. É a única medida de dispersão que não tem na média o ponto de referência.

5.1.2 VARIÂNCIA Variância é a medida que considera a totalidade dos valores da variável em estudo. Baseia-se nos desvios em torno da média.

a) VARIÂNCIA DA POPULAÇÃO (σ 2)

A variância de uma população, que representaremos por 2σ , é a média aritmética dos quadrados dos desvios absolutos.

n

d∑=2

2σ

Sabemos que:

d= xi -µ Em que: µ - Média aritmética da população, representada por uma série xi, em que i = 1, 2, ....,n Logo:

( )n

xi∑ −=

2

2µ

σ

Também pode ser representada deste modo:

( )2

1

2 1∑

=

−=n

i

xin

µσ

b) VARIÂNCIA DA AMOSTRA (s 2)

Classes fi 10 |------ 16 4 16 |------ 22 5 22|-------26 2

Se o conjunto das observações é uma amostra estatística, teremos, neste caso, a variância amostral e

a representaremos por 2s ; sua média é representada por X .

A variância de uma amostra, que representaremos por 2s , é dada conforme indicação a seguir:

1

22

−= ∑

n

ds

Sabemos que:

d= xi -x Em que:

x - Média aritmética da amostra, representada por uma série xi ,, em que i = 1, 2, ....,n Logo:

( )1

2

2

−−

= ∑n

xxis

Também pode ser representada deste modo:

( )2

1

2

1

1∑

=

−−

=n

i

xxin

s

No cálculo da variância de uma amostra, devemos dividir a soma dos desvios quadráticos por (n-1) e não n, para que o valor esperado da variância seja o melhor estimador da variabilidade do conjunto de dados.

c) VARIÂNCIA PARA SÉRIE DE DADOS SIMPLES

Exemplo: Cálculo da variância da amostra representada por - 2 cm , -1 cm, 0 cm , 1 cm , 4 cm. Primeiramente, devemos calcular a média:

4,05

2 === ∑n

XiX

O passo seguinte é calcular os desvios e seus quadrados. Acompanhe a tabela a seguir:

Tabela 5.3 Desvios e seus quadrados de uma série de dados. Xi x d= xi -x d2 = 2)( xxi −

- 2 0,4 - 2,4 5,76 - 1 0,4 - 1,4 1,96

Temos n = 5, a variância fica:

( )2

2

2 3,54

2,21

15

2,21

1cm

n

xxis ==

−=

−−

= ∑

Propriedades:

PROPRIEDADE 1 Quando somamos ou subtraímos uma constante (k) a todos os valores de uma variável, a sua variância fica inalterada, pois a variância de uma constante é igual a zero. PROPRIEDADE 2 Quando multiplicamos ou dividimos todos os valores de uma variável por uma constante (k), a sua variância fica multiplicada ou dividida pelo quadrado da constante.

ATIVIDADE 5.1 1) Marque a opção correta: Para a série amostral de valores 0, -1, -2, 5, 4, -3, -7, 2, -4 e 6: a. ( ) a média é 3,4 e a variância, 17,8. b. ( ) a média é zero e a variância, 16. c. ( ) a média é 3,4 e a variância, 4. d. ( ) a média é zero e a variância, 17,8. e. ( ) a média é zero, mas é impossível calcular a variância. 2) Faça uma análise visual e observe qual série é mais dispersa: X: 10,11,12,13 e Y: 1, 110, 120, 130 Agora, comprove a sua afirmação. 3) Calcule a variância da série amostral: 3 kg, 4kg e 7kg, indicando o valor correto dentre as opções a seguir:

a) ( ) 4,3 kg b) ( ) 2,9 kg c) ( ) 2,9 kg2 d) ( ) 4,3 kg2

4) Calcule a variância, considerando os dois casos, população e a mostra, da série 31 Kbytes, 38 Kbytes , 19 Kbytes , 27 Kbytes , 24 Kbytes, 42 Kbytes , 32 Kbytes , 18 Kbytes , 43 Kbytes , 15 Kbytes, 39 Kbytes, indicando o valor correto dentre as opções a

0 0,4 - 0,4 0,16 1 0,4 0,6 0,36 4 0,4 3,6 12,96

2,21)( 2 =−∑ xxi

seguir: a) ( ) S2=90,7 Kbytes e σ2=99,8 Kbytes b) ( ) S2=90,7 Kbytes2 e σ2=99,8 Kbytes2 c) ( ) S2=90,7 e σ2=99,8 d) ( ) S2=99,8 Kbytes2 e σ2=90,7 Kbytes2

5)- Suponha que adicionamos 500 a cada um dos valores de uma amostra. O que acontece com a média, desvio médio e a variância?

D) VARIÂNCIA PARA DISTRIBUIÇÃO DE FREQUÊNCIA - σσσσ2

Quando os dados estiverem agrupados em intervalos de frequencia, a variância é calculada conforme a seguir:

( )∑

∑ −=

fi

fixi .2

2µ

σ

Exemplo: Cálculo da variância da série a seguir, que representa a variação interna de computadores em oC: X: 0,0,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4 Considerar os dados como populacional Inicialmente, montar a DF:

Tabela 5.4 Distribuição de frequência Em seguida, calcular a média:

Tabela 5.5 Distribuição de frequência com Xi Fi

===∑∑

30

63.

fi

fiXiµ 2,1°C

Montar a tabela a seguir para facilitar os cálculos:

Xi f i 0 2 1 6 2 12 3 7 4 3

xi f i xi.f i 0 2 0 1 6 6 2 12 24 3 7 21 4 3 12 Σfi =30 Σxi.fi= 63

Tabela 5.6 Distribuição de frequência com (xi-µµµµ) 2 . f i

Usamos a fórmula a seguir para calcular a variância:

( ) ( )20

2

2 09,130

7,32.C

fi

fixi==

−=

∑∑ µ

σ

Outra maneira de calcular a variância populacional é desenvolver o somatório:

( ) ( )n

xixixxi

2

22 ∑∑∑ −=−

Tente resolver essa igualdade!

Assim, a variância para dados não agrupados fica:

( )22

2

2

2

−=

−= ∑∑

∑∑

n

xi

n

xi

nn

xixi

σ

E para dados agrupados, a variância na população fica:

22

2.

−= ∑∑

n

fixi

n

fixiσ

ou 22

2.

−=∑∑

∑∑

fi

fixi

fi

fixiσ

Para calcular a variância de dados agrupados amostrais, bastar substituir o denominador n por (n-1) ou ∑fi por ∑fi-1 Uma das vantagens de calcular a variância dessa forma é o fato de não usar a média, pois a média em alguns casos tem que ser arredondada, o que gera erros de arredondamento. Nos casos em que a média não é arredondada, as duas fórmulas fornecem o mesmo resultado.

Exemplo:

Xi f i xi-µµµµ (xi- µ µ µ µ)2 (xi- µ µ µ µ)2 f i

0 2 -2,1 4,41 8,82 1 6 -1,1 1,21 7,26 2 12 -0,1 0,01 0,12 3 7 0,9 0,81 5,67 4 3 1,9 3,61 10,83 Σfi =30 32,7

Resolução do exemplo anterior, usando a segunda maneira de calcular a variância: Montar a tabela a seguir:

Tabela 5.7 Distribuição de frequência com xi2 f i Calcular a variância:

( )20222

2 09,130

63

30

165.C

n

fixi

n

fixi=

−=

−= ∑∑σ

Observou? Como não houve arredondamento na média, os dois valores da variância são

idênticos, como já era esperado.

ATIVIDADE 5.2

2) Calcule a variância populacional das distâncias a seguir:

2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 20m 2m 13m 15m 2m 13m 15m 2m 13m 15m

13m 15m 13m 15m 13m 15m 13m 15m 13m 15m 13m 15m 13m 15m 13m 13m

xi xi 2 f i xi . f i xi 2 . f i 0 0 2 0 0 1 1 6 6 6 2 4 12 24 48 3 9 7 21 63 4 16 3 12 48

Total Σfi =30 Σxi.fi= 63 Σxi 2 . f i =165

Observe que a unidade da série está elevada ao quadrado (oC)2, o que, sob o ponto de vista prático, é um inconveniente. Por esse motivo, imaginou-se uma nova medida com utilidade e interpretação prática. A variância, na verdade, é uma medida que tem pouca utilidade como estatística descritiva pois amplifica os desvios, além de apresentar sua unidade ao quadrado; porém, é extremamente importante na inferência estatística, além de ser base para o conceito de desvio padrão.

5.1.3 DESVIO PADRÃO – S O desvio padrão, que é representado por s, é a medida de dispersão mais empregada no cálculo de variabilidade, pois elimina a amplificação dos desvios e sua unidade é a mesma da série de dados.

O desvio padrão por definição é simplesmente a raiz quadrada positiva da variância.

2ss = Assim, todas as fórmulas de variância são utilizadas no cálculo de desvio padrão; basta, é claro, tirar a raiz quadrada positiva das fórmulas da variância.

Exemplo: Cálculo do desvio padrão populacional da série seguinte, que representa a variação interna de computadores em oC: X: 0,0,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4 Como já calculada no exemplo anterior, a variância da série é s2 =1,09 (oC)2

O desvio padrão é a raiz quadrada de σ2 =1,09 (oC)2 , ou seja:

=== C)( 1,09 2o2σσ 1,04 oC

O desvio padrão possui algumas propriedades, dentre as quais destacamos:

PROPRIEDADE 1 Se somarmos, ou subtrairmos, uma constante(k) a todos os valores da série, o desvio padrão não se altera. yi= xi ± k ⇒ Sy =Sx ou sy = sx Exemplo: Y= { 11,12,13,14} e X= {1,2,3,4} ⇒ Y = 10 + X : Sy = Sx = 1,118

Observe: Sy = Sx PROPRIEDADE 2 Se multiplicarmos, ou dividirmos uma constante(k) a todos os valores da série por uma constante (diferente de zero), o desvio padrão fica multiplicado, ou dividido, por essa constante. yi= xi . k ⇒ sy = sx . k ou sy= sx . k Exemplo: Y= { 10,20,30,40} e X= {1,2,3,4} ⇒ Y = 10.X : Sy = 11,18 e Sx = 1,118 Observe: Sy = 10. Sx

ATIVIDADE 5.3 1- Marque a opção correta: Dados os conjuntos de números: A = {-2, -1, 0, 1, 2} e B = {220, 225, 230, 235, 240}. Podemos afirmar, de acordo com as propriedades do desvio padrão, que o desvio padrão de B é igual: a) ( ) ao desvio padrão de A; b) ( ) ao desvio padrão de A, multiplicado pela constante 5; c) ( ) ao desvio padrão de A, multiplicado pela constante 5; d) ( ) ao desvio padrão de A mais a constante 230. 2- Considere os seguintes conjuntos de números: A = {10, 20, 30, 40, 50} B = {100, 200, 300, 400, 500} Que relação existe entre os desvios padrões dos dois conjuntos de números? 3- Dados os conjuntos de números: A = {220, 230, 240, 250, 260} B = {20, 30, 40, 50, 60} Que relação existe entre os desvios padrões dos dois conjuntos de números? 4- Suponha que adicionamos 100 a cada um dos valores de uma amostra. O que acontece com a média, desvio médio, variância e o desvio padrão? 5- Marque a opção correta: O desvio padrão de um conjunto de dados é 9. A variância será:

a) ( ) 3; b) ( ) 18; c) ( ) 36; d) ( ) 81. 6- Marque a opção correta: A variância de um conjunto de dados é 9. desvio padrão será:

a) ( ) 3; b) ( ) 18; c) ( ) 36; d) ( ) 81.

Na estatística descritiva, o desvio padrão por si só tem limitações. Veja o exemplo: Um desvio padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito. Além disso, o fato do desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, expressas em unidades diferentes. Veja outro exemplo: O desvio padrão da temperatura interna de computadores é 2,5 oC, enquanto o desvio padrão dos preços desses computadores é de R$ 30,00. A pergunta em relação à variabilidade é, quem variou mais a temperatura interna dos computadores ou os preços? Para contornar essas dificuldades e limitações, iremos definir a seguir o Coeficiente de Variação

de Pearson - CVP.

5.1.4 COEFICIENTE DE VARIAÇÃO DE PEARSON - CVP O coeficiente de variação de Pearson contorna as limitações de comparação de séries diferentes do desvio padrão.

O Coeficiente de Variação de Pearson é a razão entre o desvio padrão e a média referente a dados de uma mesma série:

(%)100.x

sCVP=

Exemplo: Vamos tomar os resultados das estaturas e dos pesos de um grupo de indivíduos:

Tabela 5.8 Estaturas e pesos de um grupo de alunos Qual das duas medidas, estatura ou peso, apresenta maior variabilidade? Resposta: Observe que não podemos compará-las, pois são séries diferentes; para resolver o problema, basta calcular o CVP da estatura e o CVP do peso. O resultado maior será o mais heterogêneo (maior dispersão ou variabilidade). CVP estatura = ( 5 / 175 ) x 100 = 2,86 % CVP peso = ( 2 / 68 ) x 100 = 2,94 %.

DISCRIMINAÇÃO MÉDIA DESVIO PADRÃO ESTATURAS 175 cm 5,0 cm

PESOS 68 kg 2,0 kg

Logo, nesse grupo de alunos, os pesos apresentam maior grau de dispersão que as estaturas. (Se tomássemos somente o desvio padrão para responder a pergunta, teríamos, com certeza, uma resposta errada).

Observe! A série estatura apresenta maior desvio padrão; mesmo assim, é mais homogênea que a

série peso, que apresenta menor desvio padrão.

ATIVIDADE 5.4 1- A renda média mensal na localidade A é R$ 1.750,00 e na localidade B é R$ 1.500,00. Os desvios padrões são R$ 100,00 e R$ 80,00. Faça uma análise comparativa quanto ao grau de homogeneidade da renda nessas duas localidades. 2- Um grupo de 95 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97 cm. Outro grupo de 128 moças tem uma estatura média de 161,9 cm, com um desvio padrão igual a 6,01 cm. Qual é o coeficiente de variação de cada um dos grupos? Qual o grupo mais homogêneo? 3- Um grupo de 200 famílias tem renda média de R$ 1.063,8, com um coeficiente de variação de 4,3%. Qual o desvio padrão da renda desse grupo? 4- Uma distribuição apresenta as seguintes estatísticas: S = 2,6 e CVP = 1,9%. Determine a média dessa distribuição. 5- Numa pequena cidade, 165 famílias têm a renda média de R$ 1.350,98, com um desvio padrão de R$ 55,98. Qual a variabilidade relativa das famílias? 6- Ao se formar você obteve duas ofertas de empregos de empresas de informática . Qual a empresa representa a melhor opção? Porque?

Empresa 1 Empresa 2

Média Salarial R$ 3900,00 R$ 4500,00

Mediana R$ 3500,00 R$ 2700,00

Desvio Padrão R$ 117,00 R$ 225,00

ATIVIDADE 5.5 Após construir o histograma e a curva polida do seu trabalho prático, calcule a média, a mediana e o primeiro, o segundo e o terceiro quartis; calcule também os percentis (P15,P25,P35,P50,P75 e P80) e o coeficiente de variação de Pearson.

Chegamos ao final deste capítulo, em que aprendemos a calcular as medidas de variabilidade. Observe, no exemplo mostrado no início do capítulo, envolvendo os tráfegos de dados de duas redes de computadores, que temos: Primeiro caso: 2 computadores que se comunicam a 49 Mbps e 51 Mbps Velocidade média = 50 Mbps e desvio padrão = 1 Mbps Segundo caso: 2 computadores que se comunicam a 1 Mbps e 99 Mbps Velocidade média = 50 Mbps e desvio padrão = 49 Mbps Ou seja, no primeiro caso teremos uma média de 50 Mbps com uma pequena variação de velocidade (desvio padrão = 1Mbps), enquanto que no segundo caso temos também a mesma média de 50 Mbps, só que neste caso com uma grande variação de velocidade (desvio padrão = 49 Mbps). Embora já no início, intuitivamente, você tenha percebido o conceito de variabilidade, para esse exemplo simples, o desvio padrão na realidade quantifica a variabilidade para qualquer série de dados, e aí sim você poderá comparar os dados. Concluindo, a média não é uma medida suficiente por si só, necessita-se de mais informações para se representar uma série de dados. Vamos adiante! Prof. Sebastião A. Carneiro

CAPÍTULO 6 6.1 INTRODUÇÃO

Em diversas investigações deseja-se avaliar a relação entre duas medidas quantitativas. Por exemplo, o uso do cigarro e incidência do câncer ou câncer ou consumo e a renda familiar.

Procuramos até agora descrever a distribuição de valores de uma única variável. Assim, calculamos as medidas de tendência central e variabilidade.

Quando temos duas ou mais variáveis, temos um novo problema: as relações que podem existir entre as variáveis estudadas. Nesse caso, as medidas estudadas não são eficientes.

Assim, quando consideramos variáveis como peso e altura de um grupo de pessoas, uso do cigarro e incidência do câncer, vocabulário e compreensão da leitura, dominância e submissão, procuramos verificar se existe alguma relação entre as variáveis de cada um dos pares e qual o grau dessa relação. Para isso, é necessário o conhecimento de novas medidas.

Sendo a relação entre as variáveis de natureza quantitativa, a correlação c o instrumento adequado para descobrir e medir essa relação.

Uma vez caracterizada a relação, procuramos descrevê-la através de uma função matemática. A regressão é o instrumento adequado para a determinação dos parâmetros dessa função.

NOTA: • No nosso curso ficaremos restritos às relações entre duas variáveis (correlação simples).

6.2 CORRELAÇÃO

6.2.1. Relação funcional

Sabemos que o perímetro de uma circunferência e o seu raio estão relacionados. A relação entre os dois é perfeitamente definida e pode ser expressa por meio de uma sentença matemática:

C = 2 π . R

Em que:

C é o perímetro de uma circunferência

R é o raio da circunferência

Vemos que esta relação é exata, portanto, é uma relação funcional.

6.2.2 Relação Estatística

Quando existe uma relação entre as variáveis que não é exata, veja o exemplo: A relação entre o peso e a altura de um grupo de pessoas. Observamos facilmente que a ligação entre peso e altura não é tão precisa quanto à ligação entre o raio e a área de um círculo, porém, em média quanto maior a altura, maior o peso.

6.2.3 Correlação Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas. A correlação, então, é a verificação da existência e do grau de relação entre duas variáveis.

Assim As relações do tipo raio e a área de um círculo são conhecidas como relações

funcionais e as do tipo peso e estatura são conhecidas como relações estatísticas.

6.2.4 Diagrama de Dispersão

Diagrama de Dispersão é uma forma simples de verificar a tendência da correlação existente.

Consideremos uma amostra aleatória, formada por dez dos 183 alunos(só alunos do sexo masculinos) do curso de Engenharia de Controle e automação:

Tabela 1

Quantidade Aluno Altura Peso 1 1 160 65 2 22 163 67 3 138 167 68 4 34 168 69 5 11 169 74 6 67 171 71 7 87 173 72 8 90 175 74 9 56 176 77 10 74 178 76

Se plotarmos os dados amostrais num sistema cartesiano ortogonal de pares ordenados, obteremos o gráfico a seguir:

Os pares de valores das duas variáveis colocados num diagrama cartesiano chamamos de “diagrama de dispersão”

A vantagem de construir um diagrama de dispersão está em que, muitas vezes uma simples observação já nos dá uma idéia bastante clara de como as duas variáveis se relacionam.

Uma vez caracterizada esta relação, procura-se descrevê-la sob forma matemática, através de uma função no nosso exemplo temos uma reta imagem. A estimação dos parâmetros dessa função matemática é o objeto da regressão que veremos a seguir.

A correlação pode ser: • linear positiva se os pontos do diagrama têm como "imagem" uma reta ascendente; • linear negativa se os pontos têm como "imagem" uma reta descendente; • não-linear se os pontos têm como "imagem" uma curva.

Se os pontos apresentam-se dispersos, não oferecendo uma "imagem" definida, concluímos que não há relação alguma entre as variáveis em estudo. Algumas situações que podem se apresentar os diagramas de dispersão

6.3. Coeficiente de correlação linear

Empregamos para a medir a correlação linear o coeficiente de correlação. Esse coeficiente deve indicar o grau de intensidade da correlação entre as duas variáveis e o sentido da correlação (positivo ou negativo).

Usaremos o coeficiente de correlação de Pearson, que é dado de acordo com a fórmula a seguir:

∑ ∑ ∑∑∑ ∑ ∑

−−

−=

])(.][)(.[

)).((.2222

iiii

iiii

yynxxn

yxyxnr

Em que:

n é o número de observações.

O coeficiente de correlação de Pearson ( r ) assume valores limites de -1 a +1, assim, o valor de r pertence ao intervalo [-1, +1].

Pode-se verificar que:

a. se a correlação entre duas variáveis é perfeita e positiva, então r = +1;

b. se a correlação é perfeita e negativa, então r = -1;

c. se não há correlação entre as variáveis, ou a relação não é linear então r = 0.

NOTAS: • Para que uma relação possa ser descrita por meio do coeficiente de correlação de Pearson é

imprescindível que ela se aproxime de uma função linear. Uma maneira prática de verificarmos a linearidade da relação é a inspeção do diagrama de dispersão.

Analise do comportamento simultâneo das variáveis

• Se 0,6 ≤ | r | ≤ 1 há uma forte correlação entre as variáveis analisadas • Se 0,3 ≤ | r | ≤ 0,6 há uma correlação fraca entre as variáveis analisadas • Se 0 ≤ | r | ≤ 0,3 não há uma correlação entre as variáveis analisadas ou nada podemos con-

cluir sobre a relação entre as variáveis. Exemplo 1:

Calcular o coeficiente de correlação relativo do exemplo dado na tabela a seguir.


Resolução: O modo simples para obtermos r é criarmos novas colunas na tabela correspondentes aos valores de xi yi , x

2 e y2. Assim:

Altura (xi) Peso (yi) xi . yi xi2 yi2

160 65 10400 25600 4225 163 67 10921 26569 4489 167 68 11356 27889 4624 168 69 11592 28224 4761 169 74 12506 28561 5476 171 71 12141 29241 5041 173 72 12456 29929 5184 175 74 12950 30625 5476 176 77 13552 30976 5929 178 76 13528 31684 5776

Σxi= 1700 Σyi= 713 Σxi .yi= 121402 Σxi2= 289298 Σyi2= 50981

Como r= 0,927 há uma forte correlação entre as variáveis analisadas, pois 0,6 ≤ | r | ≤ 1

Exemplo 2:


∑ ∑ ∑∑∑ ∑ ∑

−−

−=

])(.][)(.[

)).((.2222

iiii

iiii

yynxxn

yxyxnr

Quantidade xi yi 1 20 64 2 16 61 3 34 84 4 23 70 5 27 88 6 32 92 7 18 72 8 22 77


2 e y2. Assim:

n (xi) (yi) xi . yi xi2 yi2 1 20 64 1280 400 4096 2 16 61 976 256 3721 3 34 84 2856 1156 7056 4 23 70 1610 529 4900 5 27 88 2376 729 7744 6 32 92 2944 1024 8464 7 18 72 1296 324 5184 8 22 77 1694 484 5929

n= 8 Σxi= 192 Σyi= 608 Σxi .yi= 15032 Σxi2= 4902 Σyi2= 47094

Como r= 0,862 há uma forte correlação entre as variáveis analisadas, pois 0,6 ≤ | r | ≤ 1

∑ ∑ ∑∑∑ ∑ ∑

−−

−=

])(.][)(.[

)).((.2222

iiii

iiii

yynxxn

yxyxnr

Exemplo 3:


Quantidade xi yi 1 1 60 2 2 51 3 3 95 4 4 70


2 e y2. Assim:

n (xi) (yi) xi . yi xi2 yi2 1 1 60 60 1 3600 2 2 51 102 4 2601 3 3 95 285 9 9025 4 4 70 280 16 4900

n= 4 Σxi= 10 Σyi= 276 Σxi .yi= 727 Σxi2= 30 Σyi2= 20126

Como r= 0,503 há uma fraca correlação entre as variáveis analisadas, pois 0,3 ≤ | r | ≤ 0,6 ATIVIDADE 6.1

1) Considere os resultados de 2 grandezas físicas, X(Temperatura) e Y(Pressão), obtidos num laboratório de calibragem:

Temperatura (oC) 50 55 60 65 70 75 80 85 90 Pressão(kgf/cm²) 20 35 37 42 37 52 50 68 66

a)Verifique, pelo diagrama, se existe correlação retilínea. b) Em caso afirmativo, calcule o coeficiente de correlação.

6.3 REGRESSÃO

6.3.1. Ajustamento da reta

Em regressão linear simples desejamos estudar determinada variável em função de outra,

utilizamos para isso a análise de regressão.

A análise de regressão tem por objetivo descrever, através de um modelo matemático, a relação

entre as duas variáveis, partindo de n observações entre as mesmas.

Quando estamos analisando o comportamento de duas variáveis a variável na qual desejamos

fazer uma estimativa recebe o nome de variável dependente e a outra recebe o nome de variável

independente.

Para a determinação dos parâmetros utilizaremos o método dos mínimos quadrados

Método dos Mínimos Quadrados

É o método mais utilizado para ajustar uma linha reta a um conjunto de pontos, pois utiliza a técnica

dos mínimos quadrados. A reta resultante tem duas características importantes: (1a) aa soma dos

desvios verticais dos pontos em relação à reta é zero, e (2a) a soma dos quadrados desses desvios é

mínima, ou seja, nenhuma outra reta apresenta uma menor soma de quadrados de tais desvios.

Para o nosso exemplo podemos considerar a altura como a variável independente(X) e o peso a

variável como a dependente(Y), Nosso problema agora consiste em determinar o ajustamento de uma

reta à relação entre essas duas variáveis, ou seja, vamos obter uma função definida por:

Reta de regressão linear

= a . X + b

Em que :

a e b são os parâmetros.

• Calculo do parâmetro a:

∑ ∑∑ ∑ ∑

−−

=22 )(.

)).((.

ii

iiii

xxn

yxyxna

• Calculo do parâmetro b:

Em que :

é a média da variável Y.

é a média da variável X.

Ou seja:

Exemplo 4:

Estabeleca a equação de regresssão da altura (X) sobre o peso (Y) do exemplo 1

Resolução:

Devemos obter:

• Cálculo do parâmetro a:


Devemos reutilizar a Tabela feita no exemplo 1:

Altura (xi) Peso (yi) xi . yi xi2 yi2

160 65 10400 25600 4225 163 67 10921 26569 4489 167 68 11356 27889 4624 168 69 11592 28224 4761 169 74 12506 28561 5476 171 71 12141 29241 5041 173 72 12456 29929 5184 175 74 12950 30625 5476 176 77 13552 30976 5929 178 76 13528 31684 5776

Σxi= 1700 Σyi= 713 Σxi .yi= 121402 Σxi2= 289298 Σyi2= 50981

• Cálculo do parâmetro b:

b= -38,23

∑ ∑∑ ∑ ∑

−−

=22 )(.

)).((.

ii

iiii

xxn

yxyxna

Assim, temos a equação da reta:

Plotando a reta imagem teremos a Figura a seguir:

6.3.2 Interpolação e extrapolação

Na regressão, os valores Y são preditos com base em valores dados ou conhecios de X.

Ou seja, basta atribuir valores a X e obter através da equação Y = a . X +b o valor de Y.

Exemplo 5:

Considerando os dados do exemplo 1, qual o peso de um aluno de 162 cm ?

Resolução:

Podemos observar que tal altura não existe na Tabela do exemplo 1, neste caso vamos lançar mão da reta imagem para resolver o problema.

X= 162 � Y = 0,644 . X – 38,23 = 0,644 . 162 – 38,23 = 66,1 kg

Assim, para um aluno que tem 162 estimamos que ele deve pesar 66,1 kg

Observe que o valor 162 pertence ao intervalo de altura dado na Tabela [160 – 178 ], dizemos neste caso que fizemos uma interpolação.

162 ∈ [160 – 178 ] � interpolação

Exemplo 6:

Considerando os dados do exemplo 1, qual o peso de um aluno de 158 cm ?

Resolução:

Podemos observar que tal altura não existe na Tabela do exemplo 1, neste caso vamos lançar mão da reta imagem para resolver o problema.

X= 158 � Y = 0,644 . X – 38,23 = 0,644 . 158 – 38,23 = 63,5 kg

Assim, para um aluno que tem 158 estimamos que ele deve pesar 63,5 kg

Observe que o valor 158 não pertence ao intervalo de altura dado na Tabela [160 – 178 ], dizemos neste caso que fizemos uma extrapolação.

158 ∉ [160 – 178 ] � extrapolação

IMPORTANTE:

Devemos ter o cuidado de só usar a extrapolação em casos onde as considerações teóricas ou experimentais demonstrem a sua possibilidade, pois estamos fora do campo de observação que foi feito o levantamento.

Exemplo:

Ao fazer o levantamento da temperatura versus pressão numa caldeira, podemos utilizar a interpolação

para obter medidas não observadas durante o ensaio, mas se fizermos uma extrapolação tomando

temperaturas acima da temperatura da caldeira a pressão interna poderá destruí-la parcial ou

totalmente.

6.4 Outros tipos de regressão

Para as funções não lineares são aplicados modelos de regressão não lineares, as funções mais comuns

não lineares são:

6.4 1.Função Múltipla

Quando uma função tem diversas variáveis explanatórias.

6.4 2.Função Potencial

Também conhecida como função de Cobb-Douglas.

6.4 3.Função Exponencial

6.4 4.Função Logística

Os diversos tipos de regressão são freqüentemente usados para o cálculo de demandas.

Exemplos que podemos citar são: o tempo de execução de uma tarefa em função do tempo de

experiência na execução desta tarefa, o cálculo do volume de vendas em função dos anos, o cálculo do

custo em função da taxa de câmbio.

ATIVIDADE 6.2

1) A tabela abaixo apresenta o desempenho de um veículo(km) adicionando aditivo(ml) colocado em 1 litro de gasolina em proporções variáveis:

Ensaio Aditivo

(ml/1Lgasolina) Desempenho

(km)

1 1,0 10 2 2,0 11,25 3 3,0 12,5 4 4,0 16,25 5 5,0 17,5 6 6,0 17,5 7 7,0 20

a. Verifique, pelo diagrama de dispersão, se há correlação retilínea entre o aditivo e o desempenho do veículo

b. Calcule o coeficiente de correlação;

c. Caso se verifique a correlação retilínea obtenha a equação do desempenho do veículo em função do aditivo adicionado.

d. Caso se verifique a correlação retilínea verifique o desempenho do veículo para a condição de não adicionar aditivo.

e. Caso se verifique a correlação retilínea verifique o desempenho do veículo para uma quantidade de 3,5 ml/1L gasolina.

f. Caso se verifique a correlação retilínea verifique o desempenho do veículo para uma quantidade de 3,5 ml/1L gasolina.

g. Caso se verifique a correlação retilínea verifique o desempenho do veículo para uma quantidade de 100 ml/1L gasolina. (Comente o resultado )

2) Considere os resultados de 2 grandezas físicas, X(Temperatura) e Y(Pressão), obtidos num laboratório de calibragem:

Temperatura (oC) 50 55 60 65 70 75 80 85 90

Pressão(kgf/cm²) 20 35 37 42 37 52 50 68 66

Caso se verifique a correlação retilínea verifique a pressão para as temperaturas possíveis a:

a) 57 oC

b) 76,5 oC

c) 110 oC

d) 40 oC

3) Um departamento de vendas de uma industria relacionou as vendas anuais em milhões,

denominada como variável dependente y, com o investimento anual em propaganda em milhões denominada como variável independente x, cujos valores estão registrados na tabela seguinte. Pede-se:

Propaganda (milhões)

30 21 35 42 37 20 8 17 35 25

vendas (milhões)

430 335 520 490 470 210 195 270 400 480

a) analisar a possibilidade de definir um modelo que represente a relação entre as variáveis da amostra.

b) Obter a reta de regressão linear, com o método dos quadrados mínimos e desenhar os dados e a reta de regressão.

c) Projetar os valores para valores de investimentos em propaganda iguais a 20, 30 e 45 milhões.

4) Suponha que um analista toma uma amostra aleatória de 10 carregamentos recentes por caminhão feitos por uma companhia e anota a distância em quilômetros(X) e o tempo de entrega em dias(Y) e anote os dados na Tabela a seguir. Pede-se:

a) Faça considerações se parece apropriada a análise de regressão linear simples entre a distância em quilômetros e o tempo de entrega em dias.

b) Caso se confirme a regressão linear simples, obtenha a reta de regressão linear.

c) Analise do ponto de vista de interpolação ou extrapolação o ponto X = 0

Distância(km) 825 215 1070 550 480 920 1350 325 670 1215

tempo de entrega(dias) 3,5 1 4 2 1 3 4,5 1,5 3 5

5- Um departamento de manutenção de uma industria relacionou uma amostra dos atendimentos/hora

dos seus clientes e no número de reclamações no Procon, cujos valores estão registrados na tabela seguinte. Pede-se:

Atendimentos/h 2 4 6 8 10 12 14 16 18 20 Reclamações 50 40 45 30 20 23 15 8 10 5

d) analisar a possibilidade de definir um modelo que represente a relação entre as variáveis da amostra.

e) Obter a reta de regressão linear, com o método dos quadrados mínimos e desenhar os dados e a reta de regressão.

f) Projetar os valores para valores de investimentos em propaganda iguais a 0, 1 e 25 Atendimentos/h.

6- Suponha que um analista de um laboratório de industria química toma uma amostra aleatória de 10 produtos embalados sob pressão, onde a pressão [g/cm2] (X) e o PH(Y) são anotados na Tabela a seguir. Pede-se:

a) Faça considerações se parece apropriada a análise de regressão linear simples entre a pressão e o PH nos produtos embalados.

b) Caso se confirme a regressão linear simples, obtenha a reta de regressão linear. c) Projetar os valores para pressões iguais a 168, 171 e 174 [g/cm2]

Pressão PH

166 6,5 167,5 7,5 169 7,2

170,5 6,5 172 7,4

173,5 7,1 175 7,8

176,5 6,6 178 7,7

179,5 7

Leitura Complementar

Embora o conceito Arredondamento de dados esteja em Leitura Complementar é importantíssimo que você leia com atenção, pois iremos utilizá-lo constantemente no curso e em toda sua vida profissional.

Arredondamento de dados de acordo com a resolução 886/66 do IBGE

Muitas vezes, é necessário ou conveniente suprimir unidades inferiores às de determinada ordem. Esta técnica é denominada arredondamento de dados.

De acordo com a resolução 886/66 do IBGE, o arredondamento é feito da seguinte maneira:

1 - Quando o primeiro algarismo a ser abandonado é 0,1,2,3 ou 4, fica inalterado o último algarismo a permanecer.

Ex: 54,24 passa a 54,2 ; 34,03 passa a 34,0

2 - Quando o primeiro algarismo a ser abandonado é 6,7,8, ou 9, aumenta-se de uma unidade o algarismo a permanecer.

Ex: 13,87 passa a 13,9 ; 24,08 passa a 24,1 ; 14,99 passa a 15,0

3 - Quando o primeiro algarismo a ser abandonado é 5, há duas soluções:

a) Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma unidade ao algarismo a permanecer.

Ex: 7,352 passa a 7,4 ; 95,6501 passa a 95,7 ; 86,250002 passa a 86,3

b) Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo a ser conservado só será aumentando de uma unidade se for ímpar.

Exemplos:

• 34,75 passa a 34,8 • 44,65 passa a 44,6 • 54,75000 passa 54,8 • 74,6500 passa a 74,6

Obs: Não devemos nunca fazer arredondamento sucessivos. Exemplo: 37,3452 passa a 37,3 e não para 37,35 e depois para 37,4.

Compensação

Suponhamos os dados abaixo, aos quais aplicamos as regras do arredondamento:

15,32 + 37,85 + 40,44 + 71,17 = 164,78 ( (167,8)

15,3 + 37,8 + 40,4 + 71,2 = 167,7

Verificamos que houve uma pequena discordância: a soma é exatamente 164,78 quando, pelo arredondamento, deveria ser 164,8, entretanto, para a apresentação dos resultados, é necessário que desapareça tal diferença, o que é possível pela prática do que denominamos compensação, conservando o mesmo número de casas decimais.

Usamos "descarregar" a diferença na(s) maior(es) parcela(s). Veja:

15,3 + 37,8 + 40,4 + 71,3 = 167,8

Obs: Se a maior parcela é igual ou maior que o dobro de qualquer outra parcela, "descarregamos" a diferença apenas na maior parcela.

ANEXOS Resultado da pesquisa de campo referente aos preços (R$) de 200 monitores LCD de uma determinada marca em 200 empresas de informática

431,3 431,3 431,3 432,0 413,0 413,0 413,0 414,0 414,0 414,0 422,0 422,5 422,5 422,5 422,8 416,0 416,0 417,0 417,0 417,0 425,5 425,5 426,0 426,0 426,0 419,0 419,0 419,0 420,0 420,0 421,0 421,0 421,0 421,0 421,0 422,0 422,0 422,0 422,0 422,0

424,0 424,0 424,0 424,0 424,0 424,0 424,5 424,5 424,5 424,5 427,0 427,0 427,0 427,0 427,0 427,0 427,5 427,5 427,5 427,5 430,0 430,0 430,0 430,0 430,0 430,0 430,6 430,6 430,6 430,6 433,0 433,0 433,0 433,0 433,0 434,0 434,0 434,0 434,0 434,0 436,0 436,0 436,0 436,0 437,0 437,0 437,0 437,0 438,0 438,0 439,0 439,0 439,0 440,0 440,0 440,0 440,0 440,0 417,0 438,0 420,0 420,0 420,3 420,3 420,3 420,3 420,7 420,7 420,7 420,7 418,0 418,0 418,0 418,0 419,0 422,8 422,8 422,8 423,0 423,0 424,5 424,5 425,0 425,0 425,0 425,0 425,5 425,5 425,5 425,5 427,5 427,5 428,0 428,0 428,0 428,0 428,5 428,5 428,5 428,5 430,6 430,6 431,0 431,0 431,0 431,0 431,0 431,3 431,3 431,3 434,0 434,0 435,0 435,0 435,0 435,0 435,0 435,0 435,0 435,0 417,8 417,8 417,8 417,8 438,0 435,0 435,0 423,0 423,0 423,5 415,0 415,0 415,0 415,0 416,0 426,0 426,0 426,3 423,5 423,5 428,5 428,5 429,0 429,0 429,0 429,0 429,0 429,8 429,8 429,8 412,0 412,0 412,5 412,5 432,0 432,0 432,0 432,0 426,3 426,3

REFERÊNCIAS

Bibliografia Básica (títulos; periódicos etc.)

Título/Periódico Autor Ed. Local Editora Ano CURSO DE ESTATÍSTICA

FONSECA, JAIRO S. & MARTINS, GILBERTO A.

6ª SÃO PAULO ATLAS 2008

INTRODUÇÃO À ESTATÍSTICA

TRIOLA, MARIO F. 10ª RIO DE JANEIRO

LTC 2008


TOLEDO, GERALDO L. & OVALLE, IVO I.

2ª SÃO PAULO ATLAS 1995

Bibliografia Complementar (títulos; periódicos etc. )

Título/Periódico Autor Ed. Local Editora Ano

ESTATÍSTICA USANDO EXCEL

LAPPONI, JUAN CARLOS

1ª SÃO PAULO LAPPONI

TREINAMENTO E EDITORA

2002

ESTATÍSTICA SPIEGEL, MURRAY R.

3ª SÃO PAULO MAKRON BOOKS

2004


BUSSAB, WILTON O. & MORETTTIN, PEDRO A.

5ª SÃO PAULO SARAIVA 2004

ESTATÍSTICA APLICADA À ADMINISTRAÇÃO

STEVENSON, WILLIAM J.

1ª SÃO PAULO HARBRA 2001

ESTATÍSTICA FÁCIL

CRESPO, ANTÔNIO ARNOT

18ª SÃO PAULO SARAIVA 2006

Apostila Estatatística Basica 29-08-2011 para Eng C&A

Documents