ANALISANDO DADOS PROF:MOISES

ANALISANDO DADOS PROF:MOISES

Vivemos num mundo repleto de dados. Sua capacidade em lidar com eles,

transformando-os em informações importantes, é o que vai diferenciar você das demais pessoas

no mundo contemporâneo. Da leitura crítica das notícias de um jornal até a decisão de fazer um

determinado investimento, passando por situações críticas no seu local de trabalho, a

capacidade de se obter, organizar, representar, descrever e analisar dados requer o

conhecimento de métodos e técnicas que permitam extrair o máximo que eles podem oferecer.

Se entendermos Estatística como a Ciência dos Dados, será de grande valia o domínio que

seu corpo de conhecimento pode nos oferecer. Primeiramente, como ponto de partida, podemos

dividir a Estatística em duas áreas: a Descritiva e a Inferencial.

A Estatística Descritiva postula os métodos e técnicas relacionadas à obtenção,

representação, mensuração, análise e conclusões a partir de um conjunto de dados oriundos de

uma população ou de uma amostra. Quando os dados são oriundos de uma população, podemos

descrevê-la através de medidas estatísticas adequadas vis a vis o nível de mensuração das

características estudadas. Nesse caso dizemos que o conhecimento da população em apreço é,

por extensão, o conhecimento das medidas a ela associadas. Não há erro no processo, a não ser

aqueles devidos à informação quando da obtenção dos dados. A aritmética, através de suas

operações básicas, é suficiente para os cálculos necessários à obtenção das medidas estatísticas.

No entanto, quando os dados são extraídos de uma amostra sua descrição segue as mesmas

técnicas e métodos utilizados para dados populacionais. A análise, entretanto, já passa a ser

feita com base nos métodos inferenciais.

A Estatística Inferencial postula um conjunto de técnicas que permitem utilizar dados

oriundos de uma amostra para generalizações sobre a população. Constitui esse conjunto de

técnicas: a determinação do número de observações (tamanho da amostra); o esquema de

seleção das unidades observacionais; o cálculo das medidas estatísticas; a determinação da

confiança nas estimativas; a significância dos testes estatísticos; a precisão das estimativas;

dentre outras. Essa generalização é feita a partir do processo de estimação das medidas

estatísticas que podem ser calculadas, porém não sem antes se antecipar um grau de certeza de

que a amostra esteja fornecendo os dados que seriam de se esperar caso toda a população fosse

estudada. Nesse caso, o ramo da matemática que será utilizado para se avaliar tal grau de

certeza é a probabilidade. Com ela teremos condições de mensurar a fidedignidade de cada

inferência feita com base na amostra.

Antes de começarmos a estudar os métodos estatísticos que nos permitirão analisar

dados, sejam eles qualitativos ou quantitativos, é importante introduzirmos alguns conceitos

preliminares a fim não apenas de dar nomes aos instrumentos, mas também adequar e eqüalizar

a terminologia a ser utilizada ao longo do curso. Você verá que uma nova linguagem será

desenvolvida ao longo desse curso e o seu domínio é fundamental para um melhor

aproveitamento.

DEFINIÇÕES E CONCEITOS BÁSICOS

1. PopulaçãoÉ o conjunto de todos os elementos (unidades observacionais) que constituem a abrangência do estudo. Exemplos:1.1 Conjunto dos 5507 municípios brasileiros.1.2 Conjunto constituído pelos alunos deste curso.1.3 Conjunto dos discursos do presidente da república desde a sua posse.

2. AmostraÉ um subconjunto da população.Exemplos:2.1 Conjunto dos municípios da Região Nordeste.2.2 Alunos do Estado do Rio de Janeiro.2.3 Discursos proferidos em recintos abertos.

3. Unidade ObservávelÉ a portadora da(s) característica(s), ou propriedade(s), que se deseja investigar.Exemplos:3.1 Cada um dos 5507 municípios brasileiros.3.2 Cada aluno deste curso.3.3 Cada discurso presidencial.

4. VariávelÉ a representação simbólica da característica ou propriedade que se deseja investigar.Exemplos:4.1 Receita tributária municipal arrecadada no ano passado.4.2 Gênero dos alunos.4.3 Emprego da expressão “jamais neste país”.

5. Medidas EstatísticasSão os parâmetros da população, ou amostra, em apreço. Permitem reduzir a totalidade dos dados a apenas um certo número de medidas.

Exemplos:5.1 Receita tributária municipal média.5.2 Percentagem de mulheres.5.3 Freqüência com que a expressão “jamais neste país” foi utilizada em cada discurso.

6. InferênciaÉ o processo de generalizar na população resultados obtidos em uma amostra.Exemplos:6.1 Como a receita tributária municipal média da Região Sudeste é de $150.000.000

podemos concluir que no Brasil esta receita é de $150.000.000, em média.

6.2 Como a turma do Rio de Janeiro tem 40% de mulheres, concluímos que todas as turmas deste curso tem 40% de mulheres.

6.3 Como o presidente utilizou a expressão “jamais neste país” 55 vezes, em média, nos discursos em recintos abertos desde a sua posse, podemos concluir que seus discursos utilizam, em média, 55 vezes esta expressão em seus discursos.

2

MEDIDAS E NÍVEIS DE MENSURAÇÃO

INTRODUÇÃO

Thorndike (1918) já dizia que tudo que existe no universo existe num certo montante, e

que o conhecimento completo daquilo que se deseja investigar requer o conhecimento de sua

quantidade, bem como o de sua qualidade. Compreende-se daí a necessidade de se desenvolver

um referencial teórico capaz de dotar o gerente contemporâneo de um instrumental básico que

norteará sua tarefa de conhecer, em sua plenitude, o objeto de sua investigação através da

medida de sua quantidade e qualidade.

Para melhor se entender a finalidade da teoria das medidas vou adaptar dois exemplos

fornecidos por Lord & Novick (1968, p. 16). Suponha que se deseje medir a altura de uma pessoa.

A fim de se obter o valor numérico desta (ou de qualquer outra) característica, define-se um

procedimento de três etapas. Primeiro precisamos definir o objeto portador da característica: a

unidade observável. Segundo, precisamos definir a característica, ou propriedade, a ser medida:

no caso a altura da pessoa, definida como a distância entre a planta do pé e o alto da cabeça do

indivíduo. Finalmente, precisamos identificar a regra que vai associar o valor numérico à

propriedade da unidade observável, no caso uma fita métrica, ou outro instrumento de medida

mais preciso.

Considere agora um segundo exemplo. Suponha que a característica a ser medida seja a

proficiência matemática de uma pessoa. A regra poderia ser definida como a aplicação de um

teste constituído por algumas questões de matemática. Uma possível medida de proficiência

poderia ser expressa pelo número de questões corretas respondidas. Outra poderia ser a

porcentagem de respostas corretas.

Notamos, então, que ao contrário das duas primeiras etapas, fixas para cada processo de

mensuração de uma certa característica, a terceira etapa, que estabelece a unidade de medida a

ser empregada, não é unicamente determinada.

Não existe até hoje uma definição formal de medida que seja universalmente aceita entre

os pesquisadores da área. Weitzenhoffer (1951) descreve medida como “... uma operação

realizada no mundo físico por um observador”. Para Stevens (1946), medida é “o ato de assinalar

números a objetos ou eventos de acordo com regras”. Torgerson (1958) e Lord & Novick (1968)

aprimoraram a definição fornecida por Stevens (1946) observando que as medidas devem ser

aplicadas às propriedades dos objetos, ao invés dos objetos em si. Nos exemplos acima, as

medidas definidas na etapa três referiam-se às propriedades (características) definidas na etapa

anterior, ou seja, não era o sujeito o objeto da média, mas a sua altura e a sua proficiência.

Há que se distinguir entre uma medida física e uma medida social ou comportamental. No

primeiro caso, o objeto a ser investigado pode ser medido infinitas vezes obtendo-se resultados

congruentes, enquanto no segundo, fatores externos influenciam o resultado da medida tornando-

a mais ou menos fidedigna em função da sua consistência. Nos exemplos acima, a altura de um

3

sujeito pode ser medida tantas vezes quanto se queira chegando-se a um resultado único. No

segundo exemplo muito provavelmente chegaremos a resultados diferentes na medida em que

mudamos as questões do instrumento de avaliação, o que nos levará a mensurações diferentes do

nível de proficiência de cada unidade observável.

Finalmente, em geral uma medida física pode ser diretamente observada (altura, peso,

distância, etc.), enquanto uma medida em ciências sociais é fruto de uma construção (composição)

de conceitos latentes (não observacionais), feita através de fatores (ou indicadores) diretamente

observáveis. Por exemplo, a altura de um sujeito é imediatamente conhecida terminado o processo

de mensuração, enquanto a verdadeira proficiência matemática de um sujeito é estimada através

de um índice construído em função dos resultados observados do sujeito em cada questão do

exame (certo/errado).

Conseqüentemente, uma medida comportamental está sempre associada a um erro de

medida, de modo que a verdadeira e desconhecida medida de um sujeito, tomada por um índice

constituído de variáveis observacionais, será a soma de dois componentes: o valor do índice

observado e um erro de medida. A este índice teórico chamamos conceito ou construção. No caso

da proficiência, cada unidade observável tem a sua própria medida de proficiência, ξ, e o que o

exame faz é tentar estimá-la, através da nota, X, obtida no exame. Esta nota, no entanto, deve ser

considerada como uma aproximação desta proficiência face ao possível erro de medida, ε,

associado à essa nota (ou você acha que a sua nota reflete sempre o seu nível de conhecimento?).

Sendo assim, podemos concluir que

.ε+=ξ X

4

1. Níveis de Mensuração

Como visto anteriormente, a associação de números a propriedade(s) de indivíduos deve

seguir alguma regra sistemática preestabelecida e representativa do fenômeno estudado. Ao

desenvolvimento de tais regras dá-se o nome de escala métrica. Conseqüentemente, medir as

propriedades de um indivíduo, ou unidade, é em última forma estabelecer seu posicionamento

relativo na escala métrica definida. Por exemplo, o nível de desenvolvimento econômico de um

país pode ser obtido através de um índice, geralmente consagrado ou preestabelecido por

agências internacionais. A distribuição dos países de acordo com tal objeto permite não apenas

comparações, mas também a ordenação para fins de classificação e transformações de seus

valores para outra escala métrica equivalente. Como outro exemplo, suponha que um teste com

dez itens, do tipo certo ou errado, seja administrado a uma grande amostra de pessoas. Caso o

interesse seja medir a proficiência das pessoas, uma possível escala métrica poderia ser definida

como o número de itens respondidos corretamente, o que levaria a escala a receber valores

inteiros entre zero e dez. Porém, como a etapa três, das regras descritas acima, não é única, a

escala métrica também não é unicamente determinada, sendo passível de transformação

matemática desde que não altere a ordenação dos indivíduos. Possíveis transformações seriam,

por exemplo, elevar a nota, expressa pelo total de pontos, ao quadrado, extrair a sua raiz

quadrada, ou ainda calcular o logaritmo da razão entre o número de itens respondidos

corretamente e o número de itens respondidos incorretamente. No primeiro caso a escala varia

entre zero e 100, no segundo entre zero e 10 , e no último caso a escala seria constituída de

valores obtidos no conjunto dos números reais (entre -∞ e +∞).

Uma escala fica perfeitamente determinada quando fixamos uma origem e uma unidade.

Na matemática, geralmente a origem é fixada em zero por uma questão de conveniência. Da

mesma forma a unidade é geralmente unitária. Na estatística, também por questão de

conveniência, a origem de uma escala pode ser centrada na média e a unidade estabelecida como

desvio em relação à media.

A classificação das escalas métricas não é única. Diferentes autores classificam os

fenômenos de modo diferente. Stevens (1946) define quatro níveis de mensuração: nominal,

ordinal, intervalar e de razão. Torgerson (1958) não considera as variáveis nominais como

mensuração pela ausência de uma origem e unidade, mas distingue dois níveis ordinais. Coombs

(1950), por sua vez, define um nível de mensuração intermediário entre o ordinal e o intervalar.

Neste ponto, o aluno é encorajado a ler as citações acima e criar a sua opinião própria a respeito

da taxonomia que melhor lhe convier. No entanto, para efeitos deste curso, será adotada a

classificação proposta por Stevens, embora se reconheça que algumas limitações existam.

5

Variáveis nominais e ordinais são também conhecidas como qualitativas enquanto as variáveis

intervalares e de razão são denominadas de quantitativas, ou de escala.

1.1 Escala Nominal

A escala de medidas com o nível mais baixo de mensuração é obtida quando as variáveis

são utilizadas simplesmente para classificar os sujeitos (objetos). Nesse caso os “valores”

assumidos pela variável são meramente rótulos, isto é, os números associados às diferentes

categorias mutuamente exclusivas e exaustivas assumidas pela variável não possuem qualquer tipo

de tratamento matemático. Qualquer conjunto de números pode ser utilizado para substituir os

“valores” originais, desde que se mantenha a relação unívoca entre os valores originais e os

substitutos. A tal transformação chamamos transformação isomórfica. Por exemplo, suponha que

a cada pessoa do gênero masculino se associe o número 1 e caso a pessoa seja do gênero

feminino se associe o número 0. O conjunto original {0,1} pode ser transformado para o conjunto

{-1,10}, sem qualquer perda de sentido na informação, já que esses algarismos funcionam como

rótulos das respectivas categorias.

Na escala nominal de mensuração, não existe uma medida no sentido que vem sendo

adotado até o presente. Por isso Torgerson (1958) não a considera como nível de mensuração.

Não há nesse nível de mensuração qualquer propriedade relativa à ordenação dos “valores”, nem

origem, bem como não faz sentido se tentar definir qualquer unidade de distância entre as

possíveis categorias da variável.

Nas ciências sociais, no entanto, esse tipo de unidade de mensuração é muito utilizado,

principalmente para “medir” itens que denotam atributos individuais, tais como estado civil,

naturalidade, tipo de formação universitária, nacionalidade, etc. Pela natureza e limitações

impostas por este nível de mensuração, as estatísticas descritivas aplicáveis às variáveis nominais

são restritas àquelas que se baseiam nas freqüências das observações como, por exemplo,

proporção e moda. Às variáveis definidas nesse nível de mensuração dá-se o nome de variáveis

categóricas (ou categorizadas).

Considere, como exemplo, a variável Estado Civil e suponha que uma amostra de 500

unidades apresentou a seguinte distribuição de freqüência nas cinco classes consideradas.

Tabela 1 – Distribuição das unidades amostrais por classe de Estado Civil

Classes Freq. Perc. (%)

SOLTEIRO 125 25,0

CASADO 175 35,0

DIVORCIADO 50 10,0

VIÚVO 75 15,0

OUTRO 75 15,0

6

TOTAL 500 1,00

1.2 Escala Ordinal

Caso as categorias de uma variável nominal possam ser ordenadas, isto é, permitam uma

relação do tipo maior do que (>) ou menor do que (<) entre pares de possíveis categorias

mutuamente exclusivas e além disso cada categoria seja associada a um e apenas um número do

conjunto dos números reais, então o nível de mensuração ordinal é obtido.

Qualquer conjunto numérico pode ser utilizado para substituir o conjunto original de

valores associados a cada categoria, desde que a ordem original das categorias seja mantida. A

tal transformação chamamos transformação monotônica. A hierarquia do exército é um bom

exemplo de uma variável com nível ordinal de mensuração. Considere apenas as categorias

Soldado, Cabo e Sargento. Note que, em termos de patente, Soldado < Cabo < Sargento. Embora

Cabo seja uma patente menor do que a de Sargento e maior do que Soldado, não se pode afirmar

que Cabo esteja mais próximo de Soldado do que de Sargento. Em outras palavras, não se pode

medir distâncias entre as categorias de uma escala ordinal. Uma condição necessária para que esta

escala seja ordinal é que, se a < b e b < c, então a < c.

Como no nível de mensuração nominal, esta escala não possui origem nem unidade. Além

disso, a ordenação dos indivíduos só pode ser feita através de uma variável apenas. Não é possível

a ordenação das unidades de acordo com duas ou mais variáveis simultaneamente. Ordenamos os

indivíduos, por exemplo, pelo grau de satisfação com um certo produto, porém jamais podemos

ordená-los pela satisfação com dois produtos simultaneamente.

Considere uma amostra de 200 freqüentadores de um restaurante classificados pelo nível

de instrução mais elevado, conforme apresentada na tabela abaixo:

Tabela 2 – Distribuição dos Freqüentadores do Restaurante, Classificados pelo Nível de Instrução mais Elevado

NÍVEL Freq Perc. (%)

Freqüência Acumulada

Percentagem Acumulada (%)

Sem Formação 4 2 4 2Fundamental 18 9 22 11Médio 42 21 64 32Superior 86 43 150 75Pós Graduação 50 25 200 100Total (n) 200 100 -- --

Cada categoria, ou classe de nível instrução completa, obteve na amostra os quantitativos

apresentados na coluna das freqüências, sendo que o percentual de cada classe é mostrado na

coluna 3. Como a variável tem nível de mensuração ordinal, faz sentido calcular a freqüência

acumulada até cada uma das classes. São apresentadas as freqüências acumuladas absolutas e

relativas nas colunas 4 e 5, respectivamente.

7

1.3 Escala Intervalar

Quando os fenômenos são representados por variáveis que assumem valores num

contínuo, como o conjunto dos números racionais, dizemos que essas variáveis são quantitativas e

a descrição dos dados se torna mais informativa. Uma possível classificação para essas variáveis

pode ser feita em função do tipo de valores que a elas podem assumir: discretas, caso assumam

valores específicos, pontuais; ou contínuas, caso assumam valores em intervalos.

Independentemente do tipo da variável, discreta ou contínua, quando a origem da sua escala não

é fixa, e o valor nulo não representa a ausência do atributo sendo medido, dizemos que a variável

quantitativa tem escala intervalar de valores. Esta escala incorpora todas as propriedades das

escalas ordinal e nominal e além disso, ela especifica uma correspondência 1-1 entre os elementos

do domínio observáel e o conjunto dos números reais, permitindo assim que a distância entre as

observações tenha significado lógico.

Nessa escala, como a origem (zero) e a unidade de medida são indeterminadas, podemos

proceder a uma mudança da escala, isto é, mudar a origem e a unidade, através de uma

transformação linear do tipo Y = aX + b cujos valores de a e de b são conhecidos. Por exemplo,

considere as escalas de mensuração de temperaturas Fahrenheit (F) e Centígrados (C). A

transformação da primeira para a segunda escala é feita através da relação

9160F5C −

= ,

onde C e F representam as medidas em suas respectivas escalas. Nessa transformação a=5/9 e

b=-160/9.

Note que uma temperatura de 0o C não representa ausência de calor, ou seja, nessa

escala não existe um zero absoluto (ou zero natural). Ademais, o valor zero na escala Centígrado

tem como valor correspondente a medida 32 na escala Fahrenheit, e se somarmos 32 a qualquer

medida na escala Fahrenheit, obviamente o resultado NÃO será a própria medida. Logo o valor

zero NÃO pode ser considerado uma medida fixa. Escolhemos o ponto de congelamento da água

nas condições normais de temperatura e pressão como origem, assim como poderíamos ter

escolhido o ponto de ebulição, sem qualquer perda de informação ou prejuízo nas análises.

No campo das ciências físicas, pesquisadores investigaram a temperatura que denotasse a

ausência total de calor e encontraram o valor de -273,16o C. Uma transformação desta medida

ficou sendo então a origem, ou o valor nulo, da escala Kevin de temperatura.

A falta de uma unidade unitária de medida não nos permite estabelecer relações de

proporcionalidade entre as observações. Por exemplo, suponha que três alunos tenham obtido,

através de um teste, suas medidas indicadoras de inteligência (QI): 150, 125 e 75. Se for verdade

8

que o segundo aluno tem sua medida de inteligência mais próxima da do primeiro aluno do que da

medida do terceiro, não é verdade que o primeiro seja duas vezes mais inteligente do que o

terceiro.

Qualquer estatística descritiva pode ser aplicada a variáveis expressas por esse nível de

mensuração: medidas de posição (médias, separatrizes e moda); de variação (absolutas e

relativas); e de forma.

1.4 Escala de Razão

Esta escala representa o nível mais rico de mensuração que se pode obter na busca do

conhecimento de um objeto. Além de incorporar todas as propriedades da escala intervalar, esta

escala ainda permite que se estabeleçam relações de razão e proporção entre os valores

observados de suas variáveis. Isso é possível pela existência de uma origem fixa, ou zero absoluto

(natural) e pela existência de uma unidade unitária de medida. A denominação dessa escala

resulta do fato que, uma vez fixada sua origem, qualquer medida na escala pode ser expressa

através de uma razão.

A única transformação válida e admissível para esta escala é a transformação de razão do

tipo Y = cX, onde o coeficiente c é conhecido e denominado coeficiente de proporcionalidade entre

X e Y.

Grande parte das medidas físicas (comprimento, peso, etc.), e demográficas (idade, taxas

de crescimento, natalidade, mortalidade, etc.), são representadas através de variáveis com níveis

de mensuração expressos na escala de razão. Por exemplo, a escala de comprimento expressa em

centímetros (cm), é uma escala de razão. Uma medida igual a 0 cm significa a total inexistência do

objeto. Além disso, um objeto com 6 cm é duas vezes maior do que um com 3 cm. Uma medida

em polegadas pode ser obtida através da transformação da mesma medida em centímetros

usando a relação Y = 2,54 X, onde Y é a medida expressa em polegadas, X em centímetros e 2,54

é o coeficiente de proporcionalidade entre as duas medidas. Note que quando uma delas é nula a

outra também será, fixando a origem comum para as suas escalas e variando apenas a unidade de

medida. As estatísticas descritivas para esta escala são as mesmas aplicadas à escala intervalar.

Concluímos, então que a diferença entre as variáveis intervalares e de razão é,

basicamente, a existência, ou não, de uma origem fixa, ou zero absoluto. Essa diferença é

justificável apenas nos procedimentos de mudança de escalas, na utilização da transformação mais

apropriada.

Finalmente, notamos que uma variável quantitativa pode ser transformada numa

qualitativa, mas o reverso não é verdadeiro. Por exemplo, podemos transformar a variável salário,

numa outra, ordinal, tipo faixa salarial. Na primeira, as unidades respondem o valor do seu salário,

enquanto na segunda respondem a faixa de salário estabelecida no questionário. Nessa

9

transformação diminuímos as possibilidades de aplicação dos instrumentos de análise estatística,

por passarmos para um nível de mensuração inferior. Essas técnicas são apresentadas na seção

seguinte.

10

2. Descrevendo Dados Qualitativos

Dados qualitativos são aqueles expressos pelos níveis de mensuração nominal e ordinal.

Posto de outra forma, são aqueles na qual a variável assume “valores” em categorias, classes ou

rótulos. São, portanto, por natureza, dados não numéricos. Apesar de ser considerada de baixo

nível de mensuração, do ponto de vista da aplicação de instrumental estatístico, a variável

qualitativa oferece um vasto espectro de aplicação nas ciências sociais e do comportamento.

Variáveis qualitativas denotam características individuais das unidades sob análise, tais como sexo,

estado civil, naturalidade, raça, grau de instrução, dentre outras, permitindo estratificar as

unidades para serem analisadas de acordo com outras variáveis. Esta segmentação permite que as

generalizações fiquem restritas aos níveis da variável qualitativa. Por exemplo: faixa salarial por

sexo; renda por nível de instrução; instrução por raça; etc.

De acordo com Motta (1999), os dados qualitativos são, geralmente, obtidos através de

pesquisas conhecidas na literatura como “pesquisas qualitativas”. São meios não muito

estruturados tais como: grupo focal; incidente crítico; entrevista em profundidade; dentre outros.

A sistematização dos dados em tabelas de freqüências nem sempre é uma tarefa simples e requer

um profundo conhecimento do objeto de análise.

Obtidos os dados, a tarefa seguinte é representá-los através de uma tabela e de um

gráfico. Posteriormente, poderá ser útil calcular as freqüências, simples ou acumuladas, absolutas

ou relativas. O exemplo a seguir oferece uma orientação de como proceder a uma análise de um

fenômeno qualitativo.

Exemplo: Um grupo industrial está avaliando a possibilidade de oferecer um plano de incentivo a vendas. Quatro programas alternativos foram definidos e propostos a uma amostra de 40 vendedores que manifestaram a sua preferência. O quadro abaixo sumariza as respostas obtidas:

B A D C A C D B D BD D B A D B D A D CD B C D A D B D B CB A D B A B A C D B

Notamos que os dados são classificados como qualitativos, uma vez que a variável considerada, Plano de Incentivo, é expressa através de quatro categorias: A; B; C; e D. Cada elemento da amostra manifestou a sua preferência escolhendo a categoria que melhor se ajustava aos seus interesses. Não há números envolvidos. O nível de mensuração dessa variável é nominal. A classificação dos diferentes planos não altera o sentido da distribuição.

O primeiro passo para analisar a distribuição acima é organizar os dados de acordo com

uma tabela de freqüências. Observamos que 8 vendedores elegeram o plano A, 12 o B, 6 o C e os

restantes 14 vendedores escolheram o plano D, o mais votado. A tabela representativa da

distribuição de freqüência é fornecida abaixo:

11

Tabela 3 – Distribuição de Freqüência da Preferência dos Vendedores pelos Planos de Incentivo

PLANO Votos PercentualA 8 20B 12 30C 6 15D 14 35

TOTAL 40 100

A primeira coluna da tabela apresenta cada uma das categorias dos planos avaliados. A

segunda coluna apresenta as freqüências de votos para cada plano e a terceira a freqüência

relativa, ou percentagem, de votos de cada plano. Como variáveis qualitativas somente são

analisadas à luz de suas freqüências, podemos dizer que o plano mais votado foi o D,

representando 35% do total de votos, ficando o C com menor número de votos, representando

apenas 15% do total da amostra.

O próximo passo é representar os dados obtidos segundo uma forma gráfica. Dados

qualitativos são, geralmente, expressos através de gráficos de barras ou gráficos de setores (ou de

pizza). Ambas as formas podem ser expressas pelas freqüências absolutas ou relativas. Abaixo são

apresentados os dois tipos de gráficos.

Fig. 1 – Gráfico de Barras Fig. 2 – Gráfico de Setores

Plano

DCBA

Cou

nt

16

14

12

10

8

6

4

2

0

35,0%

15,0%

30,0%

20,0%

D

C

B

A

O gráfico de setores é uma representação pictórica de grande efeito visual. Enfatiza,

principalmente, as diferenças das freqüências relativas entre as categorias da variável. A obtenção

dos graus representativos dos setores basta proceder a uma regra de três simples. Como o círculo

tem 360 graus, representando 100% das observações, o percentual de cada setor vai equivaler ao

grau do respectivo setor.

Quando a variável qualitativa é expressa por uma variável com nível de mensuração

ordinal, pode ser de interesse avaliar as freqüências acumuladas, tanto absolutas quanto relativas.

12

Considere o exemplo dos freqüentadores de um restaurante apresentado na página 7.

Tabela 2 – Distribuição dos Freqüentadores do Restaurante, Classificados pelo Nível de Instrução mais Elevado

NÍVEL Freq Perc. (%)

Freqüência Acumulada

Percentagem Acumulada (%)

Sem Formação 4 2 4 2Fundamental 18 9 22 11Médio 42 21 64 32Superior 86 43 150 75Pós Graduação 50 25 200 100Total (n) 200 100 -- --

Com base nos dados da Tabela 2, foram elaborados os gráficos de barras abaixo:

Fig. 3 – Freqüência Absoluta do Nível de Fig. 4 – Distribuição Percentual do Nível de Escolaridade dos Freqüentadores Escolaridade dos Freqüentadores

Nível de Escolaridade

PósGradSuperiorMédioFundamS/ Form

Fre

quên

cia

Abs

olut

a

100

80

60

40

20

0

Nível de Escolaridade

PósGradSuperiorMédioFundamS/ Form

Per

cent

agem

(%

)

50

40

30

20

10

0

Fig. 5 – Freqüência Acumulada do Nível de Fig. 6 – Percentagem Acumulada do Nível Escolaridade dos Freqüentadores de Escolaridade dos Freqüentadores

Nív el de Escolaridade

PósGradSuperior

MédioFundam

S/ Form

Fre

quên

cia

Acu

mul

ada

200

150

100

50

0

Nív el de Escolaridade

PósGradSuperior

MédioFundam

S/ Form

Per

cent

agem

Acu

mul

ada

(%)

100

75

50

25

0

13

Notamos que as figuras 3 e 4 e as figuras 5 e 6 têm a mesma configuração. As

primeiras representam as freqüências absolutas e relativas (percentuais), respectivamente,

enquanto as últimas fornecem as freqüências acumuladas, também absolutas e relativas,

do mesmo fenômeno. Uma possível interpretação da figura 5 pode ser que “150

freqüentadores da amostra possuem nível de escolaridade até o curso superior completo”

ou, utilizando a figura 6, essa mesma conclusão pode ser feita como “75% dos

freqüentadores da amostra possuem nível de escolaridade até o curso superior completo”.

As freqüências nesse exemplo foram acumuladas de modo crescente. Há casos, no

entanto, que a acumulação das freqüências é feita de modo decrescente, levando a

conclusões do tipo: “68% dos freqüentadores da amostra possuem pelo menos

escolaridade superior”. (Avalie a veracidade dessa afirmação)

14

3. Descrevendo Dados Quantitativos

Dados quantitativos são aqueles expressos pelas variáveis com níveis de mensuração

intervalar ou de razão. Ou seja, são aqueles nas quais as variáveis assumem valores numa escala

métrica definida por uma origem e uma unidade. Como esses valores têm significado concreto:

• todas as operações matemáticas envolvendo os valores da distribuição fazem sentido;

• as medidas de posição, variação e forma permitem a simplificação de todos os valores da

distribuição para alguns poucos parâmetros;

• as representações tabulares servem apenas para efeito de simplificação visual da

distribuição;

• as representações gráficas são mais informativas.

3.1 Representação Tabular

Quando o número de observações cresce e os valores são diferenciados entre si, há que se

representá-los de modo resumido. Para dados quantitativos a melhor forma de representação

tabular é através de distribuições de freqüência por classes de valores.

Não há um modo único para se construir uma tabela de freqüência por classe de valores. No

entanto, algumas regras são apresentadas abaixo, visando facilitar esse procedimento.

(3) A escolha do número de classes a ser considerado depende do número de

observações, do menor e do maior valor da série. Embora subjetiva, essa escolha

deve recair para algo entre cinco e dez classes, devendo se evitar classes com baixo

número de observações;

(4) As classes não precisam ter amplitude constante, mas por uma questão de

simplificação da construção da representação gráfica, geralmente consideramos

classes com intervalos constantes. O cálculo da amplitude dos intervalos das classes

pode ser feito dividindo-se a amplitude da distribuição (diferença entre o maior e o

menor valor da série) pelo número de classes;

(5) Como as classes devem ser exaustivas (não pode haver uma observação sem

classe), e mutuamente exclusivas (uma observação tem que ser alocada em uma e

apenas uma classe), é importante decidir os limites das classes que serão incluídas

ou excluídas.

Como pode-se notar, esse procedimento deve ser feito apenas para efeito de representação

dos dados. O cálculo das medidas estatísticas deve ser feito utilizando-se os dados observados.

Quando estes não são disponíveis e apenas a tabela é fornecida, as medidas estatísticas são

calculadas assumindo-se que as freqüências das classes são concentradas no ponto médio de cada

classe. As medidas, nesse caso, são valores aproximados.15

Exemplo: Uma amostra de 40 pessoas selecionadas de uma população forneceu a seguinte distribuição de pesos, em quilogramas:

71 74 65 72 64 41 62 62 58 82 49 83 58 65 68 60 76 86 74 53 78 64 55 89 56 50 71 58 57 75 58 86 64 56 45 73 54 85 70 73

Se estabelecermos cinco classes de pesos, o intervalo de cada classe será igual a:

106,95

4189h ≈=−= .

A tabela contendo a distribuição de freqüência por classe de valores será da forma:

Tabela 4 – Distribuição de Freqüência dos Pesos da Amostra

Classes dePeso (kg) Freqüência

40 –| 50 450 –| 60 1160 –| 70 970 –| 80 1080 –| 90 6

TOTAL 40

De acordo com a notação utilizada, as classes incluem o limite superior, mas não incluem o limite inferior de cada classe.

3.2 Medidas Estatísticas

O conhecimento de uma população ou de uma amostra é, por extensão, o conhecimento dos

parâmetros, ou medidas estatísticas, associados a essa população ou amostra. Assim, a

representação, ou caracterização, de uma série de dados quantitativos através de uns poucos

parâmetros permite um conhecimento razoável desses dados. Geralmente são utilizados três tipos

de medidas estatísticas:

• medidas de posição: média; separatrizes; ou moda. Posicionam a distribuição no eixo da

escala da variável estudada;

• medidas de variação: amplitude; desvio médio; desvio padrão e coeficiente de variação.

Informam o grau de homogeneidade da distribuição;

• medida de forma: assimetria Verifica a adequação de outros parâmetros.

Há que se fazer uma distinção entre a notação utilizada para as medidas estatísticas relativas

a uma população e uma amostra. Por convenção, parâmetros populacionais são representados por

16

letras gregas enquanto os parâmetros estimados de uma amostra são representados por letras

latinas. Assim, a média de uma população, é representada por µ, e a de uma amostra por X .

3.2.1 Medidas de Posição (Tendência Central)

Representar os valores de uma série de observações a respeito de uma variável não é uma

tarefa das mais simples. O maior problema prático é decorrente da aplicação do parâmetro certo

para a distribuição inadequada. Por exemplo, a renda per capta de um país mede a riqueza

produzida pelo país, num período, dividida pelo número de habitantes dessa população nesse

período, fornecendo uma idéia da riqueza média dessa população. No entanto, o grau de

concentração dessa riqueza não é informado, podendo se ter uma idéia errada da riqueza

individual para os países com elevada concentração dessa renda.

O objetivo das medidas de posição é o de fixar a distribuição dos valores no eixo da variável

em termos do seu valor central, posicional e de maior freqüência.

Abaixo são apresentadas as três principais medidas de posição, com suas aplicações,

vantagens e desvantagens.

3.2.1.1 Média Aritmética

Uma das medidas estatísticas mais utilizadas na representação de uma distribuição de dados

é a média aritmética, na sua forma simples, ou ponderada. No primeiro caso divide-se a soma de

todos os valores da série pelo número de observações, enquanto no segundo, mais utilizado em

distribuições de freqüências, os valores são ponderados pelas freqüências com que ocorrem e

depois divide-se pelo total das freqüências. Ou seja:

N

XN

1ii∑

==µpara dados populacionais, e

n

XX

n

1ii∑

==para dados amostrais.

A média representa o centro da distribuição de valores e é expressa na mesma unidade das

observações (R$, cm, etc...). Pela sua simplicidade e facilidade de cálculo e de interpretação, a

média é a medida estatística mais utilizada para representar uma distribuição de valores. Muitas

vezes, no entanto, sua utilização é precária, senão vejamos.

A principal vantagem da média é a facilidade de seu cálculo, tanto para grupos quanto para

subgrupos, ou estratos. Como a média é influenciada por valores extremos da distribuição, ela só

17

deve ser utilizada em distribuições simétricas, ou levemente assimétricas, e em distribuições não

heterogêneas. Sua aplicação nos dois casos acima é precária e de pouca utilidade prática, pois

perde sentido prático e capacidade de representar a distribuição que a originou.

Também nos casos de séries em que o fenômeno tem uma evolução não linear, como as

séries de valores financeiros no tempo, de acordo com uma capitalização composta, a média mais

recomendada seria a geométrica. Finalmente, não se recomenda a aplicação da média aritmética

nas séries cujos valores representem relações recíprocas, como por exemplo velocidades,

expressas através da relação entre o espaço e o tempo. Nesse último caso recomenda-se a

utilização da média harmônica.

3.2.1.2 Mediana

O que fazer quando a média aritmética não puder ser utilizada face ao alto grau de

heterogeneidade da distribuição, ou por sua assimetria? Pense nas taxas de retorno de portfolios

diferentes, ou dos valores obtidos em uma pesquisa de salários para um particular cargo. Ainda

assim podemos representar uma distribuição através de uma medida menos sensível a valores

extremos. É o caso da mediana, medida que divide a distribuição de valores em duas partes iguais:

50% acima e 50% abaixo do seu valor. Como a média, a mediana é expressa na mesma unidade

das observações (R$, cm, etc...). Ao contrário da média, no entanto, o seu tratamento algébrico

não é tão amigável. Como definida, essa medida não é influenciada pelos valores observados, mas

pela freqüência com que ocorrem na série.

Ordenada a série dos valores, crescente ou decrescentemente, determina-se a posição da

mediana dividindo-se o número de observações por 2. O valor mediano será aquele relativo à

posição encontrada. Caso a série tenha número par de observações, a mediana será a média dos 2

termos centrais.

3.2.1.3 Moda

É o valor, ou classe de valores, de maior freqüência na série de valores. Sua importância é

ressaltar o valor, ou classe, dominante da distribuição. Como é função da freqüência, sua aplicação

não depende do nível de mensuração da variável, sendo aplicada tanto a fenômenos qualitativos

quanto quantitativos.

Uma distribuição pode ser amodal, quando não existir um valor dominante, ou bimodal,

trimodal etc, na medida em que a distribuição apresente duas, três e etc modas.

Não há cálculo envolvido na determinação da moda, porém sua aplicação é mais restrita do

que os parâmetros anteriores. Como a mediana, seu valor não é influenciado pela existência de

valores extremos na distribuição.

18

3.2.1.4 Exemplos de Aplicação

Considere a distribuição das idades apresentada no item 3.1.

• A média da amostra é dada por:

.6040

7365747140

40

1 =++++==∑

= iiX

X

• Ordenando os valores de modo crescente, e considerando que a série tem número par de

observações, a mediana será a média dos termos centrais (20o. e 21o.), ou seja:

Md = .5,642

6564 =+

• A idade de maior freqüência, ou modal, é 58 anos. Quatro pessoas na amostra têm essa

idade (Mo = 58), o que faz dela o valor dominante da série.

Os valores das medidas estatísticas permitem antecipar a forma da distribuição, do ponto de

vista da sua assimetria. De um modo geral, quando X > Md > Mo , dizemos que a distribuição é

assimétrica à direita (ou positivamente assimétrica). Quando X < Md < Mo , a distribuição é dita

assimétrica à esquerda (ou negativamente assimétrica).

3.2.2 Medidas de Variação

As medidas de posição se propõem a representar uma distribuição de valores, como já

mencionado. Permitem, também, a comparação de distribuições do mesmo fenômeno em locais ou

períodos diferentes como, por exemplo, a comparação entre as expectativas de vida das

populações dos países nos cinco continentes. Além disso, a média aritmética é uma medida de

representação quando a distribuição for simétrica e não heterogênea. Mas o que entendemos por

distribuição heterogênea? Quando uma distribuição é dita heterogênea? Essas e outras questões

são respondidas à luz das medidas de variação.

As medidas de variação constituem importante instrumento para avaliar: a amplitude com

que as observações variam; e como os valores estão distribuídos em torno de algum valor-critério.

Podem ser de caráter absoluto ou relativo (percentual), como apresentadas a seguir.

19

3.2.2.1 Medidas Absolutas de Variação

As medidas absolutas de variação são expressas na mesma unidade da variável, ou alguma

função dela. As principais são:

3.2.2.1.1 Amplitude da Distribuição

A amplitude da distribuição é a diferença entre o maior e o menor valor da distribuição:

,xXH −=

onde X é o maior e x o menor valor observado na distribuição.

Apesar de fornecer uma idéia do espectro de variação dos dados, essa medida é pobre

pois só considera dois de seus valores, deixando de informar como os demais valores estão

distribuídos. Com essa medida, podemos avaliar apenas qual extremo está influindo mais na

média, por exemplo.

3.2.2.1.2 Desvio Médio

Para suprir as deficiências da Amplitude da Distribuição é necessário se definir uma medida

de variação que não só incorpore todas as observações mas também meça como essas

observações estão dispostas em relação a um valor-critério. Estabeleceu-se como valor-critério a

média da distribuição. Como a soma dos afastamentos das observações em relação à média é nula

(a média é o valor central da distribuição), tomou-se a média dos valores absolutos dos desvios

das observações em relação à média da distribuição, ou seja:

N

XN

1ii∑

=

µ−=∆

para a população, e

n

XXDM

n

1ii∑

=

−=

para a amostra.

3.2.2.1.3 Variância

Embora o desvio médio seja um parâmetro melhor do que a Amplitude da Distribuição,

ainda não é uma medida ideal, pois não discrimina pequenos dos grandes afastamentos em

relação à média. Se para eliminar o problema dos sinais, ao invés de considerarmos os valores

absolutos elevarmos os afastamentos ao quadrado, estaremos não apenas eliminando o problema

dos sinais como também potencializando os afastamentos, enfatizando os grandes desvios em

20

relação às observações mais próximas da média. Como resultado definimos a medida de variação,

denominada variância, como:

( )

N

X2N

1ii

2∑

=

µ−=σ


( )1n

XXs

2n

1ii

2

−

−=

∑= para a amostra.

A razão de termos (n – 1) no denominador da variância da amostra ficará mais clara mais

à frente, quando desenvolvermos os instrumentos para a estimação de parâmetros de uma

população com base em dados amostrais.

Embora a variância represente um passo à frente em relação às medidas de variação

anteriormente apresentadas, ela padece de um problema complicado: sua unidade de medida é

expressa pela unidade de medida do fenômeno, elevada ao quadrado. Avaliar uma medida

quadrática não é uma tarefa das mais simples, certo?

3.2.2.1.4 Desvio Padrão

Para manter as mesmas propriedades da variância e restituir a unidade de medida do

fenômeno, expresso pela variável X, devemos extrair a raiz quadrada da variância. Definimos,

então a medida de dispersão dos dados em relação à média da distribuição como o Desvio Padrão:

( )

N

XN

1i

2i∑

=

µ−=σ


( )1

2

1

−

−=

∑=

n

XXs

n

ii para a amostra.

O único problema do desvio padrão é a dificuldade de se avaliar a sua ordem de grandeza,

ou seja, julgar se um valor do desvio padrão calculado para uma distribuição é elevado ou baixo,

face à sua natureza absoluta. A alternativa é trabalhar com medidas relativas de variação.

3.2.2.2 Medida Relativa de Variação

Medidas absolutas, via de regra, são problemáticas face à dificuldade de se estabelecer

uma base de comparação que permita concluir sobre a ordem de grandeza da medida obtida. Por

exemplo, até que ponto podemos dizer que 144 anos2 exprime uma grande variação das idades?

Como vimos, a variância é uma medida quadrática, o que torna a sua ordem de grandeza difícil de

21

ser avaliada. Tudo bem, extraímos a sua raiz quadrada. Até que ponto 12 anos pode ser

considerada uma alta dispersão das idades em torno da média? A amostra é heterogênea ou

homogênea em relação à idade média de seus membros? Por que numa distribuição uma

dispersão igual a 12 é baixa e em outra alta? Como comparar dispersões oriundas de distribuições

com médias diferentes?

Como se vê, a medida absoluta de dispersão dos dados tem limitações no tocante às

conclusões. Principalmente na comparação de grupos com médias diferentes. Como o desvio

padrão varia com a ordem de grandeza da média, comparar grupos, quanto à sua variação,

quando as respectivas médias são diferentes não pode ser feita com os desvios padrões. Surge,

então, a medida adimensional, isto é, sem unidade de medida, definida como Coeficiente de

Variação:

µσ=γ para a população, e

XsCV = para a amostra.

O coeficiente de variação mede a percentagem de dispersão dos dados em relação à média,

podendo ser expressa em termos decimais ou percentuais (multiplicando-o por 100). Dizemos que

uma distribuição é homogênea quando a variabilidade relativa, expressa pelo coeficiente de

variação, não ultrapassar a 20 ou 25%. Obviamente a distribuição não deixa de ser homogênea

para valores maiores do que 25%, mas vai perdendo grau de homogeneidade na medida em que o

coeficiente aumenta.

Exemplos de Aplicação

Considere, ainda, a distribuição das idades apresentada no item 3.1. Identificamos o valor da

idade da pessoa mais jovem, 41 anos, e o da pessoa mais “madura”, 89 anos. Com esses valores

podemos dizer que as idades das pessoas da amostra variam entre 41 e 89 anos, isto é, têm uma

AMPLITUDE de variação de 48 anos.

Calculando a média dos desvios absolutos das observações em relação à média da

distribuição, através do DESVIO MÉDIO da amostra, obtemos:

9,940

66XDM

40

1ii

=−

=∑

= anos.

O desvio padrão da amostra, expresso como a raiz quadrada da variância é igual a:

( )94,11

39

66XS

40

1i

2i

=−

=∑

= anos.

22

Note que é difícil tomarmos o desvio padrão para classificarmos a distribuição quanto ao seu

grau de homogeneidade. Como a média da amostra é igual a 66 anos, a variação relativa,

expressa pelo COEFICIENTE DE VARIAÇÃO da amostra é igual a:

18,066

94,11XSCV === , ou 18%.

Como o Coeficiente de Variação é inferior a 20%, podemos concluir que a amostra é

homogênea em relação às idades de seus elementos.

Considere, agora, dois portfolios de aplicações financeiras: um com rentabilidade média

anual de 24%, com dispersão (desvio padrão) de 6%; e outro com rentabilidade anual de 18%,

com dispersão de 5%. Embora o risco do segundo portfolio, expresso pela medida do seu desvio

padrão, seja inferior ao do primeiro portfolio, um investidor mais conservador, avesso a riscos,

deverá optar pelo primeiro portfolio na medida em que o seu coeficiente de variação, 25%, é

inferior ao do segundo portfolio, que apresenta uma variação relativa de 28%.

3.2.3 Medida de Forma (Assimetria)

Sabemos que a média é uma medida estatística de representação de uma distribuição, mas

sua utilização está sujeita a algumas características dessa distribuição. Uma dessas características

é o baixo grau de assimetria da distribuição. Para verificarmos o tipo e o grau da assimetria da

distribuição utilizamos a medida estatística adimensional denominada Coeficiente de Assimetria,

definido como:

3

N

1i

3i

N

)X(

σ

µ−=α

∑= para população, e

3

n

1i

3i

Sn

)XX(CA

∑=

−= para amostra.

Quando esse coeficiente é positivo dizemos que a distribuição tem assimetria positiva, ou à

direita, isto é, há algumas poucas observações mais elevadas à direita da média. Quando assume

valor negativo a assimetria é negativa, ou assimétrica negativa, com algumas observações à

esquerda da média. Quando o valor desse coeficiente se aproxima de zero dizemos que a

distribuição tende à simetria, o que faz com que os valores das medidas de posição se igualem.

No exemplo das idades, o COEFICIENTE DE ASSIMETRIA é igual a 0,08 (ou 8%), indicando

que a distribuição das idades na amostra pode ser considerada simétrica (ou levemente

assimétrica à direita).

23

3.2.4 Outras Medidas Descritivas

Muitas vezes torna-se necessário complementar a informação obtida de uma distribuição

com outras medidas que possam melhor descrevê-la. Podemos, também, estar diante de

problemas que exijam outros tipos de tratamento como por exemplo escolher os 10% dos alunos

mais adiantados, ou os 25% dos melhores candidatos a um cargo. A exemplo da mediana, que

separa metade da distribuição acima e metade abaixo do seu valor, podemos fazer cortes com

base em PERCENTIS, definidas como medidas separatrizes de uma distribuição. Note que, como

definida, a mediana é o percentil de ordem 50 (ou 50o percentil) em uma distribuição ordenada de

valores. Além do percentil, podemos utiliza os QUARTIS, definidos como as separatrizes que

cortam a distribuição em 25% (Q1) e 75% (Q3) dos seus valores à sua direita.

A tabela abaixo fornece um resumo das principais medidas que descrevem a distribuição das

idades das 40 pessoas que compõem a amostra fornecida no item 3.1. Foi utilizado o pacote

estatístico SPSS e os rótulos foram reeditados para melhor entendimento.

Estatisticas DescritivasIdade (anos)

Observações (n) Válidas 40 Missing 0Média 66Mediana 64,5Moda 58Desvio Padrão 11,94Variância 142,46Coef de Assimetria 0,086Amplitude 48Mínimo 41Máximo 89Percentil 10 50,30 25 57,25 50 64,50 75 74,00 90 84,80

Analise as medidas acima e tire conclusões acerca da distribuição.

3.3 Representação Gráfica

As variáveis quantitativas, ao contrário das qualitativas, devido ao fato de possuírem uma

escala com origem (fixa ou não) e unidade, permite representação gráfica com maior grau de

informação sobre a distribuição de seus valores.

A definição da melhor forma de representar a distribuição de uma variável quantitativa

depende do tipo da série estudada (temporal, geográfica ou especificativa). Séries temporais são

representadas por gráficos de linha que permitem a visualização da tendência do fenômeno no

tempo. Séries geográficas são representadas por barras ou blocos que permitem identificar as

24

localizações onde o fenômeno estudado atua com mais intensidade. As demais distribuições podem

ser representadas através de dois tipos principais de gráficos: histogramas e Box Plots.

3.3.1 Histograma

Histograma é um gráfico de barras justapostas contendo as classes de valores na abscissa e

as freqüências, absolutas ou relativas, nas ordenadas, centradas nos pontos médios das classes.

Quando os intervalos de classes da variável não são constantes, a área da barra deve ser

proporcional à freqüência da classe. Nesse caso devemos dividir a freqüência de cada classe pela

amplitude da respectiva classe.

Considere o histograma construído para os dados das idades do exemplo do item 3.1. Note

que pela linha unindo as barras do histograma, também denominada poligonal característica, a

distribuição, embora não simétrica, guarda uma moderada simetria em relação aos valores

centrais. A linha poligonal característica desempenha um papel importante na identificação da

simetria dos dados. No exemplo notamos que ela mostra uma forma levemente assimétrica como

as medidas descritivas já haviam antecipado.

Idade (anos)

9085807570656055504540

Freq

uenc

y

8

6

4

2

0

3.3.2 Box Plot

O diagrama Box Plot é a forma de representar graficamente os dados da distribuição de uma

variável quantitativa em função de seus parâmetros descritivos. O gráfico abaixo representa o Box

Plot para os dados das idades da amostra do item 3.1. Na sua construção são considerados os

quartis e os limites da distribuição, permitindo uma visualização do posicionamento da distribuição

na escala da variável. Para melhor compreensão deste gráfico, note que:

25

dq

• A escala de medida da variável encontra-se na linha vertical do quadro onde está inserido

o gráfico;

• Na caixa retangular vertical do gráfico são fornecidos os quartis Q1, na parte inferior, e Q2

na parte superior da caixa. Entre eles encontra-se a Mediana da distribuição. Alguns Box

Plots apresentam, ainda, a média dentro da caixa. Observe que 50% da distribuição têm

valores dentro da caixa;

• As linhas verticais que saem da caixa terminam nos limites inferior e superior da

distribuição. Entre esses limites encontram-se os valores considerados como típicos da

distribuição. Esses limites são determinados em função da distância entre os dois quartis,

isto é, do desvio interquartílico:

dq = Q2 – Q1.

Observações com afastamento superior a 1,5 desvio interquartílico, para cima ou para

baixo, são consideradas atípicas, aparecendo no gráfico com asteriscos.

• Quanto maior for o valor do desvio interquartílico, maior a variabilidade da distribuição;

• Quanto mais próxima a caixa estiver de um dos extremos, maior a evidência sobre a

assimetria da distribuição;

Os Box Plots são de grande utilidade, também, quando uma variável quantitativa é

analisada à luz das categorias de uma variável qualitativa, como por exemplo, a distribuição de

salários para cada categoria da variável formação educacional, esta medida pelo último nível de

instrução completo das unidades observacionais (s/ formação, nível fundamental, nível médio,

nível superior e pós-graduação).

Idade (anos)

100

90

80

70

60

50

40

30

26

1,5dq

1,5dq

4. Transformações de Variáveis

Antes de qualquer análise é fundamental que se proceda a um exame dos dados relativos

a uma variável, seja ela qualitativa ou quantitativa. Este procedimento é importante como um

primeiro contato do analista com a distribuição, além de servir, também, para avaliar a existência

de possíveis valores atípicos na distribuição. Se a variável for do tipo qualitativa, a concentração de

respostas em torno de umas poucas categorias, a existência de células esparsas, com baixa

freqüência, ou até mesmo o aparecimento de respostas não esperadas, pode indicar algum

problema no levantamento dos dados (questão mal formulada ou resposta inválida). No caso da

variável ser quantitativa, valores muito afastados da distribuição, ou até mesmo distribuições com

assimetria acentuada pode indicar a existência de outliers ou a necessidade de se proceder a uma

transformação na escala da variável.

Como já se sabe, uma escala de valores fica perfeitamente caracterizada quando a origem

e a unidade de medida são conhecidas. Embora originalmente sejam atribuídos os valores zero e

um para caracterizar, respectivamente, a origem e a unidade de uma escala de valores, essa

escolha é arbitrária. Matematicamente justifica-se tal escolha pelo fato de ser o valor nulo o

separador dos números positivos e negativos e a unidade unitária pela simplicidade e

propriedades.

Não obstante, salvo nos casos de fenômenos expressos na escala de razão, onde o zero

representa a ausência do que se está medindo, atribuí-se à média e o desvio padrão como a

origem e a unidade da distribuição. Tal escolha, no entanto, só faz sentido, e é recomendada,

quando as distribuições forem levemente assimétricas e com baixa variabilidade, casos em que a

média pode representar o conjunto de valores observados.

A escolha e a mudança de escalas são artifícios úteis para melhor compreensão de

fenômenos. Suponha que o leitor se encontre nos Estados Unidos da América e necessite medir a

sua temperatura corporal. Adquire um termômetro numa farmácia e ao medir a sua temperatura

observa que a escala do instrumento é expressa em graus Fahrenheit. O que você deve fazer se

souber interpretar temperatura apenas na escala Celsius? Sem problemas. Como as escalas

Fahrenheit e Celsius são relacionadas através da expressão 9

160F5C −= , o leitor poderá fazer a

devida transformação da escala, no caso linear, para poder interpretar o resultado e avaliar o seu

possível estado febril.

Define-se, então, como transformação linear de X para Y a qualquer relação do tipo

Y = aX + b, com a e b constantes conhecidas. A seguir são apresentadas algumas das mais

importantes transformações lineares.

27

Considere as notas de uma turma de dez alunos em três exames, conforme abaixo:

ALUNOEXAME 1 2 3 4 5 6 7 8 9 10

PORTUGUÊS 36 35 45 38 40 42 44 46 34 40MATEMÁTICA 22 23 17 20 21 19 21 17 22 18CIÊNCIAS 10 11 8 9 10 10 11 9 12 10

Calculando-se a média e a dispersão de cada exame obtemos:

EXAME MÉDIA (µ) DESVIO (σ)PORTUGUÊS 40 4MATEMÁTICA 30 3CIÊNCIAS 20 2

Em primeiro lugar, note que as notas de cada exame estão expressas em escalas

diferentes. Como conseqüência, nada se pode comparar o desempenho dos alunos nos três

exames. Tampouco pode-se comparar os desempenhos entre os alunos, o que impede um

ordenamento baseado em suas performances.

4.1 Mudança da Origem

Por uma questão de conveniência, podemos proceder a uma transformação que separe os

escores observados de uma distribuição a partir do seu valor médio. Nesses casos, valores acima

da média serão positivos, enquanto aqueles que estiverem abaixo dela serão negativos. A média,

como valor central de uma distribuição, passa a ser, desse modo, a origem da nova escala dos

escores. No exemplo dos escores nos três exames, essa transformação permite a avaliação dos

alunos com respeito ao desempenho individual tendo a média como base.

Na prática, essa transformação está simplesmente movendo toda a distribuição para a

direita ou esquerda, dependendo do sinal da média, sem alterar a unidade das medidas, expressa

pela mesma unidade de medida da variável. A mudança da origem, de zero para a média é

expressa por:

xi = Xi - X para i = 1, 2, ... , n.

O valor nulo na nova escala verifica-se para os valores da distribuição, na escala primitiva,

iguais à média. O quadro abaixo apresenta os escores dos alunos (do exemplo acima) na nova

escala. Os valores nesse quadro são expressos em afastamentos, em pontos, da média.

ALUNOEXAME 1 2 3 4 5 6 7 8 9 10

PORTUGUÊS -4 -5 5 -2 0 2 4 6 -6 0MATEMÁTICA 2 3 -3 0 1 -1 1 -3 2 -2CIÊNCIAS 0 1 -2 -1 0 0 1 -1 2 0

28

A tabela acima permite separar, para cada exame, os alunos que tiveram desempenho

superior ou inferior às respectivas médias. Como afastamentos em torno da média, a soma dos

novos escores é igual a zero. As unidades não foram alteradas, o que não permite, ainda,

comparar os desempenhos entre os exames. Por exemplo, não podemos avaliar se o aluno 3 teve

um desempenho mais fraco em Matemática ou Ciências. Para isso será necessário colocar as três

distribuições numa unidade comum.

4.2 Mudança da Unidade

A transformação acima desloca as distribuições ao longo do eixo das escalas das variáveis,

centrando as distribuições num ponto comum (zero). Não obstante, essa transformação preserva

as suas unidades originais. Ao dividirmos os escores de cada distribuição pelos respectivos desvios

padrões, estamos unificando também as novas unidades das variáveis. A nova unidade de cada

distribuição fica, então, expressa em termos das unidades de desvios de cada distribuição. Desse

modo, um aluno que fez 44 pontos no exame cuja média tenha sido de 40 pontos e desvio padrão

de 4 pontos, passa a ter 1 unidade de desvio (não mais pontos) acima da média na nova escala.

A nova transformação pode ser expressa através de

σµ−= i

iXZ .

Tanto a mudança da origem como a da unidade pode ser feita separadamente, mas

quando feitas simultaneamente unifica as escalas, que passam a ser expressas como unidades de

desvio. Essa transformação leva todas as variáveis a terem média 0 e desvio padrão 1. Por isso a

transformação é denominada padronização dos escores.

Os escores padronizados para as distribuições das notas dos alunos nos três exames do

exemplo acima são apresentados abaixo.

ALUNOEXAME 1 2 3 4 5 6 7 8 9 10

PORTUGUÊS -1 -1,25 1,25 -0,5 0 0,5 1 1,5 -1,5 0MATEMÁTICA 1 1,5 -1,5 0 0,5 -0,5 0,5 -1,5 1 -1CIÊNCIAS 0 1 -2 -1 0 0 1 -1 2 0

Agora sim, podemos analisar os escores dos alunos em termos comparativos. Note, por

exemplo, que embora o aluno 3 tivesse ficado com 3 pontos abaixo da média em Matemática e 2

pontos abaixo da média em Ciências, o seu desempenho pior foi no exame de Ciências, em que

ficou 2 unidades de desvio abaixo da média, tendo sido o aluno de pior performance nessa

disciplina, dentre os dez alunos que se submeteram ao exame. Isto significa que análises

comparativas devem considerar parâmetros relativos e não absolutos. Significa, também, que só

29

podemos comparar valores quando expressos em escalas comuns como as obtidas através da

padronização dos escores.

4.3 Re-escalonamento dos Escores

Com as escalas expressas na mesma origem e unidades podemos proceder, por uma

questão de conveniência, a novas mudanças de origem e/ou unidade a fim de permitir melhor

representação dos valores. Assim, se quisermos ordenar os alunos em função dos respectivos

desempenhos, uma possibilidade seria eliminar os valores negativos e trabalhar apenas com

escores positivos. Com base na operação inversa estabelecida na padronização dos escores,

podemos fixar uma nova origem e uma nova unidade de medidas para as três distribuições, de

modo que os valores pudessem ser expressos apenas através de escores positivos.

Como sabemos, mais de 99% dos valores em uma distribuição simétrica estão localizados

entre 3 unidades de desvios em torno da média. Se estabelecermos uma nova média de, por

exemplo, 100 pontos e uma nova unidade de 20 pontos, esperamos que praticamente todos os

valores estejam localizados entre 40 e 160 pontos. Então para cada exame k, procedemos ao re-

escalonamento dos escores com base na transformação

100Z.20Y kiki += ,

onde Yki representa a escore do indivíduo i no exame k, Zki é o escore padronizado do indivíduo i

no exame k, 100 e 20 são, respectivamente, a média (origem) e desvio padrão (unidade) do novo

sistema de pontuação dos escores. Abaixo são apresentados os escores dos dez alunos após o re-

escalonamento dos escores padronizados.

ALUNOEXAME 1 2 3 4 5 6 7 8 9 10

PORTUGUÊS 80 75 125 90 100 110 120 130 70 100MATEMÁTICA 120 130 70 100 110 90 110 70 120 80CIÊNCIAS 100 120 60 80 100 100 120 80 140 100

De acordo com esse procedimento, todas as propriedades dos escores padronizados são

aplicadas e os valores re-escalonados podem ser operados aritmeticamente a fim de se estabelecer

um ordenamento final dos indivíduos.

4.4 Combinação Linear (Compósito)

Geralmente, o objetivo de uma transformação é permitir o ordenamento dos indivíduos.

Como não podemos ordenar unidades com base em mais de uma dimensão, utilizamos um

compósito dos valores nas suas diversas dimensões, transformando os dados multidimensionais

em uma distribuição unidimensional. Um processo simples para se proceder a essa transformação

é calcular a média ponderada dos escores dos indivíduos nas diversas dimensões. Assim

procedendo, preservamos a escala comum às diferentes dimensões, obtida através dos métodos

30

até agora expostos, e ordenamos os indivíduos com base na combinação resultante. As

ponderações são, em geral, ad hoc, e representam o grau de importância de cada dimensão no

resultado final. No exemplo dos três exames, podemos pensar as disciplinas Português,

Matemática e Ciências como recebendo pesos 3, 2 e 1, respectivamente. Os resultados encontram-

se no quadro abaixo:

ALUNO 1 2 3 4 5 6 7 8 9 10Escore Final 96,67 100,83 95,83 91,67 103,33 101,67 116,67 101,67 98,33 93,33Classificação 7 5 8 10 2 3,5 1 3,5 6 9

De acordo com o critério estabelecido, chegamos a um resultado que, embora não tenha

qualquer significado próprio, possibilita ordenar os indivíduos com base no desempenho em cada

exame e no grau de importância de cada exame no resultado final.

Note que os indivíduos 5 e 7 têm o mesmo escore final (101,67). Como ficaram

empatados, ocupando a terceira e quarta classificações, recomenda-se diluir o rank de ambos

atribuindo-lhes, por exemplo, a média dos ranks.

Resumindo, a presente seção levou em conta as possíveis transformações, todas lineares, que

podem ser aplicadas a uma determinada variável a fim de possibilitar um maior espectro de

possíveis aplicações, principalmente comparações e ordenações. Essas transformações consistem

no deslocamento e re-formatação da distribuição original que, quando aplicadas simultaneamente

recebem o nome de padronização, cujo objetivo principal é trazer diferentes escalas a uma escala

comum a todas as distribuições. Após o processo de padronização, as variáveis podem receber

tratamentos aritméticos tais como o re-escalonamento e cálculo de médias, consoante o objetivo

da análise a ser desenvolvida.

31

ANALISANDO DADOS PROF:MOISES

Documents