1 Resumos de Estatística 1ºAno, 2ºSemestre, 2010/2011 Mário Miguel Fernandes Aula 1 ESCALAS DE MEDIÇÃO Instrumento – Mede, com um certo grau de validade, um dado atributo ou característica de um sujeito. Nele está implícita a fiabilidade, isto é, o erro reduzido da observação (registo). O processo de medição dá-se por intermédio de valores numéricos, definidos em IR. Neste sistema de números reais devem-se considerar três aspectos cruciais: Ordem – Os números são ordenados. Números maiores representam maiores quantidades do atributo medido. Distância – As diferenças entre pares de números são ordenadas. Isto é, os números descrevem a magnitude das diferenças entre unidades de observação. Origem – As séries de números possuem uma origem única, o valor ZERO. Ao zero associa-se a ausência total de atributo. Podemos ter 4 tipos de escalas: Nominal (Variável qualitativa) o “Simples” acto de rotular ou representar sujeitos, expressando a ocorrência da observação. o Afirmação tipo: Os sujeitos diferem, uns dos outros, relativamente à característica observada. Isto refere-se, essencialmente, a quantidades de “classificação sistemática”. Por exemplo: n=100 Portistas (N p = 50) Sportinguistas (N s = 25) Benfiquistas (N b = 25) o Não se trata, exclusivamente, de atribuir números a sujeitos (objectos individuais), mas também, e sobretudo, a classes de objectos. o Os sujeitos devem ser classificados num conjunto de categorias MUTUAMENTE EXCLUSIVAS e EXAUSTIVAS. o A diferença na classificação é de natureza e não de grandeza.
54
Embed
ESCALAS DE MEDIÇÃO - sunprynus.comsunprynus.com/fadeup/114/FADEUP114ResumoDeEstatistica.pdf · ESCALAS DE MEDIÇÃO Instrumento – Mede, com um certo grau de validade, ... Medidas
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
Resumos de Estatística
1ºAno, 2ºSemestre, 2010/2011 Mário Miguel Fernandes
Aula 1
ESCALAS DE MEDIÇÃO
Instrumento – Mede, com um certo grau de validade, um dado atributo ou característica de um
sujeito. Nele está implícita a fiabilidade, isto é, o erro reduzido da observação (registo).
O processo de medição dá-se por intermédio de valores numéricos, definidos em IR. Neste
sistema de números reais devem-se considerar três aspectos cruciais:
Ordem – Os números são ordenados. Números maiores representam maiores quantidades do
atributo medido.
Distância – As diferenças entre pares de números são ordenadas. Isto é, os números descrevem
a magnitude das diferenças entre unidades de observação.
Origem – As séries de números possuem uma origem única, o valor ZERO. Ao zero associa-se a
ausência total de atributo.
Podemos ter 4 tipos de escalas:
Nominal (Variável qualitativa)
o “Simples” acto de rotular ou representar sujeitos, expressando a ocorrência
da observação.
o Afirmação tipo: Os sujeitos diferem, uns dos outros, relativamente à
característica observada. Isto refere-se, essencialmente, a quantidades de
“classificação sistemática”. Por exemplo: n=100 Portistas (Np = 50)
Sportinguistas (Ns = 25) Benfiquistas (Nb = 25)
o Não se trata, exclusivamente, de atribuir números a sujeitos (objectos
individuais), mas também, e sobretudo, a classes de objectos.
o Os sujeitos devem ser classificados num conjunto de categorias
MUTUAMENTE EXCLUSIVAS e EXAUSTIVAS.
o A diferença na classificação é de natureza e não de grandeza.
2
Ordinal (Variável qualitativa)
o “Arranjo” da expressão do atributo medido numa ORDEM NUMÉRICA
(ORDENAÇÃO) – Atribuição de números a objectos ou pessoas de forma a
reflectir uma ORDEM ou POSIÇÃO no atributo em causa, de baixo a elevado.
As diferenças veiculam aumentos na quantidade das observações da variável.
Por exemplo: A é mais simpático do que B / Escalas do tipo Hickert
Intervalar (Variável quantitativa)
o Se, para além de representar as frequências de ocorrência, ordenar e
categorizar sujeitos e atributos, ainda for capaz de apresentar distâncias
numéricas entre os valores de Xi, a escala é designada de INTERVALAR.
o Os números expressam uma unidade fixa de medida, isto é, precisa, para
além dos intervalos evidenciarem consistência ao longo da escala. Por
exemplo: A diferença existente entre 40ºC e 30ºC é a mesma que a entre
60ºC e 50ºC, mas 60ºC não é o dobro de 30ºC!!! Isto porque não temos um
valor significativo para 0, logo não podemos fazer comparações deste
género.
De razão (Ratio) [Variável quantitativa]
o Escala raramente encontrada em informação proveniente de estudos
psicológicos ou sociológicos, mas muito corrente na pesquisa das ciências
mais “pesadas” do Desporto.
o É expressa pelo conteúdo da escala de intervalo e pela presença de uma
origem ou ZERO definido que nos permite comparar directamente o valor da
escala, ao contrário da Intervalar.
o Sendo assim, permite-nos dizer: Um sujeito com 190cm de estatura possui o
dobro da altura de um outro com 95cm.
RE-ESCALAR….
A expressão RE-ESCALAR uma variável refere-se à sua transformação numa outra escala
(geralmente menos precisa). Por exemplo, podemos tornar uma escala de razão, contínua, numa escala
nominal, discreta ou dicotómica.
RE-EXPRESSAR….
O termo RE-EXPRESSAR uma variável refere-se ao processo de transformação da sua métrica
para facilitar os procedimentos de análise e, em alguns casos, a sua interpretação. Por exemplo:
Simetrizar uma colecção de dados.
A partir da “estatística” podemos inferir, isto é, descobrir o valor dos parâmetros.
3
Na amostra, os dados colhidos das variáveis podem ser:
Contínuos (Altura, peso,…)
Discretos (Sexo, Força partidária,…)
ORGANIZAÇÃO DOS DADOS
Uma forma fácil de ler dada informação será, em primeiro lugar, ORDENÁ-LA (Elaboração de um rol,
lista, série ou distribuição). Este processo constitui uma DISTRIBUIÇÃO SIMPLES.
Séries de frequências
Grau de quantidade de dados, variáveis discretas cuja repetição de valores é uma constante.
Implica a “feitura” de uma lista em que todos os valores de igual grandeza estejam
representados pelo seu valor numérico e respectiva FREQUÊNCIA ou EFECTIVO.
A partir do exemplo anterior, o que há a fazer é agrupar cada valor à respectiva frequência
ABSOLUTA ou SIMPLES.
Frequência ou efectivo de cada valor da variável – Número de vezes que um valor se repete.
∑ƒ=n
Noções importantes:
Frequência absoluta (ƒ) (Vamos ter ∑ƒ=n)
Frequência relativa (ƒr) = ƒ/n e ∑ƒr (ƒrac) = 1.00
Representação gráfica:
Gráfico de barras > Linha poligonal
Histograma > Polígono de frequências
Gráfico de caule-e-folhas
Estatística Descritiva – Conjunto de métodos estatísticos que visam sumariar e descrever os
atributos mais proeminentes aos dados.
Estatística Inferencial – Conjunto de métodos estatísticos que visam caracterizar (ou inferir
sobre) uma população a partir de uma parte dela (a amostra).
4
Estatística - A Estatística é uma ciência que estuda a variabilidade apresentada pelos dados.
Permite-nos, a partir dos dados retirar conclusões, e exprimir o grau de confiança ou o erro
que devemos assumir nessas conclusões.
5
Aula 2
SÉRIES AGRUPADAS EM CLASSES
Quando se trabalha com um número elevada de registos de uma variável (por exemplo: x ≥30)
e quando a variável é contínua, é usual recorrer a séries agrupadas em classes.
O que são?
Nada mais do que dividir as séries simples num determinado número de sub-grupos
(CLASSES) e constar a ocorrência (NÚMERO) em cada uma, isto é, frequência de classe.
Nós devemos sempre considerar entre 5 e 10 classes, ou pelo menos assim o é
recomendado, sendo 7 o número de séries de Sturges, mas depende sempre de n e
forma de distribuição dos valores.
Por questões meramente operacionais (uniformização) iremos considerar a seguinte
processologia de agrupamento:
Localizar o valor mais elevado (limite superior da série) e o mais baixo (limite
inferior da série)
Determinar a amplitude total [At = Ls - Li]
Determinar o número de classes (K)
Dividir a At por K > Pretende obter a “largura” conveniente do intervalo de
cada classe
Considerar classes abertas à direita
Definições:
Centro de Classe (Ci) é o valor obtido pela fórmula seguinte: Ci = (Ls + Li)/2
De seguida deve-se proceder à construção da tabela, leitura dos dados e construção
do histograma.
O histograma é um gráfico de barras que possui barras adjacentes e a sua variável é contínua.
Gráfico de caule-e-folhas:
Representação mais clara dos dados (misto de tabela e gráfico)
Todos os valores da série são representados de uma forma subjectiva que faz lembrar um
histograma.
Utilizado para representar amostras de dois ou mais dígitos.
Consiste no seguinte: Do lado esquerdo de uma linha vertical escreve-se o(s) dígito(s) da classe
de maior grandeza, seguida das restantes.
1ºpasso: Traçar uma linha vertical e colocar do lado esquerdo os dígitos dominantes – Caule
2ºpasso: Depois de ordenar a série, colocar os valores das unidades em cada “caule” – Folhas
6
Quando se representa um conjunto de dados sob a forma de um histograma ou numa
representação de caule-e-folhas, pretende-se que se realce o ASPECTO DO HISTOGRAMA,
pois REFLECTE A FORMA DE DISTRIBUIÇÃO DOS DADOS.
o A distribuição pode ser simétrica relativamente a uma classe média;
o Pode ser enviesada, isto é, assimétrica, apresentando valores substancialmente mais
pequenos num dos lados relativamente ao outro;
o Pode ter “caudas pesadas” ou ter vários “picos”.
DESCRIÇÃO NUMÉRICA DOS DADOS
O que aqui se pretende é obter uma descrição sumária o mais completa e simples possível de
uma série simples ou agrupada em classes.
Os “sumários numéricos” (indicadores) deverão possuir algumas características:
Objectividade
Dependência de todas as observações
Ter um significado concreto
Prestar-se a cálculo algébrico.
Medidas de Tendência Central
Média (X), Mediana (Me), Moda (Mo)
Medidas de Dispersão
Variância (S2), Desvio Padrão (S), Coeficiente de variação (CV), Intervalo de variação ou
amplitude (δ)
Medidas de Assimetria
Coeficiente de assimetria (g1)
Medidas de Achatamento
Coeficiente de achatamento (g2)
Medidas de Ordem
Quartis (Qi), Decis (Di), Centis (Ci) ou Percentis (Pi)
MEDIDAS DE TENDÊNCIA CENTRAL – LOCALIZAÇÃO
7
Para se possuir uma visão ainda mais sintética dos dados exige-se uma redução, sob vários
ângulos, que nos informe das características dos dados.
As Medidas de Tendência Central ou Localização DESCREVEM as características centrais dos
dados. São as seguintes:
Média Aritmética Simples;
Mediana;
Moda.
Média Aritmética Simples
A média aritmética é a medida de tendência central por excelência. No seu cálculo considera-se
não só o número de observações, como também a sua magnitude. Esta baseia-se pois na divisão entre o
somatório de todas as observações e a totalidade de sujeitos.
X = ∑ Xi / n
Se os dados se encontrarem agrupados: X = ∑ ƒ Xi / n ou X = ∑ ƒ Xi / ∑ ƒ
Se os dados se encontrarem agrupados em classes, tiramos também conclusões com o Ci
Numa fórmula rápida e expedita de calcular X é considerar os valores de Ci : X = ∑ Ci / K, parte-se do
princípio que Ci representa a distribuição dos valores de cada classe (isto nem sempre é verdade), para
além do facto de não substituir os diferentes valores de ƒ de cada classe.
Neste caso: X = ∑ ƒr Ci . O mesmo resultado é obtido se: X = ∑ ƒ Ci /n
Importa referir que nestes últimos dois casos se está a “PESAR” os centros de classe (Ci) pela respectiva
frequência. Deste modo o que aqui temos são médias pesadas ou ponderadas.
O que está expresso no caso específico da média aritmética simples é a forte SENSIBILIDADE da média à
presença de valores muito grandes ou muito pequenos numa dada série (a média é uma medida
POUCO ou nada ROBUSTA a valores extremos).
Moda
É o valor mais frequente numa dada série. Pode ocorrer que haja mais que uma moda (bi ou
plurimodal). Pode referir-se a valores ou a classes.
Podemos calcular a moda a partir do histograma, a partir da semelhança de triângulos, por
exemplo.
8
Mediana
É uma medida de localização do centro da distribuição dos dados. Divide a série a meio (preciso
ordenar a série). Enquanto medida de ordem, não considera a magnitude de cada observação.
Para calcular a Me utiliza-se a seguinte regra depois de ordenar a série:
Se n é ímpar, a Me é o elemento “médio”
Se n é par, a mediana é a semi-soma dos dois elementos “médios”
A mediana é uma medida ROBUSTA dado não ser sensível a valores extremos da série.
Medida útil quando os dados são fortemente enviesados à direita ou à esquerda.
Qual das medidas seleccionar: Média, Mediana ou Moda?
Cada uma destas medidas expressa aspectos diferentes da noção da tendência central da
distribuição de valores.
Se se tratar do melhor palpite relativamente a um dado valor, a escolha recairá sobre a
MODA (valor mais frequente) - Trata-se da EXACTIDÃO na escolha.
Se se tratar de cometer o MENOR ERRO ABSOLUTO em função de todos os valores da série, a
MEDIANA é a solução.
Se se tratar da consideração da MAGNITUDE DO ERRO e do SEU SINAL, então a MÉDIA é a
solução.
O cálculo da mediana, séries agrupadas em classes, faz-se pelo princípio da INTERPOLAÇÃO
LINEAR, através de um Polígono de Frequências acumulado.
9
Aula 3
Medidas de Dispersão
As medidas de tendência central, por si só, são insuficientes! Há que realçar a importância da
VARIABILIDADE. O mundo vivo é caracterizado por esta.
As medidas de tendência central fornecem informação acerca de determinados aspectos da
distribuição, isto é, a sua localização. Porém, são insuficientes para a sua descrição completa.
Apesar dos valores da média e da
mediana poderem ser os mesmos em cada
série, a distribuição individual dos valores
em cada uma é DIFERENTE, isto é, cada uma
possui diferente variabilidade.
1. Intervalo de variação ou Amplitude (A)
Medida de variabilidade que transparece a diferença entre os valores mais elevado e
baixo da série. É algo “grosseira” visto que apenas considera os seus valores extremos.
2. Variância (S2)
Medida de variabilidade que considera todos os valores da série bem como a sua
magnitude. As ideias centrais para o seu cálculo pressupõem o desvio da média (Xi – X ou Xi - µ),
a soma de quadrados *∑(Xi – X)2 ou ∑(Xi - µ)
2] e os graus de liberdade.
Podemos calcular a sua variância amostral a partir das expressões: S2
=
ou S
2
=
Média dos quadrados dos desvios em relação à média
E porque é que se divide a SQ por (n-1) e não por n, dado que se tem n desvios e não n-1?
Na realidade, só aparentemente se possuem n desvios independentes. Se se
calcularem (n-1) desvios, o restante fica automaticamente calculado, uma vez que a sua soma é
igual a zero. Costuma-se referir este facto ao se dizer que se perdeu 1 grau de liberdade.
S2
=
SQ = ∑x2
–
10
Se os dados estiverem agrupados em classes podemos aproximar a variância amostral
pela fórmula: S2 =
–
Dado que o cálculo da variância envolve a soma de quadrados, a unidade em que se
exprime não é a mesma dos dados. Para obter uma medida de variabilidade na mesma unidade
de medida da variável, toma-se a raiz quadrada da variância.
3. Desvio-padrão (S)
É a raiz quadrada média positiva da variância. Este é muito sensível à presença de
valores extremos, denominados outliers, sendo desta forma uma medida de dispersão POUCO
RESISTENTE. Ou seja, um valor grande para o desvio-padrão pode ser devido a uma grande
variabilidade nos dados ou então à existência de 1 ou mais outliers.
Podemos desvendar o intervalo onde determinados valores se encontram, num modo
geral, ao adicionarmos e subtrairmos o valor do desvio padrão à média.
4. Dispersão relativa
Estas medidas servem para comparar conjuntos de dados diferentes e variações em
diferentes segmentos de uma mesma escala. Para elas, utilizamos uma coeficiente de
dispersão ou variação (CV).
CV =
x 100 (%)
5. O desvio-padrão e a distribuição normal
Neste caso, o desvio-padrão pode ser entendido enquanto medida de distância.
Ex: Quem tem 72kg de peso, está 1 desvio-padrão acima de média.
6. Comparar médias de duas distribuições: a relevância da variabilidade
Apreciar a importância do desvio-padrão na comparação de 2 médias.
7. Magnitude do efeito (ME)
Serve para expressar a diferença entre duas médias em unidades do desvio-padrão.
ME =
=
Valores “padronizados” para interpretar a ME:
ME = 0,20 Efeito pequeno ou reduzido
ME = 0,50 Efeito moderado
ME = 0,80 Efeito substancial (grande)
Processo:
I. Calcular a diferença entre médias
11
II. Calcular a SQ para cada grupo
III. Calcular o desvio-padrão comum
IV. Calcular a ME
V. Interpretação
Ex: A média de lançamento da bola do 1ºgrupo situa-se 0,5 desvio-padrão abaixo da média do
2ºgrupo. Este efeito diferenciador das médias dos dois grupos é moderado.
Medidas de Ordem
As medidas de ordem são utilizadas quando se pretende classificar sujeitos, isto é, determinar a
sua posição relativa no conjunto a que pertence.
Úteis:
Provas de classificação
Selecção de candidatos
Construção de perfis
Descrever o desempenho
Divisões:
Tercis – Escala de valores que dividem a série em 3 partes iguais
Quartis – Escala de “notas” ou valores que dividem a série em 4 partes iguais
Quintis – Escala de “notas” que dividem a série em 5 partes iguais
Decis – Escala de 10 pontos que divide a série em consideração
(Per)centis – Dividem a série em 100 partes
Ai - Amplitude da classe (série)
Cálculo simples das divisões
Ta =
Qa =
Qi =
Da =
Ca =
12
Box-Plot (Diagrama de extremos e quartis | Diagrama de caixa-de-bigodes)
Representação gráfica que permite realçar as seguintes características dos dados: CENTRO,
VARIABILIDADE, SIMETRIA, OUTLIERS.
Aplicação directa dos QUARTIS (Percentis): P25/Q1 , P50/Q2/Me , P75/Q3
A1 – Valor adjacente inferior – menor valor da amostra – que é maior que: P25 – 1,5(P75 – P25)
A2 – Valor adjacente superior – maior valor da amostra – que é menor que: P75 + 1,5(P75 – P25)
Amplitude inter-quartil (Aiq) – Medida de variabilidade definida pela diferença entre o 1º e o
3ºquartil Aiq = Q3 – Q1
A Aiq é resistente à presença de valores extremos.
Eu devo juntar à média o valor da média dos valores dos afastamentos à média (desvio-padrão).
Para evitar que esta média fosse igual ou próxima de zero, elevaram-se esses valores ao quadrado para,
deste modo, só termos valores positivos (variância). Ao aproveitarmos este valor, temos de o
apresentar na mesma unidade dos resultados. Aí, aplicamos a raiz quadrada a esse valor para
chegarmos ao novo valor do desvio-padrão (Quanto maior for este valor, maior será a variação
relativamente ao conjunto de valores sobre o qual a maioria dos resultados recai, e vice-versa.)
13
Estatística Descritiva
Medidas de Tendência Central
Média Moda Mediana
Medidas de Dispersão
Variância Desvio-padrãoCoeficiente de
variaçãoAmplitude
Forma da Distribuição
Medidas de Ordem
Percentis
14
Aula 4
A DISTRIBUIÇÃO NORMAL
Não há uma distribuição normal. Há uma família delas!
Temos sempre dois parâmteros:
Medida de Tendência Central (Localização) – Média
Medida de Variação – Variância
A distribuição normal (curva de Gauss) é utilizada para DESCREVER e AVALIAR o
sentido, isto é, a magnitude de um resultado ou grupo de resultados, relativamente ao desvio-
padrão e para calcular probabilidades.
Como se distingue uma curva normal de uma outra que não o é?
I. Forma
II. Cálculo dos índices de Assimetria (G1) e Achatamento (G2)
G1 = 0 Simétrica
G1 =
G1 Assimétrica Positiva
G1 Assimétrica Negativa
G2 = 0 Simétrica/Mesocúrtica
G2 =
G2 Leptocúrtica – Pico enorme
G2 0 Platicúrtica – Caudas muitos pesadas
Características da Curva Normal:
Forma de sino
Unimodal
Simétrica
15
Assíntota – A curva nunca “toca” a abcissa. A distribuição normal é contínua para
todos os valores da variável (x) de -
É puramente teórica – Não existe no mundo real.
A área sob a curva normal é aquela porção do plano compreendida entre a curva e a
linha de base, que compreende em qualquer distribuição normal 100% dos dados
considerados.
Isto implica que uma proporção constante da área total se situará entre a média e
qualquer distância a partir dela, desde que se considere unidades do desvio-padrão.
Normal Reduzida
Devido à incomensurabilidade das medidas nos diferentes aspectos, ou seja, a termos
unidades de medida completamente distintas, surge a possibilidade de transformar X em Z
(nova variável) que possua uma única unidade de medida.
Ausência de significado de uma única observação numa série de dados. Mas se se
afirmar que se situa 2 desvios-padrão acima da média já possui um significado muito preciso.
X Z
O que se faz não é mais do que determinar a distância de Xi para a média e expressar
tal diferença em unidades do desvio-padrão.
Z=
NORMAL REDUZIDA
Z =
, Z POPULAÇÃO NORMAL
Média Desvio-padrão
Segue uma distribuição normal
Usualmente não as conhecemos – Parâmetros da variável a estudar, ainda
não “transformada”
16
Em avaliações, devemos:
I. Recurso aos perfis ou padrões normativos;
II. Recurso ao somatório.
Curva normal
O seu interior compreende, aproximadamente, 100% das observações realizadas
Tem a forma de sino
Média, Moda e Mediana situam-se no mesmo lugar, situando-se exactamente no centro da
curva, isto é, divide a mesma em duas partes iguais
Vai de - a +
Desvio-padrão como quantificador, unidade de medida
17
Z – Medida padrão ou transformada
18
Aula 5
Correlação Linear simples
Ideias essenciais
1. Descrever o grau de relação ou associação entre duas variáveis
2. Procurar expressar a ideia da relação entre variáveis cuja essência é, de certo modo, a
imprecisão.
No entanto, em média, alguns tendem a ser mais alguma coisa e outros tendem a
qualquer coisa.
É da variação e CO-VARIAÇÃO (isto é, Variação conjunta) em TERMOS MÉDIOS que se
ocupam a CORRELAÇÃO e a REGRESSÃO.
Correlação – Relação estatística que se estabelece entre variáveis.
A análise gráfica é ESSENCIAL para se proceder a uma “investigação” inicial da relação
entre variáveis. A representação de pares de pontos (Xi, Yi) num sistema de eixos cartesianos,
toma o nome de DIAGRAMA DE DISPERSÃO.
Neste, podem existir relações positiva (razão directa) [0,1] ou negativa (razão inversa) [-
1,0].
Coeficiente de correlação linear – Medida DESCRITIVA de associação entre duas variáveis.
Esta também pode ser designada como correlação MOMENTO-PRODUTO.
Conceito físico: Distância de um objecto (Xi) ao eixo de rotação ( ) - Dados centrados ou “padronizados”
A noção de covariância ou variação conjunta (a ideia central da correlação)
COV =
Soma de produtos cruzados
19
A covariância indica-nos se há uma associação entre as variáveis.
r =
Coeficiente de correlação de Pearson
Desvio-padrão Apresenta limites – 0 e 1 – ao contrário da variância.
Porém, uma forma “mais prática” reside no uso da fórmula seguinte:
r =
A interpretação do coeficiente de correlação é efectuada em duas etapas:
1. Conhecer o significado estatístico do rxy
a. Interpretação imediata e subjectiva antes do seu significado estatístico
i. 0.00 - Relação Indiferente
ii. 0.20 - 0.40 Relação fraca
iii. Relação ligeira a substancial
iv. Relação alta (forte)
b. No entanto, há que considerar:
i. Natureza das variáveis
ii. Variabilidade do grupo
iii. Finalidade do uso do rxy
2. Identificar a percentagem de variância comum de duas variáveis
Passos para a correlação:
1. Análise gráfica;
2. Cálculo de r;
3. Cálculo de r2 (coeficiente de determinação)
Pressupostos para o cálculo de rxy
1) Linearidade
a. Só se aplica a dados que evidenciem linearidade de comportamentos
2) Dados Intervalares
20
a. Devem estar, no mínimo, ao nível intervalar. Dados ordinais e nominais reclamam
outros coeficientes
3) Amostras aleatórias
a. Devem ter sido extraídos, de forma aleatória, de uma dada população, pois só assim
terá sentido o texto formal
4) Normalidade bi-variada
a. Espera-se que, na população, X e Y tenham distribuições normais.
Cuidados na interpretação de rxy
I. Uma correlação de r = 0.90 não representa uma correlação duas vezes mais forte que r = 0.45.
Deve-se interpretar os valores de r2.
II. O coeficiente de correlação não suporta qualquer argumento causal.
III. Podemos interpretar o valor de r a partir do coeficiente de determinação (r2).
Coeficiente de determinação (r2) – Proporção de variância comum partilhada pelas duas variáveis.
Quando temos variância comum, por exemplo, onde o coeficiente de determinação é
igual a 0.25, podemos dizer que 25% das ocorrências da variável Y podem ser explicadas
através da ocorrência da variável X.
Quando o valor de r encontrado é muito elevado, a associação entre as duas variáveis
(r2) é também muito elevada.
Quando há uma correlação ligeira e negativa entre os valores dos dois testes, a
proporção de variância comum é fraca.
Coeficiente de não-determinação (1-r2) – Quanto da variância das duas variáveis não é comum
Ex: r2
= 0.25 (25%) r = 0.50
1 – r2 = 1 – 0,25 = 0.75 ou 75%, isto é, 75% da variância não é partilhada pelas variáveis.
Busca de associações entre variáveis
21
Atentar nos efeitos de um “outlier” e da restrição na amplitude dos dados de duas variáveis.
Regressão Linear e Predição
Temos situações em que se é tentado a predizer o valor de uma variável a partir do
conhecimento da outra. Prever acontecimentos em relação a indivíduos é uma tarefa difícil, e
em alguns casos, impossível.
No entanto, conhecida a relação entre duas variáveis, pode ser possível predizer uma a partir
da outra dentro dos limites dos dados em que se baseia a correlação.
No contexto da regressão,
X – Variável independente (Variável preditora – Vai fazer prever uma outra)
Y – Variável dependente (Variável critério, valor predito ou estimado)
A melhor recta é aquela que minimize a diferença entre os pontos.
Declive da recta:
A regressão linear é a expressão da relação linear actual entre duas variáveis. A partir da
equação da recta (Y = a + mx), vem:
O declive da recta é conhecido pelo coeficiente de regressão amostral ( . O seu valor:
I. É independente da origem das variáveis e do número de pares de observações;
II. É expresso em unidades da variável dependente;
a = Ordenada na origem (valor de Y quando x=0)
b = Declive da recta, isto é, a razão da variação de Y pela variação de X
22
III. O seu valor numérico é baseado num único factor. A presença e influência de factores adicionais são
completamente ignoradas no problema da regressão linear simples – Dificuldade de precisão baseada
num único factor.
A recta que melhor se ajusta, para um determinado par de dados, é definida como a única
recta em torno da qual a soma dos quadrados dos dois triângulos dos valores observados à
recta é mínima. Estes erros de predição têm de ser minimizados:
Daí que: y = a + bx + ei Resíduos da Regressão
Os valores preditos ou estimados da recta de regressão são, num certo sentido,
estimativos da média dos valores de Y correspondentes a um dado valor de X.
Média condicional E (Y|Xi)
“Local” da média condicional (na recta) da variável dependente para um valor fixo da variável
independente.
Previsão
1) Relação entre variáveis
a. Positiva
b. Negativa
c. Não existente
2) Calcular o valor da relação (r) – Encontra-se entre -1 e 1
3) Coeficiente de Determinação (r2)
23
Aula 6
Regressão Linear simples e predição
Partindo de
A recta que melhor se ajusta é a recta de regressão. Nesta recta, os valores preditos de Y (
“cairão” nos valores de Xi (dentro dos seus limites).
A recta de regressão passa pela intersecção pelos pontos
A recta pode ser pobremente ajustada caso a relação entre as variáveis seja fraca ou se a
relação não for linear.
Assim, a partir desta soma de quadrados (igual ao mínimo) e da equação da recta de
regressão: , chegamos às fórmulas de
Caso sejam conhecidos os valores de rxy, sx e sy:
b = [
Se não forem conhecidos, então temos que:
a = ( –
O valor de b informa-nos sobre aquilo que é preciso esperar na variável dependente Y
quando o valor de X (variável independente) aumenta um valor.
a – Valor na ordenada quando X=0. Normalmente funciona como factor de correcção
b – Declive ou coeficiente de regressão linear
O coeficiente de correlação pode-nos dizer se a nossa previsão está bem ajustada ou se é
desastrosa.
Coeficiente de correlação elevado – A diferença entre os valores obtidos e da previsão
pela recta de regressão é mínima.
24
Coeficiente de correlação fraco – A diferença entre os valores obtidos e da previsão
pela recta de regressão é grande.
Quando Yi é predito a partir de Xi, a variância (Yi - representa-se por S2y.x
S2y.x =
--------- Sy.x = Sy
Erro padrão de estimativa
Sy.x – Se for 0, a previsão é perfeita. Quanto menor for a distância dos desvios, menor será este valor.
Expressa em valores da variável dependente.
S2
y.x S2
yx
O erro padrão de estimativa mede a extensão destes desvios da recta aos valores observados.
Ou seja, o que se encontra representado é o “quão perto” os pontos se aglomeram em torno
da recta.
Sempre que obtemos um resultado, , temos uma estimativa pontual. Esta trata-se de uma
correlação perfeita, se e só se Sy.x = 0
Quanto maior for a correlação, mais precisa será a previsão.
E(y) =
Passos para o cálculo da precisão
Cálculo do erro-padrão de estimativa
Cálculo da estimativa
Cálculo do intervalo de confiança
Regressão e Soma de Quadrados
Notação de co-variância
Para reflectir cerca de 68% dos resultados, 95% dos resultados
ou 98% dos resultados – Valores da normal reduzida, definidos
na tabela.
25
A interpretação de rxy é feita a partir da interpretação da VARIÂNCIA.
O r não é uma proporção (r = 0.60 não é igual a 2 x .30)
A diferença entre dois valores de r distintos não é igual para a mesma diferença entre outros
dois valores
Na estimação de Yi a partir de Xi, o valor de Yi pode ser entendido como composto por duas partes:
Valor previsto ( . Isto é, a distância do eixo de à recta.
VARIAÇÃO EXPLICADA:
Diferença entre o valor observado de Yi e o valor previsto (
VARIAÇÃO NÃO EXPLICADA:
Estas partes são independentes e aditivas:
+
Variação Total = Variação Explicada + Variação Residual
Pode determinar-se a proporção da variância total que é variância explicada.
= r2
= r Coeficiente de correlação
Correlação «=» Regressão
Com recurso à fórmula anterior, podemos aferir que, por exemplo, 75% da variância total de Y
é previsível – explicada – a partir de X. Sendo assim, os restantes 25% da variância total de Y
não é explicada – residual – a partir da variável X.
Variância total Soma de quadrados total
Variância explicada
Variância residual ou não explicada
26
Pressupostos do Modelo de Regressão
i. Homogeneidade de Variâncias
a. Todas as distribuições de Y possuem a mesma variação.
ii. Linearidade
a. Para cada distribuição, a média situa-se na recta de regressão populacional ou
verdadeira recta de regressão.
i. E (Yi) = µi = α + βXi
ii. Os valores de α e β são parâmetros populacionais estimados a partir da
informação amostral ( .
iii. Independência
iv. Normalidade das Distribuições
v. Intervalar ou de Razão (escala de medida das variáveis)
a. As variáveis utilizadas neste modelo têm que estar medidas numa escala intervalar ou
de razão.
27
Aula 7
Distribuições amostrais
Quando, ao calcularmos a média de uma dada AMOSTRA e repetirmos esse processo algumas vezes,
denotamos que o seu valor vai ser diferente na maioria dos casos. Isto deve-se a erros amostrais, isto é,
à própria variabilidade do desempenho dos sujeitos estudados, dado ser impossível que todos tivessem o
mesmo valor de variável estudada.
Erro amostral (ei) – Diferença entre o valor de um parâmetro (Θ) e o valor da sua estimativa (Ô).
Todo este processo é semelhante ao de distribuição normal, porém enquanto neste tratamos de médias
amostrais, que funcionam com sujeitos colectivos, na DN pensamos em termos individuais.
População – Colecção total de objectos ou pessoas a ser estudada. Os seus membros são designados
por unidades ou elementos. O seu número total é dado por N e cada elemento por Xi.
Dada a impossibilidade de estudar toda a população, pesquisa um sub-conjunto suficientemente
representativo em termos de qualidade e quantidade designado de AMOSTRA, partindo-se desta para
GENERALIZAR a população.
Estatística – Sumaria um aspecto das observações amostrais.