CLÁUDIA NUNES A ESTATÍSTICA NA PSICOLOGIA: UMA REVISÃO ...

Universidade de Aveiro

2020

CLÁUDIA NUNES

DANTAS

A ESTATÍSTICA NA PSICOLOGIA:

UMA REVISÃO EPISTEMOLÓGICA SOBRE A

IMPORTÂNCIA E OS DÉFICES NO ENSINO

2020

i

Universidade de Aveiro 2020

CLÁUDIA NUNES

DANTAS

A ESTATÍSTICA NA PSICOLOGIA:

UMA REVISÃO EPISTEMOLÓGICA SOBRE A

IMPORTÂNCIA E OS DÉFICES NO ENSINO

Tese apresentada à Universidade de Aveiro para cumprimento dos requisitos necessários à obtenção do grau de Mestre em Psicologia da Saúde e Reabilitação Neuropsicológica, realizada sob a orientação científica do Prof. Doutor Armando Machado, Professor Catedrático do Departamento de Educação e Psicologia da Universidade de Aveiro

ii

o júri

presidente Professor Doutor Marco Alexandre Barbosa de Vasconcelos

Professor auxiliar do Departamento de Educação e Psicologia da Universidade de Aveiro

Doutora Maria Inês Abreu Fortes

Investigadora de Pós-Doutoramento da Escola de Engenharia da Universidade do Minho

Professor Doutor Armando Machado

Professor catedrático do Departamento de Educação e Psicologia da Universidade de Aveiro

iii

agradecimentos

À mãe e ao pai, sem vocês não era possível.

Aos irmãos, em especial ao Riki, meu irmão de útero.

Ao meu Filipe.

À Jéssica, ao Nuno e à Carol, pela amizade, paciência e ajuda

fundamental, em especial a da minha madeirense.

À minha Titi e ao meu Tio, pela motivação e ajuda.

Ao professor Armando Machado, por ter acreditado em mim, e por toda

a aprendizagem que me facultou.

Aos meus professores de licenciatura e mestrado, particularmente a

professora Sandra Soares pelo voto de confiança no trabalho laboratorial,

e os professores Marco Vasconcelos e Armando Machado, por me terem

feito pensar, na verdadeira essência deste ato, e por contribuírem

inequivocamente para o desenvolvimento do meu pensamento

estocástico e raciocínio lógico e crítico.

Ao Skinner, ao Fisher, ao Carnap, ao Salmon, ao Bergson, ao Huxley, ao

Gosset, entre outros, cujos escritos, científicos ou românticos, me

levaram a um maior entendimento sobre o sentido da variabilidade do

mundo e do ser humano.

iv

palavras-chave

Estatística; Estatística na Psicologia; Ensino da Estatística; Competências

Matemáticas; Competências Estatísticas; Atitude em Relação à Estatística.

resumo

A Estatística tem marcada importância na Psicologia, pelo que na

maioria dos cursos de licenciatura e mestrado em Psicologia são

incluídas uma ou duas unidades curriculares sobre Probabilidades e

Estatística. No entanto, o ensino da Estatística em Psicologia tem-se

mostrado um desafio pedagógico. Os alunos manifestam frequentemente

graves dificuldades com vários temas da Estatística, fracas competências

matemáticas e uma tendência a desgostar do tema. Esta dissertação revê

a história e o papel da Estatística em Psicologia, e explora as

competências em Estatística de alunos licenciados em Psicologia,

avaliando-as e relacionando-as com as competências matemáticas e a

atitude em relação à Estatística (SATS-28).

v

keywords

Statistics; Statistics on Psychology; Teaching of Statistics; Math skills; Statistic

skills; Attitudes Toward Statistic.

abstract

Statistics plays an important role in Psychology, and with that being,

many psychology curriculums include one or several Probability and

Statistics courses. However, teaching statistics and research methods to

psychology students has been a pedagogic challenge. Students often

show difficulty and poor knowledge in several statistical fields, lack

mathematics skills and a tendency to dislike this discipline. This study

reviews the history and role of statistic in psychology, and explores

statistical skills on psychology graduate students, while assessing their

mathematics skills and attitudes towards statistics (SATS-28).

Índice

Introdução .................................................................................................................................. 2

Estatística: O sentido da variabilidade ................................................................................... 2

Duas faces: um mundo determinado vs. um mundo estocástico. ...................................... 2

O equilíbrio: uma variabilidade regular. ............................................................................ 3

O mediador: as probabilidades e estatística. ...................................................................... 4

O Ensino da Estatística em Psicologia: Uma Matéria Difícil ................................................ 5

Dificuldade real: métodos, assunto, pensamento estocástico. ........................................... 6

Baixa numeracia................................................................................................................. 7

Metodologia de ensino. ...................................................................................................... 7

Metodologia ............................................................................................................................... 9

Participantes ........................................................................................................................... 9

Materiais ................................................................................................................................ 9

Teste diagnóstico de Matemática. ...................................................................................... 9

Teste diagnóstico de Estatística. ........................................................................................ 9

SATS-28. ......................................................................................................................... 10

Questionário geral. ........................................................................................................... 10

Procedimento ....................................................................................................................... 11

Análise de dados .................................................................................................................. 11

Resultados ................................................................................................................................ 11

Teste Diagnóstico de Matemática ........................................................................................ 11

Teste de Estatística ............................................................................................................... 15

SATS-28. ............................................................................................................................. 18

Questionário geral ................................................................................................................ 19

Análises de correlação ......................................................................................................... 19

Discussão ................................................................................................................................. 20

Referências ............................................................................................................................... 25

Anexos ..................................................................................................................................... 31

Anexo A – Teste diagnóstico de matemática ....................................................................... 32

Anexo B – Teste diagnóstico de Estatística ......................................................................... 35

Anexo C – SATS-28 ............................................................................................................ 40

Anexo D – Questionário inicial ........................................................................................... 42

Anexo E – Boxplot e Q-Q plot das pontuações no teste de Matemática .............................. 43

1

Anexo F – Significância das diferenças entre componentes do teste de matemática .......... 44

Anexo G – Proporção de respostas corretas aos itens do teste de Matemática .................... 45

Anexo H – Respostas aos itens com maior percentagem de erro no teste de Matemática .. 46

Anexo I – Boxplot e Q-Q plot das pontuações no teste de Estatística .............................. -49

Anexo J – Proporção de respostas corretas aos itens do teste de Estatística ....................... 50

Anexo K – Respostas aos itens com maior percentagem de erro no teste de Estatística ..... 51

Anexo M –“arSim add-in: A tutorial” ................................................................................. 54

2

Introdução

A Estatística tem marcada relevância na ciência, incluindo na ciência da Psicologia. No

entanto, parece estar a ser instrumentalizada, utilizada por vezes irrefletidamente como um

meio para conquistar resultados. O ensino da Estatística reflete este descoro, manifestando-se

nos conhecimentos e competências deficitários dos alunos.

No intuito de reafirmar a importância da Estatística na Psicologia, interessa recordar de

onde vem, saber onde está e apontar para onde poderá ir. Deste modo, a presente dissertação

pretende rever a origem e a importância da Estatística na Psicologia, caracterizar as

competências em Estatística dos alunos, no sentido de perceber as variáveis que as influenciam,

e refletir sobre possíveis abordagens mais facilitadoras da aprendizagem.

Estatística: O sentido da variabilidade

De que forma um indivíduo difere do seu grupo, ou de que forma é que difere de outro

indivíduo? Será que o comportamento deste indivíduo é normal? Será que as semelhanças entre

estes indivíduos têm uma origem comum?

Estas (ou outras semelhantes) são questões frequentemente colocadas no âmbito das

ciências sociais e humanas, pautadas pelo interesse comum em estudar o que é variável. De um

modo geral, a ciência pretende estudar a variabilidade, descrevendo variáveis (eventos ou

características) e descobrindo as relações ordenadas entre as mesmas.

É incontestável a infinidade de diferenças entre seres, genéticas e fenotípicas, designada

variedade intra ou interespecífica. Esta, a variabilidade, é catalisador fundamental à evolução

das espécies, no sentido em que um ser vivo que sofra variações que são de algum modo

favoráveis tem maior probabilidade de sobreviver, ser naturalmente selecionado e propagar a

sua nova forma modificada (Darwin, 1876).

Duas faces: um mundo determinado vs. um mundo estocástico.

Admite-se na ciência que a variabilidade é uma característica inegável e essencial à vida.

No entanto, acredita-se também que existe regularidade dos fenómenos e uma causa

determinante para todo o evento ou característica. Este pressuposto diz respeito a uma corrente

de pensamento determinista, que dita, segundo Laplace (cit. in Cowles, 2001, p. 21):

Os eventos presentes estão ligados aos anteriores por um vínculo baseado no princípio

óbvio de que uma coisa não pode ocorrer sem uma causa que a produza. (…) Devemos,

portanto, considerar o estado presente do universo como o efeito de seu estado anterior e

como a causa daquele que seguirá.

3

O determinismo clássico, de Newton e Laplace, pressupõe uma estrutura causal e

determinada do mundo, e que a natureza funciona segundo leis, homogéneas e estáveis que

determinam o estado de um sistema. Esta perspetiva mecanicista conjetura que, conhecendo na

totalidade o estado do mundo num dado instante, a partir das leis da natureza também

conhecidas, é possível calcular qualquer evento passado ou futuro (Carnap, 1966). O cientista

determinista estuda processos que entende estarem regidos por leis da Natureza e tenta

expressá-los em equações matemáticas; ele acredita, por exemplo, que consegue determinar o

tempo que demora um objeto de massa conhecida deixado cair de uma dada altura a chegar ao

chão. Aqui fala-se principalmente da física clássica.

A física pós-moderna, em particular a mecânica quântica, veio oferecer argumentos sólidos

que contrariam esta perspetiva determinista. Heisenberg, em 1927, formulou o “princípio da

incerteza”, determinando a impossibilidade de medir simultaneamente duas variáveis num

sistema atómico, i. e., não é possível conhecer a posição e a velocidade de uma partícula

atómica simultaneamente. A determinação da posição rigorosa da partícula num dado momento

implica a indeterminação da sua velocidade nesse mesmo momento. Este limite não se deve

exclusivamente à imprecisão dos instrumentos e do agir humano, Heisenberg demonstrou a

insuperabilidade do limite mesmo em condições ideais (Meneses, 2005).

Desta forma, a ciência pós-moderna apresentou ideias e formalismos como

“indeterminismo”, “caos” e “relatividade”, que apesar de difícil apreensão mesmo para os mais

dedicados estudiosos, questionaram todo o método e propósito da ciência determinista clássica,

provocando mudanças profundas na epistemologia e filosofia da ciência. A natureza da ciência

foi reciclada: as ideias de descrição matemática dos fenómenos naturais e de que estes

obedecem a uma ordem rigorosa foram trocadas por relações de indeterminação,

imprevisibilidade e incerteza (Serra, 2005). No que diz respeito ao comportamento humano, o

indeterminismo e a incerteza podem dizer-se ainda mais assinalados: não é guiado por leis

universais, e tem fontes de imprevisibilidade impossíveis de eliminar (Carnap,1966; Cowels,

2001; Salmon, 1962).

O equilíbrio: uma variabilidade regular.

Ainda assim, mesmo na indeterminação, pode-se dizer que o mundo mantém uma estrutura

essencialmente regular (do que até ao dia de hoje se sabe, o sol nasce todos os dias a Este e

põe-se a Oeste; quando rodo a maçaneta a porta abre-se, um objeto lançado cai no chão, etc.).

Quer os fenómenos indeterministas estudados pela ciência pós-moderna, quer as ações

humanas estudadas nas ciências sociais acontecem com uma certa regularidade provável, i.e.,

4

não são ocorrências totalmente aleatórias e seguem tendencialmente padrões sistemáticos,

inferidos pelo conhecimento que até à data existe sobre a natureza, o ser humano e a pessoa

(Carnap, 1966).

Na ausência de uma regularidade de eventos e de uma noção de causa seria impossível

prever e consequentemente escolher, tomar decisões, responsabilizar, etc. (Carnap, 1966). Se

a ideia de regularidade e causalidade dos eventos fosse totalmente rejeitada, o estudo da

condição humana em qualquer dimensão seria irrelevante e absurdo. Como diz B. F. Skinner

no livro Ciência e Comportamento Humano “não podemos aplicar os métodos da ciência num

assunto que se presume ditado por capricho. [...] Se usarmos os métodos da ciência no âmbito

das ciências humanas, devemos pressupor que o comportamento é ordenado e determinado”

(Skinner, 1953, p. 6).

O mediador: as probabilidades e estatística.

Um tema emerge aqui como preponderante no exercício de conservar algum sentido à

variabilidade e à incerteza, independentemente de qualquer opinião filosófica que se tenha: as

Probabilidades e Estatística. No âmbito do estudo dos fenómenos indeterminados e em

situações onde é impossível ou inconveniente obter todos os resultados de observações

individuais são utilizadas as leis estatísticas. Estas descrevem uma distribuição probabilísticas

de valores possíveis para um dado acontecimento, ao invés das leis deterministas, que ditam

certos resultados mediante determinadas condições (Carnap, 1966).

No geral, a teoria das Probabilidades procura quantificar a incerteza, quantificar o grau de

possibilidade de um acontecimento ocorrer (Dias, 2015; Simon, 1997). Centra-se no estudo dos

fenómenos aleatórios, i. e., fenómenos caracterizados pela impossibilidade de prever os

resultados de acontecimentos individuais, mas que se comportam com uma certa regularidade,

quando visualizados um conjunto razoável de resultados.

A Estatística procura (após o estabelecimento de sistemas de classificação e medição que

permitam traduzir em números as várias grandezas do ambiente, ou seja quantificá-las) tratar

estes dados numéricos de forma a obter descrições precisas e a inferir relações entre os vários

eventos. Estes, a descrição e a inferência, são os dois processos que constituem os dois ramos

principais da Estatística: a Estatística Descritiva e a Estatística Inferencial.

A palavra Estatística deriva da expressão neolatina “statisticum collegium” e significa,

etimologicamente, “homem do estado” ou “estadista”. Foi o conceito atribuído ao processo de

inventariar as posses do estado, como armamento, militares, cidadãos e gado (Kendall, 1960;

Simon, 1997; Cowles, 2001; Simon & Bruce, 2017) e estima-se ter surgido em 1589, pelo

5

historiador italiano Girolamo Ghilini (Kendall, 1960). Esta prática aparenta ser uma abordagem

preliminar aos métodos de recolha, resumo e descrição de dados, atualmente realizados no

ramo da Estatística Descritiva (Cowles, 2001; Howitt & Cramer, 2011a, 2011b). O ramo da

Estatística Inferencial diz respeito ao raciocínio metodológico sobre os dados numéricos que

permite fazer inferências sobre os mesmos, e é em grande parte fundamentado na teoria das

probabilidades.

Destaca-se que o estudo da variabilidade e da relação entre eventos, como acima exposto,

comum a todas as ciências, obriga à utilização das teorias de Probabilidades e Estatística. No

que diz respeito à Psicologia, a ciência natural do comportamento dos organismos, estes temas

são igualmente fundamentais. Os métodos estatísticos acompanham todo o processo de

investigação, desde a operacionalização de uma tese à análise e discussão de resultados (e.g.

para processos de amostragem, descrição de variáveis, descrição de grupos/amostras,

comparação entre grupos de tratamento, estudo de correlação entre variáveis, teste de hipóteses,

etc.).

De facto, a Estatística na Psicologia é comumente associada ao domínio da investigação.

No entanto, todas as atividades sobre as quais um psicólogo desenvolve o seu ofício diário

estão fortemente dependentes do conhecimento científico desenvolvido e disseminado pela

investigação. Destarte, a prática e a investigação, não podem ser percebidas como atividades

independentes. A título de exemplo, um psicólogo clínico, no “simples” exercício de

diagnóstico de um cliente, (1) aplica instrumentos validados experimentalmente; (2) avalia

comportamentos do indivíduo comparando-os com normas (previamente definidas

estatisticamente nos manuais de diagnóstico clínico); (3) guia-se em modelos interventivos,

sustentados, à partida, por investigação prévia; (4) monitoriza o progresso da pessoa, tecendo

também considerações sobre prognóstico, entre outros.

Assim, revela-se fundamental que um profissional da Psicologia consiga interpretar a

evidência científica, com juízo crítico, perceber as questões de investigação e as metodologias

utilizadas e tomar decisões individuais e coletivas. Desta forma, a maior parte dos cursos de

Psicologia incluem disciplinas sobre introdução à Estatística e Probabilidades, requerendo que

o aluno demonstre conhecimento nestas áreas (Carpenter & Krik, 2017).

O Ensino da Estatística em Psicologia: Uma Matéria Difícil

Apesar da importância revelada da Estatística na Psicologia, identificam-se dificuldades e

interpretações erradas em conceitos estatísticos básicos nos alunos das ciências sociais e

humanas (Carpenter & Kirk, 2017; Vanhoof, Noortgate,& Onghena, 2007). De acordo com

6

Sotos et al. (2007), numa revisão de literatura, os alunos1 mostram uma grave falta de

conhecimento em conceitos de Estatística Inferencial e na interpretação de resultados, mesmo

que consigam utilizar os métodos estatísticos e manipular os dados. Sumarizam-se erros sobre

(1) distribuições amostrais; (2) testes de hipóteses (por exemplo, confundir as hipóteses de uma

tese, interpretar o p-value como a magnitude do efeito, interpretar o nível de significância como

a probabilidade de uma das hipóteses ou como a probabilidade de cometer um erro) e (3)

intervalos de confiança. Ainda, no que diz respeito ao conceito de significância

estatística, segundo Cassidy et al. (2018), em 30 manuais de ensino de introdução à psicologia,

89% apresentavam definições incorretas e falaciosas.

Surgem várias explicações na literatura para as dificuldades e o desconhecimento

existentes em relação à Estatística: (1) a complexidade inerente aos métodos estatísticos, aos

assuntos que trata a Estatística e ao desenvolvimento do pensamento estocástico; (2) a baixa

numeracia e skills matemáticas identificadas nos alunos; (3) a manutenção de uma atitude

negativa em relação à Estatística e (4) a metodologia adotada para o seu ensino, aqui incluindo

a abordagem teórica e prática de um professor em contexto de sala de aula, os materiais que

utiliza e o contexto geral do ensino.

Dificuldade real: métodos, assunto, pensamento estocástico.

O assunto que trata a Estatística é “extremamente difícil” (Simon, 1995). Trata do incerto:

tenta dar resposta a problemas, muitas vezes com base em amostras relativamente pequenas, e

em que se sabe à partida que é impossível a certeza e precisão absolutas. Estes problemas são

inerentemente difíceis: prever resultados de uma eleição; avaliar a eficácia de um tratamento;

estimar quantos estudantes passarão uma dada unidade curricular: estimar quantas tentativas

um ratinho num labirinto precisará para descobrir a saída; e averiguar se, caso consiga escapar,

foi resultado do acaso ou o rato é verdadeiramente capaz de aprender e memorizar. Estas são

questões difíceis de conceptualizar e operacionalizar, as respostas são difíceis (ou impossíveis)

de obter, e por isso requerem métodos intrinsecamente complexos que vários matemáticos

brilhantes despenderam anos a desenvolver (Chance & Rossman, 2006; Fitzmaurice, Leavy &

Hannigan, 2013; Ricketts & Berry, 1994; Simon, 1995; Simon & Bruce, 2017).

Naturalmente, o tipo de pensamento que caracteriza o estudo destes temas, o pensamento

estocástico, difere do pensamento algébrico (onde existe um resultado possível) e do raciocínio

lógico (caracterizado pela dicotomia verdade vs. falso). O estocástico introduz uma categoria

1Assume-se “alunos” aqueles que frequentam o ensino superior, exceto quando especificado.

7

diferente à abordagem lógica, a categoria do possível, com conceitos de aleatoriedade e de

indeterminação que obrigam o desenvolvimento de perspetivas e interpretações próprias (Dias,

2015).

Baixa numeracia.

Os alunos de ciências sociais e humanas mostram frequentemente níveis baixos de

numeracia e de competências matemáticas básicas, revelando dificuldades com conceitos e

operações matemáticas elementares (e. g. raízes quadradas, números negativos,

probabilidades) (Brown, Askew, Denvir & Millet, 1998; Cartright, 1996; Hutton, 1998;

Poenix, 1999 cit. in Mulerhn & Wylie, 2004). Os défices em Matemática constituem um

obstáculo à aprendizagem de Estatística (Carpenter & Kirk, 2017; Mulhern & Wylie, 2004),

sendo que, vários estudos apontam que as competências matemáticas são preditores da

aprendizagem em estatística (Dempster & McCorry, 2009; Johnson & Kuennen, 2006;

Mulhern & Wylie, 2004).

Atitude negativa.

A par da dificuldade inerente à Estatística e à Matemática, existe a perceção da dificuldade

sobre estes temas e a manutenção de uma atitude negativa geral instigada pelos alunos. A

Estatística é comumente percebida como uma matéria difícil, desagradável e a evitar

(Fitzmaurice, Leavy & Hannigan, 2013; Schau, 2004; Schau, Stevens, Dauphinee & Del

Vecchio, 1995; Simon, 1997; Schau, Miller & Petocz, 2012; Silva, Oliveira & Miguel, 2013).

Esta atitude negativa dos alunos, amplamente relatada na literatura internacional (Prayoga

& Abraham, 2017; Schau, 2003; Schau, Stevens, Dauphinee, & Del Vecchio, 1995; Schau,

Miller, & Petocz, 2012; Silva, Oliveira, & Miguel, 2013) é um construto multifatorial que

depende não só da dificuldade percebida, mas também da perceção de relevância, esforço e

autoeficácia, do interesse e afeto em relação à temática (Schau, 2003), da tolerância à

ambiguidade e de experiências prévias negativas com matemática (Prayoga & Abraham, 2017).

Fitzmaurice, Leavy e Hannigan (2013) sugerem ainda que a linguagem estatística, símbolos e

terminologia são obstáculos reconhecidos aos estudantes e que justificam parte da sua perceção

negativa.

Metodologia de ensino.

No ensino da Estatística, os professores frequentemente preferem promover a

compreensão procedimental dos métodos ao invés da sua compreensão conceptual

(Fitzmaurice, Leavy, & Hannigan, 2013). Os estudantes aprendem procedimentos para

8

descrições e análises de dados preliminares, recorrendo a softwares, com o objetivo de se

tornarem utilizadores eficientes de Estatística.

Em Portugal, o contexto educativo, desde o ensino básico e secundário ao ensino superior,

não parece dar a devida importância às Probabilidades e Estatística. Por exemplo, o ensino

destes temas inicia-se apenas no 9.º ano de escolaridade, e tem pouco tempo atribuído nos

programas de Matemática, contrariando os programas em vigor noutros países (e. g. Espanha,

Reino Unido, Canadá, Estados Unidos da América) e as recomendações do National Council

of Teachers of Mathematics (cit in. Dias, 2015). Vários autores, citados por Fernandes (1999)

defendem a antecipação do ensino de Probabilidades e Estatística para os primeiros anos do

ensino básico, com nível de adequação apropriado à idade, de forma a facilitar o

desenvolvimento do raciocínio estocástico (Batanero, 2004 cit in Dias, 2015; Fischbein &

Gazit, 1984 cit. in Dias, 2015; Jones et al., 1999; Tarr,1997; Tarr & Lannin, 2005; Watson,

1995; Watson,1999).

Na maioria dos planos curriculares em Psicologia, não é atribuído o tempo suficiente ao

ensino da Estatística (Machado, 2017). Frequentemente os programas de licenciatura incluem

uma ou duas disciplinas sobre o tema, onde o aluno deve aprender, dominar e aplicar inúmeros

conceitos: (1) a linguagem específica da Estatística; (2) noções básicas da teoria das

probabilidades, incluindo distribuições probabilísticas aleatórias e teóricas para variáveis

discretas e contínuas (como a Geométrica, Bernoulli, Binomial, Normal, Poisson, Qui-

Quadrado, t-student, Fisher, etc.); (3) estatística descritiva, como a classificação de variáveis

estatísticas e respetivas escalas de medidas, construção e interpretação de tabelas e

representações gráficas, entre outros; e (4) Estatística Inferencial para dados paramétricos e

não paramétricos, incluindo intervalos de confiança, testes de hipótese, análises de variância,

testes de correlação, etc. (Universidade de Aveiro, 2020a; Universidade de Coimbra, 2020a,

2020b; Universidade do Porto, 2020a, 2020b). A dose curricular para perceber, praticar e

consolidar todos estes conceitos “frágeis” é claramente insuficiente (Machado, 2017).

Numa matéria por si já difícil, conceptual, metodológica e terminologicamente, a falta do

estudo aprofundado sobre métodos estatísticos e de um contexto de aprendizagem adequado

leva a escolhas erradas sobre os métodos de análise adequados a cada caso (Rickets &Berry,

1994; Simon, 1995) e a interpretações erradas sobre os conceitos.

Ultimando, dada a elevada importância da Estatística na Psicologia e os défices no ensino

frequentemente apontados na literatura, pretende-se com o presente trabalho:

1) Avaliar as competências matemáticas e estatísticas e a atitude em relação à estatística

de uma amostra de conveniência de alunos licenciados em Psicologia; e

9

2) Caracterizar as competências estatísticas dos alunos, relacionando este construto com

as variáveis (1) competências matemáticas e (2) atitude em relação à estatística.

Metodologia

Participantes

No presente estudo, a amostra de conveniência consistiu em 18 alunos que frequentavam

o primeiro ano de mestrado em Psicologia da Saúde e Reabilitação Neuropsicológica da

Universidade de Aveiro, discentes da Unidade Curricular de Investigação Avançada, lecionada

pelo Professor Armando Machado.

Materiais

Teste diagnóstico de matemática.

Mulhern & Wylie (2004, 2005) desenvolveram um teste diagnóstico de raciocínio

matemático (cf. Anexo A), com 20 questões divididas 32 itens cotados com 0 ou 1. Os itens

cotados com zero correspondem aos incorretos, incompletos ou não respondidos. O teste inclui

seis componentes gerais de conceitos matemáticos relevantes para a estatística (Greer &

Semrau, 1984; Mulhern & Wylie, 2005): cálculo com decimais e frações (9 itens – questões 1,

2, 4, 8, 11 e 12); raciocínio algébrico (10 itens – questões 3, 6, 9, 13, 16 e 19); interpretação

gráfica (6 itens – questões 10, 18 e 20); proporcionalidade e rácio (3 itens – questões 7 e 17);

probabilidades e amostragem (2 itens – questões 5 e 15) e estimação (2 itens – questão 14).

A pontuação total varia entre 0 e 32, e pode ainda ser extraída a pontuação ponderada de

cada componente. Esta constitui uma medida robusta, não afetada pela contribuição

desproporcional dos componentes, visto serem constituídos por um diferente número de itens.

A consistência interna dos totais ponderados foi elevada (α = .83).

A versão deste teste, foi traduzida para português por Armando Machado e tem sido

utilizada em contexto académico para o diagnóstico de conhecimentos inicial dos alunos.

Teste diagnóstico de estatística.

O teste de avaliação diagnóstica de conhecimentos estatística (cf. Anexo B) consistiu em

29 questões, 42 itens, sobre nove temas da estatística descritiva e inferencial: medidas de

tendência central (média e mediana) (1, 3a); medidas de dispersão (desvio-padrão, variância e

intervalo interquartílico) (2, 3b, 4, 15, 29d); leitura e interpretação de gráficos de barra,

histogramas, boxplots, dotplots e de dispersão (3a, 3b, 5, 7, 8, 19, 20); tamanho da amostra (9,

11, 16, 14, 29g); intervalos de confiança (28, 29a, 29b, 29c, 29e, 29f); testes de hipóteses (6,

10, 16, 17, 24(a-d), 25(a-d), 26, 27); regressão linear e correlação (19, 20, 21, 22, 23);

probabilidades (12) e simulação (18).

10

O teste incluiu 21 questões de escolha múltipla (com 3 ou 4 opções de resposta); 3 questões

de verdadeiro e falso com um total de 15 itens e 4 questões de resposta aberta que envolviam

o cálculo de medidas de tendência central e de dispersão a partir de um conjunto de dados e ou

a partir de boxplot e a construção de um intervalo de confiança. Os itens foram desenvolvidos

por Machado e Dantas (2020), a partir de diversos livros de estatística (Aron, Coups & Aron,

2013; Diez, Barr & Çetinkaya-Rundel, 2014).

Os itens corretos foram contados com 1 ponto e os incorretos, incompletos ou não

respondidos com 0 pontos, sendo que a pontuação total varia entre 0 e 42. Alguns itens

pertencem a dois componentes (e. g. questões que envolvem leitura de boxplots para indicar a

mediana), pelo que são cotados para ambos os componentes: item 3a – medidas de tendência

central e leitura de gráficos; item 3b – medidas de dispersão e leitura de gráficos; itens 19 e 20

– regressão linear e correlação e leitura de gráficos.

SATS-28.

Schau, Stevens, Dauphinee, & Del Vecchio (1995) desenvolveram um instrumento que

avalia a atitude dos alunos em relação a estatística, o Survey of Attitudes Toward Statistics,

SATS-28, mais tarde revisto para o SATS-36.

A versão original, SATS-28 (com 28 itens) avalia quatro componentes da atitude em

relação à Estatística: afeto; competência cognitiva (perceção sobre conhecimento e capacidades

sobre estatística; valor (relevância, pertinência e utilização na vida pessoal e profissional) e

dificuldade. A versão mais extensa, SATS-36 (com 36 itens), inclui mais duas subescalas:

interesse e esforço (quantidade de trabalho despendido na aprendizagem). Existe ainda uma

versão alternativa de ambas as escalas SATS-28 e SATS-36 para efeitos de teste-reteste.

O instrumento SATS tem sido utilizado internacionalmente, (Vanhoff et al., 2011; Schau,

Millar & Petocz; 2012; Silva, Oliveira & Pacheco, 2013), tem apresentado propriedades

psicométricas adequadas (consistência interna, validade de construto, validade convergente)

(Schau et al. 1995; Vanhoff et al., 2011; Schau, Millar, & Petocz; 2012).

A versão portuguesa do SATS-28, utilizada nesta dissertação (cf. Anexo C) foi validada

por Silva, Oliveira, & Pacheco (2013) e revela consistência interna moderada a boa (α varia

entre .61 e .79 para as 4 subescalas) e adequação ao modelo original de 4 fatores, testado pela

análise fatorial confirmatória.

Questionário geral.

Incluiu-se um questionário curto com questões sobre a utilização de softwares para análise

estatística e um conjunto de 8 afirmações gerais sobre considerações em relação à Estatística

11

(cf. Anexo D). Os itens são respondidos numa escala de Likert de 5 pontos, na qual o aluno

indica o grau de concordância em relação à afirmação indicada.

Procedimento

Os participantes responderam aos testes diagnósticos de Matemática e de Estatística, à

escala SATS-28 e ao questionário geral. Esta avaliação foi efetuada numa sala do

Departamento de Educação e Psicologia da UA no decorrer da primeira aula de Investigação

Avançada, lecionada pelo Prof. Armando Machado. Os alunos mantiveram-se, dentro do que

o espaço físico permitia, distanciados uns dos outros, e foram informados que a utilização de

calculadoras ou outro suporte material não era permitida, e que deveriam responder

individualmente.

Análise de dados

A análise de dados neste estudo foi realizada com o software Excel, com os suplementos

arSim add-in (Machado, 2019) e o Real Statistics Resource Pack (Release 7.2) (Zaiontz, 2020).

As respostas aos testes de matemática e de estatística foram analisadas quantitativa e

qualitativamente, incluindo a descrição geral dos resultados, a apresentação da percentagem de

respostas corretas e incorretas para todos os itens e apresentação dos erros mais comuns nas

perguntas com menor acerto (3 ou menos respostas certas). Relativamente aos erros nos itens

de resposta aberta, apresento aqueles com frequência superior a 10%, sendo que todas os outros

foram incluídos na categoria “outra”. A normalidade das distribuições foi testada com o teste

de Shapiro-Wilk. Para averiguar diferenças entre as pontuações dos componentes dos testes de

matemática, estatística e SATS-28, conduzi análises de variância (ANOVA a um fator) e

posteriores comparações múltiplas com sucessivos testes-t (análises post hoc).Procedeu-se

ainda à análise da correlação entre pontuações do teste de matemática e estatística e entre o

teste de estatística e os quatro componentes do SATS-28, para averiguar se a performance em

estatística se relaciona com as skills matemáticas e com a atitude em relação à estatística. Para

todas as análises, o nível de significância utilizado para tomada de decisão foi .05, exceto

quando especificado.

Resultados

Teste Diagnóstico de Matemática

As pontuações no teste de matemática seguiram uma distribuição aproximadamente

normal (W = 0.971, p = 0.80). Os resultados variaram entre 12,5% e 78,1%, e a pontuação

média foi negativa: 46.3% (14.8 em 32), s =18.9%. Os boxplot e Q-Q plot da distribuição das

pontuações são apresentados no anexo E (gráfio E1 e E2, respetivamente).

12

O gráfico F1 (cf. Anexo F) mostra a proporção de respostas corretas para cada item e para

cada componente. O gráfico 1 (em baixo) mostra as proporções de respostas corretas para cada

um dos seis componentes. Também se podem ler as pontuações médias para a amostra dos 18

alunos – linha vermelha – e para amostra normativa (n=890; M=43%) do estudo de Mulhern

& Wylie (2005) – linha azul.

Gráfico 1. Proporção de respostas corretas por componente – teste de matemática

As proporções de resposta correta nos 6 componentes diferiram significativamente entre

si (F (5, 18) =13,299, p<0,001). Notam-se que as proporções de respostas corretas foram

particularmente baixas para o componente “Probabilidades”, seguindo-se “Estimação” e

“Raciocínio Algébrico”.

As análises post hoc (cf. Anexo G) indicaram que o componente “Probabilidades” obteve

valores significativamente diferentes dos outros, com exceção do componente “Estimação”

(note-se que o nível de significância foi corrigido segundo a correção de Bonferroni:

α*=0.0033). As pontuações do componente “Estimação” também foram significativamente

inferiores do que as das dos componentes “Cálculo”, “Interpretação de gráficos” e

“Proporcionalidade”, bem como as do componente “Raciocínio Algébrico” das do componente

“Interpretação Gráfica”.

Análise qualitativa por componente e erros mais comuns.

Relativamente ao teste de matemática, dos 32 itens que o constituía, 7 obtiveram 3 ou

menos respostas corretas nomeadamente, os itens: 3.1, 9.2, 9.3 (raciocínio algébrico); 4.1

13

(cálculo); 5, 15 (probabilidades) e 14.2 (estimação). A tabela 1 mostra estes itens e as respetivas

percentagens de acerto.

Seguidamente, encontra-se uma análise qualitativa dos componentes e dos itens com maior

erro percentagem de erros, incluindo os tipos de erro cometidos. Todas as respostas a estes

itens são apresentadas no anexo H (tabela H1 a H6).

Itens de cálculo.

Os itens deste domínio avaliaram a capacidade de realizar operações aritméticas que

envolviam números decimais, frações e raízes quadradas. Nos itens da questão 4 (cf. tabela

H1), apenas 17% dos alunos conseguiram calcular √0.09 (item 4.01), sendo que a grande

maioria não respondeu e outros evidenciaram dificuldade nas atribuições das casas decimais

(i.e., respondem 0.03 ou 0.003), ou trocaram a operação da raiz pelo quadrado. No item 4.2, os

alunos mostraram não saber as regras para multiplicar números com casas decimais. A resposta

0.06 (no cálculo de 0.02x0.12) que alguns alunos indicam sugere que estavam completamente

perdidos com as operações acabando por dividir 0.12 por 2. A maioria dos alunos (cerca de

66%) não conseguiu ordenar corretamente os números, no item 8, mostrando dificuldade em

converter os números decimais em fracionários ou vice-versa.

Itens de raciocínio algébrico.

No que concerne aos 10 itens de raciocínio algébrico estes avaliaram a capacidade dos

alunos em trabalhar com sistemas algébricos familiares (6.1, 6.2, 6.3, 9.1, 9.2, 9.3, 13, 16) e

não familiares (3.1, 3.2). Os alunos mostraram não perceber as propriedades comutativa e

distributiva das operações (cf. tabela H2): apenas 6% responderam corretamente ao item 3.1 e

28% ao item 3.2. Percebe-se também dificuldade em averiguar o efeito de multiplicar um termo

Tabela 1. Itens do teste de matemática com menos acertos

Componente Item % acertos

Cálculo 4.1 Calcula raiz.09 17

Raciocínio algébrico

3.1 Supõe que definimos a * b como querendo dizer a + 2b. É

verdade que: a * b = b * a 6

9.2 a e b são dois números. Se duplicarmos a e b, que efeito tem

isso em cada uma das seguintes expressões? a2+b2 0

9.3 * 1/(2a+b) 6

Probabilidades

5

Quarenta peixes foram capturados num lago. Cada um deles foi

depois marcado e lançado de volta ao lago. Alguns dias depois, 60

peixes foram capturados no mesmo lago e entre eles havia quatro peixes marcados. Estima o número total de peixes no lago.

11

15

Um jogo de squash pode ser jogado até 9 ou 15 pntos. Se

mantivermos constantes todas as outras regras do jogo, e se o jogador

A for melhor do que o jogador B, que sistema de pontuação dá ao

jogador A uma maior probabilidade de ganhar?

6

Estimação 14.2 Estima o resultado (não tentes calcular): 85.63 − 1.2384

101.46 − 97.88

0

14

algébrico de uma expressão por dois, sendo que nenhum aluno acertou no item 9.2 que envolve

quadrados, e apenas 6% acertou no item 9.3 (cf. tabela H3).

Ainda, no problema 16, que pede a solução de uma expressão algébrica (3b2-abc, quando

a=3, b=-2 e c=7), apenas 33% responderam corretamente. Os alunos que responderam “30”

revelam não saber que o quadrado de um número negativo é um número positivo, os que

responderam “-30” não souberam subtrair de um número negativo (corresponde a adicionar),

e as outras respostas revelam desconhecimento de outras convenções matemáticas como: 3b2

é diferente de (3b)2 e multiplicar dois números positivos por um negativo resulta num produto

negativo.

Itens de interpretação de gráficos.

Este foi o componente com maior percentagem de respostas corretas (M=68% de acertos).

A generalidade dos alunos mostrou conseguir extrair informação de gráficos e esquemas

analógicos. A maior dificuldade dos alunos nos itens deste componente dizia respeito à

atribuição de casas decimais nas escalas dos itens 18.1 ao 18.4, embora a maioria tenha

conseguido responder corretamente.

Itens de proporcionalidade e rácio.

Alguns alunos revelaram não perceber o conceito multiplicativo de proporcionalidade,

utilizando inadequadamente a estratégia de adicionar. No item 17.1 os alunos que responderam

“9” focaram-se no facto de que RT é 2 unidades maior que AC, e concluem que RS é também

duas unidades maior que AB. No item 17.2 50% dos alunos obtiveram a resposta correta “10”

e outros realizaram um cálculo de proporção, mas com o coeficiente de proporcionalidade

errado, aumentaram 15 em 0.5 e não em ⅓.

Itens de probabilidades.

Este foi o componente em que os alunos revelaram mais dificuldades, com apenas 8% de

acerto nos itens. No item 5 mostraram desconhecimento sobre o conceito de amostra, não

conseguindo estimar um parâmetro para a população (proporção) a partir de uma estatística

amostral (cf. tabela H4), e no item 15, sobre o efeito do tamanho da amostra na variabilidade

(cf. tabela H5).

Itens de estimação.

Nenhum aluno conseguiu obter um estimador razoável no item 14.2, apesar da amplitude

“generosa” (Mulhern & Whylie, 2005) para respostas consideradas corretas. Apesar dos

resultados serem melhores no item 14.1 (33% de acertos), a maioria dos alunos não conseguiu

estimar um valor para as duas subtrações e divisão (cf. tabela H6).

15

Em suma, os componentes do teste de matemática onde os alunos revelaram maior

dificuldade e desconhecimento foram Probabilidades e Estimação, e, em menor grau,

Raciocínio Algébrico. No geral muitos alunos não respondem aos itens, sendo que, em cada

item, verificou-se uma média de cerca de 17% de não respostas. No item 4.3 esta percentagem

atinge os 56% (item 4.3 – “Calcula: 40 ÷ 0.8”).

Teste de Estatística

A pontuação média no teste de estatística foi negativa: 40.7% (17.1 em 42), s=17.1, e os

resultados variaram entre 4.8% e 64.3%. A distribuição apresenta uma assimetria à esquerda,

evidenciando que há um maior número de alunos a pontuar abaixo da média. Apesar do teste

de Shapiro-Wilk apontar para uma distribuição normal dos dados, (W=.908, p=.084)

considerando α=.05, a análise dos boxplot e Q-Q plots apontam para a não normalidade dos

dados (cf. gráficos I1 e I2 no anexo I, respetivamente).

O gráfico J1 (cf. Anexo J) mostra a proporção de respostas corretas para cada um dos itens

e por componente. O gráfico 2 (em baixo) mostra as proporções de respostas corretas para cada

um dos 9 componentes e a pontuação média da amostra – linha vermelha.

Gráfico 2. Proporção de respostas corretas por componente

As proporções de resposta correta nos 9 componentes diferiram significativamente entre

si (F (8, 18) = 5.902, p<0.001). Notam-se que as proporções de respostas corretas foram

particularmente baixas para os componentes “Simulação” e “Probabilidades”, seguindo-se

“Intervalos de Confiança” e “Medidas de dispersão” e “Testes de Hipótese”.

As análises post hoc (cf. Anexo K) indicaram que o componente “Tamanho da amostra”

obteve valores significativamente diferentes do que os dos componentes “Medidas de

16

dispersão”, “Intervalos de confiança”, “Testes de hipótese”, “Simulação” e “Probabilidades”

(o nível de significância foi corrigido segundo a correção de Bonferroni: α*=0.0014). As

pontuações do componente “Medidas tendência central” também foram significativamente

diferentes (maiores) do que as do componente “Simulação”.

Análise qualitativa por componente e erros mais comuns.

No teste de estatística, 9 dos 42 itens apresentaram uma baixa percentagem de respostas

corretas: itens 2, 3b (medidas de dispersão); 6, 16, 25a, 26, 27 (testes de hipóteses); 28 e 29f

(intervalos de confiança). Consideraram-se itens com maior percentagem de erros, os com 4

ou 5 opções de respostas que obtiveram 2 ou menos respostas corretas e os de resposta aberta

ou V/F que obtiveram 3 ou menos respostas corretas. A tabela 2 mostra estes itens e as

respetivas percentagens de acerto.

Tabela 2. Itens do teste de estatística com menor percentagem de acerto

Componente Item % acertos

Medidas de

dispersão

2 Quatro scores num teste de memória foram 0, 2, 2, 4. Calcula a variância destes dados e mostra os

teus cálculos no espaço em baixo. 6

3b

A caixa de bigodes à direita representa uma distribuição de tempos de maratona.

Qual o intervalo interquartílico? 0

Testes de

hipótese

6

1. Qual seria a melhor maneira de descrever o contexto e o objetivo de um teste de hipótese?

2. a. Estás a analisar um estudo e precisas de mostrar se o acaso pode explicar os resultados 3. b. Estás a analisar um estudo e precisas de estabelecer a validade da hipótese nula

4. c. Estás a projetar um estudo e precisas de um sistema para alocar os sujeitos a diferentes grupos

5. d. Estás a analisar um estudo e precisas de estabelecer uma margem de erro

11

16

1. (…) Normalmente 15% dos pacientes atendidos por problemas respiratórios voltam ao médico no

espaço de 10 dias. O serviço deseja testar um novo procedimento no qual o médico pede que o

paciente regresse 2 dias após a visita inicial. Qual das alternativas a seguir seria uma parte apropriada da análise dos dados obtidos com este novo procedimento?

2. a. Teste de uma amostra para determinar se uma proporção difere de um valor padrão, de

referência.

3. b. Um intervalo de confiança em torno de uma média. 4. c. Um teste de duas amostras para diferença de médias.

5. d. Um teste de diferença de proporções para amostras emparelhadas.

6

25a Significância estatística quer dizer que a probabilidade do resultado se dever ao acaso é inferior a

5%.V/F? 17

26

6. Um estudo sobre um novo medicamento revelou que no grupo experimental 17 em 20 pacientes

ficaram curados, e no grupo controlo apenas 9 em 20 ficaram curados. Seleciona a alternativa

correta:

7. a. As amostras do estudo são emparelhadas. 8. b. A diferença de proporções entre as duas amostras é de 0.4. A um nível de significância de 0.05

devemos aceitar a hipótese nula: não há diferenças entre as amostras.

9. c. A amostra não tem dimensão suficiente para se poder decidir sobre a eficácia do medicamento.

d. Um valor p < 0.05 indica que a diferença observada entre as amostras é rara, e por isso podemos rejeitar a hipótese nula (se considerarmos a=0.05)

6

27

Escolhe a alternativa correta. Em geral, o valor p é: a. O valor de um teste estatístico. b. O valor de uma proporção. c. Um valor tabelado para os testes de hipóteses. d. Uma medida de dispersão.

11

Intervalos

de

Confiança

28 Em 2013, a DGS reportou que “45% dos adultos em Portugal vivem com uma ou mais doenças crónicas”, e que o erro padrão para esta estimativa era de 1.2%. Constrói um intervalo de confiança

(IC) a 95% para a proporção de adultos portugueses com uma ou mais doenças crónicas. (z=1.96) 0

29f Se quisermos diminuir o erro padrão do estimador, deveríamos utilizar instrumentos com maior

validade de construto. V/F? 0

17

De seguida encontra-se uma análise qualitativa dos componentes e dos itens com maior

erro percentagem de erros, incluindo os tipos de erro cometidos. Todas as respostas

apresentadas nestes itens estão no anexo L (tabelas L1 a L9)

Itens sobre medidas de tendência central.

Cerca de 64% dos alunos responderam corretamente aos itens deste componente,

mostrando saber calcular a média de uma amostra e identificar a mediana num boxplot.

Itens sobre medidas de dispersão.

Cerca de 6% dos alunos conseguiram calcular a variância de um conjunto de 4 scores),

sendo que os outros não responderam (61%), apresentaram a média (6%) ou a fórmula a

variância que utilizaram estava errada (11%) (cf. tabela L1).

Ainda, cerca 60% revelaram desconhecimento sobre este conceito (4), com ~28% dos

alunos a definir variância como a raiz quadrada do desvio padrão. Nenhum aluno respondeu

corretamente ao item 3b, que questionava sobre o intervalo interquartílico, a partir da leitura

num boxplot (cf. tabela L2).

Itens sobre Interpretação de gráficos.

Mais de 50% dos alunos responderam corretamente aos itens que envolvem leitura e

interpretação gráficos de dispersão, boxplots, dotpltos e gráficos de barras. Os itens deste item

com maior percentagem de erros são itens associados a outros temas da estatística, “Medidas

de Dispersão” (item 3a) ou “Correlação e Regressão Linear” (itens 19 e 20).

Itens sobre testes de hipóteses.

As respostas aos itens 6 e 16 (cf. tabelas L3 e L4) revelaram que alguns alunos não

compreendem o contexto e o objetivo de um teste de hipótese: 11% respondeu corretamente

que o teste de hipóteses testa se os resultados observados podem ser devidos ao acaso (item 6),

sendo que a grande maioria (67%) atribuiu que o objetivo do teste de hipótese é estabelecer a

validade da hipótese nula. No item 27 (6% de acertos), cerca de 40% dos alunos definiram o

p-value como um resultado de um teste estatístico e 22% como um valor tabelado (cf. tabela

L7). Ainda, a maioria revelou dificuldade a interpretar os conceitos de nível de significância e

a concluir uma decisão em função do p-value (17% de acertos nos itens 17 e 25 – cf. tabela Ç5

e 6% de acerto no item 26 – cf. tabela L6).

Itens sobre intervalos de confiança.

Nenhum aluno conseguiu calcular o intervalo de confiança (IC) a 95% para uma

proporção, quando facultado o erro padrão e o valor crítico (28 – cf. tabela L8). Muitos

revelaram também não saber o efeito do nível de confiança na amplitude do intervalo: apenas

18

22% respondeu corretamente ao item 29e, que avalia a diferença do tamanho do intervalo entre

um IC95% e um IC90%.

Também, nenhum aluno classificou com falsa a afirmação “Se quisermos diminuir o erro

padrão do estimador, deveríamos utilizar instrumentos com maior validade de construto” (29f),

o que revelou completo desconhecimento sobre este tema (cf. tabela L9).

Itens sobre correlação e regressão linear.

As questões sobre correlação entre duas variáveis que requerem leitura de gráficos

obtiveram 50% de acertos (19, 20). No entanto, alguns alunos mostraram não compreender o

objetivo de análise de regressão, acreditando que a reta de regressão permite prever resultados

nas extremidades da reta, i.e., valores exteriores ao intervalo dos dados.

Itens sobre tamanho da amostra.

Cerca de 65% dos alunos respondeu corretamente às questões deste componente,

mostrando saber o efeito do tamanho da amostra na precisão do estimador (9, 13, 29g), no

poder do teste (14) e na probabilidade de obter um efeito significativo (11).

Itens sobre simulação.

Verificaram-se 17% de acertos no item 18, que questionou sobre o procedimento de

simulação de resultados esperados segundo o acaso, para testar a aleatoriedade (ou não) dos

dados observados.

Itens sobre probabilidades.

As respostas ao item 12 revelaram que a maioria dos alunos (78%) não conseguiu avaliar

os acontecimentos A e B como independentes, determinar as probabilidades dos

acontecimentos complementares e calcular a probabilidade pedida, da interseção destes dois.

Em suma, os temas com os quais os alunos revelaram maior desconhecimento e mais

dificuldades foram “Probabilidades”, “Simulação”, “Testes de Hipótese” e “Intervalos de

Confiança”. Salienta-se a grande quantidade de não-respostas aos vários itens. Em média, em

cada item, 25% dos alunos não respondeu. Especificamente no item 28 (cálculo de IC 95%)

ninguém respondeu, e nos itens 2 (cálculo da variância) e 29c (V/F sobre interpretação de IC)

mais de metade não respondeu.

SATS-28.

As pontuações dos quatro componentes do SATS-28 seguem uma distribuição normal

(Afeto: W=.976, p=0.898; Competência cognitiva: W=.901, p=0.06; Valor: W= .968, p= .767;

Dificuldade: W=.978, p= .925)

19

Os alunos pontuaram mais elevado na dimensão “Valor” (M=5.46, s=0.9), evidenciando

que consideram a Estatística útil e relevante para a vida profissional. A baixa pontuação na

dimensão Dificuldade (M=2.9, s=0.68) revelou que os alunos consideraram a Estatística uma

matéria difícil. Relativamente às dimensões Competência Cognitiva (M = 4.75, s= 0.9) e Afeto

(M = 3.95, s = 1.37) os alunos revelaram uma atitude mais neutra, visto as pontuações estarem

mais concentradas no valor central da escala (4). Os valores comparativamente baixos do

desvio-padrão mostraram que os estudantes têm atitudes tendencialmente homogéneas acerca

da Estatística (coeficientes de variação entre 14.6% e 23.4%). Aqui exclui-se a dimensão Afeto,

que mostrou uma maior dispersão dos dados (coeficiente de variação de 34,6%, com

pontuações médias individuais a variar entre 1.67 e 6.83), indicando uma maior

heterogeneidade de opiniões dos alunos sobre os sentimentos em relação à estatística.

Questionário geral

Todos os 18 alunos conheciam o Microsoft Excel, mas apenas 10 indicaram utilização

prévia do mesmo (e. g. para trabalhos académicos, organizar informação em tabelas e gráficos),

sendo que 4 deles referiram saber fazer análise estatística com este software.

A grande maioria dos alunos (14) indicou saber realizar análises estatísticas com outro

software (SPSS=13; Minitab=1; R=1). Ainda assim, quatro alunos revelaram não conseguir

realizar análises estatísticas com qualquer software.

No geral, os alunos concordaram que a Estatística é importante na Psicologia, não só para

a vertente de investigação, mas também para o típico profissional de Psicologia.

As opiniões em relação ao ensino de Matemática e Estatística que tiveram na sua formação

académica prévia foram mistas: 6 indicaram estar descontentes (pontuaram 1 ou 2) e 10

indicaram estar contentes (pontuaram 4 ou 5). Muitos alunos consideraram ter conhecimentos

de estatística (10 pontuaram 4 ou 5 nesta questão) mas não de probabilidades (apenas 5

concordaram que entendem teoria de probabilidades). A grande maioria (15) concordou que a

Estatística é difícil.

Análises de correlação

Houve uma correlação positiva moderada significativa entre as pontuações nos testes de

Estatística e de Matemática (r=.52, p=.027). As pontuações no teste de Matemática parecem

explicar cerca de 27% da variabilidade dos resultados em estatística.

As pontuações nas quatro dimensões da atitude em relação à Estatística, avaliadas pela

escala SATS-28, não se relacionaram significativamente com os resultados no teste de

Estatística.

20

Discussão

O primeiro objetivo deste estudo foi a avaliação das competências matemáticas e

estatísticas e da atitude em relação à Estatística da amostra de alunos licenciados em Psicologia

Primeiramente, os resultados obtidos sugerem que os alunos apresentam dificuldades e

desconhecimento sobre vários temas da Estatística. Os temas Simulação e Probabilidades

surgiram como aqueles com menor percentagem de respostas corretas, no entanto, dado o facto

de que cada um é constituído por apenas um item e de escolha múltipla, a avaliação não foi

suficiente e adequada para perceber as dificuldades com estes dois temas. Em relação ao tema

de medidas de dispersão, com baixa percentagem de acertos médios, a maioria revelou não

saber calcular nem identificar a fórmula da variância de uma amostra, bem como indicar o

intervalo interquartílico de uma distribuição. Não obstante, este facto não indica que os alunos

não conheçam estes conceitos nem os consigam interpretar e aplicar corretamente, i. e. o aluno

pode não saber a fórmula nem conseguir calcular uma dada estatística, mas sabe o que

representa e consegue interpretá-la.

Assim, os temas estatísticos que os alunos revelaram sistematicamente mais dificuldades

e desconhecimento foram os Testes de Hipóteses e os Intervalos de Confiança. O teste de

hipótese traduz-se num método para auxiliar à tomada de decisão sobre se a evidência apoia

ou não uma hipótese estatística, testando a hipótese nula de que os dados observados são

devidos ao acaso. O “famoso” p-value, que acompanha os testes de hipótese, consiste na

proporção de estatísticas amostrais hipotéticas, numa distribuição de amostras aleatórias

(simuladas repetidamente sob o acaso), que obtiveram um resultado igual ou ainda mais

extremo que a estatística amostral observada. Quando esta proporção é muito pequena, i.e.,

rara, é provável que não seja a flutuação do acaso a justificar a evidência, mas sim a

“manipulação” experimental. Tradicionalmente, na Psicologia define-se o nível de

significância α = .05, pelo que se decide a favor da hipótese estatística quando o p-value, a

proporção de resultados iguais ou mais extremos que os observados, é menor que .05. O teste

de hipótese surge como uma ferramenta para análises estatísticas inferenciais muitíssimo

utilizada na Psicologia (Cassidy et al., 2019).

Em relação aos Intervalos de Confiança, os mesmos consistem no conjunto de valor

plausíveis de um determinado parâmetro populacional, estimado a partir da estatística amostral.

A utilização dos intervalos de confiança na comunicação científica é sugerida por vários

autores e “fortemente recomendada” pela APA (APA, 2001, p. 34).

21

Os resultados sobre os défices estatísticos acima descritos corroboram os encontrados na

literatura. Frequentemente os alunos revelam dificuldades com os testes de hipótese,

particularmente o objetivo do teste, a significância estatística e p-value. Também os intervalos

de confiança são comumente mal-entendidos, sendo por vezes interpretados como uma

probabilidade de que o parâmetro populacional esteja entre os valores reportados no intervalo.

Ambos os conceitos estão associados à ideia abstrata de repetir fenómenos aleatórios

sucessivamente, o que constituiu uma noção de difícil entendimento (Cassidy et al., 2019;

Sotos et al., 2007).

O segundo objetivo deste estudo foi estudar a relação entre as competências estatísticas e

variáveis (1) competências matemáticas e (2) atitude em relação à estatística. Os resultados

deste estudo indicam que os défices nas competências estatísticas parecem relacionar-se com

os défices nas competências Matemáticas (correlação moderada significativa). Embora esta

relação esteja prevista na literatura (Carpenter & Kirk, 2017; Dempster & McCorry, 2009;

Greer & Semrau, 1984; Mulhern & Wylie, 2004, 2005), estes estudos carecem de uma medida

objetiva da competência em estatística, que permita efetivamente afirmar que estas variáveis

se relacionam. Desta forma, os resultados obtidos vieram clarificar e confirmar esta hipótese.

Nas dificuldades matemáticas encontradas nos alunos, salientam-se as dos componentes

das Probabilidades e Estimação, e, em menor grau, as do componente Raciocínio Algébrico.

Este padrão de défice foi consistente com o descrito na literatura (Carpenter & Kirk, 2017;

Mulhern & Wylie, 2004, 2005), sendo que os erros cometidos pelos alunos foram coincidentes

com os relatados pelos autores. O Raciocínio Algébrico surge como importante na Estatística

em situações onde é necessário reconhecer o impacto de uma expressão algébrica, na

recodificação de variáveis (pés para metros; graus centigrados para Fahrenheit), bem como

para interpretar percentis e z-scores. Também, a capacidade de estimar, na Estatística, mostra-

se importante na medida em que a maioria das operações estatísticos são realizadas por

software. O aluno deve conseguir estimar um valor razoável para essas operações, e avaliar a

plausibilidade do resultado do software (Mulhern & Wylie, 2004). Os problemas com

Probabilidades e Amostragem podem ser considerados particularmente preocupantes dada a

natureza inerentemente probabilística da estatística. Uma possível explicação para este

resultado, apontada por Mulhern & Wyllie, 2005, poderá ser o facto de que a natureza dos itens

que avaliaram este tema forma baseados em exemplos fora da Psicologia (peixes e jogo de

squash). Também, sabe-se que o raciocínio intuitivo é caracterizado por heurísticas e vieses,

que deturpam a tomada de decisão sob incerteza, onde interage o raciocínio probabilístico. No

que diz respeito ao item 15 sobre jogo de squash, o erro cometido de considerar indiferente o

22

sistema de pontos, refere-se a um viés comum na intuição estatística, reportado por Tversky e

Kahenaman (1974; 1982). Este constituiu uma heurística de representatividade,

especificamente a insensibilidade ao tamanho da amostra (Tversky & Kahenaman, 1974;

1982).

No que diz respeito à atitude em relação à estatística as pontuações no teste de estatística

não se relacionaram com nenhum componente da SATS-28. Embora este seja um construto

bastante abordado na literatura e tido como relacionado com as competências estatísticas, os

resultados obtidos neste estudo não corroboram a presente dissertação. No entanto, os estudos

que reportam a importância da atitude em relação à Estatística, semelhantemente aos que

abordam a importância das competências matemáticas, não medem objetivamente a

competência em estatística das amostras, pelo que não podem efetivamente afirmar que estas

variáveis se relacionam (Prayoga & Abraham, 2017; Schau, 2003; Schau, Stevens, Dauphinee,

& Del Vecchio, 1995; Schau, Miller, & Petocz, 2012; Silva, Oliveira, & Miguel, 2013).

Também, a escala SATS-28 poderá não ser um instrumento adequada para avaliar a atitude em

relação à estatística, justificando assim a ausência de relação entre estas variáveis. Por outro

lado, o tamanho pequeno da amostra pode induzir a um erro de tipo 2, sendo necessário mais

investigação para averiguar a relação entre estas variáveis.

Confrontado os défices identificados nos alunos com o relatado na literatura sobre o ensino

da Estatística, urge a necessidade de concretizar conceitos tidos como abstratos e fomentar o

desenvolvimento do pensamento estocástico. O ensino da estatística deve potenciar a

aprendizagem ativa dos alunos, no qual os mesmos são responsáveis pela aquisição dos

conhecimentos. É necessário repensar e reformular as metodologias de ensino.

Uma abordagem ao ensino da Estatística, alternativa ao cálculo teórico e às definições

clássicas, preferidos a priori, consiste na metodologia de Simulação e Reamostragem –

Resampling. A simulação é o processo artificial de reprodução de um fenómeno aleatório, que

permite modelar o comportamento das variáveis aleatórias, i.e., criar um modelo da realidade

(entende-se modelo como “uma interpretação abstrata, simplificada e idealizada de um objeto

do mundo real” (Henry, 1997 cit. in Fernandes, Barnabeu, García, & Batanero, 2009). A

simulação pode ser obtida a partir de uma distribuição teórica conhecida (Normal, Poisson,

entre outras) ou a partir de uma amostra de dados reais (Resampling). Os métodos de

Resampling utilizam os valores observados de uma amostra, para criar (com ou sem reposição)

amostras empíricas.

23

A Simulação e o Resampling têm vindo a ser utilizados como instrumento experimental,

ao longo da história, no desenvolvimento das teorias e métodos em probabilidades e estatística

(Behrends & Buescu, 2014; Goldsman, Nance & Wilson, 2009; Harrison, 2010; Stiegler,

1991), ainda antes do desenvolvimento do cálculo combinatório. Por exemplo, em 1908, W. S.

Gosset (1876-1937), no estudo da distribuição-t, simulou 750 amostras de n=4, a partir de 3000

cartões identificados com medidas antropométricas de criminosos (amostragem com

reposição) (Harrison, 2010; Stiegler, 1991). Durante a segunda guerra mundial, Neumann &

Ulam utilizaram a simulação para estudar o comportamento de partículas atómicas, tendo

denominado o método de Monte Carlo (Harrison, 2010).

Estes métodos permitem inferir probabilidades, realizar testes de hipótese, estimar

parâmetros populacionais (e.g. sob a forma de intervalos de confiança), realizar análises de

variância, entre outros. Permitem soluções aproximadas para um grande espectro de problemas

estocásticos e servem múltiplos propósitos da análise estatística.

O surgimento de computadores e o avanço da tecnologia tornaram estes métodos mais

fáceis, acessíveis e rápidos (Christie, 2004; Chance & Rossman, 2006; Lane & Peres, 2006;

Leong, 2007; Johson, 2001; Rickets & Berry, 1994; Simon & Bruce, 1991; Simon, 1997; West,

2014).

Assim, a abordagem Resampling tem vindo a ser implementada no ensino Probabilidades

e Estatística, recorrendo a ferramentas tecnológicas, e tem vindo a revelar vantagens (Dias,

2015; Filho, 2010; Rickets & Berry, 1994; Simon, 1997; Simon & Bruce, 1991; West, 2014).

No geral, a metodologia de Simulação e Resampling permite materializar conceitos

abstratos, potencia uma aprendizagem ativa, pela explicação dinâmica dos conceitos e

princípios estatísticos, ultrapassa alguns constrangimentos do cálculo matemático e

combinatório e contribui para o desenvolvimento do pensamento estocástico e da motivação

dos alunos (Chance & Ross, 2006; Christie, 2004; Dias, 2015; Fernandes, Barnabeu, García &

Batanero, 2009; Filho, 2010; Lanes & Peres, 2006; Rickets & Berry, 1994; Simon, 1997; Simon

& Bruce, 1991; West, 2014).

A utilização de softwares como ferramenta de ensino, em particular numa geração

tecnológica, traz várias vantagens. Como sabido, a análise estatística na Psicologia é

habitualmente realizada com recurso a softwares, onde não é necessário conhecer a fórmula da

variância ou de outras medidas, e é possível, de forma proficiente obter o valor, interpretá-lo e

reportá-lo nas suas comunicações. Torna-se preocupante esta facilidade técnica, na utilização

de uma ferramenta ilusoriamente inteligente para conduzir análises; quando os processos se

mecanizam deixamos de pensar! Aqui, alunos e alguns investigadores, tornam-se utilizadores

24

de estatística, solicitando ao software resultados de testes desconhecidos, com terminologia

estranha, apresentados em inúmeras tabelas e gráficos. Isto leva a escolhas erradas sobre os

testes adequados a uma dada hipótese em estudo e a erros na interpretação dos resultados (veja-

se o utilizador a “tentar encontrar” resultados estatisticamente significativos nas dezenas de

tabelas que são apresentadas nos softwares). Os métodos de Simulação e Resampling requerem

o entendimento físico do problema e a operacionalização de um método fiável para estudá-lo,

parecem menos propensos a uma postura passiva de utilizador, mesmo que realizados num

software.

Contudo, apesar das potencialidades referidas, este método também acarreta

constrangimentos e limitações: obriga à compreensão física da estrutura do problema, de forma

intuitiva; é necessário que os alunos aprendam a utilizar um software desconhecido; não

fornece o verdadeiro valor teórico de uma probabilidade; requer tempo, do aluno na exploração

do software e no desenvolvimento do raciocínio estocástico, e do professor, na planificação

das estratégias didáticas; os alunos podem demonstrar resistência em utilizar a simulação e em

aceitar um valor aproximado; (Fernandes, Barnabeu, García, & Batanero, 2009; Dias, 2015;

West, 2014). Desta forma, propõe-se que os alunos realizem experiências com recurso a objetos

manipuláveis (como dados, cartas, ou criando urnas), para que seja facilitada a compreensão

do método de simulação, e que, no cálculo de probabilidades, os resultados aproximados

obtidos por simulação sejam comparados aos valores teóricos calculados formalmente.

Em investigações futuras seria importante estudar a aparente superioridade desta

metodologia em oposição à metodologia clássica, a fim de contribuir para a disseminação da

utilização deste método. Seria pertinente, por exemplo, a realização um estudo quasi

experimental com dois momentos de avaliação, utilizando a abordagem de Simulação e

Resampling no ensino de Probabilidade e Estatística a uma amostra de alunos de Psicologia, e

comparando as competências matemáticas e estatísticas destes pré e pós. Dado o relatado na

literatura sobre a diferença dos géneros nas capacidades matemáticas (homens obtém melhores

resultados), parece importante também a caracterização sociodemográfica da amostra, e que

esta seja representativa da população de alunos de Psicologia.

A emergência da pandemia COVID-19 e a adoção dos métodos de ensino à distância

trouxe grandes constrangimentos aos objetivos inicialmente propostos neste estudo e obrigou

a uma reformulação do procedimento. Pretendia-se, como sugerido para investigação futura, a

avaliação das potenciais vantagens dos métodos de Simulação e Reamostragem no ensino de

Probabilidades e Estatística, em alternativa à metodologia clássica, comparando as

25

competências matemáticas e estatísticas da amostra de alunos pré e pós o ensino desta

abordagem. Propunha-se a utilização do software arSim add-in (Machado, 2020) como

ferramenta para realizar os procedimentos de Simulação e Reamostragem nas análise estatística

e computação de probabilidades, bem como o respetivo manual tutorial desenvolvido no

decorrer do trabalho da presente dissertação (cf. anexo M). Pretendia-se também a avaliação

da usabilidade do arSim add-in, com a System Usabity Scale (SUS)2 (Brooke, 1996, 2013;

Bangor, Kortum & Miller, 2008; Lewis & Sauro, 2009). Dada a diminuição da utilização do

arSim add-in e do meu acompanhamento à aplicação do mesmo, pelos motivos indicados, o

momento de avaliação final não foi realizado, pelo que não foi possível essa análise

comparativa.

Conclui-se que este estudo contribuiu para o maior entendimento das dificuldades dos

alunos com a Estatística, sendo o primeiro a relacionar objetivamente estas dificuldades com

as competências matemáticas e a atitude em relação à Estatística. Note-se que os alunos do

presente estudo são alunos de quarto ano, já em Mestrado, licenciados e com formação prévia

em Estatística e em Matemática, e que os alunos habitualmente referidos na literatura são de

primeiro ano, em introdução à estatística (Carpenter & Kirk, 2017; Mulhern & Wylie, 2004,

2005). Assim, as fracas competências matemáticas encontradas nesta amostra de alunos

poderão ser mais graves e preocupantes.

Destaca-se que as competências matemáticas são importantes para o sucesso na

Estatística, e que os professores, no ensino, não podem assumir que os alunos têm os

conhecimentos de matemática básicos. Salienta-se a importância de continuar a investir no

ensino da estatística em Psicologia, repensando sobre as metodologias adotadas, atendendo ao

valor instrumental e conceptual das teorias de Probabilidades e Estatísticas na Psicologia.

Referências

APA (2001). Publication manual of the American Psychological Association (5th ed.).

Washington, DC: American Psychological Association.

Aron, A., Coups, E. J., & Aron, E. N. (2013). Statistics for Psychology, 6th Edition (6th ed.).

New Jersey: Pearson Educatios, Inc.

2 A SUS (Brooke, 1996) avalia a perceção do respondente sobre a usabilidade de um sistema de computador. É

constituído por 10 itens sobre eficácia, eficiência e satisfação com o sistema, e usa uma escala de resposta de

Likert de 5 pontos. A SUS está tem demonstrado boas propriedades psicométricas (Brooke, 1996, 2013; Bangor,

Kortum & Miller, 2008; Lewis & Sauro, 2009) e está adaptada para a população portuguesa (Martins et al.,

2015), embora não esteja validada.

26

Bangor, A., Kortum, P. T., Miller, J. T. (2008). An empirical evaluation of the system

usability scale. International Journal of Human-Computer Interaction. 24, 574-594.

Brooke, J. (2013). SUS: A retrospective. Journal of Usability Studies, 8(2), 29–40. Retrieved

from https://uxpajournal.org/sus-a-retrospective/

Brooke, J. (1996). SUS: A “quick and dirty” usability scale. in P. W. Jordan, B. Thomas, B.

A. Weerdmeester & I. L. McClelland (eds.) Usability Evaluation in Industry (pp. 189–

194). London, UK: Taylor & Francis.

Carnap, R. (1995). An Introduction to the Philosophy of Science. New York: Basic Books,

Inc.

Carpenter, T. P. & Kirk, R. E. (2017): Are psychology students getting worse at math?:

Trends in the math skills of psychology statistics students across 21 years, Educational

Studies. doi: 10.1080/03055698.2016.1277132

Cassidy, S. A., Dimova, R., Giguère, B., Spence, J. R., & Stanley, D. J. (2019). Failing

Grade: 89% of Introduction-to-Psychology Textbooks That Define or Explain Statistical

Significance Do So Incorrectly. Advances in Methods and Practices in Psychological

Science, 2(3), 233–239. doi: 10.1177/2515245919858072

Chance, B. & Rossman, A. (2006). Using simulation to teach and learn statistics. In A.

Rossman & B. Chance (Eds.), Technology in Statistics Education: 7th International

Conference on Teaching Statistics. Bahia, Brazil. Retrieved from

https://www.ime.usp.br/~abe/ICOTS7/Proceedings/index.html

Chritie, Derek (2004). Resampling with Excel. Teaching Statistics, 26 (1), 9-14.

Cowles, M. (2001) Statistics in Psychology: An Historical Perspective (2nd ed.). New Jersey:

Lawrence Erlbaum Associates, Inc.

Dauphinee, T.L., Schau, C., & Stevens, J.J. (1997). Survey of attitudes toward statistics:

Factor structure and factorial invariance for females and males. Structural Equation

Modeling, 4, 129–141.

Dias, A. (2015). O uso da simulação no cálculo de probabilidades (Master thesis, Instituto

Politécnico de Leiria). Retrieved from http://hdl.handle.net/10400.8/1625

Diez, D. M., Barr, C. D., & Çetinkaya-Rundel, M. (2014). Introductory Statistics with

Randomization and Simulation (1st ed.). CreateSpace Independent Publishing Platform.

Fernandes, J. A. (1999). Intuições e Aprendizagem de Probabilidades: Uma

Proposta de Ensino de Probabilidades no 9º Ano de Escolaridade (Doctoral dissertation,

Universidade do Minho, Braga.)

27

Fernandes, J. A., Barnabeu, C. B., García, J. M. C. & Batanero, C. D. (2009). A simulação

em probabilidades e estatística: potencialidades e limitações. Quadrante, 18 (1,2), 161-

183. Retrieved from https://quadrante.apm.pt/index.php/quadrante/article/view/15

Filho, A. S. S. (2010). Inferência em amostras pequenas: Métodos bootstrap. Revista de

Ciências Exatas e Tecnologia, 5 (5), 115-126.

Fitzmaurice, O., Leavy, A., & Hannigan, A. (2014). Why is statistics perceived as difficult

and can practice during training change perceptions? Insights from a prospective

mathematics teacher. Teaching Mathematics and Its Applications, 33(4), 230–248. doi:

10.1093/teamat/hru010

Gelman, A. & Nolan, D. (2002). Teaching Statistics: A Bag of Tricks. New York: Oxford

University Press Inc.

Goldsman, D., Nance, R. E. & Wilson, J. R. (2009) A brief history of simulation. In M.

Rosseti, R. R. Hill, A. Dunkin & R. G. Ingald (eds). Proceedings of the 2009 Winter

Simulation Conference (pp 310-313).

Greer, B. & Semrau, G. (1984). Investigating psychology students' conceptual problems in

mathematics in relation to learning statistics. Bulletin of the British Psychological

Society, 37, 123–125.

Guilford, J. P. (1950). Fundamental statistics in psychology and education (2nd ed.). New

York, NY, US: McGraw-Hill.

Hanley, J., Julien, M. &Moodie, E. (2008). Student's z, t, and s: What if Gosset had R?. The

American Statistician, 62 (1), 64-69. doi:10.1198/000313008X269602

Harrison R. L. (2010). Introduction to monte carlo simulation. AIP Conference Proceedings,

1204, 17-21. doi: 10.1063/1.3295638.

Hesterberg T. C. (2015). What teachers should know about the bootstrap: resampling in the

undergraduate statistics curriculum. The American statistician, 69 (4), 371–386.

https://doi.org/10.1080/00031305.2015.1089789

Howitt, D. & Cramer, D. (2011). Introduction to Research Methods in Psychology (3rd ed.).

England: Pearson Education Limited

Howitt, D. & Cramer, D. (2011). Introduction to Statistics in Psychology (5th ed.). England:

Pearson Education Limited

Johnson, Roger. (2001). An introduction to the bootstrap. Teaching Statistics, 23 (2), 49-54.

doi: 10.1111/1467-9639.00050.

Kahneman, D. & Tversky, A. (1974). Judgment under Uncertainty: Heuristics and Biases.

Science, 185 (4157.), 1124-1131.

28

Kahneman, D. & Tversky, A. (1982). On the study of statistical intuitions. Cognition, 11,

1123-141

Kendall, M. (1960). Studies in the History of Probability and Statistics. Where Shall the

History of Statistics Begin? Biometrika, 47 (3,4), 447-449. doi:10.2307/2333315

Lane, D & Peres, S. C. (2006). Interactive simulations in the teaching of statistics: Promise

and pitfalls. In A. Rossman & B. Chance (Eds.), Technology in Statistics Education: 7th

International Conference on Teaching Statistics. Bahia, Brazil.

Leong, T. (2007). Monte Carlo spreadsheet simulation using resampling. INFORMS:

Transactions on Education, 7(3), 188-200. doi:10.1287/ited.7.3.188

Lewis, J. R. & Sauro J. (2009) The factor structure of the system usability scale. In M.

Kurosu (ed). Paper presented at First International Conference on Human Centered

Design (pp. 94–103), Lecture Notes in Computer Science, vol 5619. Berlin: Springer.

doi: 10.1007/978-3-642-02806-9_12.

Machado, A. (2017) The pebble in the shoe. In J. Candia, F. González, O. Arévalo, F.

Sánchez & J. Morales (eds.), Aproximaciones al studio del comportamiento y sus

aplicaciones (pp. 51 – 57). Mexico: Universidad Autónoma de Tlaxcala.

Machado, A. & Dantas, C. (2020). Teste diagnóstico de competências estatísticas.

Manuscrito não publicado. Universidade de Aveiro, Aveiro.

Machado, A. (2020). arSim add-in for Excel.

Martins, A. I., Rosa, A. F., Queirós, A., Silva, A., & Rocha, N. P. (2015). European

Portuguese Validation of the System Usability Scale (SUS). Procedia Computer Science,

67, 293–300. doi: 10.1016/j.procs.2015.09.273

Meneses, R. D. B. (2005). Determinismo e indeterminismo: uma ponte da física à filosofia.

Reflexão, 30 (88), 53-65.

Moore, D. S., McCabe, G. P. & Craig, B. A. (2014). Introduction to the Practice of Statistics

(8th ed.). New York: W. H. Freeman and Company.

Mulhern, G., & Wylie, J. (2004). Changing levels of numeracy and other core mathematical

skills among psychology undergraduates between 1992 and 2002. British Journal of

Psychology, 95(3), 355–370. doi: 10.1348/0007126041528176

Mulhern, G., & Wylie, J. (2006). Mathematical Prerequisites for Learning Statistics in

Psychology: Assessing Core Skills of Numeracy and Mathematical Reasoning among

Undergraduates. Psychology Learning & Teaching, 5(2), 119–132. doi:

10.2304/plat.2005.5.2.119

29

Prayoga, T., & Abraham, J. (2017). A psychological model explaining why we love or hate

statistics. Kasetsart Journal of Social Sciences, 38(1), 1–8. doi:

10.1016/j.kjss.2016.08.013

Resampling Stats (2009). Resampling stats add-in for excel user’s guide version 4.0.

Virginia: Author.

Ricketts, C. & Berry, J. (1994). Teaching statistics through resampling. Teaching Statistics,

16(2), 41-44. doi:10.1111/j.1467-9639.1994.tb00685.x

Salmon, M. H., Earman, J., Glymour, C., Lennox, J. G., Machamer, P., McGuire, J. E.,

Norton, J. D., Salmon, W. C. & Schaffner, K. F. (1992). Introduction to the Philosophy

of Science. Hackett Publishing Company, Inc.

Schau, C & Millar, M. & Petocz, P. (2012). Research on attitudes towards statistics. Statistics

Education Research Journal, 11(2), 2-5. Retrieved from:

Schau, C., Stevens, J., Dauphinee, T. L., & Del Vecchio, A. (1995). The development and

validation of the Survey of Attitudes Toward Statistics. Educational and Psychological

Measurement, 55, 868-875.

Serra, I. (2005). O indeterminismo e o problema das duas culturas. Paper presented at

Workshop Sobre o Indeterminismo, Universidade de Lisboa.

Silva, J. M., Oliveira, A. L., & Pacheco, J. M. (2015). Adaptação e validação transcultural de

uma medida de atitudes acerca da estatística. Revista Iberoamericana De Diagnóstico y

Evaluación - e Avaliação Psicológica, 1(39), 102–112.

Simon, J. L. & Bruce, P. (1991). Resampling: A tool for everyday statistical work. Chance:

New Directions for Statistics and Computing, 4 (1), 22-32.

Sotos, A. E. C, Vanhoof, S., den Noortgate, W. V. & Onghena, P. (2007). Students’

misconceptions of statistical inference: A review of the empirical evidence from research

on statistics education. Educational Research Review, 2 (2), 98–113.

doi:10.1016/j.edurev.2007.04.001. Simon, J. L. (1997). Resampling: The New Statistics

(2nd ed.). Virginia: Resampling Stats.

Struik, D. J. (1997). História Concisa das Matemáticas. Tradução de João Cosme Santos

Guerreiro. 2ª edição. Lisboa: Gradiva.

Skinner, B. F. (1953). Science and Human Behavior. New York: Macmillan.

Stiegler, S. M. (1991) Stochastic simulation in the nineteenth century. Statistical Science, 6

(1), 89-97.

Universidade de Aveiro (2020). Probabilidades e Estatística. Retrieved from

https://www.ua.pt/pt/uc/2756

30

Universidade de Coimbra (2020a). Estatística I. Retrieved from

https://apps.uc.pt/courses/PT/unit/13681/13427/2018-

2019?common_core=true&type=ram&id=1174

Universidade de Coimbra (2020b). Estatística II. Retrieved from

https://apps.uc.pt/courses/PT/unit/13683/13427/2018-

2019?common_core=true&type=ram&id=1174

Universidade do Porto (2020a). Estatística Aplicada à Psicologia I. Retrieved from

https://sigarra.up.pt/fpceup/pt/ucurr_geral.ficha_uc_view?pv_ocorrencia_id=146533

Universidade do Porto (2020b). Estatística Aplicada à Psicologia II. Retrieved from

https://sigarra.up.pt/fpceup/pt/ucurr_geral.ficha_uc_view?pv_ocorrencia_id=461084

Vanhoof, S., Kuppens, S., Sotos, A. E. C., Verschaffel, L., & Onghena, P. (2011). Measuring

statistics attitudes: Structure of the Survey of Attitudes Toward Statistics (SATS-36).

Statistics Education Research Journal, 10, 35-51.

West, W. (2014). Teaching resampling in an introductory statistics course. . In A. Rossman &

B. Chance (Eds.), Sustainability in Statistics Education: 9th International Conference on

Teaching Statistics. Arizona, USA.

West, W. (2014). Teaching resampling in an introductory statistics course. In K. Makar, B. de

Sousa, & R. Gould (Eds.), 9th International Conference on Teaching Statistics:

Sustainability in Statistics Education. Arizona, USA. Retrieved from https://iase-

web.org/Conference_Proceedings.php?p=ICOTS_9_2014

31

Anexos

32

Anexo A – Teste diagnóstico de matemática

1. Escreve uma fração no espaço em baixo a fim de completar a afirmação

6.28 = 6 × 1 + 2 × 1

10 + 8 × 1/100

2. Se o depósito de gasolina de um carro leva 5.5 galões, quanto litros leva? Escolhe uma das seguintes

respostas. (Um litro é igual a 0.22 galões).

5.5 + 0.22 5.5 ÷ 0.22 5.5 - 0.22 0.22 ÷ 5.5 5.5 × 0.22

3. Supõe que definimos a * b como querendo dizer a + 2b. É verdade que:

3.1 a * b = b * a (Sempre, Nunca, Por vezes)

a+2b = b + 2a a=b

3.2 a * (b * c) = (a * b) * c (Sempre, Nunca, Por vezes)

Lado esquerdo: a + 2(b*c) = a + 2(b + 2c) = a + 2b + 4c

Lado direito: (a*b) + 2c = (a + 2b) + 2c = a + 2b + 2c

Lado esquerdo = lado direito => a + 2b + 4c = a + 2b + 2c 2c=c => c = 0

4. Calcula cada uma das seguintes expressões:

4.1 √0.09 = 0.3

4.2 0.02 × 0.12 = 0.0024

4.3 40 ÷ 0.8 = 50

5. Quarenta peixes foram capturados num lago. Cada um deles foi depois marcado e lançado de volta ao lago.

Alguns dias depois, 60 peixes foram capturados no mesmo lago e entre eles havia quatro peixes marcados.

Estima o número total de peixes no lago.

40/N = 4/60, N=600

6.1 Completa a seguinte expressão: 6 - (-3) = +9

6.2 Se -5 - 2x = 1, qual o valor de x? x = -3

7. Na figura ao lado podes ver a altura do Sr. Pequenote medida com clipes de papel.

O Sr. Pequenote tem uma amiga, a Sra. Grandote. Quando medimos a altura dos dois

com palitos de fósforo, o Sr. Pequenote mede 4 palitos e a Sra. Grandote mede 6

palitos. Quantos clipes de papel são necessários para cobrir a altura da senhora

Grandote?

4/6 = 6/x => x = 9

8. Põe os seguintes números por ordem, começando com o mais pequeno:

0.25 .0099 2/3 1/50 3/200

.0099, 3/200=0.15, 1/50=0.2, 0.25, 2/3 = 0.667

9. a e b são dois números. Se duplicarmos a e b, que efeito tem isso em cada uma das seguintes expressões?

9.1 𝑎+𝑏

𝑎−𝑏=

2𝑎+2𝑏

2𝑎−2𝑏=

𝑎+𝑏

𝑎−𝑏; o resultado não se altera.

9.2 𝑎2 + 𝑏2 = (2𝑎)2 + (2𝑏)2 = 4(𝑎2 + 𝑏2) ; o resultado quadruplica.

33

9.3 1

2𝑎+𝑏=

1

2(2𝑎)+2𝑏=

1

2(2𝑎+𝑏)=

1

2×

1

2𝑎+𝑏 ; o resultado é dividido por 2; reduz a metade.

10. A Joana plantou uma flor no seu jardim e mediu o seu

crescimento uma vez por semana. Aqui está o gráfico do

crescimento da flor. Em que semana é que a flor cresceu

mais depressa?

Na semana de 29 de Maio a 5 de Junho

11.1 Qual dos seguintes números está mais próximo de 7.416?

7.426 7.42 7.411 7.41 7.516

Diferença com 7.416 é de 0.010 0.004, 0.005, 0.006,0.100 – O mais próximo é 7.42.

11.2 Quais são os dois números seguintes desta sequência?

7.76 7.80 7.84 7.88 7.92 7.96 8.00

12. Estes dois blocos têm a mesma forma, mas diferentes tamanhos. As medições

do bloco A são todas 0.75 dos tamanhos do bloco B. Se o bloco B tem 14 cm de

altura, qual a altura do bloco A em cm?

14 + 0.75 14 × 0.75 14 ÷ 0.75 14 - 0.75

13. Se x + y = 16, quanto é 100 - x - y? 100-x-y = 100 –(x+y) = 100-16 = 84.

14. Estima o resultado (NÃO tentes calcular):

14.1 85.63−1.2384

101.46−97.88≈

86−1

101−98≈

85

3≈ 28 (aceitar respostas entre 15-35)

14.2 5.6832×0.623

0.07689≈

6×0.6

0.08≈

3.6

8/100≈

360

8≈ 45 (aceitar respostas entre 30-70)

15. Um jogo de squash pode ser jogado até 9 ou 15 pontos. Se mantivermos constantes todas as outras regras do

jogo, e se o jogador A for melhor do que o jogador B, que sistema de pontuação dá ao jogador A uma maior

probabilidade de ganhar?

Jogo de 9 pontos Jogo de 15 pontos Não faz nenhuma diferença

16. Se a = 3, b = -2 e c = 7, qual o valor de 3b2-abc? 3 × (−2)2 − 3(−2)(7) = 3 × 4 + 42 = 54

17. As duas letras ao lado têm a mesma forma, mas uma é maior

do que a outra. AC mede 4 unidades e RT mede 6 unidades.

Medidas da figura maior, Y, são 6/4=1.5 vezes maiores do que as

da figura menor, X, ou seja, Y=1.5X

17.1 AB mede 7 unidades. Quantas unidades mede RS?

X=7, Y=1.5*7 = 10.5

34

17.2 UV mede 15 unidades. Quantas unidades mede DE?

Y=15 = 1.5X, X=15/1.5 = 10

18. Lê as escalas que se seguem e escreve as tuas respostas em cada uma das caixinhas. Dá todas as respostas

com casas decimais.

18.1 → 8.05 18.2 → 2.03 18.3 →2.8 e 5.4

19. Qual das seguintes expressões NÃO é igual a nenhuma das outras três?

a - b + c

(a - b) + c

a - (b + c)

a + (c - b)

20. O gráfico à direita representa a velocidade de um carro de

corrida numa volta completa ao circuito de corrida. Qual dos três

desenhos em baixo tem mais chances de representar o mapa do

circuito?

Opção 2 (a do meio) é a correcta.

35

Anexo B – Teste diagnóstico de Estatística

1. Eis os resultados de um teste de introdução à estatística de um grupo de 10 alunos: 82, 83, 83, 88, 89, 84, 78, 57, 81,

81. Qual a mediana destes dados? 82.5

Por ordem, 57, 78, 81, 81, 82, 83, 83, 84, 88, 89 (média do 5º e 6º)

2. Quatro scores num teste de memória foram 0, 2, 2, 4. Calcula a variância destes dados e mostra os teus cálculos no

espaço em baixo.

Média = (0+2+2+4)/4 = 2;

Var =(1/3) * [(0-2)^2 + (2-2)^2 + (2-2)^2 + (4-2)^2)] =(1/3)*(4+4) = 8/3=2.67 Também aceitar a divisão por 4, dando 8/4=2

3. A caixa de bigodes à direita representa uma distribuição de tempos de maratona. Responde às seguintes perguntas (usa valores aproximados):

a. Qual a mediana destes tempos? 2.4 b. Qual o intervalo interquartílico?

Q3=2.45, Q1=2.2. Assim, IQR = 0.25 (ou valor próximo)

4. Escolhe a alternativa correta. A variância é

a. uma medida de tendência central b. o quadrado do desvio padrão

c. a raiz quadrada do desvio padrão d. a média dos desvios absolutos em relação à média

5. Na figura em baixo, associa cada um dos histogramas à sua caixa de bigodes: (a) vai com _2_; (b) vai com __3__; e (c) vai com _1___.

6. Qual seria a melhor maneira de descrever o contexto e o objetivo de um teste de hipótese? a. Estás a analisar um estudo e precisas de mostrar se o acaso pode explicar os resultados.

b. Estás a analisar um estudo e precisas de estabelecer a validade da hipótese nula

c. Estás a projetar um estudo e precisas de um sistema para alocar os sujeitos a diferentes grupos d. Estás a analisar um estudo e precisas de estabelecer uma margem de erro

7. Suponhamos que tens dados sobre o rendimento dos reformados da tua

comunidade. Uma amostra de 50 pensões de reforma assemelha-se ao

gráfico ao lado. Supõe que recolheste outra amostra de 50 pensões, calculaste a sua média e graficaste-a colocando um ponto num gráfico.

Supõe que fizeste isso repetidamente até obteres 1000 médias de 1000 amostras. Qual seria a forma aproximada da distribuição dessas 1000

médias?

a. da mesma forma que a distribuição das pensões individuais b. da forma de uma distribuição normal

c. da forma da distribuição qui-quadrado

d. a informação é insuficiente para prever a forma da distribuição

36

8. Estás a trabalhar numa área onde o custo de cada medição/observação é muito alto. Assim, tens que te contentar com apenas 10 observações. Um gráfico de pontos parece-se com a figura ao lado. Estás a planear usar a distribuição t para

construir um intervalo de confiança para a média, mas parece que tens um problema com a. Assimetria dos dados (“skewness”)

b. Confusão dos dados (“counfounding”)

c. “Outliers” nos dados d. Multicolinearidade dos dados

9. Após uma pesquisa na biblioteca, encontraste dois estudos sobre um assunto que te interessa - o número de

dias que um jogador típico de futebol perde durante a sua carreira devido a lesões. Um dos estudos tinha uma amostra de 30, e o outro tinha uma amostra de 150. Em que estudo esperarias ver um erro padrão da média menor?

a. No estudo com a amostra maior.

b. No estudo com a amostra menor. c. Não há informações suficientes para se ter uma opinião.

10. Queres testar a hipótese de que um parâmetro populacional é igual a zero. Pediste ao teu assistente para fazer a análise. Ele fez tudo bem, excepto que construiu um intervalo de confiança em vez de efectuar um teste de hipótese. O

intervalo de confiança variou de -23 a -15. Qual a tua conclusão? a. não rejeito a hipótese

b. rejeito a hipótese

c. A evidência é insuficiente para fazer o teste de hipótese

11. Queres fazer um estudo para medir um efeito relativamente pequeno. Aumentar o tamanho da amostra

a. aumenta o tamanho do efeito b. diminui o tamanho do efeito

c. aumenta a chance de detectar o efeito d. diminui a chance de detectar o efeito

12. Se a probabilidade da hipoteca A não ser paga a tempo for de 0.1, e a probabilidade da hipoteca B não ser paga a tempo for de 0.2, qual é a probabilidade de ambas serem pagas a tempo? Que pressuposto é necessário fazer para que

essa resposta seja rigorosamente correcta? a. .02, condicionalidade

b. 0.72, independência

c. 0.3, independência d. .02, independência

13. Recolheste dados de dois grupos, A e B, como se vê ao lado. Agora queres estimar a média da população para cada grupo.

Para qual deles a tua estimativa será mais precisa? a. A

b. B

c. igualmente precisa para A e B d. a informação é insuficiente para responder

14. Se num estudo aumentares o tamanho da amostra, o que é que acontece normalmente com o poder de um teste estatístico efectuado com os dados?

a. permanecerá o mesmo b. diminuirá

c. aumentará

d. a informação é insuficiente para responder

15. Qual é a diferença entre "desvio padrão" e "erro padrão"? a. A diferença está no denominador - para o desvio padrão divide-se por n-1, para erro padrão divide-se por n.

b. Ambos envolvem a medição dos resíduos, mas o desvio padrão usa valores absolutos enquanto o erro padrão

usa valores ao quadrado. c. Não há diferença - são termos distintos para designarem a mesma coisa.

d. O desvio padrão mede a variabilidade das observações individuais, o erro padrão mede a variabilidade de

uma estatística.

16. Um serviço de saúde cresceu e agora quer usar os dados dos pacientes para alterar os seus procedimentos e melhorar os seus resultados. Normalmente 15% dos pacientes atendidos por problemas respiratórios voltam ao médico no

espaço de 10 dias. O serviço deseja testar um novo procedimento no qual o médico pede que o paciente regresse 2

37

dias após a visita inicial. Qual das alternativas a seguir seria uma parte apropriada da análise dos dados obtidos com este novo procedimento?

a. Teste de uma amostra para determinar se uma proporção difere de um valor padrão, de referência. b. Um intervalo de confiança em torno de uma média.

c. Um teste de duas amostras para diferença de médias.

d. Um teste de diferença de proporções para amostras emparelhadas.

17. Uma companhia de seguros de saúde realiza um estudo em colaboração com vários hospitais para determinar se um

protocolo padrão de psicoterapia deve ser modificado. Para a análise dos dados, alfa é colocado previamente em 0.05 (5%). O que é que isto quer dizer?

a. Se for encontrada uma melhoria, o valor p deve ser superior a 0.05 para que o resultado seja considerado estatisticamente significativo.

b. A melhoria com o novo protocolo deve atingir 5% para ser considerada estatisticamente significativa.

c. Se for encontrada uma melhoria, a significância estatística requer menos de 5% de chances de obter resultados tão ou mais impressionantes do que esse no modelo nulo de "nenhuma melhoria".

d. O nível de erro (resíduos) deve ser inferior a 5% para que o resultado seja considerado estatisticamente

significativo.

18. Um grande vendedor da Web realiza regularmente testes mostrando aleatoriamente um de 5 níveis de preços quando uma pessoa faz compras. Um gerente de marketing está preocupado com os desequilíbrios nas visualizações da página

do site com cada nível de preços e efectua um estudo no qual N visualizações da página são examinadas e o nível de

preço mostrado em cada uma das N visualizações é registado. Qual das alternativas a seguir é uma etapa apropriada num procedimento de simulação para avaliar se a alocação de preços é realmente aleatória?

a. Calcular a distribuição esperada de visualizações para os 5 níveis de preços segundo o modelo nulo: divide

N por 5. b. Gerar aleatoriamente N números, de 1 a 5.

c. Contar a frequência de 1, 2, 3, 4 e 5 gerados aleatoriamente e subtrair N / 5 de cada frequência. d. Todas as alternativas anteriores

e. Nenhuma das alternativas anteriores

19. Considere os dois gráficos de dispersão à direita. O de cima relaciona

as vitórias no basebol com o salário, e o de baixo relaciona a produtividade no trabalho com as horas de treino. Estima o coeficiente

de correlação de cada um.

a. Basebol 2.4, treino 0.04 b. Basebol -0.5, treino -1.0

c. Basebol .66, treino .25

d. Basebol .66, treino .95

20. Considera o gráfico de dispersão apresentado ao lado e que relaciona o salário com as vitórias no basebol. Se uma regressão linear fosse

realizada e a recta de regressão fosse depois desenhada no gráfico, qual

seria o declive da recta, m, e a sua ordenada na origem, b? Adivinha. a. b = 210, m = 0.4

b. b = 0, m = 0.25 c. b = 180, m = 220

d. b = 180, m = 0

21. Considera os dados de salário no basebol apresentados em cima.

Imagina uma recta de regressão adicionada ao gráfico. Como é que interpretarias, em termos práticos e de importância

para a vida real, a extensão da recta de regressão nas duas direcções de forma a que ela cobrisse todo o gráfico? a. Quando x tende para 0, y vai tender para cerca de 210.

b. Um salário de 250 garantiria mais de 300 vitórias. c. Não o farias porque os dados perdem significado nas extremidades do gráfico.

38

d. A extensão da recta permite prever valores exteriores ao intervalo dos dados com a mesma confiança que permite prever valores interiores ao intervalo dos dados.

22. Considera a seguinte equação de um recta de regressão que relaciona a capacidade pulmonar (medida pela velocidade

máxima do fluxo de expiração), f, com os anos de exposição à poeira de algodão, d: f = -4.2×d + 424. Qual das

seguintes alternativas é verdadeira? a. Para um trabalhador com 10 anos de exposição e um valor de capacidade pulmonar de 400, o resíduo é 18.

b. O valor previsto de f para um trabalhador com 20 anos de exposição é 340.

c. O declive da recta de regressão é negativo. d. Todas as alternativas anteriores


23. Considere o seguinte output de um programa estatístico de regressão relacionando a capacidade pulmonar (medida

pela velocidade máxima do fluxo de expiração), f, com os anos de exposição à poeira de algodão, d: “f = -4.2×d + 424; valor p < 0.01”. Qual das seguintes alternativas é verdadeira?

a. A velocidade do fluxo aumenta à medida que a exposição aumenta, e esse resultado é estatisticamente

significativo. b. Existe uma relação negativa entre f e d e esta relação é estatisticamente significativa

c. Dado o valor do termo constante, 424, os resíduos serão relativamente pequenos. d. Todas as alternativas anteriores


24. O valor p de um teste de significância foi de 0.027. Verdadeiro ou falso?

a. Rejeitamos a hipótese nula a um nível de significância a=0.05. V

b. Rejeitamos a hipótese nula a um nível de significância a=0.01. F c. O nível de significância tem pouca influência na decisão de aceitar ou rejeitar a hipótese nula. F

d. Um valor p=0.027 significa que a diferença entre as amostras é de 2.7%. F

25. Verdadeiro ou falso?

a. Significância estatística quer dizer que a probabilidade do resultado se dever ao acaso é inferior a 5%. F b. Significância estatística quer dizer que a probabilidade de que um erro de tipo I tenha sido cometido é

inferior a 5%. F c. Significância estatística quer dizer que a probabilidade da hipótese nula ser verdadeira é inferior a 5%. F

d. Significância estatística quer dizer que a probabilidade da hipótese alternativa ser verdadeira é maior do que

95%. F

26. Um estudo sobre um novo medicamento revelou que no grupo experimental 17 em 20 pacientes ficaram curados, e no

grupo controlo apenas 9 em 20 ficaram curados. Das afirmações que se seguem, seleciona a alternativa correta: a. As amostras do estudo são emparelhadas.

b. A diferença de proporções entre as duas amostras é de 0.4. A um nível de significância de 0.05 devemos aceitar a hipótese nula: não há diferenças entre as amostras.

c. A amostra não tem dimensão suficiente para se poder decidir sobre a eficácia do medicamento.

d. Um valor p < 0.05 indica que a diferença observada entre as amostras é rara, e por isso podemos rejeitar a hipótese nula (se considerarmos a=0.05)

39

27. Escolhe a alternativa correcta. Em geral, o valor p é: a. O valor de um teste estatístico

b. O valor de uma proporção c. Um valor tabelado para os testes de hipóteses

d. Uma medida de dispersão

28. Em 2013, a DGS reportou que “45% dos adultos em Portugal vivem com uma ou mais doenças crónicas”, e

que o erro padrão para esta estimativa era de 1.2%. Constrói um intervalo de confiança (IC) a 95% para a proporção

de adultos portugueses com uma ou mais doenças crónicas. (Valor crítico z=1.96)

IC95% = 45% ± 1.96 × 1.2% ≈ 45% ± 2 × 1.2% = [42.6%, 47.4%] Valor exacto do IC95% = [42.648, 47.352]

29. Ainda sobre os dados da DGS referidos na pergunta anterior, diz se é verdadeiro (V) ou falso (F): a. A percentagem 45% é uma estatística amostral. V

b. Podemos dizer que o IC construído na pergunta 28) contém a verdadeira percentagem de portugueses com

doenças crónicas. F

c. Com base no IC construído na pergunta 28, a DGS reporta como estatisticamente significativa (a=0.05) que

a percentagem de portugueses com doenças crónicas é menor que 50%. V

d. Como o erro padrão é 1.2%, apenas 1.2% das pessoas que participaram no estudo comunicaram incerteza

sobre a sua resposta. F

e. Se construirmos um IC de 90% para a percentagem de adultos em Portugal que vivem com uma doença

crónica, esse intervalo será maior que o IC de 95%. F

f. Se quisermos diminuir o erro padrão do estimador, deveríamos utilizar instrumentos com maior validade de

construto. F

g. Se quisermos diminuir o erro padrão do estimador, deveríamos recolher menos dados. F

40

Anexo C – SATS-28

41

42

Questionário inicial

Em seguida, encontra um conjunto de afirmações sobre a utilização de sistemas de análise

estatística e o seu autopercepção sobre conhecimento em estatística. Por favor escolha, assinalando com X, a opção que melhor se adequa, utilizando as escalas indicadas.

SIM NÃO

Conheço o Microsoft Excel ( ) ( )

Utilizo ou utilizei o Microsoft Excel ( ) ( )

Se sim, para que propósito? ______________________

Consigo fazer análise estatística com o Microsoft Excel ( ) ( )

Consigo fazer análise estatística com outro software? ( ) ( )

Se sim, qual? _________________________

1 2 3 4 5

A estatística é importante na Psicologia.

Na psicologia, a estatística é pertinente apenas para a vertente de investigação.

Estou contente com o ensino de Matemática e Estatística que tive no meu curso. Considero a estatística difícil. Gosto de estatística.

Considero que tenho conhecimentos de estatística.

Entendo teoria de probabilidades.

A estatística não é útil para o psicólogo típico.

1 2 3 4 5

Discordo totalmente

Discordo em parte

Nem concordo nem discordo

Concordo em parte

Concordo totalmente

Anexo D – Questionário inicial

43

Gráfico E1. Boxplot da distribuição das

pontuações do teste de matemática

Gráfico E2. Q-Q plot da distribuição das pontuações do teste de

matemática

Anexo E – Boxplot e Q-Q plot das pontuações no teste de Matemática

44

Anexo F

Tabela F1. Significância das diferenças entre componentes do

teste de matemática (testes-t)

Grupo 1 Grupo 2 p-value

Cálculo Raciocínio algébrico 0,005345

Cálculo Interpretação de gráficos 0,185931

Cálculo Proporcionalidade 0,952295

Cálculo Probabilidades 1,16E-06*

Cálculo Estimação 1,52E-05*

Raciocínio algébrico Interpretação de gráficos 0,001492*

Raciocínio algébrico Proporcionalidade 0,057925

Raciocínio algébrico Probabilidades 0,000591*

Raciocínio algébrico Estimação 0,008595

Interpretação de gráficos Proporcionalidade 0,320461

Interpretação de gráficos Probabilidades 1,29E-06*

Interpretação de gráficos Estimação 1,16E-05*

Proporcionalidade Probabilidades 0,000137*

Proporcionalidade Estimação 0,000987*

Probabilidades Estimação 0,324399

45

Anexo G

Legenda: Cálculo Raciocínio algébrico Interpretação e leitura de gráficos

Proporcionalidade Probabilidades Estimação

A linha preta corresponde à média de acertos do componente.

Gráfico G1. Proporção de respostas corretas para cada item e por componente.

Item

Proporção de respostas corretas

46

Anexo H – Respostas aos itens com maior percentagem de erro no teste de matemática

Itens de cálculo

Tabela H1. item 4 Calcula cada uma das seguintes expressões:

√0.09 Respostas % Muhlern & Wiley 2005

não responde 44 26

0.3 17 17

0.03 6 43

0.003 11 -

0.045 11 -

0.081 6 -

0.0081 6 -

0.81 - 2

outro - 12

0.02x0.12

Respostas % Muhlern & Wiley, 2005

0.0024 28 28

Não responde 22 15

0.024 28 14

0.24 6 27

0.06 11 3

Outro 6 12

40/0.8


Não responde 56 19

50 28 43

0.5 11 10

0.32 6 -

320 - 3

0.1 - 2

outro - 24

Tabela H2. itens 3.1 e 3.2

Supõe que definimos a * b como querendo dizer a + 2b. É verdade que:

a * b = b * a Respostas % Muhlern & Wiley 2005

Sempre 72 46

Por vezes 6 18

Nunca 0 30

Não responde 22 6

a *(b * c) = (a * b) * c


Sempre 28 22

Por vezes 22 17

Nunca 22 48

Não responde 28 14

47

Itens de raciocínio algébrico

Tabela H3. itens 9.1, 9.2 e 9.3 a e b são dois números. Se duplicarmos a e b, que efeito tem isso em cada

uma das seguintes expressões?

(a+b)/(a-b) Respostas % Muhlern & Wiley 2005

Não se altera 28 35

diminui 6 -

não responde 33 26

demonstração matemática errada 33 -

dobra - 28

outro - 11

a2+b2


aumenta 11 14

dobra 11 34

quadruplica 0 9


demonstração matemática

incompleta 11 -

não responde 28 38

outro - 16

1/(2a+b)


diminui 17 13

reduz para metade 6 11

não responde 33 32


demonstração matemática

incompleta 28 -

dobra - 33

outro - 11

48

Itens de Probabilidades

Itens de Estimação

Tabela H4. item 5

Quarenta peixes foram capturados num lago. Cada um deles foi depois

marcado e lançado de volta ao lago. Alguns dias depois, 60 peixes foram

capturados no mesmo lago e entre eles havia quatro peixes marcados. Estima o

número total de peixes no lago.


Não responde 44 18

600 11 18

96 28 27

400 6 3

92 6 -

40 6 -

100 - 6

240 - 4

outro - 25

Tabela H5. item 15 Um jogo de squash pode ser jogado até 9 ou 15 pontos. Se mantivermos

constantes todas as outras regras do jogo, e se o jogador A for melhor do que o

jogador B, que sistema de pontuação dá ao jogador A uma maior

probabilidade de ganhar?


Não faz diferença 78 54

Jogo de 9 pontos 17 19

Jogo de 15 pontos 6 19

não responde - 8

Tabela H6. itens 14.1 e 14.2 Estima o resultado (Não tentes calcular):


fora do intervalo aceitável 22 51

dentro do intervalo aceitável (15-35) 33 32

não responde 17 17

outro 28 -


fora do intervalo aceitável 44 62

dentro do intervalo aceitável (15-35) 0 0

não responde 39 29

outro 17 -

49

Gráfico I1. Boxplot da distribuição das

pontuações do teste de Estatística

Gráfico I2. Q-Q plot da distribuição das pontuações do teste de Estatística

Anexo I – Boxplot e Q-Q plot das pontuações no teste de Estatística

50

Anexo J

Tabela J1. Significância das diferenças entre componentes

do teste de estatística (testes-t) Grupo1 Grupo 2 p-value

Tendência central Dispersão 0,004237

Tendência central Interpretação de gráficos 0,351966

Tendência central IC 0,00371

Tendência central Testes de hipóteses 0,005909

Tendência central Correlação e regressão 0,022394

Tendência central Tamanho da amostra 0,959743

Tendência central Simulação 0,000696*

Tendência central Probabilidades 0,00387

Dispersão Interpretação de gráficos 0,006167

Dispersão IC 0,826677

Dispersão Testes de hipóteses 0,773458

Dispersão Correlação e regressão 0,60969

Dispersão Tamanho da amostra 0,000342*

Dispersão Simulação 0,142065

51

Anexo K

Gráfico K1. Proporção de respostas corretas para cada item e por componente.

Legenda: Medidas de tendência central Medidas de dispersão Correlação e regressão linear

Leitura e interpretação de gráficos Intervalos de Confiança Testes de hipótese

Tamanho da amostra Simulação Probabilidades

A linha preta corresponde à média de acertos do componente.

Item

Proporção de respostas corretas

52

Anexo L – Respostas aos itens com maior percentagem de erro no teste de Estatística

Itens sobre Medidas de Dispersão

Itens sobre Testes de Hipótese

Tabela L1. item 2 Quatro scores num teste de memória foram 0, 2, 2, 4. Calcula a variância

destes dados e mostra os teus cálculos no espaço em baixo.

Respostas %

Não responde 61

Apresenta a média 6

Cacula a média; fórmula variância incorreta 11

Outro 17

8/3 6

Tabela L2. item 3b A caixa de bigodes à direita representa uma distribuição de

tempos de maratona. Qual o intervalo interquartílico?

Respostas %

Não responde 22

indica um intervalo 44

2,6 11

Outro 22

Tabela L4. item 16 Um serviço de saúde cresceu e agora quer usar os dados dos pacientes para alterar os seus

procedimentos e melhorar os seus resultados. Normalmente 15% dos pacientes atendidos

por problemas respiratórios voltam ao médico no espaço de 10 dias. O serviço deseja testar

um novo procedimento no qual o médico pede que o paciente regresse 2 dias após a visita

inicial. Qual das alternativas a seguir seria uma parte apropriada da análise dos dados

obtidos com este novo procedimento?

Respostas %

Teste de uma amostra para determinar se uma proporção difere de um valor

padrão, de referência. 6

Um intervalo de confiança em torno de uma média. 17

Um teste de duas amostras para diferença de médias. 22

Um teste de diferença de proporções para amostras emparelhadas. 33

não responde 22

Tabela L3. item 6

Qual seria a melhor maneira de descrever o contexto e o objetivo de um teste de hipótese?

Respostas %

Estás a analisar um estudo e precisas de mostrar se o acaso pode explicar os

resultados. 11

Estás a analisar um estudo e precisas de estabelecer a validade da hipótese nula 67

Estás a projetar um estudo e precisas de um sistema para alocar os sujeitos a

diferentes grupos 6

Estás a analisar um estudo e precisas de estabelecer uma margem de erro 0

não responde 17

53

Tabela L7. item 27 Escolhe a alternativa correcta. Em geral, o valor p é:

Respostas %

O valor de um teste estatístico 39

O valor de uma proporção 11

Um valor tabelado para os testes de hipóteses 22

Uma medida de dispersão 6

não responde 22

Itens sobre intervalos de confiança

Tabela L8. item 28

28. Em 2013, a DGS reportou que “45% dos adultos em Portugal vivem com uma

ou mais doenças crónicas”, e que o erro padrão para esta estimativa era de 1.2%.

Constrói um intervalo de confiança (IC) a 95% para a proporção de adultos

portugueses com uma ou mais doenças crónicas. (Valor crítico z=1.96)

Respostas %

não responde 100

Tabela L9. item 29f

Se quisermos diminuir o erro padrão do estimador, deveríamos

utilizar instrumentos com maior validade de construto. V/F?

Respostas %

V 0

F 56

não responde 44

Tabela L6. item 26 Um estudo sobre um novo medicamento revelou que no grupo experimental 17 em 20

pacientes ficaram curados, e no grupo controlo apenas 9 em 20 ficaram curados. Das

afirmaçoes que se seguem, seleciona a alternativa correta:

Respostas %

As amostras do estudo são emparelhadas. 17

A diferença de proporções entre as duas amostras é de 0.4. A um nível de

significância de 0.05 devemos aceitar a hipótese nula: não há diferenças

entre as amostras.

6

A amostra não tem dimensão suficiente para se poder decidir sobre a eficácia

do medicamento. 39

Um valor p < 0.05 indica que a diferença observada entre as amostras é rara,

e por isso podemos rejeitar a hipótese nula (se considerarmos a=0.05) 6

não responde 33

Tabela L5. item 25a Significância estatística quer dizer que a probabilidade do resultado se dever ao acaso é

inferior a 5%. V/F?

Respostas %

V 61

F 17

não responde 22

54

Anexo M – proposta para o manual “arSim add-in: A tutorial”

arSim Add-in for Excel:

A Tutorial

ARSIM ADD-IN

FOR EXCEL’S TUTORIAL BOOK

ARSIM ADD-IN

CLÁUDIA DANTAS

ARMANDO MACHADO

CLÁUDIA DANTAS

ARMANDO MACHADO SACA - UA

PREFACE

This is a tutorial book on how to use the arSim add-in for Excel. It was developed by Cláudia

Dantas, supervised by Armando Machado, the creator of the arSim add-in, as part of a master

thesis in Psychology at the University of Aveiro about the teaching of statistics through resampling.

[email protected]

[email protected]

University of Aveiro

Aveiro, Portugal

mailto:[email protected]

mailto:[email protected]

CONTENTS Introduction .......................................................................................................................... 1

1.1 The arSim Add-in ......................................................................................................... 1

1.2 Installation.................................................................................................................... 2

1.3 Topics on Using the arSim Add-in ............................................................................... 5

1.4 How to use this book ................................................................................................... 6

1.5 Learn by Doing ............................................................................................................ 8

1.5.1 Coin Toss Simulation ............................................................................................. 8

1.5.2 The Results Sheet ................................................................................................ 11

Estimating Probability ......................................................................................................... 13

2.1 The Letters and Envelopes Problem ......................................................................... 13

2.2 A Pair in a Hand of Five ............................................................................................ 18

Confidance Intervals ......................................................................................................... 23

3.1 Stress Levels in Parents of Children with ADHD........................................................ 23

Testing Hypothesis .............................................................................................................. 26

4.1 Gender Discrimination ................................................. Erro! Marcador não definido.

4.2 Yawning ..................................................................................................................... 30

Contingency Tables ........................................................................................................... 31

5.1 The Lady Tasting Tea ................................................................................................. 31

Analysis of Variance ........................................................................................................... 32

arSim Add-in Fucntions ......................................................... Erro! Marcador não definido.

CHAPTER 1 INTRODUCTION

1.1 THE ARSIM ADD-IN

The arSim add-in is a set of simple commands that you can add to Microsoft Windows

Excel@. It allows you to generate random numbers from many distributions, to simulate

probability problems, to resample data, and to conduct statistical analyses via

simulation. It consists of two ‘.xlam’ files, one to perform the simulation and collect trial

statistics (arSimAddIn), and another with special functions to enhance Excel’s native

(probability, statistical, and combinatorial) functions (arSpecFuncAddin).

1.2 INSTALLATION

The arSim add-in for Excel runs on Microsoft Excel and must be installed and activated

before it can be used. For that you need to include the add-in files in Excel’s list of add-

ins. Follow these instructions:

1. Open Excel.

2. Click File > Options > Add-Ins.

3. Click Go.

It opens the Add-ins manager dialog box, where you can view, install,

activate, and deactivate an add-in.

3. Click Browse…

By default, it opens the ‘AddIns’ folder (the predefined location for all

Microsoft add-ins) where you should keep the two .xlam files1.

Drag the files from their current location to the window opened, storing

them automatically on the AddIns folder.

4. Select the first file and click Open. Repeat for the second file.

5. Check the box at the left of the add-in to load and activate it.

6. Click OK.

The arSim add-in was property installed and you should see the arSim toolbar menu

added to Excel.

When you no longer need to use the arSim add-in, you can simply follow the first two

steps described above and then uncheck the box of each add-in. To remove it

permanently from the list, you need to delete the correspondent .xlam file, return to Excel’s

Add-in manager dialog and check the box, as if to load the add-in. Because the file no

longer exists, you’ll receive a popup message identifying the “error”, and then the add-in

Is simply removed from the list.

Note 1Keep the add-in in the “correct” location. Some files, particularly files with

macros, data connections, ActiveX controls (what we call active content), are not

trusted by Microsoft’s Trust Center. When the active content in a file is from a reliable

source, it’s better to move the file to a trusted location, instead of changing the

default Trust Center settings to a less-safe macro security setting. By default,

Microsoft’s Addins folder is treated as a trusted source, so the files stored on that

location will not be checked – can run free.

In some rare cases, the Microsoft’s Addins folder location may not be on the list of

the trusted locations. To add a trusted location:

1. Click File > Options

2. Click Trust Center > Trust Center Settings > Trusted Locations

3. Click Add new location.

4. Click Browse to find the folder

5. Select ‘This PC’ and using the search box type ‘AddIns’

If you search for the folder in other locations, like‘Desktop’,

‘Library’ or ‘Local Disk (C:)’ you won’t be able to find it.

6. Select the folder > Click OK.

1.3 TOPICS ON USING THE ARSIM ADD-IN

The use of the arSim add-in requires some knowledge of Excel, but not at an advanced

level. It is intended to be used by beginners in statistics, and you might also be new to the

resampling way! Keep the following three suggestions in mind.

1. Use one workbook per exercise. If you follow this simple rule, your work will be

more organized and the add-in will run more efficiently.

2. Try to keep your Excel worksheets simple and informative; avoid excessive

coloring and styling, as extra formatting can slow the add-in considerably.

3. Save your work frequently. These suggestions are like hygiene rules – they will not

ensure health but may prevent disease.

The arSim add-in contains two sets of functions that you can use in the conventional

way as you would use any other native Excel function. Function stating with the prefix

‘arSim’ belong to the set of functions defined in the arSimAddIn1file, and functions starting

with the prefix ‘ar’ belong to the set of special functions defined in the arSpecFuncAddIn1

file. All functions that start with ‘arSim’ (e.g. arSimAverage, arSimQuantile, etc.) report the

results of a simulation. The others, starting by ‘ar’, can be used to generate random

numbers, obtain the value of probability distributions, densities, to list combinations and

permutations, etc. More about these two sets of functions below.

Note Throughout this guide, we assume that your Excel set-up language is English –

arguments in functions are separated by a comma (not the semicolon used in some

other languages and countries).

1.4 HOW TO USE THIS BOOK

This is a tutorial book on how to use the arSim add-in for Excel to solve relatively simple

problems in probability and statistics using simulation and resampling methods. We

include several tutorial examples dealing with (1) estimating simple and complex

probabilities, (2) constructing confidence intervals, (3) testing hypotheses, (4) analyzing

contingency tables, (5) performing analyses of variance and (6) linear regressions.

All the examples follow the same or similar structure:

1. UNDERSTAND THE PROBLEM

2. CREATE THE EXCEL SHEET

3. SIMULATE ONE TRIAL

Sample with or without replacement to perform one trial

Define one or more statistics you wish to monitor (proportion, mean,

median, etc.)

4. BIG SIMULATION

4.1 TARGET THE CELL OF INTEREST

This is the cell with the statistic you chose to save

4.2 REPEAT

The trial you simulated is repeated many times, collecting or saving the

value of the statistics for each trial

5. ANALYZE THE RESULTS

6. DRAW YOUR CONCLUSIONS

Within the simulation world, it is as “simple” as that: Set up a random experiment,

simulate a certain event, collect samples and draw a conclusion based the results.

Although the approach might seem too simple, you will discover that with the add-in

you can study many statistical ideas and principles, in an intuitive way, without complex

formulas and without recipes like.

If it is that easy, why has it not be done before?

Resampling has been done since the beginning of statistics and probability, from

Pascal, to Fischer, to Pearson, etc. However, without computers to perform big simulations

it was very time consuming! Theoretical methods were developed and have been used

ever since. Resampling was only revisited when problems were so hard that theory

couldn’t solve them.

Since the appearance of computers resampling has been used among several fields,

like economy and finances, for several purposes (insurance, financing and loaning, within

the real estate, stock marketing, betting, etc.)

This book is not meant to teach statistics. Some basic concepts are generally

explained to allow problem understanding and comparison between the resampling and

the conventional approaches. Throughout the book you will find

a where problems are solved with theoretical methods.

At the end of each section, we include a list of the arSim functions used in each

problem.

Finally, you can get a brief explanation and an overview on the syntax of the arSim

functions, on a section at the end of this book.

Note Some contents (like this one) are shown as notes at the end of each section

(not the chapter) You should get into them! Likewise, the sequential superscript

numbers that you’ll find throughout the book, also refer to the endnotes at the end

of the topic.

1.5 LEARN BY DOING

1.5.1 COIN TOSS SIMULATION

Here is a simple example on simulating a coin toss for you to get familiar with the arSim

add-in and the resampling approach. With the add-in installed, open a new Excel

workbook.


A coin toss is a simple event with two equally probable outcomes: Heads or Tails. You

already know that the probability of each event is 0.5. Imagine you didn’t know that. How

can you estimate the probability of the coin showing up Heads? You would toss the coin

several times and see the resulting outcomes. In other words, after, say, 100 trials, you

would count the number of Heads and then use the proportion of Heads to estimate the

probability of the event Heads. The more trials you’d perform, the more information you’d

have about the coin, and the more accurate your probability estimate would be.


Computers love zeros and ones. And zeros and one are also great to code the events

in which we are interested when we perform probability experiments. We simply let 1 stand

for the event that interests us – in this case Heads – and 0 for any other outcome – in this

case there is only one, Tails.

Write on cells A1 and A2 the two possible outcomes, 1 for Heads and 0 for Tails. Because

Excel is also number friendly, opt to use numbers instead of letters whenever you can. You

could choose any other pair of numbers, such as 1 and 2, but you’ll see that 0 and 1 have

many advantages. The image bellow shows the basic setup.

3. SIMULATE ONE TRIAL

To perform one trial, we should sample with replacement from cells A1:A2, as if we had

two identical balls in a box (or “urn”, as math lovers call it), one black and one white, with

the black ball standing for the event of interest (Heads in coin tossing). We draw one ball

at a time, with replacement. The arResample function does just that: write on cell C1

‘=arResample(’, select range A1:A2 and press enter.1 It will either return 1 or 0.

4. BIG SIMULATION

There is now one trial done, but this is not enough to estimate a probability. Let’s repeat

the simulation several times and check the result of each resample trial.

This large repetition of a trial is what we call BIG simulation. It requires (1) performing

one trial and (2) select (and compute) the statistic of interest (e.g. average, proportion,

median, etc).

We need to inform Excel about what statistic we selected; this will be the value Excel

saves at the end of each simulation trial and that we’ll use to draw a conclusion. To do

so, we need to target the cell whose contents must be saved. We target a cell by using

an arSim function that directly references it2.

In this case, what we are interested in is simply the result of the coin toss, so cell C1 is

the one we should target.


We will use the arSimAverage function to target cell C1. This function returns the

average of the sampled values (the average result of all the coin toss trials). As there are

only two possible events: “1” and “0”, this average will correspond to the proportion of

“1’s” (summing all the results is the same as summing the “1’s”).

On cell C5, type ‘=arSimAverage(‘, select cell C1 and press enter, as you can see

below. Excel will return #N/A, because it has not yet performed the simulation.

4.2 REPEAT

We instruct Excel to run the simulation by pressing Ctrl+L or by accessing the ArSim menu

(in Excel’s Ribbon) and selecting Go. Either way, a window pops-up in the top right part

of the active window – the ArSim Parameters window (figure below).

There you can choose several simulation parameters. We chose to perform 100 trials

and save the simulation results. Click OK to run the simulation. While it is running, a red bar

in the window informs you about the progress already made, and when it is completed

the target cell is colored, the computed value given, and a new worksheet with the

simulation results created (will be explained later).

5. ANALYZE THE RESULTS AND DRAW A CONCLUSION

In our simulation, we obtained an average value of 0.501. Yours might be different but

will be around 0.50. As said earlier, because we used “0’s” and “1’s” to sample, the

average computed corresponds to the proportion of “1’s”. There were approximately 50-

50 percent of heads and tails in the 100 trials performed. As the number of simulations

performed increases, the closer the computed values will be between simulations, and

the more accurate the estimation will be.

Notes 1 The arResample function: it is an array formula, so it can also provide results

in an array, i. e. several trial results. For that, select the array that will hold the results,

like C1:C11 (for 10 trials) write ‘arResample(’, select range A1:A2, and press

Ctrl+Shift+Enter. Cells from C1 to C11 will be filled with resampled values. 2 Targeting cells: Although any function starting by ‘arSim’ will target a cell, we

recommend the arSimAverage function (there is hardly a simulation involving a

random variable in which we are not interested in the average of the variable). You

can use several arSim functions at once, and you can also target more than one cell

at once. 3 The arSim parameters window: Here you can specify the number of simulation

trials to run (N=1000 by default; maximum of N=100000) and choose some other

parameters on the four buttons bellow. You can choose saving the simulation results

(unchecked by default), turn off screen updating during the simulation (checked by

default), color the target cells (checked), and color cells with arSim functions

(unchecked).

If you check the ‘Save simulation results’ button, at the end of the simulation,

Excel creates a new spreadsheet with the results and several statistics. Next in this

book, you’ll find a section regarding the results sheet.

We recommend maintaining the ‘Turn off Screen Updating’ button checked

to increase the speed of the simulation. If the button is unchecked, Excel refreshes

the screen with new information at the end of each trial, which can increase

significantly the duration of the simulation.

Finally, coloring the target cells may help the user remember which cells were

targeted, and coloring the cells containing ArSim functions helps to locate them also

at the end of a simulation.

1.5.2 THE RESULTS SHEET

If you choose to save the results, Excel creates a new worksheet and gives it the same

name as the sheet from which the simulation was launched, plus the suffix “_Res”. For

example, if the active sheet is named “Sheet1”, the results will be saved to the sheet

“Sheet1_Res”. If a sheet with that name already exists, its contents will all be erased before

the new values are saved. Therefore, to preserve the results from a former simulation you

should rename the results sheet before running the new simulation.

Let’s now look at the results sheet from the coin toss example.

Cell A1 shows that the simulation was run from sheet Sheet1. Cell E1 gives the date and

cells H1 and K1 the times the simulation started and ended.

Cell B3 identifies the target cell (C1), with an added underscore. This (“_C1”) is the new

label name that names the data range below (B21:B120) and is meant to facilitate any

calculations performed on the simulation data in the results sheet

The range B6:B17 shows simulation statistics for target cell C1. The simulation raw data

starts in row 21. Colum A contains the trial number and column B contains the content of

target cell C1, i.e., the result of each trial.

CHAPTER 2 ESTIMATING PROBABILITY

2.1 THE LETTERS AND ENVELOPES PROBLEM

A secretary needs to send 5 letters to 5 different persons. She has the five letters and

the five matching envelopes ready, but. by accident she mixed the letters, and then

placed them in the envelopes at random. What is the probability that at least one person

receives the correct letter (at least one match)?


This problem can be solved with probability theory, but it’s easy and intuitive to solve it

with resampling methods. You can simulate the experience yourself (as shown on the

figure bellow): write 1, 2, 3, 4 and 5 in two sets of five identical pieces of papers to represent

the envelopes and the letters. Shuffle the letters and put them in the envelopes at random.

See if you obtained any match. Now do it again! And again! Each time you simulate write

down how many matches you obtained.

If you perform this simulation a large number of times you can then calculate what’s

the proportion of simulations that yielded k matches, for k = 0, 1, 2, 3, 4, 5. After we repeat

the simulation a large number of times, we can estimate the probability of at least one

match. Our estimate may be more or less close to the true probability of the event.

Generally, our estimate will be closer the larger the number of simulations.

It is very time consuming to perform and repeat the simulation by hand but using the

arSim add-in we can easily perform 1000 simulations.


Write the headers of the columns: “Letter” on A1, “Envelope” on B1 and “Match?” on

C1. In cells A2 to A6 introduce the numbers from 1 to 5. You’re Excel sheet should look like

the following picture.

3. SIMULATE

We’ll simulate the accident of mixing the letters and placing them randomly into the

envelopes, by shuffling the letters 1 to 5 with the arShuffle function:

1. Select the output range that will hold the shuffled cells (B2:B6)

2. Introduce ‘=arShuffle(‘

3. Select the range that contains the cells you wish to shuffle (A2:A6) > Press

Ctrl+Shift+Enter (do not press Enter: this is an array formula, it requires Crtl+Shift+Enter

to fill all the output cells)

Was there any match? Compare the numbers on column A and on column B, within

the same row. You can see on the picture above that letter 4 matched with envelope 4,

that is, content on A5 = content on B5, meaning there was one match. Your output results

will probably differ.

To perform a proper comparison, we can use Excel’s bult-in ‘IF’ function to compare

the two cells in the same row and score 1 if equal, and 0 otherwise:

1. Introduce ‘=if(A2=B2,1,0)’ > Press Enter

This means that if A2 is the same as B2, i.e. if there was a match, the function will

return 1, and if not, it returns 0.

2. Repeat for the other rows, to see if any of them matched.

Sum the number of matches, using Excel’s ‘SUM’ function, introduce on C8

‘=sum(C2:C6)’. By now, you should have something like the picture below, tough the

number of matches may differ.

4. BIG SIMULATION


We have now perfomed one trial, but this is not enough to estimate a probability. Let’s

repeat the simulation and save the number of matches after each simulation trial. This

way cell C8 is the one we should target, and we will use the arSimAverage function for

that (it returns the average number of matches of all the simulations):

1. Introduce ‘=arSimAverage(‘ on C9

2. Select target cell C8 > press Enter

It will retur #N/A because Excel has not yet performed the simulation.

4.2 REPEAT

Press Ctrl+L to open the arSim Parameters window where you can choose the

simulation parameters and perform the simulation.

We chose to run the simulation for N=1000 trials, not save its results, turn the screen off,

and color the target cells.


The figure shows the simulation results.

The simulations yielded an average of 1,028 matches, close to the expected value of

1 (computed theoretically).

To know how many times there were k matches on the 1000 simulations we can

construct a frequency table. On E1:F7 construct a two-column table for the k values and

the proportion of k (p(k)). Insert the column labels on E1 and F1, and the k values of 0, 1,

2, 3, 4, 5 on E2:E6.

To compute p(k), we can use the arSimFrequency function, that counts how many

simulation trials, out of the 1000 simulations, obtained a number of matches equal to k.

1. Select the output range, the array that will hold the frequency values (F2:F7),

2. Introduce ‘arSimFrequency(C8,E2:E7)/1000’.

This function will count how many times the number of matches (C8) were one of

the values of k (E2:E7). By diving per 1000 we obtain a proportion (the relative

frequency).

3. Use cell F8 to sum the p(k) values, to check they all sum 1.

The probability of at least one match can now be calculated by 1–p(0), or by summing

p(1)+…+p(5).

There’s a 0,619 chance of obtaining at least on match.

What arSim functions were used in this problem?

arShuffle

arSimAverage

arSimFrequency

2.2 A PAIR IN A HAND OF FIVE

While playing poker, what’s the probability of getting one pair in a hand of five? And

two pairs?


There are 52 cards in the standard deck: 13 kinds of each of the four suits. While

choosing 5 out of 52, what’s the probability of getting a single pair? We can solve this

problem theoretical, through combinations.

𝑝(1𝑝𝑎𝑖𝑟) =𝐶1

13 × 𝐶24 × 𝐶3

12 × (𝐶14)3

𝐶552

The result is 0,423. This requires knowledge on probability theory, and this problem can

much easier be solved through resampling. For that we should simulate choosing 5 cards

at random and then see if we obtained a pair. Out of, let’s say, 1000 simulations, how

many times did we obtained a single pair?


There are 13 cards of each of the 4 suits. As we are not interested on knowing of what

suits was the pair from, we can represent the deck with the numbers 1,2,3,4,…,13 repeated

four times. Write “Deck” in A1 and “HandOf5” in B1, to identify the columns. Insert the

numbers 1 to 13 in A2:A14, copy that array and paste it 3 times bellow, on the same

column. You should have your excel sheet as the following picture (rows from A14:A52

where hidden).

3. SIMULATE

Select array B2:B6, the 5 cells that will hold the 5 shuffled cards from the deck. Type

“arShuffle(A2:A53) and press Ctrl+Shift+Enter.

Did you obtain a pair. two cards with the same number? On the picture above you

can see that our simulation obtained a pair of 2’s. To efficiently count how many pairs a

simulation yielded, we can construct a frequency table, using the Excel’s built-in

Frequency function. This way we can see how many cards, from the 13 different kinds did

each hand obtained; if there was a pair of a certain kind, we will obtain a frequency of

“2” for that kind. As seen below, on D1 and E1 write the labels “Cards” and “Frequency”

and insert the number from 1 to 13 on D2:D14. Select array E2:E14 and type

“FREQUENCY(B2:B6,B2:D14)” and press Ctrl+Shift+Enter.

Now, we need to count how many pairs the simulation trial yielded, i. e. how many

times the array E2:E14, the frequency column, obtained a number “2” for frequency. Use

the Excel’s built-in Count-if function: on cell H2 write “COUNTIF(E2:E14,2)”.

You can see that in our simulation we obtained 1 pair.

4. BIG SIMULATION


What we are interested in is, after repeating this trial a large number of times, knowing

how many of them obtained 1 or more pairs. In other words, we want to know the

proportion of simulation trials that obtained 1 or more pairs. This proportion refers to the p-

value. This way, we will use arSimPValue function to target the cell we are interested in

(H2). This function performs a comparison and returns the proportion of simulations that

obtained a value on the target cell that is the same as, larger than or smaller than another

(in this case, “1”). The type of comparison is decided by you depending on the study

question.

In our example, we want to know the proportion of trials, in 1000 simulations,

4.2 REPEAT


CHAPTER 3 CONFIDANCE INTERVALS

3.1 STRESS LEVELS IN PARENTS OF CHILDREN WITH ADHD

Note: This is a fictional study based on Moore, McCabe & Craig, 2014. Values presented

here were randomized from a normal distribution with the original parameters (M=52.98,

s=10.34), as the original sample was not available.

In a study of parents who have children with attention-deficit/hyperactivity disorder

(ADHD), parents were asked to rate their overall stress level using the Parental Stress Scale

(PSS).14 This scale has 18 items that contain statements regarding both positive and

negative aspects of parenthood. Respondents are asked to rate their agreement with

each statement using a 5-point Likert scale, from 1 to 5. Scores are summed such that a

higher score indicates greater stress. The mean rating for the 50 parents in the study was

reported as 53.3 with a standard deviation of approximately 9. Scores are presented

below.

62 55 59 44 62 53 61 49 51 52

46 59 68 37 42 46 47 33 48 51

62 45 58 64 72 54 49 44 73 52

50 57 58 45 51 57 73 65 49 63

54 46 46 45 42 51 48 47 57 63

The best estimate of the population mean is the sample mean, 53.3, because it is more

likely that the sample comes from a population with an equal mean than from any other

population. Yet, while estimating any population parameter, it is commonly portrayed a

confidence interval (CI), an interval that is likely to include the true population parameter,

in a distribution of possible parameters. That is, regarding a 95% CI for the mean, it denotes

the range of distribution of means that contain the true population mean 95 % of the times;

in other words, we can say we are 95% confident that the true population mean falls within

that range.

First, it is important to acknowledge that in order to compute any confidence interval

our data must be normally distributed. This sample size (n=50) should be sufficient to

overcome any non-Normality. Let’s compute the 95% CI for the mean.

We can solve this theoretically, …

(1) CI = Estimate +/- Margin of Error

In this example our estimate is the sample mean (M).

(2) Margin of error = z*

z is the critical value. It corresponds to the Z score from the normal curve that limits the

distribution in the middle 95%, from –z to +z. Some z scores from commonly used CI are

presented below. For the CI 95%, z = 1.96.

is the standard error, i.e. the population standard deviation.

(3) = s/N

s is the sample standard deviation and N the sample size

Thus, = 9 / 50 = 1.27, so the 95% CI is [M – (1.96) (1.27) = 53.3 – 2.50 = 50.80, M + (1.96)

(1.46) = 53.3 + 2.50 = 55.79]. That is, the population mean falls within [50.80, 55.79] with 95%

confidence.

…however, it is a lot easier and “free of formulas” if we use the resampling approach.


As we don’t have access to the entire population, our sample is the best representative

group of the population. Imagine we would expand the sample a large number of times,

making it as large as the population. We would obtain an artificial proxy population,

based entirely on our sample, that would have the same characteristics as it.

Once the sample is replicated a large number of times, we can proceed to draw

samples from the artificial population and record the parameter of interest. Ultimately, we

would obtain a distribution of sample parameters, from where we could find a confidence

interval for that statistic.

Instead of replicating a sample a huge number of times, we can draw with

replacement from the original data one sample that has the same size – each observation

has 1/n probability of being selected each time, such as drawing from a large replicated

population. This method is called bootstrap.

In this example, it is as simple as drawing samples with replacement from the observed

data (with the same size, n=50), record the mean of each bootstrap sample, look at the

distribution of samples mean and then check the values that bound 90% or 95% of the

entries. These are the limits of the confidence interval.


Paste the 50 scores into a single column of a new Excel’s workbook, e.g. collum A. Save

the first cell of the column to label that data. Compute the mean and standard deviation

on D1 and D2. The basic setup should be something like the image below (cells from

A11:A50 were hidden).

3. SIMULATE

Draw with replacement a sample (n=50) from the original sample, the bootstrap

sample, using the arResample function, an array formula. Save column F for that and use

cell F1 to write its label. To create the bootstrap sample, select array F2:F52, the range that

will hold the simulation results, type ‘arResample(’, select A2:A52, and press

Ctrl+Shift+Enter. Finally, compute the bootstrap average, using Excel’s built-in average

function. You’ll get something similar as the picture underneath.

4. BIG SIMULATION


We’ll use the arSimAverage function to target the cell with the bootstrap average (I1,

in our case).

4.2 REPEAT

Press Ctrl+L to repeat the procedure 1000 times, ending up with a distribution of sample

means, an artificial population, from which we’ll draw the standard error.

5. ANALYZE THE RESULT AND DRAW A CONCLUSION

Use Excel’s built-in formula STDEV to compute the standard deviation of the simulated

sample means. This standard deviation corresponds to the standard error (), as the 1000

samples make up for a population. Determine the margin of error, z*, being z = 1.96. The

Confidence Interval corresponds to the interval between the mean (53.3) +/- the margin

of error. . You can also compute percentiles 2.5 and 97.5 from the distribution of sample

means.

CHAPTER 4 TESTING HYPOTHESIS

4.1 GENDER DISCRIMINATION

Let’s consider a study investigating gender discrimination in the 1970s (Rosen & Jerdee,

1974, cit. in Diez, Barr & Çetinkaya-Rundel, 2014): 48 male bank supervisors, in the University

of North Carolina, were asked to evaluate a personnel file and judge whether that person

should be promoted or not. The files were identical, but half indicated that the candidate

was a man and the other half a woman (24 each).

The results of the study are shown in the table below. There’s a large difference on the

promotion rates: out of the 35 bank supervisors that decided to promote 21 were for men

and 14 for women (dif = 7).

Decision

Promoted Not

promoted

Total

Gender Male 21 3 24

Female 14 10 24

Total 35 13 48

Does this difference suggest a bias against women in promotion decision? Is this a case

of gender discrimination, or is this difference due to chance, and the natural fluctuation

of random samples?


Given that 35 supervisors promoted the candidate, the issue is whether their decision

was influenced by the gender.

If we conducted this experiment again, with a different assignment of files, would we

get a difference of promotion rates of 7 or higher?

To answer this question, we should perform an hypothesis test.

H0: There is nothing going on

Promotion and gender ar independent,

H1: Ther is something going on

EXPLAIN

Decide the test statistics

2. BUILD THE EXCEL SHEET

Open a blank Excel book, that has already the arSim add-in. Start with creating a

column with the 48 files, 24 for each gender, using 1 for males and 0 for females, by

inserting 24 “1” and 24 “0” on column A. The picture below shows the basic setup (some

lines were hidden so that general picture is shown).

3. SIMULATE

Now, out of the 48 files we’re going to choose the 35, regardless of their gender, to be

promoted. To choose them randomly, use the arShuffle function, an array formula. As

shown below, select the 35 cells B2:B36, from column B that will hold the 35 promoted

individuals, type “=arShuffle(“ select the population of the 48 files (A2:A49) and Press

Ctrl+Shift+Enter.

Count how many “1”s and “0”s you got (your simulation values will differ from the ones

obtained here). On cell E1, insert the Sum of the shuffled results, to count the males. The

picture bellow shows the formula. For the females subtract the number of males to 35 (the

sample size), on cell E2. Finally, compute the difference between the number of males

and females on cell E3. We obtained a difference of -3, as seen below.

4. REPEAT THE SIMULATION A LARGE NUMBER OF TIMES

4.1 TARGET THE STATISTICS OF INTEREST

There is now one trial done, but this is not enough to draw any conclusion about the

original difference obtained. However, if we repeat this procedure, let’s say 1000 times,

we can see how often we would get a difference of 7 or greater. In other words, what’s

the proportion of simulations that yield a difference as large as or larger than the authors

obtained? This proportion refers to the p-value.

We will use the arSimPValue function, to know the proportion of trials, in 1000

simulations, that obtained a difference (on E3) as large as or larger than 7. As shown on

the picture bellow, use cell E5 to type “=arSimPvalue (E3;”>=”;7)” and press enter.

4.2 REPEAT

Press Ctrl+L and select the simulation parameters. We chose to run the simulation for

N=1000 trials, not to save its results, turn the screen off, and color the target cells. The figure

bellow shows our simulation results.


We obtained a p-value of 0,022. Yours might be slightly different.

This means that the difference obtained by the authors only occurred 2.2%. This is such

a rare event that we can say that chance probably didn’t produce such a large

difference. The results obtained on the concerned study are most likely due to gender

discrimination. We can say that gender has an effect on promotion decision1.

1This decision depends on the significance level you previously chose. We chose a

significance level of 0.05, so if we obtain a p-value inferior to that, we should reject the

null hypothesis

4.2 YAWNING

CHAPTER 5 CONTINGENCY TABLES

5.1 THE LADY TASTING TEA

CHAPTER 6 ANALYSIS OF VARIANCE

CHAPTER 7 ARSIM ADD-IN FUCNTIONS

CLÁUDIA NUNES A ESTATÍSTICA NA PSICOLOGIA: UMA REVISÃO ...

Documents