Universidade de Aveiro 2020 CLÁUDIA NUNES DANTAS A ESTATÍSTICA NA PSICOLOGIA: UMA REVISÃO EPISTEMOLÓGICA SOBRE A IMPORTÂNCIA E OS DÉFICES NO ENSINO 2020
Universidade de Aveiro
2020
CLÁUDIA NUNES
DANTAS
A ESTATÍSTICA NA PSICOLOGIA:
UMA REVISÃO EPISTEMOLÓGICA SOBRE A
IMPORTÂNCIA E OS DÉFICES NO ENSINO
2020
i
Universidade de Aveiro 2020
CLÁUDIA NUNES
DANTAS
A ESTATÍSTICA NA PSICOLOGIA:
UMA REVISÃO EPISTEMOLÓGICA SOBRE A
IMPORTÂNCIA E OS DÉFICES NO ENSINO
Tese apresentada à Universidade de Aveiro para cumprimento dos requisitos necessários à obtenção do grau de Mestre em Psicologia da Saúde e Reabilitação Neuropsicológica, realizada sob a orientação científica do Prof. Doutor Armando Machado, Professor Catedrático do Departamento de Educação e Psicologia da Universidade de Aveiro
ii
o júri
presidente Professor Doutor Marco Alexandre Barbosa de Vasconcelos
Professor auxiliar do Departamento de Educação e Psicologia da Universidade de Aveiro
Doutora Maria Inês Abreu Fortes
Investigadora de Pós-Doutoramento da Escola de Engenharia da Universidade do Minho
Professor Doutor Armando Machado
Professor catedrático do Departamento de Educação e Psicologia da Universidade de Aveiro
iii
agradecimentos
À mãe e ao pai, sem vocês não era possível.
Aos irmãos, em especial ao Riki, meu irmão de útero.
Ao meu Filipe.
À Jéssica, ao Nuno e à Carol, pela amizade, paciência e ajuda
fundamental, em especial a da minha madeirense.
À minha Titi e ao meu Tio, pela motivação e ajuda.
Ao professor Armando Machado, por ter acreditado em mim, e por toda
a aprendizagem que me facultou.
Aos meus professores de licenciatura e mestrado, particularmente a
professora Sandra Soares pelo voto de confiança no trabalho laboratorial,
e os professores Marco Vasconcelos e Armando Machado, por me terem
feito pensar, na verdadeira essência deste ato, e por contribuírem
inequivocamente para o desenvolvimento do meu pensamento
estocástico e raciocínio lógico e crítico.
Ao Skinner, ao Fisher, ao Carnap, ao Salmon, ao Bergson, ao Huxley, ao
Gosset, entre outros, cujos escritos, científicos ou românticos, me
levaram a um maior entendimento sobre o sentido da variabilidade do
mundo e do ser humano.
iv
palavras-chave
Estatística; Estatística na Psicologia; Ensino da Estatística; Competências
Matemáticas; Competências Estatísticas; Atitude em Relação à Estatística.
resumo
A Estatística tem marcada importância na Psicologia, pelo que na
maioria dos cursos de licenciatura e mestrado em Psicologia são
incluídas uma ou duas unidades curriculares sobre Probabilidades e
Estatística. No entanto, o ensino da Estatística em Psicologia tem-se
mostrado um desafio pedagógico. Os alunos manifestam frequentemente
graves dificuldades com vários temas da Estatística, fracas competências
matemáticas e uma tendência a desgostar do tema. Esta dissertação revê
a história e o papel da Estatística em Psicologia, e explora as
competências em Estatística de alunos licenciados em Psicologia,
avaliando-as e relacionando-as com as competências matemáticas e a
atitude em relação à Estatística (SATS-28).
v
keywords
Statistics; Statistics on Psychology; Teaching of Statistics; Math skills; Statistic
skills; Attitudes Toward Statistic.
abstract
Statistics plays an important role in Psychology, and with that being,
many psychology curriculums include one or several Probability and
Statistics courses. However, teaching statistics and research methods to
psychology students has been a pedagogic challenge. Students often
show difficulty and poor knowledge in several statistical fields, lack
mathematics skills and a tendency to dislike this discipline. This study
reviews the history and role of statistic in psychology, and explores
statistical skills on psychology graduate students, while assessing their
mathematics skills and attitudes towards statistics (SATS-28).
Índice
Introdução .................................................................................................................................. 2
Estatística: O sentido da variabilidade ................................................................................... 2
Duas faces: um mundo determinado vs. um mundo estocástico. ...................................... 2
O equilíbrio: uma variabilidade regular. ............................................................................ 3
O mediador: as probabilidades e estatística. ...................................................................... 4
O Ensino da Estatística em Psicologia: Uma Matéria Difícil ................................................ 5
Dificuldade real: métodos, assunto, pensamento estocástico. ........................................... 6
Baixa numeracia................................................................................................................. 7
Metodologia de ensino. ...................................................................................................... 7
Metodologia ............................................................................................................................... 9
Participantes ........................................................................................................................... 9
Materiais ................................................................................................................................ 9
Teste diagnóstico de Matemática. ...................................................................................... 9
Teste diagnóstico de Estatística. ........................................................................................ 9
SATS-28. ......................................................................................................................... 10
Questionário geral. ........................................................................................................... 10
Procedimento ....................................................................................................................... 11
Análise de dados .................................................................................................................. 11
Resultados ................................................................................................................................ 11
Teste Diagnóstico de Matemática ........................................................................................ 11
Teste de Estatística ............................................................................................................... 15
SATS-28. ............................................................................................................................. 18
Questionário geral ................................................................................................................ 19
Análises de correlação ......................................................................................................... 19
Discussão ................................................................................................................................. 20
Referências ............................................................................................................................... 25
Anexos ..................................................................................................................................... 31
Anexo A – Teste diagnóstico de matemática ....................................................................... 32
Anexo B – Teste diagnóstico de Estatística ......................................................................... 35
Anexo C – SATS-28 ............................................................................................................ 40
Anexo D – Questionário inicial ........................................................................................... 42
Anexo E – Boxplot e Q-Q plot das pontuações no teste de Matemática .............................. 43
1
Anexo F – Significância das diferenças entre componentes do teste de matemática .......... 44
Anexo G – Proporção de respostas corretas aos itens do teste de Matemática .................... 45
Anexo H – Respostas aos itens com maior percentagem de erro no teste de Matemática .. 46
Anexo I – Boxplot e Q-Q plot das pontuações no teste de Estatística .............................. -49
Anexo J – Proporção de respostas corretas aos itens do teste de Estatística ....................... 50
Anexo K – Respostas aos itens com maior percentagem de erro no teste de Estatística ..... 51
Anexo M –“arSim add-in: A tutorial” ................................................................................. 54
2
Introdução
A Estatística tem marcada relevância na ciência, incluindo na ciência da Psicologia. No
entanto, parece estar a ser instrumentalizada, utilizada por vezes irrefletidamente como um
meio para conquistar resultados. O ensino da Estatística reflete este descoro, manifestando-se
nos conhecimentos e competências deficitários dos alunos.
No intuito de reafirmar a importância da Estatística na Psicologia, interessa recordar de
onde vem, saber onde está e apontar para onde poderá ir. Deste modo, a presente dissertação
pretende rever a origem e a importância da Estatística na Psicologia, caracterizar as
competências em Estatística dos alunos, no sentido de perceber as variáveis que as influenciam,
e refletir sobre possíveis abordagens mais facilitadoras da aprendizagem.
Estatística: O sentido da variabilidade
De que forma um indivíduo difere do seu grupo, ou de que forma é que difere de outro
indivíduo? Será que o comportamento deste indivíduo é normal? Será que as semelhanças entre
estes indivíduos têm uma origem comum?
Estas (ou outras semelhantes) são questões frequentemente colocadas no âmbito das
ciências sociais e humanas, pautadas pelo interesse comum em estudar o que é variável. De um
modo geral, a ciência pretende estudar a variabilidade, descrevendo variáveis (eventos ou
características) e descobrindo as relações ordenadas entre as mesmas.
É incontestável a infinidade de diferenças entre seres, genéticas e fenotípicas, designada
variedade intra ou interespecífica. Esta, a variabilidade, é catalisador fundamental à evolução
das espécies, no sentido em que um ser vivo que sofra variações que são de algum modo
favoráveis tem maior probabilidade de sobreviver, ser naturalmente selecionado e propagar a
sua nova forma modificada (Darwin, 1876).
Duas faces: um mundo determinado vs. um mundo estocástico.
Admite-se na ciência que a variabilidade é uma característica inegável e essencial à vida.
No entanto, acredita-se também que existe regularidade dos fenómenos e uma causa
determinante para todo o evento ou característica. Este pressuposto diz respeito a uma corrente
de pensamento determinista, que dita, segundo Laplace (cit. in Cowles, 2001, p. 21):
Os eventos presentes estão ligados aos anteriores por um vínculo baseado no princípio
óbvio de que uma coisa não pode ocorrer sem uma causa que a produza. (…) Devemos,
portanto, considerar o estado presente do universo como o efeito de seu estado anterior e
como a causa daquele que seguirá.
3
O determinismo clássico, de Newton e Laplace, pressupõe uma estrutura causal e
determinada do mundo, e que a natureza funciona segundo leis, homogéneas e estáveis que
determinam o estado de um sistema. Esta perspetiva mecanicista conjetura que, conhecendo na
totalidade o estado do mundo num dado instante, a partir das leis da natureza também
conhecidas, é possível calcular qualquer evento passado ou futuro (Carnap, 1966). O cientista
determinista estuda processos que entende estarem regidos por leis da Natureza e tenta
expressá-los em equações matemáticas; ele acredita, por exemplo, que consegue determinar o
tempo que demora um objeto de massa conhecida deixado cair de uma dada altura a chegar ao
chão. Aqui fala-se principalmente da física clássica.
A física pós-moderna, em particular a mecânica quântica, veio oferecer argumentos sólidos
que contrariam esta perspetiva determinista. Heisenberg, em 1927, formulou o “princípio da
incerteza”, determinando a impossibilidade de medir simultaneamente duas variáveis num
sistema atómico, i. e., não é possível conhecer a posição e a velocidade de uma partícula
atómica simultaneamente. A determinação da posição rigorosa da partícula num dado momento
implica a indeterminação da sua velocidade nesse mesmo momento. Este limite não se deve
exclusivamente à imprecisão dos instrumentos e do agir humano, Heisenberg demonstrou a
insuperabilidade do limite mesmo em condições ideais (Meneses, 2005).
Desta forma, a ciência pós-moderna apresentou ideias e formalismos como
“indeterminismo”, “caos” e “relatividade”, que apesar de difícil apreensão mesmo para os mais
dedicados estudiosos, questionaram todo o método e propósito da ciência determinista clássica,
provocando mudanças profundas na epistemologia e filosofia da ciência. A natureza da ciência
foi reciclada: as ideias de descrição matemática dos fenómenos naturais e de que estes
obedecem a uma ordem rigorosa foram trocadas por relações de indeterminação,
imprevisibilidade e incerteza (Serra, 2005). No que diz respeito ao comportamento humano, o
indeterminismo e a incerteza podem dizer-se ainda mais assinalados: não é guiado por leis
universais, e tem fontes de imprevisibilidade impossíveis de eliminar (Carnap,1966; Cowels,
2001; Salmon, 1962).
O equilíbrio: uma variabilidade regular.
Ainda assim, mesmo na indeterminação, pode-se dizer que o mundo mantém uma estrutura
essencialmente regular (do que até ao dia de hoje se sabe, o sol nasce todos os dias a Este e
põe-se a Oeste; quando rodo a maçaneta a porta abre-se, um objeto lançado cai no chão, etc.).
Quer os fenómenos indeterministas estudados pela ciência pós-moderna, quer as ações
humanas estudadas nas ciências sociais acontecem com uma certa regularidade provável, i.e.,
4
não são ocorrências totalmente aleatórias e seguem tendencialmente padrões sistemáticos,
inferidos pelo conhecimento que até à data existe sobre a natureza, o ser humano e a pessoa
(Carnap, 1966).
Na ausência de uma regularidade de eventos e de uma noção de causa seria impossível
prever e consequentemente escolher, tomar decisões, responsabilizar, etc. (Carnap, 1966). Se
a ideia de regularidade e causalidade dos eventos fosse totalmente rejeitada, o estudo da
condição humana em qualquer dimensão seria irrelevante e absurdo. Como diz B. F. Skinner
no livro Ciência e Comportamento Humano “não podemos aplicar os métodos da ciência num
assunto que se presume ditado por capricho. [...] Se usarmos os métodos da ciência no âmbito
das ciências humanas, devemos pressupor que o comportamento é ordenado e determinado”
(Skinner, 1953, p. 6).
O mediador: as probabilidades e estatística.
Um tema emerge aqui como preponderante no exercício de conservar algum sentido à
variabilidade e à incerteza, independentemente de qualquer opinião filosófica que se tenha: as
Probabilidades e Estatística. No âmbito do estudo dos fenómenos indeterminados e em
situações onde é impossível ou inconveniente obter todos os resultados de observações
individuais são utilizadas as leis estatísticas. Estas descrevem uma distribuição probabilísticas
de valores possíveis para um dado acontecimento, ao invés das leis deterministas, que ditam
certos resultados mediante determinadas condições (Carnap, 1966).
No geral, a teoria das Probabilidades procura quantificar a incerteza, quantificar o grau de
possibilidade de um acontecimento ocorrer (Dias, 2015; Simon, 1997). Centra-se no estudo dos
fenómenos aleatórios, i. e., fenómenos caracterizados pela impossibilidade de prever os
resultados de acontecimentos individuais, mas que se comportam com uma certa regularidade,
quando visualizados um conjunto razoável de resultados.
A Estatística procura (após o estabelecimento de sistemas de classificação e medição que
permitam traduzir em números as várias grandezas do ambiente, ou seja quantificá-las) tratar
estes dados numéricos de forma a obter descrições precisas e a inferir relações entre os vários
eventos. Estes, a descrição e a inferência, são os dois processos que constituem os dois ramos
principais da Estatística: a Estatística Descritiva e a Estatística Inferencial.
A palavra Estatística deriva da expressão neolatina “statisticum collegium” e significa,
etimologicamente, “homem do estado” ou “estadista”. Foi o conceito atribuído ao processo de
inventariar as posses do estado, como armamento, militares, cidadãos e gado (Kendall, 1960;
Simon, 1997; Cowles, 2001; Simon & Bruce, 2017) e estima-se ter surgido em 1589, pelo
5
historiador italiano Girolamo Ghilini (Kendall, 1960). Esta prática aparenta ser uma abordagem
preliminar aos métodos de recolha, resumo e descrição de dados, atualmente realizados no
ramo da Estatística Descritiva (Cowles, 2001; Howitt & Cramer, 2011a, 2011b). O ramo da
Estatística Inferencial diz respeito ao raciocínio metodológico sobre os dados numéricos que
permite fazer inferências sobre os mesmos, e é em grande parte fundamentado na teoria das
probabilidades.
Destaca-se que o estudo da variabilidade e da relação entre eventos, como acima exposto,
comum a todas as ciências, obriga à utilização das teorias de Probabilidades e Estatística. No
que diz respeito à Psicologia, a ciência natural do comportamento dos organismos, estes temas
são igualmente fundamentais. Os métodos estatísticos acompanham todo o processo de
investigação, desde a operacionalização de uma tese à análise e discussão de resultados (e.g.
para processos de amostragem, descrição de variáveis, descrição de grupos/amostras,
comparação entre grupos de tratamento, estudo de correlação entre variáveis, teste de hipóteses,
etc.).
De facto, a Estatística na Psicologia é comumente associada ao domínio da investigação.
No entanto, todas as atividades sobre as quais um psicólogo desenvolve o seu ofício diário
estão fortemente dependentes do conhecimento científico desenvolvido e disseminado pela
investigação. Destarte, a prática e a investigação, não podem ser percebidas como atividades
independentes. A título de exemplo, um psicólogo clínico, no “simples” exercício de
diagnóstico de um cliente, (1) aplica instrumentos validados experimentalmente; (2) avalia
comportamentos do indivíduo comparando-os com normas (previamente definidas
estatisticamente nos manuais de diagnóstico clínico); (3) guia-se em modelos interventivos,
sustentados, à partida, por investigação prévia; (4) monitoriza o progresso da pessoa, tecendo
também considerações sobre prognóstico, entre outros.
Assim, revela-se fundamental que um profissional da Psicologia consiga interpretar a
evidência científica, com juízo crítico, perceber as questões de investigação e as metodologias
utilizadas e tomar decisões individuais e coletivas. Desta forma, a maior parte dos cursos de
Psicologia incluem disciplinas sobre introdução à Estatística e Probabilidades, requerendo que
o aluno demonstre conhecimento nestas áreas (Carpenter & Krik, 2017).
O Ensino da Estatística em Psicologia: Uma Matéria Difícil
Apesar da importância revelada da Estatística na Psicologia, identificam-se dificuldades e
interpretações erradas em conceitos estatísticos básicos nos alunos das ciências sociais e
humanas (Carpenter & Kirk, 2017; Vanhoof, Noortgate,& Onghena, 2007). De acordo com
6
Sotos et al. (2007), numa revisão de literatura, os alunos1 mostram uma grave falta de
conhecimento em conceitos de Estatística Inferencial e na interpretação de resultados, mesmo
que consigam utilizar os métodos estatísticos e manipular os dados. Sumarizam-se erros sobre
(1) distribuições amostrais; (2) testes de hipóteses (por exemplo, confundir as hipóteses de uma
tese, interpretar o p-value como a magnitude do efeito, interpretar o nível de significância como
a probabilidade de uma das hipóteses ou como a probabilidade de cometer um erro) e (3)
intervalos de confiança. Ainda, no que diz respeito ao conceito de significância
estatística, segundo Cassidy et al. (2018), em 30 manuais de ensino de introdução à psicologia,
89% apresentavam definições incorretas e falaciosas.
Surgem várias explicações na literatura para as dificuldades e o desconhecimento
existentes em relação à Estatística: (1) a complexidade inerente aos métodos estatísticos, aos
assuntos que trata a Estatística e ao desenvolvimento do pensamento estocástico; (2) a baixa
numeracia e skills matemáticas identificadas nos alunos; (3) a manutenção de uma atitude
negativa em relação à Estatística e (4) a metodologia adotada para o seu ensino, aqui incluindo
a abordagem teórica e prática de um professor em contexto de sala de aula, os materiais que
utiliza e o contexto geral do ensino.
Dificuldade real: métodos, assunto, pensamento estocástico.
O assunto que trata a Estatística é “extremamente difícil” (Simon, 1995). Trata do incerto:
tenta dar resposta a problemas, muitas vezes com base em amostras relativamente pequenas, e
em que se sabe à partida que é impossível a certeza e precisão absolutas. Estes problemas são
inerentemente difíceis: prever resultados de uma eleição; avaliar a eficácia de um tratamento;
estimar quantos estudantes passarão uma dada unidade curricular: estimar quantas tentativas
um ratinho num labirinto precisará para descobrir a saída; e averiguar se, caso consiga escapar,
foi resultado do acaso ou o rato é verdadeiramente capaz de aprender e memorizar. Estas são
questões difíceis de conceptualizar e operacionalizar, as respostas são difíceis (ou impossíveis)
de obter, e por isso requerem métodos intrinsecamente complexos que vários matemáticos
brilhantes despenderam anos a desenvolver (Chance & Rossman, 2006; Fitzmaurice, Leavy &
Hannigan, 2013; Ricketts & Berry, 1994; Simon, 1995; Simon & Bruce, 2017).
Naturalmente, o tipo de pensamento que caracteriza o estudo destes temas, o pensamento
estocástico, difere do pensamento algébrico (onde existe um resultado possível) e do raciocínio
lógico (caracterizado pela dicotomia verdade vs. falso). O estocástico introduz uma categoria
1Assume-se “alunos” aqueles que frequentam o ensino superior, exceto quando especificado.
7
diferente à abordagem lógica, a categoria do possível, com conceitos de aleatoriedade e de
indeterminação que obrigam o desenvolvimento de perspetivas e interpretações próprias (Dias,
2015).
Baixa numeracia.
Os alunos de ciências sociais e humanas mostram frequentemente níveis baixos de
numeracia e de competências matemáticas básicas, revelando dificuldades com conceitos e
operações matemáticas elementares (e. g. raízes quadradas, números negativos,
probabilidades) (Brown, Askew, Denvir & Millet, 1998; Cartright, 1996; Hutton, 1998;
Poenix, 1999 cit. in Mulerhn & Wylie, 2004). Os défices em Matemática constituem um
obstáculo à aprendizagem de Estatística (Carpenter & Kirk, 2017; Mulhern & Wylie, 2004),
sendo que, vários estudos apontam que as competências matemáticas são preditores da
aprendizagem em estatística (Dempster & McCorry, 2009; Johnson & Kuennen, 2006;
Mulhern & Wylie, 2004).
Atitude negativa.
A par da dificuldade inerente à Estatística e à Matemática, existe a perceção da dificuldade
sobre estes temas e a manutenção de uma atitude negativa geral instigada pelos alunos. A
Estatística é comumente percebida como uma matéria difícil, desagradável e a evitar
(Fitzmaurice, Leavy & Hannigan, 2013; Schau, 2004; Schau, Stevens, Dauphinee & Del
Vecchio, 1995; Simon, 1997; Schau, Miller & Petocz, 2012; Silva, Oliveira & Miguel, 2013).
Esta atitude negativa dos alunos, amplamente relatada na literatura internacional (Prayoga
& Abraham, 2017; Schau, 2003; Schau, Stevens, Dauphinee, & Del Vecchio, 1995; Schau,
Miller, & Petocz, 2012; Silva, Oliveira, & Miguel, 2013) é um construto multifatorial que
depende não só da dificuldade percebida, mas também da perceção de relevância, esforço e
autoeficácia, do interesse e afeto em relação à temática (Schau, 2003), da tolerância à
ambiguidade e de experiências prévias negativas com matemática (Prayoga & Abraham, 2017).
Fitzmaurice, Leavy e Hannigan (2013) sugerem ainda que a linguagem estatística, símbolos e
terminologia são obstáculos reconhecidos aos estudantes e que justificam parte da sua perceção
negativa.
Metodologia de ensino.
No ensino da Estatística, os professores frequentemente preferem promover a
compreensão procedimental dos métodos ao invés da sua compreensão conceptual
(Fitzmaurice, Leavy, & Hannigan, 2013). Os estudantes aprendem procedimentos para
8
descrições e análises de dados preliminares, recorrendo a softwares, com o objetivo de se
tornarem utilizadores eficientes de Estatística.
Em Portugal, o contexto educativo, desde o ensino básico e secundário ao ensino superior,
não parece dar a devida importância às Probabilidades e Estatística. Por exemplo, o ensino
destes temas inicia-se apenas no 9.º ano de escolaridade, e tem pouco tempo atribuído nos
programas de Matemática, contrariando os programas em vigor noutros países (e. g. Espanha,
Reino Unido, Canadá, Estados Unidos da América) e as recomendações do National Council
of Teachers of Mathematics (cit in. Dias, 2015). Vários autores, citados por Fernandes (1999)
defendem a antecipação do ensino de Probabilidades e Estatística para os primeiros anos do
ensino básico, com nível de adequação apropriado à idade, de forma a facilitar o
desenvolvimento do raciocínio estocástico (Batanero, 2004 cit in Dias, 2015; Fischbein &
Gazit, 1984 cit. in Dias, 2015; Jones et al., 1999; Tarr,1997; Tarr & Lannin, 2005; Watson,
1995; Watson,1999).
Na maioria dos planos curriculares em Psicologia, não é atribuído o tempo suficiente ao
ensino da Estatística (Machado, 2017). Frequentemente os programas de licenciatura incluem
uma ou duas disciplinas sobre o tema, onde o aluno deve aprender, dominar e aplicar inúmeros
conceitos: (1) a linguagem específica da Estatística; (2) noções básicas da teoria das
probabilidades, incluindo distribuições probabilísticas aleatórias e teóricas para variáveis
discretas e contínuas (como a Geométrica, Bernoulli, Binomial, Normal, Poisson, Qui-
Quadrado, t-student, Fisher, etc.); (3) estatística descritiva, como a classificação de variáveis
estatísticas e respetivas escalas de medidas, construção e interpretação de tabelas e
representações gráficas, entre outros; e (4) Estatística Inferencial para dados paramétricos e
não paramétricos, incluindo intervalos de confiança, testes de hipótese, análises de variância,
testes de correlação, etc. (Universidade de Aveiro, 2020a; Universidade de Coimbra, 2020a,
2020b; Universidade do Porto, 2020a, 2020b). A dose curricular para perceber, praticar e
consolidar todos estes conceitos “frágeis” é claramente insuficiente (Machado, 2017).
Numa matéria por si já difícil, conceptual, metodológica e terminologicamente, a falta do
estudo aprofundado sobre métodos estatísticos e de um contexto de aprendizagem adequado
leva a escolhas erradas sobre os métodos de análise adequados a cada caso (Rickets &Berry,
1994; Simon, 1995) e a interpretações erradas sobre os conceitos.
Ultimando, dada a elevada importância da Estatística na Psicologia e os défices no ensino
frequentemente apontados na literatura, pretende-se com o presente trabalho:
1) Avaliar as competências matemáticas e estatísticas e a atitude em relação à estatística
de uma amostra de conveniência de alunos licenciados em Psicologia; e
9
2) Caracterizar as competências estatísticas dos alunos, relacionando este construto com
as variáveis (1) competências matemáticas e (2) atitude em relação à estatística.
Metodologia
Participantes
No presente estudo, a amostra de conveniência consistiu em 18 alunos que frequentavam
o primeiro ano de mestrado em Psicologia da Saúde e Reabilitação Neuropsicológica da
Universidade de Aveiro, discentes da Unidade Curricular de Investigação Avançada, lecionada
pelo Professor Armando Machado.
Materiais
Teste diagnóstico de matemática.
Mulhern & Wylie (2004, 2005) desenvolveram um teste diagnóstico de raciocínio
matemático (cf. Anexo A), com 20 questões divididas 32 itens cotados com 0 ou 1. Os itens
cotados com zero correspondem aos incorretos, incompletos ou não respondidos. O teste inclui
seis componentes gerais de conceitos matemáticos relevantes para a estatística (Greer &
Semrau, 1984; Mulhern & Wylie, 2005): cálculo com decimais e frações (9 itens – questões 1,
2, 4, 8, 11 e 12); raciocínio algébrico (10 itens – questões 3, 6, 9, 13, 16 e 19); interpretação
gráfica (6 itens – questões 10, 18 e 20); proporcionalidade e rácio (3 itens – questões 7 e 17);
probabilidades e amostragem (2 itens – questões 5 e 15) e estimação (2 itens – questão 14).
A pontuação total varia entre 0 e 32, e pode ainda ser extraída a pontuação ponderada de
cada componente. Esta constitui uma medida robusta, não afetada pela contribuição
desproporcional dos componentes, visto serem constituídos por um diferente número de itens.
A consistência interna dos totais ponderados foi elevada (α = .83).
A versão deste teste, foi traduzida para português por Armando Machado e tem sido
utilizada em contexto académico para o diagnóstico de conhecimentos inicial dos alunos.
Teste diagnóstico de estatística.
O teste de avaliação diagnóstica de conhecimentos estatística (cf. Anexo B) consistiu em
29 questões, 42 itens, sobre nove temas da estatística descritiva e inferencial: medidas de
tendência central (média e mediana) (1, 3a); medidas de dispersão (desvio-padrão, variância e
intervalo interquartílico) (2, 3b, 4, 15, 29d); leitura e interpretação de gráficos de barra,
histogramas, boxplots, dotplots e de dispersão (3a, 3b, 5, 7, 8, 19, 20); tamanho da amostra (9,
11, 16, 14, 29g); intervalos de confiança (28, 29a, 29b, 29c, 29e, 29f); testes de hipóteses (6,
10, 16, 17, 24(a-d), 25(a-d), 26, 27); regressão linear e correlação (19, 20, 21, 22, 23);
probabilidades (12) e simulação (18).
10
O teste incluiu 21 questões de escolha múltipla (com 3 ou 4 opções de resposta); 3 questões
de verdadeiro e falso com um total de 15 itens e 4 questões de resposta aberta que envolviam
o cálculo de medidas de tendência central e de dispersão a partir de um conjunto de dados e ou
a partir de boxplot e a construção de um intervalo de confiança. Os itens foram desenvolvidos
por Machado e Dantas (2020), a partir de diversos livros de estatística (Aron, Coups & Aron,
2013; Diez, Barr & Çetinkaya-Rundel, 2014).
Os itens corretos foram contados com 1 ponto e os incorretos, incompletos ou não
respondidos com 0 pontos, sendo que a pontuação total varia entre 0 e 42. Alguns itens
pertencem a dois componentes (e. g. questões que envolvem leitura de boxplots para indicar a
mediana), pelo que são cotados para ambos os componentes: item 3a – medidas de tendência
central e leitura de gráficos; item 3b – medidas de dispersão e leitura de gráficos; itens 19 e 20
– regressão linear e correlação e leitura de gráficos.
SATS-28.
Schau, Stevens, Dauphinee, & Del Vecchio (1995) desenvolveram um instrumento que
avalia a atitude dos alunos em relação a estatística, o Survey of Attitudes Toward Statistics,
SATS-28, mais tarde revisto para o SATS-36.
A versão original, SATS-28 (com 28 itens) avalia quatro componentes da atitude em
relação à Estatística: afeto; competência cognitiva (perceção sobre conhecimento e capacidades
sobre estatística; valor (relevância, pertinência e utilização na vida pessoal e profissional) e
dificuldade. A versão mais extensa, SATS-36 (com 36 itens), inclui mais duas subescalas:
interesse e esforço (quantidade de trabalho despendido na aprendizagem). Existe ainda uma
versão alternativa de ambas as escalas SATS-28 e SATS-36 para efeitos de teste-reteste.
O instrumento SATS tem sido utilizado internacionalmente, (Vanhoff et al., 2011; Schau,
Millar & Petocz; 2012; Silva, Oliveira & Pacheco, 2013), tem apresentado propriedades
psicométricas adequadas (consistência interna, validade de construto, validade convergente)
(Schau et al. 1995; Vanhoff et al., 2011; Schau, Millar, & Petocz; 2012).
A versão portuguesa do SATS-28, utilizada nesta dissertação (cf. Anexo C) foi validada
por Silva, Oliveira, & Pacheco (2013) e revela consistência interna moderada a boa (α varia
entre .61 e .79 para as 4 subescalas) e adequação ao modelo original de 4 fatores, testado pela
análise fatorial confirmatória.
Questionário geral.
Incluiu-se um questionário curto com questões sobre a utilização de softwares para análise
estatística e um conjunto de 8 afirmações gerais sobre considerações em relação à Estatística
11
(cf. Anexo D). Os itens são respondidos numa escala de Likert de 5 pontos, na qual o aluno
indica o grau de concordância em relação à afirmação indicada.
Procedimento
Os participantes responderam aos testes diagnósticos de Matemática e de Estatística, à
escala SATS-28 e ao questionário geral. Esta avaliação foi efetuada numa sala do
Departamento de Educação e Psicologia da UA no decorrer da primeira aula de Investigação
Avançada, lecionada pelo Prof. Armando Machado. Os alunos mantiveram-se, dentro do que
o espaço físico permitia, distanciados uns dos outros, e foram informados que a utilização de
calculadoras ou outro suporte material não era permitida, e que deveriam responder
individualmente.
Análise de dados
A análise de dados neste estudo foi realizada com o software Excel, com os suplementos
arSim add-in (Machado, 2019) e o Real Statistics Resource Pack (Release 7.2) (Zaiontz, 2020).
As respostas aos testes de matemática e de estatística foram analisadas quantitativa e
qualitativamente, incluindo a descrição geral dos resultados, a apresentação da percentagem de
respostas corretas e incorretas para todos os itens e apresentação dos erros mais comuns nas
perguntas com menor acerto (3 ou menos respostas certas). Relativamente aos erros nos itens
de resposta aberta, apresento aqueles com frequência superior a 10%, sendo que todas os outros
foram incluídos na categoria “outra”. A normalidade das distribuições foi testada com o teste
de Shapiro-Wilk. Para averiguar diferenças entre as pontuações dos componentes dos testes de
matemática, estatística e SATS-28, conduzi análises de variância (ANOVA a um fator) e
posteriores comparações múltiplas com sucessivos testes-t (análises post hoc).Procedeu-se
ainda à análise da correlação entre pontuações do teste de matemática e estatística e entre o
teste de estatística e os quatro componentes do SATS-28, para averiguar se a performance em
estatística se relaciona com as skills matemáticas e com a atitude em relação à estatística. Para
todas as análises, o nível de significância utilizado para tomada de decisão foi .05, exceto
quando especificado.
Resultados
Teste Diagnóstico de Matemática
As pontuações no teste de matemática seguiram uma distribuição aproximadamente
normal (W = 0.971, p = 0.80). Os resultados variaram entre 12,5% e 78,1%, e a pontuação
média foi negativa: 46.3% (14.8 em 32), s =18.9%. Os boxplot e Q-Q plot da distribuição das
pontuações são apresentados no anexo E (gráfio E1 e E2, respetivamente).
12
O gráfico F1 (cf. Anexo F) mostra a proporção de respostas corretas para cada item e para
cada componente. O gráfico 1 (em baixo) mostra as proporções de respostas corretas para cada
um dos seis componentes. Também se podem ler as pontuações médias para a amostra dos 18
alunos – linha vermelha – e para amostra normativa (n=890; M=43%) do estudo de Mulhern
& Wylie (2005) – linha azul.
Gráfico 1. Proporção de respostas corretas por componente – teste de matemática
As proporções de resposta correta nos 6 componentes diferiram significativamente entre
si (F (5, 18) =13,299, p<0,001). Notam-se que as proporções de respostas corretas foram
particularmente baixas para o componente “Probabilidades”, seguindo-se “Estimação” e
“Raciocínio Algébrico”.
As análises post hoc (cf. Anexo G) indicaram que o componente “Probabilidades” obteve
valores significativamente diferentes dos outros, com exceção do componente “Estimação”
(note-se que o nível de significância foi corrigido segundo a correção de Bonferroni:
α*=0.0033). As pontuações do componente “Estimação” também foram significativamente
inferiores do que as das dos componentes “Cálculo”, “Interpretação de gráficos” e
“Proporcionalidade”, bem como as do componente “Raciocínio Algébrico” das do componente
“Interpretação Gráfica”.
Análise qualitativa por componente e erros mais comuns.
Relativamente ao teste de matemática, dos 32 itens que o constituía, 7 obtiveram 3 ou
menos respostas corretas nomeadamente, os itens: 3.1, 9.2, 9.3 (raciocínio algébrico); 4.1
13
(cálculo); 5, 15 (probabilidades) e 14.2 (estimação). A tabela 1 mostra estes itens e as respetivas
percentagens de acerto.
Seguidamente, encontra-se uma análise qualitativa dos componentes e dos itens com maior
erro percentagem de erros, incluindo os tipos de erro cometidos. Todas as respostas a estes
itens são apresentadas no anexo H (tabela H1 a H6).
Itens de cálculo.
Os itens deste domínio avaliaram a capacidade de realizar operações aritméticas que
envolviam números decimais, frações e raízes quadradas. Nos itens da questão 4 (cf. tabela
H1), apenas 17% dos alunos conseguiram calcular √0.09 (item 4.01), sendo que a grande
maioria não respondeu e outros evidenciaram dificuldade nas atribuições das casas decimais
(i.e., respondem 0.03 ou 0.003), ou trocaram a operação da raiz pelo quadrado. No item 4.2, os
alunos mostraram não saber as regras para multiplicar números com casas decimais. A resposta
0.06 (no cálculo de 0.02x0.12) que alguns alunos indicam sugere que estavam completamente
perdidos com as operações acabando por dividir 0.12 por 2. A maioria dos alunos (cerca de
66%) não conseguiu ordenar corretamente os números, no item 8, mostrando dificuldade em
converter os números decimais em fracionários ou vice-versa.
Itens de raciocínio algébrico.
No que concerne aos 10 itens de raciocínio algébrico estes avaliaram a capacidade dos
alunos em trabalhar com sistemas algébricos familiares (6.1, 6.2, 6.3, 9.1, 9.2, 9.3, 13, 16) e
não familiares (3.1, 3.2). Os alunos mostraram não perceber as propriedades comutativa e
distributiva das operações (cf. tabela H2): apenas 6% responderam corretamente ao item 3.1 e
28% ao item 3.2. Percebe-se também dificuldade em averiguar o efeito de multiplicar um termo
Tabela 1. Itens do teste de matemática com menos acertos
Componente Item % acertos
Cálculo 4.1 Calcula raiz.09 17
Raciocínio algébrico
3.1 Supõe que definimos a * b como querendo dizer a + 2b. É
verdade que: a * b = b * a 6
9.2 a e b são dois números. Se duplicarmos a e b, que efeito tem
isso em cada uma das seguintes expressões? a2+b2 0
9.3 * 1/(2a+b) 6
Probabilidades
5
Quarenta peixes foram capturados num lago. Cada um deles foi
depois marcado e lançado de volta ao lago. Alguns dias depois, 60
peixes foram capturados no mesmo lago e entre eles havia quatro peixes marcados. Estima o número total de peixes no lago.
11
15
Um jogo de squash pode ser jogado até 9 ou 15 pntos. Se
mantivermos constantes todas as outras regras do jogo, e se o jogador
A for melhor do que o jogador B, que sistema de pontuação dá ao
jogador A uma maior probabilidade de ganhar?
6
Estimação 14.2 Estima o resultado (não tentes calcular): 85.63 − 1.2384
101.46 − 97.88
0
14
algébrico de uma expressão por dois, sendo que nenhum aluno acertou no item 9.2 que envolve
quadrados, e apenas 6% acertou no item 9.3 (cf. tabela H3).
Ainda, no problema 16, que pede a solução de uma expressão algébrica (3b2-abc, quando
a=3, b=-2 e c=7), apenas 33% responderam corretamente. Os alunos que responderam “30”
revelam não saber que o quadrado de um número negativo é um número positivo, os que
responderam “-30” não souberam subtrair de um número negativo (corresponde a adicionar),
e as outras respostas revelam desconhecimento de outras convenções matemáticas como: 3b2
é diferente de (3b)2 e multiplicar dois números positivos por um negativo resulta num produto
negativo.
Itens de interpretação de gráficos.
Este foi o componente com maior percentagem de respostas corretas (M=68% de acertos).
A generalidade dos alunos mostrou conseguir extrair informação de gráficos e esquemas
analógicos. A maior dificuldade dos alunos nos itens deste componente dizia respeito à
atribuição de casas decimais nas escalas dos itens 18.1 ao 18.4, embora a maioria tenha
conseguido responder corretamente.
Itens de proporcionalidade e rácio.
Alguns alunos revelaram não perceber o conceito multiplicativo de proporcionalidade,
utilizando inadequadamente a estratégia de adicionar. No item 17.1 os alunos que responderam
“9” focaram-se no facto de que RT é 2 unidades maior que AC, e concluem que RS é também
duas unidades maior que AB. No item 17.2 50% dos alunos obtiveram a resposta correta “10”
e outros realizaram um cálculo de proporção, mas com o coeficiente de proporcionalidade
errado, aumentaram 15 em 0.5 e não em ⅓.
Itens de probabilidades.
Este foi o componente em que os alunos revelaram mais dificuldades, com apenas 8% de
acerto nos itens. No item 5 mostraram desconhecimento sobre o conceito de amostra, não
conseguindo estimar um parâmetro para a população (proporção) a partir de uma estatística
amostral (cf. tabela H4), e no item 15, sobre o efeito do tamanho da amostra na variabilidade
(cf. tabela H5).
Itens de estimação.
Nenhum aluno conseguiu obter um estimador razoável no item 14.2, apesar da amplitude
“generosa” (Mulhern & Whylie, 2005) para respostas consideradas corretas. Apesar dos
resultados serem melhores no item 14.1 (33% de acertos), a maioria dos alunos não conseguiu
estimar um valor para as duas subtrações e divisão (cf. tabela H6).
15
Em suma, os componentes do teste de matemática onde os alunos revelaram maior
dificuldade e desconhecimento foram Probabilidades e Estimação, e, em menor grau,
Raciocínio Algébrico. No geral muitos alunos não respondem aos itens, sendo que, em cada
item, verificou-se uma média de cerca de 17% de não respostas. No item 4.3 esta percentagem
atinge os 56% (item 4.3 – “Calcula: 40 ÷ 0.8”).
Teste de Estatística
A pontuação média no teste de estatística foi negativa: 40.7% (17.1 em 42), s=17.1, e os
resultados variaram entre 4.8% e 64.3%. A distribuição apresenta uma assimetria à esquerda,
evidenciando que há um maior número de alunos a pontuar abaixo da média. Apesar do teste
de Shapiro-Wilk apontar para uma distribuição normal dos dados, (W=.908, p=.084)
considerando α=.05, a análise dos boxplot e Q-Q plots apontam para a não normalidade dos
dados (cf. gráficos I1 e I2 no anexo I, respetivamente).
O gráfico J1 (cf. Anexo J) mostra a proporção de respostas corretas para cada um dos itens
e por componente. O gráfico 2 (em baixo) mostra as proporções de respostas corretas para cada
um dos 9 componentes e a pontuação média da amostra – linha vermelha.
Gráfico 2. Proporção de respostas corretas por componente
As proporções de resposta correta nos 9 componentes diferiram significativamente entre
si (F (8, 18) = 5.902, p<0.001). Notam-se que as proporções de respostas corretas foram
particularmente baixas para os componentes “Simulação” e “Probabilidades”, seguindo-se
“Intervalos de Confiança” e “Medidas de dispersão” e “Testes de Hipótese”.
As análises post hoc (cf. Anexo K) indicaram que o componente “Tamanho da amostra”
obteve valores significativamente diferentes do que os dos componentes “Medidas de
16
dispersão”, “Intervalos de confiança”, “Testes de hipótese”, “Simulação” e “Probabilidades”
(o nível de significância foi corrigido segundo a correção de Bonferroni: α*=0.0014). As
pontuações do componente “Medidas tendência central” também foram significativamente
diferentes (maiores) do que as do componente “Simulação”.
Análise qualitativa por componente e erros mais comuns.
No teste de estatística, 9 dos 42 itens apresentaram uma baixa percentagem de respostas
corretas: itens 2, 3b (medidas de dispersão); 6, 16, 25a, 26, 27 (testes de hipóteses); 28 e 29f
(intervalos de confiança). Consideraram-se itens com maior percentagem de erros, os com 4
ou 5 opções de respostas que obtiveram 2 ou menos respostas corretas e os de resposta aberta
ou V/F que obtiveram 3 ou menos respostas corretas. A tabela 2 mostra estes itens e as
respetivas percentagens de acerto.
Tabela 2. Itens do teste de estatística com menor percentagem de acerto
Componente Item % acertos
Medidas de
dispersão
2 Quatro scores num teste de memória foram 0, 2, 2, 4. Calcula a variância destes dados e mostra os
teus cálculos no espaço em baixo. 6
3b
A caixa de bigodes à direita representa uma distribuição de tempos de maratona.
Qual o intervalo interquartílico? 0
Testes de
hipótese
6
1. Qual seria a melhor maneira de descrever o contexto e o objetivo de um teste de hipótese?
2. a. Estás a analisar um estudo e precisas de mostrar se o acaso pode explicar os resultados 3. b. Estás a analisar um estudo e precisas de estabelecer a validade da hipótese nula
4. c. Estás a projetar um estudo e precisas de um sistema para alocar os sujeitos a diferentes grupos
5. d. Estás a analisar um estudo e precisas de estabelecer uma margem de erro
11
16
1. (…) Normalmente 15% dos pacientes atendidos por problemas respiratórios voltam ao médico no
espaço de 10 dias. O serviço deseja testar um novo procedimento no qual o médico pede que o
paciente regresse 2 dias após a visita inicial. Qual das alternativas a seguir seria uma parte apropriada da análise dos dados obtidos com este novo procedimento?
2. a. Teste de uma amostra para determinar se uma proporção difere de um valor padrão, de
referência.
3. b. Um intervalo de confiança em torno de uma média. 4. c. Um teste de duas amostras para diferença de médias.
5. d. Um teste de diferença de proporções para amostras emparelhadas.
6
25a Significância estatística quer dizer que a probabilidade do resultado se dever ao acaso é inferior a
5%.V/F? 17
26
6. Um estudo sobre um novo medicamento revelou que no grupo experimental 17 em 20 pacientes
ficaram curados, e no grupo controlo apenas 9 em 20 ficaram curados. Seleciona a alternativa
correta:
7. a. As amostras do estudo são emparelhadas. 8. b. A diferença de proporções entre as duas amostras é de 0.4. A um nível de significância de 0.05
devemos aceitar a hipótese nula: não há diferenças entre as amostras.
9. c. A amostra não tem dimensão suficiente para se poder decidir sobre a eficácia do medicamento.
d. Um valor p < 0.05 indica que a diferença observada entre as amostras é rara, e por isso podemos rejeitar a hipótese nula (se considerarmos a=0.05)
6
27
Escolhe a alternativa correta. Em geral, o valor p é: a. O valor de um teste estatístico. b. O valor de uma proporção. c. Um valor tabelado para os testes de hipóteses. d. Uma medida de dispersão.
11
Intervalos
de
Confiança
28 Em 2013, a DGS reportou que “45% dos adultos em Portugal vivem com uma ou mais doenças crónicas”, e que o erro padrão para esta estimativa era de 1.2%. Constrói um intervalo de confiança
(IC) a 95% para a proporção de adultos portugueses com uma ou mais doenças crónicas. (z=1.96) 0
29f Se quisermos diminuir o erro padrão do estimador, deveríamos utilizar instrumentos com maior
validade de construto. V/F? 0
17
De seguida encontra-se uma análise qualitativa dos componentes e dos itens com maior
erro percentagem de erros, incluindo os tipos de erro cometidos. Todas as respostas
apresentadas nestes itens estão no anexo L (tabelas L1 a L9)
Itens sobre medidas de tendência central.
Cerca de 64% dos alunos responderam corretamente aos itens deste componente,
mostrando saber calcular a média de uma amostra e identificar a mediana num boxplot.
Itens sobre medidas de dispersão.
Cerca de 6% dos alunos conseguiram calcular a variância de um conjunto de 4 scores),
sendo que os outros não responderam (61%), apresentaram a média (6%) ou a fórmula a
variância que utilizaram estava errada (11%) (cf. tabela L1).
Ainda, cerca 60% revelaram desconhecimento sobre este conceito (4), com ~28% dos
alunos a definir variância como a raiz quadrada do desvio padrão. Nenhum aluno respondeu
corretamente ao item 3b, que questionava sobre o intervalo interquartílico, a partir da leitura
num boxplot (cf. tabela L2).
Itens sobre Interpretação de gráficos.
Mais de 50% dos alunos responderam corretamente aos itens que envolvem leitura e
interpretação gráficos de dispersão, boxplots, dotpltos e gráficos de barras. Os itens deste item
com maior percentagem de erros são itens associados a outros temas da estatística, “Medidas
de Dispersão” (item 3a) ou “Correlação e Regressão Linear” (itens 19 e 20).
Itens sobre testes de hipóteses.
As respostas aos itens 6 e 16 (cf. tabelas L3 e L4) revelaram que alguns alunos não
compreendem o contexto e o objetivo de um teste de hipótese: 11% respondeu corretamente
que o teste de hipóteses testa se os resultados observados podem ser devidos ao acaso (item 6),
sendo que a grande maioria (67%) atribuiu que o objetivo do teste de hipótese é estabelecer a
validade da hipótese nula. No item 27 (6% de acertos), cerca de 40% dos alunos definiram o
p-value como um resultado de um teste estatístico e 22% como um valor tabelado (cf. tabela
L7). Ainda, a maioria revelou dificuldade a interpretar os conceitos de nível de significância e
a concluir uma decisão em função do p-value (17% de acertos nos itens 17 e 25 – cf. tabela Ç5
e 6% de acerto no item 26 – cf. tabela L6).
Itens sobre intervalos de confiança.
Nenhum aluno conseguiu calcular o intervalo de confiança (IC) a 95% para uma
proporção, quando facultado o erro padrão e o valor crítico (28 – cf. tabela L8). Muitos
revelaram também não saber o efeito do nível de confiança na amplitude do intervalo: apenas
18
22% respondeu corretamente ao item 29e, que avalia a diferença do tamanho do intervalo entre
um IC95% e um IC90%.
Também, nenhum aluno classificou com falsa a afirmação “Se quisermos diminuir o erro
padrão do estimador, deveríamos utilizar instrumentos com maior validade de construto” (29f),
o que revelou completo desconhecimento sobre este tema (cf. tabela L9).
Itens sobre correlação e regressão linear.
As questões sobre correlação entre duas variáveis que requerem leitura de gráficos
obtiveram 50% de acertos (19, 20). No entanto, alguns alunos mostraram não compreender o
objetivo de análise de regressão, acreditando que a reta de regressão permite prever resultados
nas extremidades da reta, i.e., valores exteriores ao intervalo dos dados.
Itens sobre tamanho da amostra.
Cerca de 65% dos alunos respondeu corretamente às questões deste componente,
mostrando saber o efeito do tamanho da amostra na precisão do estimador (9, 13, 29g), no
poder do teste (14) e na probabilidade de obter um efeito significativo (11).
Itens sobre simulação.
Verificaram-se 17% de acertos no item 18, que questionou sobre o procedimento de
simulação de resultados esperados segundo o acaso, para testar a aleatoriedade (ou não) dos
dados observados.
Itens sobre probabilidades.
As respostas ao item 12 revelaram que a maioria dos alunos (78%) não conseguiu avaliar
os acontecimentos A e B como independentes, determinar as probabilidades dos
acontecimentos complementares e calcular a probabilidade pedida, da interseção destes dois.
Em suma, os temas com os quais os alunos revelaram maior desconhecimento e mais
dificuldades foram “Probabilidades”, “Simulação”, “Testes de Hipótese” e “Intervalos de
Confiança”. Salienta-se a grande quantidade de não-respostas aos vários itens. Em média, em
cada item, 25% dos alunos não respondeu. Especificamente no item 28 (cálculo de IC 95%)
ninguém respondeu, e nos itens 2 (cálculo da variância) e 29c (V/F sobre interpretação de IC)
mais de metade não respondeu.
SATS-28.
As pontuações dos quatro componentes do SATS-28 seguem uma distribuição normal
(Afeto: W=.976, p=0.898; Competência cognitiva: W=.901, p=0.06; Valor: W= .968, p= .767;
Dificuldade: W=.978, p= .925)
19
Os alunos pontuaram mais elevado na dimensão “Valor” (M=5.46, s=0.9), evidenciando
que consideram a Estatística útil e relevante para a vida profissional. A baixa pontuação na
dimensão Dificuldade (M=2.9, s=0.68) revelou que os alunos consideraram a Estatística uma
matéria difícil. Relativamente às dimensões Competência Cognitiva (M = 4.75, s= 0.9) e Afeto
(M = 3.95, s = 1.37) os alunos revelaram uma atitude mais neutra, visto as pontuações estarem
mais concentradas no valor central da escala (4). Os valores comparativamente baixos do
desvio-padrão mostraram que os estudantes têm atitudes tendencialmente homogéneas acerca
da Estatística (coeficientes de variação entre 14.6% e 23.4%). Aqui exclui-se a dimensão Afeto,
que mostrou uma maior dispersão dos dados (coeficiente de variação de 34,6%, com
pontuações médias individuais a variar entre 1.67 e 6.83), indicando uma maior
heterogeneidade de opiniões dos alunos sobre os sentimentos em relação à estatística.
Questionário geral
Todos os 18 alunos conheciam o Microsoft Excel, mas apenas 10 indicaram utilização
prévia do mesmo (e. g. para trabalhos académicos, organizar informação em tabelas e gráficos),
sendo que 4 deles referiram saber fazer análise estatística com este software.
A grande maioria dos alunos (14) indicou saber realizar análises estatísticas com outro
software (SPSS=13; Minitab=1; R=1). Ainda assim, quatro alunos revelaram não conseguir
realizar análises estatísticas com qualquer software.
No geral, os alunos concordaram que a Estatística é importante na Psicologia, não só para
a vertente de investigação, mas também para o típico profissional de Psicologia.
As opiniões em relação ao ensino de Matemática e Estatística que tiveram na sua formação
académica prévia foram mistas: 6 indicaram estar descontentes (pontuaram 1 ou 2) e 10
indicaram estar contentes (pontuaram 4 ou 5). Muitos alunos consideraram ter conhecimentos
de estatística (10 pontuaram 4 ou 5 nesta questão) mas não de probabilidades (apenas 5
concordaram que entendem teoria de probabilidades). A grande maioria (15) concordou que a
Estatística é difícil.
Análises de correlação
Houve uma correlação positiva moderada significativa entre as pontuações nos testes de
Estatística e de Matemática (r=.52, p=.027). As pontuações no teste de Matemática parecem
explicar cerca de 27% da variabilidade dos resultados em estatística.
As pontuações nas quatro dimensões da atitude em relação à Estatística, avaliadas pela
escala SATS-28, não se relacionaram significativamente com os resultados no teste de
Estatística.
20
Discussão
O primeiro objetivo deste estudo foi a avaliação das competências matemáticas e
estatísticas e da atitude em relação à Estatística da amostra de alunos licenciados em Psicologia
Primeiramente, os resultados obtidos sugerem que os alunos apresentam dificuldades e
desconhecimento sobre vários temas da Estatística. Os temas Simulação e Probabilidades
surgiram como aqueles com menor percentagem de respostas corretas, no entanto, dado o facto
de que cada um é constituído por apenas um item e de escolha múltipla, a avaliação não foi
suficiente e adequada para perceber as dificuldades com estes dois temas. Em relação ao tema
de medidas de dispersão, com baixa percentagem de acertos médios, a maioria revelou não
saber calcular nem identificar a fórmula da variância de uma amostra, bem como indicar o
intervalo interquartílico de uma distribuição. Não obstante, este facto não indica que os alunos
não conheçam estes conceitos nem os consigam interpretar e aplicar corretamente, i. e. o aluno
pode não saber a fórmula nem conseguir calcular uma dada estatística, mas sabe o que
representa e consegue interpretá-la.
Assim, os temas estatísticos que os alunos revelaram sistematicamente mais dificuldades
e desconhecimento foram os Testes de Hipóteses e os Intervalos de Confiança. O teste de
hipótese traduz-se num método para auxiliar à tomada de decisão sobre se a evidência apoia
ou não uma hipótese estatística, testando a hipótese nula de que os dados observados são
devidos ao acaso. O “famoso” p-value, que acompanha os testes de hipótese, consiste na
proporção de estatísticas amostrais hipotéticas, numa distribuição de amostras aleatórias
(simuladas repetidamente sob o acaso), que obtiveram um resultado igual ou ainda mais
extremo que a estatística amostral observada. Quando esta proporção é muito pequena, i.e.,
rara, é provável que não seja a flutuação do acaso a justificar a evidência, mas sim a
“manipulação” experimental. Tradicionalmente, na Psicologia define-se o nível de
significância α = .05, pelo que se decide a favor da hipótese estatística quando o p-value, a
proporção de resultados iguais ou mais extremos que os observados, é menor que .05. O teste
de hipótese surge como uma ferramenta para análises estatísticas inferenciais muitíssimo
utilizada na Psicologia (Cassidy et al., 2019).
Em relação aos Intervalos de Confiança, os mesmos consistem no conjunto de valor
plausíveis de um determinado parâmetro populacional, estimado a partir da estatística amostral.
A utilização dos intervalos de confiança na comunicação científica é sugerida por vários
autores e “fortemente recomendada” pela APA (APA, 2001, p. 34).
21
Os resultados sobre os défices estatísticos acima descritos corroboram os encontrados na
literatura. Frequentemente os alunos revelam dificuldades com os testes de hipótese,
particularmente o objetivo do teste, a significância estatística e p-value. Também os intervalos
de confiança são comumente mal-entendidos, sendo por vezes interpretados como uma
probabilidade de que o parâmetro populacional esteja entre os valores reportados no intervalo.
Ambos os conceitos estão associados à ideia abstrata de repetir fenómenos aleatórios
sucessivamente, o que constituiu uma noção de difícil entendimento (Cassidy et al., 2019;
Sotos et al., 2007).
O segundo objetivo deste estudo foi estudar a relação entre as competências estatísticas e
variáveis (1) competências matemáticas e (2) atitude em relação à estatística. Os resultados
deste estudo indicam que os défices nas competências estatísticas parecem relacionar-se com
os défices nas competências Matemáticas (correlação moderada significativa). Embora esta
relação esteja prevista na literatura (Carpenter & Kirk, 2017; Dempster & McCorry, 2009;
Greer & Semrau, 1984; Mulhern & Wylie, 2004, 2005), estes estudos carecem de uma medida
objetiva da competência em estatística, que permita efetivamente afirmar que estas variáveis
se relacionam. Desta forma, os resultados obtidos vieram clarificar e confirmar esta hipótese.
Nas dificuldades matemáticas encontradas nos alunos, salientam-se as dos componentes
das Probabilidades e Estimação, e, em menor grau, as do componente Raciocínio Algébrico.
Este padrão de défice foi consistente com o descrito na literatura (Carpenter & Kirk, 2017;
Mulhern & Wylie, 2004, 2005), sendo que os erros cometidos pelos alunos foram coincidentes
com os relatados pelos autores. O Raciocínio Algébrico surge como importante na Estatística
em situações onde é necessário reconhecer o impacto de uma expressão algébrica, na
recodificação de variáveis (pés para metros; graus centigrados para Fahrenheit), bem como
para interpretar percentis e z-scores. Também, a capacidade de estimar, na Estatística, mostra-
se importante na medida em que a maioria das operações estatísticos são realizadas por
software. O aluno deve conseguir estimar um valor razoável para essas operações, e avaliar a
plausibilidade do resultado do software (Mulhern & Wylie, 2004). Os problemas com
Probabilidades e Amostragem podem ser considerados particularmente preocupantes dada a
natureza inerentemente probabilística da estatística. Uma possível explicação para este
resultado, apontada por Mulhern & Wyllie, 2005, poderá ser o facto de que a natureza dos itens
que avaliaram este tema forma baseados em exemplos fora da Psicologia (peixes e jogo de
squash). Também, sabe-se que o raciocínio intuitivo é caracterizado por heurísticas e vieses,
que deturpam a tomada de decisão sob incerteza, onde interage o raciocínio probabilístico. No
que diz respeito ao item 15 sobre jogo de squash, o erro cometido de considerar indiferente o
22
sistema de pontos, refere-se a um viés comum na intuição estatística, reportado por Tversky e
Kahenaman (1974; 1982). Este constituiu uma heurística de representatividade,
especificamente a insensibilidade ao tamanho da amostra (Tversky & Kahenaman, 1974;
1982).
No que diz respeito à atitude em relação à estatística as pontuações no teste de estatística
não se relacionaram com nenhum componente da SATS-28. Embora este seja um construto
bastante abordado na literatura e tido como relacionado com as competências estatísticas, os
resultados obtidos neste estudo não corroboram a presente dissertação. No entanto, os estudos
que reportam a importância da atitude em relação à Estatística, semelhantemente aos que
abordam a importância das competências matemáticas, não medem objetivamente a
competência em estatística das amostras, pelo que não podem efetivamente afirmar que estas
variáveis se relacionam (Prayoga & Abraham, 2017; Schau, 2003; Schau, Stevens, Dauphinee,
& Del Vecchio, 1995; Schau, Miller, & Petocz, 2012; Silva, Oliveira, & Miguel, 2013).
Também, a escala SATS-28 poderá não ser um instrumento adequada para avaliar a atitude em
relação à estatística, justificando assim a ausência de relação entre estas variáveis. Por outro
lado, o tamanho pequeno da amostra pode induzir a um erro de tipo 2, sendo necessário mais
investigação para averiguar a relação entre estas variáveis.
Confrontado os défices identificados nos alunos com o relatado na literatura sobre o ensino
da Estatística, urge a necessidade de concretizar conceitos tidos como abstratos e fomentar o
desenvolvimento do pensamento estocástico. O ensino da estatística deve potenciar a
aprendizagem ativa dos alunos, no qual os mesmos são responsáveis pela aquisição dos
conhecimentos. É necessário repensar e reformular as metodologias de ensino.
Uma abordagem ao ensino da Estatística, alternativa ao cálculo teórico e às definições
clássicas, preferidos a priori, consiste na metodologia de Simulação e Reamostragem –
Resampling. A simulação é o processo artificial de reprodução de um fenómeno aleatório, que
permite modelar o comportamento das variáveis aleatórias, i.e., criar um modelo da realidade
(entende-se modelo como “uma interpretação abstrata, simplificada e idealizada de um objeto
do mundo real” (Henry, 1997 cit. in Fernandes, Barnabeu, García, & Batanero, 2009). A
simulação pode ser obtida a partir de uma distribuição teórica conhecida (Normal, Poisson,
entre outras) ou a partir de uma amostra de dados reais (Resampling). Os métodos de
Resampling utilizam os valores observados de uma amostra, para criar (com ou sem reposição)
amostras empíricas.
23
A Simulação e o Resampling têm vindo a ser utilizados como instrumento experimental,
ao longo da história, no desenvolvimento das teorias e métodos em probabilidades e estatística
(Behrends & Buescu, 2014; Goldsman, Nance & Wilson, 2009; Harrison, 2010; Stiegler,
1991), ainda antes do desenvolvimento do cálculo combinatório. Por exemplo, em 1908, W. S.
Gosset (1876-1937), no estudo da distribuição-t, simulou 750 amostras de n=4, a partir de 3000
cartões identificados com medidas antropométricas de criminosos (amostragem com
reposição) (Harrison, 2010; Stiegler, 1991). Durante a segunda guerra mundial, Neumann &
Ulam utilizaram a simulação para estudar o comportamento de partículas atómicas, tendo
denominado o método de Monte Carlo (Harrison, 2010).
Estes métodos permitem inferir probabilidades, realizar testes de hipótese, estimar
parâmetros populacionais (e.g. sob a forma de intervalos de confiança), realizar análises de
variância, entre outros. Permitem soluções aproximadas para um grande espectro de problemas
estocásticos e servem múltiplos propósitos da análise estatística.
O surgimento de computadores e o avanço da tecnologia tornaram estes métodos mais
fáceis, acessíveis e rápidos (Christie, 2004; Chance & Rossman, 2006; Lane & Peres, 2006;
Leong, 2007; Johson, 2001; Rickets & Berry, 1994; Simon & Bruce, 1991; Simon, 1997; West,
2014).
Assim, a abordagem Resampling tem vindo a ser implementada no ensino Probabilidades
e Estatística, recorrendo a ferramentas tecnológicas, e tem vindo a revelar vantagens (Dias,
2015; Filho, 2010; Rickets & Berry, 1994; Simon, 1997; Simon & Bruce, 1991; West, 2014).
No geral, a metodologia de Simulação e Resampling permite materializar conceitos
abstratos, potencia uma aprendizagem ativa, pela explicação dinâmica dos conceitos e
princípios estatísticos, ultrapassa alguns constrangimentos do cálculo matemático e
combinatório e contribui para o desenvolvimento do pensamento estocástico e da motivação
dos alunos (Chance & Ross, 2006; Christie, 2004; Dias, 2015; Fernandes, Barnabeu, García &
Batanero, 2009; Filho, 2010; Lanes & Peres, 2006; Rickets & Berry, 1994; Simon, 1997; Simon
& Bruce, 1991; West, 2014).
A utilização de softwares como ferramenta de ensino, em particular numa geração
tecnológica, traz várias vantagens. Como sabido, a análise estatística na Psicologia é
habitualmente realizada com recurso a softwares, onde não é necessário conhecer a fórmula da
variância ou de outras medidas, e é possível, de forma proficiente obter o valor, interpretá-lo e
reportá-lo nas suas comunicações. Torna-se preocupante esta facilidade técnica, na utilização
de uma ferramenta ilusoriamente inteligente para conduzir análises; quando os processos se
mecanizam deixamos de pensar! Aqui, alunos e alguns investigadores, tornam-se utilizadores
24
de estatística, solicitando ao software resultados de testes desconhecidos, com terminologia
estranha, apresentados em inúmeras tabelas e gráficos. Isto leva a escolhas erradas sobre os
testes adequados a uma dada hipótese em estudo e a erros na interpretação dos resultados (veja-
se o utilizador a “tentar encontrar” resultados estatisticamente significativos nas dezenas de
tabelas que são apresentadas nos softwares). Os métodos de Simulação e Resampling requerem
o entendimento físico do problema e a operacionalização de um método fiável para estudá-lo,
parecem menos propensos a uma postura passiva de utilizador, mesmo que realizados num
software.
Contudo, apesar das potencialidades referidas, este método também acarreta
constrangimentos e limitações: obriga à compreensão física da estrutura do problema, de forma
intuitiva; é necessário que os alunos aprendam a utilizar um software desconhecido; não
fornece o verdadeiro valor teórico de uma probabilidade; requer tempo, do aluno na exploração
do software e no desenvolvimento do raciocínio estocástico, e do professor, na planificação
das estratégias didáticas; os alunos podem demonstrar resistência em utilizar a simulação e em
aceitar um valor aproximado; (Fernandes, Barnabeu, García, & Batanero, 2009; Dias, 2015;
West, 2014). Desta forma, propõe-se que os alunos realizem experiências com recurso a objetos
manipuláveis (como dados, cartas, ou criando urnas), para que seja facilitada a compreensão
do método de simulação, e que, no cálculo de probabilidades, os resultados aproximados
obtidos por simulação sejam comparados aos valores teóricos calculados formalmente.
Em investigações futuras seria importante estudar a aparente superioridade desta
metodologia em oposição à metodologia clássica, a fim de contribuir para a disseminação da
utilização deste método. Seria pertinente, por exemplo, a realização um estudo quasi
experimental com dois momentos de avaliação, utilizando a abordagem de Simulação e
Resampling no ensino de Probabilidade e Estatística a uma amostra de alunos de Psicologia, e
comparando as competências matemáticas e estatísticas destes pré e pós. Dado o relatado na
literatura sobre a diferença dos géneros nas capacidades matemáticas (homens obtém melhores
resultados), parece importante também a caracterização sociodemográfica da amostra, e que
esta seja representativa da população de alunos de Psicologia.
A emergência da pandemia COVID-19 e a adoção dos métodos de ensino à distância
trouxe grandes constrangimentos aos objetivos inicialmente propostos neste estudo e obrigou
a uma reformulação do procedimento. Pretendia-se, como sugerido para investigação futura, a
avaliação das potenciais vantagens dos métodos de Simulação e Reamostragem no ensino de
Probabilidades e Estatística, em alternativa à metodologia clássica, comparando as
25
competências matemáticas e estatísticas da amostra de alunos pré e pós o ensino desta
abordagem. Propunha-se a utilização do software arSim add-in (Machado, 2020) como
ferramenta para realizar os procedimentos de Simulação e Reamostragem nas análise estatística
e computação de probabilidades, bem como o respetivo manual tutorial desenvolvido no
decorrer do trabalho da presente dissertação (cf. anexo M). Pretendia-se também a avaliação
da usabilidade do arSim add-in, com a System Usabity Scale (SUS)2 (Brooke, 1996, 2013;
Bangor, Kortum & Miller, 2008; Lewis & Sauro, 2009). Dada a diminuição da utilização do
arSim add-in e do meu acompanhamento à aplicação do mesmo, pelos motivos indicados, o
momento de avaliação final não foi realizado, pelo que não foi possível essa análise
comparativa.
Conclui-se que este estudo contribuiu para o maior entendimento das dificuldades dos
alunos com a Estatística, sendo o primeiro a relacionar objetivamente estas dificuldades com
as competências matemáticas e a atitude em relação à Estatística. Note-se que os alunos do
presente estudo são alunos de quarto ano, já em Mestrado, licenciados e com formação prévia
em Estatística e em Matemática, e que os alunos habitualmente referidos na literatura são de
primeiro ano, em introdução à estatística (Carpenter & Kirk, 2017; Mulhern & Wylie, 2004,
2005). Assim, as fracas competências matemáticas encontradas nesta amostra de alunos
poderão ser mais graves e preocupantes.
Destaca-se que as competências matemáticas são importantes para o sucesso na
Estatística, e que os professores, no ensino, não podem assumir que os alunos têm os
conhecimentos de matemática básicos. Salienta-se a importância de continuar a investir no
ensino da estatística em Psicologia, repensando sobre as metodologias adotadas, atendendo ao
valor instrumental e conceptual das teorias de Probabilidades e Estatísticas na Psicologia.
Referências
APA (2001). Publication manual of the American Psychological Association (5th ed.).
Washington, DC: American Psychological Association.
Aron, A., Coups, E. J., & Aron, E. N. (2013). Statistics for Psychology, 6th Edition (6th ed.).
New Jersey: Pearson Educatios, Inc.
2 A SUS (Brooke, 1996) avalia a perceção do respondente sobre a usabilidade de um sistema de computador. É
constituído por 10 itens sobre eficácia, eficiência e satisfação com o sistema, e usa uma escala de resposta de
Likert de 5 pontos. A SUS está tem demonstrado boas propriedades psicométricas (Brooke, 1996, 2013; Bangor,
Kortum & Miller, 2008; Lewis & Sauro, 2009) e está adaptada para a população portuguesa (Martins et al.,
2015), embora não esteja validada.
26
Bangor, A., Kortum, P. T., Miller, J. T. (2008). An empirical evaluation of the system
usability scale. International Journal of Human-Computer Interaction. 24, 574-594.
Brooke, J. (2013). SUS: A retrospective. Journal of Usability Studies, 8(2), 29–40. Retrieved
from https://uxpajournal.org/sus-a-retrospective/
Brooke, J. (1996). SUS: A “quick and dirty” usability scale. in P. W. Jordan, B. Thomas, B.
A. Weerdmeester & I. L. McClelland (eds.) Usability Evaluation in Industry (pp. 189–
194). London, UK: Taylor & Francis.
Carnap, R. (1995). An Introduction to the Philosophy of Science. New York: Basic Books,
Inc.
Carpenter, T. P. & Kirk, R. E. (2017): Are psychology students getting worse at math?:
Trends in the math skills of psychology statistics students across 21 years, Educational
Studies. doi: 10.1080/03055698.2016.1277132
Cassidy, S. A., Dimova, R., Giguère, B., Spence, J. R., & Stanley, D. J. (2019). Failing
Grade: 89% of Introduction-to-Psychology Textbooks That Define or Explain Statistical
Significance Do So Incorrectly. Advances in Methods and Practices in Psychological
Science, 2(3), 233–239. doi: 10.1177/2515245919858072
Chance, B. & Rossman, A. (2006). Using simulation to teach and learn statistics. In A.
Rossman & B. Chance (Eds.), Technology in Statistics Education: 7th International
Conference on Teaching Statistics. Bahia, Brazil. Retrieved from
https://www.ime.usp.br/~abe/ICOTS7/Proceedings/index.html
Chritie, Derek (2004). Resampling with Excel. Teaching Statistics, 26 (1), 9-14.
Cowles, M. (2001) Statistics in Psychology: An Historical Perspective (2nd ed.). New Jersey:
Lawrence Erlbaum Associates, Inc.
Dauphinee, T.L., Schau, C., & Stevens, J.J. (1997). Survey of attitudes toward statistics:
Factor structure and factorial invariance for females and males. Structural Equation
Modeling, 4, 129–141.
Dias, A. (2015). O uso da simulação no cálculo de probabilidades (Master thesis, Instituto
Politécnico de Leiria). Retrieved from http://hdl.handle.net/10400.8/1625
Diez, D. M., Barr, C. D., & Çetinkaya-Rundel, M. (2014). Introductory Statistics with
Randomization and Simulation (1st ed.). CreateSpace Independent Publishing Platform.
Fernandes, J. A. (1999). Intuições e Aprendizagem de Probabilidades: Uma
Proposta de Ensino de Probabilidades no 9º Ano de Escolaridade (Doctoral dissertation,
Universidade do Minho, Braga.)
27
Fernandes, J. A., Barnabeu, C. B., García, J. M. C. & Batanero, C. D. (2009). A simulação
em probabilidades e estatística: potencialidades e limitações. Quadrante, 18 (1,2), 161-
183. Retrieved from https://quadrante.apm.pt/index.php/quadrante/article/view/15
Filho, A. S. S. (2010). Inferência em amostras pequenas: Métodos bootstrap. Revista de
Ciências Exatas e Tecnologia, 5 (5), 115-126.
Fitzmaurice, O., Leavy, A., & Hannigan, A. (2014). Why is statistics perceived as difficult
and can practice during training change perceptions? Insights from a prospective
mathematics teacher. Teaching Mathematics and Its Applications, 33(4), 230–248. doi:
10.1093/teamat/hru010
Gelman, A. & Nolan, D. (2002). Teaching Statistics: A Bag of Tricks. New York: Oxford
University Press Inc.
Goldsman, D., Nance, R. E. & Wilson, J. R. (2009) A brief history of simulation. In M.
Rosseti, R. R. Hill, A. Dunkin & R. G. Ingald (eds). Proceedings of the 2009 Winter
Simulation Conference (pp 310-313).
Greer, B. & Semrau, G. (1984). Investigating psychology students' conceptual problems in
mathematics in relation to learning statistics. Bulletin of the British Psychological
Society, 37, 123–125.
Guilford, J. P. (1950). Fundamental statistics in psychology and education (2nd ed.). New
York, NY, US: McGraw-Hill.
Hanley, J., Julien, M. &Moodie, E. (2008). Student's z, t, and s: What if Gosset had R?. The
American Statistician, 62 (1), 64-69. doi:10.1198/000313008X269602
Harrison R. L. (2010). Introduction to monte carlo simulation. AIP Conference Proceedings,
1204, 17-21. doi: 10.1063/1.3295638.
Hesterberg T. C. (2015). What teachers should know about the bootstrap: resampling in the
undergraduate statistics curriculum. The American statistician, 69 (4), 371–386.
https://doi.org/10.1080/00031305.2015.1089789
Howitt, D. & Cramer, D. (2011). Introduction to Research Methods in Psychology (3rd ed.).
England: Pearson Education Limited
Howitt, D. & Cramer, D. (2011). Introduction to Statistics in Psychology (5th ed.). England:
Pearson Education Limited
Johnson, Roger. (2001). An introduction to the bootstrap. Teaching Statistics, 23 (2), 49-54.
doi: 10.1111/1467-9639.00050.
Kahneman, D. & Tversky, A. (1974). Judgment under Uncertainty: Heuristics and Biases.
Science, 185 (4157.), 1124-1131.
28
Kahneman, D. & Tversky, A. (1982). On the study of statistical intuitions. Cognition, 11,
1123-141
Kendall, M. (1960). Studies in the History of Probability and Statistics. Where Shall the
History of Statistics Begin? Biometrika, 47 (3,4), 447-449. doi:10.2307/2333315
Lane, D & Peres, S. C. (2006). Interactive simulations in the teaching of statistics: Promise
and pitfalls. In A. Rossman & B. Chance (Eds.), Technology in Statistics Education: 7th
International Conference on Teaching Statistics. Bahia, Brazil.
Leong, T. (2007). Monte Carlo spreadsheet simulation using resampling. INFORMS:
Transactions on Education, 7(3), 188-200. doi:10.1287/ited.7.3.188
Lewis, J. R. & Sauro J. (2009) The factor structure of the system usability scale. In M.
Kurosu (ed). Paper presented at First International Conference on Human Centered
Design (pp. 94–103), Lecture Notes in Computer Science, vol 5619. Berlin: Springer.
doi: 10.1007/978-3-642-02806-9_12.
Machado, A. (2017) The pebble in the shoe. In J. Candia, F. González, O. Arévalo, F.
Sánchez & J. Morales (eds.), Aproximaciones al studio del comportamiento y sus
aplicaciones (pp. 51 – 57). Mexico: Universidad Autónoma de Tlaxcala.
Machado, A. & Dantas, C. (2020). Teste diagnóstico de competências estatísticas.
Manuscrito não publicado. Universidade de Aveiro, Aveiro.
Machado, A. (2020). arSim add-in for Excel.
Martins, A. I., Rosa, A. F., Queirós, A., Silva, A., & Rocha, N. P. (2015). European
Portuguese Validation of the System Usability Scale (SUS). Procedia Computer Science,
67, 293–300. doi: 10.1016/j.procs.2015.09.273
Meneses, R. D. B. (2005). Determinismo e indeterminismo: uma ponte da física à filosofia.
Reflexão, 30 (88), 53-65.
Moore, D. S., McCabe, G. P. & Craig, B. A. (2014). Introduction to the Practice of Statistics
(8th ed.). New York: W. H. Freeman and Company.
Mulhern, G., & Wylie, J. (2004). Changing levels of numeracy and other core mathematical
skills among psychology undergraduates between 1992 and 2002. British Journal of
Psychology, 95(3), 355–370. doi: 10.1348/0007126041528176
Mulhern, G., & Wylie, J. (2006). Mathematical Prerequisites for Learning Statistics in
Psychology: Assessing Core Skills of Numeracy and Mathematical Reasoning among
Undergraduates. Psychology Learning & Teaching, 5(2), 119–132. doi:
10.2304/plat.2005.5.2.119
29
Prayoga, T., & Abraham, J. (2017). A psychological model explaining why we love or hate
statistics. Kasetsart Journal of Social Sciences, 38(1), 1–8. doi:
10.1016/j.kjss.2016.08.013
Resampling Stats (2009). Resampling stats add-in for excel user’s guide version 4.0.
Virginia: Author.
Ricketts, C. & Berry, J. (1994). Teaching statistics through resampling. Teaching Statistics,
16(2), 41-44. doi:10.1111/j.1467-9639.1994.tb00685.x
Salmon, M. H., Earman, J., Glymour, C., Lennox, J. G., Machamer, P., McGuire, J. E.,
Norton, J. D., Salmon, W. C. & Schaffner, K. F. (1992). Introduction to the Philosophy
of Science. Hackett Publishing Company, Inc.
Schau, C & Millar, M. & Petocz, P. (2012). Research on attitudes towards statistics. Statistics
Education Research Journal, 11(2), 2-5. Retrieved from:
Schau, C., Stevens, J., Dauphinee, T. L., & Del Vecchio, A. (1995). The development and
validation of the Survey of Attitudes Toward Statistics. Educational and Psychological
Measurement, 55, 868-875.
Serra, I. (2005). O indeterminismo e o problema das duas culturas. Paper presented at
Workshop Sobre o Indeterminismo, Universidade de Lisboa.
Silva, J. M., Oliveira, A. L., & Pacheco, J. M. (2015). Adaptação e validação transcultural de
uma medida de atitudes acerca da estatística. Revista Iberoamericana De Diagnóstico y
Evaluación - e Avaliação Psicológica, 1(39), 102–112.
Simon, J. L. & Bruce, P. (1991). Resampling: A tool for everyday statistical work. Chance:
New Directions for Statistics and Computing, 4 (1), 22-32.
Sotos, A. E. C, Vanhoof, S., den Noortgate, W. V. & Onghena, P. (2007). Students’
misconceptions of statistical inference: A review of the empirical evidence from research
on statistics education. Educational Research Review, 2 (2), 98–113.
doi:10.1016/j.edurev.2007.04.001. Simon, J. L. (1997). Resampling: The New Statistics
(2nd ed.). Virginia: Resampling Stats.
Struik, D. J. (1997). História Concisa das Matemáticas. Tradução de João Cosme Santos
Guerreiro. 2ª edição. Lisboa: Gradiva.
Skinner, B. F. (1953). Science and Human Behavior. New York: Macmillan.
Stiegler, S. M. (1991) Stochastic simulation in the nineteenth century. Statistical Science, 6
(1), 89-97.
Universidade de Aveiro (2020). Probabilidades e Estatística. Retrieved from
https://www.ua.pt/pt/uc/2756
30
Universidade de Coimbra (2020a). Estatística I. Retrieved from
https://apps.uc.pt/courses/PT/unit/13681/13427/2018-
2019?common_core=true&type=ram&id=1174
Universidade de Coimbra (2020b). Estatística II. Retrieved from
https://apps.uc.pt/courses/PT/unit/13683/13427/2018-
2019?common_core=true&type=ram&id=1174
Universidade do Porto (2020a). Estatística Aplicada à Psicologia I. Retrieved from
https://sigarra.up.pt/fpceup/pt/ucurr_geral.ficha_uc_view?pv_ocorrencia_id=146533
Universidade do Porto (2020b). Estatística Aplicada à Psicologia II. Retrieved from
https://sigarra.up.pt/fpceup/pt/ucurr_geral.ficha_uc_view?pv_ocorrencia_id=461084
Vanhoof, S., Kuppens, S., Sotos, A. E. C., Verschaffel, L., & Onghena, P. (2011). Measuring
statistics attitudes: Structure of the Survey of Attitudes Toward Statistics (SATS-36).
Statistics Education Research Journal, 10, 35-51.
West, W. (2014). Teaching resampling in an introductory statistics course. . In A. Rossman &
B. Chance (Eds.), Sustainability in Statistics Education: 9th International Conference on
Teaching Statistics. Arizona, USA.
West, W. (2014). Teaching resampling in an introductory statistics course. In K. Makar, B. de
Sousa, & R. Gould (Eds.), 9th International Conference on Teaching Statistics:
Sustainability in Statistics Education. Arizona, USA. Retrieved from https://iase-
web.org/Conference_Proceedings.php?p=ICOTS_9_2014
31
Anexos
32
Anexo A – Teste diagnóstico de matemática
1. Escreve uma fração no espaço em baixo a fim de completar a afirmação
6.28 = 6 × 1 + 2 × 1
10 + 8 × 1/100
2. Se o depósito de gasolina de um carro leva 5.5 galões, quanto litros leva? Escolhe uma das seguintes
respostas. (Um litro é igual a 0.22 galões).
5.5 + 0.22 5.5 ÷ 0.22 5.5 - 0.22 0.22 ÷ 5.5 5.5 × 0.22
3. Supõe que definimos a * b como querendo dizer a + 2b. É verdade que:
3.1 a * b = b * a (Sempre, Nunca, Por vezes)
a+2b = b + 2a a=b
3.2 a * (b * c) = (a * b) * c (Sempre, Nunca, Por vezes)
Lado esquerdo: a + 2(b*c) = a + 2(b + 2c) = a + 2b + 4c
Lado direito: (a*b) + 2c = (a + 2b) + 2c = a + 2b + 2c
Lado esquerdo = lado direito => a + 2b + 4c = a + 2b + 2c 2c=c => c = 0
4. Calcula cada uma das seguintes expressões:
4.1 √0.09 = 0.3
4.2 0.02 × 0.12 = 0.0024
4.3 40 ÷ 0.8 = 50
5. Quarenta peixes foram capturados num lago. Cada um deles foi depois marcado e lançado de volta ao lago.
Alguns dias depois, 60 peixes foram capturados no mesmo lago e entre eles havia quatro peixes marcados.
Estima o número total de peixes no lago.
40/N = 4/60, N=600
6.1 Completa a seguinte expressão: 6 - (-3) = +9
6.2 Se -5 - 2x = 1, qual o valor de x? x = -3
7. Na figura ao lado podes ver a altura do Sr. Pequenote medida com clipes de papel.
O Sr. Pequenote tem uma amiga, a Sra. Grandote. Quando medimos a altura dos dois
com palitos de fósforo, o Sr. Pequenote mede 4 palitos e a Sra. Grandote mede 6
palitos. Quantos clipes de papel são necessários para cobrir a altura da senhora
Grandote?
4/6 = 6/x => x = 9
8. Põe os seguintes números por ordem, começando com o mais pequeno:
0.25 .0099 2/3 1/50 3/200
.0099, 3/200=0.15, 1/50=0.2, 0.25, 2/3 = 0.667
9. a e b são dois números. Se duplicarmos a e b, que efeito tem isso em cada uma das seguintes expressões?
9.1 𝑎+𝑏
𝑎−𝑏=
2𝑎+2𝑏
2𝑎−2𝑏=
𝑎+𝑏
𝑎−𝑏; o resultado não se altera.
9.2 𝑎2 + 𝑏2 = (2𝑎)2 + (2𝑏)2 = 4(𝑎2 + 𝑏2) ; o resultado quadruplica.
33
9.3 1
2𝑎+𝑏=
1
2(2𝑎)+2𝑏=
1
2(2𝑎+𝑏)=
1
2×
1
2𝑎+𝑏 ; o resultado é dividido por 2; reduz a metade.
10. A Joana plantou uma flor no seu jardim e mediu o seu
crescimento uma vez por semana. Aqui está o gráfico do
crescimento da flor. Em que semana é que a flor cresceu
mais depressa?
Na semana de 29 de Maio a 5 de Junho
11.1 Qual dos seguintes números está mais próximo de 7.416?
7.426 7.42 7.411 7.41 7.516
Diferença com 7.416 é de 0.010 0.004, 0.005, 0.006,0.100 – O mais próximo é 7.42.
11.2 Quais são os dois números seguintes desta sequência?
7.76 7.80 7.84 7.88 7.92 7.96 8.00
12. Estes dois blocos têm a mesma forma, mas diferentes tamanhos. As medições
do bloco A são todas 0.75 dos tamanhos do bloco B. Se o bloco B tem 14 cm de
altura, qual a altura do bloco A em cm?
14 + 0.75 14 × 0.75 14 ÷ 0.75 14 - 0.75
13. Se x + y = 16, quanto é 100 - x - y? 100-x-y = 100 –(x+y) = 100-16 = 84.
14. Estima o resultado (NÃO tentes calcular):
14.1 85.63−1.2384
101.46−97.88≈
86−1
101−98≈
85
3≈ 28 (aceitar respostas entre 15-35)
14.2 5.6832×0.623
0.07689≈
6×0.6
0.08≈
3.6
8/100≈
360
8≈ 45 (aceitar respostas entre 30-70)
15. Um jogo de squash pode ser jogado até 9 ou 15 pontos. Se mantivermos constantes todas as outras regras do
jogo, e se o jogador A for melhor do que o jogador B, que sistema de pontuação dá ao jogador A uma maior
probabilidade de ganhar?
Jogo de 9 pontos Jogo de 15 pontos Não faz nenhuma diferença
16. Se a = 3, b = -2 e c = 7, qual o valor de 3b2-abc? 3 × (−2)2 − 3(−2)(7) = 3 × 4 + 42 = 54
17. As duas letras ao lado têm a mesma forma, mas uma é maior
do que a outra. AC mede 4 unidades e RT mede 6 unidades.
Medidas da figura maior, Y, são 6/4=1.5 vezes maiores do que as
da figura menor, X, ou seja, Y=1.5X
17.1 AB mede 7 unidades. Quantas unidades mede RS?
X=7, Y=1.5*7 = 10.5
34
17.2 UV mede 15 unidades. Quantas unidades mede DE?
Y=15 = 1.5X, X=15/1.5 = 10
18. Lê as escalas que se seguem e escreve as tuas respostas em cada uma das caixinhas. Dá todas as respostas
com casas decimais.
18.1 → 8.05 18.2 → 2.03 18.3 →2.8 e 5.4
19. Qual das seguintes expressões NÃO é igual a nenhuma das outras três?
a - b + c
(a - b) + c
a - (b + c)
a + (c - b)
20. O gráfico à direita representa a velocidade de um carro de
corrida numa volta completa ao circuito de corrida. Qual dos três
desenhos em baixo tem mais chances de representar o mapa do
circuito?
Opção 2 (a do meio) é a correcta.
35
Anexo B – Teste diagnóstico de Estatística
1. Eis os resultados de um teste de introdução à estatística de um grupo de 10 alunos: 82, 83, 83, 88, 89, 84, 78, 57, 81,
81. Qual a mediana destes dados? 82.5
Por ordem, 57, 78, 81, 81, 82, 83, 83, 84, 88, 89 (média do 5º e 6º)
2. Quatro scores num teste de memória foram 0, 2, 2, 4. Calcula a variância destes dados e mostra os teus cálculos no
espaço em baixo.
Média = (0+2+2+4)/4 = 2;
Var =(1/3) * [(0-2)^2 + (2-2)^2 + (2-2)^2 + (4-2)^2)] =(1/3)*(4+4) = 8/3=2.67 Também aceitar a divisão por 4, dando 8/4=2
3. A caixa de bigodes à direita representa uma distribuição de tempos de maratona. Responde às seguintes perguntas (usa valores aproximados):
a. Qual a mediana destes tempos? 2.4 b. Qual o intervalo interquartílico?
Q3=2.45, Q1=2.2. Assim, IQR = 0.25 (ou valor próximo)
4. Escolhe a alternativa correta. A variância é
a. uma medida de tendência central b. o quadrado do desvio padrão
c. a raiz quadrada do desvio padrão d. a média dos desvios absolutos em relação à média
5. Na figura em baixo, associa cada um dos histogramas à sua caixa de bigodes: (a) vai com _2_; (b) vai com __3__; e (c) vai com _1___.
6. Qual seria a melhor maneira de descrever o contexto e o objetivo de um teste de hipótese? a. Estás a analisar um estudo e precisas de mostrar se o acaso pode explicar os resultados.
b. Estás a analisar um estudo e precisas de estabelecer a validade da hipótese nula
c. Estás a projetar um estudo e precisas de um sistema para alocar os sujeitos a diferentes grupos d. Estás a analisar um estudo e precisas de estabelecer uma margem de erro
7. Suponhamos que tens dados sobre o rendimento dos reformados da tua
comunidade. Uma amostra de 50 pensões de reforma assemelha-se ao
gráfico ao lado. Supõe que recolheste outra amostra de 50 pensões, calculaste a sua média e graficaste-a colocando um ponto num gráfico.
Supõe que fizeste isso repetidamente até obteres 1000 médias de 1000 amostras. Qual seria a forma aproximada da distribuição dessas 1000
médias?
a. da mesma forma que a distribuição das pensões individuais b. da forma de uma distribuição normal
c. da forma da distribuição qui-quadrado
d. a informação é insuficiente para prever a forma da distribuição
36
8. Estás a trabalhar numa área onde o custo de cada medição/observação é muito alto. Assim, tens que te contentar com apenas 10 observações. Um gráfico de pontos parece-se com a figura ao lado. Estás a planear usar a distribuição t para
construir um intervalo de confiança para a média, mas parece que tens um problema com a. Assimetria dos dados (“skewness”)
b. Confusão dos dados (“counfounding”)
c. “Outliers” nos dados d. Multicolinearidade dos dados
9. Após uma pesquisa na biblioteca, encontraste dois estudos sobre um assunto que te interessa - o número de
dias que um jogador típico de futebol perde durante a sua carreira devido a lesões. Um dos estudos tinha uma amostra de 30, e o outro tinha uma amostra de 150. Em que estudo esperarias ver um erro padrão da média menor?
a. No estudo com a amostra maior.
b. No estudo com a amostra menor. c. Não há informações suficientes para se ter uma opinião.
10. Queres testar a hipótese de que um parâmetro populacional é igual a zero. Pediste ao teu assistente para fazer a análise. Ele fez tudo bem, excepto que construiu um intervalo de confiança em vez de efectuar um teste de hipótese. O
intervalo de confiança variou de -23 a -15. Qual a tua conclusão? a. não rejeito a hipótese
b. rejeito a hipótese
c. A evidência é insuficiente para fazer o teste de hipótese
11. Queres fazer um estudo para medir um efeito relativamente pequeno. Aumentar o tamanho da amostra
a. aumenta o tamanho do efeito b. diminui o tamanho do efeito
c. aumenta a chance de detectar o efeito d. diminui a chance de detectar o efeito
12. Se a probabilidade da hipoteca A não ser paga a tempo for de 0.1, e a probabilidade da hipoteca B não ser paga a tempo for de 0.2, qual é a probabilidade de ambas serem pagas a tempo? Que pressuposto é necessário fazer para que
essa resposta seja rigorosamente correcta? a. .02, condicionalidade
b. 0.72, independência
c. 0.3, independência d. .02, independência
13. Recolheste dados de dois grupos, A e B, como se vê ao lado. Agora queres estimar a média da população para cada grupo.
Para qual deles a tua estimativa será mais precisa? a. A
b. B
c. igualmente precisa para A e B d. a informação é insuficiente para responder
14. Se num estudo aumentares o tamanho da amostra, o que é que acontece normalmente com o poder de um teste estatístico efectuado com os dados?
a. permanecerá o mesmo b. diminuirá
c. aumentará
d. a informação é insuficiente para responder
15. Qual é a diferença entre "desvio padrão" e "erro padrão"? a. A diferença está no denominador - para o desvio padrão divide-se por n-1, para erro padrão divide-se por n.
b. Ambos envolvem a medição dos resíduos, mas o desvio padrão usa valores absolutos enquanto o erro padrão
usa valores ao quadrado. c. Não há diferença - são termos distintos para designarem a mesma coisa.
d. O desvio padrão mede a variabilidade das observações individuais, o erro padrão mede a variabilidade de
uma estatística.
16. Um serviço de saúde cresceu e agora quer usar os dados dos pacientes para alterar os seus procedimentos e melhorar os seus resultados. Normalmente 15% dos pacientes atendidos por problemas respiratórios voltam ao médico no
espaço de 10 dias. O serviço deseja testar um novo procedimento no qual o médico pede que o paciente regresse 2
37
dias após a visita inicial. Qual das alternativas a seguir seria uma parte apropriada da análise dos dados obtidos com este novo procedimento?
a. Teste de uma amostra para determinar se uma proporção difere de um valor padrão, de referência. b. Um intervalo de confiança em torno de uma média.
c. Um teste de duas amostras para diferença de médias.
d. Um teste de diferença de proporções para amostras emparelhadas.
17. Uma companhia de seguros de saúde realiza um estudo em colaboração com vários hospitais para determinar se um
protocolo padrão de psicoterapia deve ser modificado. Para a análise dos dados, alfa é colocado previamente em 0.05 (5%). O que é que isto quer dizer?
a. Se for encontrada uma melhoria, o valor p deve ser superior a 0.05 para que o resultado seja considerado estatisticamente significativo.
b. A melhoria com o novo protocolo deve atingir 5% para ser considerada estatisticamente significativa.
c. Se for encontrada uma melhoria, a significância estatística requer menos de 5% de chances de obter resultados tão ou mais impressionantes do que esse no modelo nulo de "nenhuma melhoria".
d. O nível de erro (resíduos) deve ser inferior a 5% para que o resultado seja considerado estatisticamente
significativo.
18. Um grande vendedor da Web realiza regularmente testes mostrando aleatoriamente um de 5 níveis de preços quando uma pessoa faz compras. Um gerente de marketing está preocupado com os desequilíbrios nas visualizações da página
do site com cada nível de preços e efectua um estudo no qual N visualizações da página são examinadas e o nível de
preço mostrado em cada uma das N visualizações é registado. Qual das alternativas a seguir é uma etapa apropriada num procedimento de simulação para avaliar se a alocação de preços é realmente aleatória?
a. Calcular a distribuição esperada de visualizações para os 5 níveis de preços segundo o modelo nulo: divide
N por 5. b. Gerar aleatoriamente N números, de 1 a 5.
c. Contar a frequência de 1, 2, 3, 4 e 5 gerados aleatoriamente e subtrair N / 5 de cada frequência. d. Todas as alternativas anteriores
e. Nenhuma das alternativas anteriores
19. Considere os dois gráficos de dispersão à direita. O de cima relaciona
as vitórias no basebol com o salário, e o de baixo relaciona a produtividade no trabalho com as horas de treino. Estima o coeficiente
de correlação de cada um.
a. Basebol 2.4, treino 0.04 b. Basebol -0.5, treino -1.0
c. Basebol .66, treino .25
d. Basebol .66, treino .95
20. Considera o gráfico de dispersão apresentado ao lado e que relaciona o salário com as vitórias no basebol. Se uma regressão linear fosse
realizada e a recta de regressão fosse depois desenhada no gráfico, qual
seria o declive da recta, m, e a sua ordenada na origem, b? Adivinha. a. b = 210, m = 0.4
b. b = 0, m = 0.25 c. b = 180, m = 220
d. b = 180, m = 0
21. Considera os dados de salário no basebol apresentados em cima.
Imagina uma recta de regressão adicionada ao gráfico. Como é que interpretarias, em termos práticos e de importância
para a vida real, a extensão da recta de regressão nas duas direcções de forma a que ela cobrisse todo o gráfico? a. Quando x tende para 0, y vai tender para cerca de 210.
b. Um salário de 250 garantiria mais de 300 vitórias. c. Não o farias porque os dados perdem significado nas extremidades do gráfico.
38
d. A extensão da recta permite prever valores exteriores ao intervalo dos dados com a mesma confiança que permite prever valores interiores ao intervalo dos dados.
22. Considera a seguinte equação de um recta de regressão que relaciona a capacidade pulmonar (medida pela velocidade
máxima do fluxo de expiração), f, com os anos de exposição à poeira de algodão, d: f = -4.2×d + 424. Qual das
seguintes alternativas é verdadeira? a. Para um trabalhador com 10 anos de exposição e um valor de capacidade pulmonar de 400, o resíduo é 18.
b. O valor previsto de f para um trabalhador com 20 anos de exposição é 340.
c. O declive da recta de regressão é negativo. d. Todas as alternativas anteriores
e. Nenhuma das alternativas anteriores
23. Considere o seguinte output de um programa estatístico de regressão relacionando a capacidade pulmonar (medida
pela velocidade máxima do fluxo de expiração), f, com os anos de exposição à poeira de algodão, d: “f = -4.2×d + 424; valor p < 0.01”. Qual das seguintes alternativas é verdadeira?
a. A velocidade do fluxo aumenta à medida que a exposição aumenta, e esse resultado é estatisticamente
significativo. b. Existe uma relação negativa entre f e d e esta relação é estatisticamente significativa
c. Dado o valor do termo constante, 424, os resíduos serão relativamente pequenos. d. Todas as alternativas anteriores
e. Nenhuma das alternativas anteriores
24. O valor p de um teste de significância foi de 0.027. Verdadeiro ou falso?
a. Rejeitamos a hipótese nula a um nível de significância a=0.05. V
b. Rejeitamos a hipótese nula a um nível de significância a=0.01. F c. O nível de significância tem pouca influência na decisão de aceitar ou rejeitar a hipótese nula. F
d. Um valor p=0.027 significa que a diferença entre as amostras é de 2.7%. F
25. Verdadeiro ou falso?
a. Significância estatística quer dizer que a probabilidade do resultado se dever ao acaso é inferior a 5%. F b. Significância estatística quer dizer que a probabilidade de que um erro de tipo I tenha sido cometido é
inferior a 5%. F c. Significância estatística quer dizer que a probabilidade da hipótese nula ser verdadeira é inferior a 5%. F
d. Significância estatística quer dizer que a probabilidade da hipótese alternativa ser verdadeira é maior do que
95%. F
26. Um estudo sobre um novo medicamento revelou que no grupo experimental 17 em 20 pacientes ficaram curados, e no
grupo controlo apenas 9 em 20 ficaram curados. Das afirmações que se seguem, seleciona a alternativa correta: a. As amostras do estudo são emparelhadas.
b. A diferença de proporções entre as duas amostras é de 0.4. A um nível de significância de 0.05 devemos aceitar a hipótese nula: não há diferenças entre as amostras.
c. A amostra não tem dimensão suficiente para se poder decidir sobre a eficácia do medicamento.
d. Um valor p < 0.05 indica que a diferença observada entre as amostras é rara, e por isso podemos rejeitar a hipótese nula (se considerarmos a=0.05)
39
27. Escolhe a alternativa correcta. Em geral, o valor p é: a. O valor de um teste estatístico
b. O valor de uma proporção c. Um valor tabelado para os testes de hipóteses
d. Uma medida de dispersão
28. Em 2013, a DGS reportou que “45% dos adultos em Portugal vivem com uma ou mais doenças crónicas”, e
que o erro padrão para esta estimativa era de 1.2%. Constrói um intervalo de confiança (IC) a 95% para a proporção
de adultos portugueses com uma ou mais doenças crónicas. (Valor crítico z=1.96)
IC95% = 45% ± 1.96 × 1.2% ≈ 45% ± 2 × 1.2% = [42.6%, 47.4%] Valor exacto do IC95% = [42.648, 47.352]
29. Ainda sobre os dados da DGS referidos na pergunta anterior, diz se é verdadeiro (V) ou falso (F): a. A percentagem 45% é uma estatística amostral. V
b. Podemos dizer que o IC construído na pergunta 28) contém a verdadeira percentagem de portugueses com
doenças crónicas. F
c. Com base no IC construído na pergunta 28, a DGS reporta como estatisticamente significativa (a=0.05) que
a percentagem de portugueses com doenças crónicas é menor que 50%. V
d. Como o erro padrão é 1.2%, apenas 1.2% das pessoas que participaram no estudo comunicaram incerteza
sobre a sua resposta. F
e. Se construirmos um IC de 90% para a percentagem de adultos em Portugal que vivem com uma doença
crónica, esse intervalo será maior que o IC de 95%. F
f. Se quisermos diminuir o erro padrão do estimador, deveríamos utilizar instrumentos com maior validade de
construto. F
g. Se quisermos diminuir o erro padrão do estimador, deveríamos recolher menos dados. F
40
Anexo C – SATS-28
41
42
Questionário inicial
Em seguida, encontra um conjunto de afirmações sobre a utilização de sistemas de análise
estatística e o seu autopercepção sobre conhecimento em estatística. Por favor escolha, assinalando com X, a opção que melhor se adequa, utilizando as escalas indicadas.
SIM NÃO
Conheço o Microsoft Excel ( ) ( )
Utilizo ou utilizei o Microsoft Excel ( ) ( )
Se sim, para que propósito? ______________________
Consigo fazer análise estatística com o Microsoft Excel ( ) ( )
Consigo fazer análise estatística com outro software? ( ) ( )
Se sim, qual? _________________________
1 2 3 4 5
A estatística é importante na Psicologia.
Na psicologia, a estatística é pertinente apenas para a vertente de investigação.
Estou contente com o ensino de Matemática e Estatística que tive no meu curso. Considero a estatística difícil. Gosto de estatística.
Considero que tenho conhecimentos de estatística.
Entendo teoria de probabilidades.
A estatística não é útil para o psicólogo típico.
1 2 3 4 5
Discordo totalmente
Discordo em parte
Nem concordo nem discordo
Concordo em parte
Concordo totalmente
Anexo D – Questionário inicial
43
Gráfico E1. Boxplot da distribuição das
pontuações do teste de matemática
Gráfico E2. Q-Q plot da distribuição das pontuações do teste de
matemática
Anexo E – Boxplot e Q-Q plot das pontuações no teste de Matemática
44
Anexo F
Tabela F1. Significância das diferenças entre componentes do
teste de matemática (testes-t)
Grupo 1 Grupo 2 p-value
Cálculo Raciocínio algébrico 0,005345
Cálculo Interpretação de gráficos 0,185931
Cálculo Proporcionalidade 0,952295
Cálculo Probabilidades 1,16E-06*
Cálculo Estimação 1,52E-05*
Raciocínio algébrico Interpretação de gráficos 0,001492*
Raciocínio algébrico Proporcionalidade 0,057925
Raciocínio algébrico Probabilidades 0,000591*
Raciocínio algébrico Estimação 0,008595
Interpretação de gráficos Proporcionalidade 0,320461
Interpretação de gráficos Probabilidades 1,29E-06*
Interpretação de gráficos Estimação 1,16E-05*
Proporcionalidade Probabilidades 0,000137*
Proporcionalidade Estimação 0,000987*
Probabilidades Estimação 0,324399
45
Anexo G
Legenda: Cálculo Raciocínio algébrico Interpretação e leitura de gráficos
Proporcionalidade Probabilidades Estimação
A linha preta corresponde à média de acertos do componente.
Gráfico G1. Proporção de respostas corretas para cada item e por componente.
Item
Proporção de respostas corretas
46
Anexo H – Respostas aos itens com maior percentagem de erro no teste de matemática
Itens de cálculo
Tabela H1. item 4 Calcula cada uma das seguintes expressões:
√0.09 Respostas % Muhlern & Wiley 2005
não responde 44 26
0.3 17 17
0.03 6 43
0.003 11 -
0.045 11 -
0.081 6 -
0.0081 6 -
0.81 - 2
outro - 12
0.02x0.12
Respostas % Muhlern & Wiley, 2005
0.0024 28 28
Não responde 22 15
0.024 28 14
0.24 6 27
0.06 11 3
Outro 6 12
40/0.8
Respostas % Muhlern & Wiley, 2005
Não responde 56 19
50 28 43
0.5 11 10
0.32 6 -
320 - 3
0.1 - 2
outro - 24
Tabela H2. itens 3.1 e 3.2
Supõe que definimos a * b como querendo dizer a + 2b. É verdade que:
a * b = b * a Respostas % Muhlern & Wiley 2005
Sempre 72 46
Por vezes 6 18
Nunca 0 30
Não responde 22 6
a *(b * c) = (a * b) * c
Respostas % Muhlern & Wiley, 2005
Sempre 28 22
Por vezes 22 17
Nunca 22 48
Não responde 28 14
47
Itens de raciocínio algébrico
Tabela H3. itens 9.1, 9.2 e 9.3 a e b são dois números. Se duplicarmos a e b, que efeito tem isso em cada
uma das seguintes expressões?
(a+b)/(a-b) Respostas % Muhlern & Wiley 2005
Não se altera 28 35
diminui 6 -
não responde 33 26
demonstração matemática errada 33 -
dobra - 28
outro - 11
a2+b2
Respostas % Muhlern & Wiley, 2005
aumenta 11 14
dobra 11 34
quadruplica 0 9
demonstração matemática errada 39 -
demonstração matemática
incompleta 11 -
não responde 28 38
outro - 16
1/(2a+b)
Respostas % Muhlern & Wiley, 2005
diminui 17 13
reduz para metade 6 11
não responde 33 32
demonstração matemática errada 17 -
demonstração matemática
incompleta 28 -
dobra - 33
outro - 11
48
Itens de Probabilidades
Itens de Estimação
Tabela H4. item 5
Quarenta peixes foram capturados num lago. Cada um deles foi depois
marcado e lançado de volta ao lago. Alguns dias depois, 60 peixes foram
capturados no mesmo lago e entre eles havia quatro peixes marcados. Estima o
número total de peixes no lago.
Respostas % Muhlern & Wiley, 2005
Não responde 44 18
600 11 18
96 28 27
400 6 3
92 6 -
40 6 -
100 - 6
240 - 4
outro - 25
Tabela H5. item 15 Um jogo de squash pode ser jogado até 9 ou 15 pontos. Se mantivermos
constantes todas as outras regras do jogo, e se o jogador A for melhor do que o
jogador B, que sistema de pontuação dá ao jogador A uma maior
probabilidade de ganhar?
Respostas % Muhlern & Wiley, 2005
Não faz diferença 78 54
Jogo de 9 pontos 17 19
Jogo de 15 pontos 6 19
não responde - 8
Tabela H6. itens 14.1 e 14.2 Estima o resultado (Não tentes calcular):
Respostas % Muhlern & Wiley, 2005
fora do intervalo aceitável 22 51
dentro do intervalo aceitável (15-35) 33 32
não responde 17 17
outro 28 -
Respostas % Muhlern & Wiley, 2005
fora do intervalo aceitável 44 62
dentro do intervalo aceitável (15-35) 0 0
não responde 39 29
outro 17 -
49
Gráfico I1. Boxplot da distribuição das
pontuações do teste de Estatística
Gráfico I2. Q-Q plot da distribuição das pontuações do teste de Estatística
Anexo I – Boxplot e Q-Q plot das pontuações no teste de Estatística
50
Anexo J
Tabela J1. Significância das diferenças entre componentes
do teste de estatística (testes-t) Grupo1 Grupo 2 p-value
Tendência central Dispersão 0,004237
Tendência central Interpretação de gráficos 0,351966
Tendência central IC 0,00371
Tendência central Testes de hipóteses 0,005909
Tendência central Correlação e regressão 0,022394
Tendência central Tamanho da amostra 0,959743
Tendência central Simulação 0,000696*
Tendência central Probabilidades 0,00387
Dispersão Interpretação de gráficos 0,006167
Dispersão IC 0,826677
Dispersão Testes de hipóteses 0,773458
Dispersão Correlação e regressão 0,60969
Dispersão Tamanho da amostra 0,000342*
Dispersão Simulação 0,142065
51
Anexo K
Gráfico K1. Proporção de respostas corretas para cada item e por componente.
Legenda: Medidas de tendência central Medidas de dispersão Correlação e regressão linear
Leitura e interpretação de gráficos Intervalos de Confiança Testes de hipótese
Tamanho da amostra Simulação Probabilidades
A linha preta corresponde à média de acertos do componente.
Item
Proporção de respostas corretas
52
Anexo L – Respostas aos itens com maior percentagem de erro no teste de Estatística
Itens sobre Medidas de Dispersão
Itens sobre Testes de Hipótese
Tabela L1. item 2 Quatro scores num teste de memória foram 0, 2, 2, 4. Calcula a variância
destes dados e mostra os teus cálculos no espaço em baixo.
Respostas %
Não responde 61
Apresenta a média 6
Cacula a média; fórmula variância incorreta 11
Outro 17
8/3 6
Tabela L2. item 3b A caixa de bigodes à direita representa uma distribuição de
tempos de maratona. Qual o intervalo interquartílico?
Respostas %
Não responde 22
indica um intervalo 44
2,6 11
Outro 22
Tabela L4. item 16 Um serviço de saúde cresceu e agora quer usar os dados dos pacientes para alterar os seus
procedimentos e melhorar os seus resultados. Normalmente 15% dos pacientes atendidos
por problemas respiratórios voltam ao médico no espaço de 10 dias. O serviço deseja testar
um novo procedimento no qual o médico pede que o paciente regresse 2 dias após a visita
inicial. Qual das alternativas a seguir seria uma parte apropriada da análise dos dados
obtidos com este novo procedimento?
Respostas %
Teste de uma amostra para determinar se uma proporção difere de um valor
padrão, de referência. 6
Um intervalo de confiança em torno de uma média. 17
Um teste de duas amostras para diferença de médias. 22
Um teste de diferença de proporções para amostras emparelhadas. 33
não responde 22
Tabela L3. item 6
Qual seria a melhor maneira de descrever o contexto e o objetivo de um teste de hipótese?
Respostas %
Estás a analisar um estudo e precisas de mostrar se o acaso pode explicar os
resultados. 11
Estás a analisar um estudo e precisas de estabelecer a validade da hipótese nula 67
Estás a projetar um estudo e precisas de um sistema para alocar os sujeitos a
diferentes grupos 6
Estás a analisar um estudo e precisas de estabelecer uma margem de erro 0
não responde 17
53
Tabela L7. item 27 Escolhe a alternativa correcta. Em geral, o valor p é:
Respostas %
O valor de um teste estatístico 39
O valor de uma proporção 11
Um valor tabelado para os testes de hipóteses 22
Uma medida de dispersão 6
não responde 22
Itens sobre intervalos de confiança
Tabela L8. item 28
28. Em 2013, a DGS reportou que “45% dos adultos em Portugal vivem com uma
ou mais doenças crónicas”, e que o erro padrão para esta estimativa era de 1.2%.
Constrói um intervalo de confiança (IC) a 95% para a proporção de adultos
portugueses com uma ou mais doenças crónicas. (Valor crítico z=1.96)
Respostas %
não responde 100
Tabela L9. item 29f
Se quisermos diminuir o erro padrão do estimador, deveríamos
utilizar instrumentos com maior validade de construto. V/F?
Respostas %
V 0
F 56
não responde 44
Tabela L6. item 26 Um estudo sobre um novo medicamento revelou que no grupo experimental 17 em 20
pacientes ficaram curados, e no grupo controlo apenas 9 em 20 ficaram curados. Das
afirmaçoes que se seguem, seleciona a alternativa correta:
Respostas %
As amostras do estudo são emparelhadas. 17
A diferença de proporções entre as duas amostras é de 0.4. A um nível de
significância de 0.05 devemos aceitar a hipótese nula: não há diferenças
entre as amostras.
6
A amostra não tem dimensão suficiente para se poder decidir sobre a eficácia
do medicamento. 39
Um valor p < 0.05 indica que a diferença observada entre as amostras é rara,
e por isso podemos rejeitar a hipótese nula (se considerarmos a=0.05) 6
não responde 33
Tabela L5. item 25a Significância estatística quer dizer que a probabilidade do resultado se dever ao acaso é
inferior a 5%. V/F?
Respostas %
V 61
F 17
não responde 22
54
Anexo M – proposta para o manual “arSim add-in: A tutorial”
arSim Add-in for Excel:
A Tutorial
ARSIM ADD-IN
FOR EXCEL’S TUTORIAL BOOK
ARSIM ADD-IN
CLÁUDIA DANTAS
ARMANDO MACHADO
CLÁUDIA DANTAS
ARMANDO MACHADO SACA - UA
PREFACE
This is a tutorial book on how to use the arSim add-in for Excel. It was developed by Cláudia
Dantas, supervised by Armando Machado, the creator of the arSim add-in, as part of a master
thesis in Psychology at the University of Aveiro about the teaching of statistics through resampling.
University of Aveiro
Aveiro, Portugal
CONTENTS Introduction .......................................................................................................................... 1
1.1 The arSim Add-in ......................................................................................................... 1
1.2 Installation.................................................................................................................... 2
1.3 Topics on Using the arSim Add-in ............................................................................... 5
1.4 How to use this book ................................................................................................... 6
1.5 Learn by Doing ............................................................................................................ 8
1.5.1 Coin Toss Simulation ............................................................................................. 8
1.5.2 The Results Sheet ................................................................................................ 11
Estimating Probability ......................................................................................................... 13
2.1 The Letters and Envelopes Problem ......................................................................... 13
2.2 A Pair in a Hand of Five ............................................................................................ 18
Confidance Intervals ......................................................................................................... 23
3.1 Stress Levels in Parents of Children with ADHD........................................................ 23
Testing Hypothesis .............................................................................................................. 26
4.1 Gender Discrimination ................................................. Erro! Marcador não definido.
4.2 Yawning ..................................................................................................................... 30
Contingency Tables ........................................................................................................... 31
5.1 The Lady Tasting Tea ................................................................................................. 31
Analysis of Variance ........................................................................................................... 32
arSim Add-in Fucntions ......................................................... Erro! Marcador não definido.
CHAPTER 1 INTRODUCTION
1.1 THE ARSIM ADD-IN
The arSim add-in is a set of simple commands that you can add to Microsoft Windows
Excel@. It allows you to generate random numbers from many distributions, to simulate
probability problems, to resample data, and to conduct statistical analyses via
simulation. It consists of two ‘.xlam’ files, one to perform the simulation and collect trial
statistics (arSimAddIn), and another with special functions to enhance Excel’s native
(probability, statistical, and combinatorial) functions (arSpecFuncAddin).
1.2 INSTALLATION
The arSim add-in for Excel runs on Microsoft Excel and must be installed and activated
before it can be used. For that you need to include the add-in files in Excel’s list of add-
ins. Follow these instructions:
1. Open Excel.
2. Click File > Options > Add-Ins.
3. Click Go.
It opens the Add-ins manager dialog box, where you can view, install,
activate, and deactivate an add-in.
3. Click Browse…
By default, it opens the ‘AddIns’ folder (the predefined location for all
Microsoft add-ins) where you should keep the two .xlam files1.
Drag the files from their current location to the window opened, storing
them automatically on the AddIns folder.
4. Select the first file and click Open. Repeat for the second file.
5. Check the box at the left of the add-in to load and activate it.
6. Click OK.
The arSim add-in was property installed and you should see the arSim toolbar menu
added to Excel.
When you no longer need to use the arSim add-in, you can simply follow the first two
steps described above and then uncheck the box of each add-in. To remove it
permanently from the list, you need to delete the correspondent .xlam file, return to Excel’s
Add-in manager dialog and check the box, as if to load the add-in. Because the file no
longer exists, you’ll receive a popup message identifying the “error”, and then the add-in
Is simply removed from the list.
Note 1Keep the add-in in the “correct” location. Some files, particularly files with
macros, data connections, ActiveX controls (what we call active content), are not
trusted by Microsoft’s Trust Center. When the active content in a file is from a reliable
source, it’s better to move the file to a trusted location, instead of changing the
default Trust Center settings to a less-safe macro security setting. By default,
Microsoft’s Addins folder is treated as a trusted source, so the files stored on that
location will not be checked – can run free.
In some rare cases, the Microsoft’s Addins folder location may not be on the list of
the trusted locations. To add a trusted location:
1. Click File > Options
2. Click Trust Center > Trust Center Settings > Trusted Locations
3. Click Add new location.
4. Click Browse to find the folder
5. Select ‘This PC’ and using the search box type ‘AddIns’
If you search for the folder in other locations, like‘Desktop’,
‘Library’ or ‘Local Disk (C:)’ you won’t be able to find it.
6. Select the folder > Click OK.
1.3 TOPICS ON USING THE ARSIM ADD-IN
The use of the arSim add-in requires some knowledge of Excel, but not at an advanced
level. It is intended to be used by beginners in statistics, and you might also be new to the
resampling way! Keep the following three suggestions in mind.
1. Use one workbook per exercise. If you follow this simple rule, your work will be
more organized and the add-in will run more efficiently.
2. Try to keep your Excel worksheets simple and informative; avoid excessive
coloring and styling, as extra formatting can slow the add-in considerably.
3. Save your work frequently. These suggestions are like hygiene rules – they will not
ensure health but may prevent disease.
The arSim add-in contains two sets of functions that you can use in the conventional
way as you would use any other native Excel function. Function stating with the prefix
‘arSim’ belong to the set of functions defined in the arSimAddIn1file, and functions starting
with the prefix ‘ar’ belong to the set of special functions defined in the arSpecFuncAddIn1
file. All functions that start with ‘arSim’ (e.g. arSimAverage, arSimQuantile, etc.) report the
results of a simulation. The others, starting by ‘ar’, can be used to generate random
numbers, obtain the value of probability distributions, densities, to list combinations and
permutations, etc. More about these two sets of functions below.
Note Throughout this guide, we assume that your Excel set-up language is English –
arguments in functions are separated by a comma (not the semicolon used in some
other languages and countries).
1.4 HOW TO USE THIS BOOK
This is a tutorial book on how to use the arSim add-in for Excel to solve relatively simple
problems in probability and statistics using simulation and resampling methods. We
include several tutorial examples dealing with (1) estimating simple and complex
probabilities, (2) constructing confidence intervals, (3) testing hypotheses, (4) analyzing
contingency tables, (5) performing analyses of variance and (6) linear regressions.
All the examples follow the same or similar structure:
1. UNDERSTAND THE PROBLEM
2. CREATE THE EXCEL SHEET
3. SIMULATE ONE TRIAL
Sample with or without replacement to perform one trial
Define one or more statistics you wish to monitor (proportion, mean,
median, etc.)
4. BIG SIMULATION
4.1 TARGET THE CELL OF INTEREST
This is the cell with the statistic you chose to save
4.2 REPEAT
The trial you simulated is repeated many times, collecting or saving the
value of the statistics for each trial
5. ANALYZE THE RESULTS
6. DRAW YOUR CONCLUSIONS
Within the simulation world, it is as “simple” as that: Set up a random experiment,
simulate a certain event, collect samples and draw a conclusion based the results.
Although the approach might seem too simple, you will discover that with the add-in
you can study many statistical ideas and principles, in an intuitive way, without complex
formulas and without recipes like.
If it is that easy, why has it not be done before?
Resampling has been done since the beginning of statistics and probability, from
Pascal, to Fischer, to Pearson, etc. However, without computers to perform big simulations
it was very time consuming! Theoretical methods were developed and have been used
ever since. Resampling was only revisited when problems were so hard that theory
couldn’t solve them.
Since the appearance of computers resampling has been used among several fields,
like economy and finances, for several purposes (insurance, financing and loaning, within
the real estate, stock marketing, betting, etc.)
This book is not meant to teach statistics. Some basic concepts are generally
explained to allow problem understanding and comparison between the resampling and
the conventional approaches. Throughout the book you will find
a where problems are solved with theoretical methods.
At the end of each section, we include a list of the arSim functions used in each
problem.
Finally, you can get a brief explanation and an overview on the syntax of the arSim
functions, on a section at the end of this book.
Note Some contents (like this one) are shown as notes at the end of each section
(not the chapter) You should get into them! Likewise, the sequential superscript
numbers that you’ll find throughout the book, also refer to the endnotes at the end
of the topic.
1.5 LEARN BY DOING
1.5.1 COIN TOSS SIMULATION
Here is a simple example on simulating a coin toss for you to get familiar with the arSim
add-in and the resampling approach. With the add-in installed, open a new Excel
workbook.
1. UNDERSTAND THE PROBLEM
A coin toss is a simple event with two equally probable outcomes: Heads or Tails. You
already know that the probability of each event is 0.5. Imagine you didn’t know that. How
can you estimate the probability of the coin showing up Heads? You would toss the coin
several times and see the resulting outcomes. In other words, after, say, 100 trials, you
would count the number of Heads and then use the proportion of Heads to estimate the
probability of the event Heads. The more trials you’d perform, the more information you’d
have about the coin, and the more accurate your probability estimate would be.
2. CREATE THE EXCEL SHEET
Computers love zeros and ones. And zeros and one are also great to code the events
in which we are interested when we perform probability experiments. We simply let 1 stand
for the event that interests us – in this case Heads – and 0 for any other outcome – in this
case there is only one, Tails.
Write on cells A1 and A2 the two possible outcomes, 1 for Heads and 0 for Tails. Because
Excel is also number friendly, opt to use numbers instead of letters whenever you can. You
could choose any other pair of numbers, such as 1 and 2, but you’ll see that 0 and 1 have
many advantages. The image bellow shows the basic setup.
3. SIMULATE ONE TRIAL
To perform one trial, we should sample with replacement from cells A1:A2, as if we had
two identical balls in a box (or “urn”, as math lovers call it), one black and one white, with
the black ball standing for the event of interest (Heads in coin tossing). We draw one ball
at a time, with replacement. The arResample function does just that: write on cell C1
‘=arResample(’, select range A1:A2 and press enter.1 It will either return 1 or 0.
4. BIG SIMULATION
There is now one trial done, but this is not enough to estimate a probability. Let’s repeat
the simulation several times and check the result of each resample trial.
This large repetition of a trial is what we call BIG simulation. It requires (1) performing
one trial and (2) select (and compute) the statistic of interest (e.g. average, proportion,
median, etc).
We need to inform Excel about what statistic we selected; this will be the value Excel
saves at the end of each simulation trial and that we’ll use to draw a conclusion. To do
so, we need to target the cell whose contents must be saved. We target a cell by using
an arSim function that directly references it2.
In this case, what we are interested in is simply the result of the coin toss, so cell C1 is
the one we should target.
4.1 TARGET THE CELL OF INTEREST
We will use the arSimAverage function to target cell C1. This function returns the
average of the sampled values (the average result of all the coin toss trials). As there are
only two possible events: “1” and “0”, this average will correspond to the proportion of
“1’s” (summing all the results is the same as summing the “1’s”).
On cell C5, type ‘=arSimAverage(‘, select cell C1 and press enter, as you can see
below. Excel will return #N/A, because it has not yet performed the simulation.
4.2 REPEAT
We instruct Excel to run the simulation by pressing Ctrl+L or by accessing the ArSim menu
(in Excel’s Ribbon) and selecting Go. Either way, a window pops-up in the top right part
of the active window – the ArSim Parameters window (figure below).
There you can choose several simulation parameters. We chose to perform 100 trials
and save the simulation results. Click OK to run the simulation. While it is running, a red bar
in the window informs you about the progress already made, and when it is completed
the target cell is colored, the computed value given, and a new worksheet with the
simulation results created (will be explained later).
5. ANALYZE THE RESULTS AND DRAW A CONCLUSION
In our simulation, we obtained an average value of 0.501. Yours might be different but
will be around 0.50. As said earlier, because we used “0’s” and “1’s” to sample, the
average computed corresponds to the proportion of “1’s”. There were approximately 50-
50 percent of heads and tails in the 100 trials performed. As the number of simulations
performed increases, the closer the computed values will be between simulations, and
the more accurate the estimation will be.
Notes 1 The arResample function: it is an array formula, so it can also provide results
in an array, i. e. several trial results. For that, select the array that will hold the results,
like C1:C11 (for 10 trials) write ‘arResample(’, select range A1:A2, and press
Ctrl+Shift+Enter. Cells from C1 to C11 will be filled with resampled values. 2 Targeting cells: Although any function starting by ‘arSim’ will target a cell, we
recommend the arSimAverage function (there is hardly a simulation involving a
random variable in which we are not interested in the average of the variable). You
can use several arSim functions at once, and you can also target more than one cell
at once. 3 The arSim parameters window: Here you can specify the number of simulation
trials to run (N=1000 by default; maximum of N=100000) and choose some other
parameters on the four buttons bellow. You can choose saving the simulation results
(unchecked by default), turn off screen updating during the simulation (checked by
default), color the target cells (checked), and color cells with arSim functions
(unchecked).
If you check the ‘Save simulation results’ button, at the end of the simulation,
Excel creates a new spreadsheet with the results and several statistics. Next in this
book, you’ll find a section regarding the results sheet.
We recommend maintaining the ‘Turn off Screen Updating’ button checked
to increase the speed of the simulation. If the button is unchecked, Excel refreshes
the screen with new information at the end of each trial, which can increase
significantly the duration of the simulation.
Finally, coloring the target cells may help the user remember which cells were
targeted, and coloring the cells containing ArSim functions helps to locate them also
at the end of a simulation.
1.5.2 THE RESULTS SHEET
If you choose to save the results, Excel creates a new worksheet and gives it the same
name as the sheet from which the simulation was launched, plus the suffix “_Res”. For
example, if the active sheet is named “Sheet1”, the results will be saved to the sheet
“Sheet1_Res”. If a sheet with that name already exists, its contents will all be erased before
the new values are saved. Therefore, to preserve the results from a former simulation you
should rename the results sheet before running the new simulation.
Let’s now look at the results sheet from the coin toss example.
Cell A1 shows that the simulation was run from sheet Sheet1. Cell E1 gives the date and
cells H1 and K1 the times the simulation started and ended.
Cell B3 identifies the target cell (C1), with an added underscore. This (“_C1”) is the new
label name that names the data range below (B21:B120) and is meant to facilitate any
calculations performed on the simulation data in the results sheet
The range B6:B17 shows simulation statistics for target cell C1. The simulation raw data
starts in row 21. Colum A contains the trial number and column B contains the content of
target cell C1, i.e., the result of each trial.
CHAPTER 2 ESTIMATING PROBABILITY
2.1 THE LETTERS AND ENVELOPES PROBLEM
A secretary needs to send 5 letters to 5 different persons. She has the five letters and
the five matching envelopes ready, but. by accident she mixed the letters, and then
placed them in the envelopes at random. What is the probability that at least one person
receives the correct letter (at least one match)?
1. UNDERSTAND THE PROBLEM
This problem can be solved with probability theory, but it’s easy and intuitive to solve it
with resampling methods. You can simulate the experience yourself (as shown on the
figure bellow): write 1, 2, 3, 4 and 5 in two sets of five identical pieces of papers to represent
the envelopes and the letters. Shuffle the letters and put them in the envelopes at random.
See if you obtained any match. Now do it again! And again! Each time you simulate write
down how many matches you obtained.
If you perform this simulation a large number of times you can then calculate what’s
the proportion of simulations that yielded k matches, for k = 0, 1, 2, 3, 4, 5. After we repeat
the simulation a large number of times, we can estimate the probability of at least one
match. Our estimate may be more or less close to the true probability of the event.
Generally, our estimate will be closer the larger the number of simulations.
It is very time consuming to perform and repeat the simulation by hand but using the
arSim add-in we can easily perform 1000 simulations.
2. CREATE THE EXCEL SHEET
Write the headers of the columns: “Letter” on A1, “Envelope” on B1 and “Match?” on
C1. In cells A2 to A6 introduce the numbers from 1 to 5. You’re Excel sheet should look like
the following picture.
3. SIMULATE
We’ll simulate the accident of mixing the letters and placing them randomly into the
envelopes, by shuffling the letters 1 to 5 with the arShuffle function:
1. Select the output range that will hold the shuffled cells (B2:B6)
2. Introduce ‘=arShuffle(‘
3. Select the range that contains the cells you wish to shuffle (A2:A6) > Press
Ctrl+Shift+Enter (do not press Enter: this is an array formula, it requires Crtl+Shift+Enter
to fill all the output cells)
Was there any match? Compare the numbers on column A and on column B, within
the same row. You can see on the picture above that letter 4 matched with envelope 4,
that is, content on A5 = content on B5, meaning there was one match. Your output results
will probably differ.
To perform a proper comparison, we can use Excel’s bult-in ‘IF’ function to compare
the two cells in the same row and score 1 if equal, and 0 otherwise:
1. Introduce ‘=if(A2=B2,1,0)’ > Press Enter
This means that if A2 is the same as B2, i.e. if there was a match, the function will
return 1, and if not, it returns 0.
2. Repeat for the other rows, to see if any of them matched.
Sum the number of matches, using Excel’s ‘SUM’ function, introduce on C8
‘=sum(C2:C6)’. By now, you should have something like the picture below, tough the
number of matches may differ.
4. BIG SIMULATION
4.1 TARGET THE CELL OF INTEREST
We have now perfomed one trial, but this is not enough to estimate a probability. Let’s
repeat the simulation and save the number of matches after each simulation trial. This
way cell C8 is the one we should target, and we will use the arSimAverage function for
that (it returns the average number of matches of all the simulations):
1. Introduce ‘=arSimAverage(‘ on C9
2. Select target cell C8 > press Enter
It will retur #N/A because Excel has not yet performed the simulation.
4.2 REPEAT
Press Ctrl+L to open the arSim Parameters window where you can choose the
simulation parameters and perform the simulation.
We chose to run the simulation for N=1000 trials, not save its results, turn the screen off,
and color the target cells.
5. ANALYZE THE RESULTS AND DRAW A CONCLUSION
The figure shows the simulation results.
The simulations yielded an average of 1,028 matches, close to the expected value of
1 (computed theoretically).
To know how many times there were k matches on the 1000 simulations we can
construct a frequency table. On E1:F7 construct a two-column table for the k values and
the proportion of k (p(k)). Insert the column labels on E1 and F1, and the k values of 0, 1,
2, 3, 4, 5 on E2:E6.
To compute p(k), we can use the arSimFrequency function, that counts how many
simulation trials, out of the 1000 simulations, obtained a number of matches equal to k.
1. Select the output range, the array that will hold the frequency values (F2:F7),
2. Introduce ‘arSimFrequency(C8,E2:E7)/1000’.
This function will count how many times the number of matches (C8) were one of
the values of k (E2:E7). By diving per 1000 we obtain a proportion (the relative
frequency).
3. Use cell F8 to sum the p(k) values, to check they all sum 1.
The probability of at least one match can now be calculated by 1–p(0), or by summing
p(1)+…+p(5).
There’s a 0,619 chance of obtaining at least on match.
What arSim functions were used in this problem?
arShuffle
arSimAverage
arSimFrequency
2.2 A PAIR IN A HAND OF FIVE
While playing poker, what’s the probability of getting one pair in a hand of five? And
two pairs?
1. UNDERSTAND THE PROBLEM
There are 52 cards in the standard deck: 13 kinds of each of the four suits. While
choosing 5 out of 52, what’s the probability of getting a single pair? We can solve this
problem theoretical, through combinations.
𝑝(1𝑝𝑎𝑖𝑟) =𝐶1
13 × 𝐶24 × 𝐶3
12 × (𝐶14)3
𝐶552
The result is 0,423. This requires knowledge on probability theory, and this problem can
much easier be solved through resampling. For that we should simulate choosing 5 cards
at random and then see if we obtained a pair. Out of, let’s say, 1000 simulations, how
many times did we obtained a single pair?
2. CREATE THE EXCEL SHEET
There are 13 cards of each of the 4 suits. As we are not interested on knowing of what
suits was the pair from, we can represent the deck with the numbers 1,2,3,4,…,13 repeated
four times. Write “Deck” in A1 and “HandOf5” in B1, to identify the columns. Insert the
numbers 1 to 13 in A2:A14, copy that array and paste it 3 times bellow, on the same
column. You should have your excel sheet as the following picture (rows from A14:A52
where hidden).
3. SIMULATE
Select array B2:B6, the 5 cells that will hold the 5 shuffled cards from the deck. Type
“arShuffle(A2:A53) and press Ctrl+Shift+Enter.
Did you obtain a pair. two cards with the same number? On the picture above you
can see that our simulation obtained a pair of 2’s. To efficiently count how many pairs a
simulation yielded, we can construct a frequency table, using the Excel’s built-in
Frequency function. This way we can see how many cards, from the 13 different kinds did
each hand obtained; if there was a pair of a certain kind, we will obtain a frequency of
“2” for that kind. As seen below, on D1 and E1 write the labels “Cards” and “Frequency”
and insert the number from 1 to 13 on D2:D14. Select array E2:E14 and type
“FREQUENCY(B2:B6,B2:D14)” and press Ctrl+Shift+Enter.
Now, we need to count how many pairs the simulation trial yielded, i. e. how many
times the array E2:E14, the frequency column, obtained a number “2” for frequency. Use
the Excel’s built-in Count-if function: on cell H2 write “COUNTIF(E2:E14,2)”.
You can see that in our simulation we obtained 1 pair.
4. BIG SIMULATION
4.1 TARGET THE CELL OF INTEREST
What we are interested in is, after repeating this trial a large number of times, knowing
how many of them obtained 1 or more pairs. In other words, we want to know the
proportion of simulation trials that obtained 1 or more pairs. This proportion refers to the p-
value. This way, we will use arSimPValue function to target the cell we are interested in
(H2). This function performs a comparison and returns the proportion of simulations that
obtained a value on the target cell that is the same as, larger than or smaller than another
(in this case, “1”). The type of comparison is decided by you depending on the study
question.
In our example, we want to know the proportion of trials, in 1000 simulations,
4.2 REPEAT
5. ANALYZE THE RESULTS AND DRAW A CONCLUSION
CHAPTER 3 CONFIDANCE INTERVALS
3.1 STRESS LEVELS IN PARENTS OF CHILDREN WITH ADHD
Note: This is a fictional study based on Moore, McCabe & Craig, 2014. Values presented
here were randomized from a normal distribution with the original parameters (M=52.98,
s=10.34), as the original sample was not available.
In a study of parents who have children with attention-deficit/hyperactivity disorder
(ADHD), parents were asked to rate their overall stress level using the Parental Stress Scale
(PSS).14 This scale has 18 items that contain statements regarding both positive and
negative aspects of parenthood. Respondents are asked to rate their agreement with
each statement using a 5-point Likert scale, from 1 to 5. Scores are summed such that a
higher score indicates greater stress. The mean rating for the 50 parents in the study was
reported as 53.3 with a standard deviation of approximately 9. Scores are presented
below.
62 55 59 44 62 53 61 49 51 52
46 59 68 37 42 46 47 33 48 51
62 45 58 64 72 54 49 44 73 52
50 57 58 45 51 57 73 65 49 63
54 46 46 45 42 51 48 47 57 63
The best estimate of the population mean is the sample mean, 53.3, because it is more
likely that the sample comes from a population with an equal mean than from any other
population. Yet, while estimating any population parameter, it is commonly portrayed a
confidence interval (CI), an interval that is likely to include the true population parameter,
in a distribution of possible parameters. That is, regarding a 95% CI for the mean, it denotes
the range of distribution of means that contain the true population mean 95 % of the times;
in other words, we can say we are 95% confident that the true population mean falls within
that range.
First, it is important to acknowledge that in order to compute any confidence interval
our data must be normally distributed. This sample size (n=50) should be sufficient to
overcome any non-Normality. Let’s compute the 95% CI for the mean.
We can solve this theoretically, …
(1) CI = Estimate +/- Margin of Error
In this example our estimate is the sample mean (M).
(2) Margin of error = z*
z is the critical value. It corresponds to the Z score from the normal curve that limits the
distribution in the middle 95%, from –z to +z. Some z scores from commonly used CI are
presented below. For the CI 95%, z = 1.96.
is the standard error, i.e. the population standard deviation.
(3) = s/N
s is the sample standard deviation and N the sample size
Thus, = 9 / 50 = 1.27, so the 95% CI is [M – (1.96) (1.27) = 53.3 – 2.50 = 50.80, M + (1.96)
(1.46) = 53.3 + 2.50 = 55.79]. That is, the population mean falls within [50.80, 55.79] with 95%
confidence.
…however, it is a lot easier and “free of formulas” if we use the resampling approach.
1. UNDERSTAND THE PROBLEM
As we don’t have access to the entire population, our sample is the best representative
group of the population. Imagine we would expand the sample a large number of times,
making it as large as the population. We would obtain an artificial proxy population,
based entirely on our sample, that would have the same characteristics as it.
Once the sample is replicated a large number of times, we can proceed to draw
samples from the artificial population and record the parameter of interest. Ultimately, we
would obtain a distribution of sample parameters, from where we could find a confidence
interval for that statistic.
Instead of replicating a sample a huge number of times, we can draw with
replacement from the original data one sample that has the same size – each observation
has 1/n probability of being selected each time, such as drawing from a large replicated
population. This method is called bootstrap.
In this example, it is as simple as drawing samples with replacement from the observed
data (with the same size, n=50), record the mean of each bootstrap sample, look at the
distribution of samples mean and then check the values that bound 90% or 95% of the
entries. These are the limits of the confidence interval.
2. CREATE THE EXCEL SHEET
Paste the 50 scores into a single column of a new Excel’s workbook, e.g. collum A. Save
the first cell of the column to label that data. Compute the mean and standard deviation
on D1 and D2. The basic setup should be something like the image below (cells from
A11:A50 were hidden).
3. SIMULATE
Draw with replacement a sample (n=50) from the original sample, the bootstrap
sample, using the arResample function, an array formula. Save column F for that and use
cell F1 to write its label. To create the bootstrap sample, select array F2:F52, the range that
will hold the simulation results, type ‘arResample(’, select A2:A52, and press
Ctrl+Shift+Enter. Finally, compute the bootstrap average, using Excel’s built-in average
function. You’ll get something similar as the picture underneath.
4. BIG SIMULATION
4.1 TARGET THE CELL OF INTEREST
We’ll use the arSimAverage function to target the cell with the bootstrap average (I1,
in our case).
4.2 REPEAT
Press Ctrl+L to repeat the procedure 1000 times, ending up with a distribution of sample
means, an artificial population, from which we’ll draw the standard error.
5. ANALYZE THE RESULT AND DRAW A CONCLUSION
Use Excel’s built-in formula STDEV to compute the standard deviation of the simulated
sample means. This standard deviation corresponds to the standard error (), as the 1000
samples make up for a population. Determine the margin of error, z*, being z = 1.96. The
Confidence Interval corresponds to the interval between the mean (53.3) +/- the margin
of error. . You can also compute percentiles 2.5 and 97.5 from the distribution of sample
means.
CHAPTER 4 TESTING HYPOTHESIS
4.1 GENDER DISCRIMINATION
Let’s consider a study investigating gender discrimination in the 1970s (Rosen & Jerdee,
1974, cit. in Diez, Barr & Çetinkaya-Rundel, 2014): 48 male bank supervisors, in the University
of North Carolina, were asked to evaluate a personnel file and judge whether that person
should be promoted or not. The files were identical, but half indicated that the candidate
was a man and the other half a woman (24 each).
The results of the study are shown in the table below. There’s a large difference on the
promotion rates: out of the 35 bank supervisors that decided to promote 21 were for men
and 14 for women (dif = 7).
Decision
Promoted Not
promoted
Total
Gender Male 21 3 24
Female 14 10 24
Total 35 13 48
Does this difference suggest a bias against women in promotion decision? Is this a case
of gender discrimination, or is this difference due to chance, and the natural fluctuation
of random samples?
1. UNDERSTAND THE PROBLEM
Given that 35 supervisors promoted the candidate, the issue is whether their decision
was influenced by the gender.
If we conducted this experiment again, with a different assignment of files, would we
get a difference of promotion rates of 7 or higher?
To answer this question, we should perform an hypothesis test.
H0: There is nothing going on
Promotion and gender ar independent,
H1: Ther is something going on
EXPLAIN
Decide the test statistics
2. BUILD THE EXCEL SHEET
Open a blank Excel book, that has already the arSim add-in. Start with creating a
column with the 48 files, 24 for each gender, using 1 for males and 0 for females, by
inserting 24 “1” and 24 “0” on column A. The picture below shows the basic setup (some
lines were hidden so that general picture is shown).
3. SIMULATE
Now, out of the 48 files we’re going to choose the 35, regardless of their gender, to be
promoted. To choose them randomly, use the arShuffle function, an array formula. As
shown below, select the 35 cells B2:B36, from column B that will hold the 35 promoted
individuals, type “=arShuffle(“ select the population of the 48 files (A2:A49) and Press
Ctrl+Shift+Enter.
Count how many “1”s and “0”s you got (your simulation values will differ from the ones
obtained here). On cell E1, insert the Sum of the shuffled results, to count the males. The
picture bellow shows the formula. For the females subtract the number of males to 35 (the
sample size), on cell E2. Finally, compute the difference between the number of males
and females on cell E3. We obtained a difference of -3, as seen below.
4. REPEAT THE SIMULATION A LARGE NUMBER OF TIMES
4.1 TARGET THE STATISTICS OF INTEREST
There is now one trial done, but this is not enough to draw any conclusion about the
original difference obtained. However, if we repeat this procedure, let’s say 1000 times,
we can see how often we would get a difference of 7 or greater. In other words, what’s
the proportion of simulations that yield a difference as large as or larger than the authors
obtained? This proportion refers to the p-value.
We will use the arSimPValue function, to know the proportion of trials, in 1000
simulations, that obtained a difference (on E3) as large as or larger than 7. As shown on
the picture bellow, use cell E5 to type “=arSimPvalue (E3;”>=”;7)” and press enter.
4.2 REPEAT
Press Ctrl+L and select the simulation parameters. We chose to run the simulation for
N=1000 trials, not to save its results, turn the screen off, and color the target cells. The figure
bellow shows our simulation results.
5. ANALYZE THE RESULTS AND DRAW A CONCLUSION
We obtained a p-value of 0,022. Yours might be slightly different.
This means that the difference obtained by the authors only occurred 2.2%. This is such
a rare event that we can say that chance probably didn’t produce such a large
difference. The results obtained on the concerned study are most likely due to gender
discrimination. We can say that gender has an effect on promotion decision1.
1This decision depends on the significance level you previously chose. We chose a
significance level of 0.05, so if we obtain a p-value inferior to that, we should reject the
null hypothesis
4.2 YAWNING
CHAPTER 5 CONTINGENCY TABLES
5.1 THE LADY TASTING TEA
CHAPTER 6 ANALYSIS OF VARIANCE
CHAPTER 7 ARSIM ADD-IN FUCNTIONS