UNIVERSIDADE PAULISTA PROGRAMA DE DOUTORADO EM ENGENHARIA DE PRODUÇÃO MINERAÇÃO DE DADOS EDUCACIONAIS PARA A GESTÃO DE CURSOS MASSIVOS Tese apresentada ao Programa de Pós- Graduação em Engenharia de Produção da Universidade Paulista - UNIP, para obtenção do título de Doutor em Engenharia de Produção. LUIS NAITO MENDES BEZERRA SÃO PAULO 2017
141
Embed
Dissertação - NOME - Programa de Pós-Graduação em ...repositorio.unip.br/wp-content/uploads/tainacan-items/...cunhada Déborah, uma pessoa especial e incentivadora dos meus projetos,
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
UNIVERSIDADE PAULISTA
PROGRAMA DE DOUTORADO EM ENGENHARIA DE PRODUÇÃO
MINERAÇÃO DE DADOS EDUCACIONAIS PARA A
GESTÃO DE CURSOS MASSIVOS
Tese apresentada ao Programa de Pós-
Graduação em Engenharia de Produção da
Universidade Paulista - UNIP, para obtenção
do título de Doutor em Engenharia de
Produção.
LUIS NAITO MENDES BEZERRA
SÃO PAULO
2017
UNIVERSIDADE PAULISTA
PROGRAMA DE DOUTORADO EM ENGENHARIA DE PRODUÇÃO
MINERAÇÃO DE DADOS EDUCACIONAIS PARA A
GESTÃO DE CURSOS MASSIVOS
Tese apresentada ao Programa de Pós-
Graduação em Engenharia de Produção da
Universidade Paulista - UNIP, para obtenção
do título de Doutor em Engenharia de
Produção.
Área de concentração: Gestão de Sistemas de
Operação
Linha de pesquisa: Redes de empresas e
planejamento da produção
Projeto de pesquisa: Gestão de operações de
serviços - formas organizacionais, métodos e
ferramentas para a gestão.
LUIS NAITO MENDES BEZERRA
SÃO PAULO
2017
FICHA CATALOGRÁFICA
Bezerra, Luis Naito Mendes.
Mineração de Dados Educacionais para a gestão de cursos massivos. /
Luis Naito Mendes Bezerra. - 2017.
141 f. : il. color. + CD-ROM.
Tese de Doutorado Apresentada ao Programa de Pós Graduação em
Engenharia de Produção da Universidade Paulista, São Paulo, 2017.
Área de Concentração: Gestão de Sistemas de Operação: Redes de
Empresas e Planejamento da Produção.
Orientadora: Prof.ª Dra. Márcia Terra da Silva.
1. EDM. 2. MOOCs. 3. Cursos massivos. 4. Análise de dados
educacionais. 5. Gestão. I. Silva, Márcia Terra da (orientadora).
Abstract. Apesar da escala global, da grande oferta de cursos e do elevado número de matrículas, alguns desafios vêm se apresentando ao universo dos MOOCs (Massive Open Online Course), principalmente
àqueles relacionados aos aspetos de projeto e gestão.
Este artigo tem por objetivo identificar os principiais problemas enfrentados pelos gestores dos MOOCs. Para esse fim, foi realizado um estudo exploratório, por meio da análise de publicações existentes em bases
de dados acadêmicas.
Os resultados apontam que após a pesquisa foi possível identificar e analisar seis problemas, sendo que o
principal deles foi a taxa de conclusão muito reduzida desse tipo de curso.
. Keywords: MOOCs, problemas dos MOOCs, desafios dos MOOCs.
1 Introdução
Recentemente surgiu uma nova modalidade de educação a distância (EaD) conhecida como MOOC (Massive
Open Online Course,). Os MOOCs são cursos abertos, com formato totalmente online, sem pré-requisitos, sem
cobrança inicial de taxas e com potencial para distribuir a educação em escala global, inclusive, permitindo a
alunos oriundos de países em desenvolvimento terem acesso a instituições e cursos de qualidade com baixo
custo [8;1;9].
Em 2011, cerca de 3 anos, após o oferecimento do primeiro MOOC1, Sebastian Thrun criou o curso de
Inteligência Artificial na Universidade de Stanford que atraiu mais de 160.000 alunos de 190 países. A partir de
2011 o crescimento desta modalidade de EAD tem sido vertiginoso, com o surgimento, inicialmente, de três
grandes plataformas - Coursera, Udacity e EdX - para a oferta dos MOOCS [17;19;3].
As pesquisas demonstram que os principais motivos para o interesse dos alunos nos MOOCs podem ser
resumidos em quatro relevantes aspectos: interesse em aprender sobre determinados assuntos; aumentar
conhecimento; atualizar-se sobre algum assunto visto anteriormente ou aprender algo específico que contribuirá
para o seu desenvolvimento profissional [21;20].
Contudo, apesar da escala global ter sido atingida, do grande número de alunos atendidos e do crescimento
considerável do número de cursos, alguns desafios vêm se apresentando ao universo dos MOOCs. Diversos
autores têm pesquisado aspectos problemáticos no projeto e na gestão desses cursos, como, por exemplo, o
modelo pedagógico [7; 11]e a qualidade dos MOOCs [12].
Portanto, objetiva-se, com esse trabalho, a partir de um estudo bibliográfico, identificar e analisar os
principais problemas no projeto e gestão dos MOOCs, além de apontar o problema mais significativo e verificar
como os problemas relacionam-se entre si.
Além desta introdução, este trabalho é dividido em mais seis partes. Na seção inicial é apresentada a
metodologia utilizada para atingir o objetivo desta pesquisa, para em seguida ser apresentado um estudo sobre
os principais problemas no projeto e na gestão dos MOOCs. Na sequência, apresentam-se os resultados e
análise, as conclusões e, por último, as referências bibliográficas.
1O primeiro MOOC foi criado em setembro de 2008, no Canadá.
Diversos autores apontam que o maior desafio para a gestão dos MOOCs reside em sua elevada taxa de evasão, geralmente em torno de 90%. Este artigo tem por objetivo identificar os motivos que levam a uma maior evasão nos cursos oferecidos como MOOCs. Para esse fim, foi realizada uma revisão sistemática da literatura nas bases Springer, Science Direct, ERIC database e ACM Digital Library.
Os resultados apontam 24 motivos para a evasão nos MOOCs, que foram divididos em duas categorias: motivos inerentes às próprias características dos MOOCs e os relacionados com o desenvolvimento dos alunos durante o curso. A última categoria é a mais crítica e merece atenção especial por parte dos gestores dos cursos, pois a partir do conhecimento prévio desses motivos seria possível a adoção de mecanismos que possibilitem a diminuição das taxas de evasão. Por fim, foram apresentadas diversas soluções da bibliografia, para enfrentar os motivos causadores da evasão.
ABSTRACT
The main purpose of this article is to try to identify the reasons that lead to higher dropout rates in the courses offered as MOOCs. For this purpose, there has been a systematic review of the literature. The results suggest 24 different reasons for dropouts from MOOCS, and these reasons have been divided into two groups: reasons inherent to the very characteristics of the MOOCs and those related to the development of the students during the course. Finally, several solutions in the bibliography have been mentioned as ways to tackle the factors that have brought about the high dropout rates.
17 Falta de maturidade do aluno (Burd, Smith, & Reisman, 2014)
19 Carga de trabalho excessiva (Zheng, Rosson, Shih, & Carrol, 2015)
22 Dificuldade em acompanhar o conteúdo do curso
(Zheng, Rosson, Shih, & Carrol, 2015)
24 Falta de um tutorial para orientar os usuários
(Gomes-Zermeno & De La Garza, 2016)
É importante ressaltar que os motivos apresentados na tabela 5, ou seja, aqueles relacionados ao
desenvolvimento do aluno durante o curso são os mais críticos em relação àqueles inerentes às
próprias características do MOOCs e deveriam receber um nível de atenção maior por parte dos
gestores do curso, pois a partir do conhecimento sobre quais motivos influenciam de maneira mais
acentuada a evasão de determinado curso, seria possível adotar estratégias para diminuir as taxas
de evasão.
É possível encontrar na literatura elementos que podem colaborar para propor soluções para tratar
dos motivos apontados na tabela 5. Inicialmente, para o fator 1 (falta de atividade cooperativa entre
os alunos e trabalhos em grupo), Khalil & Ebner (2014) sugerem que nos fóruns de discussão, além
da resposta do professor, de forma adicional, os estudantes sejam incentivados a responderem uns
aos outros, aumentando assim o compartilhamento de recursos suplementares e possibilitando,
também, que os alunos sintam-se parte de uma comunidade de aprendizagem virtual e que possam
recorrer a ela quando necessitarem de ajuda.
Para o motivo 4 (falta de tempo suficiente para acompanhar o curso), motivo 6 (dificuldade em
relacionar os conceitos com as aplicações) e motivo 22 (dificuldade em acompanhar o conteúdo do
82
curso), seria possível utilizar os princípios apontados no trabalho de Blanco, Garcia-Penalvo, & Sein-
Echaluce (2013), que propõe a utilização de uma abordagem adaptativa para o projeto do curso, em
contraste com o projeto rígido adotado pela maioria dos cursos atuais. A abordagem adaptativa leva
em consideração o aspecto heterogêneo dos alunos, sugerindo caminhos de aprendizagem
individualizados, onde uma determinada atividade pode ser interessante para um indivíduo ou grupo
de alunos, mas não para todos.
Ainda segundo os mesmos autores, o sistema adaptativo , a partir de uma avaliação diagnóstica dos
alunos, propõe atividades personalizadas para cada perfil de aluno, sendo possível, ainda, agrupar
os participantes por afinidade (contexto e objetivos de aprendizagem semelhantes) contribuindo
desta maneira para a realização de atividades colaborativas.
Para o motivo 8 (modelo de avaliação), a pesquisa de (Garcia_Penalvo, Hermo, Blanco, & Sein-
Echaluce, 2014) faz constar que os participantes demandam outros métodos de avaliação, diferentes
dos testes adotados pela maioria dos cursos. Por exemplo, sugere-se a adoção do método de
revisão pelos pares (peer reviewing) e mais retorno (feedback) em relação às falhas cometidas
durante o processo de avaliação. Um exemplo nesta direção é o curso Principles of Macroeconomics
da Universidade de Melbourne, no qual os estudantes colaboram entre si por meio de fóruns e redes
sociais. Há também a avaliação em pares, onde um determinado aluno escreve um texto de 1500
palavras que é avaliado por três outros estudantes (Coffrin, Barba, Corrin, & Kennedy, 2014).
Já em relação a falta de eficácia do material (motivo 16), principalmente vídeos e exercícios, o
sistema PES (Precise Effectiveness Strategy) é proposto como uma metodologia para medir a
efetividade dos alunos quando interagem com recursos educacionais e atividades. O sistema utiliza-
se para tanto de métricas para para calcular a efetividade dos alunos quando utilizam, por exemplo,
palestras em vídeo e correção automática de exercícios. O PES estabelece que a conclusão do
recurso (um vídeo, por exemplo) implica em uma interação correta com a atividade. Portanto, um
recurso é concluído quando um aluno resolve um exercício corretamente, mas não quando o aluno
tenta fazê-lo sem sucesso (Muñoz-Merino, Ruipérez-Valiente, Alario-Hoyos, Perez-Sanagustin, &
Kloos, 2014).
Para o motivo 17 (falta de maturidade do aluno), se as atividades de aprendizagem dependem de
ações em grupo, alunos que são imaturos ou despreparados podem prejudicar a aprendizagem dos
outros. Nesse caso, seria importante definir procedimentos de apoio e orientação realistas
(considerando a natureza dos MOOCs). Tipicamente , a única forma de ajuda oferecida na maioria
dos MOOCs é a assistência de pares (peer assistance), onde os alunos colaboram entre si, além da
possibilidade da atribuição de um moderador para colaborar com as discussões em grupo.
Os motivos 10 (dificuldade com a tecnologia) e 19 (carga de trabalho excessiva), apesar de em um
primeiro momento parecerem fora do controle dos gestores, deveriam receber atenção, no sentido de
propor mais atividades colaborativas, que diminuam o estudo individual e promovam o senso de
comunidade entre os alunos. Para a questão da dificuldade com a tecnologia, muitos alunos podem
enfrentar problemas em relação ao uso das ferramentas internas disponíveis, como, por exemplo,
para os fóruns de discussão. Nesse caso, seria possível a utilização de ferramentas externas, como
o Facebook e algumas soluções da Google (Google Docs e Google+) (Zheng, Rosson, Shih, &
Carrol, 2015).
Como exemplo final, para os motivos 3 (falta de motivação por parte dos alunos) e 7 (nível do curso
diferente da expectativa inicial), o trabalho de Gené, Nunes, & Blanco (2014), indica a aplicação do
conceito de gamificação para elevar o nível de motivação dos alunos e diminuir as taxas de evasão.
O termo gamificação (do inglês gamification), refere-se à prática de utilizar elementos de jogos
digitais em produtos e serviços para melhorar a experiência de seus usuários (de-Marcos,
Dominguez, & Saenz-de-Navarrete, 2014). Esse conceito pode ser implementado, por exemplo,
durante o processo de avaliação dos alunos, quando após a realização “quizzes” no ambiente
83
Moodle, os elementos de jogos foram utilizados, com a adoção, por exemplo, de “ranking ratings” para a
classificação dos alunos após cada atividade.
É importante considerar que o caráter heterogêneo e aberto dos MOOCs, permite a participação de
alunos com perfil de aprendizagem e interesses diversos. Sendo assim, seria fundamental para a
diminuição das elevadas taxas de evasão, a partir de uma avaliação diagnóstica para conhecer o
perfil de cada aluno, propor atividades personalizadas para cada aluno ou grupos de alunos. Neste
caso, seria possível propor atividades e selecionar materiais mais adequados aos alunos com
contexto e objetivos de aprendizagem semelhantes, em contraste com o modelo rígido que
prevalece, atualmente, e que trata todos os alunos da mesma maneira.
Neste sentido, são importantes os estudos e projetos de implantação de MOOCs adaptativos, que
permitem a partir de dados originados pelos alunos na utilização e interação com o ambiente de
aprendizagem, o estabelecimento de diferentes estratégias de aprendizagem individualizadas bem
como para grupos de alunos.
5. Conclusão
A pesquisa teve como objetivo identificar na literatura os motivos que levam os MOOCs a
apresentarem altas taxas de evasão. Após revisão sistemática na literatura nas bases Springer,
Science Direct, ERIC database, ACM Digital Library e Google Acadêmico, foram identificados 24
motivos, que na sequência foram divididos em dois grupos, ou seja, motivos inerentes às próprias
características do MOOCs e motivos relacionados com o desenvolvimento do aluno durante o curso.
A análise mostrou que doze dos vinte e quatro motivos são inerentes às próprias características dos
MOOCs, pois, por exemplo, o fato de tais cursos serem abertos e sem cobrança inicial de taxas
contribui de maneira importante para as altas taxas de evasão, pois muitos alunos fazem inscrição
apenas por curiosidade e logo desistem do curso. Para esse grupo de motivos, os gestores desses
cursos têm pouca margem de atuação no sentido de propor soluções para a redução das altas taxas
de evasão.
É importante salientar que os doze motivos relacionados ao desenvolvimento do aluno durante o
curso são os mais críticos e merecem atenção especial por parte dos gestores dos cursos, pois a
partir do conhecimento prévio desses motivos seria possível a adoção de medidas no sentido de
implementar mecanismos que possibilitem a diminuição das taxas de evasão dos MOOCs. Foram
apresentadas a partir da literatura, algumas possíveis soluções para enfrentar tais motivos, dentre
elas a utilização de abordagem adaptativa para o curso, a adoção do processo de gamificação, o
aumento das atividades de cooperação entre os alunos nos fóruns de discussão dos cursos e o
sistema PES (Precise Effectiveness Strategy) para medir a efetividade dos alunos quando interagem
com recursos educacionais e atividades
Em termos de trabalhos futuros, sugere-se a realização de pesquisas de campo com alunos para
verificar se os motivos apontados na literatura são compatíveis com as dificuldades relatadas por
eles durante o curso. Além disso, seria importante estudos sobre a adoção de ferramentas
computacionais, principalmente Learning Analytics (LA) e Educational Data Mining (EDM) que
permitiriam a análise dos dados gerados pelos alunos no ambiente virtual de aprendizagem e
possibilitariam aos gestores uma análise antecipada do comportamento dos alunos, com o objetivo
de prever quando o aluno poderá parar de frequentar o curso e adotar as medidas cabíveis com a
finalidade de diminuir a evasão no curso.
84
6. Referências bibliográficas
Almenara, J., Cejudo, M., & Vazquez Martinez, A. (2014). Las Tipologias de MOOC: Su Diseño e Implicaciones Educativas. Revista de curriculum y formación de profesorado, pp. 14-26.
Alraimi, K., Zo, H., & Ciganek, A. (2015). Understanding the MOOCs continuance: The role of openness and. Computers & Education, pp. 28-38.
Belanger, Y., & Thornton, J. (2013). Bioelectricity: A quantitative approach. Duke University First MOOC. Durham, NC.
Blanco, A., Garcia-Penalvo, F., & Sein-Echaluce, M. (2013). A methodology proposal for developing adaptative cMOOC. TEEM 2013 - Proceedings of the First International Conference on Technological Ecosystem for Enhancing Multiculturality (ACM), (pp. 553-558). Salamanca,
Espanha.
Borba, M., Malheiros, A., & Amaral, R. (2011). Educação a Distância Online. Belo Horizonte:
Autêntica.
Brahimi, T., & Sarirete, A. (2015). Learning outside the classroom through MOOCs. Computers in Human Behavior, 51 - parte B, pp. 604-609.
Burd, E., Smith, S., & Reisman, S. (2014). Exploring Business Models for MOOCs in Higher Education. Innovative Higher Education, pp. 1-13.
Burge, J. (2015). Insights into Teaching and Learning: Reflections on MOOC Experiences. SIGCSE '15 Proceedings of the 46th ACM Technical Symposium on Computer Science Education (pp.
600-603). Kansas City, MO, USA: ACM New York, NY, USA.
Chen, Y. (2014). Investigating MOOCs Through Blog Mining. The International Review of Research in Open and Distance Learning, pp. 85-106.
Clow, D. (2013). MOOCs and the Funnel of Participation. Proceedings LAK '13, (pp. 186-189).
Leuven, Bélgica.
Coetzee, D., Fox, A., Hearst, M., & Hartmann, B. (2014). Should your MOOC Forum use a reputation system? CSCW 2014 - Learning Analytics and Knowledge. Baltimore, Maryland, USA.
Coffrin, C., Barba, P., C.orrin, L., & Kennedy, G. (2014). Visuzalizing patterns of student engagement and performance in MOOCs. Proceedings - LAK2014 - Learning Analytics and Knowledge.
Indianapolis, USA.
Conole, G. (2014). A new classification schema for Moocs. The International Journal for Innovation and Quality in Learning (INNOQUAL), pp. 65-77.
Cooper, S., & Sahami, M. (2013). Reflections on Stanford’s MOOCs. New possibilities in online education create new challenges. Communications of the acm, 56(2), 28-30.
Coursera. (s.d.). Coursera. Acesso em 15 de maio de 2015, disponível em https://pt.coursera.org/
Daniel, J. (2012). Making Sense of MOOCs: musing in a maze of myth, paradox and possibility. Journal of Interactive Media in Education, 1-20.
Dellarocas, C., & Van Alstyne, M. (August de 2013). Money Models for MOOCs. Considering new business models for massive open online courses. Communications of the acm, 56(8), 25-28.
de-Marcos, L., Dominguez, A., & Saenz-de-Navarrete, J. P. (2014). An empirical study comparing gamification and social networking on e-learning. Computers & Education, pp. 82-91.
Fini, A. (2009). The Technological Dimension of a Massive Open Online Course: The Case of the CCK08 Course Tools. International Review of Research in Open and Distance Learning.
85
Fournier, H., Kop, R., & Durand, G. (2014). Chalenges to Research in MOOCS. Journal of Online Learning and Teaching.
Garcia_Penalvo, F., Hermo, V., Blanco, A., & Sein-Echaluce, M. (2014). Applied Educational Innovation MOOC: Learners Experience and Valorization of Strengths and Weaknesses. TEEM 2014 - Proceedings of the Second International Conference on Technological Ecosystem for Enhancing Multiculturality (ACM), (pp. 139-145). Salamanca, Espanha.
Gené, O., Nunes, M., & Blanco, A. (2014). Gamification in MOOC: Challenges, Oportunities and Proposal for Advancing MOOC Model. TEEM 2014 - Proceedings of the Second International Conference on Technological Ecosystem for Enhancing Multiculturality (ACM), (pp. 215-220).
Salamanca, Espanha.
Gomes-Zermeno, M., & De La Garza, L. (2016). Research Analysis on Mooc Course Dropout and Retention Rates. Turkish Online Journal of Distance Education-TOJDE, 17(2), p. (pp.) 3-14.
Guo, P., & Reinecke, K. (4-5 de march de 2014). Demographic Differences in How Students Navigate Through MOOCs. L@S - Student Skills and Behavior.
Hew, K., & Cheung, W. (2014). Students and Instructors use of massive open online courses (MOOCs): motivations and challenges. Educacional Research Review, pp. 45-58.
Hyman, P. (December de 2012). In the Year of Disruptive Education. Communications of the acm, 55(12), 20-22.
Jordan, K. (2014). Initial Trends in Enrolment and Completion of Massive Open Online Courses. The International Review of Research in Open and Distance Learning, pp. 133-160.
Kennedy, J. (2014). Characteristics of Massive Open Online Courses (MOOCs): A research review, 2009-2012. Journal of Interactive Online Learning, pp. 1-16.
Khalil, H., & Ebner, M. (2014). MOOCs Completion Rates and Possible Methods to Improve Retention - A Literature Review. Proceeding of World Conference on Educational Multimedia, Hypermidia and Telecommunications, (pp. 1236-1244). Chesapeake, VA.
Kop, R., Fournier, H., & Mak, J. (2011). A Pedagogy of Abundance or a Pedagogy to Support Human Beings? Participant Support on Massive Open Online Courses. The International Review of Research in Open and Distance Learning, pp. 75-93.
Little, G. (2013). Massively Open? The Journal of Academic Librarianship, pp. 308-309.
Liu, M., Kang, J., Cao, M., Lim, M., Ko, Y., Myers, R., et al. (2014). Understanding MOOCs as an Emerging Online Learning Too: Perspectives from the Students. American Journal of Distance Education, pp. 147-159.
Liyanagunawardena, T., Adams, A., Rassol, N., & Williams, S. (2014). Developing government policies for distance education: Lessons learnt from two Sri Lankan Case Studies. International Review of Educational, pp. 1-19.
Mallon, M. (2013). MOOCs. Public Services Quarterly, pp. 46-53.
Maringe, F., & Sing, N. (2014). Teaching large classes in increasingly internationalising higher education environment: pedagogical, quality and equity issues. Higher Education, pp. 761-782.
Morris, L. (2013). MOOCs, Emerging Technologies and Quality. Innovative Higher Education, 251-252.
Muñoz-Merino, P., Ruipérez-Valiente, J., Alario-Hoyos, C., Perez-Sanagustin, M., & Kloos, C. (2014). Precise Effectiveness Strategy for Analyzing the Effectiveness of Students. Computer in Human Behavior, pp. 1-11.
86
Nawrot, I., & Docet, A. (2014). Building Engagement for MOOC Students. Introducing Support for Time Management on Online Learning Platforms. Proceedings of the 23rd International
Conference on World Wide Web (pp. 1077-1082). Seul, Korea: ACM New York, NY, USA.
Ong, B., & Grigoryan, A. (2014). MOOCs and Universities: Competitors or Partners? International Journal of Information and Education Technology, 5(5), 373-376.
Open Education Europa. (2015). European MOOCs Scoreboard. Acesso em 23 de setembro de 2015, disponível em The European MOOCs Scoreboard: http://openeducationeuropa.eu/sites/default/files/images/scoreboard/Scoreboard_SEPTEMBER_2015.png
Poy, R., & Gonzalles-Aguilar, A. (2014). Factores de éxito de los MOOC: algunas consideraciones críticas. Revista Ibérica de Tecnologia y Sistemas de Información, pp. 105-118.
Quinn, J. (2013). Drop out and Completion in Higher Education in Europe. Acesso em 2015 de julho de 09, disponível em http://www.nesetweb.eu/sites/default/files/HE%20Drop%20out%20AR%20Final.pdf
Read, T., & Rodrigo, C. (2014). Toward a Quality Model for UNED MOOCs. eLearning Papers.
Rodriguez, O. (2012). MOOCs and the AI-Stanford like courses: Two successful and distinct course formats for Massive Open Online Courses. The European Journal of Open Distance and E-Learning, pp. 1-13.
Rosewell, J., & Jansen, D. (2014). The OpenupEd quality label: Benchmarks for MOOCs. The International Journal for Innovation and Quality in Learning, pp. 88-100.
Rosselle, M., Caron, P., & Heutte, J. (2014). A typology and dimensions of a description framework for MOOCs. Proceedings of the European MOOCs Stakeholoders Summit, (pp. 130-139).
Roval, A., & Downey, J. (2010). Why some distance education programs fail while others succeed in a global environment. Internet and Higher Education, pp. 141-147.
Saadatmand, M., & Kumpulainen, K. (2014). Participants Perceptions of Learning and Networking in Connectivism MOOCs. MERLOT Journal Online Learning and Teatching, pp. 16-30.
Sandeen, C. (2013). Integrating MOOCs into Traditional Higher Education: The emerging "MOOC 3.0" Era. The Magazine of Higher Learning, pp. 34-39.
Vardi, M. (November de 2012). Will MOOCs Destroy Academia? Communications of the acm, 55(11),
5.
Walker, L., & Lock, B. (2014). Academics Perception on the Quality of Moocs: an empirical study. The International Journal for Innovation and Quality (INNOQUAL), pp. 53-63.
Welsh, D., & Dragusin, M. (2013). The New Generation of Massive Open Online Course (MOOCS) and Entrepreneurship Education. Small Business Institute Journal, 9(1), 51-65.
Wilkowski, J., Deutsch, A., & Russell, D. (2014). Student Skill and Goal Achievement in the Mapping with Google MOOC. L@S 2014 - Student Skills and Behavior (pp. 3-10). Atlanta, Georgia,
USA.: ACM.
Zheng, S., Rosson, M., Shih, P., & Carrol, J. (2015). Understanding Student Motivation, Behaviors and Perceptions in MOOCs. CSCW '15 Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing (pp. 1882-1895). Vancouver, BC, Canada: ACM New York, NY, USA.
Zutshi, S., O´Hre, S., & Rodafinos, A. (2013). Experiences in MOOCs: The Perspective of Students. American Journal of Distance Education, pp. 218-227.
87
4.3 Artigo 3 - “A aplicação de mineração de dados educacionais na descoberta de
padrões de comportamento dos alunos de uma disciplina online: um caso
brasileiro” ou “Application of educational data mining to understand the online
students behavioral pattern: a brazilian case”
O terceiro artigo descreve a aplicação de técnicas de MDE em uma dimensão menor que a
considerada para o objetivo final da tese. Nesse caso foi escolhida uma disciplina online com
1.113 alunos.
O artigo foi concebido para descrever a aplicação de técnicas de MDE, com o objetivo de
extrair do AVA conhecimentos novos e relevantes a respeito dos padrões de comportamento
dos alunos.
A principal contribuição deste artigo foi constatar que a mineração de dados educacionais
mostrou-se útil na obtenção de conhecimento novo e relevante na análise da oferta inicial de
uma disciplina online. Após a aplicação de dois algoritmos bastante utilizados em contextos
educacionais, a árvore de decisão (decision tree) e o agrupamento (clustering), foi possível,
com a participação do especialista de domínio, revelar aspectos da disciplina que os gestores
desconheciam e acharam relevantes, como as atividades que contribuíram de maneira mais
expressiva para a aprovação dos alunos e os atributos mais significativos para o sucesso dos
mesmos.
Com base nesses resultados, constatou-se a necessidade da ampliação da quantidade de
experimentos, além da aplicação do processo de mineração de dados educacionais em cursos
com caráter massivo.
A seguir o artigo é reproduzido na sua forma original.
88
A APLICAÇÃO DE MINERAÇÃO DE DADOS EDUCACIONAIS NA
DESCOBERTA DE PADRÕES DE COMPORTAMENTO DOS ALUNOS DE UMA
Neste artigo, foi utilizado o software - RapidMiner Studio -, em sua versão 7.0. Tal ferramenta foi
escolhida por disponibilizar licença acadêmica de forma gratuita, além de estar disponível nas
principais plataformas e sistemas operacionais, como Windows e Linux, sendo importante mencionar
ainda que a citada ferramenta apresenta suas funcionalidades por meio de uma interface gráfica
intuitiva, incorporando, também, a biblioteca de algoritmos de aprendizagem do Weka, totalmente,
94
integrada e com acesso a diferentes fontes de dados, como: Excel, Oracle, Microsoft SQL Server,
MySQL, e outros
3. Metodologia
Neste estudo foram utilizados como referência os trabalhos de Pandey & Sharma (2013), Jeevalatha,
Ananthi, & Kumar (2014) e Selvan, Beleya, Muniandy, Heng, & Remendran (2015) que aplicaram as
etapas do processo de Descoberta de Conhecimento em Banco de Dados ou Knowledge Discovery
in Databases (KDD) em suas pesquisas.
Seguindo o processo de KDD, para a implantação do estudo de caso, em uma primeira etapa, foi
feita a importação dos dados do AVA – Blackboard - e a consequente seleção dos atributos que
serão utilizados, posteriormente, na etapa de mineração de dados. Em seguida, tais dados foram
submetidos à etapa de pré-processamento, e foram eliminados os dados com inconsistência ou
redundância. Na etapa seguinte, de transformação, foram criadas novas colunas calculadas, como
resultado e número de atividades. As duas últimas etapas foram a da mineração propriamente dita,
que consistiu na busca por padrões através da aplicação de algoritmos para árvore de decisão
(decision tree) e o agrupamento (clustering) com o uso da ferramenta RapidMiner. Por fim, foi
efetuada a interpretação dos resultados da etapa anterior.
O experimento teve como objetivo identificar se havia alguma atividade registrada no AVA importante
para caracterizar o grupo dos aprovados. Essa é uma questão importante para o professor entender
a relação dos alunos com o material e as consequências do comportamento do aluno para
aprovação no curso.
4. Estudo de Caso
4.1 Contextualização
No Brasil, há poucos trabalhos na área de mineração de dados educacionais. É possível citar a tese
de Kampff (2009), desenvolvida na Universidade Federal do Rio Grande do Sul (UFRGS), que aplica
técnicas de MDE aos dados de estudantes gerados pela interação em um Ambiente Virtual de
Aprendizagem (AVA), com objetivo de identificar comportamentos e características de estudantes
com risco de abandono ou reprovação.
Outro trabalho que pode ser citado é a tese de Manhães (2015), que apresenta uma proposta de
arquitetura baseada em MDE para predição do desempenho acadêmico de graduandos, com o
objetivo de fornecer aos gestores educacionais das universidades públicas brasileiras, não
especialista em EDM, uma abordagem que oferece informações úteis sobre o desempenho
acadêmico dos graduandos e predizer os que estão em risco de abandonar o sistema de ensino.
O presente trabalho será conduzido, por meio de um estudo de caso, que foi aplicado em uma
Instituição de Ensino Superior Privada (IESP), com diversos campi na cidade de São Paulo, Brasil. A
partir de agora tal instituição será denominada Alfa.
O estudo de caso tem como objetivo avaliar se a utilização dos recursos de MDE pode ser útil para
detecção de padrões de comportamento dos alunos no AVA ou LMS - Blackboard.
Neste estudo serão utilizados apenas dados acadêmicos oriundos do AVA, sem levar em
consideração nenhum dado social ou financeiro para a presente análise.
O modelo que será utilizado no estudo de caso, foi inspirado no processo de KDD, conforme pode
ser observado na figura 2.
95
Figura 2: Processo de descoberta do conhecimento. Fonte: autor
Em seguida são apresentadas as principais características da disciplina que foi utilizada no estudo
de caso.
4.2 Características da disciplina objeto do estudo
A disciplina escolhida para o presente estudo foi a de Língua Portuguesa (LPO), ofertada na
modalidade online, em 10 semanas, no período entre 15/02/2016 a 24/04/2016, contando
inicialmente com 1.978 alunos matriculados. A escolha dessa disciplina se deu em função do seu
número expressivo de alunos e também pelo fato dos alunos matriculados serem oriundos de
diversos cursos da instituição.
Essa base inicial de 1.978 alunos foi submetida a fase de pré-processamento, onde foram eliminados
os alunos inativos ou desistentes, ou seja, aqueles não tiveram qualquer participação nas atividades
durante o decorrer do curso. No seu encerramento, a disciplina contava com 1.113 alunos
matriculados (43,73% de inativos ou desistentes), dos quais 818 foram aprovados e 295 reprovados
Para finalizar esta etapa, foram analisadas as inconsistências do processo de avaliação no
Blackboard, com a retirada de mensagens de erro que permaneceram na planilha gerada pelo
sistema.
Depois desta primeira análise, partiu-se para a etapa de transformação, onde foram criadas novas
colunas calculadas, como resultado e número de atividades para aumentar o nível de detalhamento
do estudo.
Para a planilha com formato XLSX, importada do ambiente Blackboard, foram selecionados os
seguintes atributos:
• Curso
• Nome
• Nome do usuário (registro)
• AP_II e AP_IV, onde AP significa atividade de aprofundamento, com valor de 1,0 cada.
Essa atividade consiste na entrega de um arquivo com a atividade executada, ou seja,
trata-se de uma atividade de caráter dissertativo.
• AS_I até AS_VI, onde AS significa atividade de sistematização, com valor de 0,5 cada.
Essa atividade consiste na resposta de questões de múltipla-escolha.
• Num_ativ – número de atividades entregues pelos alunos
• Total (nota final) – 0 a 5,0
• Resultado – considerando 0 para reprovação e 1 para aprovação
96
Em seguida, foram utilizados os recursos para mineração de dados da ferramenta Rapidminer, com
os algoritmos de árvore de decisão (decision tree) e agrupamento (clustering). Tais algoritmos foram
selecionados, pois são aplicados com sucesso em contextos educacionais. (Baker, 2010; Romero &
Ventura, 2013)
A seguir serão apresentados os experimentos realizados.
4.3 Experimentos com mineração de dados educacionais
4.3.1 Experimento A – Árvore de Decisão (Decision Tree)
Na primeira etapa foi realizada a importação de dados em formato XLSX pela ferramenta
RapidMiner, por meio da utilização do operador Retrieve. O resultado da importação pode ser
observado na figura 3.
Figura 3: Dados após a importação pela ferramenta Rapid Miner
Em seguida, foram utilizados outros operadores da ferramenta Rapid Miner, como Set Role para
definir o atributo que será utilizado para a predição, no caso o atributo “Resultado”. Em seguida, foi
utilizado o operador Select Attributes para determinar quais atributos seriam utilizados no processo,
sendo desconsiderados atributos como, por exemplo, “Nome” e “Último Acesso” que não serão
utilizados no processo de classificação da árvore de decisão. Por fim, foi inserido no processo o
operador Decision Tree, que tem a função de gerar a árvore de decisão, cujo processo completo
pode ser visualizado na figura 4.
Figura 4: processo completo de árvore de decisão na ferramenta RapidMiner.
97
Uma árvore de decisão é simplesmente uma representação gráfica da descrição de cada classe ou
uma representação das regras de classificação. Cada caminho da árvore que parte do nó raiz e
termina em um nó folha corresponde a uma regra da forma SE <condições> ENTÃO <conclusão>. A
representação de modelos por meio de árvore de decisão é útil, pois se trata de um diagrama que
facilita a compreensão e análise do conhecimento pelas pessoas. (Elmasri & Navathe, 2011;
Goldschmidt & Bezerra, 2015)
O algoritmo analisa os diversos campos de forma interativa, buscando identificar aquele com maior
influência nos valores das classes, que serão as folhas das árvores, valores esses presentes em um
campo definido que deve ser informado previamente, Neste exemplo, as classes são aprovado (igual
a 1) e reprovado (igual a 0) do campo resultado.
O campo de maior influência é colocado no topo da arvore (raiz) e, então, o algoritmo continua
buscando novos campos significativos.
Após a execução do processo da figura 4, foram gerados dois resultados para a árvore de decisão. O
primeiro é na forma gráfica, conforme pode ser observado na figura 5.
Figura 5: árvore de decisão na forma gráfica
A segunda possibilidade de observação dos resultados é a forma textual que pode ser verificada na figura 6, que
pode ser chamada também de regras de decisão, pois estão no formato SE <condição> ENTÃO <classificação>.
98
Figura 6: árvore de decisão na forma textual
Com base nos resultados da experiência com o algoritmo de árvore de decisão, é possível interpretar
que o atributo mais significativo para o sucesso dos alunos foi a atividade AS_III. No gráfico podemos
visualizar isto por ser o nó raiz, colocado no topo da árvore, separando os alunos que obtiveram mais
de 0,35 de nota na atividade daqueles que obtiveram menos de 0,35. Para entender melhor este
resultado, calculamos a porcentagem de aprovados neste primeiro grupo de alunos que obtiveram
sucesso na AS_III (foram 768 aprovados e 142 reprovados), e verificamos que 84,4% deles foram
aprovados, independentemente do número de atividades entregues e dos resultados destas
atividades. Já para o grupo de alunos que obteve menos de 0,35 na atividade AS_III, apenas 24,6%
foram aprovados (50 aprovados e 153 reprovados).
A quantidade de atividades entregues não foi um fator significativo para aprovação dos alunos, pois o
caminho que considera os alunos que tiveram bom desempenho na atividade AS_III, desempenho
baixo na AS_VI e entregaram quase todas as atividades, resultou em apenas 06 alunos aprovados.
De acordo com a árvore gerada é possível interpretar ainda, que depois da AS_III, as atividades
AS_VI e AS_V foram as mais significativas para o sucesso dos alunos. Por exemplo, a incidência de
aprovação para os alunos que efetivaram as AS_III, AS_VI e AS_I foi bastante expressiva, visto que
748 alunos com esse perfil conseguiram aprovação, contra 90 reprovados.
Do outro lado da árvore, é possível observar que os alunos que não obtiveram boa nota na atividade
AS_III, mas foram bem nas atividades AS_V e AP_II, também obtiveram sucesso. Neste caso, 16
alunos foram aprovados e apenas 01 reprovado. Este poderia ser um caminho de recuperação para
quem não foi bem na atividade AS_III. No entanto, a nota divisória da atividade AS_V neste caso é
muito alta – 0,45 em 0,50 – e o gráfico mostra que daqueles que falharam na AS_III, um total de 28
alunos conseguiram esta nota na AS_V, enquanto 175 obtiveram nota menor que o necessário.
99
4.3.2 Experimento B – Agrupamento (Clustering)
A clusterização busca descobrir conhecimento de forma indireta, a partir da identificação de grupos
de dados com características semelhantes. Podem ser utilizados em aplicações educacionais, por
exemplo, para formação de grupos de trabalho.
Para o experimento com a técnica de clusterização, foi realizada a importação de dados em formato
XLSX pela ferramenta RapidMiner, por meio da utilização do operador Retrieve. Na sequência foi
utilizado o operador Select Attributes para determinar quais atributos seriam utilizados no processo,
sendo desconsiderados atributos como, por exemplo, “Nome” e “Último Acesso” que não serão
utilizados no processo de agrupamento ou clusterização.
No momento seguinte foi utilizado o operador Clustering com o algoritmo K-means, com parâmetro
de k = 4.
O processo completo pode ser observado na figura 7.
Figura 7: processo de agrupamento ou clustering
Após a execução do processo, o sistema gerou 4 grupos ou clusters com a seguinte distribuição de
alunos:
Cluster 0 com 76 alunos
Cluster 1 com 237 alunos
Cluster 2 com 742 alunos
Cluster 3 com 58 alunos
Como exemplo, a representação gráfica do cluster 0 pode ser observada na figura 8, sendo possível
notar as informações do aluno de id = 7 ou seja, a oitava linha da planilha, pois não está sendo
considerada a linha com o rótulo dos atributos.
Figura 8: Exemplo com fragmento do cluster 0 e um aluno em destaque
100
Outra análise pode ser obtida a partir da tabela que o sistema gerou, denominada Centroid Table ou
médias dos grupos, que traz informações sobre todos os clusters, conforme pode ser verificado na
figura 9.
Figura 9: tabela de centroides ou médias dos grupos
É possível observar que no cluster 1 e no cluster 3 estão agrupados todos os alunos que foram
reprovados, com 237 alunos e 58 alunos, respectivamente.
É possível observar também que os clusters 0 e 2 agruparam os alunos que foram aprovados, com
76 e 742 alunos, respectivamente.
Da mesma maneira que foi observado no experimento com o algoritmo de árvore de decisão, o
número de atividades entregues não foi fator determinante para o agrupamento entre aprovados e
reprovados, pois os alunos do cluster 2 que foram aprovados, entregaram menos atividades que os
alunos do cluster 1, que foram reprovados.
Outra análise possível, diz respeito às atividades de aprofundamento, denominadas AP_II e AP_IV
que têm maior pontuação (1,0 ponto cada) em relação às denominadas de ASs ou atividades de
sistematização, que valem 0,5 ponto cada uma. Uma primeira análise indicaria que as APs são mais
importantes, pois, obviamente, têm valor maior. Pelo resultado da mineração, é possível verificar que,
de fato, a AP_II é a nota mais relevante em cada agrupamento. Contudo, a percepção inicial não se
aplica à atividade AP_IV, pois com exceção do cluster 0, com apenas 76 alunos, todos os demais
clusters, que representam a maioria absoluta, com 1037 alunos, não fizeram a atividade, como é o
caso do cluster 2, ou praticamente não a fizeram, como é o caso dos clusters 1 e 3.
4.3.3 Análise do tutor e responsável pela disciplina
Neste momento é interessante contar o especialista de domínio, ou seja, uma pessoa que tem o
entendimento claro do domínio da aplicação na qual se insere o problema a ser resolvido.
(GOLDSCHMIDT, PASSOS e BEZERRA, 2015)
Com base nestas interpretações, e principalmente no fato de se ter encontrado, uma atividade que
em princípio se configurava como a mais importante do processo – AS_III – a responsável pela
produção do conteúdo e professora responsável pela disciplina foi consultada. A árvore de decisão
foi apresentada a ela para análise e interpretação das informações. Após estudo e algumas reflexões
a professora que reconheceu nunca ter tido contato com informações desse tipo e tampouco
imaginar que um conteúdo ou atividade pudesse ter mais ou menos importância no processo de
aprendizagem tentou buscar elementos que pudessem explicar o fato de a AS_III ser a mais
significativa para o sucesso do aluno. Numa análise rápida, chegou-se a duas primeiras suposições –
101
o fato de o conteúdo ser mais próximo a realidade do aluno já que esse conteúdo aborda questões
relativas a Coesão e Coerência e, portanto pode ser aplicado na vida cotidiana e profissional – e pelo
fato de a atividade estar exatamente na metade do cronograma de oferta dos conteúdos. O conteúdo
dessa disciplina é formado por seis unidades de conhecimento, com a disponibilização, em cada uma
das unidades, uma atividade de sistematização - AS e, uma atividade de aprofundamento AP. Além
disso, outra explicação para esse fenômeno pode estar relacionada ao desempenho do tutor na
condução do processo avaliativo. Pois o tutor pode intensificar o contato com os alunos em
determinadas atividades e em outras não, já que não há um protocolo que oriente, neste nível, a
atuação do tutor. Porém, para se chegar a esse refinamento de analise são necessários maiores
aprofundamentos, o que não foi o foco deste estudo que buscou em um primeiro momento testar os
algoritmos da mineração de dados.
A professora responsável pela produção do conteúdo e pela gestão da disciplina também foi
consultada sobre o resultado do agrupamento ou clusterização, mas teve dificuldade em interpretar
os dados, pois a clusterização é uma técnica indireta de descoberta do conhecimento e muitas vezes
os agrupamentos são de difícil interpretação pelos usuários, sendo necessário o apoio de um
especialista para a análise estatística dos diversos atributos.
5. Conclusão
No contexto educacional atual, com os diversos segmentos da EaD apresentando números muito
expressivos em relação a quantidade de alunos matriculados, uma enorme quantidade de dados
podem ser registrados e coletados nos AVAs, permitindo que diversas análises possam ser
conduzidas. Contudo, os métodos tradicionais de análise aplicados na educação tradicional não
podem ser replicados na EaD, em virtude dessa superabundância de dados, que tem superado a
capacidade humana de analisar e extrair conhecimento destes.
A pesquisa teve como objetivo transformar dados em conhecimentos novos e relevantes, a respeito
do padrão de comportamento dos alunos de uma disciplina online, a partir da aplicação de métodos
de mineração de dados educacionais, de maneira a contribuir para melhorar o processo de análise e
tomada de decisão por parte dos professores e gestores, visando reduzir o nível de evasão da
instituição.
Para alcançar os objetivos desta pesquisa, um estudo de caso foi definido, tendo como objeto de
estudo uma disciplina online com 1.113 alunos. Após a aplicação de dois algoritmos bastante
utilizados em contextos educacionais, - árvore de decisão e - agrupamento (clusterização), foi
possível observar que o objetivo da presente pesquisa foi atingido, pois com a aplicação de tais
algoritmos no mencionado grupo de alunos, foram descobertos elementos que não eram conhecidos
por parte dos responsáveis pela disciplina, como os atributos mais significativos para o sucesso dos
alunos e também padrões de comportamento, ou seja, atividades que contribuíram de maneira mais
expressiva para aprovação dos alunos. Além disso, o agrupamento de alunos permitiu a descoberta
de fatos também desconhecidos, como, por exemplo, que uma atividade avaliada inicialmente com
peso significativo para aprovação dos alunos, mostrou-se pouco relevante após a análise dos resultados
da mineração de dados.
Com base nessas informações, do ponto de vista da gestão, os responsáveis podem replanejar as
estratégias de avaliação, principalmente o peso de cada elemento e sua distribuição pelo
cronograma do curso. No âmbito operacional, a atuação do tutor da disciplina também poderia ser
reavaliada, pois não há um protocolo que oriente as intervenções do tutor por meio de avisos durante
o desenvolvimento da disciplina, sendo que no modelo atual, a intensificação de ações da tutoria
ficam restritas às iniciativas do próprio tutor. Caso o tutor disponha de elementos gerados pela
mineração de dados durante a disciplina, suas intervenções poderiam ser sistematizadas e
102
direcionadas para atender alunos com determinado padrão de comportamento e aumentar as
chances de aprovação e permanência desses alunos na disciplina.
É importante salientar que o processo conduzido neste estudo de caso precisaria ser repetido para
outras turmas, com o objetivo de verificar se há repetição dos padrões identificados.
Em termos de trabalhos futuros, sugere-se, além da replicação dos experimentos com novas turmas
da disciplina de Língua Portuguesa, a ampliação da quantidade de experimentos, além da aplicação
do processo de mineração de dados educacionais em turmas com caráter massivo.
103
6. Referências bibliográficas
Allen, I., & Seaman, J. (2015). Online Learning Consortium. Acesso em 10 de 03 de 2016, disponível em Online Report Card – Tracking Online Education in the United States, 2015: http://onlinelearningconsortium.org/read/online-report-card-tracking-online-education-united-states-2015/
Baker, R. (2010). Data mining for education. International encyclopedia of education, 7, 112-118.
Chatti, M., Dyckhoff, A., Schroeder, U., & Thüs, H. (2012). A reference model for learning analytics. International Journal of Technology Enhanced Learning, 4(5-6), pp. 318-331.
Cooper, S., & Sahami, M. (2013). Reflections on Stanford’s MOOCs. New possibilities in online education create new challenges. Communications of the ACM, 56(2), 28-30.
de Baker, R., Isotani, S., & de Carvalho, A. (2011). Mineração de dados educacionais: oportunidades para o Brasil. Revista Brasileira de Informática na Educação, 19(2), pp. 1-12.
de Castro, L., & Ferrari, D. (2016). Introdução à Mineração de Dados. São Paulo: Saraiva.
Elmasri, R., & Navathe, S. (2011). Sistemas de Banco de Dados (6a. ed.). São Paulo: Pearson
Addison Wesley.
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11), pp. 27-34.
Ferguson, R., & Clow, D. (2015). Examining engagement: analysing learner subpopulations in massive open online courses (MOOCs). In: Proceedings of the Fifth International Conference on Learning Analytics And Knowledge (pp. 51-58). Poughkeepsie, NY: ACM - Association for Computing Machinery.
Goldschmidt, R., & Bezerra, E. (2015). Data mining: conceitos, técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsevier.
Hyman, P. (2012). In the Year of Disruptive Education. Communications of the acm, 55(12), 20-22.
INEP. (2015). Censo da educação superior 2013: resumo técnico. Fonte: Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira: http://portal.inep.gov.br/web/censo-da-educacao-superior/resumos-tecnicos
Jeevalatha, T., Ananthi, N., & Kumar, D. (2014). Performance Analysis of Undergraduate Students Placement Selection using Decision Tree Algorithms. International Journal of Computer Applications, 108(15), 27-31.
Jordan, K. (2015). Massive Open Online Course Completion Rates Revisited: Assessment, Length and Attrition. 16(3).
Kampff, A. (2009). Mineração de dados educacionais para geração de alertas em ambientes virtuais de aprendizagem como apoio à prática docente. Tese de Doutorado.
Manhães, L. (2015). Predição do desempenho acadêmico de graduandos utilizando mineração de dados educacionais. Tese de doutorado - Universidade Federal do Rio de Janeiro.
Muñoz-Merino, P., Ruipérez-Valiente, J., Alario-Hoyos, C., Perez-Sanagustin, M., & Kloos, C. (2014). Precise Effectiveness Strategy for Analyzing the Effectiveness of Students. Computer in Human Behavior, pp. 1-11.
Pandey, M., & Sharma, V. (2013). A decision tree algorithm pertaining to the student performance analysis and prediction. International Journal of Computer Applications, 61(13).
104
Pardo, A., & Kloos, C. (2011). Stepping out of the box: towards analytics outside the learning management system. In Proceedings of the 1st International Conference on Learning
Analytics and Knowledge (pp. 163-167). Banff, Canada: ACM.
Ramamohan, Y., Vasantharao, K., Chakravarti, C., & Ratnam, A. (2012). A study of data mining tools in knowledge discovery process. International Journal of Soft Computing and Engineering (IJSCE), 2(3), 2231-2307.
Romero, C., & Ventura, S. (2010). Educational Data Mining: A Review of the state of the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions, 40(6), pp. 601-
618.
Romero, C., & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(1), 12-27.
Selvan, A., Beleya, P., Muniandy, M., Heng, L., & Remendran, C. (2015). Minimizing Student Attrition in Higher Learning Institutions in Malaysia Using Support Vector Machine. Journal of Theoretical and Applied Information Technology, 71(3), 377-385.
Shahiri, A., Husain, W., & Rashid, N. (2015). A Review on Predicting Student's Performance Using Data Mining Techniques. Procedia Computer Science, 72, pp. 414-422.
Siemens, G., & Long, P. (2011). Penetrating the Fog: Analytics in Learning and Education. Educase Review, 46(5), pp. 30-40.
Stair, R., & Reynolds, G. (2015). Princípios de Sistemas de Informação (11ª ed.). São Paulo:
Cengage Learning.
Yadav, S., Bharadwaj, B., & Pal, S. (2012). Data Mining Applications: A comparative for predicting student's performance. International Journal of Innovative Technology & Creative Engineering, 1(12), pp. 13-19.
You, J. W. (2016). Identifying significant indicators using LMS data to predict course achievement in online learning. The Internet and Higher Education, 29, pp. 23-30.
105
4.4 Artigo 4 - “O processo de mineração de dados educacionais aplicado em um curso
massivo”
O terceiro artigo descreveu a aplicação de técnicas de MDE em uma dimensão menor que a
considerada para o objetivo final da tese. Foi escolhida uma disciplina online com 1.113
alunos. Já o quarto e último artigo amplia o volume de alunos analisados, no caso um curso
massivo com mais de 180.000 alunos.
O curso foi criado com base em uma pesquisa-ação, por uma equipe multidisciplinar
composta por especialista em conteúdo, produção e edição de vídeo, equipe técnica do LMS,
além do autor da tese. O curso conhecido como Carreira S/A teve 04 semanas de duração e o
objetivo de apresentar aos alunos diversos aspectos a respeito do mercado de trabalho, com
uma temática de interesse de alunos de diversos cursos e oferecido por um grupo educacional
privado.
O artigo foi concebido para analisar as contribuições e restrições da aplicação de métodos de
MDE em um grande conjunto de dados desse curso massivo. A partir da extração de dados
coletados e armazenados no ambiente Blackboard, foi possível com a utilização do processo
de KDD, utilizar algoritmos importantes em contextos educacionais, como árvore de decisão
e agrupamento, e descobertos conhecimentos relevantes, como o tipo de atributo que
contribuiu de maneira mais significativa para a aprovação dos alunos e o padrão de
comportamento de grupos de alunos reprovados.
Um aspecto bastante considerável a respeito dos cursos massivos é que o processo tradicional
de tutoria é impraticável devido ao grande número de alunos, pois seria economicamente
inviável manter o número de tutores suficientes para atender, por exemplo, um curso com
milhares de alunos matriculados. Em termos gerenciais, a utilização de MDE pode ser muito
útil, pois a partir da descoberta de quais grupos têm maior risco de evasão ou reprovação,
seria possível que a tutoria fosse direcionada prioritariamente para atender esses alunos que
precisam de mais atenção.
A seguir o artigo é reproduzido na sua forma original.
106
O PROCESSO DE MINERAÇÃO DE DADOS EDUCACIONAIS APLICADO EM UM
Kumar (2014) e Selvan, Beleya, Muniandy, Heng, & Remendran (2015) e Shaleena
& Shaiju (2015), que aplicaram as etapas do processo de Descoberta de
Conhecimento em Banco de Dados ou Knowledge Discovery in Databases (KDD)
em suas pesquisas.
Seguindo o processo de KDD, para a implantação do objetivo principal da presente
pesquisa, em uma primeira etapa, foi feita a importação dos dados do AVA –
Blackboard - e a seleção dos atributos que serão utilizados, posteriormente, na
etapa de mineração de dados. Em seguida, tais dados foram submetidos à etapa de
pré-processamento, e foram eliminados os dados com inconsistência ou
redundância. Na etapa seguinte, de transformação, foram criadas novas colunas
calculadas, como resultado e número de atividades. As duas últimas etapas foram a
da mineração propriamente dita, que consistiu na busca por padrões através da
aplicação de algoritmos para árvore de decisão (decision tree) e o agrupamento
(clustering) com o uso da ferramenta Rapidminer. Por fim, foi efetuada a
interpretação dos resultados da etapa anterior.
4. O curso Carreira S/A
O curso foi criado e ofertado no âmbito de um Grupo Educacional Privado a partir de
agora denominado Alfa, com atuação no estado de São Paulo e na região Centro-
Oeste do Brasil. A oferta desse curso representou a primeira experiência do grupo
com um curso que apresentou número tão elevado de alunos matriculados, além de
ser um projeto piloto para o lançamento no futuro de outros cursos no estilo dos
MOOCs. Tal curso preservou as principais características desse tipo de curso, como
não ter cobrança adicional de taxa, ser online, ter o caráter massivo, uso de material
114
didático, predominantemente na forma de vídeo e também pela utilização de fórum
de discussão.
O curso foi chamado de Carreira S/A e não teve do acrônimo MOOC, apenas o
aspecto de abertura (open), pois não foram utilizados recursos educacionais abertos
(REA) em seu projeto. O objetivo do curso foi apresentar aos alunos uma visão do
complexo mercado de trabalho tanto do ponto de vista profissional quanto das
empresas.
A criação desse curso oportunizou a análise dos dados gerados a partir de um curso
massivo, pois, em princípio, os dados originados nos ambientes virtuais de
aprendizagem utilizados pelos MOOCs das principais provedoras como Coursera e
edX, são de difícil acesso para consulta pública, sendo liberados, apenas para as
próprias provedoras e para as instituições de ensino conveniadas que oferecem os
cursos.
Neste estudo serão utilizados apenas dados acadêmicos oriundos do LMS
Blackboard, escolhido pelo fato de ser o ambiente utilizado por instituições de
ensino do grupo Alfa desde 2003.
4.1 Características do curso
O curso Carreira S/A teve duração de 04 semanas, com inicio em 20 de março de
2017 e término em 20 de abril de 2017, sendo oferecido no LMS Blackboard, de
forma gratuita e automática para todos os alunos do grupo Alfa. O curso foi
composto por 04 unidades de aprendizagem, conforme apresentado na figura 2:
Figura 2: Estrutura do Curso. Fonte: O autor
115
O processo de avaliação foi composto de testes de múltipla escolha, e cada unidade
correspondeu a 25% da nota final, ou seja, valendo até 2,5 (dois pontos e meio)
cada unidade. Para ser aprovado, o aluno deveria obter nota final igual ou maior que
6,0 (seis).
Cada unidade foi composta por um vídeo, material em formato texto, apresentado
em formato PDF e livro eletrônico, além de um fórum de discussão. A análise
desses materiais será efetuada no tópico a seguir.
4.2 Análise do material do curso
Vídeo – o curso utilizou tecnologia de vídeo da empresa Kaltura que apresenta uma
plataforma totalmente integrada ao LMS Blackboard, disponibilizando ainda uma
solução que adapta a reprodução do vídeo ao tipo de dispositivo do usuário
(computador desktop, celular e tablet), sendo compatível também com diversos
navegadores (browsers) disponíveis no mercado.
A Kaltura oferece também para os administradores do sistema uma ferramenta para
análise dos vídeos (analytics), que será utilizada nos próximos tópicos.
Na fase de projeto do curso foi considerado que os vídeos deveriam ter duração
média entre 05 e 07 minutos, sendo constituídos por entrevistas e depoimentos de
profissionais especializados, além de material de outras fontes, como trechos de
filmes. Contudo, por ter sido a primeira versão do curso e devido à quantidade e
qualidade do material coletado, a versão final dos vídeos ultrapassou o tempo
projetado. A tabela 1 apresenta os dados oriundos da ferramenta Analytics da
Kaltura.
Tabela 1: Dados relativos aos vídeos. Fonte: Kaltura Analytics
Unid Nome Duração Plays Tempo médio Média (drop-off)
I Planejamento de
Carreira
13:51 30.159 07:35 54,31%
II Competências
Profissionais
13:58 20.317 08:46 62,82%
III Processo seletivo
e recrutamento
11:34 14.357 08:06 70,15%
IV Empreendedorismo 22:19 15.538 13:24 60,12%
Total / Média 80.371 09:06 60,60%
116
Em relação ao tempo de duração dos vídeos é possível encontrar, na literatura,
pesquisas que apontam a média de tempo para reter melhor a atenção dos
estudantes. Na visão de Khan ( 2012), o tempo ideal para melhorar o engajamento
dos estudantes fica entre 10 a 15 minutos. A pesquisa de Khalil & Ebner (2017) foi
direcionada para um MOOC denominado “Social Aspects of Information
Technology” ofertado pela provedora iMooX na Áustria, que contou com 21 vídeos
de duração média de 17 minutos. Os dados de pesquisa da empresa Kaltura (2016)
com 1.500 respondentes (educadores, profissionais especializados em vídeo e
alunos) apontam o intervalo de 5 a 10 minutos como o mais indicado para a duração
de um vídeo. Contudo, é possível encontrar valor inferior como ideal para a duração
de vídeo. Por exemplo, o trabalho de Guo, Kim, & Rubin (2014) analisou os dados
de quatro MOOCs da provedora edX e chegou a conclusão que vídeos de até 06
minutos são muito mais envolventes para reter a atenção dos alunos.
No caso do curso Carreira S/A os alunos, considerando todos dos vídeos,
assistiram, em média, a 9min06s, valor que está coerente com a pesquisa da
Kaltura (2016) e acima do valor indicado por Guo, Kim, & Rubin (2014). Os dados
ainda apontam que os alunos assistem a aproximadamente 60% dos vídeos. A
partir da experiência dessa primeira edição do curso será possível rever a duração
total dos vídeos para a próxima edição.
• Material texto – formado por material elaborado por especialistas em arquivo
no formato PDF, artigos e também pela indicação de capítulos de livros;
• Fórum de discussão – o fórum de discussão não teve um tutor para mediar à
participação dos alunos, em razão do elevado número de alunos e também
por ser uma característica comum aos MOOCs. Para cada unidade, foi
lançado um tema para que alunos pudessem se manifestar e debater a
respeito do assunto, usando um modelo de discussão entre os pares para a
construção coletiva do conhecimento. Por exemplo, para o primeiro fórum foi
sugerida a seguinte questão: você acredita que a elaboração de um plano de
carreira bem feito pode influenciar a sua trajetória profissional? Foi possível
separar os alunos das modalidades presencial e EaD. No caso presencial,
foram postadas 678 publicações, das quais muitas eram comentários a
respeito da questão colocada, mas o espaço acabou também sendo utilizado
para esclarecer algumas dúvidas específicas e operacionais que foram
117
respondidas pelos próprios alunos, como a data de emissão do certificado e
também dúvidas gerais sobre a navegação na disciplina. Os alunos do EaD
com a mesma questão para discussão, tiveram uma participação muito maior,
com 4.367 publicações, a maior parte com comentários a respeito do tema
em questão. Ao final dos 04 fóruns foram 11.272 publicações do EaD e 1.469
dos alunos da modalidade presencial. É muito provável que essa diferença
possa ser explicada pelo fato dos alunos oriundos de cursos EaD já estarem
muito mais acostumados a participarem de fóruns de discussão.
5. Processo de mineração de dados educacionais
A presente etapa contemplará o processo para obtenção do padrão de
comportamento e desempenho dos alunos e será inspirado no modelo de KDD,
conforme ilustra a figura 3.
Figura 3: Processo baseado em KDD. Fonte: O autor
Na etapa inicial, os dados foram extraídos do LMS Blackboard a partir do seu centro
de notas gerando uma planilha em formato Excel com 181.677 linhas. Essa base
inicial foi submetida à fase de pré-processamento, em que foram eliminados os
alunos inativos ou desistentes, ou seja, aqueles que não tiveram qualquer
participação nas atividades durante o período de oferta do curso, além de eliminar
ou ajustar também os casos de alunos com inconsistências no processo de registro
das avaliações no Blackboard, com a retirada de mensagens de erro que
permaneceram na planilha gerada pelo sistema. Por exemplo, o aluno fez uma
atividade e fechou o navegador antes do sistema registrar tal ação definitivamente.
118
Nesse caso, o sistema registrou no lugar da nota, apenas a informação “Em
andamento” ou “Em andamento – nota”. Para corrigir tais problemas foram utilizados
os recursos nativos do Excel, como fórmulas e filtragem dos dados. No final, a
planilha apresentava quase 7 MB de dados, contando com 75.751 alunos que
efetivamente realizaram pelo menos uma avaliação durante o curso e 105.926 que
foram matriculados e não tiveram participação durante o curso. A taxa de
desistência foi de 58,30%. Para efeito de comparação, nos MOOCs a taxa de
evasão ou desistência em média é de 90%. (Sandeen, 2013; Hew & Cheung, 2014;
Alraimi, Zo, & Ciganek, 2015)
Depois dessa primeira análise, a etapa seguinte foi a de transformação, em que
foram criadas novas colunas calculadas, como o número de atividades e o resultado
(aprovado ou reprovado), além da criação de uma coluna para medir a frequência
de entrega das atividades. Para os alunos que enviaram apenas 01 atividade foi
atribuída a classificação “ruim”, para aqueles enviaram 02 atividades atribuiu-se a
classificação “regular”, para 03 atividades a classificação atribuída foi “bom” e,
finalmente, para aqueles que enviaram todas as quatro atividades a classificação foi
“excelente”. A presente classificação foi inspirada nos trabalhos de Clow (2013),
Coffrin, Barba, Corrin & Kennedy (2014) e Wilkowski, Deutsch & Russell (2014), que
criaram categorias para classificar os estudantes em função do modo como eles
interagem com o curso e pelo desempenho nas atividades.
O resultado dessa classificação foi o seguinte:
2.537 alunos classificados com o conceito “ruim” – 3,35%;
830 alunos classificados com o conceito “regular” – 1,10%;
1235 alunos classificados com o conceito “bom” – 1,63%
71.149 alunos classificados com o conceito “excelente” – 93,92%
Tal ação teve por objetivo melhorar a qualidade dos atributos e aumentar o nível de
detalhamento do estudo.
O curso teve alunos oriundos de cursos de graduação nas modalidades presencial e
a distância, e dos alunos que fizeram atividades, da modalidade presencial foram
41.593 e da EaD foram 34.158 alunos.
Em relação ao desempenho dos alunos, os dados obtidos indicam que dos 75.751
alunos que fizeram atividades e obtiveram pontuação durante o curso, 71.425 foram
aprovados (94,29%) e 4.326 foram reprovados (5,71%). Esse alto índice de
119
aprovação está relacionado com o curso ter caráter informativo, direcionado para
atender a um grande número de alunos de diferentes áreas do conhecimento e não
ter o nível de exigência das disciplinas integrantes da matriz curricular de um curso
da graduação.
Para a mineração foi utilizada a ferramenta RapidMiner em sua versão acadêmica
7.4 que permite trabalhar com número ilimitado de registros. Inicialmente ocorreu a
importação da planilha Excel gerada pelo Blackboard, com os seguintes atributos:
• Curso do usuário
• Nome
• AS_I até AS_VI, onde AS significa atividade de sistematização, com valor
de 2,5 cada. Essa atividade consiste na resposta de questões de múltipla-
escolha.
• Total (nota final) – 0 a 10,0
• Resultado – considerando 0 para reprovação e 1 para aprovação
Na etapa de transformação foram adicionadas as seguintes colunas:
• Modalidade – presencial ou EaD
• Num_ativ – número de atividades entregues pelos alunos
• Freq_atividades – classificados em ruim, regular, bom ou excelente
• Condição – aprovado ou reprovado
No processo de MDE, a primeira etapa foi realizada com a importação da planilha
em formato XLSX com 75.751 linhas pela ferramenta RapidMiner. A partir desse
momento, a ferramenta faz um processo de verificação com o objetivo de detectar
algum tipo de erro nos dados.
Em seguida, foram utilizados os recursos para mineração de dados da ferramenta
RapidMiner, com os algoritmos de árvore de decisão (decision tree), agrupamento
(clustering) e regras de associação (association rules). Tais algoritmos foram
selecionados, pois são aplicados com sucesso em contextos educacionais. (Baker,
2010; Romero & Ventura, 2013). Os experimentos e as análises estão relacionados
a seguir.
5.1 Experimento A – Árvore de Decisão (Decision Tree)
A árvore de decisão é representativa em relação à técnica de classificação, sendo
um método adequado quando o objetivo da mineração é a classificação de dados
ou predição de saídas.
120
Para esse primeiro experimento foi utilizado o operador Retrieve para importar os
dados da planilha gerada ao final das etapas de pré-processamento e
transformação, e na sequência utilizou-se o operador Set Role para definir o atributo
que será utilizado como classe, no caso o atributo Condição (aprovado ou
reprovado). Em seguida, foi utilizado o operador Select Attributes para determinar
quais atributos seriam utilizados no processo, sendo desconsiderados atributos
como, por exemplo, “Nome” e “Código do usuário” que não serão utilizados no
processo de classificação da árvore de decisão. Por fim, foi inserido no processo o
operador Decision Tree, com a função de gerar a árvore de decisão, apresentada na
figura 4.
O algoritmo analisa os diversos campos de forma interativa, buscando identificar
aquele com maior influência no resultado das classes (aprovado ou reprovado),
nesse caso indicado pelo atributo Condição. O atributo de maior influência é
colocado no topo da arvore (raiz) e, então, o algoritmo continua buscando novos
campos significativos. Nesse caso, o atributo mais significativo for Freq_Ativ.
Figura 4: Arvore de Decisão gerada pela ferramenta RapidMiner. Adaptada pelo autor
121
Uma árvore de decisão também pode ser representada como conjuntos de regras
do tipo se-então (if-then). As regras são escritas considerando o trajeto do nó raiz
até uma folha da árvore, conforme ilustra a figura 5.
Figura 5: Árvore de decisão - regras do tipo se-então (if-then)
O atributo mais significativo para o sucesso dos alunos foi Freq_Ativ (ruim, regular,
bom e excelente). No gráfico pode-se visualizar isso por ser ele o nó raiz, colocado
no topo da árvore e separando os alunos classificados como “Bom”, dos demais, ou
seja, “Excelente”, “Regular” e “Ruim”. Para o lado direito da árvore, os alunos que
fizeram todas as atividades, classificação “Excelente”, são 70.538 aprovações. Ou
seja, 98,76% dos aprovados. Como se tratou de um curso atípico, com objetivo de
atender alunos das mais diversas áreas e também não apresentou nível de
exigência significativo, o alto índice de aprovações influenciou na análise e geração
da árvore.
O foco principal da análise a partir desse momento se concentrará no conjunto de
alunos reprovados, ou seja, 4.326 alunos. Ainda do lado direito da árvore é possível
verificar que 618 alunos (14,28%) dos reprovados, fizeram todas as atividades e
mesmo assim não foram aprovados. Por outro lado, 2531 alunos realizaram apenas
01 atividade, ou seja, 58,5% do total de reprovados. Provavelmente são os alunos
que fizeram apenas a primeira atividade e desistiram do curso, assim como 829
(19,16%) alunos que avançaram um pouco mais, fazendo 02 atividades, mas
também não continuaram engajados no curso. Os que realizaram apenas 01 ou 02
atividades são 3.360 alunos e representam 77,67% dos reprovados. Esse grupo
significativo de reprovados precisaria com mais urgência de ações por parte da
gestão do curso para diminuir a desistência desses alunos.
Do lado esquerdo da árvore, com alunos classificados como “Bom”, também há
presença de alunos reprovados, mesmo tendo enviado 3 atividades. Após esse
atributo de frequência de entregas (Freq_Ativ), o mais importante foi a atividade
AS_III. Nesse caminho, há um pequeno grupo de 90 alunos que mesmo fazendo 3
122
atividades e AS_III com nota maior que 1,562 (62,48% da nota máxima de 2,5
pontos) não conseguiram aprovação. Desse grupo de 90 alunos, a maioria deles, ou
seja, 74 alunos (82,22%) não fizeram a AS_IV. Os outros 16 que fizeram AS_IV não
tiveram bom desempenho ou deixaram de fazer alguma atividade anterior. Há
também um grupo de 229 alunos que foram reprovados, obtendo nota menor ou
igual a 1,562 na AS_III e notas de AS_II (menor ou igual a 2,188) e AS_IV (menor
ou igual a 2,188). Os outros caminhos não foram significativos em termos do
número de alunos reprovados.
A árvore de decisão poderia ter gerado resultados mais detalhados, caso tivesse
sido possível agregar para a análise, outros atributos, principalmente de caráter
temporal, como a data do último acesso do aluno ao ambiente e a datas de entrega
das atividades. É provável que os dados não foram devidamente registrados, em
função do tamanho dos arquivos de log do Blackboard.
5.2 Experimento B – Agrupamento (Clustering)
Para o experimento com a técnica de clusterização foi utilizado o mesmo conjunto
de dados do experimento de árvore de decisão. Na sequência, foi utilizado o
operador Select Attributes para determinar os atributos utilizados no processo, e os
selecionados foram apenas atributos numéricos, como AS_I, AS_II, AS_III, AS_IV,
além de Num_Ativ e Resultado.
No momento seguinte, foi utilizado o operador Clustering com o algoritmo K-means,
com parâmetro de k = 4. Para definir o parâmetro mais adequado para esse caso,
foi consultada a especialista de domínio, ou seja, a profissional que participou do
projeto do curso e tem o entendimento claro do domínio da aplicação em que se
insere o problema a ser resolvido. Como valor de K foram utilizados os valores de 2
a 8 e consultada a especialista de domínio que ajudou na escolha do número mais
indicado para essa situação.
Após a execução do algoritmo k-means, o sistema gerou 4 grupos ou clusters com a
seguinte distribuição de alunos:
Cluster 0 com 14.168 alunos
Cluster 1 com 3.651 alunos
Cluster 2 com 10.658 alunos
Cluster 3 com 41.274 alunos
A saída gerada pela ferramenta RapidMiner, denominada Centroid Table ou médias
dos grupos, traz informações sobre todos os clusters, conforme pode ser verificado
na figura 6.
123
Figura 6: Tabela Centroid Table. Adaptada pelo autor.
Em relação aos alunos aprovados, no cluster 0 e no cluster 3 estão agrupados todos
esses alunos, com 14.168 alunos e 47.274 alunos, respectivamente. O cluster 3 é o
que reúne maior número de alunos aprovados e com melhor desempenho geral,
pois todos fizeram as 04 atividades e apresentaram maior média em relação à nota
final com 9,844 (98,44% da nota máxima). Os alunos do cluster 0 também fizeram
todas as atividades, mas tiveram desempenho inferior aos alunos do cluster 3 em
todas elas. Os alunos do cluster 3 mantiveram um aproveitamento em relação à
nota máxima de cada atividade (2,5 pontos) de 98,44% em média. Já os alunos do
cluster 0 tiveram aproveitamento de 84,68%.
Os alunos do cluster 3 mantiveram, desse modo, um padrão de comportamento
mais homogêneo nos resultados das 04 atividades, inclusive na última, ocasião em
que muitos já estavam aprovados. Na AS_IV, o aproveitamento desse grupo foi de
97,48% e 98,52% na atividade AS_III. Para os alunos do cluster 0, o aproveitamento
caiu de 87,12% da AS_III para 77,20% na AS_IV. Portanto, os alunos do cluster 3
permaneceram mais engajados até o final.
O cluster 2 com 10.658 alunos apresenta como característica principal, agrupar
alunos aprovados e reprovados. Com total de 10.658 alunos, o cluster 2 tem 9.983
aprovados e 675 reprovados. No caso desse agrupamento há alunos com notas
variando de 4,375 até 7,50 e número de 3 ou 4 atividades entregues no decorrer do
curso.
No cluster 1 somente com alunos reprovados, há um conjunto de 3651 alunos
representando 84,39% do total de reprovados. Os alunos desse grupo obtiveram
nota final média de 2,30, valor muito inferior à nota para aprovação (6,0). Levando-
se em conta que cada aluno precisaria pelo menos de nota 1,5 em cada avaliação,
nesse grupo é possível observar também que de todas as quatro atividades, os
alunos tiveram maior aproveitamento na AS_I com 1,69, pouco acima do mínimo,
representando 67,88% da nota máxima possível nessa primeira atividade (máximo
2,5). Nas atividades seguintes, os alunos continuaram a apresentar um
comportamento em termos de desempenho, bastante inferior aos outros grupos,
124
com queda contínua nas notas das atividades AS_II, AS_III e AS_IV, com média
igual a 0,451, 0,095 e 0,059, respectivamente. Sendo assim, após a entrega e
resultado inferior na primeira atividade, os alunos foram perdendo o interesse e
abandonando o curso.
Os clusters 1 com somente reprovados e o cluster 2 com uma parcela de
reprovados despertaram atenção para entender melhor o padrão de comportamento
desse grupo de alunos. Para refinar um pouco mais a análise foi gerado um novo
agrupamento somente com os 4.326 alunos reprovados. Nesse caso foram gerados
dois clusters e os alunos foram distribuídos da seguinte maneira.
Cluster 0 com 1.462 alunos
Cluster 1 com 2.864 alunos
A Centroid Tables apenas com esses dois clusters pode ser observada na figura 7.
Figura 7: Agrupamento somente dos alunos reprovados. Adaptada pelo autor
Por esse agrupamento, o cluster 0 representa 33,80% dos reprovados e o cluster 1
representa a maioria da base total de alunos, com 66,20%.
Uma análise possível aponta que para permanecer na média de aprovação,
considerando-se a nota final maior ou igual a 6,0 para aprovação, cada aluno
precisaria de nota igual mínima de 1,5 em cada atividade. No cluster 0, que
representa o menor grupo de reprovados, os alunos superaram esse valor nas
atividades AS_I e AS_II, com notas médias de 1,729 e 1,565 respectivamente. A
partir da terceira atividade, esse grupo começou a apresentar desempenho bastante
inferior a nota mínima, com 0,772 na AS_III e 0,541 na AS_IV. Outro aspecto
relevante é que mesmo entregando em média 03 atividades os alunos desse grupo
foram reprovados.
No cluster 1 que representa a maioria dos reprovados, os alunos tiveram nota média
na AS_I de 1,643, pouco acima da nota mínima de 1,5. A partir da atividade AS_II,
os alunos desse grupo praticamente não tiveram aproveitamento nas atividades,
125
representando um abandono do curso, e quase todos entregaram apenas a primeira
atividade.
5.3 Experimento C – Regras de Associação (Association Rules)
A regra de associação é uma técnica usada na construção de relações sob a forma
de regras entre os itens de uma base de dados, ou seja relações entre os atributos.
No caso desse experimento não foi possível utilizar o algoritmo FP-Growth (Frequent
Pattern Growth) da ferramenta RapidMiner, pois o mesmo utiliza apenas atributos
binominais ou binários (duas categorias). (de Castro & Ferrari, 2016) No caso, os
atributos AS_I a AS_V não são adequados, pois são do tipo numérico contínuo.
Sendo assim, o algoritmo de regra de associação não se mostrou adequado a base
de dados desse curso.
6. Conclusão
A pesquisa teve como objetivo analisar as contribuições e restrições da aplicação de
métodos de mineração de dados educacionais em um grande conjunto de dados de
um curso massivo. Para atingir tal objetivo, foi criado e ofertado no âmbito de um
grupo educacional privado, um curso dessa natureza com mais de 180.000
matrículas. Foram considerados na etapa de mineração de dados algoritmos,
bastante utilizados em contextos educacionais, principalmente árvore de decisão e
agrupamento. Após os experimentos, os resultados trouxeram uma clareza maior a
respeito do assunto, pois foram descobertos conhecimentos novos e que podem ser
úteis para os professores e gestores do curso.
Foram considerados para análise, 75.751 alunos que realizaram pelo menos uma
atividade durante o curso. Essas duas primeiras fases do processo de KDD, pré-
processamento e transformação, foram muito trabalhosas, pois mesmo com os
recursos de filtros e fórmulas nativos da planilha Excel, as tarefas, envolvendo uma
base de dados tão volumosa, levaram aproximadamente 60% do tempo total do
processo de KDD.
Antes da análise a respeito da mineração de dados, o curso apresentou 71.425
alunos aprovados (94,29%). Esse alto índice de aprovação é reflexo do nível de
abrangência e profundidade do curso, pois foi concebido para despertar interesse e
atender a alunos das mais variadas áreas e cursos, com o objetivo de ser
informativo, sem o nível de exigência de uma disciplina regular.
No experimento com a árvore de decisão foi possível verificar alguns padrões de
comportamento dos alunos. Por meio desse algoritmo foram destacados 02 grupos
de alunos reprovados que necessitam de maior nível de atenção. Provavelmente
são os 2531 alunos reprovados (58,5%), que fizeram apenas uma atividade e
desistiram do curso, assim como outro conjunto de 829 alunos (19,16%) dos
126
reprovados, que fizeram apenas duas atividades e interromperam o curso. Tais
grupos demonstraram baixo nível de engajamento e seria oportuno para as
próximas edições, o desenvolvimento de um modelo de predição, que baseado
nessas regras, pudesse prever o comportamento dos novos alunos. Aqueles com
comportamento semelhante aos indicados anteriormente, deveriam receber atenção
maior por parte dos professores e gestores do curso, por exemplo, recebendo
mensagens específicas e atividades adicionais.
O algoritmo de agrupamento trouxe contribuições mais significativas em relação ao
de árvore de decisão. Em um primeiro momento, toda a base de dados foi utilizada,
sendo empregado o algoritmo k-means com 04 clusters. Dos grupos gerados, foi
possível verificar que foram 02 clusters de aprovados, 01 de reprovados e outros
com a grande maioria de aprovados. Em relação aos clusters de aprovados, embora
todos tenham entregado as 04 atividades, os alunos do cluster 3 mantiveram um
padrão de comportamento mais homogêneo e engajado, com ótimo aproveitamento
até a última atividade.
Contudo, é o grupo de reprovados que merece mais atenção. No cluster 1, que
reuniu a maioria dos reprovados, os alunos tiveram aproveitamento aceitável
somente na AS_I. A partir dela, os alunos foram diminuindo o aproveitamento e
abandonando o curso. A partir da constatação que o cluster 2 também apresentava
uma pequena parcela de reprovados, foi feito um novo agrupamento (k=2) com uma
nova base somente de reprovados (4.326) para entender melhor esse grupo. Nessa
nova análise, o cluster 0 (1.462 alunos) tem alunos que tiveram nota superior a 1,5
apenas nas AS_I e AS_II e no cluster 1 (2.864 alunos), o desempenho foi ainda pior,
pois a maioria teve aproveitamento satisfatório somente na AS_I, e a partir dela os
alunos praticamente não tiveram aproveitamento nas disciplinas. Esse padrão de
comportamento é semelhante ao da árvore de decisão. Nesse caso, conhecer o
comportamento de cada grupo pode apoiar o gestor ou professor das próximas
turmas. Seria importante analisar semanalmente o comportamento dos alunos a fim
de verificar se o comportamento da turma anterior se repete. Por exemplo, analisar
aqueles que não entregaram atividades 1 e 2 até determinada data. Tal
comportamento poderia indicar um aluno com alto potencial de evasão ou
reprovação.
Esse conhecimento gerado após a utilização de algoritmos de MDE pode ser útil em
cursos a distância e, especialmente, em cursos massivos, principalmente para
compreender o ponto de vista dos alunos. Em um curso a distância, a tutoria tem
papel preponderante no contato com os alunos, orientações, solução de dúvidas,
etc. No caso dos cursos massivos, essa questão da tutoria torna-se inviável para a
gestão do curso, em razão do número de tutores necessários para atender, por
exemplo, mais de 180.000 alunos. Desse modo, os recursos de tutoria deveriam ser
investidos quando são mais necessários. Conhecendo o comportamento de
determinados grupos, os professores e gestores podem enviar mensagens ou
127
propor atividades específicas para esse grupo de alunos, por exemplo, com risco de
abandonar o curso.
A oferta de um curso dessa magnitude representou um considerável desafio em
termos de gestão, pois essa enorme quantidade de alunos gerou além da grande
quantidade de dados, aspectos envolvendo a parte operacional do curso, como
responder as centenas de mensagens dos alunos sobre diversos assuntos e
verificar os temas mais citados nos fóruns de discussão.
O desafio tecnológico também esteve presente, pois é preciso considerar que
alguns aspectos previstos pela equipe de participantes do projeto do curso, como a
integração de quizzes aos vídeos e o registro pelos arquivos de log do Blackboard,
por exemplo das datas de entrega de atividades, datas de acesso do aluno ao
ambiente, não funcionaram como o esperado. Sobre o Blackboard, os dados não
foram devidamente registrados, provavelmente em função do tamanho dos arquivos
de log Em relação aos quizzes, infelizmente um problema na integração e
atualização da versão do software da empresa Kaltura com tal funcionalidade não
estava disponível e não funcionou em tempo para esse curso. Os quizzes
integrados teriam sido úteis, por possibilitariam que as perguntas fossem colocadas
em qualquer ponto do vídeo.
Uma análise superficial dos fóruns de discussão mostrou que os alunos da
modalidade EaD utilizam o espaço com mais frequência e apresentam dúvidas e
colocações em sua maior parte relacionadas com a questão que foi colocada para
discussão. Os alunos da modalidade presencial interagem menos no fórum e
também utilizam o espaço para esclarecer dúvidas a respeito de navegação e
outros aspectos do material e do ambiente. Os alunos da modalidade EaD no caso
desse curso, foram mais participativos e tiveram menos dúvidas a respeito da
utilização do ambiente Blackboard, provavelmente por estarem mais habituados a
utilizarem esse tipo espaço para discussão e por utilizarem com mais intensidade o
ambiente virtual de aprendizagem.
Uma contribuição importante desse trabalho é mostrar a possibilidade da criação de
um sistema de alertas para professores e gestores que, a partir das regras geradas
pelos algoritmos de MDE, como árvore de decisão, identifique alunos com risco de
evasão e possibilite ao professor ou gestor atuar de maneira antecipada, enviando
mensagens de acordo com os alertas recebidos pelo sistema. Em termos de
trabalhos futuros, sugerem-se novos estudos a respeito da aplicação de outros
algoritmos em contextos educacionais, como redes neurais, regressão linear e
regras de classificação.
128
7. Referências bibliográficas
Allen, I., & Seaman, J. (2015). Online Learning Consortium. Acesso em 10 de 03 de 2016, disponível em Online Report Card – Tracking Online Education in the United States, 2015: http://onlinelearningconsortium.org/read/online-report-card-tracking-online-education-united-states-2015/
Alraimi, K., Zo, H., & Ciganek, A. (2015). Understanding the MOOCs continuance: The role of openness and. Computers & Education, pp. 28-38.
Asif, R., Merceron, A., & Pathan, M. (2014). Predicting student academic performance at degree level: a case study. International Journal of Intelligent Systems and Applications, 7(1), 49-61.
Baker, R. (2010). Data mining for education. International encyclopedia of education, 7, 112-118.
Baker, S. (2014). Educational data mining: An advance for intelligent systems in education. IEEE Intelligent systems, 29(3), pp. 78-82.
Bala, M., & Ojha, D. (2012). Study of applications of data mining techniques in education. International Journal of Research in Science and Technology, 1(4), 1-10.
Calders, T., & Pechenizkiy, M. (2012). Introduction to The Special Section onEducational Data Mining. ACM SIGKDD Explorations Newsletter, 13(2), 3-6.
Campagni, R., Merlini, D., Sprugnoli, R., & Verri, M. (2015). Data mining models for student careers. Expert Systems with Applications, 42(13), 5508-5521.
Chatti, M., Dyckhoff, A., Schroeder, U., & Thüs, H. (2012). A reference model for learning analytics. International Journal of Technology Enhanced Learning, 4(5-6), pp. 318-331.
Clow, D. (2013). MOOCs and the Funnel of Participation. Proceedings LAK '13, (pp. 186-189). Leuven, Bélgica.
Coffrin, C., Barba, P., Corrin, L., & Kennedy, G. (2014). Visuzalizing patterns of student engagement and performance in MOOCs. Proceedings - LAK2014 - Learning Analytics and Knowledge. Indianapolis, USA.
Cooper, S., & Sahami, M. (2013). Reflections on Stanford’s MOOCs. New possibilities in online education create new challenges. Communications of the acm, 56(2), 28-30.
Crossley, S., Paquette, L., Dascalu, M., Mcnamara, D., & Baker, R. (2016). Combining Click-Stream Data with NLP Tools to Better. Proceedings of the Sixth International Conference on Learning Analytics & Knowledge. ACM (pp. 6-14). Edinburgh, U.K.: ACM - Association for Computing Machinery.
Dutt, A., Aghabozrgi, S., Ismail, M., & Mahroeian, H. (2015). Clustering Algorithms Applied in Educational Datamining. International Journal of Information and Electronics Engineering, 5(2), 112-116.
Elmasri, R., & Navathe, S. (2011). Sistemas de Banco de Dados (6a. ed.). São Paulo: Pearson Addison Wesley.
129
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11), pp. 27-34.
Guo, P., Kim, J., & Rubin, R. (2014). How video production affects student engagement: An empirical study of mooc videos. Proceedings of the first ACM conference on Learning@ scale conference (pp. 41-50). Atlanta, Georgia, USA: ACM - Association for Computing Machiinery.
Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques (3. ed.). Waltham, MA: Elsevier.
Hew, K., & Cheung, W. (2014). Students and Instructors use of massive open online courses (MOOCs): motivations and challenges. Educacional Research Review, pp. 45-58.
Hu, Y., Lo, C., & Shih, S. (2014). Developing early warning systems to predict students’ online learning. Computers in Human Behavior, 36, pp. 469-478.
Hyman, P. (2012). In the Year of Disruptive Education. Communications of the acm, 55(12), 20-22.
Jeevalatha, T., Ananthi, N., & Kumar, D. (2014). Performance Analysis of Undergraduate Students Placement Selection using Decision Tree Algorithms. International Journal of Computer Applications, 108(15), 27-31.
Jordan, K. (2015). Massive Open Online Course Completion Rates Revisited: Assessment, Length and Attrition. The International Review of Research in Open and Distributed Learning, 16(3).
Kaltura. (2016). The State of Video in Education 2016: A Kaltura Report. Acesso em 20 de abril de 2016, disponível em Kaltura: https://corp.kaltura.com/sites/default/files/The%20State%20of%20Video%20in%20Education%202016%20-%20A%20Kaltura%20Report.pdf?aliId=165316164
Khalil, M., & Ebner, M. (2017). Clustering patterns of engagement in Massive Open Online Courses (MOOCs): the use of learning analytics to reveal student categories. Journal of Computing in Higher Education, 29(1), 1-19.
Khan, S. (2012). The one world schoolhouse: Education reimagined. New Yourk: Twelve.
Muñoz-Merino, P., Ruipérez-Valiente, J., Alario-Hoyos, C., Perez-Sanagustin, M., & Kloos, C. (2014). Precise Effectiveness Strategy for Analyzing the Effectiveness of Students. Computer in Human Behavior, pp. 1-11.
Nanfito, M. (2014). MOOCs: Opportunities, impacts, and challenges: massive open online courses in colleges and universities. Createspace - Amazon.
Natek, S., & Zwilling, M. (2014). Student data mining solution–knowledge management system related. Expert Systems with Applications, 41(14), 6400-6407.
Pardo, A., & Kloos, C. (2011). Stepping out of the box: towards analytics outside the learning management system. In Proceedings of the 1st International Conference on Learning Analytics and Knowledge (pp. 163-167). Banff, Canada: ACM.
Ramamohan, Y., Vasantharao, K., Chakravarti, C., & Ratnam, A. (2012). A study of data mining tools in knowledge discovery process. International Journal of Soft Computing and Engineering (IJSCE), 2(3), 2231-2307.
130
Rigo, S., Cambruzzi, W., Barbosa, J., & Cazella, S. (2014). Aplicações de Mineração de Dados Educacionais e Learning Analytics com foco na evasão escolar: oportunidades e desafios. Revista Brasileira de Informática na Educação, 22(1), 132-146.
Romero, C., & Ventura, S. (2010). Educational Data Mining: A Review of the state of the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions, 40(6), pp. 601-618.
Romero, C., & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(1), 12-27.
Romero, C., Zafra, A., Luna, J., & Ventura, S. (2013). Association rule mining using genetic programming using genetic programming to provide feedback to instructors from multiple‐choice quiz data. Expert Systems, 30(2), 162-172.
Sandeen, C. (2013). Integrating MOOCs into Traditional Higher Education: The emerging "MOOC 3.0" Era. The Magazine of Higher Learning, pp. 34-39.
Selvan, A., Beleya, P., Muniandy, M., Heng, L., & Remendran, C. (2015). Minimizing Student Attrition in Higher Learning Institutions in Malaysia Using Support Vector Machine. Journal of Theoretical and Applied Information Technology, 71(3), 377-385.
Shahiri, A., Husain, W., & Rashid, N. (2015). A Review on Predicting Student's Performance Using Data Mining Techniques. Procedia Computer Science, 72, pp. 414-422.
Shaleena, K., & Shaiju, P. (2015). Data Mining Techniques for Predicting Student Performance. Engineering and Technology (ICETECH) (pp. 1-3). Coimbatore, TN, India: IEEE.
Siemens, G., & Long, P. (2011). Penetrating the Fog: Analytics in Learning and Education. Educase Review, 46(5), pp. 30-40.
Wilkowski, J., Deutsch, A., & Russell, D. (2014). Student Skill and Goal Achievement in the Mapping with Google MOOC. L@S 2014 - Student Skills and Behavior (pp. 3-10). Atlanta, Georgia, USA.: ACM.
Yadav, S., Bharadwaj, B., & Pal, S. (2012). Data Mining Applications: A comparative for predicting student's performance. International Journal of Innovative Technology & Creative Engineering, 1(12), pp. 13-19.
You, J. W. (2016). Identifying significant indicators using LMS data to predict course achievement in online learning. The Internet and Higher Education, 29, pp. 23-30.
131
5 DISCUSSÃO E CONSIDERAÇÕES FINAIS
A presente tese foi desenvolvida no formato de artigos em sequência, e cada um deles está
alinhado com os objetivos, geral e específicos, apresentados no primeiro capítulo.
Para responder ao primeiro objetivo específico proposto, ou seja, identificar os principais
problemas na gestão de cursos massivos e destacar o mais significativo deles, foram
elaborados dois artigos a partir de uma exaustiva revisão da literatura. O primeiro identificou
os principais problemas no projeto e gestão dos MOOCs, A análise mostrou que o principal
desafio para os gestores dos MOOCs é diminuir a taxa de evasão de seus cursos, em média de
90%. Para entender melhor a questão das altas taxas de evasão nesses cursos, o segundo
artigo identificou os principais fatores que contribuem para a evasão. Nessa etapa da
pesquisa, foram identificados 24 (vinte e quatro) motivos, e na sequência, foram divididos em
dois grupos: motivos inerentes às próprias características do MOOCs; motivos relacionados
com o desenvolvimento do aluno durante o curso.
Este último é o mais importante, pois permite que os gestores atuem para eliminar ou
diminuir seus efeitos.
Para que os gestores de cursos a distância tradicionais e de cursos massivos possam ter
conhecimentos a respeito do comportamento dos alunos nos ambientes virtuais de
aprendizagem e detectar aqueles alunos com dificuldades de aprendizagem ou risco de
abandonar o curso, foi necessário realizar estudos com foco em possíveis soluções
computacionais apropriadas para essa finalidade.
Na etapa seguinte, para responder ao segundo objetivo específico – estudar técnicas de
mineração de dados aplicando-as a um estudo de caso – um terceiro artigo foi elaborado. O
referido artigo apresentou os resultados de um estudo que aplicou as principais técnicas de
MDE com o objeto de analisar uma disciplina online com 1.113 alunos. Após a aplicação de
dois algoritmos bastante utilizados em contextos educacionais, - árvore de decisão (decision
tree) e agrupamento (clustering) - foi possível identificar elementos que não eram
conhecidos por parte dos responsáveis pela disciplina, como os atributos mais significativos
para o sucesso dos alunos e também os padrões de comportamento dos alunos. Além disso,
foi possível identificar, também, as atividades que contribuíam de maneira mais expressiva
para aprovação dos alunos. O agrupamento permitiu, ainda, a descoberta de fatos
desconhecidos, como, por exemplo, uma atividade avaliada, pelos responsáveis pelo
conteúdo da disciplina, como preponderante para a aprovação dos alunos, por ter peso maior
132
na avaliação, mostrou-se pouco relevante após a análise dos resultados da mineração de
dados.
Para atender ao último objetivo específico e também ao geral da presente tese, foi
desenvolvido mais um artigo que apresentou o processo de criação e implantação de um
curso massivo no âmbito de um grupo educacional privado com mais de 180.000 matrículas.
Foram considerados na etapa de mineração de dados novamente algoritmos apropriados para
uso em contextos educacionais, principalmente árvore de decisão e agrupamento. Após os
experimentos, foram descobertos conhecimentos que podem ser úteis para os professores e
gestores do curso, para atender prioritariamente grupos de alunos com dificuldades em
acompanhar o curso.
Os dois últimos artigos trataram de experiências com classificação e agrupamento aplicados
em bases de dados de cursos que já estavam encerrados. O conhecimento obtido a partir
dessas aplicações pode ser útil para os gestores repensarem suas estratégias para os próximos
cursos. Por exemplo, em relação aos 4.326 alunos reprovados no curso massivo, foi
identificado um mesmo padrão de comportamento em 2531 (58,5%) alunos que realizaram
apenas a primeira atividade (AS_I) e em 829 alunos (19,16%) que realizaram apenas as duas
primeiras atividades e interromperam o curso.
A análise sugere baixo nível de engajamento-interesse por parte desses alunos sendo
oportuno que para as próximas edições do curso, os gestores pudessem atuar de forma
antecipada.
Outro viés que merece destaque, do ponto de vista da gestão, diz respeito às estratégias ou
itens de avaliação, afinal, foram mais de 94% de aprovação o que não é comum para cursos
com essas características.
Em um curso a distância tradicional, a tutoria exerce papel importante no contato com os
alunos, já que consegue interagir e perceber algumas situações inerentes ao processo de
ensino e aprendizagem. No contexto de cursos massivos, ainda que houvesse a figura do
tutor, as análises seriam limitadas, em virtude da grande quantidade de dados gerados pelo
ambiente virtual de aprendizagem.
Nos cursos massivos, o uso dos recursos da MDE configura-se como uma ação relevante e
absolutamente útil, para se compreender o ponto de vista dos alunos, suas principais
características e comportamentos, como aprendem e quais as suas dificuldades.
133
No caso da gestão dos cursos massivos, essa questão da tutoria para todos os alunos torna-se
inviável economicamente, em razão do número de tutores necessários para atender, por
exemplo, mais de 180.000 alunos. Desse modo, os recursos de tutoria poderiam ser revertidos
onde são mais necessários e para aqueles alunos que precisam de mais atenção. Conhecendo
o comportamento de determinados grupos de alunos, os professores e gestores poderiam
enviar mensagens específicas ou propor atividades específicas e direcionadas para cada grupo
de alunos, por exemplo, num grupo com baixo desempenho acadêmico e risco de abandonar
o curso, os tutores poderiam sugerir atividades de nivelamento ou reforço de conteúdos.
O presente estudo ocupou-se de analisar dados de cursos já encerrados, contudo, para
aumentar a efetividade, do uso das técnicas da MDE poderia-se criar um sistema de alertas
para diagnóstico precoce e encaminhamento de intervenções durante o decorrer do curso,
para que professores e gestores, a partir das regras geradas pelos algoritmos de MDE,
pudessem identificar aqueles alunos em dificuldades ou risco de abandonar o curso. Os
responsáveis pelos cursos seriam orientados a atuar de maneira antecipada, enviando
mensagens de acordo com os alertas recebidos pelo sistema para grupos específicos de
alunos.
Em termos de trabalhos futuros e complementares ao desenvolvido nesta tese, em primeiro
lugar, seria relevante destacar a necessidade de utilização dessas técnicas de MDE em um
processo que envolva outros fatores não puramente acadêmicos. No processo aplicado aos
dois cursos, foram considerados apenas atributos relativos ao desempenho acadêmico dos
alunos. Para uma solução mais ampla, seria necessário promover a integração de dados de
outras fontes, como dados financeiros, por exemplo. Afinal os alunos não abandonam um
curso, exclusivamente, em função de problemas acadêmicos, questões financeiras - nas IES
privadas - são justificativas para trancamento de cursos bastantes presentes.
Em segundo lugar, é preciso dar atenção aos fóruns de discussão. Nesta tese foi realizada
uma análise superficial dos quatro fóruns de discussão. Contudo, dado o volume de texto
presente em fóruns com milhares de participações de alunos, seria importante como trabalho
futuro, aplicar mineração de textos para uma análise qualitativa, com o objetivo de identificar
informações úteis e implícitas que, normalmente, não poderiam ser recuperadas com métodos
tradicionais.
134
6 REFERÊNCIAS BIBLIOGRÁFICAS
ALRAIMI, K. M.; ZO, H.; CIGANEK, A. P. Understanding the MOOCs continuance:
The role of openness and reputation. Computers & Education, v.80,. 28-38. 2015
ANDERSON, T.; MCGREAL, R. Disruptive Pedagogies and Technologies in
Universities. Educational Technology & Society, v.15, n. 4,. 380-389, 2012.
APARICIO, M.; BACAO, F.; OLIVEIRA, T. MOOC's business models: turning black
swans into gray swans. Proceedings of the International Conference on Information Systems
and Design of Communication. Lisboa: ACM - Association for Computing Machinery. p. 45-
49, 2014.
ARIMOTO, M. M. B.; BARBOSA, E. F. Recursos Educacionais Abertos: Aspectos de
desenvolvimento no cenario brasileiro. Computação Brasil - Revista da SBC, v. 2, n. 12, p.
17-21, 2014.
ATENAS, J. Model for democratisation of the contents hosted in MOOCs. Revista de
Universidad y Sociedad del Conocimiento, v. 12, n. 1, p. 3-14, 2015.
ATKINS, D. E.; BROWN, J. S.; HAMMOND, A. L. A review of the open educational
resources (OER) movement: Achievements, challenges, and new opportunities. Menlo
Park, CA, p. 1-84. 2007.
BAKER, R. S. J. D. et al. Panel: educational data mining meets learning analytics.
In: Proceedings Of International Conference On Learning Analytics & Knowledge. 2012.
BAKER, R. S. J.; ISOTANI, S.; DE CARVALHO, A. M. J. B. Mineração de dados
educacionais: oportunidades para o Brasil. Revista Brasileira de Informática na Educação,
v.19, n. 2, p. 1-12, 2011.
BATES, A. W. Educar na Era Digital: design, ensino e aprendizagem. São Paulo:
Artesanato Educacional / ABED, 2016.
BATURAY, M. H. An overview of the world of MOOCs. Procedia - Social and Behavioral
Sciences, v. 174, p. 427-433, 2015.
BENLAMRI, R.; KLETT, R. Emerging trends for open access learning. Research and
Practice in Technology Enhanced Learning, v. 10, n. 1, p. 1-7, 2015.
BURGE, J. Insights into teaching and learning: Reflections on MOOC experiences.
In: Proceedings of the 46th ACM Technical Symposium on Computer Science Education.
ACM, p. 600-603, 2015.
CABERO ALMENARA, J.; LLORENTE CEJUDO, M. D. C.; VÁZQUEZ MARTÍNEZ, A.
I. Las tipologías de MOOC: su diseño e implicaciones educativas. Revista de curriculum y
formación del profesorado, v. 18, n. 1, p. 13-26, 2014.
135
CAMPAGNI, R. et al. Data mining models for student careers. Expert Systems with
Applications, v.42, n.13, p. 5508-5521, 2015.
CHATTI, M. A. et al. A reference model for learning analytics. International Journal of
Technology Enhanced Learning, v. 4, n. 5-6, 2012. 318-331.
CHAUHAN, A. Massive open online courses (MOOCS): Emerging trends in assessment
and accreditation. Digital Education Review, v.25, 2014. 7-17.
CLOW, D. The learning analytics cycle: closing the loop effectively. In Proceedings of the
2nd international conference on learning analytics and knowledge. Vancouver - Canadá:
ACM.. p. 134-138, 2012.
COFFRIN, C. et al. Visuzalizing patterns of student engagement and performance in