-
Captulo
1Minerao de Dados Educacionais: Conceitos, Tc-nicas, Ferramentas
e Aplicaes
Evandro Costa, Ryan S.J.d. Baker, Lucas Amorim, Jonathas
Magalhes, Tar-sis Marinho
Abstract
With the increasing use of Interactive Learning Environments
(ILEs) or even LearningManagement Systems (LMSs) on the Web to
support student learning, an increasinglymassive volume of data is
being generated by students and instructors participating ina range
of interactions. This creates an opportunity for researching online
learning, butthese data are still only being exploited to a limited
degree, compared to the quantity offindings that could be obtained
from these data. For example, in order to understand stu-dent
behaviors and the ways in which students learn, researchers in the
emerging field ofEducational Data Mining (EDM) have worked to
develop data mining methods that arerelevant for these types of
data sets and research questions. The results of EDM analy-ses have
proven useful for improving educational practices and the design of
curriculum,both for classroom and distance use of educational
technologies. They have also provenuseful for supporting adaptive
personalization in online education. In this chapter, theprincipal
concepts and techniques of EDM will be discussed, with examples
from rele-vant educational data sets and with reference to common
applications of EDM methods.Such methods will be discussed to
address the following data mining tasks: classificationand
regression, clustering, and association rule mining. Methods
specially developed forpredicting student knowledge, emotion, and
preparation for future learning, will also bediscussed.
Resumo
Com o crescente uso de Ambientes Virtuais de Aprendizagem (AVA)
na Web e outras tec-nologias para apoio ao processo de ensino e
aprendizagem, um grande volume de dadostem sido gerado a partir das
diferentes modalidades de interao no sistema
envolvendoprincipalmente estudantes e professores. Entretanto, boa
parte desses dados no tm sido
Jornada de Atualizao em Informtica na Educao - JAIE 2012
1/29
-
analisados, o que se constitui numa lacuna importante, dada a
quantidade de informa-o valiosa que se pode potencialmente extrair
de tais dados. Por exemplo, em buscade melhor compreender o
comportamento dos estudantes e a forma como eles aprendem,o
trabalho realizado por pesquisadores em Minerao de Dados
Educacionais tem in-vestido no uso e na melhoria de conhecidas
tcnicas de minerao de dados para obterconhecimentos relevantes a
partir desses dados. Tais conhecimentos podem servir de sub-sdio
para a melhoria das prticas em educao a distncia ou presencial, alm
de seruma importante ferramenta para viabilizar a personalizao do
ensino. O objetivo destecaptulo introduzir os principais conceitos,
tcnicas e algoritmos de minerao de da-dos com aplicaes a conjuntos
de dados educacionais. Neste sentido, sero discutidosmtodos sobre
as seguintes tarefas: Classificao e regresso, agrupamento de
dados,minerao de regras de associao. Particularmente, sero
discutidos mtodos especial-mente desenvolvidos para predio dos
conhecimentos, emoes, e aprendizagem futurado estudante.
1.1. Introduo1.1.1. Motivaes
Diariamente, motivada principalmente pelas novas tecnologias de
coleta e armazena-mento de dados e pelo advento da Web, uma vasta
quantidade de dados produzidapara os mais diversos setores, a
exemplo de Sade, Educao, Negcios. Portanto, partepondervel desses
dados necessita urgentemente ser analisada.
Em particular, verifica-se que muitas instituies educacionais
que fazem uso deAmbientes Virtuais de Aprendizagem (AVAs), ou
outras tecnologias de apoio ao processode ensino e aprendizagem dos
estudantes, esto produzindo um grande volume de dados.Assim,
considerando a existncia de recursos computacionais suficientes
para tais insti-tuies, surge ento um desafio macro que o de como
explorar adequadamente essesdados, visando obter informao valiosa,
considerando principalmente requisitos de qua-lidade de consistncia
e corretude, de rpido tempo de obteno e o seu carter oportuno.Por
exemplo, isso remete a questes importantes, tais como: o que
especificamente fazercom esses dados educacionais? Como reverter
estas informaes extradas em benefciospara as instituies, para
estudantes e professores envolvidos no contexto de um curso?Como
cada um destes atores podem identificar e utilizar as informaes
escondidas nosdados coletados de tal modo que consigam tirar
proveitos delas?
Um cenrio particular e importante do que foi descrito acima o da
Universi-dade Aberta do Brasil1, na qual se geram grandes volumes
de dados, atravs do uso deAVAs. Portanto, trata-se de um exemplo de
instituio que se beneficiaria (ou talvez j sebeneficia) muito da
utilizao apropriada de anlise de dados, ou mais especialmente
deminerao de dados educacionais.
1.1.2. Minerao de Dados e Descoberta de Conhecimento
A Minerao de Dados (MD, do ingls, Data Mining, DM), pode vista
como uma etapaprincipal de um processo mais amplo conhecido como
descoberta de conhecimento em
1http://www.uab.capes.gov.br/
Jornada de Atualizao em Informtica na Educao - JAIE 2012
2/29
-
bases de dados (identificado numa rea que em ingls se denomina
Knowledge Discoveryin Databases, KDD). Em KDD verifica-se ainda a
incluso de mais duas grandes etapas:pr-processamento de dados
(preparao de dados, abrangendo mecanismos para capta-o, organizao e
tratamento dos dados) e ps-processamento dos resultados obtidos
naminerao de dados. Neste sentido, de acordo com Fayyad et al.
[Fayyad et al. 1996],KDD o processo no trivial de identificao de
padres, a partir de dados, que sejamvlidos, novos, potencialmente
teis e compreensveis. Trata-se, portanto, de uma de-finio
abrangente, na qual KDD descrito como um processo geral de
descoberta deconhecimento composto pelas trs grandes etapas
mencionadas. Os padres menciona-dos devem ser novos, compreensveis
e teis, ou seja, devero trazer algum benefcionovo que possa ser
compreendido rapidamente pelo usurio para uma possvel tomada
dedeciso.
No entanto, h uma falta de consenso entre os autores sobre uma
definio parao termo Minerao de Dados, dificultando a consolidao de
uma definio nica. Hinclusive autores que consideram Data Mining
como sinnimo de KDD, referindo-se aambas como uma disciplina que
objetiva a extrao automtica de padres interessantese implcitos de
grandes colees de dados [Klsgen and Zytkow 2002]. Doravante
nestetexto, por simplicidade, no distinguiremos mais estes dois
termos.
Minerao de Dados uma rea interdisciplinar, mobilizando
principalmente co-nhecimentos de anlise estatstica de dados,
aprendizagem de mquina, reconhecimentode padres e visualizao de
dados [Cabena et al. 1998].
Para descobrir conhecimento que seja relevante, importante
estabelecer metasbem definidas. Segundo Fayyad et al. [Fayyad et
al. 1996], no processo de descoberta deconhecimento as metas so
definidas em funo dos objetivos na utilizao do sistema,podendo ser
de dois tipos bsicos: verificao ou descoberta. Quando a meta do
tipoverificao, o sistema est limitado a verificar hipteses
definidas pelo usurio, enquantoque na descoberta o sistema encontra
novos padres de forma autnoma. A meta do tipodescoberta, em geral,
est relacionada com as seguintes tarefas de minerao de dados:predio
e descrio, sendo o foco do presente texto.
Tarefas Preditivas objetivam predizer o valor de um determinado
atributo (vari-vel) baseado nos valores de outros atributos. O
atributo a ser predito comumente conhe-cido como a varivel
preditiva, dependente ou alvo, enquanto que os atributos usados
parafazer a predio so conhecidos com as variveis preditoras,
independentes ou explicati-vas. De modo mais abstrato, a predio se
utiliza de uma tupla de variveis para predizeroutras variveis ou
valores desconhecidos [Fayyad et al. 1996].
Tarefas Descritivas procuram encontrar padres (correlaes,
tendncias, grupos,trajetrias e anomalias) que descrevam os
dados.
As metas de predio e descrio so alcanadas abordando alguma das
seguintestarefas e mtodos de minerao de dados: classificao,
regresso, agrupamento, sumari-zao, modelagem de dependncia e
identificao de mudanas e desvios.
Jornada de Atualizao em Informtica na Educao - JAIE 2012
3/29
-
1.1.3. Minerao de Dados Educacionais
A rea emergente de Minerao de Dados Educacionais procura
desenvolver ou adaptarmtodos e algoritmos de minerao existentes, de
tal modo que se prestem a compreendermelhor os dados em contextos
educacionais, produzidos principalmente por estudantes
eprofessores, considerando os ambientes nos quais eles interagem,
tais como AVAs, Sis-temas Tutores Inteligentes (STIs), entre
outros. Com tais mtodos visa-se, por exemplo,entender melhor o
estudante no seu processo de aprendizagem, analisando-se sua
intera-o com o ambiente. Assim, h a necessidade, por exemplo, de
adequao dos algoritmosde minerao de dados existentes para lidar com
especificidades inerentes aos dados edu-cacionais, tais como a no
independncia estatstica e a hierarquia dos dados. Por outrolado, h
uma necessidade significativa e urgente no provimento de ambientes
computaci-onais apropriados para minerao de dados educacionais,
oferecendo facilidades de usopara cada um dos atores envolvidos,
notadamente ao professor.
1.1.3.1. Origens de EDM
Apesar de algumas iniciativas primeiras com workshops especficos
dentro das confern-cias sobre Artificial Intelligence in Education
(AIEd) e sobre Intelligent Tutoring Sys-tems (ITS), foi somente em
2005, em Pittsburgh, EUA, que foi organizado o primeiroWorkshop on
Educational Data Mining, como parte do 20th National Conference on
Ar-tificial Intelligence (AAAI 2005). Da em diante, houve mais
algumas realizaes desteworkshop entre 2006 e 2007. Seguindo-se, em
2008 lana-se, em Montreal, Canad, aprimeira conferncia em EDM:
First International Conference on Educational Data Mi-ning, evento
este que se estabeleceu e ganhou regularidade de realizao anual,
estandoagora em 2012 na sua quinta edio. Em 2009, esta sociedade
investiu na criao de umperidico e publicou o seu primeiro volume do
JEDM - Journal of Educational Data Mi-ning. Em 2011 constituiu-se a
sociedade cientfica para EDM (International EducationalData Mining
Society 2). Enfim, a rea de EDM est bem consolidada
internacionalmente,mas, ainda dando os seus primeiros passos no
Brasil, ficando a produo por conta dealgumas poucas iniciativas de
pesquisas isoladas.
1.1.3.2. Tarefas para EDM
H diversas tarefas envolvidas em EDM, notadamente as que
decorrem diretamente daanlise de dados gerados nas interaes dos
estudantes com os ambientes de aprendi-zagem. Dessa anlise surgem
demandas para responder questes relacionadas a comomelhorar a
aprendizagem do estudante, como desenvolver ambientes educacionais
maiseficazes que contribuam efetivamente para os estudantes
aprenderem mais e em menostempo?
Em outra perspectiva, pretende-se saber quais mtodos de minerao
de se ade-quam s necessidades presentes na rea de EDM? Quais
ajustes devem ser feitos nastcnicas de forma a suprir a necessidade
de EDM? Do ponto de vista computacional,
2Ver detalhes em http://www.educationaldatamining.org/
Jornada de Atualizao em Informtica na Educao - JAIE 2012
4/29
-
alguns desafios prticos que se apresentam em vrios contextos
educacionais esto rela-cionados, por exemplo, a falta de padronizao
dos dados, o que acaba exigindo grandeesforo de pr-processamento
[Baker 2011]. Alm disso, h a necessidade de adequaodos algoritmos
clssicos de minerao de dados para lidar com especificidades
ineren-tes aos dados educacionais, tais como a no independncia
estatstica e a hierarquia dosdados [Baker 2010a].
Entre as tarefas e mtodos de minerao de dados educacionais a
serem discutidosno presente texto, incluem-se: classificao e
regresso, agrupamento de dados, minera-o de regras de associao.
Outras abordagens, entretanto, sero comentadas.
A tarefa de classificao diz respeito ao processo de encontrar um
modelo que des-creve e distingue classes de dados ou conceitos. Os
modelos so derivados com base nasanlises de colees de dados,
denominadas conjuntos de treinamentos, os quais corres-pondem a
objetos de dados para os quais os rtulos de classes so conhecidos.
O modelo usado para predizer o rtulo de classe de objetos para os
quais o rtulo de classe desco-nhecido. Ele associa um item de dado
a uma ou vrias classes predefinidas. Os modelosderivados podem ser
representados em vrias formas, tais como: rvore de deciso, regrasde
classificao, funes matemticas, redes neurais [Han and Kamber
2000].
Enquanto na classificao a predio feita para um atributo
classificador queassume valores discretos, em modelos de regresso a
varivel alvo continua, ou seja,associa um item de dado a uma ou
mais variveis de predio de valores reais. Por suavez, a anlise de
agrupamento de dados procura associar um item de dado com um
ouvrios agrupamentos determinados pelos dados, valendo-se
principalmente de medidasde similaridades. J a abordagem de minerao
de regras de associao busca encontrarpossveis relaes interessantes
entre atributos de uma base de dados. Estas abordagenssero
discutidas em detalhes na prxima seo deste captulo, onde se
discutem outrasabordagens.
1.1.3.3. Estruturao do Texto
No restante deste texto introduz-se conceitos, mtodos e
ferramentas utilizados em mi-nerao de dados educacionais, alm de
uma discusso algumas aplicaes em EDM.Na seo seguinte so
apresentados os principais mtodos utilizados em EDM que tmsido
empregados em aplicaes reais. Prossegue-se na Seo 1.3 com uma
explanaosobre aquisio e preparao de dados. Na Seo 1.4 esto
elencadas algumas das princi-pais aplicaes de EDM. Na Seo 1.5 esto
descritas algumas ferramentas que tm sidoutilizadas em EDM. A Seo
1.6 apresenta algumas consideraes sobre o captulo.
1.2. Tarefas e Algoritmos de Minerao de Dados EducacionaisO
objetivo desta seo apresentar as principais tcnicas utilizadas na
minerao de dadoseducacionais, focalizando tarefas e algoritmos
envolvidos, dando ao leitor facilidades paraentender as tcnicas,
percebendo o que cada uma faz e em quais situaes so utilizadas.
Em sua grande parte, as tcnicas utilizadas na rea de EDM so
provindas da reade minerao de dados [Baker 2011]. Entretanto, na
maioria das vezes h a necessidade
Jornada de Atualizao em Informtica na Educao - JAIE 2012
5/29
-
de adapt-las devido s particularidades existentes em ambientes
educacionais e seus da-dos.
As tcnicas esto apresentadas conforme sua categorizao nas
sub-reas de EDM,seguindo-se o que consta na taxonomia proposta por
Baker et al. [Baker 2011], tal comosegue:
PredioClassificao
Regresso
Agrupamento Minerao de Relaes
Minerao de Regras de Associao
Minerao de Correlaes
Minerao de Padres Sequenciais
Minerao de Causas
Destilao de dados para facilitar decises humanas Descobertas com
modelos
Dos mtodos destacados na taxonomia acima, alguns dos mais
demandados estodescritos em detalhes, quais sejam: Predio,
Agrupamento e Minerao de Relaes(apenas Regras de Associao) e os
demais esto sucintamente discutidos.
1.2.1. Predio
Na tarefa de predio, a meta desenvolver modelos que faam
inferncia sobre aspectosespecficos dos dados (variveis preditivas)
por meio da anlise e associao dos diversosaspectos encontrados nos
dados (variveis preditoras). Um modelo preditivo pode serentendido
como uma funo f (X , ) Y , onde X um conjunto de variveis
preditoras, so parmetros desconhecidos e Y a varivel preditiva Y .
Em outras palavras, deseja-se estimar o valor de Y por meio da
descoberta de utilizando-se X . No processo depredio, fundamental
que boa parte dos dados sejam rotulados manualmente, ou seja,a
aprendizagem do modelo ocorrer de forma supervisionada e dar-se-
utilizando umconjunto de treinamento com valores previamente
conhecidos de Y .
Segundo Baker et al. [Baker 2011], h dois benefcios relacionados
utilizaoda predio em EDM. Primeiro, os mtodos de predio podem ser
utilizados para es-tudar quais aspectos de um modelo so importantes
para predio. Esta estratgia fre-quentemente utilizada em pesquisas
que tentam, de forma direta, predizer os benefcioseducacionais de
determinadas tcnicas e ferramentas para um conjunto de estudantes,
issosem considerar os fatores intermedirios, como apresentado em
[Romero et al. 2008]. Se-gundo, os mtodos de predio auxiliam a
predizer o valor das variveis utilizadas em um
Jornada de Atualizao em Informtica na Educao - JAIE 2012
6/29
-
modelo. O intuito de utilizar essa abordagem verificar quais
dados so mais impor-tantes para o modelo pois analisar todos os
dados de um grande banco de dados paragerar um modelo invivel, do
ponto de vista financeiro e de tempo [Baker 2011]. Dessaforma, o
modelo pode ser construdo utilizando parte dos dados e ento ser
aplicado paramodelar dados mais extensos [Baker et al. 2008]. Esse
tipo de tcnica pode auxiliar nodesenvolvimento e uso de atividades
instrucionais, pois consegue-se estimar os benefcioseducacionais
antes mesmo da atividade ser aplicada aos alunos.
Em EDM, so utilizados mais frequentemente dois tipos de tcnicas
de predio:classificao e regresso. Na classificao a varivel
preditiva binria ou categrica ena regresso a varivel preditiva
contnua. Em ambos os casos, as variveis preditoraspodem ser
categricas ou contnuas.
A Figura 1.1 representa o funcionamento de um modelo
classificador, que temcomo entrada um conjunto de treinamento, que
consiste de um conjunto de amostras(ou instncias) de dados onde a
classe j conhecida (ver Tabela 1.1a). A partir desseconjunto de
dados, o processo de aprendizagem induz um modelo classificador que
emseguida testado junto a um conjunto de testes, que consiste de um
conjunto de amostrascujas classes so ocultadas (ver Tabela 1.1b) e
precisam ser preditas a partir do modelo.
Figura 1.1. Representao de um modelo classificador.
At1 At2 At3 Classe0.5 Falso Azul Sim0.3 Falso Branco No0.8
Verdadeiro Azul No0.6 Falso Verde Sim
(a)
At1 At2 At3 Classe0.9 Falso Branco ?0.2 Verdadeiro Azul ?0.1
Verdadeiro Verde ?0.3 Falso Verde ?
(b)
Tabela 1.1. Exemplo de conjunto de treinamento (a) e conjunto de
teste (b), comatributo contnuo (At1) e discretos (At2 e At3).
Na classificao, os algoritmos mais utilizados so rvores de
deciso e mquinade vetores de suporte. A seguir so apresentados
alguns trabalhos que aplicam tcnicas
Jornada de Atualizao em Informtica na Educao - JAIE 2012
7/29
-
de classificao. Em [Damez et al. 2005], utilizado uma rvore de
deciso fuzzy paramodelagem de usurio no intuito de distinguir
usurios experientes de leigos. utili-zado um agente para aprender
as caractersticas cognitivas das interaes dos usurios
eclassific-los. Feng et al. [Feng and Koedinger 2005] buscam por
fontes de erro em pre-dizer o conhecimento de um estudante. Eles
utilizam regresso stepwise para predizerquais mtricas explicam o
erro na predio de resultados de exames.
Em relao regresso, os algoritmos mais populares so regresso
linear, re-des neurais e mquinas de vetores de suporte para
regresso. Como exemplo de uti-lizao de tcnicas de regresso em EDM,
podemos citar o trabalho de Beck & Wo-olf [Beck and Woolf 2000]
que utilizam regresso linear para predizer variveis observ-veis. O
modelo acoplado num agente de aprendizagem dentro de um STI. O
agenteaprende a predizer a probabilidade da prxima resposta do
estudante estar correta e emquanto tempo o estudante gerar a
resposta.
A seguir so apresentados alguns algoritmos de predio,
relativamente h mo-delos de classificao, descrevendo o mtodo de
induo de rvore de deciso e o demquina de vetor de suporte, alm do
modelo de regresso, apresentado atravs da abor-dagem de regresso
linear.
1.2.1.1. rvore de Deciso
rvores de deciso so modelos estatsticos que utilizam treinamento
supervisionado paraclassificao e predio dos dados. Ou seja, no
conjunto de treinamento as variveispreditivas Y so conhecidas. Uma
rvore de deciso possui uma estrutura de rvore, ondecada n interno
(no-folha), pode ser entendido como um atributo de teste, e cada
n-folha(n-terminal) possui um rtulo de classe [Han and Kamber
2000]. O n de mais alto nvelnuma rvore de deciso chamado de n-raiz.
Um exemplo de rvore de deciso podeser visto na Figura 1.2.
Aps aprendido os parmetros do modelo, a rvore de deciso ir
classificar umainstncia de acordo com o caminho que satisfazer as
condies desde o n-raiz at o n-folha, ao final do processo a
instncia ser rotulada de acordo com o n-folha. Os algorit-mos mais
populares de rvore de deciso so o C4.5 [Quinlan 1993], C5.0
[RuleQuest ] eo CART [Breiman 1984].
O algoritmo C4.5, tem como entrada um conjunto de treinamento de
dados jclassificados (rotulados) e gera um modelo, a partir de um
conjunto de dados semelhante,porm no rotulado (conjunto de teste),
na forma de uma rvore de Deciso, utilizando oconceito de entropia
da informao. A cada n da rvore, selecionado um atributo dosdados
que divide o conjunto de amostras de forma mais efetiva em
subconjuntos destina-dos a uma classe ou outra. O critrio utilizado
para a diviso o ganho de informao(diferena na entropia) que resulta
da escolha do atributo divisor. O atributo com maiorganho de
informao escolhido para tomar a deciso [Quinlan 1993]. O algoritmo
C5.0 uma melhoria do algoritmo C4.5 que promete regras mais
precisas, rvores de deci-so menores e outras melhorias relacionadas
eficincia e ao custo computacional doalgoritmo em si.
Jornada de Atualizao em Informtica na Educao - JAIE 2012
8/29
-
Figura 1.2. rvore de Deciso que classifica aprendizes de
programao entreConfusos e No Confusos de acordo com os atributos
Nmero de CompilaoCom Erros e Nmero de Pares de Compilaes com o
Mesmo Erro.
1.2.1.2. Mquina de Vetores de Suporte
Mquina de Vetores de Suporte (do ingls, Support Vector Machine
(SVM)) um algo-ritmo supervisionado utilizado para a tarefa de
classificao que utiliza um hiperplanocomo separador de classes [Tan
et al. 2005]. Este hiperplano descoberto usando os ve-tores de
suporte (conjunto de treinamento) e funciona como um suporte para o
limite dadeciso ao classificar.
Para dar uma explicao intuitiva do funcionamento da tcnica de
SVM, consi-dere os dados de treinamento apresentados na Figura 1.3.
Suponha que os dados sejamrelativos a uma turma com informaes dos
alunos, representados por crculos, como as-siduidade e nmero de
postagens num frum de discusso (variveis preditoras). Almdisso os
dados rotulam cada aluno conforme seu desempenho na disciplina
(varivel pre-ditiva), alunos que passaram da disciplina (crculos
brancos) e alunos que no atingiram anota mnima (crculos cinzas).
Intuitivamente, a meta do SVM descobrir qual a melhorforma de
separar os dois grupos de alunos.
Nota-se que existe um nmero infinito de hiperplanos (linha
tracejada) que podemseparar as classes apresentadas (crculos
brancos e crculos cinzas). Ento o objetivo doSVM encontrar qual o
melhor hiperplano, ou seja aquele que maximize a distnciaentre as
instncias das classes vizinhas. Um exemplo de melhor hiperplano
para os dadosapresentados na Figura 1.3 encontrado pelo SVM
apresentado na Figura 1.4.
Jornada de Atualizao em Informtica na Educao - JAIE 2012
9/29
-
Figura 1.3. Dados de treinamento, onde existe um nmero infinito
de hiperplanosque podem separar as classes. Os alunos que passaram
da disciplina (crculosbrancos) e alunos que no atingiram a nota
mnima (crculos cinzas). Extrada eadaptada de [Han and Kamber
2000].
1.2.1.3. Regresso Linear
Regresso linear uma tcnica de predio que envolve uma varivel
preditiva y e umanica varivel preditora x, onde y modelado em funo
linear de x [Han and Kamber 2000]:
y = b+wx, (1)
onde assume-se que a varincia de y constante e b e w so
coeficientes de regresso.Estes coeficientes podem ser resolvidos
pelo mtodo dos mnimos quadrados, que estimaqual a reta que melhor
representa os dados, ou seja, aquela que minimizar o erro entre
osdados atuais e a estimativa da reta.
Como exemplo de regresso linear, suponha uma turma de matemtica
onde osalunos possuam a sua disposio STI. Ao final do curso,
obtm-se dados pareados sobreo tempo de utilizao do tutor e das
notas finais dos alunos (Tabela 1.2).
Os dados da Tabela 1.2 so apresentados graficamente na Figura
1.5. Analisando-a possvel notar que embora os pontos no grfico no
correspondam a uma linha reta,o padro tende a uma relao linear
entre o tempo de utilizao do tutor e a nota final nadisciplina.
1.2.2. Agrupamento
Em agrupamento, o objetivo dividir o conjunto de dados em
grupos, de forma que os ob-jetos contidos nos dados fiquem
agrupados naturalmente de acordo com a semelhana en-tre eles. Os
algoritmos de agrupamento so tcnicas de aprendizado
no-supervisionado,logo os grupos ou categorias, e at mesmo suas
quantidades, no so conhecidos inicial-mente. A equao abaixo nos diz
quantos grupos de k objetos so possveis dentro de umconjunto de
dados contendo n objetos.
Jornada de Atualizao em Informtica na Educao - JAIE 2012
10/29
-
Figura 1.4. O algoritmo de SVM encontra o melhor hiperplano que
separa asclasses. Extrada e adaptada de [Han and Kamber 2000].
Tabela 1.2. Dados da turma.
Tempo de utilizao (Mdia semanal) Nota final2 63 64 6.54 75 7.56
7.56 7.56 87 8.58 8.58 910 9.5
N(n,k) =1k!
k
i=0
(1)i(
ki
)(k i)n. (2)
Se tomarmos, por exemplo, n = 25 e k = 5, temos que N(n,k) =
2.436.648.974.110.751.Esta tarefa portanto muito complexa e
considerada um problema NP-Hard. 3 4
Os algoritmos de agrupamento podem tanto comear sem nenhuma
hiptese apriori sobre os grupos nos dados (tal como o algoritmo
k-means com reincio aleatrio),ou comear de uma hiptese especfica,
gerada possivelmente por pesquisa anterior emoutros dados. Um
algoritmo de agrupamento pode gerar grupos do tipo hard, onde
cada
3Um problema considerado NP-Hard quando pode-se assumir que sua
complexidade , pelo menos,to grande quanto a do problema NP mais
complexo.
4NP o conjunto de problemas de deciso onde as instncias para as
quais a resposta sim podem serreconhecidas em tempo polinomial por
uma mquina de Turing no determinstica.
Jornada de Atualizao em Informtica na Educao - JAIE 2012
11/29
-
Figura 1.5. Grfico dos dados da Tabela 1.2, onde nota (Nota
final) e tempo(Tempo de utilizao).
elemento pertence a somente um grupo (ex.: algoritmo k-means),
ou do tipo soft (tambmconhecido como fuzzy), onde um elemento pode
pertencer a mais de um grupo (ex.:Modelos de Mistura
Gaussiana).
Diversos trabalhos na rea de Minerao de Dados Educacionais fazem
uso dastcnicas de agrupamento, em [Moreno et al. 2012], um
Algoritmo Gentico utilizadopara realizar agrupamento inter-homogneo
e intra-heterogneo de estudantes para finsde atividades de
aprendizagem colaborativa. Diversas caractersticas dos estudantes
soconsideradas, tais como uma estimativa de seu nvel de
conhecimento e estimativas desuas habilidades de comunicao e de
liderana.
Em [Xu ], um mtodo estatstico (mistura de distribuies de
probabilidade) deagrupamento do tipo fuzzy, chamado de Anlise
Latente de Classes, utilizado para agru-par professores de acordo
com os seus comportamentos ao utilizar uma biblioteca digitalpara
auxlio preparao de contedo instrucional. Em [Amershi 2009],
diferentes tiposde estudantes so identificados em ambientes de
aprendizagem a partir de dados oriundosde logs da interface e do
rastreamento do movimento dos olhos, esses dados servem deentrada
para um algoritmo de agrupamento do tipo K-Means que se encarrega
de agruparos estudantes de acordo com suas similaridades
comportamentais.
Em [Talavera 2004], tambm utilizado um mtodo estatstico para
identificarpadres de comportamento de estudantes em um cenrio de
colaborao num ambientede aprendizagem. Em [Shen 2003], os
estudantes so agrupados de acordo com suaspreferncias com o intuito
de melhor adaptar os sistemas de ensino a distncia de acordocom
suas necessidades. Ainda em [Shen 2003], so construdos modelos
representativos
Jornada de Atualizao em Informtica na Educao - JAIE 2012
12/29
-
de cada grupo, que por fim utilizado para identificar as
melhores prticas de ensino esugesto de material de acordo com as
preferncias dos membros de cada grupo.
Em seguida, alguns algoritmos de agrupamento bastante usados em
EDM somostrados.
1.2.2.1. Algoritmo K-Means
O algoritmo K-Means largamente utilizado para a tarefa de
agrupamento. Em sua formamais comum [Lloyd 1982], algumas vezes
referida por Algoritmo de Lloyd, tem o se-guinte funcionamento:
O nmero k de grupos que se deseja encontrar precisa ser
informado de ante-mo. Em seguida, k pontos so escolhidos
aleatoriamente para representar os centridesdos grupos, com isso,
um conjunto de elementos, usualmente vetores, particionado deforma
que cada elemento atribudo partio, ou grupo, de centride mais
prximo, deacordo com a distncia euclidiana comum. A cada iterao do
algoritmo, os k centrides,ou "mdias", e da vem o nome means, so
recalculados de acordo com os elementospresentes no grupo e em
seguida todos os elementos so realocados para a partio cujoo novo
centride se encontra mais prximo (ver Figura 1.6).
Figura 1.6. Funcionamento do Algoritmo K-Means, passo-a-passo.
(Adaptado de[Segaran 2007])
Esse processo repetido at que os elementos sejam atribudos aos
mesmos gruposdas interaes anteriores por repetidas interaes, de
forma que os centrides permaneamestveis da em diante.
Tal como aponta [Witten and Frank 2005], este mtodo de
agrupamento simplese efetivo. fcil provar que o processo minimiza a
distncia quadrtica total de cada pontodo grupo ao seu centride, e
assim que a iterao estabiliza, cada ponto estar atribudo
Jornada de Atualizao em Informtica na Educao - JAIE 2012
13/29
-
ao centride mais prximo e portanto o efeito generalizado a
minimizao da distnciaquadrtica total de todos os pontos aos seus
centros. No entanto, no h garantias deque se tenha encontrado um
mnimo global, portanto, o que se faz, geralmente iniciaro algoritmo
vrias vezes, com diferentes pontos de partidas (posies dos
centrides) eescolher aquele resultado com menor distncia quadrtica
total.
1.2.2.2. Algoritmo Gentico
Algoritmos Genticos (AGs) so modelos computacionais de busca e
otimizao de solu-es [Passos and Goldsmith 2005], inicialmente
propostos por [Holland 1992], com forteinspirao na teoria da evoluo
das espcies de Charles Darwin 5. Nos algoritmos genti-cos, as
solues, que representam diferentes pontos no espao de busca, so
representadaspor cromossomos artificiais dos quais os genes
representam as caractersticas daquela so-luo. Uma srie de analogias
podem ser feitas entre os algoritmos genticos e a evoluodas
espcies, entre elas: O Meio Ambiente pode ser entendido como o
problema, repre-sentado pela funo de avaliao. O indivdiduo em
adaptao no ambiente a soluodo problema e representado pelo seu
cromossomo, que num AG pode ser uma string,um vetor, uma lista e
etc.
O funcionamento do AG busca reproduzir um ambiente natural, onde
somente osindivduos mais aptos prosperam e reproduzem, transmitindo
seu cdigo gentico para asprximas geraes, tal como descrito a
seguir.
Inicialmente, um conjunto de solues ou cromossomos, chamado de
populao, criado de forma aleatria, constituindo-se ento na populao
inicial que tem cada umade suas solues aferidas pela funo de
avaliao e associadas a um certo valor de ap-tido. Baseado no
princpio da seleo natural, as solues mais aptas so selecionadase
submetidas aos operadores genticos. Cada gene, ou caracterstica,
tem uma pequenaprobabilidade de sofrer mutao e cada soluo uma outra
probabilidade de sofrer cruza-mento, o que poder, ou no, melhorar a
aptido do indivduo. Ao fim de cada ciclo, aaptido dos indivduos, ou
seja, das solues, medida pela funo de avaliao. Esseprocesso
continua por um determinado nmero de ciclos ou at que a condio de
paradaseja satisfeita.
Num problema de agrupamento, geralmente, a soluo (o conjunto de
grupos pro-posto) representada em uma matriz, onde cada coluna um
grupo de estudante, porexemplo, e cada matriz , portanto, uma
maneira de se agrupar aqueles estudantes. Nestamaneira de
representao das solues, o AG pode ser visto como um algoritmo de
agru-pamento do tipo hard.
No fluxograma da Figura 1.7, apresentamos a estrutura de um
algoritmo gen-tico, onde podemos notar que, basicamente, o
algoritmo composto de um lao principal(ciclo), que representa as
geraes de indivduos, no qual so executados os elementosbsicos deste
algoritmo: A funo de avaliao, a seleo dos indivduos a compor a
novapopulao, os operadores genticos (cruzamento e mutao), e a
substituio da popula-
5Na teoria da evoluo das espcies os indivduos mais aptos tem
maiores chances de sobrevivncia eportanto de gerar descendentes,
perpetuando seu cdigo gentico.
Jornada de Atualizao em Informtica na Educao - JAIE 2012
14/29
-
o antiga pela nova populao gerada com indivduos mais aptos.
Figura 1.7. Fluxograma de um algoritmo gentico
1.2.2.3. Outras Abordagens
Alm das abordagens descritas acima, existem outras abordagens
tambm bastante usadasem EDM, incluindo mtodos estatsticos como
Anlise de Fatores e Modelos de MisturaGaussiana.
Os Modelos de Mistura Gaussiana constituem um mtodo estatstico
de agrupa-mento do tipo fuzzy. A base dos algoritmos de agrupamento
estatstico o modelo demisturas finitas, onde uma mistura uma
conjunto de k distribuies de probabilidade,representando os k
grupos, que governam os valores de atributos dos membros
daquelegrupo. Em outras palavras, cada distribuio d a probabilidade
de uma instncia emparticular ter um certo conjunto de atributos se
ela for um membro daquele grupo. Cadainstncia em particular
pertence a um e somente um dos grupos, mas no se sabe a qualdeles
[Witten and Frank 2005].
Com esta fundamentao, os Modelos de Mistura Gaussiana so capazes
de pro-duzir agrupamentos com grupos que se sobrepem ou at mesmo
deixar algumas instn-cias do conjunto de dados sem estar atribudas
a nenhum grupo. Esta flexibilidade podeser interessante para
algumas aplicaes. Uma das desvantagens desta abordagem umcusto
computacional relativamente alto.
1.2.3. Minerao de Relaes
Em minerao de relaes, o objetivo descobrir possveis relaes entre
variveis deum banco de dados com muitas variveis. Isto pode ser
feito investigando quais variveisesto mais fortemente relacionadas
com uma determinada varivel de interesse (ex.: anota do aluno), ou
investigando relaes fortes entre quaisquer duas variveis.
Existem quatro tipos de minerao de relaes: i) regras de
associao, ii) cor-relaes, iii) padres sequenciais e iv) causas. A
seguir apenas a abordagem de regra deassociao ser descrita, as
demais so variaes da proposta de descoberta de associaesque so
sucintamente apresentadas em [Baker and Yacef 2009].
Jornada de Atualizao em Informtica na Educao - JAIE 2012
15/29
-
1.2.3.1. Regras de associao
Minerao de regras de associao introduzida em [Agrawal et al.
1993], uma das maisimportantes tcnicas de minerao de dados, tendo
como objetivo central derivar regrasde conhecimento, referindo-se a
relacionamentos entre objetos de um conjunto de dados,visando
exibir caractersticas e tendncias. Isto , procura-se associao entre
itens do tipouma transao que contm os itens X tambm possui o
conjunto de itens Y (X Y ),sendo X Y = /0. Assim, a regra tem a
forma Se X , ento Y , onde X denominado decorpo da regra e Y de
cabea da regra. A cada regra derivada pelo algoritmo, verifica-sea
sua validade e importncia. Para isso, faz-se uso de duas medidas
bsicas: o suportee a confiana, comparando-as com os seus
respectivos limiares estabelecidos (suportemnimo e confiana
mnima).
A medida de suporte diz respeito ocorrncia relativa da regra de
associaodetectada dentro do conjunto de dados de transaes, sendo
calculada pelo quocienteentre o nmero de transaes que sustentam a
regra e o nmero total de transaes. J amedida de confiana de uma
regra de associao refere-se ao grau com o qual a regra verdadeira
entre os registros individuais, sendo calculada pelo quociente
entre o nmerode transaes sustentando a regra e o nmero de transaes
sustentando apenas o corpoda regra.
Um exemplo de uso dessa tcnica em EDM a minerao de regras em um
bancode dados de notas de alunos em disciplinas. Neste contexto
seria possvel derivar regrascomo 90% dos alunos que tm bom
desempenho nas disciplinas de Lgica e Matemticaso bem sucedidos
tambm em Programao.
Os algoritmos clssicos de minerao de regras de associaco derivam
regras ape-nas conjuntivas, limitando-se a utilizao do operador
lgico AND. Desde meados dosanos 90 que vrios algoritmos clssicos de
derivao de regras de associao tm sido de-senvolvidos, por exemplo:
quantitative association rule [Srikant and Agrawal 1996],
ge-neralized association rule [Srikant and Agrawal 1995],
sequential patterns [Mannila et al. 1997]e association rules
extended with negation [Tsur et al. 1998]. A literatura de
algoritmosde regras de associao ampla, mas no presente texto vamos
ressaltar apenas o clssicoalgoritmo Apriori. Apriori [Agrawal et
al. 1993] consolidou-se como o primeiro algo-ritmo de minerao de
regras de associao assumido como eficiente. Esse algoritmocombina
uma estratgia de busca denominada Breadth-first search (BFS) com
uma estru-tura de rvore para contagem de ocorrncia de
candidatos.
1.2.4. Destilao de dados para facilitar decises humanas
Nesta rea, o principal objetivo apresentar os dados de forma
mais legvel e visual parafacilitar a compreenso humana e assim
apoiar decises importantes baseadas nos dados. uma rea de interesse
crescente dentro da minerao de dados educacional. Pois, a an-lise
dos dados realizada por agente humanos, em sua maioria, s pode ser
realizada se osdados forem apresentados de forma apropriada. O
principal mtodo dessa rea da minera-o de dados educacionais o de
visualizao da informao. No entanto, a maioria dosmtodos de
visualizao, normalmente, usados dentro da minerao de dados
educacionalso frequentemente diferentes do que aqueles mais
frequentemente usados em problemas
Jornada de Atualizao em Informtica na Educao - JAIE 2012
16/29
-
de visualizao da informao [Hershkovitz and Nachmias 2008, Kay et
al. 2006]. Al-guns exemplos dessas particularidades so destacadas
por Baker [Baker 2010a]: Os dadosso organizados em termos da
estrutura do material de aprendizagem (habilidades, pro-blemas,
unidades, aulas) e da estrutura de contexto de aprendizagem
(alunos, professores,pares de colaborao, classes e escolas).
A destilao dos dados para facilitar decises humanas tem dois
propsitos prin-cipais [Baker 2010b]: a) Identificao - os dados so
apresentados de forma que humanospossam identificar os padres mais
facilmente, que so difceis de expressar formalmente;b) Classificao
- a destilao de dados pode ser usada tambm para apoiar a modelos
depredio. Neste caso, parte dos dados so exibidos para serem
rotulados por humanos.Esses rtulos so utilizados como base para a
construo desses modelos.
Segundo Baker[Baker et al. 2006], uma rea chave para destilao de
dados parafacilitar decises humanas a metodologia de repetio de
texto. Essa metodologia con-siste em apresentar pequenas partes da
base de dados em formato de texto, aps rece-berem rtulos por
agentes humanos. Ainda segundo Baker[Baker 2010a], a repetio
detexto tem sido utilizadas para, por exemplo: o desenvolvimento de
modelos de predi-o para usurios que tentam trapacear o sistema em
vrios ambientes de aprendizagem[Baker et al. 2006, Baker et al.
2010].
A identificao de padres de aprendizagem e diferenas individuais
dos estudan-tes a partir da visualizao um mtodo chave para explorao
de bases de dados educa-cionais [Baker 2010a]. Como o exemplo
apresentado por Baker [Baker 2010a] dentro dodomnio do modelo do
estudante, como pode ser visto na Figura 1.8.
Figura 1.8. Curva de aprendizagem do desempenho do estudante ao
longo dotempo em um tutor (Adaptada de [Koedinger et al.
2010a])
apresentado na Figura 1.8 uma curva de aprendizagem clssica,
onde o eixoX representa o nmero de oportunidades (opportunity) e o
eixo Y o desempenho do es-tudante, o percentual de respostas
corretas ou o tempo para responder (error rate (%)).Pode-se
perceber na Figura 1.8 que a curva tem uma suave queda, o que
indica que oestudante est aprendendo.
1.2.5. Descoberta com modelos
Em descoberta com modelos, parte-se de um modelo gerado por um
mtodo de predio,tal como classificao, ou por um mtodo de
agrupamento, ou ainda manualmente, por
Jornada de Atualizao em Informtica na Educao - JAIE 2012
17/29
-
meio de engenharia de conhecimento. Em seguida, esse modelo
utilizado como com-ponente, ou ponto de partida, em outra anlise
com tcnicas de predio ou minerao derelaes.
1.3. Preparao e Aquisio dos DadosNesta seo sero apresentadas as
tcnicas de preparao (pr-processamento) de dadosmais comumente
utilizadas em EDM e, em seguida, sero apresentadas as possveis
fontesde dados educacionais para minerao.
1.3.1. Preparao de dados
Como em todo problema de Minerao de Dados, em EDM se faz
necessria uma etapade preparao de dados, de forma adequ-los a
anlise que se pretende efetuar. Um grandeproblema, no entanto, que
com tantas fontes de dados diferentes em EDM, existe umafalta de
padronizao na maneira como os dados so coletados e armazenados, que
por sis, constitui um dos desafios da rea.
Segundo [Garca 2007], a maioria das tarefas de preparao
necessrias em mine-rao de dados tradicionais, tais como limpeza de
dados, identificao de usurio, identi-ficao de sesso, identificao de
transao, transformao de dados e enriquecimento,integrao e reduo de
dados no so necessrias em certos AVAs que armazenam dadoscom o
propsito de realizar anlises posteriores.
Ainda de acordo com [Garca 2007], as tarefas tpicas de preparao
de dados paraa rea de EDM so: Discretizao de Dados (onde valores
numricos so transformadosem categorias), derivao de novos atributos
e seleo de atributos (novos atributos socriados a partir dos
existentes e somente um subconjunto escolhido), criao de tabelasde
sumarizao (estas tabelas integram toda a informao desejada para ser
minerada nonvel apropriado, por exemplo, no nvel de estudante),
transformao do formato de dados(os dados so transformados para se
adequar ao formato requerido pelos algoritmos eframeworks de
minerao de dados). Em seguida, veremos uma descrio dessas
tarefas.
1.3.1.1. Discretizao de Dados
A tarefa de discretizao, que geralmente aplicada quando se
pretende realizar classi-ficao ou associao, constitue em
transformar valores numricos contnuos em n in-tervalos que sero as
n categorias que se deseja obter. Basicamente, todo o esforo estem
decidir quantas categorias sero necessrias e onde ficaro os limites
dos intervalos,no entanto, existem mtodos de discretizao
no-supervisionada, onde no necessriodecidir esses parmetros.
1.3.1.2. Derivao de Novos Atributos
Esta tcnica permite que novos atributos sejam derivados apartir
dos atributos originaiscom o intuito de facilitar a extrao de
determinada informao de forma mais eficaz. Onovo conjunto de
atributos pode substituir ou ser agregado aos atributos originais.
Con-
Jornada de Atualizao em Informtica na Educao - JAIE 2012
18/29
-
sidere, por exemplo, um conjunto de fotografias onde deseja-se
classificar de acordo coma presena ou no de uma face humana. Os
dados brutos, contendo informaes apenasa nvel de pixels, podem no
ser interessantes para essa tarefa, mas novos atributos, numnvel
mais alto, podem ser gerados a partir de outros algoritmos que
detectem a presena,ou no, de certas bordas na imagem. Esses novos
atributos podem servir de entrada a umconjunto maior de tcnicas de
classificao [Tan et al. 2005].
1.3.1.3. Seleo de Atributos
A tarefa de seleo de atributos muito importante quando se
trabalha com conjuntode dados com alta dimensionalidade, ou seja,
com grande nmero de atributos, o queaumenta o custo computacional
de vrias tcnicas de minerao de dados. Em classifi-cao, por exemplo,
comumente trabalha-se apenas com um subconjunto do conjunto
deatributos original. Os atributos contidos no subconjunto so
escolhidos de acordo com ainformao que deseja extrair. A escolha
pode ser manual, por um especialista no domniodos dados, ou
automtica, por algum algoritmo de seleo automtica de atributos.
1.3.1.4. Criao de Tabelas de Sumarizao
As tabelas de sumarizao so muito utilizadas quando se trabalha
com um banco de da-dos relacional constitudo de vrias tabelas e
precisa-se apenas de uma parte desses dados.Para isso, cria-se uma
nova tabela apenas com a informao desejada, j transformada,para a
tcnica de minerao que se deseja aplicar. Essa tarefa utilizada em
EDM, porexemplo, quando se realiza classificao em dados do Moodle
[Romero et al. 2008].
1.3.1.5. Transformao do Formato dos Dados
Essa tarefa necessria quando os dados de entrada da tcnica de
minerao que se pre-tende utilizar precisam estar em um formato
especfico e diferente do formato atual dosdados.
1.3.2. Aquisio dos Dados
Nos ltimos anos, com o crescente uso de AVAs, softwares
educacionais e outras tecno-logias que amparam o ensino por meio do
computador, uma grande quantidade de dadostem sido gerada. No
Brasil, especificamente, a Universidade Aberta do Brasil tem
grandeimportncia neste cenrio, devido ao grande nmero de cursos de
ensino a distncia utili-zando AVAs e outros softwares educacionais,
e pode ser um grande aliado da Mineraode Dados Educacionais. Um
grande problema, no entanto, que com tantas fontes de da-dos
diferentes, existe uma falta de padronizao na maneira como os dados
so coletadose armazenados, ocasionando um grande esforo de
pr-processamento de dados, que porsi s, constitui um dos desafios
da rea.
No entanto, algumas fontes de dados educacionais disponveis na
Web, como por
Jornada de Atualizao em Informtica na Educao - JAIE 2012
19/29
-
exemplo do repositrio PSLC DataShop6 [Koedinger et al.
2010b].
1.4. Principais Aplicaes de EDMA minerao de dados educacional
tem sido utilizada diversas reas, as principais reasde aplicao so
[Baker and Yacef 2009]:
Modelagem do estudante; Modelagem do domnio; Suporte pedaggico;
Descoberta cientfica.
Nesta seo sero apresentadas como aplicaes que utilizam a minerao
de da-dos educacionais podem auxiliar educadores em diferentes
reas, ou mesmo algum sis-tema computacional, a exemplo de um
STI.
1.4.1. Modelagem do estudante
Os modelos do estudante armazenam informao sobre caractersticas
dos alunos, taiscomo conhecimento, motivao, atitudes,
personalidade, alm de questes sociais. Astcnicas de EDM podem ser
utilizadas para dar uma maior acurcia no modelo de estu-dante e
proporcionar uma maior personalizao e adaptao dos servios
oferecidos porum AVA.
Modelar as diferenas existentes entre os estudantes possibilita
acompanhar oaprendizado de forma individualizada, melhorando
significativamente o aprendizado doestudante. Utilizando mtodos de
EDM possvel modelar atributos do estudante em sis-temas de tempo
real. Por exemplo, em [Baker et al. 2008], os autores utilizam
EDMpara detectar comportamentos inadequados dos estudantes em STI.
Eles verificam seo estudante est trapaceando o sistema (do ingls
gaming the system), e.g. o estu-dante pede diversas dicas somente
para descobrir a resposta de um determinado pro-blema. Em [DMello
et al. 2008] verificado se um estudante est entediado ou frus-trado
em utilizar o sistema, isto feito por meio da anlise de atributos
extrados dainterao dos estudantes com o sistema como por exmplo,
informao temporal e in-formao das respostas. Alguns trabalhos na
literatura buscam identificar quais fato-res fazem um estudante ser
reprovado ou desistir de uma disciplina na universidade,e.g.
[Kotsiantis 2009, Dekker et al. 2009, Romero et al. 2008, Superby
et al. 2009].
1.4.2. Modelagem do domnio
Uma importante rea de utilizao de EDM na descoberta de modelos
que representema estrutura de um domnio. Por meio da combinao de
arcabouos de modelagem depsicometria com algoritmos de espao de
busca, alguns trabalhos tm conseguido desen-volver abordagens
automticas de descoberta, que a partir de dados conseguem
identificarcom acurcia modelos de estrutura de domnio.
6Repositrio para armazenamento e anlise de dados educacionais
criado pelo Pittsburgh Science ofLearning Center:
https://pslcdatashop.web.cmu.edu/
Jornada de Atualizao em Informtica na Educao - JAIE 2012
20/29
-
1.4.3. Suporte pedaggico
O estudo do suporte pedaggico, tanto em softwares de apoio
aprendizagem quanto emoutros domnios, como aprendizagem
colaborativa, tem o objetivo de descbrir que tipos desuporte
pedaggico so mais eficientes na mdia ou para grupos especficos de
estudantes.E neste ltimo caso, torna-se uma tarefa ainda mais
complexa devido as particularidadesde cada estudante [Baker and
Yacef 2009].
1.4.4. Descoberta cientfica
Uma quarta rea de aplicao de EDM na descoberta e confirmao de
teorias cientficaseducacionais conhecidas e na busca de melhor
compreender os fatores chave que impac-tam no processo de
aprendizagem, sempre procurando desenvolver melhores sistemas
deapoio ao ensino e aprendizagem.
1.5. Ferramentas para EDMEsta seo tem como objetivo apresentar
as principais ferramentas utilizadas na rea pararealizar o processo
de descoberta de conhecimento no contexto educacional.
Existem diversas ferramentas de minerao, comerciais e acadmicas,
dispon-veis que proveem algoritmos de minerao, algoritmos de
pr-processamento, tcnicas devisualizao, entre outros, como:
DBMiner, Clementine, IBM Intelligent Miner, Weka[Hall et al. 2009]
e Rapidminer [Mierswa et al. 2006]. Apesar dos esforos da
comuni-dade de minerao de dados educacionais em propor e construir
ferramentas de mineraoque levem em conta as particularidades da
minerao no contexto educacional, duas des-sas ferramentas so muito
utilizadas na literatura: Weka e Rapidminer. Por este motivo,essas
ferramentas foram escolhidas e sero apresentadas nas subsees a
seguir.
1.5.1. WEKA
Weka uma coleo do estado da arte de algoritmos de aprendizagem
de mquina e ferra-mentas de pr-processamento [Hall et al. 2009].
uma ferramenta de cdigo aberto e foidesenvolvido na Universidade de
Waikato na Nova Zelndia. Weka possui uma variedadede algoritmos de
aprendizagem, que incluem ferramentas de pr-processamento.
Almdisso, oferece suporte a todo processo de minerao, que inclui
suporte a preparao dosdados de entrada, avaliao estatstica da
aprendizagem, visualizao dos dados de en-trada e os resultados.
Todas as funcionalidades disponveis podem ser acessadas atravsde
uma interface comum, apresentada na Figura 1.9.
A interface oferecida pelo Weka permite que os algoritmos de
aprendizagem eas diversas ferramentas para transformao possam ser
aplicados as bases de dados semque seja necessrio escrever nenhum
cdigo. O Weka inclui mtodos para os problemaspadres de minerao de
dados, como: regresso, classificao, agrupamento, regras deassociao
e seleo de atributos [Hall et al. 2009]. Todos os algoritmos
aceitam o for-mato padro estabelecido para o Weka, o ARFF. ARFF um
formato de entrada especficoda ferramenta e tem a forma de uma
tabela relacional simples. O ARFF pode ser lido deum arquivo e/ou
construdo a partir de uma base de dados.
Na tela principal apresentada na Figura 1.9, o Weka
disponibiliza quatro opes o
Jornada de Atualizao em Informtica na Educao - JAIE 2012
21/29
-
Figura 1.9. Interface grfica inicial do Weka e a Interface
grfica Explorer
usurio: Explorer, Knowledge Flow, Experimenter e CLI.
A primeira opo o Explorer. Esta a opo mais simples para se
utilizar oWeka. Ela oferece uma interface que possibilita ao usurio
acessar funcionalidades ofe-recidas pelo Weka e que podem ser
acessadas por meio da interface grfica e suas opes.O usurio pode,
por exemplo, escolher ler um arquivo ARFF e construir uma
modelo,utilizando algum dos algoritmos disponveis. A interface
possibilita utilizar quaisquerum dos algoritmos implementados pela
ferramenta, apresentando dicas e os resultados decada aprendizagem
realizada com a base de dados escolhida.
Outra opo disponibilizada na interface grfica apresentada na
Figura 1.9 oKnowledgeFlow. Como apresentado na Figura 1.10, esta
opo oferece uma interfacegrfica que permite ao usurio construir um
fluxo para o processamento dos seus dados.O Weka oferece alguns
algoritmos incrementais e podem ser usados para processar
umconjunto de dados muito grande [Hall et al. 2009]. Essa interface
permite que o usurioescolha entre caixas que representam esses
algoritmos, arraste-os e estabelea a confi-gurao desejada. Isso
permite que o usurio construa um fluxo para o processamentodo
conjunto de dados escolhido por meio da conexo desses componentes.
Esse compo-nentes podem estar representando as fontes de dados,
ferramentas de pr-processamento,algoritmos de aprendizagem, mtodos
de avaliao e visualizao.
A terceira opo disponibilizada pelo Weka o Experimenter. Essa
opo ofereceuma interface grfica que possibilita aos usurios um
auxlio em uma questo prtica:
Jornada de Atualizao em Informtica na Educao - JAIE 2012
22/29
-
Figura 1.10. Interface grfica KnowledgeFlow do Weka
descobrir quais mtodos e parmetros funcionam melhor para um
determinado problema.O usurio pode fazer isso de forma interativa
ao aplicar algum algoritmo em sua base dedados. Entretanto, essa
interface permite ao usurio automatizar esse processo, tornandomais
fcil executar diferentes algoritmos e filtros com diferentes
parmetros.
A ltima opo oferece a funcionalidade mais bsica da ferramenta,
onde o Wekapode ser acessado utilizando linhas de comando. Essa opo
possibilita o acesso a todasas funcionalidades do sistema. Alm
disso, o Weka oferece a API Java, que permite aconstruo de aplicaes
que utilizem todas as funcionalidades disponibilizadas pela
fer-ramenta. A API tambm oferece suporte a construo do arquivo ARFF
que o formatoespecfico aceito pelos algoritmos implementados pela
ferramenta.
O Weka fornece, ainda, uma vasta documentao on-line, alm do
material pro-duzido pelo projeto, como o livro Data Mining
Practical Machine Learning Tools andTechniques [Hall et al.
2009].
1.5.2. RapidMiner
O RapidMiner um sistema de cdigo aberto para a minerao de dados.
um aplicativodistribudo de forma independente para anlise de dados,
minerao de texto e de dados,alm disso, permite a integrao com
outros produtos desenvolvidos pelo mesmo projeto.Na Figura 1.11
apresentada uma de suas telas, onde a fonte de dados carregada pode
ser
Jornada de Atualizao em Informtica na Educao - JAIE 2012
23/29
-
visualizada.
Figura 1.11. Interface grfica do RapidMiner (Extrada de:
[Rapid-i 2012])
Segundo seus desenvolvedores[Rapid-i 2012], o RapidMiner oferece
as seguintesvantagens:
Integrao de dados, ETL Analtica, Anlise de Dados e Relatrio em
uma nicasute;
Poderosa, mas intuitiva interface grfica para o usurio para o
design do processode anlise;
Repositrio para processo, dados e manipulao de meta-dados;
nica soluo com transformao de meta-dados
nica soluo com suporte ao reconhecimento de erros on-the-fly e
solues rpi-das;
Completa e flexvel: Centenas de carregamento de dados,
transformao de dados,modelagem dos dados e mtodos de
visualizao;
Jornada de Atualizao em Informtica na Educao - JAIE 2012
24/29
-
Algumas caractersticas interessantes dessa ferramenta so: o fato
de ter seu c-digo aberto e, por isso, disponvel gratuitamente,
funcionar na maioria das principais pla-taformas e sistema
operacional. Alm de, assim como o Weka, disponibilizar o acesso
assuas funcionalidades por meio de uma interface grfica intuitiva,
linhas de comando e APIJava, possibilitando a construo de aplicaes
que a utilizem por meio de um mecanismosimples. Alm disso, o
RapidMiner possui a biblioteca de algoritmos de aprendizagemdo Weka
totalmente integrada e possibilita o acesso a diferentes fontes de
dados, como:Excel, Acess, Oracle, Microsoft SQL Server, MySQL,
Postgres, Arquivos de texto, entreoutros.
Alm das das caractersticas citadas, outras caractersticas so
destacadas por de-senvolvedores [Rapid-i 2012] como diferenciais da
ferramenta, so algumas delas: solu-o mais abrangente disponvel:
mais de 500 operadores de integrao e transformaodos dados, minerao,
avaliao, visualizao; e conceito visualizao multi-camadas dedados
garante a manipulao de dados mais eficiente, entre outras.
O RapidMiner tambm oferece uma extensa documentao que inclui:
Tutoriasem videos, guia de instalao e um manual da ferramenta. O
manual muito bem cons-trudo e aborda, alm de um passo-a-passo de
como utilizar a ferramenta, uma introduoaos conceitos fundamentais
e necessrios sobre minerao de dados.
1.6. Consideraes FinaisNeste captulo foi apresentado um apanhado
de conceitos, tcnicas, tecnologias e aplica-es em minerao de dados
educacionais, visando disponibilizar um texto bsico paraorientar o
leitor neste campo emergente, olhado na perspectiva da pesquisa em
Intelign-cia Artificial e Educao. Particularmente, foi dado ao
leitor uma descrio das principaisiniciativas em EDM como campo de
pesquisa, tendo atualmente o amparo de uma socie-dade cientfica, a
qual patrocina uma conferncia internacional e um peridico.
Quanto parte tcnica do texto, enfocou-se os principais mtodos
utilizados emEDM, oferecendo-se uma boa amplitude e um nvel bsico
de descrio de tais mtodos,mas sempre remetendo o leitor a
referncias apropriadas para possveis leituras e aprofun-damentos no
tema. Alm disso, foram apresentadas algumas ferramentas de minerao
dedados que esto sendo tambm utilizadas em contextos educacionais.
Finalmente algumasaplicaes foram elencadas, prestando-se a ilustrar
o potencial do campo de minerao dedados educacionais.
Referncias[Agrawal et al. 1993] Agrawal, R., Imielinski, T., and
Swami, A. (1993). Mining as-
sociation rules between sets of items in large databases. In
Proceedings of the 1993ACM SIGMOD international conference on
Management of data, SIGMOD 93, pages207216, New York, NY, USA.
ACM.
[Amershi 2009] Amershi, S., C. C. (2009). Combining unsupervised
and supervisedclassification to build user models for exploratory
learning environments. Journal ofEducational Data Mining,
1(1):1871.
[Baker 2011] Baker, R.S.J.d., I. S. d. C. A. (2011). Minerao de
dados educacionais:
Jornada de Atualizao em Informtica na Educao - JAIE 2012
25/29
-
Oportunidades para o brasil. Revista Brasileira de Informtica na
Educao, 19(2).
[Baker 2010a] Baker, R. (2010a). Data Mining for Education. In
McGaw, B., Peterson,P., Baker, E. (Eds.) International Encyclopedia
of Education (3rd edition), Elsevier,Oxford, UK.
[Baker 2010b] Baker, R. (2010b). Mining Data for Student Models.
In Nkmabou, R.,Mizoguchi, R., & Bourdeau, J. (Eds.) Advances in
Intelligent Tutoring Systems, pp.323-338. Secaucus, NJ:
Springer.
[Baker and Yacef 2009] Baker, R. and Yacef, K. (2009). The state
of educational datamining in 2009: A review and future visions.
Journal of Educational Data Mining,1(1):317.
[Baker et al. 2008] Baker, R. S., Corbett, A. T., Roll, I., and
Koedinger, K. R. (2008).Developing a generalizable detector of when
students game the system. User Modelingand User-Adapted
Interaction, 18(3):287314.
[Baker et al. 2006] Baker, R. S. J. D., Corbett, A. T., and
Wagner, A. Z. (2006). Humanclassification of low-fidelity replays
of student actions. In Proceedings of the Workshopon Educational
Data Mining (held at the 8th International Conference on
IntelligentTutoring Systems ITS 2006). Jhongli, pages 2936.
[Baker et al. 2010] Baker, R. S. J. D., Mitrovic, A., and
Mathews, M. (2010). Detectinggaming the system in constraint-based
tutors. In Proceedings of the 18th internatio-nal conference on
User Modeling, Adaptation, and Personalization, UMAP10,
pages267278, Berlin, Heidelberg. Springer-Verlag.
[Beck and Woolf 2000] Beck, J. and Woolf, B. P. (2000).
High-level student modelingwith machine learning. In Proceedings of
the 5th International Conference on Intelli-gent Tutoring Systems,
ITS 00, pages 584593, London, UK, UK. Springer-Verlag.
[Breiman 1984] Breiman, L. (1984). Classification and regression
trees. The Wadsworthand Brooks-Cole statistics-probability series.
Chapman & Hall.
[Cabena et al. 1998] Cabena, P., Hadjinian, P., Stadler, R.,
Verhees, J., and Zanasi, A.(1998). Discovering data mining: from
concept to implementation. Prentice-Hall,Inc., Upper Saddle River,
NJ, USA.
[Damez et al. 2005] Damez, M., Marsala, C., Dang, T., and
Bouchon-Meunier, B.(2005). Fuzzy decision tree for user modeling
from human-computer interactions.In Proceedings of the
International conference on human system learning: Who is
incontrol?, pages 287302.
[Dekker et al. 2009] Dekker, G. W., Pechenizkiy, M., and
Vleeshouwers, J. M. (2009).Predicting Students Drop Out: A Case
Study. In Proceedings of the InternationalConference on Educational
Data Mining, pages 4150.
[DMello et al. 2008] DMello, S. K., Craig, S. D., Witherspoon,
A., Mcdaniel, B., andGraesser, A. (2008). Automatic detection of
learners affect from conversational cues.User Modeling and
User-Adapted Interaction, 18(1-2):4580.
Jornada de Atualizao em Informtica na Educao - JAIE 2012
26/29
-
[Fayyad et al. 1996] Fayyad, U. M., Piatetsky-Shapiro, G., and
Smyth, P. (1996). Ad-vances in knowledge discovery and data mining.
In Fayyad, U. M., Piatetsky-Shapiro,G., Smyth, P., and Uthurusamy,
R., editors, A, chapter From data mining to knowledgediscovery: an
overview, pages 134. American Association for Artificial
Intelligence,Menlo Park, CA, USA.
[Feng and Koedinger 2005] Feng, M., H. N. and Koedinger, K.
(2005). Looking for sour-ces of error in predicting students
knowledge. In Educational Data Mining: PapersFrom the 2005 AAAI
Workshop, pages 5461, Menlo Park. AAAI Press.
[Garca 2007] Garca, E., R. C. V. S. C. T. (2007). Drawbacks and
solutions of applyingassociation rule mining in learning management
systems. International Workshop onApplying Data Mining in
e-Learning (ADML07), pages 1322.
[Hall et al. 2009] Hall, M., Frank, E., Holmes, G., Pfahringer,
B., Reutemann, P., andWitten, I. H. (2009). The weka data mining
software: an update. SIGKDD Explor.Newsl., 11(1):1018.
[Han and Kamber 2000] Han, J. and Kamber, M. (2000). Data
mining: concepts andtechniques. Morgan Kaufmann Publishers Inc.,
San Francisco, CA, USA.
[Hershkovitz and Nachmias 2008] Hershkovitz, A. and Nachmias, R.
(2008). Develo-ping a log-based motivation measuring tool. In de
Baker, R. S. J., Barnes, T., andBeck, J. E., editors, EDM, pages
226233. www.educationaldatamining.org.
[Holland 1992] Holland, J. H. (1992). Adaptation in Natural and
Artificial Systems: AnIntroductory Analysis with Applications to
Biology, Control, and Artificial Intelligence.The MIT Press.
[Kay et al. 2006] Kay, J., Maisonneuve, N., Yacef, K., and
Reimann, P. (2006). The bigfive and visualisations of team work
activity. In Proceedings of the 8th internationalconference on
Intelligent Tutoring Systems, ITS06, pages 197206, Berlin,
Heidel-berg. Springer-Verlag.
[Klsgen and Zytkow 2002] Klsgen, W. and Zytkow, J. M., editors
(2002). Handbookof data mining and knowledge discovery. Oxford
University Press, Inc., New York,NY, USA.
[Koedinger et al. 2010a] Koedinger, K. R., Baker, R. S. J.,
Cunningham, K., Skogsholm,A., Leber, B., and Stamper, J. (2010a). A
data repository for the EDM community:The PSLC DataShop. Handbook
of Educational Data Mining, pages 4355.
[Koedinger et al. 2010b] Koedinger, K. R., Baker, R. S. J.,
Cunningham, K., Skogsholm,A., Leber, B., and Stamper, J. (2010b). A
data repository for the EDM community:The PSLC DataShop. Handbook
of Educational Data Mining, pages 4355.
[Kotsiantis 2009] Kotsiantis, S. (2009). Educational data
mining: a case study forpredicting dropout-prone students. Int. J.
Knowl. Eng. Soft Data Paradigm.,1(2):101111.
Jornada de Atualizao em Informtica na Educao - JAIE 2012
27/29
-
[Lloyd 1982] Lloyd, S. (1982). Least squares quantization in
pcm. Information Theory,IEEE Transactions on, 28(2):129 137.
[Mannila et al. 1997] Mannila, H., Toivonen, H., and Inkeri
Verkamo, A. (1997). Disco-very of frequent episodes in event
sequences. Data Min. Knowl. Discov., 1(3):259289.
[Mierswa et al. 2006] Mierswa, I., Wurst, M., Klinkenberg, R.,
Scholz, M., and Euler, T.(2006). Yale: Rapid prototyping for
complex data mining tasks. In Ungar, L., Craven,M., Gunopulos, D.,
and Eliassi-Rad, T., editors, KDD 06: Proceedings of the 12thACM
SIGKDD international conference on Knowledge discovery and data
mining,pages 935940, New York, NY, USA. ACM.
[Moreno et al. 2012] Moreno, J., Ovalle, D. A., and Vicari, R.
M. (2012). A geneticalgorithm approach for group formation in
collaborative learning considering multiplestudent characteristics.
Comput. Educ., 58(1):560569.
[Passos and Goldsmith 2005] Passos, E. L. and Goldsmith, R.
(2005). Data Mining: Umguia Prtico. Campus, 1 edition.
[Quinlan 1993] Quinlan, J. R. (1993). C4.5: programs for machine
learning. MorganKaufmann Publishers Inc., San Francisco, CA,
USA.
[Rapid-i 2012] Rapid-i (2012). Disponvel em
http://rapid-i.com/content/view/181/190/lang,en/. Acessado em 10 de
Outubro de 2012.
[Romero et al. 2008] Romero, C., Ventura, S., Espejo, P. G., and
Hervs, C. (2008). Datamining algorithms to classify students. In In
Proc. of the 1st Int. Conf. on EducationalData Mining (EDM08), p.
187191, 2008. 49 Data Mining 2009.
[RuleQuest ] RuleQuest. Data mininig tools see5 and c5.0.
[Segaran 2007] Segaran, T. (2007). Programming collective
intelligence. OReilly, firstedition.
[Shen 2003] Shen, R., H. P. Y. F. Y. Q. . H. J. (2003). Data
mining and case-basedreasoning for distance learning. Journal of
Distance Education Technologies, 1(3):4658.
[Srikant and Agrawal 1995] Srikant, R. and Agrawal, R. (1995).
Mining generalized as-sociation rules. In Proceedings of the 21th
International Conference on Very LargeData Bases, VLDB 95, pages
407419, San Francisco, CA, USA. Morgan KaufmannPublishers Inc.
[Srikant and Agrawal 1996] Srikant, R. and Agrawal, R. (1996).
Mining quantitativeassociation rules in large relational tables. In
Proceedings of the 1996 ACM SIGMODinternational conference on
Management of data, SIGMOD 96, pages 112, NewYork, NY, USA.
ACM.
Jornada de Atualizao em Informtica na Educao - JAIE 2012
28/29
-
[Superby et al. 2009] Superby, J., Vandamme, J.-P., and Meskens,
N. (2009). Determi-nation of factors influencing the achievement of
the first-year university students usingdata mining methods. In
Proceedings of the Workshop on Educational Data Miningat the 8th
International Conference on Intelligent Tutoring Systems (ITS
2006), pages3744.
[Talavera 2004] Talavera, L., G. E. (2004). Mining student data
to characterize similarbehavior groups in unstructured
collaboration spaces. Workshop on artificial intelli-gence in CSCL.
16th European conference on artificial intelligence, pages
1723.
[Tan et al. 2005] Tan, P.-N., Steinbach, M., and Kumar, V.
(2005). Introduction to DataMining, (First Edition). Addison-Wesley
Longman Publishing Co., Inc., Boston, MA,USA.
[Tsur et al. 1998] Tsur, D., Ullman, J. D., Abiteboul, S.,
Clifton, C., Motwani, R., Nes-torov, S., and Rosenthal, A. (1998).
Query flocks: a generalization of association-rulemining. SIGMOD
Rec., 27(2):112.
[Witten and Frank 2005] Witten, I. H. and Frank, E. (2005). Data
Mining: Practical Ma-chine Learning Tools and Techniques. Morgan
Kaufmann Series in Data ManagementSystems. Morgan Kaufmann, 2nd
edition.
[Xu ] Xu, B., R. M. Understanding teacher users of a digital
library service: A clusteringapproach.
Jornada de Atualizao em Informtica na Educao - JAIE 2012
29/29