Descoberta de Descoberta de Conhecimento Conhecimento: Edimar Manica Fahad Kalil Centroid-Based Document Classification: Analysis & Experimental Results Autores: Eui-Hong (Sam) Han e George Karypis Ano de publicação: 2000 2009
Jan 16, 2016
Descoberta de Descoberta de ConhecimentoConhecimento:
Edimar ManicaFahad Kalil
Centroid-Based Document Classification:
Analysis & Experimental Results
Autores: Eui-Hong (Sam) Han e George KarypisAno de publicação: 2000
2009
Roteiro
• Objetivo• Pré-processamento
o Remoção de Stopwordso Stemming
• Conceitos o Poderação de Termos (TF-IDF)o Cosine Functiono Centroid Vectoro Modelo Vetorial (Vector-Space Model)
• Funcionamento• Experimentos e Comparativo• Conclusões
Objetivo
• Dado um conjunto de treinamento o Doc1 {termo1, termo2, ..., termon} -> Classe 1o Doc2 {termo1, termo2, ..., termon} -> Classe 2o Doc3 {termo1, termo2, ..., termon} -> Classe 2o Doc4 {termo1, termo2, ..., termon} -> Classe 1
• Classificar um novo documento com base em seus termoso Doc5 {termo1, termo2, ..., termon} -> Classe ?
• Considerando que um documento pertence a apenas uma
classe
Pré-processamento do documento
• Objetivoo Limpeza dos dados
• Remoção de stopwordso Remover palavras que não são significantes para
representar o documento (palavras comuns)o Remoção realizada através de uma stop-listo Ex: A Varig Log pediu a impugnação dos votos das
empresas ...• Stemming
o O usuário consulta uma palavra e um documento relevante contém apenas formas variantes desta palavra
o Consulta: como comer com saúdeo Documento: comendo com saúde
Pré-processamento do documento
• Stemming (continuação)o Stem = radicalo Palavra Radical
comendo com comer com
o Algoritmo utilizado: Porter's suffix-stripping Remoção de sufixos Baseia-se em regras que são aplicadas se
determinadas condições são satisfeitas Ex: Regra de Redução de plural
sses -> ss stresses -> stress ies -> i ponies -> poni s -> nada cats -> cat
Conceitos• Poderação de Termos
o Em um documento alguns termos são mais importantes que outros (tem um peso maior)
o TF-IDF (Term Frequency Times Inverse Document Frequency) Objetivo:
Beneficiar termos que ocorrem bastante no documento e em poucos documentos
Atribui ao termo t uma importância no documento d que é: Alta se t ocorrer muitas vezes em um número
pequeno de documentos Menor se t ocorrer poucas vezes no documento OU
muitas vezes na coleção Muito baixa se t ocorrer em quase todos os
documentos
Conceitos• Poderação de Termos (continuação)
o TF-IDF (Term Frequency Times Inverse Document Frequency)
TF: freqt,d = número de ocorrências do termo t no documento.
maxt = número de ocorrência do termo mais frequente em d.
(Isso para não beneficiar documentos longos)
IDF: N = número de documentos na coleção
nt = número de ocorrências do termo t na coleção
TF IDF
TF-IDFExemplo
Termo (t): bestFreq. de t no Doc1: 14Freq. de t na coleção: 14+0+17=31Freq. do termo que mais ocorre no Doc1: 27 (car)Nº docs na coleção: 3
Wt,doc1 = (14/27) * log2 3/31 = -1,75
Centróides
• Um centróide representa uma classe
• É a média dos pesos dos vários termos presentes nos documentos de uma mesma classe do conjunto de treinamento.
)9,4,3(1d
)7,2,1(4d
)0,15,20(2d
)2,20,22(3d
Classe A
Classe B
Classe B
Classe A
Centróides
Centróides
)9,4,3(1d
)7,2,1(4d
)0,15,20(2d
)2,20,22(3d
Classe A
Classe B
Classe B
Classe A
)8,3,2()2
79,
2
24,
2
13(
C A
– Calculando o centróide da classe A
)9,4,3(1d
)7,2,1(4d
)0,16,20(2d
)2,20,22(3d
Classe A
Classe B
Classe B
Classe A
)1,18,21()2
20,
2
2016,
2
2220(
CB
Centróides – Calculando o centróide da classe B
Cosine Function - Idéia• Documentos que estão próximos no espaço vetorial tem conteúdo similar
• Similaridade computada usando o co-seno do ângulo entre os documentos
• O comprimento dos valores não é levado em consideração, apenas suas direções.
• Consultas e centróides são considerados pseudo-documentos.
Cosine Function - Idéia
bnbbanaa
bnanbaba
BA
BABAsim
222222
2121
)()22()11(
||||)cos(),(
Cosine Function - Cálculo
Cosine Function - Cálculo
bnbbanaa
bnanbaba
BA
BABAsim
222222
2121
)()22()11(
||||)cos(),(
),,,(,,2,1 wwwd djndjdjj
),,,(,,2,1 wwwc cknckckk
• O vetor de um documento j é definido por:
• O vetor de um centróide k é definido por:
Cosine Function - Cálculo
bnbbanaa
bnanbaba
BA
BABAsim
222222
2121
)()22()11(
||||)cos(),(
)8,5,2(1d )8,1,4(
1c
89,0*
)8*8()1*5()4*2(),(
81485222222211
cdsim
Modelo proposto• Centroid-Based Document Classifier
Baseado no modelo espaço-vetorial, que parte da premissa de que o significado de um documento pode ser representado pelos termos presentes nele.
O modelo representa documentos como um vetor de termos (1) onde o termo no vetor é um valor não-negativo denotando a não ocorrência, ocorrência única ou múltipla de um termo i em um documento d.
ntf tftftfd ,...,, 21 (1)
Tendo um conjunto S de documentos e sua representação na forma de vetores, são utilizadas as funções Cosine e de definição dos centróides.
FuncionamentoPassos necessários: Treinamento: - Cálculo do TF-IDF; - Cálculo dos centróides;
Novos documentos: - Cálculo do TF-IDF; - Similaridade entre o novo documento e todos os centróides
gerados no treinamento, usando Cosine Function.
FuncionamentoExemplo didático!
- 4 documentos de treino;
- 1 novo documento;
- 2 classes
Experimentos- Comparativo entre outros algoritmos classificadores
17 de 23 documentos classificados corretamente
- Foram usados 80% dos documentos para treino e 20% como conjunto de teste.
Comparativo
Centroid-based X Naive Bayes
-Melhor que o classificador Naive Bayes pela forma como é computada a similaridade entre um documento teste e uma classe.
-Naive Bayes usa a regra Bayes, assumindo que quando condicionado em cada classe, a ocorrência de diferentes termos é independente. Porém, na realidade isso não acontece freqüentemente.
-Dependência entre termos pode ser vista pela freqüência com que aparecem juntos em documentos da mesma classe.
Considerações FinaisVANTAGENS - Algoritmo com complexidade linear e melhores resultados que o Naive Bayes (que é um dos melhores).
- A essência do algoritmo está na sua forma de calcular a similaridade entre um documento de teste e o centróide da classe.
- É levada em conta a similaridade, freqüência e dependência entre os termos presentes no documento com os documentos da classe.
DESVANTAGEM - O algoritmo determina que um documento só pode pertencer a uma classe específica.