Content-based Clustering for Tag Cloud Visualization

Content-based Clustering for Tag Cloud VisualizationASONAM 2009

Arkaitz ZubiagaAlberto P. Garcıa-Plaza

Vıctor FresnoRaquel Martınez

NLP & IR Group @ UNED

July 21st, 2009

Introduction

Index

1 Introduction

2 Dataset Generation

3 Our Method

4 Results

5 Conclusions

6 Future Work

NLP Group (UNED) Content-based Tag Clustering July 21st, 2009 2 / 25

Introduction

Simple Tagging


Introduction

Collaborative Tagging


Introduction

Tag Cloud

No organization.

No relations between tags.


Introduction

Our Work

Find relations between tags to organize them:

To ease visualization and search.To ease subscribing to a group of related tags.

Previous works rely on tag co-occurrence to find relations.

What about considering web documents’ content?


Dataset Generation

Index

1 Introduction


3 Our Method

4 Results

5 Conclusions

6 Future Work


Dataset Generation

Dataset Generation

Starting point: 140 most popular tags on Delicious (T140, tag cloud).

Tag monitoring: ∼6.000 documents/tag (∼840.000 docs., html andpdf).

Data retrieval:

Tag data for each document.Document content.

Filtering: English-written documents with tag data available.

Result: 144.574 documents (unbalanced).


Our Method

Index

1 Introduction


3 Our Method

4 Results

5 Conclusions

6 Future Work


Our Method

Representation

Most relevant tags for each document: at least, 40,7% of the top tag

Merge documents pertaining to each T140 tag.

Stopwords removal.

Stemming.

TF-IDF representation (reducing by DF).

1 vector/tag.


Our Method

Clustering (SOM)


Our Method

Clustering Settings

12x12 sized map: 144 neurons.

vectors with 17.518 dimensions.

Learning rate: 0,1.

Neighborhood: 12.

Iterations: 50.000.


Our Method

Terminology Extraction

Merge all the documents in each neuron.

Terminology extraction for each neuron.

Representative for the neuron, but not for the rest.Language models (KLD, Kullback-Leibler Divergence).

Result: Representative terms for each neuron.


Results

Index

1 Introduction


3 Our Method

4 Results

5 Conclusions

6 Future Work


Results

Results

Full map available at: http://nlp.uned.es/social-tagging/


Results

Results: Computer Science


Results

Results: Design


Results

Results: Cooking


Results

Results: Coherence


Results

Results: Terminology


Conclusions

Index

1 Introduction


3 Our Method

4 Results

5 Conclusions

6 Future Work


Conclusions

Conclusions

We analyzed tag clustering and terminology extraction relying ondocuments’ content.

We collected the DeliciousT140 dataset.

Unlike previous works, we considered documents’ content.

The resulting map shows encouraging results, exhibiting the potentialof collaborative tagging systems.

It could allow community discovery.

It eases tag cloud visualization, as well as improving navigation andsubscribing.


Future Work

Index

1 Introduction


3 Our Method

4 Results

5 Conclusions

6 Future Work


Future Work

Future Work

To compare our content-based approach to those based on tagco-occurrence.

To make a quantitative evaluation

To semantically analyze tags (polysemy, synonimy,...).

To extend the work to multilingual tag sets.


Future Work

Thank You for Your Attention

Achiu Arigato Danke Dhannvaad Dua Netjer en ek EfcharistoGracias Gracies Gratia Grazie Guishepeli Hvala Kiitos

Koszonom Merce Merci Mila esker Obrigado ShukranShukriya Tack Tak Takk Tanan Tapadh leat Tesekkur ederim Thank

you Toda


Content-based Clustering for Tag Cloud Visualization

Technology

contentbased clustering

t140 tag

tag cooccurrence

tag monitoring

contentbased approach

tag merge documents

tag data available

multilingual tag sets