Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

IntroductionWiki

Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis

History flowConclusionReferences

Extraction de motifs frequentsApplication a l’analyse de la redaction collaborative sur les Wikis

Uwatowenimana Jeanne d’Arc

Cours IFT6261 : Traitement des connaissancesProfesseur : Aımeur Esma

DIRO, Universite de Montreal, Montreal (Qc), Canada

10 avril 2006

Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 1 / 53

IntroductionWiki



1 Introduction

2 Wiki

3 Extraction de motifs frequents

4 Motifs de redaction collaborative sur les Wikis

5 History flow

6 Conclusion

7 References


IntroductionWiki



E-gouvernanceWikiProblematique & objectif

1 IntroductionE-gouvernanceWikiProblematique & objectif

2 Wiki



5 History flow

6 Conclusion

7 References


IntroductionWiki




E-gouvernance

Definition

E-governance est l’utilisation par le secteur public des technologies del’information et de la communication dans le but d’ameliorer la fournitured’information et de service, d’encourager la participation du citoyen auprocessus de decision et de rendre le gouvernement plus responsable,transparent et efficace.

UNESCO, 10/03/06

Secteur public : la population.

Utilisation des technologies de l’information et de la communication.

Fourniture d’information et de service.

Participation du citoyen a la prise de decision.


IntroductionWiki




Wiki

Definition

Un wiki est un site web dont la principale caracteristique est de permettre a

ses utilisateurs d’ editer de facon simple et rapide n’importe laquelle de sespages.

Tout-Savoir.Net, 10/03/06

Terme hawaiien «wiki wiki» qui signifie «vite».

Nouvelle technologie : introduite par Ward Cunningham en 1995.

Impersonnel : les interventions sur les wikis sont anonymes.

Collectif : le resultat appartient a toute la communaute.


IntroductionWiki




Wiki : application de la e-gouvernance

Communaute virtuelle : 1.078.636 utilisateurs enregistres sur Wikipediaen anglais et 83.759 pour Wikipedia en francais. Wikipedia, 10/03/06

Site Web accessible par n’importe qui grace a un navigateur.

Experts qui partagent leurs connaissances.

Chaque personne peut participer a la decision (edition des pages,discussion sur le contenu, etc.).


IntroductionWiki




Problematique & objectif

Collaboration propre aux wikis

Analyser les mecanismes de collaboration que les wikis mettent adisposition et les principes de gouvernance qui regissent cette collaboration.

Les techniques utilisees par la communaute autour des Wikis pour :

Faire face au comportement antisocial.

Faire face aux differends entre utilisateurs.

Determiner ce qui est correct sur une page de ce qui ne l’est pas.

Arriver a un consensus.

Objectif principal

Faciliter l’adaptation des wikis dans les entreprises. Accessibilite en lecturepar tout le monde 6= l’echec.


IntroductionWiki



HistoriqueCaracteristiquesHistorique WikiAvantages et inconvenients

1 Introduction

2 WikiHistoriqueCaracteristiquesHistorique WikiAvantages et inconvenients



5 History flow

6 Conclusion

7 References


IntroductionWiki




Historique des wikis

23 mars 1995 : WikiWikiWeb, premiere implementation d’un siteWeb Wiki pour recueillir des « patterns » en programmation parWard Cunningham. Wikipedia, 10/03/06

Des 2000 : Utilisation des wikis dans plusieurs domaines (eninformatique : clubic, medical : Wikihealth, droit : Jurispedia, etc.),developpement des «engins» Wikis (Mediawiki, SocialText, jotspot,etc.). LesWikis, 10/03/06

15 janvier 2001 : debut du projet Wikipedia, encyclopedie libre,gratuite, universelle, multilingue (214 langues) et ecritecollaborativement sur Internet par Jimmy Wales et Larry Sanger.Wikipedia, 10/03/06


IntroductionWiki




Caracteristiques d’une page

Page «Universite de Montreal» de wikipedia


IntroductionWiki




Historique wiki

Deux typesHistorique de l’article.Historique de la discussion (sur l’article).

Differentes versions de l’article (de la page de discussion).

Possibilite de faire une comparaison entre deux versions.

Caracteristiques d’une version : la date et l’heure, l’auteur (alias ouadresse IP), les commentaires de l’auteur.

Contribution d’un utilisateur

La difference entre deux versions de l’article (de la discussion) successives.Ajout d’une nouvelle idee, suppression, reformulation, etc.


IntroductionWiki




Historique wiki - Exemple

Historique de la page «Intelligence artificielle» de wikipedia


IntroductionWiki




Avantages et inconvenients

Avantages :

Communaute (planetaire) ⇒ l’exactitude de l’information. BBC news,

Wikipedia vs Britanica, 15 decembre 2005.

Facilite d’utilisation (edition simple et rapide). Desilets et al., Octobre 2005

Outil gratuit

Inconvenients :

Anonymat ⇒ vandalisme (effacer tout le contenu d’un article, ajouterdes termes hors sujet, etc.)

Quantite d’information importante (difficulte de controle, le maintientde cohesion, etc.). Quelques scandales (John Seigenthaler, Adam Curry,Jimmy Wales, etc.) CNET News.com., decembre 2005.

Centralisation de l’information.


IntroductionWiki



Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application

1 Introduction

2 Wiki

3 Extraction de motifs frequentsFouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application


5 History flow

6 Conclusion

7 ReferencesUwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 14 / 53

IntroductionWiki




Fouille de donnees (Datamining)

Definition

Fouille de donnees est le processus non trivial d’extraction deconnaissances implicites, precedemment inconnues et potentiellementutiles a partir de donnees.

Frawley et al. 1992

AI magazine

Sous forme : de regles, de modeles, de regularites, de concepts, etc.

Techniques : clustering, classification, regles d’association , etc.


IntroductionWiki




Regles d’association - Introduction

Introduit par Agrawal et al. en 1993. Agrawal et al., 1993

Motivation : l’analyse de bases de donnees de transactions de vente.

Analyse du panier de la menagere


IntroductionWiki




Regles d’association - Definitions

Item un element xi de I = {x1, x2, ..., xn}exemple : x1=lait, x2=sucre, x3=pain, x4=cereale

Itemset ensemble X ⊆ I , k-itemset un itemset de k itemsexemple : {lait, sucre, pain}, c’est un 3-itemset

Base de transactions D = {(tid ,Xt)/tid ∈ T ,Xt ∈ I }

Support(X)= |{(t,Xt )∈D/X⊆Xt}||D|

Itemset frequent : X ∈ I est frequent ssi Support(X ) ≥ γ,ou γ seuil de support minimum


IntroductionWiki




Regles d’association - Fonctionnement

Deux phases :

1 Trouver les itemsets frequents : FF = {X ⊆ I /Support(X ) ≥ γ}avec γ seuil de support minimum

2 Trouver les regles solides : R

R =nr : A→ C , Support(A∪C)

Support(A)≥ ϕ

oavec ϕ seuil de confiance minimum


IntroductionWiki




Regles d’association - Exemple

Calcul de regles d’associationSource : Ansaf Salleb, Recherche de motifs frequents : Applications aux donnees geographiques, juin

2004


IntroductionWiki




La phase d’extraction des motifs frequents

Deux approches :

1 Basee sur l’algorithme Aprioriou niveau par niveau.

2 Basee sur la structure Pattern Growth

Evolution dans la modelisation des donnees :

Bases de donnees transactionnelles : Itemsets

arbres, graphes, treillis


IntroductionWiki




Algorithme Apriori

Algorithme iteratif de recherche des itemsets frequents par niveaux. Pourchaque k-iteration :

1 Generation d’un ensemble d’itemsets candidats de taille k.

2 Scan de la base de transactions pour supprimer les candidats nonfrequents.

L’ensemble des k-itemsets frequents generes est utilise a l’iteration k + 1pour generer les candidats de taille k + 1.

Principe

Si un itemset de longueur k est non frequent alors tous ses sur-ensembles(super-set) le sont egalement.

R. Agrawal and R. Srinkat, 1994


IntroductionWiki




Algorithme Apriori - Exemple

Base de transactions et le treillis correspondantNicolas THIERRY-MIEG


IntroductionWiki




Principe d’extraction de sous-graphes frequents

Donnees :D : une base de graphes de transactions.t : un graphe d’une transaction contenu dans D .gk : un k-sous-graphe, un sous-graphe avec k arcs.C k : un ensemble de k-sous-graphes candidats.F k : un ensemble de k-sous-graphes frequents.cl

`gk

´: un canonical label d’un k-sous-graphes gk . Un code unique

identifiant un sous-graphe.

Problematique :Trouver tous les sous-graphes connectes frequents, etant donne unevaleur minsupport donnee.

Principes :Graphes non-diriges et annotes (code unique par graphe).Generation des sous-graphes candidats par extension, d’un arc (d’unnoeud) a la fois, des sous-graphes frequents trouves a l’iterationprecedente.

M.Kuramochi et al., 2001


IntroductionWiki




Algorithmes d’extraction de sous-graphes frequents

Difference sur la facon de construire les graphes

AGM (An apriori-based algorithm for mining frequent substructuresfrom graph data) propose par A. Inokuchi, T. Washio, and H.Motodaen 2000. Extension des sous-graphes par l’ajout d’un noeud.

FSG (Frequent Subgraphs) propose par M. Kuramochi et G. Karypisen 2002. Tester pour des ensembles larges de transactions sous formesde graphes (100.000). Extention des sous-graphes par l’ajout d’unearrete.

Computing frequent graph patterns from semistructured data. Proposepar N. Vanetik, E. Gudes et S.E. Shimony en 2002.

Mining Frequent Labeled and Partially Labeled Graph Patterns,propose le 26 fevrier 2004 par N. Vanetik et E. Gudes.


IntroductionWiki




Avantages et inconvenients

Avantages :

Bonne performance par la reduction iterative des itemsets candidats.

Facile a comprendre.

Inconvenients :

Nombre d’itemsets (sous graphes) possibles peut-etre tres grand (ex :

pour n = 100 on a 2100 − 1 ≈ 1030 itemsets possibles ! ! !).

Nombre de parcours de la base de transactions egal a la taille du plus

long itemset frequent trouve. D’ordre n dans le pire des cas.Operations couteuses d’entrees-sorties sur des bases de donneesvolumineuses residant sur le disque.

Nombre d’itemsets candidats pour chaque iteration considerable.Temps de calcul important (dans le cas ou le minsupport est tres petit).

Beaucoup d’itemsets frequents ⇒ des regles redondantes.


IntroductionWiki




Ameliorations

Apriori-TID Amelioration du temps de calcul du support desitemsets candidats.

Partition Reduction du nombre de parcours de la base de donnees adeux parcours.

DIC Reduction du nombre de parcours de la base de donnees enpartitionnant la base de donnees en blocs de M transactions.

Sampling Approche par echantillonage.

Eclat

Representation condensee des transactions ⇒ Approche basee surFP-Growth


IntroductionWiki




Approche basee sur FP-Growth - Introduction

Methode FP-growth (Frequent Pattern growth)

Introduction d’une structure condensee de la base des transactions.

Eviter les parcours repetes dans la base de donnees.

Extraction des motifs (itemsets ou sous-graphes) frequents sansgeneration de candidats.

Generation d’un ensemble des itemsets frequents fermes a partir

desquels il est possible de deduire tous les itemsets frequents.

Connexion de Galois :φ ensemble des elements de I communs aux objets de B (D).ϕ ensemble des objets de B (D) contenant tous les items de I .Operateur de fermeture : γ = φ ◦ ϕ ou φ ◦ ϕ (i) =φ (ϕ (i)) pour i ⊆ I .Un itemset i ⊆ I est ferme si γ (i) = i . Si aucun autre item n’estcommun a l’ensemble des transactions de B (D) qui contiennent cetitemset.

Nicolas THIERRY-MIEG


IntroductionWiki




Exemple

Treillis d’ensembles fermes relatif a un ensemble de transactionsNicolas THIERRY-MIEG


IntroductionWiki




Quelques algorithmes

Extraction d’itemsets frequents :

ClosetCloset+CHARM

Extraction de sous-graphes frequents :gSpan (Graph-Based Substructure Pattern Mining) propose par X. Yanet J. Han. en 2002. Extension des sous-graphes par l’ajout d’un noeud.CloseGraph (Closed Graph pattern mining) Propose par X. Yan et J.Han en 2003. Amelioration de gSpan.CloseCut : Mining Closed Relational Graphs with ConnectivityConstraints. Propose par X. Yan, X. J. Zhou et J. Han.


IntroductionWiki




Quelques domaines d’application

Marketing

Aide au diagnostic medical

Telecommunication

Analyse de donnees spatiales

Telephonie

...

Ansaf Salleb, Recherche de motifs frequents : Applications aux donnees geographiques, juin

2004


IntroductionWiki



Historique wikiCollaboration sur les wikisMotifs de collaborationDifferentes etapes

1 Introduction

2 Wiki


4 Motifs de redaction collaborative sur les WikisHistorique wikiCollaboration sur les wikisMotifs de collaborationDifferentes etapes

5 History flow

6 Conclusion

7 References


IntroductionWiki




Historique wiki d’un article

Source : Wikipedia


IntroductionWiki




Exemple d’ajout de donnees

Source : Wikipedia


IntroductionWiki




Exemple de suppression de donnees

Source : Wikipedia


IntroductionWiki




Motif frequent de collaboration

Definition

Une intervention ou un enchaınement d’interventions frequent.

Exemples :

Ajout (utilisateur 1) − > Suppression (utilisateur 2) − > Ajout(utilisateur 1).

Suppression de tout le texte => Vandalisme.

...


IntroductionWiki




Etape 1 : Observation de la collaboration (1/3)

Wikipedia : les versions des articles sont disponibles et exportables sousformat xml.


IntroductionWiki




Etape 2 : Modelisation de la collaboration (2/3)

Un echantillon d’articles interessants 7−→ un graphe pour chaque article.


IntroductionWiki




Etape 3 : Extraction des motifs frequents (3/3)

Une base de motifs frequents propres a la collaboration sur les wikis.Uwatowenimana Jeanne d’Arc Motifs frequents propres aux Wikis 38 / 53

IntroductionWiki



IntroductionFonctionnementExemples de motifs

1 Introduction

2 Wiki



5 History flowIntroductionFonctionnementExemples de motifs

6 Conclusion

7 References


IntroductionWiki




History flow - Introduction

Outil de visualisation des versions d’un fichier (en l’occurence lesversions d’un article sur les wikis).

Implemente par IBM en collaboration avec une etudiante de MIT (en2004).

Exemples de motifs :Vandalisme (acte malveillant, pour le simple plaisir de detruire lapropriete des autres ) vs. Correction (corriger des degats causes par lesvandales).Anonymat vs. Utilisateur connu (Certains articles sont principalementedites par des utilisateurs enregistres et d’autres par les utilisateursinconnus).Stabilite (ou la persistance) du contenu.


IntroductionWiki




Fonctionnement (1/3)

Source : http ://researchweb.watson.ibm.com/history/explanation.htm


IntroductionWiki







IntroductionWiki







IntroductionWiki




Vandalisme vs. Correction



IntroductionWiki




Anonymat vs. Utilisateur connu (1/2)

Les couleurs gris et blanc representent la contribution des utilisateurs anonymesSource : http ://researchweb.watson.ibm.com/history/explanation.htm


IntroductionWiki




Anonymat vs. Utilisateur connu (2/2)

Les couleurs gris et blanc representent la contribution des utilisateurs anonymesSource : http ://researchweb.watson.ibm.com/history/explanation.htm


IntroductionWiki




Stabilite (ou la persistance) du contenu



IntroductionWiki



1 Introduction

2 Wiki



5 History flow

6 Conclusion

7 References


IntroductionWiki



Conclusion, persectives

1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).

2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.


IntroductionWiki







IntroductionWiki







IntroductionWiki







IntroductionWiki







IntroductionWiki







IntroductionWiki







IntroductionWiki







IntroductionWiki



Livres - PapiersSites Web - Blogs - Wikis

1 Introduction

2 Wiki



5 History flow

6 Conclusion

7 ReferencesLivres - PapiersSites Web - Blogs - Wikis


IntroductionWiki




Livres et papiers

R. Agrawal, T. Imielinski, and A. N. Swami. Mining association rules between sets ofitems in large databases. Proc. of the ACM SIGMOD’93, p. 207-216, 1993.

R. Agrawal and R. Srikant. Fast algorithms for mining association rules. In VLDB’94, p.487-499, September 1994.

M. Cohen and E. Gudes. Diagonally subgraphs pattern mining. Proc. of the 9th ACMSIGMOD Workshop on Research issues in Data Mining and Knowledge Discovery, 2004.

A. Desilets, S. Paquet, N. G. Vinson. Are wikis usable ?. In Proc. of the 2005 internationalsymposium on Wikis WikiSym’05. Octobre 2005.

W. J. Frawley, G. Piatetsky-Shapiro and C. J. Matheus. Knowledge discovery indatabases : an overview. AI Magazine, vol.13, p.57-70, 1992.

J. Han and M. Kamber. Data Mining : Concepts and Techniques. Morgan Kaufmann, 2001.

J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. InSIGMOD’00.

A. Inokuchi, T. Washio, and H. Motoda. An apriori-based algorithm for mining frequentsubstructures from raph data. Proc. of the 4th European Conference on Principles of DataMining and Knowledge Discovery (PKDD’00), p. 1323, 2000.

M. Kuramochi and G. Karypis. Frequent subgraph discovery. In Proc. InternationalConference on Data Mining’01.

B. Leuf and W. Cunningham. The Wiki Way : Quick Collaboration on the Web. Boston :Addison-Wesley, 2001.


IntroductionWiki




Livres et papiers (2)

M. Kuramochi and G. Karypis. Discovering frequent geometric subgraphs. In ICDT’99.

J. Pei, J. Han, and R. Mao. CLOSET : An efficient algorithm for mining frequent closeditemsets. In DMKD’00, Mai 2000.

A. Salleb. Recherche de motifs frequents pour l’extraction de regles d’association et decaracterisation. 1 decembre 2003.

A. Salleb. Recherche de motifs frequents - Applications aux donnees geographiques. 8juin 2004.

J. Wang, J. Han, and J. Pei. CLOSET+ : Searching for the best strategies for miningfrequent closed itemsets. In Proceedings of the 9th ACM SIGKDD International Conferenceon Knowledge discovery and data mining, Aout 2003.

F. B. Viegas, M. Wattenberg, and K. Dave. Studying cooperation and conflict betweenauthors with history flow visualizations. CHI 2004, p.575-582.

X. Yan and J. Han. gspan : Graph-based substructure pattern mining. Proc. of the 2002IEEE International Conference on Data Mining (ICDM’02), page 721, 2002.

X. Yan and J. Han. Closegraph : Mining closed frequent graph patterns. Proc. of the 9thInternational Conference on Knowledge Discovery and Data Mining (KDD’03), pages286295, 2003.

M. J. Zaki and C. J. Hsiao. CHARM : An efficient algorithm for closed itemset mining.In SDM’02.


IntroductionWiki




Sites Web - Blogs - Wikis

BBC NEWS. Wikipedia survives research test.http ://news.bbc.co.uk/2/hi/technology/4530930.stm. Article consulte le 15 fevrier 2006.

Daniel Terdiman CNET News.com. Wikipedia’s open-source label conudrum.http ://news.com.com/Wikipedias+open-source+label+conundrum/2100-1038 3-5988267.html. Article consulte le 15 fevrier2006.

M. Davis - BBC NEWS. Congress made Wikipedia changes.http ://news.bbc.co.uk/2/hi/technology/4695376.stm . Article consulte le 15 fevrier 2006.

Clubic. http ://www.clubic.com/

Gouvernance. Gilles Paquet. http ://www.gouvernance.ca/

History Flow. http ://researchweb.watson.ibm.com/history/index.htm/

History Flow. IBM. http ://www.alphaworks.ibm.com/tech/historyflow/

JotSpot. http ://www.jot.com/

LesWikis. www.leswikis.com/

SocialText. http ://www.socialtext.com/

Tout-Savoir.Net (wiki-definition).http ://www.tout-savoir.net/lexique.php ?code=8128&rub=definition

UNESCO (e-gouvernance). http ://portal.unesco.org/ci/fr/ev.php-URL ID=3038&URL DO=DO TOPIC&URL SECTION=201.html

WikiWikiWeb. http ://c2.com/cgi/wiki/

Wikipedia. http ://www.wikipedia.org/


Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.

Documents