Introduction Wiki Extraction de motifs fr´ equents Motifs de r´ edaction collaborative sur les Wikis History flow Conclusion R´ ef´ erences Extraction de motifs fr´ equents Application ` a l’analyse de la r´ edaction collaborative sur les Wikis Uwatowenimana Jeanne d’Arc Cours IFT6261 : Traitement des connaissances Professeur : A¨ ımeur Esma DIRO, Universit´ e de Montr´ eal, Montr´ eal (Qc), Canada 10 avril 2006 Uwatowenimana Jeanne d’Arc Motifs fr´ equents propres aux Wikis 1 / 53
60
Embed
Extraction de motifs fr´equents - Université de Montréalaimeur/cours/ift6261/Presentations...Jimmy Wales, etc.) CNET News.com., d´ecembre 2005. Centralisation de l’information.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
IntroductionWiki
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Extraction de motifs frequentsApplication a l’analyse de la redaction collaborative sur les Wikis
Uwatowenimana Jeanne d’Arc
Cours IFT6261 : Traitement des connaissancesProfesseur : Aımeur Esma
DIRO, Universite de Montreal, Montreal (Qc), Canada
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
E-gouvernanceWikiProblematique & objectif
E-gouvernance
Definition
E-governance est l’utilisation par le secteur public des technologies del’information et de la communication dans le but d’ameliorer la fournitured’information et de service, d’encourager la participation du citoyen auprocessus de decision et de rendre le gouvernement plus responsable,transparent et efficace.
UNESCO, 10/03/06
Secteur public : la population.
Utilisation des technologies de l’information et de la communication.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
HistoriqueCaracteristiquesHistorique WikiAvantages et inconvenients
Historique des wikis
23 mars 1995 : WikiWikiWeb, premiere implementation d’un siteWeb Wiki pour recueillir des « patterns » en programmation parWard Cunningham. Wikipedia, 10/03/06
Des 2000 : Utilisation des wikis dans plusieurs domaines (eninformatique : clubic, medical : Wikihealth, droit : Jurispedia, etc.),developpement des «engins» Wikis (Mediawiki, SocialText, jotspot,etc.). LesWikis, 10/03/06
15 janvier 2001 : debut du projet Wikipedia, encyclopedie libre,gratuite, universelle, multilingue (214 langues) et ecritecollaborativement sur Internet par Jimmy Wales et Larry Sanger.Wikipedia, 10/03/06
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
HistoriqueCaracteristiquesHistorique WikiAvantages et inconvenients
Avantages et inconvenients
Avantages :
Communaute (planetaire) ⇒ l’exactitude de l’information. BBC news,
Wikipedia vs Britanica, 15 decembre 2005.
Facilite d’utilisation (edition simple et rapide). Desilets et al., Octobre 2005
Outil gratuit
Inconvenients :
Anonymat ⇒ vandalisme (effacer tout le contenu d’un article, ajouterdes termes hors sujet, etc.)
Quantite d’information importante (difficulte de controle, le maintientde cohesion, etc.). Quelques scandales (John Seigenthaler, Adam Curry,Jimmy Wales, etc.) CNET News.com., decembre 2005.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application
Fouille de donnees (Datamining)
Definition
Fouille de donnees est le processus non trivial d’extraction deconnaissances implicites, precedemment inconnues et potentiellementutiles a partir de donnees.
Frawley et al. 1992
AI magazine
Sous forme : de regles, de modeles, de regularites, de concepts, etc.
Techniques : clustering, classification, regles d’association , etc.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application
Principe d’extraction de sous-graphes frequents
Donnees :D : une base de graphes de transactions.t : un graphe d’une transaction contenu dans D .gk : un k-sous-graphe, un sous-graphe avec k arcs.C k : un ensemble de k-sous-graphes candidats.F k : un ensemble de k-sous-graphes frequents.cl
`gk
´: un canonical label d’un k-sous-graphes gk . Un code unique
identifiant un sous-graphe.
Problematique :Trouver tous les sous-graphes connectes frequents, etant donne unevaleur minsupport donnee.
Principes :Graphes non-diriges et annotes (code unique par graphe).Generation des sous-graphes candidats par extension, d’un arc (d’unnoeud) a la fois, des sous-graphes frequents trouves a l’iterationprecedente.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application
Algorithmes d’extraction de sous-graphes frequents
Difference sur la facon de construire les graphes
AGM (An apriori-based algorithm for mining frequent substructuresfrom graph data) propose par A. Inokuchi, T. Washio, and H.Motodaen 2000. Extension des sous-graphes par l’ajout d’un noeud.
FSG (Frequent Subgraphs) propose par M. Kuramochi et G. Karypisen 2002. Tester pour des ensembles larges de transactions sous formesde graphes (100.000). Extention des sous-graphes par l’ajout d’unearrete.
Computing frequent graph patterns from semistructured data. Proposepar N. Vanetik, E. Gudes et S.E. Shimony en 2002.
Mining Frequent Labeled and Partially Labeled Graph Patterns,propose le 26 fevrier 2004 par N. Vanetik et E. Gudes.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application
Avantages et inconvenients
Avantages :
Bonne performance par la reduction iterative des itemsets candidats.
Facile a comprendre.
Inconvenients :
Nombre d’itemsets (sous graphes) possibles peut-etre tres grand (ex :
pour n = 100 on a 2100 − 1 ≈ 1030 itemsets possibles ! ! !).
Nombre de parcours de la base de transactions egal a la taille du plus
long itemset frequent trouve. D’ordre n dans le pire des cas.Operations couteuses d’entrees-sorties sur des bases de donneesvolumineuses residant sur le disque.
Nombre d’itemsets candidats pour chaque iteration considerable.Temps de calcul important (dans le cas ou le minsupport est tres petit).
Beaucoup d’itemsets frequents ⇒ des regles redondantes.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application
Approche basee sur FP-Growth - Introduction
Methode FP-growth (Frequent Pattern growth)
Introduction d’une structure condensee de la base des transactions.
Eviter les parcours repetes dans la base de donnees.
Extraction des motifs (itemsets ou sous-graphes) frequents sansgeneration de candidats.
Generation d’un ensemble des itemsets frequents fermes a partir
desquels il est possible de deduire tous les itemsets frequents.
Connexion de Galois :φ ensemble des elements de I communs aux objets de B (D).ϕ ensemble des objets de B (D) contenant tous les items de I .Operateur de fermeture : γ = φ ◦ ϕ ou φ ◦ ϕ (i) =φ (ϕ (i)) pour i ⊆ I .Un itemset i ⊆ I est ferme si γ (i) = i . Si aucun autre item n’estcommun a l’ensemble des transactions de B (D) qui contiennent cetitemset.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Fouille de donneesRegles d’associationApproche basee sur AprioriApproche basee sur FP-GrowthDomaines d’application
Quelques algorithmes
Extraction d’itemsets frequents :
ClosetCloset+CHARM
Extraction de sous-graphes frequents :gSpan (Graph-Based Substructure Pattern Mining) propose par X. Yanet J. Han. en 2002. Extension des sous-graphes par l’ajout d’un noeud.CloseGraph (Closed Graph pattern mining) Propose par X. Yan et J.Han en 2003. Amelioration de gSpan.CloseCut : Mining Closed Relational Graphs with ConnectivityConstraints. Propose par X. Yan, X. J. Zhou et J. Han.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
IntroductionFonctionnementExemples de motifs
History flow - Introduction
Outil de visualisation des versions d’un fichier (en l’occurence lesversions d’un article sur les wikis).
Implemente par IBM en collaboration avec une etudiante de MIT (en2004).
Exemples de motifs :Vandalisme (acte malveillant, pour le simple plaisir de detruire lapropriete des autres ) vs. Correction (corriger des degats causes par lesvandales).Anonymat vs. Utilisateur connu (Certains articles sont principalementedites par des utilisateurs enregistres et d’autres par les utilisateursinconnus).Stabilite (ou la persistance) du contenu.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Conclusion, persectives
1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).
2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Conclusion, persectives
1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).
2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Conclusion, persectives
1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).
2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Conclusion, persectives
1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).
2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Conclusion, persectives
1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).
2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Conclusion, persectives
1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).
2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Conclusion, persectives
1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).
2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Conclusion, persectives
1 Concernant les algorithmes etudiesLes algorithmes bases sur Apriori permettent de retrouver un grandnombre de motifs frequents.Les algorithmes bases sur FP-Growth optimisent l’extraction des motifsfrequents en eliminant la phase de generation de candidats et enintroduisant une structure condensee de la base des transactions (dessous-graphes).
2 Concernant l’analyse de la collaboration sur les WikisLe but est de retrouver un grand nombre de motifs et de les interpreterdans le but de fournir une meilleure comprehension de la communicationsur un outil de collaboration.La modelisation de la collaboration sous forme de graphe proposee peutetre integree dans les engins wikis pour ameliorer le stockage deshistoriques des articles utilise actuellement.Une base de motifs de collaboration peut etre utilisee pour reperer desendroits interessants dans les articles, voir meme predire lecomportement de ces derniers dans le future.Un systeme d’alertes peut etre envisage consistant a envoyer des alertesaux administrateurs des wikis lors de la detection d’un motif frequent.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Livres - PapiersSites Web - Blogs - Wikis
Livres et papiers
R. Agrawal, T. Imielinski, and A. N. Swami. Mining association rules between sets ofitems in large databases. Proc. of the ACM SIGMOD’93, p. 207-216, 1993.
R. Agrawal and R. Srikant. Fast algorithms for mining association rules. In VLDB’94, p.487-499, September 1994.
M. Cohen and E. Gudes. Diagonally subgraphs pattern mining. Proc. of the 9th ACMSIGMOD Workshop on Research issues in Data Mining and Knowledge Discovery, 2004.
A. Desilets, S. Paquet, N. G. Vinson. Are wikis usable ?. In Proc. of the 2005 internationalsymposium on Wikis WikiSym’05. Octobre 2005.
W. J. Frawley, G. Piatetsky-Shapiro and C. J. Matheus. Knowledge discovery indatabases : an overview. AI Magazine, vol.13, p.57-70, 1992.
J. Han and M. Kamber. Data Mining : Concepts and Techniques. Morgan Kaufmann, 2001.
J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. InSIGMOD’00.
A. Inokuchi, T. Washio, and H. Motoda. An apriori-based algorithm for mining frequentsubstructures from raph data. Proc. of the 4th European Conference on Principles of DataMining and Knowledge Discovery (PKDD’00), p. 1323, 2000.
M. Kuramochi and G. Karypis. Frequent subgraph discovery. In Proc. InternationalConference on Data Mining’01.
B. Leuf and W. Cunningham. The Wiki Way : Quick Collaboration on the Web. Boston :Addison-Wesley, 2001.
Extraction de motifs frequentsMotifs de redaction collaborative sur les Wikis
History flowConclusionReferences
Livres - PapiersSites Web - Blogs - Wikis
Livres et papiers (2)
M. Kuramochi and G. Karypis. Discovering frequent geometric subgraphs. In ICDT’99.
J. Pei, J. Han, and R. Mao. CLOSET : An efficient algorithm for mining frequent closeditemsets. In DMKD’00, Mai 2000.
A. Salleb. Recherche de motifs frequents pour l’extraction de regles d’association et decaracterisation. 1 decembre 2003.
A. Salleb. Recherche de motifs frequents - Applications aux donnees geographiques. 8juin 2004.
J. Wang, J. Han, and J. Pei. CLOSET+ : Searching for the best strategies for miningfrequent closed itemsets. In Proceedings of the 9th ACM SIGKDD International Conferenceon Knowledge discovery and data mining, Aout 2003.
F. B. Viegas, M. Wattenberg, and K. Dave. Studying cooperation and conflict betweenauthors with history flow visualizations. CHI 2004, p.575-582.
X. Yan and J. Han. gspan : Graph-based substructure pattern mining. Proc. of the 2002IEEE International Conference on Data Mining (ICDM’02), page 721, 2002.
X. Yan and J. Han. Closegraph : Mining closed frequent graph patterns. Proc. of the 9thInternational Conference on Knowledge Discovery and Data Mining (KDD’03), pages286295, 2003.
M. J. Zaki and C. J. Hsiao. CHARM : An efficient algorithm for closed itemset mining.In SDM’02.