This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Motifs : time interval sequences P=<b0, &1, b1, &2, …, , &m, bm>, bi : E={Events}, &2 : TI
Inclusion: P est contenu dans S s’il existe un mapping ordonné 1 < j1 < … < jm entre les indices de P et ceux de S tel que b1=aj1, b2=aj2, … bm=ajm tji-tji-1 in Ii-1 pour 1 < i < m
Support : nombre de séquences de DB contenant le motif
32
Chen, Chiang, Ko 2003
Algorithmes : – IApriori : extension de GSP
Génération de candidats : jointure de motifs de longueur k-1 + association de tous les délais possibles (ensemble TI) pour former un motif de longueur k
Modification de l’arbre des candidats prenant en compte les délais
– IPrefixSpan :
Définitions de projection, préfixe, suffixe
Tenir compte du délai entre un événement fréquent de S|α et le préfixe α
Combinatoire augmentée
Évaluations – Comparaison avec GSP et PrefixSpan
– Datasets synthétiques
– GSP < Iapriori < PrefixSpan ≈ IPrefixSpan
33
Hirate, Yamana 2006
Generalized sequential pattern mining with item intervals (Journal of computers)
But : pouvoir exprimer des contraintes sur les délais entre événements lors du processus de fouille
Motivation : pouvoir distinguer entre A <1jour B et A <1an B
Contributions: – Deux mesures de délais : nombre d’items (séquences
génomiques), intervalle de temps (séquences temporelles)
– Séquences étendues par insertion de pseudo items (basés sur une fonction de discrétisation des intervalles) représentant les délais
– Quatre types de contraintes item-intervalle
34
Hirate, Yamana 2006
Séquences : interval extended sequence S=<(t1,1, X1), (t1,2, X2), …, (t1,m, Xm)> ti,j est l’intervalle (temporel ou indiciel) entre les items Xi et Xj
Interval itemization function : permet de changer la granularité temporelle. Utilisée par test d’occurrence et test de sous-séquence : S1=<(t1,1, X1), (t1,2, X2), …, (t1,m, Xm)> est incluse dans S1=<(t’1,1, X’1), (t’1,2, X’2), …, (t’1,m, X’m) , …, (t’1,n, X’n)> ssi Xi ⊆ X’i et I(t1,i)=I(t1,j)
Contraintes sur les intervalles (délais) : – min_interval (anti-mon), max_interval, (anti-mon)
Motifs : modèles de chronique chronique : (C ⊂ A , T), T={ai [tij-, tij+] aj | (ai ,aj) ∈ CxC}
Instance de chronique : ensemble d’événements d’une séquence satisfaisant toutes les contraintes temporelles de la chronique
Sous-chronique : C’ est une sous-chronique de C si de toute instance de C’ on peut extraire une instance de C
Fréquence d’une chronique : nombre d’instances de la chronique reconnues dans la séquence
Chronique fréquente : de fréquence supérieure à un seuil de fréquence minimal
Anti-monotonie : une chronique est fréquente si toutes ses sous-chroniques sont fréquentes
38
Dousson, Duong 1999
Algorithme de type Apriori : extraction par niveau d’itemsets fréquents avec répétition puis intégration de contraintes temporelles – Génération de candidats sans contrainte :
Ck = Ck-1 U {C1}
Test de fréquence minimale des sous-chroniques (sans contraintes)
– Génération des chroniques avec contrainte Encadrement des délais observés pour les instances de chronique de taille 2
Propagation des contraintes pour obtenir le graphe temporel complet minimal
– Calcul de la fréquence par CRS puis élagage
39
Dousson, Duong 1999
Évaluation – Données réseau télécommunications : motifs de
propagation d’alarmes Log de 2900 evts de 36 types différents (20h)
Log ATM, 1 mois, 3800 types d’evts
– Pas de comparaison avec d’autres approches
40
Cram, Cordier, Mille 2009
An interactive algorithm for the complete discovery of chronicles. Rapport LIRIS.
But : extraction interactive de motifs temporels
Motivations : – Améliorer les méthodes d’extraction souvent incomplètes car pas
de connaissances sur la pertinence des informations : intégrer l’utilisateur dans la boucle d’extraction de connaissances
– Extraire des chroniques présentant des ensembles d’événements identiques mais des ensembles de contraintes différents
Contributions : – Hiérarchie de contraintes temporelles
– Génération de candidats par 2 types d’opération : adjonction d’événement et raffinement de contrainte
41
Cram, Cordier, Mille 2009
Base de contraintes : à chaque couple d’événements est associé un graphe acyclique orienté définissant une hiérarchie de contraintes
Opérateurs pour la génération de candidats : – add_ε : ajoute un événement de type ε à une chronique
– str_εiεj : remplace une contrainte temporelle par une contrainte directement plus stricte (successeur dans la base de contraintes)
42
Cram, Cordier, Mille 2009
Algorithme HDA de type Apriori (FACE)
43
Cram, Cordier, Mille 2009
Élaboration de la base de contraintes – Rechercher les occurrences fréquentes de couples
d’événements et extraire les délais
– Extraire les contraintes en déplaçant des fenêtres de de plus en plus grandes sur la liste des délais triés
– [ -1, 1, 3, 5 ]
Évaluation – Complexité importante (exponentielle en théorie)
– S’adresse à de petites base de séquences
44
Kam, Fu 2000
Discovering temporal patterns for interval-based events (DAWAK 2000)
But : prendre en compte des événements à base d’intervalles, les utiliser pour contraindre la fouille de motifs temporels
Motivations : événements ponctuels ne permettent pas la représentation de relations temporelles telles que overlaps, begins, during, …
Contributions: – Motifs avec relations temporelles sur intervalles
– Algorithme adapté à la recherche de tels motifs
45
Kam, Fu 2000
Séquence : S=<(a0, ts0, te0), (a1, ts1, te1), …, (an, tsn, ten)> ordonnée par les dates de fin (!!!)
Relations entre intervalles temporels – Exprimés par relations d’Allen reconstruites à partir des relations
sur les bornes des intervalles
46
Kam, Fu 2000
Motif temporel – Un type d’événement seul est un motif temporel atomique
– si X et Y sont des motifs temporels alors (X rel Y) est un motif temporel composite (rel : relation d’Allen)
– Représentation par relations temporelles n-aires Représentation ambigüe
Ex.
(((a overlaps b) before c) overlaps d) ((a overlaps b) before (c during d))
Inclusion d’un motif temporel
Contraintes : max_whole_pattern
Support : % de séquences contenant le motif
a
b
d
c
47
Kam, Fu 2000
Algorithme : adaptation d’Apriori – Format vertical de la base de séquences
– Génération de candidats à partir de Lk-1 et L1 + relations temporelles
– Calcul du support et élagage
Évaluation – Dataset synthétique
– Étude des performances en variant Support
Taille de la fenêtre max
Nb de séquences
Nb d’événements par séquence
Pas de comparaison avec d’autres méthodes
48
Chen, Wu 2006 - Wu, Chen 2007
Mining temporal patterns from sequence database of interval-based events (FSKD)
Mining non-ambiguous temporal patterns for interval-based events (IEEE trans. on knowledge and data engin.)
But : étendre les algorithmes de fouille de motifs séquentiels aux événements à base d’intervalles
Motivations : pallier les défauts des représentations à base de points
Contributions: – Transformation d’une séquence d’événements à base
d’intervalles en une séquence d’événements à base de points à partir des bornes des intervalles (évite l’utilisation des relations d’Allen) + contrainte de co-occurrence des deux bornes d’un même intervalle dans un motif
Inclusion : – Opérateur small : calcule la relation temporelle entre deux points (application de
la transitivité)
rel(a+, b-) = small((<,<,=,<)) = <
P = (p1 1 p2 … r-1 pr) est contenue dans TS = (s1 ✪1 s2 … ✪n-1 sn) s’il existe un mapping ordonné w des indices de P dans ceux de TS tel que
pi = sw(i) et i = small((✪w(i), …✪w(i+1)-1))
si l’une des bornes de l’intervalle est incluse l’autre l’est aussi
Support : % de séquences contenant le motif
51
Chen, Wu 2006 - Wu, Chen 2007
Algorithmes : – T-Apriori (basé sur GSP)
Candidats : c={pattern, {positions}}
Génération de k-candidats : jointure de (k-1)-motifs ayant le même (k-2)-préfixe + jointure de leurs positions
Test support : parcours des ensembles de positions
– T-PrefixSpan (basé sur PrefixSpan;-) Adaptation de l’opération de projection : préfixes, suffixes
Génération de candidats plus complexe : projection jusqu’à la dernière borne inférieure du motif base de la projection (préfixe), insertion de la borne supérieure dans le suffixe des séquences projetées
52
Chen, Wu 2006 - Wu, Chen 2007
Évaluation – Pas d’évaluation de T-Apriori ! (Chen, Wu 2006)
– T-PrefixSpan Datasets synthétiques
Dataset réel : données boursières
Évaluation des motifs extraits par mesure de leur capacité de prédiction
Comparaison avec PrefixSpan :
– Moins performant que PrefixSpan en temps d’exécution – Qualité des résultats meilleure pour T-PrefixSpan
53
Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09
Discovering frequent arrangement of temporal intervals (IEEE ICDM)
Mining frequent arrangements of temporal intervals (Knowledge and Information Systems)
But : découverte d’arrangements d’intervalles temporels fréquents
Motivations : – Événements instantanés souvent insuffisants
Traduction en événements ponctuels introduit une combinatoire supplémentaire
Perte de la relation liant début et fin d’intervalle
Post-traitement nécessaire pour revenir aux intervalles
– Nombreuses applications
Contributions: – Définition formelle du problème et utilisation des relations d’Allen
– Contraintes : fouille de motifs et extraction de règles
– Deux algorithmes efficaces (levelwise) + un algorithme (aka PrefixSpan)
– Relation n-aire (n>2) : conjonction de relations binaires pour lever les ambiguïtés
– Événements instantanés modélisés par intervalles à bornes égales
56
Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09
Relations temporelles :
57
Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09
Arrangement (motif) : A={E, R}, E ensemble de k événements, R ensemble des relations temporelles d’Allen entre tout couple d’événements de E : R={r(ei,ej)|r ∈ Rel, i<j≤k}
Inclusion : l’arrangement A={E, R} est inclus dans la séquence S si tous les événements de A sont dans S et satisfont les relations de R
Support : nombre de séquences contenant le motif
Règles d’association séquentielle : Ai ⇒λ,Rij Aj ; Ai, Aj arrangements, Rij relation temporelle entre les événements (intervalles) de Ai et ceux de Aj
λ mesure d’intérêt : confiance, lift, etc.
Contraintes temporelles : – Gap : entre intervalles liés par relation follow
– Overlap : pourcentage de chevauchement
– Contain : pourcentage d’inclusion
– Durée : max-whole
58
Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09
Algorithmes : – BFS basé sur SPADE : levelwise, BD en format vertical
– H-DFS basé sur SPADE : parcours des deux premiers niveaux en largeur d’abord, parcours des autres en profondeur d’abord
– Basé sur PrefixSpan mais en s’appuyant sur les intervalles (au contraire de Wu et Chen)
59
The Arrangement Enumeration Tree
Let
LEVEL 3
LEVEL 2
LEVEL 1
Intermediate
Intermediate
60
Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09
Algorithme BFS : – Basé sur SPADE : levelwise, BD en format vertical
Génération des niveaux 1 et 2
Élagage supplémentaire initial : recherche des paires d’événements apparaissant dans minsup transactions au moins
Génération des candidats (arrangements) au niveau k : jointure niveau k-1 et niveau 1
Génération des nœuds intermédiaires au niveau k (relations temporelles)
IdLists en format bitmap pour accélérer le calcul du support (opérations booléennes)
Vérification de la satisfaction des contraintes (anti-monotones) en même temps que vérification du support minimal
61
Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09
Algorithme DFS : – Basé sur algo de Tsoukatos et Gunopoulos 2001
Génération des candidats (arrangements) en suivant une stratégie profondeur d’abord
Ajoute tous les sous-arrangements d’un arrangement fréquent à liste des arrangements fréquents
Avantage : atteint les arrangements fréquents maximaux rapidement
Inconvénient : nombreux scans de la base de données
Algorithme Hybrid DFS (H-DFS) : – BFS pour deux premiers niveaux
– DFS ensuite
62
Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09
Algorithme Prefix-Based : – Définitions de préfixe, suffixe et opération de projection
– ATTENTION : il faut effectuer les projections selon TOUTES les occurrences d’un préfixe (pas seulement la projection selon la première)
– Augmente fortement la combinatoire
63
Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09
Évaluation – Datasets synthétiques et réels (american sign language,
données réseau)
– Comparaison des trois algos avec SPAM (exécuté sur débuts et fins d’intervalles + post-processing pour construire les arrangements)
– Résultats
BFS meilleur que SPAM pour de grandes BD et des supports faibles
Hybrid-DFS meilleur que SPAM et BFS
Pour des faibles supports Hybrid-DFS est deux fois plus rapide que BFS
Dans tous les cas l’algorithme Prefix-based est le plus mauvais
64
Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09
Données ASL Données réseau
65
Patel, Hsu, Lee 2008
Mining relationships among interval-based events for classification (SIGMOD’08)
But : fouille de relations temporelles complexes sur des événements à base d’intervalles
Motivations : – Insuffisance de la simple notion de succession
– Nécessité de représenter des événements qui durent (intervalles)
Contributions: – Représentation « sans perte » de relations temporelles n-aires (n
> 2)
– Algorithme de fouille d’intervalles : IEMiner
– Classifieur utilisant des motifs temporels à base d’intervalles
Liste d’événements : – Ensemble d’événements où chaque événement a une relation
temporelle (Allen) avec tous les autres
Motif : – Événement simple : (a1, t1s, t1e)
– Événement composite : E = (E1 R E2) avec E.start = min{E1.start, E2.start}, E.end= max{E1.end, E2.end}
Support : – BD : séquences issues d’un découpage d’une séquence unique en
fenêtres de taille fixe
– Support : nombre de séquences incluant le motif
67
Patel, Hsu, Lee 2008
Motif : représentation canonique « sans perte » – Canonique : événements ordonnés par instants de début, puis
par instants de fin, puis par ordre alphabétique (représentation incomplète)
– Sans perte : structure [c,f,m,o,s] associant à la relation temporelle le nombre d’inclusion (c), de fins communes (f), de liaisons (m), de chevauchements (o), de débuts communs (s)
(A over[0,0,0,1,0] B) over[0,0,0,1,0] C) (A over[0,0,0,1,0] B) over[0,0,0,2,0] C) (A over[0,0,0,1,0] B) over[0,0,1,1,0] C)
68
Patel, Hsu, Lee 2008
Algorithme IEMiner – Type Apriori
– Génération des k-candidats à partir d’un (k-1)-motif fréquent et d’un 2-motif dont le premier événement est identique à l’événement dominant (ayant la date de fin la plus tardive) du (k-1)-motif
– Mise à jour de la liste des 2-motifs pouvant participer à la génération de candidats au niveau k+1 : doivent apparaître dans au moins k-1 k-motifs
– Calcul du support : un scan unique basé sur la notion d’événements actifs et passif
– Optimisation : liste noire des séquences contenant moins de k événements : scan inutile
Le nombre de séquences où le préfixe d’un (k-1)-motif participant à la génération de candidats de niveau k apparaît deux fois au moins doit être supérieur à minsup
69
Patel, Hsu, Lee 2008
Génération de candidats
70
Patel, Hsu, Lee 2008
Évaluations : – Comparaison des performances de IEMiner,
TPrefixSpan, H-DFS et GenPrefixSpan (PrefixSpan + contraintes gap) qui n’utilise que la relation before
– α= (Vα, <α, gα, dα) : Vα ensemble de nœuds, <α ordre partiel sur Vα, gα: Vα➝ ε donne le type d’un nœud, dα: Vα➝ 2I donne la durée d’un nœud
Si <α total : épisode série généralisé
Si <α vide : épisode parallèle généralisé
Inclusion d’un épisode généralisé α dans une séquence S – Il existe un mapping hα : Vα➝ {1, …, n} tel que pour tout v, w ∈Vα
Ehα(v)=gα(v) (même type)
La durée de hα(v) ∈ b, l’une des durées spécifiées par dα
Si v précède w dans le motif V alors leurs événements appariés sont dans le même ordre dans la séquence
74
Laxman, Sastry, Unnikrishnan 2007
Sous-épisodes :
– un épisode β est un sous-épisode de α, β≤ α, s’il existe un mapping ordonné, tel que le type des événements correspondants sont identiques et la durée des événements de β contient les durées des événements correspondants de α
– Soit β≤ α. Si α inclus dans S alors β inclus dans S
Support :
– Nombre de fenêtres glissantes contenant le motif
– Nombre d’occurrences minimales
– Occurrences non chevauchantes
– Occurrences non entrelacées b'1 b'3 b'2
b1 b3 b2
b'1 b'3 b'2
b1 b3 b2
75
Laxman, Sastry, Unnikrishnan 2007
Épisodes similaires : – 2 épisodes sont similaires s’ils associent le même ensemble
d’événements, ont la même fréquence, mais l’un autorise plus de durées que l’autre
Épisodes principaux (aka itemsets clos) : – un épisode est principal s’il n’y a pas d’épisode similaire
possédant moins d’intervalles de durée (pas de durée redondante)
Algorithme (occurrences non chevauchantes) : levelwise – Génération de candidats (niveau k)
Jointure de deux (k-1)-motifs ayant même (k-2)-préfixe
Vérification que tout motif obtenu en supprimant un nœud est principal
– Calcul des fréquences d’un ensemble de motifs en une passe
– Filtrage pour ne garder que les épisodes principaux
76
Laxman, Sastry, Unnikrishnan 2007
Évaluation : – Datasets synthétiques et réels (logs d’une chaîne de
montage GM)
– But : démontrer la pertinence des épisodes généralisés (introduction de durées)
– Montre la difficulté de choisir la bonne discrétisation du temps pour représenter les durées possibles
– Pas de comparaison avec autres algorithmes
77
Guyet, Quiniou 2008, 2010
Mining temporal patterns with quantitative intervals, workshop at ICDM 08
Extraction de motifs avec intervalles temporels, soumis à BDA 2010
But : extraire des motifs temporels avec délais et durées numériques
Motivations : – Discriminer motifs séquentiels
– Information temporelle importante pour la surveillance et le diagnostic
Contributions : – Approche basée sur la densité : clustering des occurrences de
motifs (sous-séquences) considérés comme des hypercubes dans un espace de dimension n=longueur du motif