Personnalisation de l’information : une approche de gestion de profils et de reformulation de requêtes Soutenance de thèse de Doctorat Dimitre Kostadinov UNIVERSITE DE VERSAILLES SAINT-QUENTIN-EN-YVELINES Versailles, le 19 Décembre 2007 ACCES PERSONNALISE A DES MASSES DE DONNEES
57
Embed
Soutenance de thèse de Doctorat Dimitre Kostadinov
ACCES PERSONNALISE A DES MASSES DE DONNEES. UNIVERSITE DE VERSAILLES SAINT-QUENTIN-EN-YVELINES. Personnalisation de l ’ information : une approche de gestion de profils et de reformulation de requêtes. Soutenance de thèse de Doctorat Dimitre Kostadinov. Versailles, le 19 Décembre 2007. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Personnalisation de l’information : une approche de gestion de profils et de
reformulation de requêtes
Soutenance de thèse de Doctorat
Dimitre Kostadinov
UNIVERSITE DE VERSAILLESSAINT-QUENTIN-EN-YVELINES
Versailles, le 19 Décembre 2007
ACCES PERSONNALISE A DES MASSES DE DONNEES
Dimitre Kostadinov19/12/2007 2
Système d’Accès aux Données
Accès classique à un système d’information multi sources
Accès à un ensemble de sources de données distribuées, hétérogènes et autonomes
Comment résoudre le problème de la surcharge
d’information ?Est-ce que les données
sont récentes ?Est- ce je peux lire les
fichiers avec mon ordinateur ?SELECT *
FROM Publication WHERE sujet = ‘JAVA’
Dimitre Kostadinov19/12/2007 3
Système d’Accès aux Données
Accès personnalisé à un système d’information multi sources
Accès à un ensemble de sources de données distribuées, hétérogènes et autonomes
SELECT * FROM Publication WHERE sujet = ‘JAVA’
JAVA: langage de programmationFraîcheur < 1 moisFormats fichiers {PDF, PS}
Dimitre Kostadinov19/12/2007 4
Cadre du travail: Projet APMD Objectifs du projet APMD (2004-2007)
– modélisation et évolution des profils, – exécution adaptative de requêtes,– influence de la qualité sur la personnalisation,– évaluation et la validation des approches proposées dans le projet.
Définition des sources – vues sur le schéma virtuel (LAV)
Problèmes terminologiques résolus
Dimitre Kostadinov19/12/2007 23
Problématique
Reformulation des requêtes utilisant le profil– quelle partie du profil est pertinente à ajouter à une requête ?
• métrique de couverture
– quelle partie du schéma virtuel est nécessaire pour couvrir le profil sélectionné ?• recherche d’un sous-ensemble de relations virtuelles et des chemins de
jointures les reliant
– quelles sources de données sont les plus appropriées pour la réécriture des requêtes ?• matching des attributs, identification de prédicats conflictuels, redondants
Définition de benchmarks d’évaluation– à la compilation– à l’exécution
Dimitre Kostadinov19/12/2007 24
Insuffisance des techniques de base
Réécriture (Halevy et al. 96), (Duschka et al. 97), (Halevy et al. 01), …– prend en compte l’aspect multi source (réécriture à travers des vues)– mais ne tient pas compte du profil utilisateur
Enrichissement (Koutrika et al. 04, 05)– prend en compte le profil utilisateur (ajout de prédicats dans la
requête)– mais ne tient pas compte des mappings multi sources
(pas de réécriture)
Les 2 techniques sont complémentaires
Dimitre Kostadinov19/12/2007 25
Enrichissement
Pu Qu
RéécritureQ’u
{Schémas Sources}
{Q’’u}
SchémaVirtuel
Première approche : composition des techniques de base
Enrichissement-réécriture R(E)
Réécriture-enrichissement E(R)
Enrichissement
PuQu
Réécriture{Q’u}
{Q’’u}
{Schémas Sources}
Dimitre Kostadinov19/12/2007 26
Limites des approches séquentielles
Approche R(E) Approche E(R)Avantages + prend en compte tous les
prédicats du profil non conflictuels avec ceux de la requête
+ tient compte des définitions des sources pour la sélection des prédicats du profil utilise uniquement des prédicats pertinents
Inconvénients - peut utiliser des prédicats qui a) ne peuvent pas être réécrits b) sont déjà satisfaits pas l’ensemble des définitions des sources
- impossibilité d’exprimer certains prédicats du profil sur les sources choisies
Dimitre Kostadinov19/12/2007 27
Deuxième approche : réécriture de requêtes guidée par le profil
Idées directrices– confronter le profil utilisateur et le schéma virtuel
• sous ensemble de prédicats• sous-schéma virtuel
– sélectionner les relations virtuelles sur la base de préférence (taux de prédicats pertinents)
• étendre la requête avec les relations choisies
– faire une réécriture personnalisée• ne produire que les réécritures enrichissables
Dimitre Kostadinov19/12/2007 28
Principe général
Expansion de la requête
profil utilisateur
requêteutilisateur
Schéma Virtuel
Enrichissementfinal
sources pertinentes
réécritures
Schémas des sources de données
requête utilisateurreformulée
requêteétendue
Identification dessources pertinentes
Combinaison dessources pertinentes
Dimitre Kostadinov19/12/2007 29
Etape 1: Expansion de la requête
Principe généralProfil Schéma virtuel
R1
R3
R2
R4
R6
R5
Qu
Match
R1
R3
R2
R4
R4
R3
R2
OrdonnancementAjout à QQ’u
Dimitre Kostadinov19/12/2007 30
Problématique de l’expansion de la requête
Identification des relations sémantiquement liées à la requête
Recherche des chemins de jointure entre la requête et les relations virtuelles
Choix des chemins de jointure
Minimisation du nombre de nouvelles relations
Dimitre Kostadinov19/12/2007 31
Principe d’expansion1. Actualisation des poids des prédicats2. Choix des relations virtuelles3. Ajout des relations virtuelles à la requête
Dimitre Kostadinov19/12/2007 32
Principe d’expansion1. Actualisation des poids des prédicats
– Prise en compte de la distance entre les relations de la requête et les autres relations virtuelles
• Fonction de la distance entre la requête et la relation sur laquelle est exprimé le prédicat
2. Choix des relations virtuelles3. Ajout des relations virtuelles à la requête
€
nw( p,Qu ,Sv ) = λEJRp w( p)
Hypothèse : = 0.8
R3.a=‘x’ 0.5
nw = 0.820.5 = 0.32
0.32R5
R6R7
R8
R1 R2
R3
R4
Qu
Dimitre Kostadinov19/12/2007 33
Principe d’expansion1. Actualisation des poids des prédicats2. Choix des relations virtuelles
– somme des pertinences des relations choisies > (seuil de la portée pertinente)– pertinence d’une relation = couverture pondérée du profil utilisateur par les prédicats exprimés sur la relation
3. Ajout des relations virtuelles à la requête
R5
R6R7
R8
5%
32%
40%
20%
R1 R2
R3
R4
3%
€
rel(Pu,Qu,R j )j
∑ > μ
Objectif : Satisfaire au moins 90% du profil utilisateur ( = 0.9)
Principe d’expansion1. Actualisation des poids des prédicats2. Choix des relations virtuelles3. Ajout des relations virtuelles à la requête
– Minimiser le nombre de nouvelles relations (Steiner Tree Problem (Hwang et al. 1992))– Utiliser une heuristique (Minimum Cost Paths Heuristic (Takahashi et al. 1980))
R5
R6R7
R8
5%
32%
40%
20%
R1 R2
R3
R4
3%
Qu
Dimitre Kostadinov19/12/2007 35
Etape 2: identification des sources pertinentes
Expansion de la requête
profil utilisateur
requêteutilisateur
Schéma Virtuel
Enrichissementfinal
sources pertinentes
réécritures
Schémas des sources de données
requête utilisateurreformulée
requêteétendue
Identification dessources pertinentes
Combination dessources pertinentes
Dimitre Kostadinov19/12/2007 36
Objectif
Trouver les sources permettant de calculer les résultats de la requête– sources contributives pour la réécriture de la requête
Choisir les sources les plus pertinentes– enrichissables par les prédicats du profil utilisateur
Dimitre Kostadinov19/12/2007 37
Problèmes à résoudre
Trouver les sources contributives– contenant des données de même nature que celles
recherchées par la requête– satisfaisant les prédicats de la requête
• Sélections• Jointures
Elagage des sources non pertinentes – introduction d’une métrique de pénalité
Dimitre Kostadinov19/12/2007 38
Principe de l’identification des sources pertinentes
Recherche des sources contributives pour la réécriture de la requête
• construction d’un ensemble de descripteurs de sources (MCDs)
(type MiniCon Halevy et al. 2001)
Filtrage des sources– pénalité d’une source (MCD) > seuil de pénalité
• Couverture pondérée du profil par les prédicats exclus par la source
Contributions– Modélisation de l’utilisateur (définition de la notion de profil)– Exploitation du profil dans la reformulation de requêtes
Evaluations
Conclusions et perspectives
Dimitre Kostadinov19/12/2007 47
Evaluation des approches de reformulation de requêtes
Proposition d’un benchmark– Construction d’une plateforme de données (Peralta 2007)– Dérivation d’un benchmark à partir de la plateforme
Définition de métriques d’évaluation– Niveau compilation des requêtes– Niveau exécution des requêtes
Dimitre Kostadinov19/12/2007 48
Plateforme des tests Principe de construction
Caractéristiques
Données IMDb
Données MovieLens
Extraction
Extraction
Nettoyage etréconciliation
des données BDintégrée
Génération derequêtes et de profils
ProfilsRequêtes
Bons résultats
Schéma cible
Nombre de tables dans la BD intégrée 52
Nombre de films 3 881
Nombre d’évaluations de films 1 000 194
Nombre d’utilisateurs 6 040
Nombre de requêtes générées 6 041
Nombre de profils générés 120 800
+ référentiel de résultats pertinents pour chaque couple (profil, requête)
Dimitre Kostadinov19/12/2007 49
Etapes de construction du benchmark
Caractéristiques
Benchmark des tests
Simulationdu
système distribué
Choix des requêtes et des profils
Choix des paramètres
ProfilsRequêtes
Bons résultats
BDintégrée
Schéma cible
Schéma virtuel
Requêtes de médiation
Sources
Profils etRequêtesretenus
Schéma virtuel 49 relations
Sources 52 dont 23 contiennent des prédicats de sélection
Échantillon de requêtes 13 requêtes
Échantillon de profils 15 profils
Valeur du seuil de pénalité De 0 à 0.5 pour portée pertinente = 0.5
Valeur de la portée pertinente De 0.1 à 0.7 pour seuil de pénalité = 0.3
Système distribué
Dimitre Kostadinov19/12/2007 50
Métriques d’évaluation
Niveau compilation– Couverture des prédicats du profil
• Couverture pondérée
– Temps de réponse de la reformulation
Niveau exécution– Rappel
• nombre de résultats pertinents obtenus / nombre total de résultats pertinents
– Précision• nombre de résultats pertinents obtenus / nombre total de résultats
obtenus
Dimitre Kostadinov19/12/2007 51
Profils 6 prédicats ; requêtes 5 relations
0%
10%
20%
30%
40%
50%
60%
70%
0.1 0.2 0.3 0.4 0.5 0.6 0.7
seuil de la portée pertinente
couverture du profil
R/P R(E) E(R)
Profils 6 predicats ; requêtes 3 relations
0
2
4
6
8
10
12
0.1 0.2 0.3 0.4 0.5 0.6 0.7
seuil de la portée pertinente
temps de réponse en sec.
R/P R(E) E(R)
Temps de reformulation d'une requête
0
10
20
30
40
50
60
70
80
1 2 3 4 5 6 7 8 9
nombre de relations dans la requête à réécrire
temps de réponse en sec.
Résultats des tests au niveau compilation
Couverture du profil utilisateur
Temps de réponse
Profils 6 prédicats ; requêtes 3 relations
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
0.1 0.2 0.3 0.4 0.5 0.6 0.7
relevant scope
couverture du profil
R/P R(E) E(R)
R/P
R(E)
E(R)
Dimitre Kostadinov19/12/2007 52
Intervalle de Rappel en % R/P R(E) E(R)
[50, 60) 2,3%
[60, 70) 10,4%
[70, 80) 11,6% 0,4%
[80, 90) 56,8% 0,4%
[90, 100) 8,5% 52,5% 5,0%
100 10,4% 46,7% 95,0%
Gain de précision par rapport à MiniCon R/P R(E) E(R)
[8, 10) 2,3%
[6, 8) 7,3%
[4, 6) 11,2%
[2, 4) 25,1%
[0, 2) 22,8% 29,0% 6,9%
0 0,8% 34,0% 88,0%
(0,-2] 20,8% 37,1% 5,0%
(-2, -4] 7,3%
(-4, -6] 2,3%
Résultats des tests au niveau exécution
Rappel
PrécisionApproche Pourcentage de
cas où elle a obtenu la meilleure précision
R/P 69,5 %
R(E) 21,2 %
E(R) 19,3 %
MiniCon 19,7 %
Dimitre Kostadinov19/12/2007 53
Position par rapport aux travaux similaires
Enrichissement de requêtes (Koutrika et al. 04, 05)– calcul de préférences implicites (expansion)– travail au niveau des prédicats– pas de distribution de l’information
Réécriture de requêtes – algorithme MiniCon (Halevy et al. 01)
• recherche de toutes les réécritures candidates possibles• pas d’expansion de la requête • pas de prise en compte du profil utilisateur
– choix des sources à base de critères de qualité (Naumann et al. 98)• filtrage de sources à base de facteurs de qualité• pas d’expansion de la requête
– calcul des top K chemins de navigation entre sources (Vidal et al. 06)• chaque source est assimilée à un concept• PB : trouver un chemin d’une source à une autre
Dimitre Kostadinov19/12/2007 54
Plan
Contexte
Contributions– Modélisation de l’utilisateur (définition de la notion de profil)– Exploitation du profil dans la reformulation de requêtes
Evaluations
Conclusions et perspectives
Dimitre Kostadinov19/12/2007 55
Conclusion
Modélisation des connaissances décrivant l’utilisateur– Méta modèles de profil, contexte et préférences– Gestionnaire des méta modèles
Exploitation du profil utilisateur pour la reformulation de requêtes– Définition et analyse de deux approches séquentielles– Algorithme de réécriture guidé par le profil utilisateur
Evaluation des approches de reformulation de requêtes– Niveau compilation– Niveau exécution
Dimitre Kostadinov19/12/2007 56
Perspectives
Calcul d’autres résultats que ceux de la requête initiale– Relâcher les prédicats de la requête initiale
Faire un enrichissement au niveau des sources– sources multi relations
Prise en compte d’autres dimensions du profil– choix des sources en fonction de la qualité
Prise en compte d’autres types de préférences– Préférences sous forme d’ordres partiels