RANKING
Présenté par : IBRAHIM Sirine
TANIOS Dany
Présenté à : Prof. CHBEIR Richard
1
12/27/2013
Plan2/46
Introduction au Ranking
Les modèles de Ranking
Vector space model
PageRank
Language Model For IR
HITS
Conclusion
12/27/2013
Ranking – Conception Globale
Lorsque l'utilisateur donne une requête, une
comparaison de mots est fait pour obtenir les
documents les plus pertinents à la requête. Les
documents pertinents sont ensuite classés en fonction
de leur degré de pertinence, importance..
C’est le Ranking
3/46
12/27/2013
Pourquoi le Ranking ?
Avec le grand nombre de pages web qui existent
aujourd'hui, les moteurs de recherche prennent un rôle
important dans l'Internet actuel.
Mais même si elles permettent de trouver des pages
pertinentes pour un sujet de recherche, de nos jours, le
nombre de résultats renvoyés est souvent trop grand
pour être exploré avec soin.
4/46
12/27/2013
Le rôle de Ranking
Le rôle des algorithmes de classement est donc de:
sélectionnez les pages qui sont probablement en mesure de
satisfaire les besoins de l'utilisateur, et de les amener dans
les premières positions.
5/46
12/27/2013
Moteur de recherche
Le moteur de recherche est un simple outil pour nous6/46
12/27/2013
Le contenu réel des moteurs 7/46
12/27/2013
Les modèles de Ranking8/46
12/27/2013
Les modèles de Ranking9/46
12/27/2013
Vector Space Model
Vector Space Model a été largement utilisé dans le
domaine IR traditionnelle
La plupart des moteurs de recherche utilisent également
des mesures de similarité basées sur ce modèle pour
classer les documents sur le Web
Chaque terme , i, dans un document ou une requête, j,
possède un poids de valeur réelle, Wij.
Le modèle crée un espace dans lequel les documents
et les requêtes sont représentés par des vecteurs
10/46
12/27/2013
Vector space model11/46
12/27/2013
Vector space model
Les poids associés aux termes sont calculés sur la base
de deux numéros:
En terme de fréquence fij: le nombre d’occurrence
du terme yj dans le document xi
Document de fréquence inverse: gj=log(N/dj)
avec N est le nombre de documents total et dj est le
nombre de documents contenant le terme yj
12/46
12/27/2013
Vector space model
TF-IDF [ Term Frequency – Inverst document Frequency ]
méthode pour calculer les poids
wij = tfij idfi = tfij log2 (N/ dfi)
Avec tfij=fij / max(fij )
Exemple:
Considérant un document contenant les termes de fréquences données
A(3), B(2), C(1)
Supposons une collection contenant 10 000 documents etfréquences des documents pour ces termes sont les suivants:
A:50, B:1300, C:250
Donc :
A: tf = 3/3 et idf = log2(10000/50) = 7.6 => TF-IDF = 7.6
B: tf = 2/3 et idf = log2 (10000/1300) = 2.9 => TF-IDF = 2.0
C: tf = 1/3 et idf = log2 (10000/250) = 5.3 => TF-IDF = 1.8
13/46
12/27/2013
Mesure de similarité
Une mesure de similarité est une fonction qui
calcule le degré de similarité entre deux
vecteurs
L'utilisation d'une mesure de similarité entre la
requête et chaque document:
Permet de classer les documents trouvés dans
l'ordre de pertinence présumée
But de Ranking
14/46
12/27/2013
Mesure de similarité
Similarité entre les vecteurs pour un document di et la
requête q peut être calculé comme le produit intérieur vecteur
Mesure combien de termes sont identifiés mais pas
combien de termes qui ne le sont pas
15/46
12/27/2013
Mesure de Similarité
Exemple: D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 +
1T3
Q = 0T1 + 0T2 + 2T3
=> sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10
=> sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2
16/46
12/27/2013
Mesure de Similarité Cosinus
MSC mesure le cosinus de l'angle entre les deux vecteurs
D1 = 2T1 + 3T2 + 5T3 CosSim(D1 , Q) = 10 / (4+9+25)(0+0+4) = 0.81
D2 = 3T1 + 7T2 + 1T3 CosSim(D2 , Q) = 2 / (9+49+1)(0+0+4) = 0.13
Q = 0T1 + 0T2 + 2T3
17/46
12/27/2013
Les modèles de Ranking18/46
12/27/2013
PageRank
PageRank est un algorithme d'analyse des liens qui attribue une pondération numérique à chaque page Web, dans le but de «mesurer» l'importance relative.
Une excellente façon de hiérarchiser les résultats des recherches par mot clé web
Chaque lien pointant d’une page à une autre est considéré comme un vote pour cette page
Le PageRank d'une page A est donnée comme suit :
PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) )
19/46
12/27/2013
PageRank
les PageRanks forment un indicateur d’importance pour
évaluer les pages Web
PageRank est également affiché sur la barre d'outils de votre
navigateur si vous avez installé la barre d'outils Google
(http://toolbar.google.com/)
20/46
12/27/2013
PageRank
Chaque page comporte un certain nombre de
outlinks (outedges) et backlinks (inedges)
B
C
D
E
A
• B et C sont les backlinks de A
• D et E sont les outlinks de A
21/46
12/27/2013
PageRank
Deux cas du PageRank sont intéressants:
1) PageRank des Pages Web varient
considérablement en termes de nombre de
backlinks qu'ils ont.
Par exemple, la page d'accueil de Netscape a 62 804
backlinks par rapport à la plupart des pages qui ont
juste un peu de backlinks.
22/46
12/27/2013
PageRank
2) Backlinks provenant des pages importantes
véhiculent plus d'importance à une page.
Par exemple, si une page web a un lien de la page
d'accueil de Yahoo, il peut être juste un lien, mais il est
très important
23/46
12/27/2013
PageRank
Conclusion de deux cas du PageRank:
Une page peut avoir un PageRank élevé:
si il ya beaucoup de pages qui pointent vers elle
Ou
si il y a peu de pages qui pointent vers elle mais
qui ont un PageRank élevé
24/46
12/27/2013
Exemple 2 PageRank
A B
Nous ne connaissons pas le PR des deux pages, donc il nous faut une
valeur de départ : 1.0 par exemple
PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) )
PR(A) = 0.15 + 0.85 * ( 1 /1 ) = 1
PR(B) = 0.15 + 0.85 * ( 1 / 1 ) = 1
les valeurs ne changent pas...
Prenons une valeur de départ différente : 0
25/46
12/27/2013
Exemple PageRank
Première itération
PR(A) = 0.15 + 0.85 * 0 = 0.15
PR(B) = 0.15 + 0.85 * 0.15 = 0.2775
Deuxième itération PR(A) = 0.15 + 0.85 * 0.2775 = 0.385875
PR(B) = 0.15 + 0.85 * 0.385875 = 0.47799375
Troisième itération PR(A) = 0.15 + 0.85 * 0.47799375 = 0.5562946875
PR(B) = 0.15 + 0.85 * 0.5562946875 = 0.622850484375
...
26/46
12/27/2013
Exemple PageRank
prenons une valeur 2.0 pour redémarrer notre
expérience.
PR(A) = 0.15 + 0.85 * 2 = 1.85
PR(B) = 0.15 + 0.85 * 1.85 = 1.7225
cela baisse, essayons une fois de plus :
PR(A) = 0.15 + 0.85 * 1.7225 = 1.614125
PR(B) = 0.15 + 0.85 * 1.614125 = 1.52200625
Nos valeurs continuent à converger vers 1
27/46
12/27/2013
Les modèles de Ranking28/46
12/27/2013
Language Model For IR
L'approche du Langage Model For IR : un
document est un bon match pour une requête si
le modèle de document est susceptible de
générer la requête, qui à son tour se produit si
le document contient les mots de la requête
29/46
12/27/2013
Query likelihood Model
P (d | q):
La probabilité qu'un utilisateur interrogeant
une requête q, aura le document d à l'esprit
=> P (d | q) = P (q | d) P (d) / P (q)
P (q) - même pour tous les documents =>
ignoré
P (d) - souvent considérée comme uniforme
dans les documents => ignoré
=>Classement par P (q | d)
30/46
12/27/2013
Query likelihood Model
P (q | d) : la probabilité qu'une requête Q soit générer par un modèle de langage provenant de documents d
Algorithme:
1. Déduire un LM pour chaque document.
2. Estimation de P (Q/Mdi) , la probabilité de génération de la requête en fonction de chacun de ces modèles de document.
3. Classez les documents selon ces probabilités
31/46
12/27/2013
Query likelihood Model32/46
12/27/2013
Query likelihood Model
Exemple
:
33/46
12/27/2013
Ranking Models34/46
12/27/2013
Fondateur
Hypertext Induced Topic Search (HITS) ou
Hubs and Authorities est un algorithme
d’analyse de lien développé par Jon Kleinberg
en 1998 pour prioriser les pages web
35/46
12/27/2013
Concept de l’algorithme
Hits est un algorithme de recherche par
requête qui priorise les pages web en
récupérant tous les in links et les out links
tout en se basant sur l’analyse du contenu
textuel de la requête donnée
36/46
12/27/2013
HITS
Quand un utilisateur fait entrer une requête,
HITS procède comme le suivant:
Récupère la liste des pages relatives retournées
par le moteur de recherche
Classifier les pages récupérées en 2 types de
Ranking :
authority ranking et hub ranking
37/46
12/27/2013
Hubs et Authorities
A est une authority A est une hub
• Une page web est nommée Authority si elle est pointée par plusieurs
hyperlink
• Une page web est nommée Hub si elle pointe sur plusieurs hyperlink
38/46
12/27/2013
Hubs et Authorities
Authority : des pages qui contiennent des
informations importantes ciblées pour le sujet
L’Authority contient notre données cibles
Hub: des pages qui contiennent des liens vers
des authorities
Le hub est une page intermédiaire qui nous aide à
trouver notre données cibles
39/46
12/27/2013
Le score d’Authority
Le score d’une page Authority est la somme des
scores de toutes les pages qui pointent vers elle
Sc(B
)
Sc(
C)Sc(
D)
Sc(A)= Sc(B)+ Sc(C)+ Sc(D)
Le score Authority estime l’importance que apporte le contenu de cette
page
40/46
12/27/2013
Le score du Hub
Le score d’une page Hub est la somme des
scores de toutes les pages qu’elle pointe sur
Sc(A)= Sc(B)+ Sc(C)+ Sc(D)
Sc(B
)Sc(
C)
Sc(
D)
Le score hub estime l’importance des liens qu’elle pointe
sur
41/46
12/27/2013
Affichage
Après avoir calculer les scores des hubs et authorities, le navigateur affiche les pages web comme suit:
1. Les pages Authority par ordre décroissant de score, qui contiennent les données visées
2. Les pages Hub par ordre décroissant de score, qui contiennent les informations qui m’ont aidé à attendre mon sujet cible
42/46
12/27/2013
Conclusion
12/27/2013
43/46
Les algorithmes de Ranking facilitent la vie
des utilisateurs de web en évitant que ces
derniers se perdent dans des milliers et des
milliers de pages web non classées
Références
12/11/2013
44/46
Alessio Signorini. "A Survey of Ranking Algorithms". Tiré de http://homepage.divms.uiowa.edu/~asignori/phd/report/a-survey-of-ranking-algorithms.pdf. (2005)
Ian Rogers. "The Google Pagerank Algorithm and How It Works". Tiré de http://www.sirgroane.net/google-page-rank/
"Lecture #3: PageRank Algorithm - The Mathematics of Google Search". Tiré de http://www.math.cornell.edu/~mec/Winter2009/RalucaRemus/Lecture3/lecture3.html
MERCI
45/46
12/27/2013
Question ?
46/46
12/27/2013