Top Banner
NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil de référencement, de KM et de pertinence pour les moteurs. Philippe YONNET Webmaster-hub.com Directeur du Département internet Moteur de recherche sur la formation
39

La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

Sep 12, 2018

Download

Documents

vandieu
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 1

Nn Netmarketing 2004

La sémantique au coeur de l'internet de demain

outil de référencement, de KM et de pertinence pour les moteurs.

Philippe YONNET Webmaster-hub.com Directeur du Département internet

Moteur de recherche sur la formation

Page 2: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 2

webmaster-hub.com (Le HUB)

Une communauté de passionnés d'internet • Forum créé par Dan Hetzel en août 2003• 3600 membres, 56000 messages• Des outils, des publications, un annuaire

Le point de rencontre de nombreux experts :- en référencement et outils de recherche- en accessibilité et normes W3C- en programmation LAMP- en webmastering

Page 3: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 3

STUDYRAMA et CURSUS

Projet de moteur de recherche thématique

sur les formationsactuellement en version bêta

Page 4: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 4

La sémantique dans l'internet de demain

I : TOUR D'HORIZON

1. Quelques définitions et rappels (5)2. L'autre sémantique : le “web sémantique” (3)3. Pertinence des moteurs et apports de la sémantique (10)4. Utiliser la sémantique dans le référencement (3)5. Quelques exemples d'applications (10)

Vos questions

II : SEMANTIQUE ET LINGUISTIQUE DANS LA TECHNOLOGIE EXALEADpar François BOURDONCLE, PDG d'Exalead

Vos questions

Page 5: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 5

Définitions et rappels

SEMANTIQUELa sémantique est la science

qui étudie le "sens", la "signification"

LINGUISTIQUEAu sens large, la linguistique est l’étude du langage humain

SEMANTIQUE LINGUISTIQUELa sémantique linguistique est une "branche" de la

sémantique qui étudie en particulier le sens des mots d’une langue.

Il existe d’autres branches de la sémantique qui s’intéressent au sens des symboles par exemple.

Les faux amis : SEMIOTIQUE et SEMIOLOGIE

Page 6: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 6

Définitions et rappels

LEXIQUE et LEXEMESLes lexèmes correspondent à ce que nous appelons

"mots" dans le langage courant. L’ensemble des lexèmes forme le "lexique" d’une langue.

DICTIONNAIRESLes dictionnaires, en linguistique informatique, sont des

lexiques dans lesquels ont été ajoutés, pour chaque lexème, une "définition".

THESAURUSLe thesaurus est une forme particulière de dictionnaire, dans lequel chaque mot du lexique est associé avec ses

synonymes ou les mots ayant un sens proche. Des thesaurus plus évolués relient également les termes à

des catégories, des classifications, des thématiques.

Page 7: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 7

Définitions et rappels

TAXONOMIESLes taxonomies sont des "classifications" de termes et de concepts. Cette classification permet de regrouper des unités à classer (les "taxons") dans des catégories, de manière hiérarchique.

Il s’agit d’une forme très simplifiée d’ontologies, mais d’usage courant en linguistique pour ajouter de l’information à un lexique particulier (terminologies scientifiques ou jargons professionnel). La classification des espèces

est une taxonomie

Page 8: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 8

Définitions et rappels

ONTOLOGIESLes ontologies sont des bases de données particulières, dont la

structure permet de stocker à la fois des éléments (des termes, des entités, ou des concepts) et les relations entre ces éléments.

Ex : CIRCA utilise onze types de relations différentes entre les concepts

- synonymie (bateau/navire)/ antonymie (bien / mal)- similarité (analogie : syntagme différent, même champ sémantique, connotations différentes)- hyperonymie ("cheval" a une race "Arabe")- appartenance ("l’équipier" appartient à une "équipe")- métonymie (relation entre le tout et ses parties : la "maison" a un "toit")- substance (le "parquet" est en "bois")- production ("Microsoft Corporation" produit "Microsoft Access")- attribut ("passé" et "futur" sont des attributs de "temps")- causalité ("voyager" est la cause de "se déplacer")- succession (il faut "payer" après avoir "acheté")- liens connexes ("chien" et "collier" concepts proches mais non reliés par les autres relations)

Page 9: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 9

Modélisation UML d'une ontologie

ONTOLOGIES

Page 10: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 10

L'autre sémantique : le “Web Sémantique”

Un concept inventé par Tim Berners Lee

A la base des langages web de demain ?

Influence fortement le XHTML

Souvent décrit comme une utopie...

... mais une utopie vers lequel tout nous dirige

Page 11: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 11

L'autre sémantique : le “Web Sémantique”

Resource Description Framework (RDF)

{sujet,objet,prédicat}

La page index a pour titre BNFet pour auteur Jean Gagnon

Web Ontology Language (OWL)

Langage de description d'ontologies“dialecte” XML basé sur une syntaxe RDF

Page 12: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 12

L'autre sémantique : le “Web Sémantique”

Web Ontology Language (OWL)

Langage de description d'ontologies“dialecte” XML basé sur une syntaxe RDF

Page 13: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 13

Pertinence et apports de la sémantique

Rappel et précision

Page 14: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 14

Pertinence et apports de la sémantique

La recherche d'information bute sur des obstacles linguistiques et sémantiques

Graphie : fautes d'orthographe et de frappe

=> recherche phonétique et correcteur orthographique

Choix des stopwords : générateur d'erreurs

=> analyse syntaxique (grammaticale)

Variantes morphologiques : orthographes multiples déclinaisons (conjugaisons)

=> stemming, ou lemmatisation après analyse syntaxique

Page 15: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 15

Pertinence et apports de la sémantique

La recherche d'information bute sur des obstacles linguistiques et sémantiques

La polysémie : les mots ont plusieurs sens !

=> analyse syntaxique (grammaticale)

Les expressions composées

=> ontologies ou thesaurus travaillant sur des syntagmes. => Automate à états finis utilisant des n-grammes.

Les synonymies

=> expansion de requête, à l'aide de thésaurus et/ou d'ontologies

Page 16: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 16

Les algorithmes sémantiques et linguistiques

Trois grandes familles d'algorithmes

Modèle vectoriels

Modèles probabilistes

Plus expérimentaux Modèles logiques

Modèles basés sur l'IA et algorithmes génétiques

Page 17: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 17

Les algorithmes sémantiques et linguistiques

MODELES VECTORIELS

Repose sur les espaces vectoriels de Salton

tf : term frequencyidf : inverse document frequency

tf*idf : mesure de fréquence pondérée

Mesures de similarité utilisées :Dice, Jaccard, Cosinus, Coefficient de

recouvrement(nombreuses variantes)

Page 18: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 18

Les algorithmes sémantiques et linguistiques

MODELES PROBABILISTES

Déterminer la probabilité qu'un document soit pertinent sur une requête.

- nécessite des calculs complexes- demande de disposer d'infos importantes sur la “pertinence”- mais dans la pratique donne souvent de meilleurs résultats que le modèle vectoriel- repose sur des bases théoriques plus solides que le modèle vectoriel

Modèle utilisé par Applied Semantics (Google Adsense), combiné avec des calculs de similarité...

Page 19: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 19

Les algorithmes sémantiques et linguistiques

MODELES LOGIQUES

Un document est jugé pertinent sur une requête si son contenu sémantique “implique” logiquement celle ci.=> utilisation d'ontologies sophistiquées

MODELES UTILISANT L'INTELLIGENCE ARTIFICIELLE

programmes qu'il est possible d'”entrainer” et qui “apprenent” à résoudre les problèmes de désambiguation sémantique.

Réseaux de neurones Algorithmes bayésiens Algorithmes génétiques

Page 20: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 20

Utiliser la sémantique dans le référencement

SEMANTIQUE, LINGUISTIQUE

ET

REFERENCEMENT

Page 21: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 21

Utiliser la sémantique dans le référencement

Choisir ses mots clés avec des outils sémantiques

Les outils de suggestions de mots clés trouvent vite leurs limites-> outils “biaisés”-> outils limités (pas de résultats pour des requêtes rares)

SOLUTION

- Utiliser le moteur de recherche comme un corpus de texte- Tester les co-occurences de mots clés sur les pages de résultats pour trouver les termes voisins- Approche possible avec d'autres outils de mesures de similarité (Salton, Dice...)

Page 22: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 22

Utiliser la sémantique dans le référencement

Optimiser ses pages avec des outils sémantiques

Les outils de mesure de densité de mots clé ne servent à rien...

Le reverse engineering des moteurs* suppose plutôt des calculs de similarité, ou de co-occurrence.

SOLUTION

- aspirer les pages de ses concurrents sur les requêtes stratégiques- faire une analyse linguistique complète de leurs pages pour détecter leurs coefficients de similarité avec la requête, et comprendre pourquoi le moteur “préfère” certaines pages, toutes choses égales par ailleurs...

CETTE METHODE PERMET UN REFERENCEMENT ORGANIQUE PLUS FIN*(interdit)

Page 23: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 23

Utiliser la sémantique dans le référencement

Optimiser ses pages avec des outils sémantiques

Le “keyword stuffing” donne de mauvais résultats...

Comment “renforcer” le “poids” d'une page sur un thème donné, et augmenter ses chances de sortir sur un grand nombre de requêtes autour de la thématique ?

SOLUTION

- bâtir un corpus de textes sur la thématique en “aspirant” les pages web sur le ce thème- utiliser ce corpus pour bâtir un thésaurus de manière automatique (en s'aidant éventuellement d'une ontologie et d'outils linguistiques)- s'aider du thésaurus pour renforcer la “sémantique” de la page, ou créer un groupe de pages sur la thématique

LA GENERATION DE CONTENU AUTOMATIQUE EST POSSIBLE...

Page 24: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 24

La sémantique dans l'internet de demain

EXEMPLES

D'APPLICATION

Page 25: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 25

Exemples d'application : CLUSTERING

VIVISIMO

Le clustering est au coeur du programme Vivisimo.

Vivisimo est un métamoteur qui regroupe les résultats d'autres moteurs de recherche en “clusters”.

La version grand public de Vivisimo fonctionne grâce à une application de recherche client : “Clusty”.

http://www.vivisimo.com

Page 26: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 26

Page 27: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 27

Exemples d'application : CLUSTERING

GROKKER

Page 28: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 28

Exemples d'application : clustering (GROKKER)

GROKKER

Page 29: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 29

Exemples d'application : CLUSTERING

Mapstan (technologie SINEQUA)

Page 30: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 30

Exemples : Expansion de requête et clustering

Mooter

Requête : “jaguar”

Présentation des clusters pour affiner ou étendrela requête

Page 31: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 31

Exemples : Expansion de requête et clustering

Mooter

Requête : “jaguar”

Résultat après clic sur “car”

Page 32: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 32

Exemples : Expansion de requête et clustering

Mooter Requête : “jaguar”

Affichage des réponses

Page 33: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 33

Exemples : ontologies, taxonomies, thésaurus, clustering

TAP Ontologie et taxonomiesdéveloppées à l'Université de Stanford

Page 34: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 34

Exemples : ontologies, taxonomies, thésaurus, clustering

TAP TAP est une application exploitant le Web Sémantique

Page 35: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 35

Exemples : ontologies, taxonomies, thésaurus, clustering

TAP

TAP étendle champ d'applicationde la publicité contextuellesur des moteurs comme Google

Page 36: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 36

Exemples : ontologies et balisages sémantiques

SEMTAG Outil de balisage sémantique de Webfountain

(architecture d'OR d'IBM)

Page 37: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 37

Exemples : extractions des entités nommées

Webfountain (IBM)

Personne : Sam Palmisano-> PDG : Sam Palmisano

Noms propres

Endroits : Brussels-> Ville : Brussels (Bruxelles)Brussels (Bruxelles) est en Belgique=> Pays : BelgiqueLa belgique est en Europe=> Continent : Europe

=> Ce texte est pertinent comme réponse à la requête “PDG en Europe”

Page 38: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 38

Exemples : extractions des entités nommées

Webfountain (IBM)

Page 39: La sémantique au coeur de l'internet de demain - Forums€¦ · NM Netmarketing 2004 2/3 décembre 2004 1 Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil

NM Netmarketing 2004 2/3 décembre 2004 39

L'intervenant

Philippe YONNET

Directeur du Département Internet de STUDYRAMA

Chef de projet du moteur Cursus, le premier moteur de recherche sémantique

sur la formation.

Administrateur du forum Webmaster-Hub.com

contact : [email protected]

Retrouvez les articles de Philippe YONNET

sur la sémantique et les moteurs de recherche sur le Hub :http://www.webmaster-hub.com/publication/rubrique20.html