Top Banner
Zoekmachines weten het antwoord .. geen 10 blauwe links, maar feiten .. .. de knowledge graph en andere semantiek .. Eric Sieverts VVBAD | Gent, 25 juni 2015 @sieverts
86

Zoekmachines weten het antwoord

Aug 06, 2015

Download

Documents

Eric Sieverts
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Zoekmachines weten het antwoord

Zoekmachines weten het antwoord

.. geen 10 blauwe links, maar feiten ..

.. de knowledge graph en andere semantiek ..

Eric Sieverts

VVBAD | Gent, 25 juni 2015

@sieverts

Page 2: Zoekmachines weten het antwoord

Google geeft steeds vaker concrete antwoorden ("direct answers") op onze zoekvragen

"liever een antwoord dan 10 blauwe links"

wat krijgt u liever?

of

dit

dat

eric sieverts, juni 20152

Page 3: Zoekmachines weten het antwoord

Credits original photo:https://www.flickr.com/photos/celesteh/1660764786/direct answers

uit presentatie op "SMX West" congres (3-5 maart 2015, San Jose):

• Google geeft "direct answer" bij 20% van de zoekvragen

maar:kunnen we op die antwoorden vertrouwen?hoe komen ze aan die antwoorden?

eric sieverts, juni 20153

Page 4: Zoekmachines weten het antwoord

4

Page 5: Zoekmachines weten het antwoord

vertrouwen we op Google's antwoord? of willen we zelf antwoorden zoeken?

Page 6: Zoekmachines weten het antwoord

semantisch zoeken

het kunnen geven van concrete antwoorden hangt direct samen met de ontwikkeling van"semantische zoeksystemen"

wat moet computer daarvoor kunnen?1. begrijpen wat de zoeker bedoelt2. a) weten wat het antwoord is ("het staat klaar")

b) begrijpen wat documenten "bedoelen", zodat daaruit antwoorden kunnen worden afgeleid

3. (als "next best") in de tien blauwe links relevante context tonen

deze punten vormen de agenda voor vanmiddag

eric sieverts, juni 20156

Page 7: Zoekmachines weten het antwoord

semantisch zoeken

semantisch zoeken ≡ semantisch web

van het semantisch web zoals dat Tim Berners Lee in 2004 voor ogen stond, zijn alleen pas wat losse bouwstenen gerealiseerd, maar die helpen wel al bij "semantisch zoeken"

eric sieverts, juni 20157

semantisch zoeken

semantisch web

entiteiten

ontologieën

metadata….

Page 8: Zoekmachines weten het antwoord

8

Page 9: Zoekmachines weten het antwoord

9

Page 10: Zoekmachines weten het antwoord

10

Page 11: Zoekmachines weten het antwoord

semantisch zoeken

terug naar de 2 aspecten van semantisch zoeken

1. wat bedoelt de zoeker met zijn zoekvraag?"not strings but things"– wat is betekenis van gebruikte zoekwoorden (dubbelzinnigheden?)– wat is bedoeling/intentie van de zoeker

om concreet antwoord te kunnen geven, in plaats van lijstje met "ten blue links"

2. wat is betekenis van content in webpagina's ten behoeve van die concrete antwoorden om toch ook in de "ten blue links" relevante extra informatie te

kunnen tonen

eric sieverts, juni 201511

Page 12: Zoekmachines weten het antwoord

intentie van de zoeker

1. bepalen van bedoeling / intentie van de zoeker – uit locatie van de zoeker

– globaal: op basis van internetdomein waar gebruiker zit (ip-adres)op google.be krijg je ander antwoord dan op google.nl of google.com

– heel precies: op basis van bekende gps- of gsm-gegevens (mobiel)bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza”

>> adres van pizzeria in de buurt

– uit gebruikt apparaat– op desktop krijg je (vaak) ander antwoord dan op mobieltje

– uit eerder zoekgedrag van de zoeker– door analyse van de zoekvraag

– ...12 eric sieverts, juni 2015

Page 13: Zoekmachines weten het antwoord

intentie van de zoeker

1. bepalen van bedoeling / intentie van de zoeker – uit locatie van de zoeker

– uit gebruikt apparaat

– uit eerder zoekgedrag van de zoeker– wat voor zoekvragen stelde gebruiker eerder– naar welke resultaten keek gebruiker dan

bijvoorbeeld al toegepast in Google's personalisatie van relevance ranking;de opgeslagen "web history" is ook al "big data"

– door analyse van de zoekvraag

– ...

13 eric sieverts, juni 2015

Page 14: Zoekmachines weten het antwoord

intentie van de zoeker

1. bepalen van bedoeling / intentie van de zoeker – uit locatie van de zoeker

– uit gebruikt apparaat

– uit eerder zoekgedrag van de zoeker

– door analyse van de zoekvraag– door herkennen van "entiteiten" in de vraag

bijv.: "Parijs" is een stad (waarover feiten beschikbaar zijn) naam van persoon, bedrijf, product, gebeurtenis, … >> feiten naam van gewoon persoon >> facebook / linked-in gegevens – herkent vaste combinaties van woorden– natuurlijke taal interpretatie – uit algemene statistiek van zoekvragen

bijv.: wie "bach" zoekt bedoelt 95% zeker "Johann Sebastian"

14 eric sieverts, juni 2015

wolfram|alpha

GoogleKnowledge

Graph

~ Google

Page 15: Zoekmachines weten het antwoord

content van webpagina

2. bepalen van betekenis van content in webpagina's <op enkele punten kom ik later nog terug>– herkennen van entiteiten in de tekst

bijv.: namen van personen, bedrijven, steden, producten, ...– gebruik van metadata/codering volgens ontologieën

bijv.: informatie gecodeerd met begrippen uit schema.org ontologie– uit (variabele) structuur van beschikbare informatie

bijv.: herkennen van tabellen, kenmerk-waarde koppels, ....– uit (vaste) structuur van beschikbare informatie

bijv.: gestructureerd opgeslagen kenmerken in Facebook– automatisch herkennen van betekenis/onderwerp uit hele tekst

bijv.: door "machine learning" getraind op vaste concepten– koppelen aan data uit andere bronnen

bijv.: via linked (open) data – ...

15 eric sieverts, juni 2015

Page 16: Zoekmachines weten het antwoord

Wie op “Bach” zoekt, vindt vermoedelijk liever gegevens over hem dan websites over hem.Google's Knowledge Graph kent >500 miljoen objecten met >3,5 miljard kenmerken

16

gegevens o.a. afkomstig uit: Freebase (crowdsourced kennisbank), Wikipedia (dbpedia), CIA World factbook, Wikidata, analyse van gegevens op web

Page 17: Zoekmachines weten het antwoord

wat is in dit verband een "graph"? een netwerk van al die concepten met

hun onderlinge relaties en kenmerken

17

Page 18: Zoekmachines weten het antwoord

tripels

al die informatie wordt in feite opgeslagen als "tripels" (later meer)

L. Da Vinci schilderde Mona Lisa

J.S. Bach geboren op 31-03-1685

J.S. Bach geboren in Eisenach

Eisenach ligt in Duitsland

C.P.E. Bach kind van J.S. Bach

18 eric sieverts, juni 2015

Page 19: Zoekmachines weten het antwoord

knowledge cards

• dit soort gegevens die bij een persoon/object/entiteit horen, worden gecombineerd in "knowledge cards"

• die knowledge cards verschijnen - zoals bij het eerdere voorbeeld van Bach - rechts naast het gewone zoekresultaat

19 eric sieverts, juni 2015

Page 20: Zoekmachines weten het antwoord

maar niets overde diefstal ….

20 eric sieverts, juni 2015

Page 21: Zoekmachines weten het antwoord

21 eric sieverts, juni 2015

generieke vragen leveren

"carousel"

Page 22: Zoekmachines weten het antwoord

22 eric sieverts, juni 2015

Page 23: Zoekmachines weten het antwoord

23 eric sieverts, juni 2015

Page 24: Zoekmachines weten het antwoord

eric sieverts, juni 201524

Page 25: Zoekmachines weten het antwoord

25

Page 26: Zoekmachines weten het antwoord

eric sieverts, juni 201526

Page 27: Zoekmachines weten het antwoord

eric sieverts, juni 201527

Page 28: Zoekmachines weten het antwoord

eric sieverts, juni 201528

Page 29: Zoekmachines weten het antwoord

eric sieverts, juni 201529

Page 30: Zoekmachines weten het antwoord

30 eric sieverts, juni 2015

soms verschijnt ookfeitelijk antwoord(eveneens een "tripel")boven de gewonezoekresultaten

Page 31: Zoekmachines weten het antwoord

31

Page 32: Zoekmachines weten het antwoord

eric sieverts, juni 201532

Page 33: Zoekmachines weten het antwoord

33

Page 35: Zoekmachines weten het antwoord

35 eric sieverts, juni 2015

daarbij wordt ook d.m.v. natuurlijke taal technieken herkend wat er gevraagd / bedoeld wordt

Page 36: Zoekmachines weten het antwoord

36 eric sieverts, juni 2015

Page 37: Zoekmachines weten het antwoord

in werkelijkheid varieert die afstand dus tussenongeveer 356.000 en 407.000 km[bron: NASA - via Wikipedia]dus dat cijfer op 4 decimalen nauwkeurig iseigenlijk onzin (hoewel dat ook uit de Wikipedia komt)

maar:

eric sieverts, juni 201537

Page 38: Zoekmachines weten het antwoord

38 eric sieverts, juni 2015

ook wordt (soms) herkend als je dingen wilt vergelijken en worden relevante gegevens in een tabel gezet

Page 39: Zoekmachines weten het antwoord

39 eric sieverts, juni 2015

Page 40: Zoekmachines weten het antwoord

antwoord isgeen feit uit Knowl. Graph, maar tekst uit web-pagina

40

Page 41: Zoekmachines weten het antwoord

??

eric sieverts, juni 201541

Page 42: Zoekmachines weten het antwoord

eric sieverts, juni 2015

Oeps ....

42

Page 43: Zoekmachines weten het antwoord

43

soms extra informatiebij specifiekeresultaten

Page 44: Zoekmachines weten het antwoord

knowledge vault

• inhoud van "knowledge graph" komt uit gecontroleerde gestructureerde bronnen als wikipedia/dbpedia, freebase, …

• in "knowledge vault" wordt dat uitgebreid met gegevens die uit allerlei webpagina's worden onttrokken (ook als tripels)

44 eric sieverts, juni 2015

Page 45: Zoekmachines weten het antwoord

This paper [http://www.cs.cmu.edu/~nlao/publication/2014.kdd.pdf] published by Google goes into more detail about the concepts behind the Knowledge Vault, citing three major components:

Extractors: These systems extract triples from a huge number of Web sources. Each extractor assigns a confidence score to an extracted triple, representing uncertainty about the identity of the relation and its corresponding arguments.

Graph-based priors: These systems learn the probability of each possible triple, based on triples scored in an existing KB (knowledge base).

Knowledge fusion: This system computes the probability of a triple being true, based on agreement between different extractors and priors

45

Page 46: Zoekmachines weten het antwoord

Google tableszoeken naar/in tabellen https://research.google.com/tables

zie ook:"Applying WebTables in Practice"http://www.cidrdb.org/cidr2015/ Papers/CIDR15_Paper3.pdf

google heeft een speciaal tool voor herkennen van tabellen en om daaraan gegevens te ontlenen - ook publiekelijk beschikbaar

46

Page 47: Zoekmachines weten het antwoord

voorbeelden:huis

Pittsburg

oppervlak

# inwoners

4849 sqft

334.563

uit w

ikip

edia

eric sieverts, juni 201547

Page 48: Zoekmachines weten het antwoord

Bing heeft zijn "Entity Engine" (Snapshots)maar die reageert vaak nog wat minderslim op combinaties van woorden

48

Page 49: Zoekmachines weten het antwoord

... en alleen bij landeninstelling"Verenigde Staten"

49

Page 50: Zoekmachines weten het antwoord

en nog meer …

er zijn nog meer (semantische) zoeksystemen die proberen concrete antwoorden te geven

een paar voorbeelden:• wolfram|alpha

• kngine

• cluuz

• sensebot

• …..

50 eric sieverts, juni 2015

Page 51: Zoekmachines weten het antwoord

eric sieverts, juni 201551

Page 52: Zoekmachines weten het antwoord

hoe doen reguliere zoekmachines engespecialiseerde semantische systemenhet bij inhoudelijke vragen

"how many people live in Paris ?"

52

Page 53: Zoekmachines weten het antwoord

53

Page 54: Zoekmachines weten het antwoord

hoe doen reguliere zoekmachines en gespecialiseerde semantische systemen het bij inhoudelijke vragen?

"how many plays wrote Shakespeare ?"

54

"how many plays wrote Shakespeare ?"

Page 55: Zoekmachines weten het antwoord

55

"how many plays wrote Shakespeare ?"

Page 56: Zoekmachines weten het antwoord

56

"who won the 1992 Nobel Peace Prize ?"

Page 57: Zoekmachines weten het antwoord

hoe doen reguliere zoekmachines en gespecialiseerde semantische systemen het bij inhoudelijke vragen?

"who won the 1992 Nobel Peace Prize ?"

??

57

"who won the 1992 Nobel Peace Prize ?"

Page 58: Zoekmachines weten het antwoord

resource description framework

RDF = resource description frameworkRDF is standaard voor het beschrijven van de relatie tussen een resource (of een object) en zijn metadata

• eigenschappen (metadata) worden vastgelegd in zogenaamde tripels: subject <predicaat> object (wat je ook zou mogen noemen : ding <eigenschap> waarde )

• waarbij – te beschrijven ding een webadres (URI) heeft– eigenschap van dat ding liefst ook een URI heeft– "waarde" van die eigenschap liefst ook een URI heeft

• voorbeeld:– boek (heeft een webadres: URI)– heeft auteur (betekenis van eigenschap ergens beschreven: URI)– persoon (gegevens van persoon ergens op web te vinden: URI)

58

intermezzo RDF-tripels

eric sieverts, juni 2015

Page 59: Zoekmachines weten het antwoord

rdf tripels grafisch weergegeven

subject <predicaat> object doc1 <heeft auteur> auth1auth1 <heeft naam> john smithauth1 <heeft affiliatie> home inc.auth1 <heeft email> [email protected]

grafische representatie vansimpel netwerk van 4 RDF-tripels

59

intermezzo RDF-tripels

eric sieverts, juni 2015

Page 60: Zoekmachines weten het antwoord

rdf tripels

60

naar idee vanLucas Koster / IP

"Uit Berlijn"

boek

Uit Berlijn

"Armando"

Schuldiglandschap

http://www.worldcat.org/oclc/10098995 

is een

http://www.w3.org/1999/02/22-rdf-syntax-ns#type

naam

http://xmlns.com/foaf/spec/#term_name

http://viaf.org/viaf/9885610/

http://hdl.handle.net/10934/RM0001.COLLECT.496040

is geschreven door

is schilder van

http://purl.org/dc/terms/creator 

http://purl.org/dc/terms/creator 

http://schema.org/Booktit

le

Armando

http://purl.org/dc/terms/title 

intermezzo RDF-tripels

eric sieverts, juni 2015

Page 61: Zoekmachines weten het antwoord

rdf tripels

• RDF is bedoeld om bestaande semantische systemen te (her)gebruiken en te combineren

• RDF wordt meestal in XML- of JSON-notatie weergegeven • RDFa = “RDF in attributes” , verwerkt metadata in de inhoud van

(X)HTML webpagina’s (als attributen van HTML-codes)

• RDF-tripels worden ook gebruikt in "linked data"

• ze worden opgeslagen in zogenaamde triple-stores

61

intermezzo RDF-tripels

eric sieverts, juni 2015

Page 62: Zoekmachines weten het antwoord

nog even terug …

2. bepalen van betekenis van content in webpagina's– herkennen van entiteiten in de tekst

– gebruik van metadata/codering volgens ontologieën"betekenis vooraf gekarakteriseerd"

bijv.: informatie gecodeerd met begrippen uit schema.org ontologie

– uit (variabele) structuur van beschikbare informatie "betekenis achteraf afgeleid / geraden"

bijv.: herkennen van tabellen, kenmerk-waarde koppels, ....

– uit (vaste) structuur van beschikbare informatiebijv.: gestructureerd opgeslagen kenmerken in Facebook

– automatisch herkennen van betekenis/onderwerp uit hele tekst

– koppelen aan data uit andere bronnen

– ...62 eric sieverts, juni 2015

Page 63: Zoekmachines weten het antwoord

semantische codering

gestandaardiseerde markering van kenmerken in webpagina's - "semantic markup"

voorbeeld van zulke "embedded metadata":– recipe search bij Google en Yahoo

daarbij gebruikte standaarden:– rich snippet markup / schema.org

(Google, Yahoo, Bing, Yandex)

onder andere voor: recepten, recencies, personen, producten, organisaties, gebeurtenissen, muziek

– RDFa / microdata /Json

63 eric sieverts, juni 2015

Page 65: Zoekmachines weten het antwoord

eric sieverts, juni 2015

schema.org

65

Page 66: Zoekmachines weten het antwoord

standaard (metadata/ontologie?) voor karakteriseren van content in webpagina

66

+ nu ook Yandex

Page 68: Zoekmachines weten het antwoord

eric sieverts, juni 201568

voorbeeld van codering met restaurant metadata(zoals gebruikt door o.a. IENS)

zoals in HTML gecodeerd volgens microdata standaard

Page 69: Zoekmachines weten het antwoord

gevolg voor Google zoekresultaat

69

Page 70: Zoekmachines weten het antwoord

schema.org recept-metadata volgens microdata standaard in HTML gecodeerd

70

Page 71: Zoekmachines weten het antwoord

wat heeft zoeker eraan?

• zoeker kan gerichter zoeken en filteren (zoals in Google's receptenzoeker)

• zoeker krijgt duidelijker informatie over gevonden items in zijn 10 blue links(zoals Google's rich snippets)

Page 73: Zoekmachines weten het antwoord

metadata tools

er zijn handige tools die analyse maken van in webpagina aanwezige metadata volgens microdata of RDFa standaard

http://searchengineland.com/see-entities-web-page-tools-help-194710

• Extensions voor Chrome browser:https://chrome.google.com/webstore/category/extensions

• Google's "webmaster structured data testing tool":https://developers.google.com/structured-data/testing-tool/

73 eric sieverts, juni 2015

Page 74: Zoekmachines weten het antwoord

74

Page 75: Zoekmachines weten het antwoord
Page 76: Zoekmachines weten het antwoord
Page 77: Zoekmachines weten het antwoord

wat biedt schema.org voor bibliotheken

• voor bibliotheken als organisatie alleen generieke zaken (adressen, openingstijden, rating, ...)

kan in rich snippets en in “knowledge card” terechtkomen

eric sieverts, juni 201577

maar Google kan/moet ook op andere

manieren aan deze informatie komen,

want de UB Utrecht maakt nog helemaal

geen gebruik van Schema.org .... :-/

Page 78: Zoekmachines weten het antwoord

• wordt nog weinig toegepast• alleen generiekere kenmerken

Page 79: Zoekmachines weten het antwoord

wat biedt schema.org voor bibliotheken

• van bibliotheken die ik uitprobeerde bleek alleen de British Library beperkt gebruik te maken van organisatiegegevens

eric sieverts, juni 201579

Page 80: Zoekmachines weten het antwoord

wat biedt schema.org voor bibliotheken

• voor materiaal van bibliotheken wel al veel mogelijkheden

• OCLC gebruikt schema.org om metadata uit WorldCat als Linked Data beschikbaar te stellen

zie ook OCLC Webinar "Library Linked Data in the Cloud" n.a.v. hun boek hierover

afhankelijk van zoekmachine-policy welke gegevens ze op enig moment als rich-snippets in resultaatpagina's (SERP) tonen

eric sieverts, juni 201580

Page 81: Zoekmachines weten het antwoord

materiaalsoorten voor bibliotheken vind jeonder "creative works"

81

Page 82: Zoekmachines weten het antwoord

• sommige wel al veel toegepast

Page 84: Zoekmachines weten het antwoord

uit presentatie van

Richard Wallis (OCLC)

13 juni 2014

84

Page 85: Zoekmachines weten het antwoord

twee conclusies

1. ook al geven zoekmachines concrete antwoorden, informatievaardigheid blijft van belang- voor het beoordelen van de kwaliteit van die antwoorden

(en van de daarvoor gebruikte bronnen)

- om daartoe ook nog steeds de beste "10 blue links" te vinden (en liefst ook meer dan 10)

2. semantisch coderen in webpagina's (met bijv. schema.org) wordt ook voor bibliotheken van belang- voor makkelijker herkenning van relevante gegevens in de "SERP"

- omdat het een rol speelt bij ranking / SEO (dus voor vindbaarheid)

- maar haak aan bij / laat over aan grote spelers die het toch al doen

eric sieverts, juni 201585

Page 86: Zoekmachines weten het antwoord

any questions ?