Semantic Search Technology ‘De belofte van het semantisch web (web 3.0)’ Hannah Verhoeff
Semantic Search Technology
‘De belofte van het semantisch web (web 3.0)’
Hannah Verhoeff
Semantiek achterhalen van woorden en daar de advertentie op afstemmen.
“Is de jager op dreef?” zei de student diergeneeskunde“Is De Jager op dreef?” zei de parlementair journalist
Syntax versus semantiek
Entiteiten vaststellen in een document en meegeven in de html: mensen (‘edward norton’), gebeurtenissen, bedrijven, landen, sport, eten (‘nasi’) etc.
Ontologie is opgebouwd uit entiteiten (annotaties). De tekst: “Mark Rutte is Minister Of The Netherlands” zou je kunnen vervangen door het volgende stukje RDF/XML:<rdf:Description rdf: about=#Mark Rutte”><isMinisterOf rdf:resource=”#The Netherlands “/></rdf:Description>
Bepaal de interpretatie van data door te begrijpen wat de bedoeling is van de zoeker en de contextuele betekenis van de termen door het web (associatief slim).
Semantiek achterhalen:
Annotaties in de vorm van RDF en Microformats – vanuit de documenten
Automatisch herkennen van entiteiten – vanuit de zoeker
Binnen de organisatie is een ontologie het best bruikbaar voor specifieke domeinen.
Mogelijk te combineren met externe linked open data
Beperkte schaalbaarheid:
Afhankelijk van mensenwerk – inconsistente interpretatie
Arbeidsintensief
Afhankelijk van de bronsystemen
Explosieve groei van informatie – de komst van ‘Big Data’
Het wordt lastiger om informatie te beheren en structuur/ betekenis te achterhalen in de diversiteit en heterogeniteit van bronnen;
Zoeken en vinden is een probleem, maar daarbovenop de gemiste kansen door onontgonnen informatie.
[T]here are known knowns; there are things we know that we know.
There are known unknowns; that is to say there are things that, we now know we don't know.
But there are also unknown unknowns – there are things we do not know, we don't know.
”
—United States Secretary of Defense, Donald Rumsfeld
Database Search
Semantic Search
Enterprise Search
• Sentence Boundary Detector
• Parser• Namefinder• Pattern Recognizer• PostTagger• Role Designation• Associative network• Tag cloud• Topic Extraction
Digitale (web)teksten geautomatiseerd samenvatten, interpreteren en anonimiseren.
• Herleiden van de betekenis van entiteiten uit de context van een pagina;
• Natuurlijk taal applicaties (NLP)
In grote hoeveelheden data zonder dat hier mensenwerk bij komt kijken. Alleen mensenwerk bij toevoegen content en ontwikkelen techniek.
Open Calais van Reuters is een platform dat pagina’s via een API naar semantische pagina’s verrijkt. Hierbij put Reuters uit haar database van personen, plaatsen en locaties. http://viewer.opencalais.com/
PlatypusWiki is een pakket waarmee semantische wiki’s gemaakt kunnen worden. Semantic wiki is een upgrade van de ‘Wikipedia’ Mediawiki software om semantische pagina’s te bouwen.
… een kijkje achter de schermen
Bedreiging voor SEO, ondanks succes dankzij Semanic contextualization
Superieur business intelligence – analyse gestructureerde/ ongestructureerde content
Holding promises of Semantic Search
Zoek op een persoon en vind zijn/ haar geboorteplaats, -datum, broers en zussen, etc.
Geen links maar antwoorden!
Human resource
Semantic Search in te zetten binnen de organisatie
Cognito Technology
Sinequa
Sophia Search Attivio
…‘De belofte van het semantisch web (web 3.0)’