Top Banner
Semantic Semantic Similarity in a Similarity in a Taxonomy Taxonomy -Hvordan man måler -Hvordan man måler semantisk lighed vha. semantisk lighed vha. taksonomi taksonomi
23

Semantic Similarity in a Taxonomy

Jan 07, 2016

Download

Documents

Morwen

Semantic Similarity in a Taxonomy. -Hvordan man måler semantisk lighed vha. taksonomi. Hvad er taksonomi?. 1. taxonomy -- (a classification of organisms into groups based on similarities of structure or origin etc) - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Semantic Similarity in a Taxonomy

Semantic Similarity in a Semantic Similarity in a TaxonomyTaxonomy

-Hvordan man måler semantisk -Hvordan man måler semantisk lighed vha. taksonomilighed vha. taksonomi

Page 2: Semantic Similarity in a Taxonomy

Hvad er Hvad er taksonomi?taksonomi?

1. 1. taxonomytaxonomy -- (a classification of organisms -- (a classification of organisms into groups based on similarities of structure or into groups based on similarities of structure or origin etc)origin etc)

2. 2. taxonomytaxonomy -- ((biology) study of the general -- ((biology) study of the general principles of scientific classification)principles of scientific classification)

3. 3. taxonomytaxonomy -- (practice of classifying plants -- (practice of classifying plants and animals according to their presumed natural and animals according to their presumed natural relationships) relationships)

Wordnet 1.7Wordnet 1.7

Page 3: Semantic Similarity in a Taxonomy

Hvad er lighed?Hvad er lighed?

Lighed ikke lig relationerLighed ikke lig relationer

Relationen mellem en bil og benzin er Relationen mellem en bil og benzin er større end mellem en bil og en cykel.større end mellem en bil og en cykel.

Ligheden mellem en bil og en cykel er Ligheden mellem en bil og en cykel er større end mellem en bil og benzinstørre end mellem en bil og benzin

Page 4: Semantic Similarity in a Taxonomy

fartøj

vand land luft

båd ubåd bil cykel fly

sejlbåd

motorbåd

raket

lastbil

Personbil

Page 5: Semantic Similarity in a Taxonomy

Traditionel måde at måle semantisk Traditionel måde at måle semantisk lighed i en taksonomilighed i en taksonomi

At måle afstanden mellem knudepunkterne på At måle afstanden mellem knudepunkterne på det som sammenlignesdet som sammenlignesDvs. en motorbåd har mere lighed med vand Dvs. en motorbåd har mere lighed med vand end luft….end luft….Problem: Distancerne i en taksonomi er ikke Problem: Distancerne i en taksonomi er ikke uniforme. Hvad afhænger en distance af?uniforme. Hvad afhænger en distance af?Distancen ml. sikkerhedsventil og ventil syntes Distancen ml. sikkerhedsventil og ventil syntes mindre end ml. symaskine og maskinemindre end ml. symaskine og maskineKort distance: ’rabbit ears’ og tv-antenneKort distance: ’rabbit ears’ og tv-antenneStor distance: ’Phytoplankton’ og organismeStor distance: ’Phytoplankton’ og organisme

Page 6: Semantic Similarity in a Taxonomy

Resniks strategiResniks strategi

Vil basere lighed på ’Information Content’Vil basere lighed på ’Information Content’

Vil undgå distance problemetVil undgå distance problemet

Vil kombinere sine metoder med Vil kombinere sine metoder med sandsynlighedsudregning baseret på sandsynlighedsudregning baseret på empiriempiri

Vil vise hvordan man kan bruge Vil vise hvordan man kan bruge udregningen af semantisk lighed til at udregningen af semantisk lighed til at fjerne flertydighed i naturlige sprogfjerne flertydighed i naturlige sprog

Page 7: Semantic Similarity in a Taxonomy

Information ContentInformation Content

Lighed kunne bestemmes Lighed kunne bestemmes af den grad til hvilken af den grad til hvilken koncepterne deler koncepterne deler informationinformationLighed kunne bestemmes Lighed kunne bestemmes af det koncept som er af det koncept som er dem begge overordnet. dem begge overordnet. Eks. ’Nickel’ og ’Dime’ er Eks. ’Nickel’ og ’Dime’ er underordnet ’Coin’, Mens underordnet ’Coin’, Mens ’Nickel’ og ’Credit Card’ ’Nickel’ og ’Credit Card’ begge er underordnet begge er underordnet ’Medium of Exchange’’Medium of Exchange’

Page 8: Semantic Similarity in a Taxonomy

Hvordan målesHvordan målesInformation ContentInformation Content

Ved at associere sandsynlighed med koncepter i taksonomienVed at associere sandsynlighed med koncepter i taksonomienAlle koncepter i taksonomien tildeles en værdi baseret på den Alle koncepter i taksonomien tildeles en værdi baseret på den sandsynlighed der er for at støde på konceptet i taksonomiensandsynlighed der er for at støde på konceptet i taksonomienVærdien kan ligge mellem 0 og 1, hvor 1 betyder at konceptet ikke Værdien kan ligge mellem 0 og 1, hvor 1 betyder at konceptet ikke er underordnet andre koncepter. Men også at dets er underordnet andre koncepter. Men også at dets informationsindhold er lig 0.informationsindhold er lig 0.Stiger informationsværdien vil sandsynlighedsværdien falde. Desto Stiger informationsværdien vil sandsynlighedsværdien falde. Desto mere abstrakt konceptet er, desto lavere er dets mere abstrakt konceptet er, desto lavere er dets informationsindhold. informationsindhold. Desto mere information to koncepter deler, desto større er deres Desto mere information to koncepter deler, desto større er deres lighed. Dvs. ligheden af to begreber bestemmes af deres fælles lighed. Dvs. ligheden af to begreber bestemmes af deres fælles overordnede begreb. F.eks. det begreb som har mest til fælles med overordnede begreb. F.eks. det begreb som har mest til fælles med ’Nickel’ og ’Dime’ er ’Coin’ ’Nickel’ og ’Dime’ er ’Coin’

Page 9: Semantic Similarity in a Taxonomy

Multiple nedarvningMultiple nedarvning

Page 10: Semantic Similarity in a Taxonomy

EmpiriEmpiri

38 personer fik 30 ord i par som de skulle 38 personer fik 30 ord i par som de skulle vurdere ud fra skalaen 0-4 => Korrelation vurdere ud fra skalaen 0-4 => Korrelation 0.970.97

Resnik gentog forsøget og fik korrelation Resnik gentog forsøget og fik korrelation 0.960.96

Page 11: Semantic Similarity in a Taxonomy

Lighed målt vha. computerLighed målt vha. computer

’’Information Content’ (wsim)Information Content’ (wsim)

Distance ml. begreber (wsimDistance ml. begreber (wsimedgeedge))

Koncepters sandsynlighed (wsimKoncepters sandsynlighed (wsimp(c)p(c)))

Page 12: Semantic Similarity in a Taxonomy
Page 13: Semantic Similarity in a Taxonomy

Problemer ved Problemer ved ’Information Content’’Information Content’

Kontra-intuitive resultaterKontra-intuitive resultaterSkyldes mangel på algoritme som finder ords Skyldes mangel på algoritme som finder ords meningmeningLøsning: medtag relevans i udregningen Løsning: medtag relevans i udregningen (baseret på tekst materiale). (baseret på tekst materiale).

Page 14: Semantic Similarity in a Taxonomy

Hvad kan vi bruge det til?Hvad kan vi bruge det til?

Opløse flertydighed i naturlige sprogOpløse flertydighed i naturlige sprog

Ordbogs problemerOrdbogs problemer

Page 15: Semantic Similarity in a Taxonomy

FlertydighedFlertydighed(sammensatte navneord)(sammensatte navneord)

Bank and (warehouse guard) vs. Bank and (warehouse guard) vs.

(bank and warehouse) guard(bank and warehouse) guard

(Policeman and park) guard vs. (Policeman and park) guard vs. (policeman) and (park guard)(policeman) and (park guard)

Page 16: Semantic Similarity in a Taxonomy

Strategier vedr. flertydighedStrategier vedr. flertydighed

Antal: several businesses and university Antal: several businesses and university groupsgroupsMening: ’a television and radio personality’ Mening: ’a television and radio personality’ har større lighed end ’a psychologist and har større lighed end ’a psychologist and sex researcher’sex researcher’Modifikation: ’corn and peaunut butter’ = Modifikation: ’corn and peaunut butter’ = ’Corn butter and peaunut butter’ vs. ’corn ’Corn butter and peaunut butter’ vs. ’corn and peaunut crops’ = ’Corn crops and and peaunut crops’ = ’Corn crops and peaunut crops’peaunut crops’

Page 17: Semantic Similarity in a Taxonomy

Strategiernes nyttighedStrategiernes nyttighed

Page 18: Semantic Similarity in a Taxonomy

Komplekse flertydighederKomplekse flertydigheder

freshman ((business and marketing) major)freshman ((business and marketing) major)

(food (handling and storage)) procedures(food (handling and storage)) procedures

((mail fraud) and bribery) charges((mail fraud) and bribery) charges

Page 19: Semantic Similarity in a Taxonomy

Menneske vs. computerMenneske vs. computer

Page 20: Semantic Similarity in a Taxonomy

ParadigmerParadigmer

Selection – skal vælge hvilke af WordNets Selection – skal vælge hvilke af WordNets ord hvis mening bør inkluderesord hvis mening bør inkluderes

Filtering – skal vælge hvilke af WordNets Filtering – skal vælge hvilke af WordNets ord hvis mening ord hvis mening ikkeikke bør inkluderes bør inkluderes

Page 21: Semantic Similarity in a Taxonomy

ResultaterResultater

Precision – de meningsbetydninger som Precision – de meningsbetydninger som erer inkluderetinkluderet

Recall – de meningsbetydninger som Recall – de meningsbetydninger som burdeburde være inkluderetvære inkluderet

Page 22: Semantic Similarity in a Taxonomy

KonklusionKonklusion

Selv ekspert har svært ved at matche den Selv ekspert har svært ved at matche den indfødtes resultater. Dette fortæller lidt om indfødtes resultater. Dette fortæller lidt om opgavens sværhed.opgavens sværhed.Algoritmen håndterer ’filtering precision’ bedre Algoritmen håndterer ’filtering precision’ bedre end ekspertend ekspertAlgoritmen er bedst egnet til ’sense filtering’ Algoritmen er bedst egnet til ’sense filtering’ fremfor ’sense selction’fremfor ’sense selction’’’Information Content’ godt byd på opløsning af Information Content’ godt byd på opløsning af flertydighedflertydighedMetoderne bør nok bruges semi-automatisk Metoderne bør nok bruges semi-automatisk under menneskelig supervisionunder menneskelig supervision

Page 23: Semantic Similarity in a Taxonomy

KilderKilder

Philip Resnik: Philip Resnik: Semantic Similarity in a Semantic Similarity in a Taxonomy: An Information-Based Measure and Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in its Application to Problems of Ambiguity in Natural LanguageNatural Language, , http://new-isl.ruc.dk/~troels/KIS/resnik99a.pdfhttp://new-isl.ruc.dk/~troels/KIS/resnik99a.pdfOrdbøgerOrdbøger WordNet - WordNet - http://www.cogsci.princeton.edu/~wn/http://www.cogsci.princeton.edu/~wn/ Wordsmyth English Dictionary-Thesaurus Wordsmyth English Dictionary-Thesaurus

http://www.wordsmyth.net/http://www.wordsmyth.net/ ), an on-line educational ), an on-line educational dictionary aliated with the ARTFLtext database project dictionary aliated with the ARTFLtext database project (http://humanities.uchicago.edu/ARTFL)(http://humanities.uchicago.edu/ARTFL)