Top Banner
T-61.2020: Haku verkosta Janne Peltola & Arto Meril¨ ainen Sis¨ alt¨ o Tausta aritelmi¨ a Ongelma Algoritmeja HITS PageRank Tulokset Kuvat Johtop¨ at¨ okset Sis¨ alt¨ o Tausta Algoritmeja Tulokset T-61.2020: Haku verkosta Janne Peltola & Arto Meril¨ ainen 5.3.2008 Janne Peltola & Arto Meril¨ ainen T-61.2020: Haku verkosta
23

T-61.2020: haku verkosta

Nov 29, 2014

Download

Education

Janne Peltola

TKK:n kurssilla T-61.2020 pidetty esitys PageRank- ja HITS-algoritmien vertailusta.
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

T-61.2020:Haku verkosta

Janne Peltola & Arto Merilainen

5.3.2008

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 2: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

1 TaustaMaaritelmiaOngelma

2 AlgoritmejaHITSPageRank

3 TuloksetKuvatJohtopaatokset

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 3: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

MaaritelmiaOngelma

Verkko

Verkko on pari (V , E ), missa V sisaltaa verkon solmut ja Everkon kaaret. Kaari yhdistaa kaksi solmua. Verkko onsuunnattu, jos kaari on jarjestetty pari.

Verkoilla voidaan mallintaa

• topologiaa (tiekartta)

• vuorovaikutussuhteita (sosiaaliset verkostot)

• riippuvuussuhteita (projektin tehtavaverkko)

• todennakoisyysjakaumia (Bayes-verkot)

• ...

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 4: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

MaaritelmiaOngelma

Haku verkosta

Haluamme loytaa verkosta tiettyja ehtoja vastaavan solmun.Tassa tapauksessa verkko on WWW, eli haluamme loytaaverkkosivun, joka:

• sisaltaa hakutermin ja

• on semanttisesti olennainen.

Ongelman ratkaisee mm. Google...

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 5: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

MaaritelmiaOngelma

Aineisto

Vuoden 2004 presidentinvaaleissa kerattiin poliittisten blogienkeskustelusta aineisto:

• sivujen A ja B valilla on kaari, jos A viittaa B:hen

• kaaret ovat suunnattuja (A viittaa B:hen)

• blogit luokitellaan oikeisto-vasemmistoakselilla

Milla blogeilla onauktoriteettia?

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 6: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

MaaritelmiaOngelma

Aineisto

Vuoden 2004 presidentinvaaleissa kerattiin poliittisten blogienkeskustelusta aineisto:

• sivujen A ja B valilla on kaari, jos A viittaa B:hen

• kaaret ovat suunnattuja (A viittaa B:hen)

• blogit luokitellaan oikeisto-vasemmistoakselilla

Milla blogeilla onauktoriteettia?

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 7: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

Keskukset ja auktoriteetit

• Jaetaan verkon solmut keskuksiin ja auktoriteetteihin

• Hyva keskus viittaa moniin auktoriteetteihin

• Moni keskus viittaa hyvaan auktoriteettiin

• Kyseessa on kehamaaritelma

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 8: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

Keskukset ja auktoriteetit

• Jaetaan verkon solmut keskuksiin ja auktoriteetteihin

• Hyva keskus viittaa moniin auktoriteetteihin

• Moni keskus viittaa hyvaan auktoriteettiin

• Kyseessa on kehamaaritelma

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 9: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

Keskukset ja auktoriteetit

• Jaetaan verkon solmut keskuksiin ja auktoriteetteihin

• Hyva keskus viittaa moniin auktoriteetteihin

• Moni keskus viittaa hyvaan auktoriteettiin

• Kyseessa on kehamaaritelma

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 10: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

HITS (1/2)

Maaritellaan kaksi operaatiota:

I : x 〈p〉 ←−∑

q:(q,p)∈E

y 〈q〉 (1)

O : y 〈p〉 ←−∑

q:(p,q)∈E

x 〈q〉 (2)

• I: auktoriteetti syntyy viereisista keskuksista

• O: keskeisyys syntyy auktoriteetista

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 11: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

HITS (2/2)

Input: Verkko G , k ∈ NOutput: x 〈v〉 = xk , y 〈v〉 = yk

z = (1, 1, ..., 1) ∈ Rn;x0 ← z ;y0 ← z ;for i ← 1 to k do

x ′i ← I(xi−1, yi−1);y ′i ← O(x ′i , yi−1);xi ← Normalisoi (x ′i );yi ← Normalisoi (y ′i );

end

Ratkaistavissa myos lineaarialgebralla!

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 12: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

Satunnainen surffaaja

• Oletetaan satunnainensurffaaja

• Surffaaja siirtyysatunnaiselle linkitetyllesivulle

• Surffaaja saattaa tylsistyaja pompata jonnekinaivan muualle

• Mihin surffaajatodennakoisesti paatyy?

A

��

// B // C

D // E

??~~~~~~~

__@@@@@@@

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 13: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

Satunnainen surffaaja

• Oletetaan satunnainensurffaaja

• Surffaaja siirtyysatunnaiselle linkitetyllesivulle

• Surffaaja saattaa tylsistyaja pompata jonnekinaivan muualle

• Mihin surffaajatodennakoisesti paatyy?

A

��

// B // C

D // E

??~~~~~~~

__@@@@@@@

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 14: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

Satunnainen surffaaja

• Oletetaan satunnainensurffaaja

• Surffaaja siirtyysatunnaiselle linkitetyllesivulle

• Surffaaja saattaa tylsistyaja pompata jonnekinaivan muualle

• Mihin surffaajatodennakoisesti paatyy?

A

��

// B // C

D // E

??~~~~~~~

__@@@@@@@

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 15: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

Satunnainen surffaaja

• Oletetaan satunnainensurffaaja

• Surffaaja siirtyysatunnaiselle linkitetyllesivulle

• Surffaaja saattaa tylsistyaja pompata jonnekinaivan muualle

• Mihin surffaajatodennakoisesti paatyy?

A

��

// B // C

D // E

??~~~~~~~

__@@@@@@@

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 16: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

PageRank

• Aluksi jokainen sivu on yhta todennakoinen

• Todennakoisyys virtaa linkkien kautta

• Paljon linkkeja → korkea todennakoisyys

• Umpikuja → siirtyma minne vain

PR(x) =1− d

N+ d

∑a:(a,x)∈V

PR(a)

L(a), (3)

Rekursiivinen yhtalo ratkaistaan joko iteratiivisesti tailineaarialgebralla.

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 17: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

PageRank

• Aluksi jokainen sivu on yhta todennakoinen

• Todennakoisyys virtaa linkkien kautta

• Paljon linkkeja → korkea todennakoisyys

• Umpikuja → siirtyma minne vain

PR(x) =1− d

N+ d

∑a:(a,x)∈V

PR(a)

L(a), (3)

Rekursiivinen yhtalo ratkaistaan joko iteratiivisesti tailineaarialgebralla.

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 18: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

PageRank

• Aluksi jokainen sivu on yhta todennakoinen

• Todennakoisyys virtaa linkkien kautta

• Paljon linkkeja → korkea todennakoisyys

• Umpikuja → siirtyma minne vain

PR(x) =1− d

N+ d

∑a:(a,x)∈V

PR(a)

L(a), (3)

Rekursiivinen yhtalo ratkaistaan joko iteratiivisesti tailineaarialgebralla.

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 19: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

PageRank

• Aluksi jokainen sivu on yhta todennakoinen

• Todennakoisyys virtaa linkkien kautta

• Paljon linkkeja → korkea todennakoisyys

• Umpikuja → siirtyma minne vain

PR(x) =1− d

N+ d

∑a:(a,x)∈V

PR(a)

L(a), (3)

Rekursiivinen yhtalo ratkaistaan joko iteratiivisesti tailineaarialgebralla.

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 20: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

HITSPageRank

PageRank

• Aluksi jokainen sivu on yhta todennakoinen

• Todennakoisyys virtaa linkkien kautta

• Paljon linkkeja → korkea todennakoisyys

• Umpikuja → siirtyma minne vain

PR(x) =1− d

N+ d

∑a:(a,x)∈V

PR(a)

L(a), (3)

Rekursiivinen yhtalo ratkaistaan joko iteratiivisesti tailineaarialgebralla.

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 21: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

KuvatJohtopaatokset

PageRank

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 22: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

KuvatJohtopaatokset

HITS

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta

Page 23: T-61.2020: haku verkosta

T-61.2020:Haku

verkosta

Janne Peltola& Arto

Merilainen

Sisalto

Tausta

Maaritelmia

Ongelma

Algoritmeja

HITS

PageRank

Tulokset

Kuvat

Johtopaatokset

SisaltoTausta

AlgoritmejaTulokset

KuvatJohtopaatokset

Johtopaatoksia

• HITS- ja PageRank-arvojen korrelaatio olematonta (-0,01ja 0,03)

• PageRank-tulokset luontevia

• HITS tuntuu nostavan esiin aggregaattoreita

• Vahva korrelaatio hubien ja auktoriteettien valilla (0,70)

• Outo havainto: auktoriteettien ja out-degreen korrelaatio0,48

Janne Peltola & Arto Merilainen T-61.2020: Haku verkosta