1
1
2
Sadržaj predavanja• Osnovni pojmovi• Uloga tražilica na webu• O čemu neću govoriti• Način rada tražilice• Rangiranje web stranica• Članak iz 1998.• PageRank• Računanje PageRanka• Primjeri• Umjesto zaključka
3
World Wide Web
• Jedna od najkorištenijih usluga Interneta koja omogućava dohvaćanje hipertekstualnih dokumenata
• Dokumenti mogu sadržavati tekst, slike i multimedijalne sadržaje a međusobno su povezani hiperlinkovima
4
www (2)
• Za dohvaćanje i prikaz sadržaja koriste se računalni programi koji senazivaju web-preglednici
(browser).• Web se često pogrešno koristi kao sinonim
za Internet, a zapravo predstavlja jednu uslugu kojom se ostvaruje razmjena podataka preko te svjetske računalne mreže.
5
Što je tražilica?
• Web lokacija koja služi za pronalaženje informacija pohranjenih na drugim Web lokacijama. Informacije mogu biti Web stranice, slike i ostale vrste datoteka.
6
Što je tražilica ? (2)
• Za razliku od Web imenika koje održavaju urednici (ljudi), internetske tražilice djeluju po određenom algoritmu ili su kombinacija algoritma i ljudskog upisa
7
• Preglednici • Tražilice
8
Tri puta kojima posjetitelji dolaze na web stranice
9
10
Najpopularnije tražilice(veljača 2011.)
11
12
13
O čemu neću danas govoriti
14
• mrežna usluga koja odgovara na upite izravno ili računanjem odgovora na temelju strukturiranih podataka
• tražilice na upit odgovaraju pružanjem popisa dokumenata ili web stranica na kojima bi mogao biti odgovor na upit
• pokretač Stephen Wolfram, u javnost puštena 15. svibnja 2009.
• prema Popular Science, WA je bila najveća računalna inovacija u 2009.godini.
15
Način rada tražilice
• Prikupljanje sadržaja (crawling)
• Indeksiranje
• Pretraživanje
16
Prikupljanje sadržaja (crawling) i indeksiranje
• crawler, spider - automatizirani web preglednik koji slijedi svaku poveznicu na stranici
• analiza i utvrđivanje kako treba indeksirati pojedine riječi
• indeksiranje
17
Obrada upita
• ključne riječi, logički operatori
• pregled indeksa
• cilj: vratiti one stranice koje na neki način najbolje odgovaraju onome što je korisnik tražio
18
Rangiranje stranica
• "najbolji" rezultati na prvim mjestima
• način rangiranja se razlikuje od tražilice do tražilice
• postupci rangiranja se mijenjaju tijekom vremena
• Google koristi PageRank
19
The Anatomy of a Large-Scale Hypertextual Web Search Engine
Sergey Brin and Lawrence Page{sergey, page}@cs.stanford.edu
Computer Science Department, Stanford University, Stanford, CA 94305
• In this paper, we present Google, a prototype of a large-scale search engine which makes heavy use of the structure present in hypertext. Google is designed to crawl and index the Web efficiently and produce much more satisfying search results than existing systems. The prototype with a full text and hyperlink database of at least 24 million pages is available at http://google.stanford.edu/
20
http://infolab.stanford.edu/~backrub/google.html
21
PageRank
• algoritam za analizu povezanosti i nazvan je po Larryju Pageu. Na temelju ovog algoritma tražilica Google dodjeljuje numeričke vrijednosti (težine) svakom elementu skupa dokumenata međusobno povezanih poveznicama (hiperlinkovima).
22
PageRank / 2
• Svrha ovog algoritma je procjenijivanje relativne važnost pojedinog dokumenta u skupu. Algoritam se može primijeniti na bilo koji usmjereni graf. Numerička težina dodijeljena bilo kojem elementu E tog grafa se naziva PageRank od E i označava PR(E).
23
PageRank / 3
• Ime "PageRank" je zaštitni znak tvrtke Google, a postupak PageRank je patentiran (US Patent 6285999). Međutim, patent je dodijeljen Sveučilištu Stanford, a ne Googleu. Google je od Sveučilišta Stanford otkupio ekskluzivna prava na korištenje patenta. Zauzvrat je Sveučilište Stanford dobilo 1,8 milijuna dionica Googlea, a dionice su prodane 2005. za 336 milijuna dolara.
24
Vrijednost funkcije PageRank za jednostavnu mrežu
25
Tajna formula
26
Slučajna šetnja po Webu
• Šetač (surfer) na slučajan način odabire poveznicu na stranici i nastavlja šetnju. Kad mu dojadi, na slučajan način odabire posve novu polaznu stranicu.
Vjerojatnost da će slučajnišetač odabrati posve novupočetnu stranicu, jednaka je faktoru prigušenja d
27
Osnovni pojmovi
• Neka je u vrh u usmjerenom grafu G
• Fu skup vrhova u grafu G u koje ulazi neki luk iz G s početkom u vrhu u
• Bu skup vrhova u grafu Giz kojih izlazi neki luks krajem u vrhu u.
F u
B u
u
28
F uB u
u
Neka je uu FN i konstanta normiranja c
takva da je suma težina svih vrhova konstantna. Definiramo pojednostavnjeno rangiranje R:
uBv vN
vRcuR
)()(
29
Konačno - PageRank!
Neka je d faktor prigušenja (obično se
stavlja d=0.85), i neka je uu FN .
Definiramo funkciju PageRank PR:
uBv vN
vPRdduPR
)()1()(
30
Primjer 1
Matrica susjedstva:
0100
0001
0100
0110
A .
Težinska transponirana matrica susjedstva koja se koristi za PageRank:
0000
1012/1
0002/1
0100
TAB
Jednadžba za položaj slučajnog šetača (normirane težine nalaženja u pojedinim vrhovima - suma težina jednaka je broju vrhova)
wBdJdw 4)1(
3
1
4
2
31
0,425+0,15
0+0,15
0,425+0,85+0,1+0,15
0,85+0,15
C
A
D
B
1
11
0,425
0,425 0,85
0,85
0,85 1
32
0,425+0,15
0+0,15
0,425+0,489+0,128+0,15
1,934+0,15
C
A
D
B
2,275
0,5751
0,425
0,425 0,489
1,934
0,12
8 0,15
33
0,633+0,15
0+0,15
0,633+0,666+0,128+0,15
1,34+0,15
C
A
D
B
1,577
0,7831,49 0,633
0,633 0,666
1,340
0,12
8 0,15
34
Iteracija A B C D Suma
0 1,000 1,000 1,000 1,000 4,000
1 1,000 0,575 2,275 0,150 4,000
2 2,084 0,575 1,191 0,150 4,000
3 1,163 1,036 1,652 0,150 4,000
4 1,554 0,644 1,652 0,150 4,000
5 1,554 0,810 1,485 0,150 4,000
6 1,413 0,810 1,627 0,150 4,000
7 1,533 0,750 1,567 0,150 4,000
8 1,482 0,801 1,567 0,150 4,000
9 1,482 0,780 1,588 0,150 4,000
10 1,500 0,780 1,570 0,150 4,000
11 1,485 0,788 1,578 0,150 4,000
12 1,491 0,781 1,578 0,150 4,000
13 1,491 0,784 1,575 0,150 4,000
14 1,489 0,784 1,577 0,150 4,000
15 1,491 0,783 1,576 0,150 4,000
16 1,490 0,784 1,576 0,150 4,000
17 1,490 0,783 1,577 0,150 4,000
18 1,490 0,783 1,576 0,150 4,000
19 1,490 0,783 1,577 0,150 4,000
20 1,490 0,783 1,577 0,150 4,000
C
A
D
B
1,577
0,7831,49 0,633
0,633 0,666
1,340
0,12
8 0,15
35
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
PR(D)
PR(C)
PR(B)
PR(A)
C
A
D
B
1,577
0,7831,49 0,633
0,633 0,666
1,340
0,12
8 0,15
36
PageRank - Algoritam
Inicijalizacija:
Korak:
Uvjet zaustavljanja:
Ukupan broj svih stranica
Vjerojatnost da posjetitelj klikne na neki link na stranici
broj linkova na stranici
Skup svih stranica koje na sebi imaju link prema
Vjerojatnost da posjetitelj slučajno dođe na stranicu
37
PageRank nekih stranica
• The value of PageRank that we know is those that we can read from Google’s Toolbar. That value is a logarithmic representation of the real value. I will assume that the base of logarithm is 7 (the real value isn’t known).
38
• www.pmf.hr • www.ibm.com • www.facebook.com • www.petagimnazija.hr • www.pliva.hr • www.microsoft.com • www.24sata.hr
39
• www.facebook.com 10
• www.microsoft.com 9
• www.ibm.com 8
• www.pmf.hr 7
• www.24sata.hr 6
• www.pliva.hr 5
• www.petagimnazija.hr 4
40
Academic Search Engine Research• Aside from tremendous growth, the Web has also become
increasingly commercial over time. In 1993, 1.5% of web servers were on .com domains. This number grew to over 60% in 1997. At the same time, search engines have migrated from the academic domain to the commercial.
• Up until now most search engine development has gone on at companies with little publication of technical details.
• This causes search engine technology to remain largely a black art and to be advertising oriented (see Appendix A).
• With Google, we have a strong goal to push more development and understanding into the academic realm.
41
Akademska tražilica Istraživanja
• Osim ogroman rast, Web je također postaje sve komercijalne tijekom vremena. Godine 1993, 1,5% web poslužitelja su na. com domene. Ovaj broj je narasla na preko 60% u 1997. U isto vrijeme, tražilice su migrirali iz akademske domene komercijalni.Do sada je većina tražilica razvoj je otišao na na tvrtke s malo objavljivanja tehničkih detalja.To uzrokuje tražilice tehnologije da ostanu u velikoj mjeri crna magija i da se oglašavanje orijentirani (vidi Dodatak).Sa Google, imamo jake cilj gurnuti više razvoj i razumijevanje u akademsku domenu.
42
Upitnici ?
43
Nekoliko web lokacija
• http://hr.wikipedia.org/wiki/Tra%C5%BEilica• http://www.hitwise.com/us/datacenter/main/
dashboard-10133.html• http://en.wikipedia.org/wiki/PageRank• http://ilpubs.stanford.edu:8090/361/1/1998-8.pdf• http://www.wolframalpha.com• http://www.iwebtool.com/pagerank_checker
44
„CoolMath“ – Popularnomatematička predavanja
Kako traže tražilice
dr.sc. Goran IgalyPrirodoslovno-matematički fakultet
Matematički odsjek
2. ožujka 2011.