HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 gorithm. Grundlagen des Internets . Juni 2002 Christian Schindelhauer Vorlesung Sommersemester 2002 Algorithmische Grundlagen des Internets (VII) Christian Schindelhauer [email protected]HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik AG Meyer auf der Heide
18
Embed
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 03. Juni 2002 Christian Schindelhauer.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Fachbereich Mathematik/InformatikAG Meyer auf der Heide
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
2Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
2. Kapitel
Der Web-Graph
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
3Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Eigenschaften des WWW
o WWW: Speicher für Informationen Neues Medium Nicht geplant, unkoordiniert
• Im Gegensatz zu Stromnetz, Telefon, Straßen, Eisenbahn Trotzdem Gesetzmäßigkeiten Selbstorganisation Ändert sich dauernd
o Analyse der Webstruktur ermöglicht Bessere Suchmaschinen Automatisch erzeugte Webverzeichnisse Gezielte Suchdienste Filter
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
4Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Der Webgraph
o GWWW:
Statische HTML-Seiten sind Knoten Links sind gerichtete Kanten
o Ausgrad eines Knoten: Anzahl Links auf einer Webseite
o Eingrad eines Knoten: Anzahl der Links zu einer Webseite
o Gerichteter Pfad von Knoten u zu Knoten v: Folge der Webseiten, um von u zu v durch Links zu kommen
o Ungerichteter Pfad (u=w0,w2,…,wm-1,v=wm) von Knoten u zu Knoten v: Für alle i:
Von wi zu wi+1 existiert Link oder umgekehrt
o Starke (schwache) Zusammenhangskomponente: Knotenmenge, in der (un-)gerichteter Pfad von jedem Knoten zu
jedem anderen existiert
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
5Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Ein-/Ausgradverteilung
o Ein-/ und Ausgrade sind Paretoverteilt, d.h. Ein/Ausgrad i erscheint mit Häufigkeit ~ 1/iα
o Experimentell überprüft von Kumar et al 97: 40 Mio Webseiten Barabasi et al 99: Domain *.nd.edu + Webseiten im Abstand 3 Broder et al 00: 204 Mio Webseiten (Scan Mai+Okt. 1999)
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
6Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Ein-/Ausgradverteilung von Gn,p (I)
o Zufallsgraph Gn,p:
n Knoten Jede gerichtete Kante erscheint mit unabhängiger W’keit p
o Kann der Webgraph durch Gn,p beschrieben werden?
o Erwarteter Ein/Ausgrad in Gn,p = (n-1)p
Da durchschnittl. Grad in GWWW konstant, wähle
Betrachte feste Webseite r• Sei X die Anzahl der Links auf r
• Sei Xi =1 wenn Link nach i existiert, sonst 0
• Dann ist P[Xi=1]=p und P[Xi=0]=1-p
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
7Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Pareto-Verteilung (I)
o Diskrete Paretoverteilung für x {1,2,3,…}
mit konstanten Faktor
Es gilt
o Heavy-Tail-Eigenschaft: Nicht alle Momente E[Xk] sind definiert Erwartungswert existiert, gdw, α>2 Varianz und E[X2] definiert, gdw. α>3 E[Xk] definiert, gdw. α>k+1
o Dichtefunktion der kontinuierlichen Paretoverteilung für x>x0
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
8Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Pareto-Verteilung (II)
o Beispiele für Paretoverteilungen
Pareto 1897: Privatvermögen in Bevölkerung Yule 1944: Wortlängen in Sprachen Zipf 1949: Größe von Städten Länge gewisser Molekülketten Dateilängen in Unix-Filesystem ….
Zugriffshäufigkeit von Webseiten Besuchshäufigkeit einzelner Websurfer auf einer
bestimmten Seite …
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
9Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Zusammenhangskomponenten
o Starke und schwache Zus.-komponenten sind Paretoverteilt
o Riesige schwache Zus.-Kompontente mit 91% aller Seiten
o Größte starke Zus.Komponente nur 28% Durchmesser ≥ 28 Wo ist der Rest?
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
10Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Ein Bild des Webgraphen
Weberfassung durch Altavista Mai+Oktober 1999:
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
11Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Web-SucheDer Suchraum
o Besonderheiten des Web als Suchraum: Größe: 1998: 350 Mio. Dokumente
2002: > 1 Mrd. Dokumente Dynamik: Jeden Tag gibt es Veränderungen
Halbwertszeit einer Webseite: 55 Monate Heterogenität:
• Bilder, Tondateien, Text, Filme, etc. Sprachvielfalt:
• > 100 verschiedene Sprachen Kopien
• Mehr als 30% der Webseiten sind Kopien anderer Hohe Vernetzung:
• Durchschnittlich ~7-8 Links pro Seite
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
12Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Überblick über Suchmaschinen (I)http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/SearchEngines.html
Google
AlltheWeb
(Advanced)
Alta Vista (Advance
d)
Size HUGE. Claims over 1.5 billion pages, but may be counting pages not fully indexed. Biggest in tests.
HUGE. Claims will reach a billion pages soon. Sometimes ties for first in tests
LARGE. Claims to be the biggest also.
TypeGeneral Web database with often useful ranking by popularity. Far from comprehensive, but often finds "the best" pages.
General Web database. Excellent ranking.
General Web database
Boolean logic
Partial. AND assumed between words.Capitalize OR.- excludes.No ( ) or nesting.
AND default.For OR, enclose terms or phrases in ( ) without typing "or".
AND (default), OR, AND NOT, NEAR (within 10 words).
Sub-Searchin
g
Yes No No
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
13Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Überblick über Suchmaschinen (II)http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/SearchEngines.html
Google
AlltheWeb
(Advanced)
Alta Vista (Advanced)
Results
Ranking
Based on page popularity measured in links to it from other pages: high rank if a lot of other pages link to it. Fuzzy AND also invoked.
Automatic Fuzzy AND. Also seems to use "importance" and links to pages.
Automatic Fuzzy AND.Some of the top results have purchased the right to be there
Truncation
NoNo Use *.
Case sensitivity
NoNo
Yes. Upper case retrieves only matching upper case.Lower case retrieves either lower or upper case. Also accent and character sensitive.
Language
Yes. Major Romanized and non-Romanized languages
Yes, extensive list includes major
Romanized and non-Romanized languages.
Yes, extensive list includes major Romanized and non-
Romanized languages.
Translation
Yes No Yes
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
14Algorithm. Grundlagen des Internets03. Juni 2002
16Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Weberfassung
o Web-Crawler: Robust und sorgfältig getestet wegen Heterogenität des
Webs Extern:
• Keine Überlastung von Web-surfer
• Kein unvorhersehbares Verhalten Intern
• Effizienter Umgang mit riesigen Datenmengen
• Bestimmt Reihenfolge der Suche im Web-Graph- Wichtige Seiten zuerst!
• Richtige Wahl Frequenz der Wiederkehr auf besuchte Seiten
o Z.B. Google Verteiltes Crawling-System Jeder Crawler
• hat 300 Verbindungen gleichzeitig
• 100 Webseiten/Sekunde - 600 Kbyte Daten pro Sekunde
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
17Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Webseitensuche
o Moderne Websuchalgorithmen verlassen sich nicht nur auf textuelle Suche: Problem des Überflusses an Trefferseiten
• 10.000 Wörter decken 95% jedes Texts ab (Paretoverteilung)
• Mehr Web-Seiten als Wörter
Gesucht: wichtige Seiten, d.h. Seiten mit Autorität Wichtige Seiten enthalten nicht den Suchbegriff
• http://www.porsche.com: weder Sportwagen oder Auto
• http://www.airbus.com: weder Aircraft noch Airjet
• http://www.google.de/ weder Search engine noch Suchmaschine
Bestimmte Seiten besitzen fast alle Schlüsselwörter• http://wortschatz.uni-leipzig.de/top10000en.txt
Web-Verzeichnisse, Z.B. www.yahoo.com, www.web.de, www.netscape.com
• enthalten viele Begriffe, aber keine Autoritäten für ein Gebiet Namensgebung der URL irreführend:
• http://www.haus.com/ ist Webverzeichnis
Bestimmte Suchbegriffe fast überall z.B. WWW, Web, windows, java
HEINZ NIXDORF INSTITUTUniversität Paderborn
Fachbereich Mathematik/Informatik
18Algorithm. Grundlagen des Internets03. Juni 2002
Christian Schindelhauer
Webseitensuche
o PageRank [Brin&Page 98] Vergibt jeder Web-Seite einen absoluten Rang (rank)/Autorität Rang berücksichtigt Eingrad und Autorität des Eingrads Idee Seiten sind wichtig, wenn wichtige Seite auf sie zeigen
o HITS (HyperText Induces Topic Search) [Kleinberg 98] Ausgehend von einem Seitenstamm aus einer textuellen Suche Betracht Hubs (Verteiler) und Autoritäten, Idee:
• Gute Hubs zeigen gute Autoritäten an• Gute Autoritäten werden von guten Hubs adressiert
o Anchor Text (Google) Text unter Link und Webseite zusammengenommen
→ Grafiken können gesucht werden
→ Auch Seiten ohne Suchbegriff können werden gefunden