Analysis and integration of Web 2.0 data sources into a ...homepages.uni-paderborn.de/wilke/files/bachelor/thesis/Adrian-Wilk… · III. Web 2.0 Netzwerke als Datenquellen Analyse

Post on 25-Sep-2020

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

Transcript

Analysis and integration of Web 2.0 data sourcesinto a system for analysis and storage of

Artefact-Actor-Networks

Adrian Wilkewilke@[REMOVE]campus.upb.de

09. September 2010

Ziele

Zielsetzung der Bachelorarbeit

Aus der Zielvereinbarung:

I Datenquellen fur Artefact-Actor-Networks System

I Ontologien definieren

I Crawler- und Parser-Komponenten entwickeln

Konkrete Arbeitsschritte:

I Relevante Daten?

I Nutzbare Schnittstellen?

I Einbettung Ontologie?

I Konzeption & Implementierung Komponenten

AAN: Analysis and integration of Web 2.0 data sources 2

Ziele

Zielsetzung der Bachelorarbeit

Aus der Zielvereinbarung:

I Datenquellen fur Artefact-Actor-Networks System

I Ontologien definieren

I Crawler- und Parser-Komponenten entwickeln

Konkrete Arbeitsschritte:

I Relevante Daten?

I Nutzbare Schnittstellen?

I Einbettung Ontologie?

I Konzeption & Implementierung Komponenten

AAN: Analysis and integration of Web 2.0 data sources 2

Ubersicht

Ubersicht Vortrag

I. Artefact-Actor-NetworksVorstellung des Konzepts

II. DatenformateWie werden Daten abgelegt?

III. Web 2.0 Netzwerke als DatenquellenAnalyse von Delicious, SlideShare und Scribd

IV. AAN FrameworkVorstellung des Systems

V. Entwickelte KomponentenNetzwerke durchlaufen, Daten-Extraktion und -Speicherung

VI. Ergebnisse und AusblickAktuelle und zukunftige Projekte

AAN: Analysis and integration of Web 2.0 data sources 3

Vorstellung AAN I. Artefact-Actor-Networks

I. Vorstellung Artefact-Actor-Networks (AAN)

Artefact-Actor-Networks - Was steckt dahinter?

I Dokumentennetzwerkeeinfaches Beispiel: Verlinkte Webseiten

I Soziale NetzwerkeIn Organisationen oder auch im Web (Facebook)

I Ansatz: Zusammenschluß beider NetzwerkartenNeue (indirekte) Verbindungen

AAN: Analysis and integration of Web 2.0 data sources 4

Dokumentennetzwerke I. Artefact-Actor-Networks

Konsolidierung von Dokumentennetzwerken

Network of documentsNetwork in World Wide Web Consolidated artefact network I

Website A

Website B

Document C

Document D

(1) (2) (3)

D

CA

B

Consolidated artefact network IINetwork with bookmarksConsolidated artefact network I

Website B

Bookmark E

(1) (2) (3)

AAN: Analysis and integration of Web 2.0 data sources 5

Soziale Netzwerke I. Artefact-Actor-Networks

Konsolidierung sozialer Netzwerke

Consolidated actor networkActor network of company Private actor network

Person X

Person Y

Person X

Person Z

Person Z

Person X

Person Y

(1) (2) (3)

Verbindung uber berufliches und privates Umfeld von Person X

AAN: Analysis and integration of Web 2.0 data sources 6

Konsolidierung I. Artefact-Actor-Networks

Konsolidierung beider Netzwerkarten

Consolidated artefact network II Consolidated actor network

Typen semantischer Relationen

AAN: Analysis and integration of Web 2.0 data sources 7

Semantische Relationen I. Artefact-Actor-Networks

Semantische Relationen zwischen Akteuren

I Zusammenschluß der verschiedenartigen Netzwerkarten:3 Typen von semantischen Relationen

isRelatedBy : ACT²

Actor ZActor XActor Y

relates : ACT²

isInBuddyList : isRelatedBy : ACT²

hasInBuddyList : relates : ACT²

I Eigenschaften in Abbildungen:Vererbung, Inversion

I Standards, Vokabularien: FOAF, RELATIONSHIP

AAN: Analysis and integration of Web 2.0 data sources 8

Semantische Relationen I. Artefact-Actor-Networks

Relationen zwischen Artefakten,Relationen zwischen Akteuren und Artefakten

I Standards, Vokabularien: Dublin Core, SIOC

Website A Website B

linksTo : references : ART²

Document C

references : ART²

hasLink : isReferencedBy : ART² isReferencedBy : ART²

Bookmark QActor Y

hasBookmarker : ART-ACT

bookmarkerOf : ACT-ART

AAN: Analysis and integration of Web 2.0 data sources 9

Semantische Relationen I. Artefact-Actor-Networks

Relationen zwischen Artefakten,Relationen zwischen Akteuren und Artefakten

I Standards, Vokabularien: Dublin Core, SIOC

Website A Website B

linksTo : references : ART²

Document C

references : ART²

hasLink : isReferencedBy : ART² isReferencedBy : ART²

Bookmark QActor Y

hasBookmarker : ART-ACT

bookmarkerOf : ACT-ART

AAN: Analysis and integration of Web 2.0 data sources 9

Stand der Dinge I. Artefact-Actor-Networks

Stand der Dinge

I Nutzen und Mehrwert durch lokalen Zugriff undneu erschließbare Verbindungen

I Wolfgang Reinhardt et al.: Artefact-Actor-Networks

I Tobias Varlemann: Konzeption und Entw. ArchitekturAußerdem: Twitter, HTML

I Matthias Moi: Anwendung im Kontekt von WikisAußerdem: Semantische Ahnlichkeit (SemSim)

I Zusammen mit ihnen:”Modeling, obtaining and storing data

from social media tools with Artefact-Actor-Networks“,ABIS 2010 Workshop, 4.-6. Oktober in Kassel

AAN: Analysis and integration of Web 2.0 data sources 10

Datenformate II. Datenformate

II. Datenformate

Bisher: Konzept von Artefact-Actor-Networks X

Aber: Speicherung semantisch angereicherter Daten?

Drei aufeinander aufbauende Formate: RDF, RDFS, OWL

AAN: Analysis and integration of Web 2.0 data sources 11

RDF II. Datenformate

Resource Description Framework (RDF)

I Tripel: Subjekt,Pradikat, Objekt

I Subjekt: Resource(URI oder Blank Node)

I Pradikat: Resource,keine Blank Nodes

I Objekt: Resource oderLiteral

http://www.cs.uni-paderborn.de

http://ddi.uni-paderborn.de

http:/ /www.terms.example.org/has-working-group

Didactics of Informatics

http://purl.org/dc/elements/1.1/descript ion

Terminologie: Ressource hat Eigenschaft mitEigenschafts-Beschreibung

Reprasentation von Informationen X Semantische Beschreibung?

AAN: Analysis and integration of Web 2.0 data sources 12

RDFS II. Datenformate

RDF Schema (RDFS)

Zur Definition von Ontologien

University

Corporation

rdfs:subClassOf

hasEmployee

Person

rdfs:domain rdfs:range

Ontologie (im Kontext des Semantic Web):Terme zur Beschreibung und Reprasentation eines Wissensgebiets.Bereitstellen von Beschreibungen der Konzepte Klasse, Beziehung,Eigenschaft.

AAN: Analysis and integration of Web 2.0 data sources 13

OWL II. Datenformate

Web Ontology Language (OWL)

Reprasentation der Bedeutung von Termen in Vokabularienund den Beziehungen zwischen solchen Termen.

Hatten wir das nicht gerade?

Ja, aber OWL kann mehr, z.B.:

I Inversion,

I Transitivitat,

I Symmetrie,

I Beschrankungen in der Kardinalitat ...

Die AAN Ontologie basiert auf OWL.

AAN: Analysis and integration of Web 2.0 data sources 14

AAN Ontologie (Version 2) II. Datenformate

AAN Grundontologie

<!– http://AAN/AANBase#bookmarkerOf –><owl:ObjectProperty rdf:about=”http://AAN/AANBase#bookmarkerOf”><rdfs:subPropertyOfrdf:resource=”http://AAN/AANBase#act art”/></owl:ObjectProperty>

AAN := artefact-actor-networks.net/ontologies/2010/03

Ubersicht Ontologie

AAN: Analysis and integration of Web 2.0 data sources 15

Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen

III. Netzwerke als Datenquellen

Bisherige Grundlagen:

I Artefact-Actor-Networks Konzept X

I Ablage von semantischen Daten X

Welche Daten der Netzwerke sind relevant?

AAN: Analysis and integration of Web 2.0 data sources 16

Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen

Kriterien fur Daten

I Relevanz fur AAN

I Offentliche Daten

I Statische Eingenschaften

I Konsistente Nutzung

Verfugbare Datentypen

I Klassen

I Relationen

I Eigenschaften

AAN: Analysis and integration of Web 2.0 data sources 17

Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen

Kriterien fur Daten

I Relevanz fur AAN

I Offentliche Daten

I Statische Eingenschaften

I Konsistente Nutzung

Verfugbare Datentypen

I Klassen

I Relationen

I Eigenschaften

AAN: Analysis and integration of Web 2.0 data sources 17

Delicious III. Web 2.0 Netzwerke als Datenquellen

Delicious: Social Bookmarking

AAN: Analysis and integration of Web 2.0 data sources 18

Delicious III. Web 2.0 Netzwerke als Datenquellen

AAN: Analysis and integration of Web 2.0 data sources 19

SlideShare III. Web 2.0 Netzwerke als Datenquellen

AAN: Analysis and integration of Web 2.0 data sources 20

Scribd III. Web 2.0 Netzwerke als Datenquellen

AAN: Analysis and integration of Web 2.0 data sources 21

Dokumentennetzwerke III. Web 2.0 Netzwerke als Datenquellen

AAN: Analysis and integration of Web 2.0 data sources 22

Schnittstellen III. Web 2.0 Netzwerke als Datenquellen

Schnittstellen der Netzwerke

Kriterien fur Schnittstellen

I Offentlich zugangliche Daten

I Alle zuvor gewahlten Daten

I Moglichst keine storenden Restriktionen

I Moglichst strukturierte Daten

AAN: Analysis and integration of Web 2.0 data sources 23

Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen

Schnittstellen: Delicious

I API: Zugriff personlicher Daten (Login)I Feeds: Beschrankungen

I 1 Aufruf pro SekundeI Maximal 100 zuruckgegebene Bookmarks

I HTML: Nicht strukturiert

Offentlich Strukturiert

API - XFeeds X XHTML X -

AAN: Analysis and integration of Web 2.0 data sources 24

Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen

Genutzte Delicous Feeds (10/23)

URLTag(s)

Tag(s)

Actor(s)

Tag(s)

URL

Actor

URL(s)

Tag(s)

Tag(s)

Tag(s)

URL

Actor

Actor

Actor

Actor

Actor

bmPopularByTag

bmByTags

bmByUrl

bmByUser

bmByUserAndTags

networkFans

networkMembers

tagsByUser

tagsByUserAndTags

urlInfo URL

Tags

Users

Bookmarks

Input classes Output schemesFeed patterns Output classes

Actor

URL

Tag

AAN: Analysis and integration of Web 2.0 data sources 25

Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen

Schnittstellen: SlideShare

Artefact

KeywordActor

get_user_contacts(username)

get_slideshows_by_user(username)get_slideshows_by_tag(tag)

Query ID | URL

search_slideshows(query) get_slideshow(id | url)

API method

XML Response

API:4 von 13 Methodendecken Bedarfsemantischer Daten

HTML:Zusatzlich furVolltexte undKategorien

AAN: Analysis and integration of Web 2.0 data sources 26

Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen

Schnittstellen: Scribd

Artefact

KeywordActor

docs.search(@tag)

Query

docs.search(query)

API method

HTML parser

ACT²

AA

AA

Keywordsof Artefact

API:1 von 24 Methodenliefert verwendbareDaten

HTML:Fur zusatzlichenBedarf

AAN: Analysis and integration of Web 2.0 data sources 27

AAN Framework IV. AAN Framework

IV. Das AAN Framework

Wir kennen:

I Artefact-Actor-Networks Konzept X

I Ablage von semantischen Daten X

I Daten in Netzwerken X

Jetzt wird es praktischer: Das AAN Framework

I Grundlage: Die OSGi Service Platform (Java)

I Architektur des AAN Frameworks

I In Arbeit entwickelte Komponenten

AAN: Analysis and integration of Web 2.0 data sources 28

OSGi IV. AAN Framework

OSGi Service Platform

I Spezifikation der OSGi Alliance

I Verschiedene Implementationen,u.a. Equinox (Eclipse Foundation)

I Java-basiert → Portabilitat

I Abhangigkeitsmanagement operiert auf Versionierung

I Bundles: Ressourcen und Klassen

I Statischer Export oder

I dynamisch angebotene ServicesImplementierungen von Interfaces,registriet bei Service Registry

AAN: Analysis and integration of Web 2.0 data sources 29

AAN Framework IV. AAN Framework

Architektur AAN Framework

AAN: Analysis and integration of Web 2.0 data sources 30

Entwickelte Komponenten V. Entwickelte Komponenten

V. Entwickelte Komponenten

Bisher behandelt:

I AAN Konzept X

I Semantische Daten X

I Daten in Netzwerken X

I AAN Framework X

Nun zu den entwickelten Komponenten.

Fur jede der 3 Datenquellen war zu entwickeln:

I Crawler Komponente

I Parser Komponente

AAN: Analysis and integration of Web 2.0 data sources 31

Entwickelte Komponenten V. Entwickelte Komponenten

Entwickelte OSGi Bundles

Crawler Komponenten:

I Schnittstellen: Webservice, Observierung, Job Behandlung

I Durchlaufen der Netzwerk-Strukturen

Parser Komponenten:

I Schnittstellen: Parsen moglich? Parsen.

I Extraktion relevanter Daten

I Speicherung im Modell

I Erstellen von Folgeauftragen

AAN: Analysis and integration of Web 2.0 data sources 32

Workflows V. Entwickelte Komponenten

Workflows Crawling Komponenten

AAN: Analysis and integration of Web 2.0 data sources 33

Workflows V. Entwickelte Komponenten

Workflow Scribd Parser

AAN: Analysis and integration of Web 2.0 data sources 34

Workflows V. Entwickelte Komponenten

Workflow Delicious Crawler Manager

AAN: Analysis and integration of Web 2.0 data sources 35

Workflows V. Entwickelte Komponenten

Workflow Delicious Crawler Manager

AAN: Analysis and integration of Web 2.0 data sources 36

Ergebnisse und Ausblick VI. Ergebnisse und Ausblick

VI. Ergebnisse und Ausblick

Behandelt wurden:

I AAN Konzept X

I Semantische Daten X

I Daten in Netzwerken X

I AAN Framework X

I Entwickelte Komponenten X

Abschließend eine Ubersicht der Ergebnisse und ein Ausblick

AAN: Analysis and integration of Web 2.0 data sources 37

Ergebnisse VI. Ergebnisse und Ausblick

Ergebnisse

I Komplette Daten Ontologie aus allen Netzwerken X

I Vollstandige Ergebnisse fur SlideShare und Scribd X

I Volltexte fur Delicious und SlideShare X

I Keine Volltexte aus Scribd(Optionale Anforderung in der Zielvereinbarung)In Zukunft: Daten aus PDFs extrahieren?

I Keine vollstandigen Ergebnisse fur DeliciousWarum?

AAN: Analysis and integration of Web 2.0 data sources 38

Ergebnisse VI. Ergebnisse und Ausblick

Beschrankungen Delicious Feeds

AAN: Analysis and integration of Web 2.0 data sources 39

Ergebnisse VI. Ergebnisse und Ausblick

Delicious Analyse Fallbeispiel

I Job: Delicios Tag”fsln10“

I Es gibt 387 BM von 12 Akteuren,384 BM ohne Doppel-Eintrage

I Job mit rekursiven Anfragen, interner Tiefe 1 (ca. 25 Minuten)

I 630 Artefakte von 7 Akteuren wurden gecrawlt

I Das sind 327 BM(grep -o http://delicious.com/url/ artefact-list.xml | wc -w)

I Job mit rekursiven Anfragen, interner Tiefe 2

I 733 Artefakte von 10 Akteuren wurden gecrawlt

I Das sind 383 BM

AAN: Analysis and integration of Web 2.0 data sources 40

Ergebnisse VI. Ergebnisse und Ausblick

Delicious Analyse Fallbeispiel

Benutzer Webseite Job 1 Differenz Job 2 Differenzjul. 120 120 0 120 0wol. 126 126 0 126 0syw. 97 52 45 96 1seb. 9 9 0 9 0Den. 12 12 0 12 0rol. 1 1 0 1 0

mey. 7 7 0 7 0chr. 1 0 1 1 0eva. 10 0 10 10 0dig. 2 0 2 1 1moi. 1 0 1 1 0cwa. 1 0 1 0 1

Gesamt 387 327 60 383 3 oder 4

AAN: Analysis and integration of Web 2.0 data sources 41

Ausblick VI. Ergebnisse und Ausblick

Ausblick

I Analyse: Auswertung zu Delicious und Slideshareim Journal of Computer Science and Technology(Beitrage bis 1. Oktober 2010)

I Aktive Weiterentwicklung Visualisierung und Analyse imFachgebiet DDI

I Projektgruppe: knowAAN Voraussichtlich im WS 2010/11

I Seminar: Future Social Learning Networks im WS 2010/11

AAN: Analysis and integration of Web 2.0 data sources 42

Fazit VI. Ergebnisse und Ausblick

Personliches Fazit

Wissen in verschiedenen Bereiche erworben:

I Theorie (z.B. Reprasentation von Semantiken)

I Technik (z.B. Architektur OSGi Platform & AAN Framework)

I Praxis (Entwurf & Entwicklung der Komponenten)

I Teamarbeit, Englisch-Kenntnisse

Vielen Dank!

AAN: Analysis and integration of Web 2.0 data sources 43

Anhang: Vereinfachte Ontologie V2, Stand: Juli 2010

Grundontologie

AAN: Analysis and integration of Web 2.0 data sources 44

top related