Otto-von-Guericke-Universit¨ at Magdeburg Thema: Transformierung von HTML-Daten in eXtensible Topic Maps zur Visualisierung von Informationen am Beispiel des Online-Lexikons Wikipedia Diplomarbeit Fakult¨ at f¨ ur Informatik Arbeitsgruppe Wirtschaftsinformatik Themensteller: Prof. Dr. rer. pol. habil. Hans-Knud Arndt (FIN/ITI) Betreuer: Dipl.-Kfm. Henner Graubitz vorgelegt von: Lars Twele Abgabetermin: 22. Oktober 2008
68
Embed
Diplomarbeit: Transformierung von HTML-Daten in …bauhaus.cs.uni-magdeburg.de:8080/miscms.nsf... · hierarchisch strukturierter Daten in Form von Textdateien standardisiert. ...
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Otto-von-Guericke-Universitat Magdeburg
Thema:
Transformierung von HTML-Daten in eXtensible Topic Maps zurVisualisierung von Informationen am Beispiel des
Sucht man z. B. eine Biographie von Johann Sebastian Bach und gibt in
einer Internetsuchmaschine “Bach Biographie“ ein, so finden sich unter den
ermittelten Informationen auch Beschreibungen uber Gewasser und histori-
sche Erlauterungen zu Ortschaften die auf “-bach“ enden. Diese Ergebnisse
basieren auf Volltextsuchen und erkennen keine semantischen Informationen
innerhalb der gefunden Dokumente. Ein Werkzeug zur Behebung dieser
Problematik stellt XML dar. Dieses nimmt die Aufgabe war, Dokumente
zu strukturieren und einzelne Abschnitte durch eigene, frei definierbare Ele-
mente hervorzuheben. Doch “fur Anfragen wie ’zeige mir alle Biographien
von Kunstlern, die mit Johann Sebastian Bach befreundet waren”, ist auch
XML nicht geeignet.”(vgl. Muck und Widhalm, 2002, S. 1-2)
Eine Losung hierfur bietet der im Spatherbst 1999 verabschiedete ISO-
Standard 13250 uber Topic Maps. Der Gedanke dabei ist, dass bestehende
Dokumente nicht selbst verandert werden mussen. Vielmehr wird eine exter-
1.2. Ziel und Aufbau der Diplomarbeit 2
ne Sicht mit zusatzlichen Meta-Daten daruber gesetzt, die Topic Map. Spater
wurde dieser ISO-Standard dann als XML Topic Maps in XML formuliert.
1.2 Ziel und Aufbau der Diplomarbeit
Ziel dieser Diplomarbeit ist es eine Moglichkeit zu finden, HTML-Seiten in
XML Topic Maps, kurz XTM, zu uberfuhren. Fur die Realisierung soll ei-
ne Java-Anwendung erstellt werden, die auf Basis der Daten der deutschen
Online-Enzyklopadie Wikipedia1 Topic Maps im Format der XTM erstellt.
Hierbei wird ein Suchbegriff ubergeben, welcher uber Wikipedia.de abgefragt
werden soll. Die zu erstellenden XTM mussen uber eine Schnittstelle einer
nachfolgenden Applikation zur Verfugung gestellt werden, welche diese vi-
suell darstellen wird. In Kapitel zwei dieser Arbeit werden Grundlagen wie
XML, das Modell der Topic Maps, sowie die in XML fomulierte Topic Map
Spezifikation XTM 1.0 erlautert. Zusatzlich bietet Kapitel 2 einen kurzen
Vergleich zwischen dem Topic Map Modell und den XML Topic Maps, sowie
einige praktische Einsatzmoglichkeiten von Topic Maps. In Kapitel drei wird
das Programm selbst vorgestellt und seine Arbeitsschritte erlautert. Kapi-
tel vier bietet abschließend eine Zusammenfassung der Arbeit, sowie einen
Ausblick auf mogliche Erweiterungen.
1 Die Hauptseite befindet sich unter: http://de.wikipedia.org
Kapitel 2
Grundlagen
2.1 Wikipedia
Wikipedia selbst beschreibt sich im deutschen Artikel als ein “Projekt zur
Erstellung einer Online-Enzyklopadie in mehreren Sprachen“. Das Haupt-
merkmal bei diesem Projekt ist, dass jedermann als Autor auftreten und
Artikel verfassen oder verandern kann. Das im Januar 2001 gegrundete
Wikipedia-Projekt versteht sich selbst als “freie Enzyklopadie, weil alle
Inhalte unter freien Lizenzen stehen“. Alle Artikeltexte sind durchgangig
unter die GNU-Lizenz fur freie Dokumentation (englische Originalbezeich-
nung GNU Free Documentation License, kurz GFDL) gestellt. Diese Lizenz
gestattet die Vervielfaltigung, Verbreitung und Veranderung des Werkes,
auch zu kommerziellen Zwecken. Der Lizenznehmer verpflichtet sich dabei
zur Einhaltung der Lizenzbedingungen. Diese Pflichten beinhalten unter
anderem die Nennung des Autors oder der Autoren. Zusatzlich verpflichtet
sich der Lizenznehmer dazu, abgeleitete Werke ebenfalls unter die GFDL zu
stellen (Free Software Foundation, 2008, vgl.).
Um einzelne Artikel der Wikipedia untereinander zu verknupfen, haben
die Autoren die Moglichkeit, uber eine einfache Syntax entsprechende
HTML-Links (siehe dazu auch Abschnitt 2.2.4) einzufugen. Hierzu werden
entsprechende Begriffe in doppelte eckige Klammern gesetzt, z. B. [[Bei-
spiel]]. Die Software wandelt automatisch entsprechende Begriffe in interne
Links auf die jeweiligen Artikel um. Existiert ein solcher Artikel noch nicht,
2.2. XML 4
so wird der Link in der Farbe rot dargestellt. Folgt ein Benutzer diesem
Link durch anlicken, so offnet sich eine Eingabemaske, welche die soforti-
ge Erfassung eines entsprechenden neuen Artikels erlaubt. “Diese einfache
Verlinkungsmoglichkeit hat dafur gesorgt, dass die Artikel der Wikipedia
wesentlich dichter miteinander vernetzt sind, als die der herkommlichen
digitalen Enzyklopadien.“1
2.2 XML
Mit der Extensible Markup Language (kurz XML) wurde vom World Wide
Web Consortium im Jahr 1998 eine Auszeichnungssprache zur Darstellung
hierarchisch strukturierter Daten in Form von Textdateien standardisiert.
Sie wird oft als Nachfolger der Hypertext Markup Language (kurz HTML)
bezeichnet. XML stellt eine Teilmenge der Standard Generalized Markup
Language (kurz SGML) dar, welche 1986 von der International Organizati-
on for Standardization (kurz ISO) als Norm “ISO 8879“ verabschiedet wurde
(vgl. Mohr und Schmidt, 1999, S. 52). “SGML ist wie XML eine Metasprache,
also eine Sprache zur Festlegung von Sprachen. SGML legt normativ fest, wie
Sprachen definiert sein mussen, die Informationen innerhalb von Dokumen-
ten in einer fur Maschinen verarbeitbaren Form kennzeichnen sollen”(vgl.
Heinz Wittenbrink, 2003, S.58). Aufgabe von XML ist der Austausch von
Informationen, zu diesem Zweck wird strikt zwischen Daten und der Verar-
beitung von Daten getrennt. Es bleibt offen, welche Software fur die Verar-
beitung der Daten verwendet werden soll, XML ist ein reines Textformat. So
ist die Moglichkeit gegeben, dass sowohl Mensch als auch Maschine den In-
halt verstehen. Dadurch ist der Datenaustausch unabhangig von technischen
1 Informationen entnommen aus (Wikimedia Foundation Inc., 2008)
2.2. XML 5
Implementierungen.2 XML-Dokumente lassen sich anhand ihres Gebrauchs
in dokumenten- und datenzentriert unterscheiden:
dokumentenzentriert: In diesem Fall dient XML vor allem dem Transport
und der Speicherung von Informationen. Bei den Dokumenten handelt
es sich vielfach um Informationen in Textform oder um Daten fur die
Verwendung in Medien, die zusammen mit Texten verarbeitet und dar-
gestellt werden sollen. Der Inhalt ist fur einen menschlichen Leser zum
großen Teil auch ohne die Meta-Informationen verstandlich. Die XML-
Elemente werden lediglich zur Markierung bestimmter Textpassagen
verwendet, das Dokument ist also wenig strukturiert.
datenzentriert: Hier soll XML hauptsachlich dafur sorgen, dass ausge-
tauschte Daten auch korrekt weiter verarbeitet werden konnen. Das
Dokument folgt einem Schema, welches Entitaten eines Datenmodells
beschreibt und definiert, in welcher Beziehung die Entitaten zueinander
stehen. Ebenfalls ist festgelegt, welche Attribute die Entitaten haben.
Im Fall der Datenzentrierung ist das Dokument stark strukturiert und
daher fur eine maschinelle Verarbeitung geeignet.3
2.2.1 Der Aufbau eines XML-Dokuments
In diesem Abschnitt soll erlautert werden, wie ein XML-Dokument aufgebaut
ist und welche Konventionen erfullt werden mussen. Gerade im Hinblick auf
den Datenaustausch mussen allgemein gultige Regeln verwendet werden, in-
nerhalb derer sich Autoren von XML-Dokumenten bewegen durfen.
2 Als Beispiel sei hier das ”Formatproblem“ zwischen diversen Textverarbeitungen ge-nannt. Eine Entwicklung in die Richtung eines offenen Datenaustausches ist das “OpenDocument Format for Office Applications“, welches 2006 als ISO Standard ISO/IEC26300:2006 verabschiedet wurde. Als ”Gegengewicht“ hat die Microsoft Corporationihr Spezifikation Office Open XML (OOXML) ebenfalls 2007 zur Standardisierung an-gemeldet. In diesem Jahr wurde OOXML ebenfalls zum Standard erhoben (ISO DIS29500).
3 (siehe dazu Heinz Wittenbrink, 2003, S. 23-24)
2.2. XML 6
Markup: XML-Tags sind immer durch spitze Klammern gekennzeich-
net. Sie umschließen den Element-Namen und eventuelle Attribute
(<element id=’1’>Text</element>). Die Groß- und Kleinschreibung
ist entscheidend. Wenn in einem Starttag eines Elements Attribute
vorkommen, so mussen diese in XML sowohl mit Attribut-Namen
als auch einem Attribut-Wert angegeben werden. Zusatzlich mussen
die Werte in Anfuhrungszeichen stehen. Diese Konventionen sollen
es erleichtern, Werkzeuge fur die Erstellung und Verarbeitung von
XML-Dokumenten zu programmieren. Ein Parser4 muss nicht erst
erkennen, wie z.B. Elemente oder Attribute geschrieben werden, auch
die Bedeutung von spitzen Klammern zur Abgrenzung von Tags ist
einfach festgelegt.
Wohlgeformtes XML: “Bei der Prufung von XML-Dokumenten wird
grundsatzlich zwischen der Prufung der Wohlgeformtheit und der
Gultigkeit unterschieden“ (vgl. Vonhoegen, 2005, S. 58). Fur die
Wohlgeformtheit mussen die folgende Punkte erfullt sein:
• Das Dokument besitzt genau ein ”Wurzel-Element”(engl. “root-
element“).
• Alle Elemente mit Inhalt besitzen ein Start- und Endtag (z. B.
<element>Text1</element>). Leere Elemente, also solche ohne
Inhalt, konnen auch in sich geschlossen sein, wenn sie aus nur
einem Tag bestehen, welches mit /> abschließt (z. B. <element/>).
• Die Start- und Endtags sind ebenentreu-paarig verschachtelt.
• Ein Element darf nicht mehrere Attribute mit demselben Namen
besitzen.
4 “Den Vorgang, bei dem der Computer einer Zeichenfolge <abc>xyz</abc> entnimmt,dass es sich bei ’xyz’ um ein Element vom Typ ’abc’ handelt, bezeichnet man als ’Par-sen’ oder ’Analysieren’ der Zeichenkette (engl.: to parse; der englische Ausdruck bedeu-tet ursprunglich das Zerlegen eines Satzes in seine Bestandteile und seine grammatischeAnalyse“ (vgl. Heinz Wittenbrink, 2003, S. 91). Ein Parser ist also ein Programm, odereine Programmkomponente, die einem Dokument die darin enthaltenen Informationenentnimmt.
2.2. XML 7
Doch das folgende Beispiel soll verdeutlichen, dass es nicht immer
ausreicht, wenn ein XML-Dokument wohlgeformt ist.
<tierprodukte>
<milchprodukt>Kase</milchprodukt>
<getreidesorte>Weizen</getreidesorte>
</tierprodukte>
Zwar ware der Beispielausschnitt wohlgeformt, es ist also kein syntakti-
scher Fehler zu finden, aber die Bedeutung ist falsch. Eine Getreidesorte
kann semantisch kein Unterelement eines Tierproduktes sein.
Gultiges XML: Wahrend sich die Prufung auf Wohlgeformtheit gewisser-
maßen mit den Außerlichkeiten beschaftigt, gibt es noch eine wesentlich
strengere Prufung fur ein XML-Dokument, die Prufung auf Gultigkeit.
Diese setzte aber auch voraus, dass die Prufung auf Wohlgeformtheit
bestanden wurde. Die Prufung auf Gultigkeit, auch Validierung ge-
nannt, stellt fest, ob das Dokument einen Verweis auf eine bestimmte
Grammatik enthalt und dieser folgt. Ein Element <adresse> kann zwar
die Unterelemente <strasse> und <plz> haben, jedoch normalerweise
kein <geburtsdatum>. Bei der Validierung erfolgt also eine Kontrolle
darauf, welche Elemente ein Dokument haben darf oder muss und wel-
che Eigenschaften wiederum diese Elemente haben durfen oder mussen.
Ein solches “Regelwerk“ erlautert der folgende Abschnitt.
Dokumententyp-Definition: Um ein Regelwerk fur die Gultigkeit ei-
nes XML-Dokumentes festzulegen, besteht die Moglichkeit, eine
Dokumenttypdefinition (kurz DTD) zu definieren. Die Syntax von
Dokumenttyp-Definitionen wird in Abschnitt 2.2.2 naher erlautert.
Physische Struktur: Ein Dokument besteht sowohl aus physischen Ein-
heiten, als auch aus inhaltlichen oder logischen Einheiten. Ein XML-
Dokument kann physisch auf einer Festplatte gespeichert sein. Eine
solche physische Einheit bezeichnet der XML Standard auch als “enti-
2.2. XML 8
ty“, wobei ein Dokument auch aus mehreren Entitaten bestehen kann.
Die ist der Fall, wenn innerhalb eines Dokumentes (welches die erste
Entitat darstellt) eine Referenz auf ein anderes Dokument (eine weitere
Entitat) enthalten ist. Optional wird eine XML-Deklaration verwendet,
um XML-Version, Zeichenkodierung und Verarbeitbarkeit ohne Doku-
menttypdefinition zu spezifizieren. Eine Dokumenttypdefinition wird
(ebenfalls optional) verwendet, um Entitaten sowie den erlaubten logi-
schen Aufbau zu spezifizieren.
Logische Struktur: Der Aufbau eines XML-Dokuments entspricht einer
Baumstruktur und ist damit hierarchisch. Als Baumknoten konnen Ele-
In der Abbildung 2.3 werden Namensvarianten als Rechteck unter dem je-
weiligen Topic angezeigt, wobei in der Grafik nur einige Moglichkeiten ver-
zeichnet sind.
2.3. ISO 13250 - Der Topic Map Standard 21
2.3.1.2 Topic Occurrrences
Occurrences geben externe Ressourcen zu einem Topic an. Es konnen
vielfaltige Arten von Ressourcen referenziert werden: Bilder, Video- oder
Audiodateien, Web- oder normale Dokumente. Im Fall von Frau Merkel
konnte eine Ressource z.B. der Link auf ein Portrait-Foto von ihr sein.
Zusatzlich ist ein Verweis auf eine Biographie und einen Audiomitschnitt
einer ihrer Ansprachen denkbar.
Jede Occurrence kann eine bestimmte Rolle, die Occurrence Role einnehmen.
Hiermit wird die Art der Ressource definiert. Jede Occurrence Role muss
selbst wieder ein Topic sein, damit eine “Verknupfung“ hergestellt werden
kann. Abbildung 2.4 zeigt, dass das Topic “Berlin“ eine Occurrence auf einen
Stadtplan im Web beinhalten kann. Diese Occurrence wiederum konnte dann
die Occurrence Role “Stadtplan“ haben. Auch das Topic “Stadplan“ muss
hierzu existieren.
Stadt
Berlin
Paris
vom Typ
vom Typ
Stadtplan
URL
vom Typ
Abbildung 2.4: Occurrences
Occurrences und Ressourcen werden mit einer gestrichelte Linie dargestellt.
2.3. ISO 13250 - Der Topic Map Standard 22
2.3.1.3 Public Subject Descriptor
Ein Public Subject Descriptor, kurz PSD, identifiziert ein Topic eindeutig.
Eine Matrikelnummer zum Beispiel identifiziert einen Studenten an der
Universitat Magdeburg. Es besteht aber die Moglichkeit, dass diese Ma-
trikelnummer im Zusammenhang mit einer anderen Universitat auch einen
ganzlich anderen Studenten identifiziert. Denkbar ist also die Identifizierung
uber eine weltweit gultige Sozialversicherungsnummer.
Beim zusammenfuhren zweier Topic Maps werden solche Topics zusammen-
gefasst, die uber den gleichen PSD verfugen. Werden zum Beispiel zwei
Topic Maps vereinigt, die jeweils ein Topic “Munchen“ enthalten, so konnte
folgender Fall auftreten: bei dem Topic der ersten Topic Map wird der Base
Name “Munchen“ verwendet, beim Topic der zweiten Topic Map der Base
Name “munich“. Beide Topics verwenden aber den gleichen PSD. Durch
eine Vereinigung dieser beiden Topics entsteht nun ein neues Topic mit den
Eigenschaften beider Ursprungs-Topics. In diesem Fall hat das neue Topic
“Munchen“ nun einmal den Base Name “Munchen“ und einmal den Base
Name “munich“. Der neue Gultigkeitsbereich (Scope) bildet sich aus der
Vereinigung der Scopes der ursprunglichen Topics.
Das Problematik ist das Fehlen von weltweit gultigen und anerkannten
PSD´s, welche zusatzlich jedem Topic Map Author bekannt sein mussten,
um eine Vereinigung von unterschiedlichen Topic Maps zu ermoglichen.
2.3.2 Associations
Um Zusammenhange von Topics abzubilden, werden Assoziationen verwen-
det (Associations). Beliebig viele Topics konnen an einer Assoziation teilha-
ben. Beispiele fur Assoziationen:
• Berlin ist in Deutschland
• Das Brandenburger Tor ist in Berlin
2.3. ISO 13250 - Der Topic Map Standard 23
• Deutschland grenzt an Frankreich
Eine Assoziation kann maximal einen Typ haben (Association Type). Dieser
Typ muss wiederum ein Topic sein. Im genannten Beispiel sind das “ist in“,
“grenzt an“, “wurde erbaut von“ und “errichtete“. Assoziationen konnen
symmetrisch und auch transitiv sein. Symmetrisch ware “grenzt an“, denn
wenn Deutschland an Frankreicht grenzt, dann grenzt auch Frankreich an
Deutschland. Die Assoziation “ist in“ ist transitiv, denn wenn Berlin in
Deutschland ist und das Brandenburger Tor in Berlin, dann folgt daraus,
dass auch das Brandenburger Tor in Deutschland ist. Jedes Topic, welches
zu einer Assoziation gehort, kann eine Assoziationsrolle (Association Role)
besitzen. Im obigen Beispiel konnte “Berlin“ die Rolle “Stadt“ und “Deutsch-
land“ die Rolle “Land“ haben. Die Rollen selbst werden auch wieder als
Topics deklariert. Im Beispiel in Abbildung 2.5 stellen die Rauten die Asso-
Stadt
Berlin
Paris
vom Typ
vom Typ
Stadtplan
URL
vom TypDeutsch-
land
liegt in
Merkelwohnt in
Rolle:Person
Abbildung 2.5: Associations
ziationen dar. Sie sagen aus, dass Berlin eine Stadt ist, die in Deutschland
liegt. Frau Merkel wohnt in Deutschland.
2.3. ISO 13250 - Der Topic Map Standard 24
2.3.3 Scopes
Bei der Erstellung von Topic Maps wird man fruher oder spater auf Bezeich-
nungen stoßen, welche nicht eindeutig sind. Also Topics, die zwar den gleichen
Namen besitzen, aber unterschiedliche Bedeutungen haben(siehe Abschnitt
2.3.1.3). Wie in Abschnitt 2.3.1.1 erlautert, existieren mehrere Bezeichnun-
gen fur dasselbe Objekt. Um dieses Problem zu umgehen, bietet der Topic
Map Standard die Gultigkeitsbereiche (engl. Scopes). Nehmen wir als Bei-
spiel ein Topic “Paris“. Dies konnte einmal die Hauptstadt von Frankreich
und einmal den Helden aus der griechischen Mythologie bezeichnen. Paris
konnte also einmal den Scope “Landeshauptstadte“ und einmal den Sco-
pe “Griechenland Mythologie“ besitzen. Scopes konnen auch fur die Topics
Names und Associations vergeben werde. Hat man zum Beispiel eine mehr-
sprachige Topic Map und eines der Topics ware die “Sonne“, so waren zwei
unterschiedliche Display Names denkbar, den Display Name “Sonne“ mit
dem Scope “deutsch“ und zusatzlich die Display Names “sol“ und “sun“ fur
die Scopes “spanisch“ und “englisch“. Scopes bestehen aus 1-n Themen. Der
Held Paris besitzt also einen Scope aus den zwei Themen “Griechenland“
und “Mythologie“. Auch Themen selbst mussen wiederum als Topics dekla-
riert werden. In Abbildung 2.6 ist zu erkennen, dass es zwei unterschiedliche
Topics mit dem gleichen Namen “Paris“ gibt. Durch den jeweiligen Scope (in
Abbildung 2.6 als gestrichelte Linie gezeichnet) unterscheiden sie sich aber
in ihrer Bedeutung und stellen so zwei unterschiedliche Topics dar. Auf der
einen Seite das Topic “Paris“ im Zusammenhang mit Geografie und vom
Typ “Stadt“, sowie einmal das Topic “Paris“ im Zusammenhang mit der
Mythologie und vom Typ “Person“.
2.3.4 Facets
Facets bieten die Moglichkeit Topics, Associations oder wiederum anderen
Facets Wertepaare zuzuordnen. Der Landeshauptstadt “Berlin“ konnte man
2.3. ISO 13250 - Der Topic Map Standard 25
Stadt
Berlin
Parisvom Typ
vom Typ
Stadtplan
URL
vom TypDeutsch-
land
liegt in
wohnt in
Rolle:Person
Paris
vom Typ
Person
Geografie
Mythologie
Abbildung 2.6: Scopes
zum Beispiel das Wertepaar Einwohner 3,4 Mio. zuordnen. Dieser Facette
selbst konnte wiederum das Wertepaar Jahr 2005 zugeordnet werden. Die
Verfeinerungen waren noch endlos fortsetzbar. Es gilt hierbei allerdings zu
beachten, dass keine Datentypen unterstutzt werden. Die Werte sind ledig-
lich Zeichenketten, welche entsprechend der Attribut-Regeln von SGML bzw.
XML interpretiert werden.
2.3.5 Topic Maps
Die bisher vorgestellten Elemente werden in Topic Maps zusammengefasst.
Topic Maps selbst konnen Scopes zugeordnet werden, wobei deren Themen
dann fur alle Elemente innerhalb der Topic Map gultig sind. Die einzelnen
Konstrukte innerhalb der Topic Maps haben dabei keine Reihenfolge.
Uber Topic Map Templates besteht die Moglichkeit, vorgefertigte Topic Maps
mit bestimmten Topics in neue Topic Maps zu integrieren. Eine entsprechen-
de Sammlung an Topic Maps vorausgesetzt, konnte ein Author seine Topic
Map aus unterschiedlichen anderen Templates zusammenfugen. Eine neue
2.3. ISO 13250 - Der Topic Map Standard 26
Topic Map uber klassische Musik konnte zum Beispiel fur das Topic “Johann
Sebastian Bach“ eine andere Topic Map uber eben diese Person integrieren,
wobei diese dann bereits entsprechende Occurrences, Topic Names etc. en-
hielte. So konnten neue Topic Maps rein aus der Vernetzung von bereits
Topic Map
Topic MapTemplate
Topic MapTemplate
Topic MapTemplate
Topic MapTemplate
Topic MapTemplate
Topic MapTemplate
Abbildung 2.7: Topic Map Templates
existierenden Topic Maps und Templates entstehen. Dies wird in Abbildung
2.7 dargestellt.
2.3.6 Bounded Object Sets
Das Konzept, welches die Vernetzung von Topic Maps definiert, ist das Boun-
ded Object Set, kurz BOS. Der ISO/IEC 13250 definiert dies frei ubersetzt
als “Satz von einem oder mehreren Dokumenten und anderen Informations-
objekten, welche der verarbeitenden Applikation bekannt sind, oder gemein-
sam verarbeitet werden“ (vgl. International Organization for Standardizati-
on, 2002). Eines dieser Dokumente ist dabei das sogenannte hub document,
welches als Einstiegspunkt oder auch “Wurzel“ des BOS dient. Das hub do-
2.4. XML Topic Maps 27
cument muss dabei selbst nicht das Wurzeldokument sein, sondern kann in
anderen Dokumenten eingebunden sein, welche dann selbst nicht Teil des
BOS sind.
2.4 XML Topic Maps
Der Beginn von XML und die Akzeptanz von XML als die Lingua Fran-
ca6, oder auch Verkehrssprache des Webs fur die Kommunikation zwischen
dokumenten- und datenbankgetriebenen Informationssystemen, erzeugte den
Bedarf nach einer weniger flexibleren, weniger beangstigenden Syntax fur
Webapplikationen und -user. Nach dem die ISO 13250 Topic Maps Spe-
zifikation veroffentlich worden war, begann eine unabhangige Organisation
mit dem Namen TopicMaps.Org7 damit, so schnell wie moglich eine Formu-
lierung des ISO-Standards in XML auszuarbeiten. Bereits ein Jahr spater
prasentierten sie den Kern der Spezifikation auf der XML 2000 Konferenz in
Washington D.C. Im Marz 2001 folgte dann die finale Version der XTM 1.0
(vgl. Park und Hunting, 2003, S.39-40). Im Folgenden werden die Elemente
der XTM Spezifikation 1.0 in Verbindung mit der gultigen DTD vorgestellt.
2.4.1 <topic>, <instanceOf>, <subjectIdentity>,
<baseName> und <occurrence>
Wie auch im ISO 13250 ist das zentrale Element das topic-Element. Um
Topic´s eindeutig innerhalb einer Topic Map zu identifizieren, erhalten sie das
Attribut “id“. Eine ID ist zwingend erforderlich. Der Wert fur dieses Attribut
kann innerhalb der Namenskonvention ID frei vergeben werden, darf aber
6 Als Lingua Franca wird in der erweiterten Bedeutung eine Sprache bezeichnet, die furSprecher unterschiedlicher Sprachgemeinschaften als Verkehrssprache dient.
7 siehe dazu die Internetprasenz unter http://www.topicmaps.org
2.4. XML Topic Maps 28
innerhalb der Topic Map nur einmal vorkommen. Die XTM DTD8, definiert
als Elemente innerhalb eines Topics folgende untergeordneten Elemente:
<instanceOf> Mit diesem Element lasst sich festlegen, ob das Topic selbst
wiederum einem anderen Topic zugeordnet werden kann. Zum Beispiel
konnte das Topic “Merkel“ eine Instanz des Topics “Person“ sein. Die-
ses Element kann beliebig oft innerhalb eines Topics vorhanden sein.
<!ELEMENT instanceOf ( top i cRe f | s u b j e c t I n d i c a t o r R e f )>
<!ATTLIST instanceOf id ID #IMPLIED>
Die hier aufgefuhrten untergeordneten Elemente werden spater erklart.
<subjectIdentity> Um den Gegenstand eines Topics genauer zu identifi-
zieren, so das ihn sowohl Mensch als auch Maschine verstehen, gibt es
das Element subjectIdentity.
<!ELEMENT s u b j e c t i d e n t i t y ( r e s sou r c eRe f ? ,
( top i cRe f | s u b j e c t I n d i c a t o r R e f )∗ )>
<!ATTLIST s u b j e c t i d e n t i t y id ID #IMPLIED>
Die Identitat des Gegenstands kann durch die jeweilige Ressource be-
stimmt oder bezeichnet werden.
<baseName> Dieses Element legt, analog zu den Topic Names aus Abschnitt
2.1, die Bezeichnung des Gegenstands fest. Ein Topic kann 0 bis n
baseName-Elemente besitzen. Uber den jeweiligen Scope wird der Gel-
tungsbereich geregelt. Zum Beispiel kann ein und dasselbe Topic unter-
schiedliche Bezeichnungen in der deutschen und der englischen Sprache
haben. Sollte also ein Benutzer der Topic Map diese in der englischen
Variante verwenden, so erscheint fur ihn der baseName mit dem Scope
fur die englische Sprache als Bezeichner des Topics.
<!ELEMENT baseName ( scope ? ,
baseNameString , va r i an t ∗ )>
<!ATTLIST baseName id ID #IMPLIED>
8 die XTM DTD ist zu finden unter: http://topicmaps.org/xtm/index.html#dtd
2.4. XML Topic Maps 29
<occurrence> Uber das occurrence-Element werden die Ressourcen bekannt
gemacht, die zu einem Topic gehoren. Uber das bereits bekannte “in-
stanceOf“ kann definiert werden, von welchem Typ die Ressource ist.
Uber einen “scope“ kann ein Gultigkeitsbereich angegeben werden.
<!ELEMENT occurrence ( ins tanceOf ? , scope ?
( r e s s ou r c eRe f | res sourceData ) )>
<!ATTLIST occurrence id ID #IMPLIED>
<topicRef> Das topicRef-Element ist ein leeres Element, seine Informatio-
nen sind also in den Attributen enthalten. Es zeigt auf ein anderes
Element, welches ein Topic sein muss.
<!ELEMENT top icRe f EMPTY>
<!ATTLIST top i cRe f id ID #IMPLIED
x l i nk : type NMTOKEN #FIXED ’ s imple ’
x l i nk : h r e f CDATA #REQUIRED>
<subjectIndicatorRef> Auch das subjectIndicatorRef-Element ist ein lee-
res Element. Es weist die gleichen Attribute auf, wie das vorherige
“topicRef“. Der Unterschied liegt darin, dass das referenzierte Element
kein Topic sein muss, sondern jede Art Element gultig ist. Es kann also
anstatt des “topicRef“ verwendet werden, wenn es syntaktisch nicht
notwendig ist ein Topic zu referenzieren.
<!ELEMENT s u b j e c t I n d i c a t o r R e f EMPTY>
<!ATTLIST s u b j e c t i n d i c a t o r R e f id ID #IMPLIED
x l i nk : type NMTOKEN #FIXED ’ s imple ’
x l i nk : h r e f CDATA #REQUIRED>
<baseNameString> Der “basenameString“ enthalt eine reine Zeichenkette.
Diese wird als Name fur das Topic verwendet.
<!ELEMENT baseNameString (#PCDATA)>
<!ATTLIST baseNameString id ID #IMPLIED>
2.4. XML Topic Maps 30
<variant> Uber das variant-Element werden alternative Namen fur das je-
weilige Topic eingebunden. Varianten konnen rekursiv verwendet wer-
den um Hierarchie von moglichen Varianten zu beschreiben.
<!ELEMENT var i ant ( parameters ,
variantName ? , va r i an t ∗)><!ATTLIST var i an t id ID #IMPLIED>
<variantName> Dieses Element spezifiziert den zu verwendenden Varianten-
namen. Es kann entweder eine Ressource in Form einer Datei oder eine
Zeichenkette sein.
<!ELEMENT variantName
( re sourceRe f | resourceData)>
<!ATTLIST variantName id ID #IMPLIED>
<parameters> Gibt an in welchem Kontext die Namensvariante zutrifft.
<!ELEMENT parameters
( top i cRe f | s u b j e c t I n d i c a t o r R e f )+ >
<!ATTLIST parameters id ID #IMPLIED>
2.4.2 <association>, <scope>, <mergeMap> und
<topicMap>
Die im Abschnitt 2.4.1 aufgefuhrten Elemente bilden das Grundgerust um
Objekte, also Topics, abzubilden. Doch wirklich Sinn ergibt eine Topic Map
nur, wenn auch Beziehungen zwischen den einzelnen Gegenstanden aufgezeigt
werden konnen. Auch das Einbinden von externen Topic Maps soll ermoglicht
werden und abschließend benotigt man noch den Container fur alle Elemente,
die Topic Map selbst. Im folgenden werden die hierfur benotigten Elemente
aufgezeigt.
2.4. XML Topic Maps 31
<association> Die Beziehungen zwischen Topics werden uber das association-
Element abgebildet. Die Topics werden hier als “member“ dieser As-
soziation dargestellt, wobei 1 - n Topics moglich sind. Auch hier kann
es einen “scope“ geben, welcher angibt, wann diese Assoziation gultig
ist. Der jeweilge Typ der Beziehung kann als “instanceOf“ angegeben
werden.
<!ELEMENT a s s o c i a t i o n ( ins tanceOf ? , scope ? ,
member+)>
<!ATTLIST a s s o c i a t i o n id ID #IMPLIED>
<member> Das member-Element stellt den Container fur 1 - n Topics, welche
eine bestimmte Rolle in einer Assoziation spielen.
<!ELEMENT member ( ro l eSpec ? , ( top i cRe f |r e s s ou r c eRe f | s u b j e c t I n d i c a t o r R e f )∗)>
<!ATTLIST member id ID #IMPLIED>
<roleSpec> Uber dieses Element wird die Rolle eines member-Elementes
festgelegt, welche es in der Assoziation spielt.
<!ELEMENT r o l s e Sp ec ( top i cRe f | s u b j e c t I n d i c a t o r R e f )>
<!ATTLIST ro l eSpec id ID #IMPLIED>
<scope> Der Geltungsbereich legt wie bereits in obigen Elementen beschrie-
ben fest, in welchem Zusammenhang ein Element Verwendung findet.
Scopes werden verwendet bei Zuweisung von Namen, bei occurrence-
Elementen und bei Assoziationen.
<!ELEMENT scope ( top i cRe f |r e s o u r c e R e f | s u b j e c t I n d i c a t o r R e f )+>
<!ATTLIST scope id ID #IMPLIED>
<mergeMap> Mit Hilfe des mergeMap-Elementes werden andere Topic Maps
referenziert, welche in die aktuelle XTM integriert werden sollen. Das
2.5. Unterschiede zwischen ISO-Topic Maps und XTM 32
mergeMap-Element ist hierbei equivalent zu den aus Programmierspra-
chen bekannten INCLUDE oder IMPORT uber welche externer Programm-
code zur Laufzeit in den ursprunglichen Programmcode implementiert
und interpretiert wird.
<!ELEMENT mergeMap ( top i cRe f | r e sourceRe f |s u b j e c t I n d i c a t o r R e f )∗>
<!ATTLIST mergeMap id ID #IMPLIED
x l i nk : type NMTOKEN #FIXED ’ s imple ’
x l i nk : h r e f CDATA #REQUIRED>
Damit wurden nun fast alle Elemente des XTM 1.0 Standards vorgestellt,
bis auf das root-Element einer jeden XTM: das Element “topicMap“ selbst.
<topicMap> Dieses Element stellt den Container fur alle anderen Elemente
dar und ist somit das root-Element einer XTM.
<!ELEMENT topicMap ( top i c | a s s o c i a t i o n |mergeMap)∗>
<!ATTLIST topicMap id ID #IMPLIED
xmlns CDATA #FIXED
’ http ://www. topicmaps . org /xtm/1 .0 ’
xmlna : x l i nk CDATA #FIXED
’ http ://www. wr . org /1999/ x l i nk ’>
2.5 Unterschiede zwischen ISO-Topic Maps
und XTM
In den vorhergehenden Unterpunkten wurde sowohl das Topic Map Para-
digma nach dem ISO 13250 Standard als auch die XML Topic Maps nach
der XTM 1.0 DTD vorgestellt. Zusammenfassend sollen hier noch einmal in
2.6. Einsatzmoglichkeiten von Topic Maps 33
kurzer Ubersicht die Unterschiede der beiden aufgelistet werden. Es lasst sich
also sagen: XTM 1.0
• basiert auf XML
• definiert eine einzelne DTD anstatt einer ganzen Architektur
• eliminiert das “facet“-Element des ISO 13250, da in den XML Topic
Maps eine aquivalente Funktionalitat durch das “association“-Element
zur Verfugung steht
• vereint “sortname“ und “dispname“ durch das Konzept des “variant“-
Elementes und der dazugehorigen Unterelente
• fuhrt den Unterschied zwischen bestimmender und bezeichnender Res-
source ein
• verwendet die XLink9 Syntax, wohin gegen ISO Topic Maps frei adres-
sierbare Schemata verwenden
• verwendet XML-typische lange tag-Bezeichner ( als Beispiel “associa-
tion“ anstatt “assoc“)
• setzt auf Element Typen anstatt auf Attributzuweisungen, soweit
moglich
2.6 Einsatzmoglichkeiten von Topic Maps
In diesem Abschnitt soll ein Uberblick uber einige praktische Einsatzmoglichkeiten
von Topic Maps gegeben werden und welcher Vorteil bzw. Nutzen aus der
Anwendung in unterschiedlichen Bereichen gezogen werden kann.
9 XLink ist eine auf XML basierende Sprache zur Beschreibung und Erzeugung ver-schiedener Arten von Links innerhalb oder zwischen XML-Dokumenten (vgl. Ge-roimenko, 2004, S. 194). XLink steht fur XML Linking Language und entsprichtin der Version 1.0 vom Juni 2001 der Empfehlung des W3-Consortiums (siehehttp://www.w3.org/TR/xlink/).
2.6. Einsatzmoglichkeiten von Topic Maps 34
2.6.1 Informationssuche im Internet
Bereits vor 10 Jahren, also im Juli 1998, verzeichnete die DENICeG10 175.667
registrierte .de-Domains. Heute, Stand Juli 2008, sind bereits 12.148.809 .de-
Domains registriert, Tendenz steigend. Das entspricht einer Steigerung
von uber 6.900%. Allerdings befand sich das Internet vor 10 Jahren noch
vergleichsweise in den Anfangen, erst 1990 erfand Sir Tim Berners-Lee
uberhaupt das World Wide Web (siehe Berners-Lee, 1997). Allein seit Be-
ginn dieses Jahres stieg die Anzahl der bei der DENICeG regsitrierten
Domains um uber 500.000 an (Stand 10.08.2008). Unter der Annahme, dass
im gleichen Maß die verfugbaren Informationen entsprechend zunahmen,
lasst sich erkennen, dass Hilfsmittel benotigt werden, um gewunschte Infor-
mationen in einer solche Informationsmenge aufzufinden. Diese Mittel sind
Webverzeichnisse und Suchmaschinen.
Webverzeichnisse: Als Webverzeichnisse oder auch Webkataloge werden
Sammlungen von Adressen von Webseiten bezeichnet, die sich im WorldWi-
deWeb finden lassen. Diese Kataloge werden von menschlichen Redakteu-
ren manuell gepflegt. Links werden ihrem Thema entsprechend zusammen-
gefasst und in Kategorien eingeordnet. Diese Kategorien wiederum haben
selbst Unterkategorien, so dass es einem Benutzer moglich ist, anhand dieser
hierarchischen Struktur zu navigieren. Durch das redaktionelle Bearbeiten
ist es moglich eine hohe Qualitat des Kataloges sicherzustellen, allerdings
ist der Aufwand hoch, so dass nicht das komplette Web abgebildet werden
kann. Daher beschranken sich solche Webkataloge meist auf ein eingegrenz-
tes Themengebiet. Eines der bekanntesten Beispiel ist das Portal YAHOO!11.
Die Einsatzmoglichkeit von Topic Maps innerhalb solcher Kataloge sieht der
Autor als vom Aufwand her uberschaubar an. Da hier bereits menschliche
Redakteure die Links auswerten, lasst sich wahrend dieses Prozesses bereits
ein entsprechendes Topic anlegen. Diese Topics konnten uber Assoziationen
10 (DENIC Domain Verwaltungs und Betriebsgesellschaft eG, 2008)11 http://www.yahoo.com
2.6. Einsatzmoglichkeiten von Topic Maps 35
und wenn passend instanceOf-Elementen mit den jeweiligen Kategorien ver-
bunden werden. Auch untereinander konnen die Eintrage semantisch ver-
knupft werden und so eine schnellere Navigation innerhalb des Kataloges
ermoglichen.
Suchmaschinen: Suchmaschinen bieten dem Benutzer den Zugriff auf weit
mehr Seiten, als es mit einem Katalog moglich ist, da hierbei ein voll auto-
matisierter Ansatz verwendet wird. Ein Webcrawler ist ein Programm, das
Seiten des WorldWideWeb analysiert, den in ihnen enthalten Referenzen folgt
und diesen Prozess auf den folgenden Seiten fortsetzt (vgl. Harbich, 2008).
Entsprechend gefundene Inhalte werden indiziert und gespeichert. Typischer-
weise wird einem Inhalt, in welchem ein spaterer Suchbegriff auftaucht, Rele-
vanz beibemessen, entsprechend der Haufigkeit des Vorkommens. Dies muss
aber nicht zum gewunschten Suchergebnis fuhren. Metasuchmaschinen be-
fragen selbst unterschiedliche Suchmaschinen, je nach Art und Form der An-
frage. Ein Beispiel ist die Suchmaschine KARTOO12. Das Ergebnis wird als
Karte dargestellt, so dass Zusammenhange einzelner Quellen ersichtlich wer-
den. Das ”Verfeinern”der Suchanfrage kann uber die Auswahl vorgeschlage-
ner Topics erfolgen. Wo einem menschlichen Redakteur semantische Zusam-
menhange von Quellen intuitiv ersichtlich sind, mussen bei Suchmaschinen
Algorithmen diese Zusammenhange erkennen und in Form von Topic Maps
ausdrucken. Der Suchmaschine KARTOO lassen sich auf die Frage ”Who
invented the Web?”die Topics “Robert Cailiau“, “Berners“, und “Cern“ ent-
nehmen.
2.6.2 Dokumentenmanagement
Der Pool an Dokumenten eines Unternehmens stellt eine, wenn nicht gar die
wichtigste, Informationsquelle dar. Da mit wachsender Anzahl das Auffinden
des richtigen Dokumentes aber immer schwieriger wird, soll hier Dokumen-