Die ZBW ist Mitglied der Leibniz-Gemeinschaft „Über sieben Brücken musst Du gehn‘,…“ Erfahrungsbericht zu Aufbau und Pflege von Crosskonkordanzen des Standard- Thesaurus Wirtschaft zu anderen Vokabularen Andreas Oskar Kempf, Joachim Neubert, Manfred Faden ZBW – Leibniz-Informationszentrum Wirtschaft Göttingen, 11. Mai 2017 SI&IT Workshop
44
Embed
„Über sieben Brücken musst Du gehn‘,…“ · Die ZBW ist Mitglied der Leibniz-Gemeinschaft „Über sieben Brücken musst Du gehn‘,…“ Erfahrungsbericht zu Aufbau und
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Die ZBW ist Mitglied der Leibniz-Gemeinschaft
„Über sieben Brücken musst Du gehn‘,…“ Erfahrungsbericht zu Aufbau und Pflege von Crosskonkordanzen des Standard-Thesaurus Wirtschaft zu anderen Vokabularen Andreas Oskar Kempf, Joachim Neubert, Manfred FadenZBW – Leibniz-Informationszentrum Wirtschaft
Göttingen, 11. Mai 2017 SI&IT Workshop
Gliederung1. Standard-Thesaurus Wirtschaft (STW)
2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der
ZBW
3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach
Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools
4. Fazit: „Lessons learned“
Seite 12
Mapping-Ansatz vorwiegend intellektuellProjekt zur Erstellung der CK-Wirtschaft zu SWD/GND• Projektpartner: DNB, USB Köln, ZBW (HWWA) & unterstützend
VZG• Beantragte/angenommene Projektlaufzeit 18 Monate, nach
Verlängerung 31 Monate (03.2002 – 09.2004)• 8 Personen mit verschiedenen Zeitanteilen, Unterstützung durch
jeweilige IT
Seite 13
Mapping-Ansatz vorwiegend intellektuellZiel:Entwicklung und Implementierung eines Crosswalks zwischen dem
Standard Thesaurus Wirtschaft (STW) und dem Bereich Wirtschaft der Schlagwortnormdatei (SWD) zur Steigerung der Effektivität des Retrievals in den Wirtschaftswissenschaften.
Ausgangslage:
Seite 14
SWDca. 12500 Deskriptoren
(Sachschlagwörter) und ca. 16000 Nicht-Deskriptoren im Bereich WiWi (DNB/USB-Köln)
STWca. 5000 Deskriptoren und
18000 Nichtdeskriptoren (ZBW/HWWA)
Mapping-Ansatz vorwiegend intellektuellBearbeitung in der WinIBW – Aufbau der CK
Seite 15
Doublettencheck - einfaches string
matching-Verfahren, Auswahl der
SWD-Schlagworte durch
Zuordnung zu SWD-
Sachgruppen (SWD-Systematik)
Ergebnis: Ca. 52500 Relationen
Davon nach intellektueller
Bearbeitung ca. 15.000 erhalten.
Löschung der restlichen Relationen
größtenteils von Hand
Mapping-Ansatz vorwiegend intellektuellBearbeitung in der WinIBW – Aufbau der CK
Seite 16
Bearbeitung zuerst in verteilten
Excel-Listen. Wurde als zu
fehleranfällig und aufwändig
verworfen.
Weitere Bearbeitung über
eingespielte Daten im
Pica/WinIBW-System Iltis der
DNB
Mapping-Ansatz vorwiegend intellektuell
Bearbeitung in der WinIBW – Aufbau der CK
Seite 17
Mapping-Ansatz vorwiegend intellektuell
Seite 18
Ansicht in der WinIBW – Pflege der CK
Gliederung1. Standard-Thesaurus Wirtschaft (STW)
2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der
ZBW
3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach
Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools
4. Fazit: „Lessons learned“
Seite 19
DBpedia als Mappingziel
- ermöglicht Links zu Wikipedia-Seiten im Online-STW- 2009 Zentrum der „Linked Data Cloud“- aus englischer Wikipedia extrahierter strukturierter Datenbestand (in
RDF)- zusätzlich deutsche (u.a.) Labels auf Grundlage von „interlanguage
links“ in Wikipedia- Redirects von früheren oder gemergten auf aktuelle Seitentitel- große Datenmenge
Seite 20
DBpedia Matchingstrategie
- eigenentwickelte Perlprozeduren- normalisierte Strings aus
- prefLabel + altLabel des STW
- Seitentitel + Redirects von DBpedia
jeweils für Deutsch und Englisch gematcht
- nachgeschaltete Evaluierung der Matches
- skos:closeMatch, falls mindestens einer der prefLabel matcht
- skos:exactMatch, falls beide (de und en) matchen
Seite 21
DBpedia Ergebnisse (2009)
Seite 22
Mängel des DBpedia Mappings und Konsequenzen
- inhaltlich falsche Matches aufgrund von Quasi-Synonymen im STW- z.B. „Tropische Frucht“ (STW) matcht „Ananas“ (DBpedia)
- unzutreffende „interlanguage links“ in Wikipedia / DBpedia- beschränkte Datengrundlage (spezifisch „deutsche“ Begriffe nicht in
englischer Wikipedia enthalten)- Keine Fortschreibung=>- neuer Ansatz auf Grundlage von Wikidata- intellektuelle Verifizierung
Seite 23
Gliederung1. Standard-Thesaurus Wirtschaft (STW)
2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der
ZBW
3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach
… können mit Hilfe der Crosskonkordanz Wirtschaft für alle gemappten GND-Schlagwörter generiert werden, die ihrerseits bereits mit Wikidata verknüpft sind (knapp 2000)
Vorteile des Wikidata-Mappings
Stets aktuelle Links zu deutschen und englischen Wikipedia-Seiten Laufende Pflege und Ergänzung über die Wikidata-Pflegeoberfläche
(z.B. jeweils anhand der Liste neuer Deskriptoren) – keine eigeneDatenhaltung und Arbeitumgebung erforderlich
Crowdsourcing (der Pflege und auch des initialenMappingprozesses!)
Policies und Tools zur Qualitätskontrolle in Place (z.B. RePEc, GND) Automatisiertes Einfügen fehlender Items in Wikidata ist möglich Zusatznutzen durch bereits existierende Mappings
Seite 39
Nachteile des Wikidata-Mappings
Verlust der institutionellen Kontrolle
Seite 40
FazitAls zentrale Einflussfaktoren auf die äußeren Rahmen-bedingungen bei Aufbau und Pflege von Crosskonkordanzenkönnen genannt werden:
Ressourcenverfügbarkeit (z.B. Inwieweit stehen Ressourcen für ein nachhaltiges CK-Management zur Verfügung?)
Kooperationen(z.B. Erfolgen CK-Aufbau und -Pflege kollaborativ?)
Verfügbarkeit von Tools(z.B. Lassen sich Tools für eine automatische Vorverarbeitung nutzen?)
Anwendungsszenarien (z.B. Ist die CK für eine integrierte Suche notwendig oder leistet sie „lediglich“ alternative Sucheinstiege?)
Seite 41
Fazit
Lessons learned:
Zusätzlich zum CK-Aufbau ist die kontinuierliche CK-Pflege wichtig Ausschließlich oder überwiegend manuelle Verfahren sind nicht
mehr finanzierbar Mapping-Strategien, die den intellektuellen Anteil reduzieren helfen,
sind notwendig Ausschließlich automatisierte Verfahren bringen nur unzureichende
Ergebnisse Erforderlich ist die Entwicklung einer Mapping-Strategie aus
automatischen und intellektuellen Mapping-Schritten in Kombination, die die übergeordneten Rahmenbedingungen des Mappings berücksichtigt
Quellen:Dolud, Lena; Kreis, Constanze. Die Crosskonkordanz Wirtschaft zwischen dem STW und
der GND: Ein Instrument zur kooperativen Inhaltserschließung und zur Vernetzung im Semantic Web. Dialog mit Bibliotheken, 24(2): 13-19, 2012.
Kempf, Andreas O.; Neubert, Joachim; Faden, Manfred The Missing Link: A Vocabulary Mapping Effort in Economics. Presentation at the 14th European Networked Knowledge Organization System (NKOS) Workshop, Poznan, Poland, 2015.
Mayr, Philipp; Petras, Vivien (2008a): Building a terminology network for search: theKoMoHe project. pp. 177-182. In: Greenberg, Jane; Klas, Wolfgang (eds.): Metadata forsemantic and social applications: Proceedings of the 8. International conference on Dublin Core and Metadata Applications. Berlin: Uni.-Verl. Göttingen. URL: edoc.hu-berlin.de/conferences/dc-2008/mayr-philipp-177/PDF/mayr.pdf