This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
28. Februar 2014Seite 1
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Optical Layout Recognition (OLR)Generierung und Nutzung von Strukturdaten
Claus Gravenhorst
28. Februar 2014Seite 2
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Agenda
� Über CCS
� Allgemeiner OLR-Workflow für Massendigitalisierung
� Layout- und Struktur-Analyse
� ENP OLR Workflow
� Qualitätssicherung
� Output - METS/ALTO package
� Nutzung von Strukturdaten
28. Februar 2014Seite 3
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Über CCS
� Als technischer Projektpartner bringt CCS Content Conversion Specialists GmbH (Hamburg) seine Erfahrung und die docWorks-Technologie ein, um übereinen Massendigitalisierungs-Workflow für 2,2 Millionen Zeitungsseiten einenqualitativ hochwertigen, Artikel-strukturierten Content zu generieren.
� Seitenvolumen der 5 Partner:
BNF=1.000 k, NLE=500 k , SUB HH=580 k, NLF=90 k, SBB=10 k
� Verteilter OLR Workflow ermöglicht die Beteiligung der Projektpartner (content provider) am integrierten Qualitätssicherungs-Prozess
� CCS arbeitet auch an der Spezifikation des ENMAP Metadaten-Modells mit
28. Februar 2014Seite 4
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Allgemeiner OLR-Workflow für Massendigitalisierung
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Layout- und Struktur-Analyse
� Layout-Analyse basiert auf „bottom up“-Verfahren
� Regelwerk ermöglicht Erkennung von Wörtern, Textzeilen, Textblöcken, Spalten sowie Klassifikation von Textblöcken, Illustrationen, Werbung, Tabellen und der folgenden Seitentypen:
- title page (Titelseite einer Ausgabe)- content page (Seite die nur Content/Text enthält)- illustration page (Seite mit mindestens einer Illustration)- advertisement page (Seite mit ausschließlich Werbung)
� Struktur-Analyse durch Erkennung/Klassifikation der Überschriften und Gruppierung von Zonen zu Artikeln (inkl. Fortsetzung)
28. Februar 2014Seite 6
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
ENP OLR Workflow | Konvertierung ohne Scanning
Digital ImageMetadataDelivery
Digital ImageMetadataDelivery
Digital ObjectReturn
Digital ObjectReturn
Inspection / Automatic QAInspection /
Automatic QA
Doc DeliveryDoc Delivery
RejectReject
Conversion facility
Material location
Conversion
MD Recording
optionalPDFMETS/ALTOENMAP
28. Februar 2014Seite 7
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Mögliche Konvertierungs-Szenarien
A) Konvertierung in-house
B) Konvertierung off-shore über CCS-Rechenzentrum,finale QS an der Bibliothek über Internet Transfer (remote QS)
C) Konvertierung off-shore bei CCS,finale QS an der Bibliothek über Backup-Lieferung
28. Februar 2014Seite 8
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Szenario B | Remote QS an der Bibliothek
Internet
Storage
IN
OUTPOOL
dW Share
Master
OffshoreProcessing
@ CCS
OUTPUT
METS ALTO
Storage
POOL
dW Share
RQA
QA on-site @ Library
INPUT
28. Februar 2014Seite 9
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Qualitätssicherung
� @ CCS | Automatisches Tagging/Markup und Basis-Korrektur:
- Artikelüberschriften, Illustrationen, Bilder, Untertitel, Werbung, etc.- Artikel-Segmentierung und Gruppierung der Zonen zu Artikeln (inkl. Fortsetzung)
� @ Content Provider (Bibliothek):
Empfohlen- Zonenerkennung: Korrektur der Block-Klassifikation als „Text“ oder „Illustration“- Artikel Segmentierung: Korrektur der Identifikation von Überschriften, Textblöcken,
Untertiteln- Gruppierung: Korrektur der Gruppierung von Blöcken (Text, Illustration) zu Artikeln- Metadaten: Korrektur von Titel, Ausgabe-Datum und -Nummer
Optional- Seitentypen: Korrektur der Typen- Seitennummern: Korrektur der Seitenreihenfolge- OCR: Textkorrektur für spezifische Zonen (z.B. Überschriften, Untertitel)
28. Februar 2014Seite 10
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Output | METS/ALTO package
� METS/ALTO Metadaten-Schemas zur Beschreibung des strukturierten digitalen Objekts
� Eine Zeitungsausgabe wird in eine METS XML Datei konvertiert, die die gesamtephysikalische und logische Struktur beschreibt. Es werden alle Links zu den Image-und verbundenen ALTO/XML-Dateien verwaltet. ALTO basiert auf einemstandardisierten Schema zur Seitenbeschreibung und enthält alle Informationeneiner Seite (Satzspiegel, Ränder, Koordinaten, OCR-Ergebnisse).
� Vorteile des strukturellen Markup‘s:
- besseres Durchsuchen und präzisere Textsuche- besserer Zugriff und Anzeige auf mobilen und Tablet-Geräten- aktive Rolle des Benutzers: manuelle Textkorrektur, Artikelklassifikation,Annotation, persönliche Kollektion, etc.
- automatische Artikel-Klassifizierung und -Gruppierung durch data/text-miningund linguistische Technologien
- Verteilung von Artikeln z.B. über Social Media Plattformen_______________METS = Metadada Encoding and Transmission Standard
ALTO = Analyzed Layout and Text Object
28. Februar 2014Seite 11
Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin
Claus GravenhorstDirector Strategic Initiatives
Nutzung von Strukturdaten – Recherche & Präsentation
� Recherche über Portale von TEL (Europeana Newspaper Browser) und der Content Provider