YOU ARE DOWNLOADING DOCUMENT

Please tick the box to continue:

Transcript
Page 1: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 1

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

CCSContent Conversion Specialists

europeana newspapersInformation Day, Berlin, 28.2.2014

Optical Layout Recognition (OLR)Generierung und Nutzung von Strukturdaten

Claus Gravenhorst

Page 2: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 2

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Agenda

� Über CCS

� Allgemeiner OLR-Workflow für Massendigitalisierung

� Layout- und Struktur-Analyse

� ENP OLR Workflow

� Qualitätssicherung

� Output - METS/ALTO package

� Nutzung von Strukturdaten

Page 3: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 3

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Über CCS

� Als technischer Projektpartner bringt CCS Content Conversion Specialists GmbH (Hamburg) seine Erfahrung und die docWorks-Technologie ein, um übereinen Massendigitalisierungs-Workflow für 2,2 Millionen Zeitungsseiten einenqualitativ hochwertigen, Artikel-strukturierten Content zu generieren.

� Seitenvolumen der 5 Partner:

BNF=1.000 k, NLE=500 k , SUB HH=580 k, NLF=90 k, SBB=10 k

� Verteilter OLR Workflow ermöglicht die Beteiligung der Projektpartner (content provider) am integrierten Qualitätssicherungs-Prozess

� CCS arbeitet auch an der Spezifikation des ENMAP Metadaten-Modells mit

Page 4: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 4

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Allgemeiner OLR-Workflow für Massendigitalisierung

Re-Scan

Conversion

Imaging

Layout Analysis

OCR

ISR

Reject Condition

Delivery QA random

Final Output

Scanning

Image

Metadata

Database----------------Repository

Automated QA

DocumentUID

BarcodeItem Tracking

Manual QA

• in-house• near-shore• off-shore• multiple locations

Manual QA

• in-house• near-shore

Check inCheck out

Scanner

• Robot-• Book-• Document-• Microfilm-

QA+CorrectionQA+Correcti

onQA +

Correction

Z 39.50Metadata

Page 5: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 5

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Layout- und Struktur-Analyse

� Layout-Analyse basiert auf „bottom up“-Verfahren

� Regelwerk ermöglicht Erkennung von Wörtern, Textzeilen, Textblöcken, Spalten sowie Klassifikation von Textblöcken, Illustrationen, Werbung, Tabellen und der folgenden Seitentypen:

- title page (Titelseite einer Ausgabe)- content page (Seite die nur Content/Text enthält)- illustration page (Seite mit mindestens einer Illustration)- advertisement page (Seite mit ausschließlich Werbung)

� Struktur-Analyse durch Erkennung/Klassifikation der Überschriften und Gruppierung von Zonen zu Artikeln (inkl. Fortsetzung)

Page 6: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 6

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

ENP OLR Workflow | Konvertierung ohne Scanning

Digital ImageMetadataDelivery

Digital ImageMetadataDelivery

Digital ObjectReturn

Digital ObjectReturn

Inspection / Automatic QAInspection /

Automatic QA

Doc DeliveryDoc Delivery

RejectReject

Conversion facility

Material location

Conversion

MD Recording

optionalPDFMETS/ALTOENMAP

Page 7: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 7

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Mögliche Konvertierungs-Szenarien

A) Konvertierung in-house

B) Konvertierung off-shore über CCS-Rechenzentrum,finale QS an der Bibliothek über Internet Transfer (remote QS)

C) Konvertierung off-shore bei CCS,finale QS an der Bibliothek über Backup-Lieferung

Page 8: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 8

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Szenario B | Remote QS an der Bibliothek

Internet

Storage

IN

OUTPOOL

dW Share

Master

OffshoreProcessing

@ CCS

OUTPUT

METS ALTO

Storage

POOL

dW Share

RQA

QA on-site @ Library

INPUT

Page 9: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 9

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Qualitätssicherung

� @ CCS | Automatisches Tagging/Markup und Basis-Korrektur:

- Artikelüberschriften, Illustrationen, Bilder, Untertitel, Werbung, etc.- Artikel-Segmentierung und Gruppierung der Zonen zu Artikeln (inkl. Fortsetzung)

� @ Content Provider (Bibliothek):

Empfohlen- Zonenerkennung: Korrektur der Block-Klassifikation als „Text“ oder „Illustration“- Artikel Segmentierung: Korrektur der Identifikation von Überschriften, Textblöcken,

Untertiteln- Gruppierung: Korrektur der Gruppierung von Blöcken (Text, Illustration) zu Artikeln- Metadaten: Korrektur von Titel, Ausgabe-Datum und -Nummer

Optional- Seitentypen: Korrektur der Typen- Seitennummern: Korrektur der Seitenreihenfolge- OCR: Textkorrektur für spezifische Zonen (z.B. Überschriften, Untertitel)

Page 10: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 10

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Output | METS/ALTO package

� METS/ALTO Metadaten-Schemas zur Beschreibung des strukturierten digitalen Objekts

� Eine Zeitungsausgabe wird in eine METS XML Datei konvertiert, die die gesamtephysikalische und logische Struktur beschreibt. Es werden alle Links zu den Image-und verbundenen ALTO/XML-Dateien verwaltet. ALTO basiert auf einemstandardisierten Schema zur Seitenbeschreibung und enthält alle Informationeneiner Seite (Satzspiegel, Ränder, Koordinaten, OCR-Ergebnisse).

� Vorteile des strukturellen Markup‘s:

- besseres Durchsuchen und präzisere Textsuche- besserer Zugriff und Anzeige auf mobilen und Tablet-Geräten- aktive Rolle des Benutzers: manuelle Textkorrektur, Artikelklassifikation,Annotation, persönliche Kollektion, etc.

- automatische Artikel-Klassifizierung und -Gruppierung durch data/text-miningund linguistische Technologien

- Verteilung von Artikeln z.B. über Social Media Plattformen_______________METS = Metadada Encoding and Transmission Standard

ALTO = Analyzed Layout and Text Object

Page 11: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 11

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – Recherche & Präsentation

� Recherche über Portale von TEL (Europeana Newspaper Browser) und der Content Provider

� Existierende Präsentationssysteme [Artikel-Struktur]:

- The British Library (The British Newspaper Archive, brightsolid)- Holländische Nationalbibliothek (DDD)- Nationalbibliothek Luxemburg (eLuxemburgensia)- Nationalbibliothek Australien (Trove)- Nationalbibliothek Neuseeland (Papers Past)

� Beispiele von bereits prozessierten ENP-Titeln:

- BNF: L‘Ouest Eclair (1919)- SBB: Deutsches Nachrichtenbüro (1936)- NLE: Livländische Gouvernements-Zeitung (1852)

Page 12: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 12

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – SucheRecherche

Textsuche

Page 13: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 13

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – Auswahl Titel/DatumAusgabe

Inhaltsverzeichnis

Page 14: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 14

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – ArtikelArtikel-Bild/Text

Zusatzfunktionen

Page 15: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 15

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – ArtikelimageSeparierter Artikel

Verteilung

Page 16: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 16

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – ArtikeltextArtikel

Text

Page 17: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 17

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – ArtikelkorrekturOnline-Textkorrektur

durch Benutzer

Page 18: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 18

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – Suche nach „poulet“Trefferliste

Artikel-basiert

Page 19: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 19

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – ArtikelanzeigeArtikel

Wortmarkierung

Page 20: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 20

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – SBBDeutschesNachrichtenbüro

Page 21: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 21

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Nutzung von Strukturdaten – NLELivländischeGouvernements-Zeitung

Page 22: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 22

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Fragen + Antworten

Page 23: Europeana Newspapers German infoday - OCR @ CCS

28. Februar 2014Seite 23

Content Conversion SpecialistsEuropeana Newspapers Infoday Berlin

Claus GravenhorstDirector Strategic Initiatives

Kontakt

Claus GravenhorstDirector Strategic InitiativesCCS Content Conversion Specialists GmbHWeidestr. 13422083 HamburgGermany [email protected]


Related Documents