Top Banner
Het Europeana Newspapers Project Historische kranten online Den Haag, 22-11-2012 Lotte Wilms @lottewilms @eurnews
16

Het Europeana Newspapers Project

Jul 04, 2015

Download

Documents

A presentation in Dutch language, presented at Kranten symposium in Den Haag, 22.11.2012
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Het Europeana Newspapers Project

Het Europeana Newspapers ProjectHistorische kranten online

Den Haag, 22-11-2012

Lotte Wilms

@lottewilms @eurnews

Page 2: Het Europeana Newspapers Project

2

Europeana Newspapers – waarom kranten?

Waarom kranten?• Belangrijke bron voor onderzoek

• Relevant voor het algemeen publiek

Bronnen: http://digi.kansalliskirjasto.fi/sanomalehti/secure/showPage.html?id=395644&conversationId=1&action=entryPage; http://kranten.kb.nl/view/paper/id/ddd%3A010212139%3Ampeg21%3Ap001%3Aa0001/backlink/home http://gallica.bnf.fr/ark:/12148/bpt6k265203z ;

Page 3: Het Europeana Newspapers Project

3

Projectprofiel: Consortium & stakeholders

• 17 partners uit 12 landen:

• Nationale bibliotheken

• Universiteitsbibliotheken

• Onderzoeksinstituten

• Commerciële partij

• Framework:

• Best Practice Network

• ICT-PSP programma van de Europese Commissie

• Projectduur: februari 2012 – januari 2015

Page 4: Het Europeana Newspapers Project

Europeana Newspapers Consortium

Page 5: Het Europeana Newspapers Project

5

Europeana Newspapers: Doelen

• Aggregatie en verrijking van kranten voor Europeana

• Circa 18 miljoen krantenpagina’s naar Europeana

• Verrijken met OCR, layout herkenning (OLR) en named entity

recognition

• Analyse bestaande krantencollecties

• Overzicht bestaande projecten

• Aanmoedigen om ook kranten bij te dragen

Page 6: Het Europeana Newspapers Project

Europeana Newspapers: Doelen

• Quality assurance en best practice aanbevelingen

• Voortbouwen op andere projecten (o.a. IMPACT en Europeana

Libraries)

• Bijdragen aan geoptimaliseerde workflows

• Aanbevelingen voor digitalisering, verrijking, workflows, metadata, etc.

• Presentatie en full-text doorzoeken

• 18 miljoen Europese krantenpagina’s

• Verbeteren van de toegang van kranten in Europeana

Page 7: Het Europeana Newspapers Project

7

Aggregatie en verrijking van kranten voor Europeana

• Aggregatie in Europeana en The European

Library

• 18 miljoen gedigitaliseerde krantenpagina’s

• 8 miljoen pagina’s zonder bewerkingen

(content leveranciers)

• 8 miljoen verrijkte pagina’s: OCR (UIBK,

Oostenrijk)

• 2 miljoen verrijkte pagina’s: OCR/OLR

(artikelsegmentatie) (CCS, Duitsland)

www.europeana.eu/

www.theeuropeanlibrary.org/

Page 8: Het Europeana Newspapers Project

Verrijking – OCR en OLR

• 8 miljoen verrijkte pagina’s:

OCR (UIBK, Oostenrijk)

• OCR (ABBYY)

• Output in ALTO formaat

• Test met Document Understanding

Platform (FEP)

• Ontwikkeld binnen IMPACT

• Profielen aangepast aan kranten

UIBK: Herkenning van titels, voetnoten, etc. Extractie van inhoudsopgave

Page 9: Het Europeana Newspapers Project

Verrijking – OCR en OLR

• 2 miljoen verrijkte pagina’s:

OCR/OLR (artikelsegmentatie)

(CCS, Duitsland)

• OCR (ABBYY)

CCS: Kolomherkenning en artikelsegmentatie

• Automatische layout herkenning

• Kolommen

• Zones

• Pagina types

• Automatische artikelsegmentatie

• Aanvullende handmatige verificatie

en quality control

Page 10: Het Europeana Newspapers Project

Verrijking - Named Entity Recognition

• Named entity herkenning (KB, Nederland)

• Tot drie talen

• Nederlands

• Engels

• Duits

Page 11: Het Europeana Newspapers Project

Analyse bestaande krantencollecties

• Enquête over digitale krantencollecties• Zomer 2012 • Circa 45 Europese bibliotheken

• De resultaten naar “Zeitschriftendatenbank” van de Staatsbibliotheek van Berlijn

• Potentiële nieuwe partners

• Informatie over de technische status van gedigitaliseerd materiaal

Page 12: Het Europeana Newspapers Project

Quality assurance en best practice aanbevelingen

• Ontwikkeling van een

metadataprofiel (METS)

• Gebruik binnen het project

• Aanbeveling voor toekomstige

digitaliseer- en

verrijkingsprojecten

• Evaluatie van de

digitaliseringsworkflow voor

kranten, inclusief verrijking

• M.b.v. een quality assessment

framework

• Inclusief tools uit IMPACT

• Aanbevelingen voor het digitaliseren

en verrijken van kranten

Page 13: Het Europeana Newspapers Project

Presentatie en full-text doorzoeken

• Content browser

• Onderdeel van het TEL portal

• Zoeken op full-text

• Zoekterm

• Named entities

• Per collectie

• Op datum

• Krantenafbeeldingen

• Link naar bibliotheek

Nb. Mock-ups

Page 14: Het Europeana Newspapers Project

14

Promotie

• Doelen:

• Publiciteit van het project

• Vergroten van gebruik Europeana

• Media

• @eurnews

• www.facebook.com/EuropeanaNewspapers

• Workshops en conferenties

• Drie dissemination workshops

• Nationale informatie dagen

• Uitbreiding van het netwerk

Page 15: Het Europeana Newspapers Project

Voordeel voor de KB kranten en gebruikers

• Beschikbaar via Europeana

• 2 miljoen KB krantenpagina’s doorzoekbaar in combinatie met 16 miljoen andere Europese krantenpagina’s uit 12 landen

• Duitse kranten• Franse kranten• Oostenrijkse kranten• Finse kranten• Poolse kranten• Etc.

• Verrijking met Named Entities

Page 16: Het Europeana Newspapers Project

Bedankt! Vragen?http://www.europeana-newspapers.eu/

Lotte Wilms

[email protected]

@lottewilms @eurnews