Het Verrijkt Koninkrijk NIOD Lunchlezing 08/01/2013 (UvA) Vict
Het Verrijkt Koninkrijk
NIOD Lunchlezing 08/01/2013
Johan van Doornik (UvA) Victor de Boer (VUA)
The Kingdom of the Netherlands During World War II
• History of German occupied Dutch society (1940-1945)
• 14 volumes, 30 parts, 18.000 pages• Digitized version online in 2011, crashing the
server
“Published between 1969 and 1991, the 30 volumes still combine the qualities of an authoritative work for a general audience, and an inevitable point of reference for scholars”
Clarin-VK: Verrijkt Koninkrijk
“The aim of this project is twofold; in the demonstrator part of the project advanced tools and techniques are applied to gather data on De Jong's perception of the much debated issue of pillarization (Dutch: 'verzuiling') and group identity. In the resource curation part of the project the corpus will be enriched and made available to the CLARIN-community for further research”
NIOD: Historical research questions
UvA: Representation of digital text, Named Entity extraction and consolidation, search prototype
VUA: Enrichment of structured sources, internal and external linking. Hackathon
DANS: Data storage and access.
Verrijkt Koninkrijk Project
Digitization and Search(the UvA part)
<book xmlns="http://www.loedejongdigitaal.nl" vk:id="nl.vk.d.5-I"> <index vk:title="Inhoud" vk:id="nl.vk.d.5-I.1"> <chapter vk:title="Lente 4 1" vk:number="1" vk:id="nl.vk.d.5-I.2"> <section vk:title="" vk:id="nl.vk.d.5-I.2.1"> <section vk:title="Oorlogsverloop en -perspectiej?" vk:id="nl.vk.d.5-I.2.2"> <section vk:title="II. Midden-Oosten, lente 1941" vk:id="nl.vk.d.5-I.2.3"> <subsection vk:id="nl.vk.d.5-I.2.3.1"> <subsection vk:id="nl.vk.d.5-I.2.3.2"> <p vk:pdf-page-ref="21" vk:id="nl.vk.d.5-I.2.3.2.1">Hoe kon Engeland ooit de oorlog winnen?</p> <p vk:pdf-page-ref="21" vk:id="nl.vk.d.5-I.2.3.2.2">Het is, achteraf gezien, volstrekt duidelijk ... <p vk:pdf-page-ref="22" vk:id="nl.vk.d.5-I.2.3.2.3">Deze conceptie was bemoedigend en dit ... <page vk:pdf-page="22" vk:original-page="14" vk:id="nl.vk.d.5-I.2.3.2.3.14"> <backofbook-ref> </page> <header vk:id="nl.vk.d.5-I.2.3.2.3.15">HET BRITSE OORLOGSPLAN</header>men zich in Londen: in de ... <p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.3.2.4">Hoe dat zij vooral Churchill ... <p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.3.2.5">Had men dat in bezet Nederland vernomen ... </subsection> </section> <section vk:title="Publieke opinie" vk:id="nl.vk.d.5-I.2.4"> <subsection vk:id="nl.vk.d.5-I.2.4.1"> <p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.4.1.1">Het verwachtingspatroon van een volk ... <p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.4.1.2">1 Aangehaald in Butler .... <page vk:pdf-page="23" vk:original-page="15" vk:id="nl.vk.d.5-I.2.4.1.2.4"> <backofbook-ref> <lemma-ref>Azoren</lemma-ref> <lemma-ref>Bomber Command</lemma-ref> <lemma-ref>Canarische eilanden</lemma-ref> <lemma-ref>Madeira</lemma-ref> <lemma-ref>Portugal</lemma-ref> <lemma-ref>Spanje</lemma-ref> <lemma-ref>Tsjechoslowakije</lemma-ref> </backofbook-ref> </page>
Back of the Book
Required specialized parsing:
Pages (312, 316, …) and page ranges (210-215, …)
See and See also references
OCR correction for numbers (3I2 = 312, …)
Verification of all page references
Mapping page references to paragraph references
Terms that span multiple pages in the back of book
Layout not always as consistent as you would like
vk:book 30
vk:chapter 226
vk:section 1885
vk:subsection 4708
vk:p 86257
vk:quote 56547
vk:page 16922
vk:lemma 16186
vk:lemma-ref 148370
Counting elements
Resolverhttp://resolver.loedejongdigitaal.nl/nl.vk.d.5-II.6.1.2.2
<p vk:pdf-page-ref="338" vk:id="nl.vk.d.5-II.6.1.2.2">En in het algemeen leed de Geallieerde koopvaardij in de eerste zes maanden van '42 opnieuw zeer zware verliezen. Zij waren vooral gevolg van het feit dat de Amerikanen traag waren met het treffen van veiligheidsmaatregelen in de Caraïbische Zee en in de zeegebieden bij de Amerikaanse oostkust. Maandenlang vonden<i>U-Boote</i>daar een uiterst profijtelijk jachtterrein. Het aantal<i>U-Boote</i>nam ook steeds toe; in juli '41 waren er constant 65 in de vaart, in juli '42 140. Hitler bezat er toen 331 en er waren, doordat de<i>U-Boote</i>zich zo verspreid hadden, in de zeven maandenvan januari t.e.m. juli '42 slechts weinige vernietigd: 31. In die periode verloren de Geallieerden daartentegen per maand gemiddeld meer dan een half miljoen ton aan scheepsruimte. Het waren vooral die scheepsverliezen die de Geallieerde oorlogsleiders in de eerste helft van '42 voortdurend aanleiding gaven tot diepe bezorgdheid. Hoe haakten zij naar de dag waarop de Duitsers en Italianen uit NoordAfrika verdreven zouden zijn! Dan zou eindelijk de lange, schepen verslindende toevoerroute naar Egypte om Afrika heen door de zoveel kortere via de Straat van Gibraltar vervangen kunnen worden.</p>
country, collection, doc-type, volume, chapter, section, sub-section, paragraph
Named Entities + Wikification
1. Natural Language Processing with FROG
2. Detecting namesMachine learned detection using POS and capitalization
3. Linking to Wikipedia with ILPS toolsMussert Anton
Mussert
Avondklok Spertijd
Nationale Padvindersraad Padvinder
Verrijkt Koninkrijk and Linked Data (the VUA part)
What is Linked Open Data•Open data is about open licenses•Linked (Open) Data is about interoperability
``a term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the Semantic Web using URIs and RDF.’’ --Wikipedia
``Sharable, spreadable and nerd-friendly’’
-- Charlotte S H Jensen, kulturweb
Web of Documents (WWW)Linked Documents
Web of DataLinked Data
“Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/”
Linked Data:NIOD and VK
niod:Avondklok
Dbpedia:Avondklok
VK:paragraaf 1.2.3.4
bbwo2:plaatje1.jpg4en5mei:Avonklok
DBPedia:Curfew
4en5mei:monumentX
“Spertijd”
Niod thesaurus
Back of the Book-index
Named Entity Results
Verrijkt Koninkrijk
Niod thesaurus
Back of the Book-index
Named Entity Results
Verrijkt Koninkrijk
NIOD List of terms
• Used by NIOD library, archive, AV archive
• Externally by 29 institutions
• 1408 terms: “Civil servants”, “Anti-fascism”, “Arrival”– 12 ‘categories’: “Law,”
“Military history”, “Countries”, etc.
Niod thesaurus
Rub Term
4 Repressie
Voorlichting
Kernwapens - Zie: Atoomwapens
3 Atoomwapens
2 Kolonialisme - Zie ook: Dekolonisatie
8 Religie - Zie ook bij soorten afzonderlijk, bijv.: Christendom
niod:Gasmaskers
niod:Uitrusting
niod:Transport
conversion
conversion
Niod termenlijst (XML)
Preferred: “Transport”Alternative: “Vracht”
Niod thesaurus
1408 concepts, 170 altLabels, 290 related,
165 hierarchy relations,
Manually validated by Kees Ribbens, Marjo
Bakker, Femke Jacobs80-95% correctness
Niod Thesaurus (SKOS)
Back of the Book-index
botb:Amsterdamniod:botb-Blitzkrieg
niod:botb-Blitzkrieg
niod:hasParRef
botb:Blitzkrieg
Back-of-the-Book Index (SKOS)
http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386
15.234 Concepts121.525 references to pages
entity:Maassluisentity:Amsterdam
niod:botb-Blitzkriegniod:botb-Blitzkrieg
niod
:has
ParR
ef
entity:Abraham Kuijper
Named Entity Results
http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386
88.249 Concepts364,924 references to pages
Named Entities (SKOS)
Niod thesaurus
Back of the Book-index
Named Entity Results
Verrijkt Koninkrijk
Linked Data
niod:Blitzkrieg
hasParRef
niod:oai_wo2_niod_nl_rec_102045
Niod thesaurus
http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386
subject
Back-of-the-Book IndexKoninkrijk
niod:botb-Blitzkrieg
Skos:exactMatch
Niod thesaurusgtaa:Oorlog
GTAA thesaurus
niod:Blitzkrieg
sameAs
Niod thesaurus
http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386
subject
Back-of-the-Book IndexKoninkrijk
Niod:Oorlog
dbpedia:Abraham Kuijper
Entity:Abraham Kuijper
Koninkrijk
dbpedia:Minister-President
entity:Barend Biesheuvel
dbpedia:Barend Biesheuvel
Geonames:Maassluis
Botb:Maassluis
Koninkrijk
Geonames:Zuid-Holland
32780
N 51° 55' 24'' E 4° 15' 0''
population
coordinates
The semantic server
“Give me all BBWO2 images linked to a VK paragraph through a niod thesaurus entity found in the text”
PREFIX niod: <http://purl.org/collections/nl/niod/>prefix dc: <http://purl.org/dc/elements/1.1/>PREFIX skos: <http://www.w3.org/2004/02/skos/core#>SELECT DISTINCT *WHERE { ?object dc:subject ?subj ; dc:relation ?img .?subj skos:inScheme niod:ConceptScheme.?subj skos:exactMatch ?bc.?bc skos:inScheme niod:EntityScheme.?bc niod:pRef ?pRef.}limit 100
“What placenames occur on which page and to which province do they belong”
PREFIX niod: <http://purl.org/collections/nl/niod/>PREFIX skos: <http://www.w3.org/2004/02/skos/core#>SELECT ?pl ?provname ?prefWHERE{?s skos:inScheme niod:BotBScheme.?s skos:prefLabel ?pl.?s skos:closeMatch ?geo.?geo <http://www.geonames.org/ontology#parentADM1> ?prov.?prov <http://www.geonames.org/ontology%23name> ?provname.?s niod:pageRef ?pref.}LIMIT 100
“Give me all occurrences of Prime Ministers in Het Koninkrijk”
PREFIX dcterms: <http://purl.org/dc/terms/>PREFIX niod: <http://purl.org/collections/nl/niod/>PREFIX skos: <http://www.w3.org/2004/02/skos/core#>PREFIX dbp-prop: <http://nl.dbpedia.org/property/>PREFIX dbp-res: <http://nl.dbpedia.org/resource/>SELECT * WHERE {?entity niod:nerClass niod:nerclass-per;owl:sameAs ?dbpedia_entry;niod:pRef ?pref.?dbpedia_entry dbp-prop:functie dbp-res:Minister-president_van_Nederland.}LIMIT 100
Hackathon
Photos from Flickr user HackNY
Some issues
• Quality issues – OCR– Named Entity Recognition/Reconcilliation– Linkage
• Pillarization question
• Acceptability for historical research
?