Top Banner
Tekstkwaliteit Tekstkwaliteit en tekstverbetering van het corpus Historische Kranten Marian Hellema, 24 maart 2015
13

10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Jul 18, 2015

Download

ingeangevaare
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Tekstkwaliteit Tekstkwaliteit en tekstverbetering van het corpus Historische Kranten

Marian Hellema, 24 maart 2015

Page 2: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Hoe goed het is …. (1850)

Page 3: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Hoe slecht het is …. (1650)

Page 4: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Hoe is de tekst gemaakt?

• OCR: geautomatiseerd (docWorks/Finereader)

• deels met historische woordenlijst

• krantenkoppen zo nodig handmatig gecorrigeerd tot 99.8% correcte tekens

• overige tekst niet gecorrigeerd

Page 5: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Veelgestelde vraag

“Hoe goed is de tekstkwaliteit?”

Antwoord: dat weten we niet precies.

Page 6: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Meten van tekstkwaliteit

Kwaliteitscijfers

• precieze meting van het aantal fouten op het totaal

• arbeidsintensief

• niet beschikbaar

versus

Confidence levels

• hoe zeker de ocr-software is van correcte tekenherkenning

• beste benadering van kwaliteitscijfers die we hebben (maar het is dus iets anders)

• wel beschikbaar

Page 7: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Veelgestelde vraag

“Waarom zorgen jullie niet voor betere tekstkwaliteit?”

Antwoord 1: er wordt aan gewerkt

Antwoord 2:

• afweging kwaliteit versus kwantiteit

• m.a.w. waar geef je je geld aan uit?

• voor toekomstige digitalisering: differentiatie in kwaliteit

• soms heel hoge tekstkwaliteit (bv. DBNL)

• soms heel hoge beeldkwaliteit

• afhankelijk van doel

Page 8: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Verbetering tekstkwaliteit

Project voor tekstverbetering:

Meertens Instituut

• editor voor overtikken krantenartikelen

• groep vrijwilligers

• 17e eeuwse kranten

KB

• software om verbeterde tekst te verwerken

• en in Delpher beschikbaar te stellen

NIOD

• vrijwilligers voor oorlogskranten

Page 9: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus
Page 10: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Verbetering tekstkwaliteit

Iets meer detail:

• 160 vrijwilligers, waarvan de helft actief

• 30-40 % van de 17e Nederlandstalige eeuwse kranten gedaan

• ±1.900 kranten (van de ±6200)

• ±18.500 artikelen (van de ±46000)

Page 11: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Verbetering tekstkwaliteit

Iets meer detail:

• woordcoördinaten worden meeverbeterd (highlighting)

• confidence levels worden opgehoogd

• oorspronkelijke versie van de tekst wel bewaard, maar niet direct toegankelijk

• beschikbaarstelling als dataset en in Delpher zal geleidelijk gaan

• uitbreidbaar:

• andere delen van de krantencollectie. (Wie wil?)

• (met aanpassingen) andere collecties

Page 12: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Keuzes

• geautomatiseerde tekstverbetering of overtikken?

• oude versies bewaren?

• hoe gegevens over verbeteringen/verrijkingen publiceren? (verantwoording)

• betekenis van identifiers?

• het object

• of een versie van het object

• gedifferentieerd kwaliteitsbeleid

Page 13: 10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

Vragen?

[email protected]