Tekstkwaliteit Tekstkwaliteit en tekstverbetering van het corpus Historische Kranten Marian Hellema, 24 maart 2015
Jul 18, 2015
Tekstkwaliteit Tekstkwaliteit en tekstverbetering van het corpus Historische Kranten
Marian Hellema, 24 maart 2015
Hoe is de tekst gemaakt?
• OCR: geautomatiseerd (docWorks/Finereader)
• deels met historische woordenlijst
• krantenkoppen zo nodig handmatig gecorrigeerd tot 99.8% correcte tekens
• overige tekst niet gecorrigeerd
Meten van tekstkwaliteit
Kwaliteitscijfers
• precieze meting van het aantal fouten op het totaal
• arbeidsintensief
• niet beschikbaar
versus
Confidence levels
• hoe zeker de ocr-software is van correcte tekenherkenning
• beste benadering van kwaliteitscijfers die we hebben (maar het is dus iets anders)
• wel beschikbaar
Veelgestelde vraag
“Waarom zorgen jullie niet voor betere tekstkwaliteit?”
Antwoord 1: er wordt aan gewerkt
Antwoord 2:
• afweging kwaliteit versus kwantiteit
• m.a.w. waar geef je je geld aan uit?
• voor toekomstige digitalisering: differentiatie in kwaliteit
• soms heel hoge tekstkwaliteit (bv. DBNL)
• soms heel hoge beeldkwaliteit
• afhankelijk van doel
Verbetering tekstkwaliteit
Project voor tekstverbetering:
Meertens Instituut
• editor voor overtikken krantenartikelen
• groep vrijwilligers
• 17e eeuwse kranten
KB
• software om verbeterde tekst te verwerken
• en in Delpher beschikbaar te stellen
NIOD
• vrijwilligers voor oorlogskranten
Verbetering tekstkwaliteit
Iets meer detail:
• 160 vrijwilligers, waarvan de helft actief
• 30-40 % van de 17e Nederlandstalige eeuwse kranten gedaan
• ±1.900 kranten (van de ±6200)
• ±18.500 artikelen (van de ±46000)
Verbetering tekstkwaliteit
Iets meer detail:
• woordcoördinaten worden meeverbeterd (highlighting)
• confidence levels worden opgehoogd
• oorspronkelijke versie van de tekst wel bewaard, maar niet direct toegankelijk
• beschikbaarstelling als dataset en in Delpher zal geleidelijk gaan
• uitbreidbaar:
• andere delen van de krantencollectie. (Wie wil?)
• (met aanpassingen) andere collecties
Keuzes
• geautomatiseerde tekstverbetering of overtikken?
• oude versies bewaren?
• hoe gegevens over verbeteringen/verrijkingen publiceren? (verantwoording)
• betekenis van identifiers?
• het object
• of een versie van het object
• gedifferentieerd kwaliteitsbeleid