Waden door woorden. Inhoudelijke ontsluiting van elektronische tekst.

vc 1 Cahier 1 1 Vereniging voor Geschiedenis en Informatica

Low countries association fo r history and computing

VGI Amsterdam 19 99

pagina 102 - VGI Cahier - nummer II pa g i11 :1 I Oj • VC I CrliiÎ I'r · IIUI!IIll l' f 11

J. Roelevink

Waden d<?or woorden. Inhoudelijke

ontsluiting van elektronische tekst.

Historici waden al eeuwen door woorden, op zoek naar feiten, denkpatronen en mentaliteiten. Niet de woorden, maar de inhoud vormen het doel. Er zijn echter vele gevaren. Wie te diep gaat of in een valkuil trapt, verdrinkt, wie het spoor bijster raakt, komt letterlijk nergens. Afbakening is dus noodzakelijk. Bibliografieën en indices hebben daarom al vanaf de zeventiende eeuw geleerden de weg gewezen in de aanzwellende stroom boeken en teksten. Administraties van grote bestuursorganen lieten zich evenmin onbetuigd. Zij legden, ook in de loop van de zeventiende eeuw, indices aan op de genomen besluiten en op de bijbehorende archieven. Nu staan we, dankzij digitalisering van teksten en de vele mogelijkheden die databases bieden, opnieuw voor een omslag.

Voor oude wensen moeten nieuwe oplossingen worden gezocht. Historici zijn nog steeds op zoek naar titels van boeken, naar relevante documenten

,_ ~

en naar interessante passages in teksten. Daarbij blijven de bestaande theoretische structuren van bibliografie, administratieve registratuur en index nog steeds goede uitgangspunten voor het denkwerk. Alleen zijn de verwachtingen nu plotseling veel hoger gespannen. Immers, we waden niet meer alleen door beken en rivieren, het lijkt zelfs mogelijk de druppels van de oceaan te tellen. Lezers en gebruikers verlangen naar inhoudelijk volledig ontsloten gegevensbestanden met een zoekfunctie die alles dekt. In dergelijke omstandigheden is het bijzonder wenselijk te weten waar de grenzen liggen, hoe bebakening tot stand moet komen en waar de wal het schip keert.

Het Instituut voor Nederlandse Geschiedenis (rNG) in Den Haag heeft in het najaar van 1996 in samenwerking met het NHDA een pilot gehouden ter bestudering van de mogelijkheden van text-retrieval programmatuur_! In het verlengde daarvan deed zich de vraag voor, wat er te zeggen valt over de theoretische achtergronden van indices en hun eventuele electronische vervangers. Dat onderwerp zal het eerst aan de orde komen. Daarna wordt ingegaan op de resultaten van de pilot, met nadruk op de vergelijking tussen conventionele indices op historische bronnen en zoekstrategieën in full text retrieval.

pagina 104- VGI Cahier- numm er 11

Conventionele indices en inhoudelijke ontsluiting van teksten in full textretrieval Inhoudelijke ingangen op teksten

Van oudsher hebben bronnenuitgevers allerlei mogelijkheden geschapen om de inhoud van een tekst overzichtelijk en toegankelijk te maken. Vele van deze diensten aan gebruikers, zoals indelingen, identificatie van personen en plaatsen, zakelijke annotatie en doorverwijzing, kunnen zonder diepgaande inhoudelijke wijzigingen ook binnen digitale structuren plaatsvinden. Wat betreft full text retrieval valt daarbij te denken aan markeertalen en hypertekst. Structuren en indelingen van teksten worden met coderingen verhelderd, een indeling in velden vergemakkelijkt het zoeken en markering van namen van personen, plaatsen, schepen of boektitels maakt het mogelijk deze snel van de overige tekst af te zonderen.

Maar de veranderingen rond inhoudelijke indicering lijken ingrijpender te zijn. Vroeger was de bewerker van de tekst zonder meer gedwongen zelf een index te maken. Het karwei was tijdrovend, maar absoluut noodzakelijk om de gebruiker inzicht te geven in de feitelijke inhoud van de tekst. Nu de digitalisering zijn intrede heeft gedaan, kan de gebruiker in beginsel zelf in de tekst of onderdelen daarvan zoeken met de mogelijkheden die de programmatuur biedt. Ook kan een zoekactie dankzij een markeertaal worden beperkt tot een bepaalde periode of tot een bepaald soort gegevens. In dat opzicht worden de conventionele algemene index of indices van personen, plaatsen en zaken minstens geëvenaard. De vraag is daarom intussen geworden, Of een bewerker de gebruiker nog verder moet helpen en zo ja, tot op welke hoogte.

Om een antwoord op die vraag te vinden is het nodig, de verschillen tussen een conventionele index van een gedrukte uitgave en de mogelijkheden van full text retrieval programmatuur helder voor ogen te hebben. Alle inhoudelijke toegangen op teksten helpen de gebruiker door de woorden te waden. Een conventionele index pakt het probleem aan door via logische abstractie van begrippen in een tekst een sluis te bouwen. Deze leidt via verwijzingen naar het open spraakwater van de tekst. Maar iemand die een full text retrieval programma gebruikt om te zoeken in omvangrijke of talrijke gedigitaliseerde teksten, staat, als in een boek zonder index, meteen in de nattigheid van de woorden. Uit dit moeras kan men zich, net zoals de legendarische baron von Münchhausen, alleen met paard en al aan zijn eigen logische haren optrekken. Eventuele hulp bestaat hierin, dat handvaten worden ophangen. Om dit beter te kunnen begrijpen, is het nodig eerst dieper in te gaan op de theoretische achtergronden en de voorwaarden voor een goed inhoudelijke ontsluiting van bronnenuitgaven.

pagina ros- vGr Cahier - nummer u

Theoretisch houvast voor praktisch werk li et is niet de bedoeling hier brede beschouwingen te geven over de bouw van ven thesaurus. Dat is het werk van deskundigen. Het gaat er alleen om, de vcrschillen tussen een classificatie, een klassieke index en zoekmogelijkheden in text-retrieval voor ogen te krijgen. De verschillen in structuur bepalen , -immers de mogelijkheden die de bewerkers en d,e gebruikers van elk van deze vormen van inhoudelijke ontsluiting tot hun beschikking hebben.

De meest strakke vorm van indeling

zoekrichting gebruiker .J" 1 van teksten of begrippen is de__.... 'ouderwetse' classificatie (zie

X =treffer A 1 afbeelding r). Deze is vanaf de negentiende

indeling bewerker 1' trefWoorden bewerker

I TEKST(EN) J

r. Classificatie

eeuw onder andere in gebruik bij het bibliotheekwezen voor de systematische catalogi. Een bekende classificatie is de Universal Decimal Code. Een classificatie is een totaal en absoluut systeem van termen met onderlinge hiërarchische en nevenschikkende relaties. De bewerker bepaalt niet alleen het algemene raamwerk, hij stelt ook vast welke hiërarchische indeling wordt gekozen en welke namen de onderverdelingen krijgen. Het abstractieniveau van de toplaag kan zeer hoog zijn, ver verheven boven de teksten zelf. Van boven naar beneden vinden we dan bijvoorbeeld Landbouw - Tuinbouw -Fruitteelt - Fruit - Appel -

Goudreinet. Maar de lagen behoeven niet per se te bestaan uit logische onderverdelingen van één begrip. De reeks kan ook luiden: WaterstaatZuiderzeepolders - Lely, waarin de breedste term een zaak is, gekoppeld aan een geografisch begrip als lagere term en een persoon als nog lagere term. Het gewenste evenwicht in het aantal treffers binnen de classificatie bereikt de bewerker door ze te verdelen over alle niveaus en alle onderverdelingen. Daarmee is de onderste laag van 'overbevolking' ontlast.

De gebruiker van zijn kant begint zijn zoektocht in een classificatie aan de top van de pyramide, waar hij overzicht heeft over het geheel. Via het maken van keuzen bij elke nieuwe onderverdeling daalt hij af naar een van de lagere

pa g in a 1 06 • vc 1 Ca lli er · J!llllllll l' J 11

niveaus, waar hij het gezochte aantreft. Problemen kunnen zich voordoen bij de indeling van de pyramide en bij de keuze van de namen van de onderdelen. Het is aanvaardbaar dat Lely onder Zuiderzeepolders staat. Maar waarom valt hij niet onder Waterstaatkundigen? De oplossing is een tweede pyramide die de term Waterstaatkundigen met Lely verbindt. In een optimale classificatie bestaan ook een groot aantal pyramiden, maar in de praktijk moeten toch keuzen worden gemaakt. Dat schept een potentieel communicatieprobleem met de gebruiker. Verder hebben nieuwe inhoudelijke ontwikkelingen in de wetenschappen tot gevolg dat de gebruiker steeds verder af komt te staan van de systematiek van de classificatie en de naamgeving van de onderdelen. De ervaring met systematische catalogi leert dan ook dat het verstandig is om de treffers van logische niveaus die men op weg van boven naar beneden tegenkomt, toch maar even te raadplegen en om daarna nog eens het hele overzicht van een classificatie te bekijken. De index in een boek daarentegen is nevenschikkend (zie afbeelding 2).

De trefwoorden staan op gelijk niveau naast elkaar. In dit geval moet de bewerker kiezen of hij het trefwoord Landbouw Of Tuinbouw Of Fruitteelt Of Fruit Of Appel Of Goudreinet neemt. Landbouw kan immers niet naast Fruitteelt staan, akkerbouw wel. Goudreinet kan niet als trefwoord worden gebruikt naast Fruit. Ingenieur Lely is nu als persoon een apart trefwoord met verwijzingen, naast een trefwoord Zuiderzeepolders met wellicht een aantal gelijkluidende verwijzingen. De bewerker kan dus steeds zelf kiezen welk zakelijk trefwoord hij gebruikt, zolang het maar logisch gelijkwaardig of hoger is dan het woord dat in de tekst staat. Een verwijzing naar het woord 'Fruit' in de tekst kan bijvoorbeeld niet worden ondergebracht onder het trefwoord 'Goudreinet', want het verzamelwoord gaat boven de variëteiten.

Ook in de zakenindex is dus het aandeel van de bewerker groot. Hij bepaalt welk abstractieniveau de trefwoorden zullen hebben en hoe ze zullen luiden. De grootste consistentie wordt zelfs bereikt als de bewerker inderdaad geheel loskomt van de tekst. Wel spelen bij indicering de eigenschappen van de tekst een veel grotere rol dan bij de classificatie. De inhoud van de basistekst moet immers volledig en evenredig worden gedekt, terwijl in een classificatie gewerkt wordt op basis van hoofdlijnen. De bewerker van een index dient de inhoud van de tekst vooraf globaal te kennen, om tussentijdse verrassingen in de vorm van grote opeenhopingen van treffers en het plotseling opduiken van nieuwe begrippen te kunnen vermijden. Voor de gebruiker is de zoekrichting in een conventionele index horizontaal. Hij loopt 'langs' de alfabetisch geordende trefwoorden naar de verwijzing die aan zijn vraag beantwoordt. 'Zie'· en 'zie ook' verwijzingen bevestigen dit horizontale karakter.

Het is goed hier nog iets te zeggen over de trefwoorden van personen, plaatsen en instellingen in een conventionele index. Ze leveren minder

pag in a 107 • vc 1 Ccd Jir , ll l llilll ll' J 11

b.v. hog' ab'''""'" 6 ~b.v. P"""'"

zoekrichting gebruiker -7

2 . Conventionele Index

trefwoorden -7 synoniemen

l" .... , ........ (" ,_ ,_ ,.. ~ .......... , -7 gerelateerde , \ \ begrippen

' ....

trefwoorden bewerken 1' tekst volledig verantwoord 1'

I TEKST( EN) I

problemen op dan abstracta, die zaken moeten aanduiden. Dat komt omdat ze als kleinste bestaande empirische eenheid vanzelf al tot de onderste laag van de pyramide behoren, het dichtst bij de tekst. In een index wordt het pas moeilijk als de bewerker een koppeling wil maken tussen deze eenheden en hogere zakelijke abstracties. Wie bijvoorbeeld een trefwoord overheden maakt, zou in feite moeten verwijzen naar alle in de tekst voorkomende bestuursinstellingen of 'zie ook' verwijzingen maken naar al die trefwoorden in de index. In de praktijk gebeurt dit echter niet. Het trefwoord overheden wordt alleen gebruikt als de aard of de taken van de overheid aan de orde komen. Op dezelfde manier is het vaak moeilijk om geografische eenheden, leefgemeenschappen en daarbinnen functionerende instellingen te ontrafelen. Een trefwoord Leiden omvat in de praktijk de stad als fysiek verschijnsel, de leefgemeenschap van de inwoners en de bestuursinstellingen

die daarbinnen functioneren. Op die basis maakt de bewerker van een index dan eventueel nog onder· verdelingen, zoals Leiden, magistraat van, Leiden, burgemeesters van,

I i/

pa g i.n a 1 oS- vc 1 Culd " r - IHIIlllll l' l 11

zoekrichting gebruiker --7

-woorden

graad van abstractie van de woorden

3· Onbewerkte text-retrieval dbase

etcetera. De begrippen magistraat en burgemeester ontlenen hier hun betekenis aan de combinatie van de functie en de plek waar deze wordt uitgeoefend.

In een conventionele index hoeft het gekozen trefwoord dus geen directe relatie te hebben tot de woorden in de tekst, alleen een abstract logische, omdat een trefwoord logisch even hoog of hoger moet staan als het woord in de tekst. In een full text retrieval omgeving daarentegen is het noodzakelijk dat er een rechtstreeks verband bestaat tussen de bewoordingen van de tekst en een, eventueel abstracter, zoekopdracht (categorie, concept). Aan de basis van elke zoekactie of bewerking

staan alle woorden die feitelijk in de tekst voorkomen, eventueel slechts met correctie voor ruis (veel voorkomende woorden van onvoldoende betekenis (zoals 'en', 'met' enzovoort) en synoniemen (zie afbeelding 3).

De figuur staat niet meer los van de tekst, maar is daarvan een functie geworden. De voorkomende woorden vormen het gereedschap waarmee de zoekopdracht wordt gemaakt. Daarmee is een weerbarstigheid gegeven die in een conventionele index niet optreedt.

De volgorde waarin bij full text retrieval de in een tekst voorkomende woorden in een lijst worden gepresenteerd is de alfabetische, dus zonder enige clustering naar inhoud. De woorden staan uiteraard ook van logisch breed tot logisch smal, elkaar al of niet overlappend, door elkaar, Fruitteelt naast Goudreinetten en Landbouw. In deze full textretrieval omgeving moeten de bewerker en de gebruiker hetzelfde werk doen, namelijk langs alle woorden in de tekst lopen en een inhoudelijke keuze maken welke woorden kunnen leiden naar de passages uit de tekst die bij de gekozen zoekvraag passen. De bewerker maakt dan zoekopdrachten, die de gebruiker anders op eigen kracht had moeten samenstellen. In tegenstelling tot de situatie bij classificatie en indicering lopen de werkzaamheden dus volledig parallel. Daardoor komt hier de beleidsvraag aan de orde Of en in hoeverre de gebruiker vooruit geholpen moet worden en hoeveel tijd daarin dient te worden geïnvesteerd.

Jl •lf.pll :l I O <J • V( , l ("(1/llfl 1111111111 (" 1 IJ

A + B zoekrichting gebruiker bewerker èn gebruiker

1' woord of concept dat - spellingsvariant - synoniemen verenigt

4· Concepten text-retrieval

Kenmerk van de uitgangspositie in een full textretrieval omgeving is dus dat er geen inhoudelijke samenhang van beschikbare zoektermen zichtbaar is. Een aantal pro-

. gramma's biedt de mogelijkheid om beschikbare woorden inhoudelijk te clusteren en aan dat cluster een eigen naam te geven. Zo ontstaat een tweede alfabetische lijst van zoekopdrachten (afbeelding 4), die meer lijken op trefwoorden in indices.

De eenvoudigste bestaan uit samenstellingen die spellingvarianten uitbannen en synoniemen bundelen. Daarenboven kunnen met booleaanse operatoren combinaties worden gemaakt van twee of meer in de tekst voorkomende woorden, waardoor een nieuw begrip ontstaat. De eenvoudigste zijn combinaties van woorden die tezamen een logisch hoger concept vormen. Zes soorten appels, vier soorten peren en aardbeien kunnen met het woord Fruit zelf worden ondergebracht in een concept Fruitteelt. Echter, met combinaties van begrippen uit de tekst (en hun synoniemen) zijn de grenzen snel bereikt. Abstracties waarvan de bouwstenen niet als onderdelen in de tekst aanwezig zijn, kunnen slechts gebrekkig of met behulp van uiterst complexe zoekopdrachten worden benaderd, met alle risico's van dien.

Als het begrip financiën niet in een tekst voorkomt, zou het moeten worden benaderd met een lange reeks wèl voorkomende woorden zoals geld, penningen, (on)kosten, rekening, collecte, traktement enzovoort. Het is dan veiliger rond deze termen kleinere eenheden in concepten te bundelen, zoals bijvoorbeeld rekeningen, betalingen en traktementen. Een tekst met een lage graad van abstractie en consistentie zal zich dus in het algemeen niet lenen om zoekopdrachten van een hoog logisch niveau te construeren, teksten met een goede structuur en een flinke mate van abstract woordgebruik wel.

Constructies van logische niveaus die hoog boven de tekst zweven, laten bewerker en gebruiker inderdaad op de baron von Münchhausen gelijken. Hij zit op zijn paard en moet het meetrekken naar boven. Echter, de gebruiker kan de bewerker gemakkelijk narekenen, want met behulp van de programmatuur valt altijd te zien hoe een concept is geconstrueerd. Wee~ de gebruiker zelf een betere oplossing, dan kan hij de bewerker onmiddellijk overtreffen. Bij een conventionele index bleef dat een droom.

" ~ .

pagina no- VGI Cahier- nummer rr

Volledigheidshalve moet worden gezegd dat in een full text retrieval omgeving de situatie van een conventionele index kan worden nagebootst door de tekst te coderen op basis van een los-zwevend, maar dekkend stelsel van trefwoorden. Dit betekent echter dat de bewerker de hele tekst als vanouds moet doorlopen en indiceren, waarbij zich alle theoretische en praktische problemen van een gewone index voordoen. Op deze aspecten zal nu wat nader worden ingegaan.

De conventionele index en inhoudelijke ontsluiting van teksten in full text retrieval

Indiceren is, ondanks de schijn van het tegendeel, nooit een eenvoudige bezigheid geweesP Het vereist, naast liefde voor detail, een groot abstractievermogen, eigenschappen die lang niet altijd in één persoon zijn verenigd. Niettemin staat of valt de toegankelijkheid van een boek met de bruikbaarheid van de index. Ieder die, meestal oudere, boeken met ondoorzichtige indices raadpleegt, kent het wanhopige gevoel dat het gezochte er in staat, maar niet tevoorschijn getoverd kan worden. Dat kan allerlei verschillende oorzaken hebben, die niet meteen in het oog springen. In die situatie kan de digitale wereld uitkomst brengen. In een full text retrieval-omgeving kan de gebruiker zelf op zoek gaan in de volledige tekst. Dit is een belangrijke verbetering ten opzichte van een conventionele index, waarbij de gebruiker machteloos staat, tenzij hij het hele boek doorleest.

Een ramp die gebruikers van een conventionele index regelmatig overkomt, is verzwegen onvolledigheid. Een bewerker heeft dan uit de losse pols elemente.n van de inhoud van de tekst bij het indiceren overgeslagen zonder dat te melden. Dit gebrek treedt meestal onverwacht aan het licht. Je komt in het boek een naam tegen, waarvan je je afvraagt of deze vaker voorkomt. Een blik op de index leidt vervolgens tot de afschuwelijke conclusie dat de hele naam er niet in staat, dus ook geen verwijzing naar de plek waar de naam is gevonden. Op zo'n moment is elk vertrouwen weg. Dat is immers gebaseerd op volledigheid of op de zekerheid dat alleen bepaalde duidelijk omschreven onderdelen van indicering zijn uitgesloten. In dat laatste geval moeten dan nog formele, dus toetsbare, selectiecriteria zijn gehanteerd. Als bij een index w0rdt aangegeven dat alleen personen en plaatsen zijn geïndiceerd of dat de lijsten van bladzijde zoveel tot zoveel niet zijn meegenomen, kan dat teleurstellend zijn, maar het is niet onoverkomelijk. In een full text retrievalomgeving liggen de zaken anders. Daar kunnen alle handelingen van de bewerker in beginsel worden geverifieerd, ook aanpassingen in ruiswoorden en synoniemen. Bovendien is alle opgenomen tekst ook te doorzoeken.

Een tweede oorzaak van moeilijkheden met een traditionele index kan schuilen in de trefwoorden van een index. De bewerker van de index heeft deze

p ag lll :l lil • VC I C:td d t•t llllllllll l"l' I Î

immers gekozen. Zelfs als ze verder voldoen aan de wetten van de logica, hoeven ze niet aan te sluiten op het beeld dat de gebruiker van de materie heeft. Bovendien hebben bewerker en gebruiker elk een woordkeuze die past bij de tijd waarin ze leven. Om die reden is het veiligste en meest 'tijdloze' uitgangs-punt bij het formuleren van trefwoorden altijd geweest, zo dicht mogelijk te ,, . blijven bij woorden en begrippen uit het tijdvak waarin de tekst is ontstaan. Die terminologie moet een goede onderzoeker zich immers tweehonderd jaar later nog steeds eigen hebben gemaakt. Deze stelregel valt geluld<ig voortreffelijk te verenigen met full textretrieval. Dat systeem heeft deze mogelijkheid niet alleen, het dwingt bij het formuleren van zoekopdrachtért zelfs in die richting, omdat het rechtstreeks uitgaat van woorden in de tekst.

Een derde probleem met traditionele indices kan liggen in de verwijzingen. Een oefening in zelfbeheersing wordt de gebruiker van een conventionele index soms gratis aangeboden als hij de verwijzingen ziet, die bij een trefwoord staan. Soms zijn dat er vierhonderd, soms stuit hij op de kreet passim of, bijna nog erger, er zijn zeventien trefwoorden die dicht bij elkaar liggen, daarom allemaal in aanmerking komen voor nadere inspectie en elk vijftien verwijzingen hebben. Die moeten dan eigenlijk eerst op zoekvolgorde worden gezet om de draad vast te houden en eindeloos bladeren te voorkomen. In al deze gevallen is door de bewerker geen aanvaardbare en praktische verhouding bereikt in de verdeling van de treffers over de trefwoorden. Bij passim en vierhonderd verwijzingen moet altijd de vraag worden gesteld of een zinvolle splitsing of onderverdeling te vinden zou zijn geweest. Omgekeerd hadden de verwijzingen onder de zeventien trefwoorden misschien beter in een drie- of viertal verschillende bredere trefwoorden kunnen worden ondergebracht. Dezelfde overwegingen doen zich ook voor bij het zoeken in een full textretrieval omgeving. Hier staan echter de treffers in elk geval in de volgorde waarin ze in een tekst voorkomen. Ook beschikt de gebruiker over allerlei mogelijkheden tot manipulatie van het aantal treffers. Hij kan vóórdat het zoeken begint de zoekbreedte beperken door bestanden te selecteren, in onderdelen te splitsen of te bewerken tot velden. Bovendien kan de gebruiker zelf een aantal trefwoorden tot één zoekopdracht verenigen.

Het gaat dus bij een conventionele index om het juiste evenwicht tussen de lengte van de tekst, de verscheidenheid van de inhoud en de draagwijdte van de toegekende trefwoorden. Deze gegevens helpen bij de keuze uit de lagen van de pyramide van afbeelding 2. De bewerker bepaalt uiteindelijk het archimedische punt tussen deze relaties van waaruit hij zal gaan werken. Een plaaggeest zou bij een bronnenuitgave een index kunnen inleveren met één trefwoord: 'geschiedenis' en als verwijzing: passim. Daartegen kan geen enkellogisch bezwaar worden gemaakt. De bewerker van een conventionele index legt immers een raster van logisch samenhangende trefwoorden over

1

11

pagina II2 - vei Cahier - nummer rr

de tekst, waarbij hij, los van de bewoordingen van de tekst, maar wel met het oog op de inhoud van de tekst, een bepaald abstractieniveau kiest. Appels, peren, kersen en citroenen, die als woorden voorkomen in de tekst, kunnen worden samengenomen onder Fruit, of als dat beter uitkomt onder Fruitteelt, of zelfs onder Landbouw. In het gegeven gebruikersonvriendelijke voorbeeld bestaat het raster uit één trefwoord: geschiedenis, waaronder verreweg de meeste begrippen uit de tekst vallen.In de praktijk zal een bewerker natuurlijk altijd een uitgebreider raster van trefwoorden ontwerpen. Bij het formuleren van zoekopdrachten in een full text retrieval-omgeving wordt de bewerker echter, zoals uiteengezet, vanzelf al gedwongen qua abstractieniveau van de trefwo"orden dicht bij dat van de tekst te blijven. De zoekopdracht 'geschiedenis' bijvoorbeeld zou logischerwijze tenminste alle in de tekst voorkomende zelfstandige naamwoorden moeten bevatten. Een nadeel van een full text retrieval-omgeving is dat de gebruiker de inhoud van een tekst niet of niet voldoende kent en daarom tijd nodig zal hebben om het gezochte evenwicht proefondervindelijk vast te stellen. Bovendien zit ook hij aan de feitelijke bewoordingen van de tekst vast.

Dit gegeven brengt ons op aan laatste eigenschap van een goede conventionele index. Deze he~ft een, op kennis van de inhoud van de tekst gebaseerd, samenhangend geheel van trefwoorden, dat wat betreft de gebruikte begrippen los kan staan van de tekst, maar de inhoud daarvan wel zo volledig mogelijk dekt Met andere woorden, het ontwerp van het raster is principieel onafhankelijk van de bewoordingen van de tekst Er kan op basis van globale kennis van de tekst al een redelijk sluitend ontwerp worden gemaakt, zelfs voordat met indiceren is begonnen. Dat is zelfs wenselijk, omdat toevoegingen en uitbreidingen dan beter kunnen worden beredeneerd. Een dergelijk ontwerp en het indiceren zelf stellen eisen aan de logische vermogens en de taalvaardigheid van de bewerker. Bij full text retrieval daarentegen zijn de woorden in de tekst de bouwstenen voor de concepten. Bewerker en gebruiker moeten dus weten welke mogelijkheden er zijn om met bouwstenen een bruikbaar geheel samen te stellen. De invloed van de structuur, de aard, de inhoud en de spelling van de tekst is hier allesbepalend. Slechts proefondervindelijk kan per tekst een oordeel worden geveld. Hiermee komen we aan het praktische gedeelte van deze uiteenzetting, dat de oorspronkelijke aanleiding vormde voor nadere bezinning.

Het Instituut voor Nederlandse geschiedenis en full text retrieval Het ING en grote tekstbestanden

Het Instituut voor Nederlandse Geschiedenis bestaat sedert 1910, aanvankelijk onder de naam Bureau der Rijkscommissie voor Vaderlandse

pag in a 11 3- ve t Ca hier- numm er J 1

GeschiedenisJ Het houdt zich vanouds bezig met de inhoudelijke ontsluiting van historische bronnen voor de Nederlandse geschiedenis, onder andere in de reeks Rijks Geschiedkundige Publicatiën (RGP).4 Grote databases behoren echter ook reeds tot het pakket dat nu in bewerking is. Voorbeelden daarvan zijn de projecten 'Inventaris van de brieven van Willem van Oranje', , , 'Beschrijvend Bronnenmateriaal van de Bataaf-Franse tijd' en, op een geheel ander terrein de digitalisering, ook retrospectief, van het Repertorium van boeken en tijdschriftartikelen betreffende de geschiedenis van Nederland.5 Een van de hoofdtaken van het Instituut blijft de inhoud~lijke ontsluiti;lg van zeer grote tekstbestanden met rijk geschakeerde gegevens. Het betreft resoluties of acta van bestuurlijke organen, zoals van de Staten-Generaal, de Staten van Holland of kerkelijke instellingen, en aan ander serieel materiaal, zoals middeleeuwse grafelijkheidsrekeningen, Generale Missiven van de Gouverneurs-Generaal van de voc en uiteraard ook documenten van later tijden_6 Het 1NG heeft op dit moment reeds de beschikking over grote bestanden met electronische tekst Het is daarmee een van de weinige instanties in Nederland die in een full text retrieval-omgeving kan experimenteren met omvangrijk historisch oefenmateriaal in oude spelling met het oog op uitvoering van projecten in de nabije toekomst

De methoden die tot nu toe zijn gebruikt voor de bewerking van dit soort omvangrijke bronnen zoals transcriptie, geleding van de tekst, samenvatting, regest en annotatie blijken allemaal, mutatis mutandis, te kunnen worden toegepast in een full text retrieval-omgeving, onder andere met hypertext. Op deze aspecten wordt nu echter niet verder ingegaan.

Pilot full-text retrieval De aanzet voor oriëntatie in full textretrieval was de grote zorg om de groei van de omvang van het uit te geven materiaaL Men denke bijvoorbeeld aan de resoluties van de Staten- Generaal van de vroege zeventiende eeuw. De methodiek van deze editie, samenvatting met index in boekvorm, voldeed uitstekend, maar de omvang van de publikatie en de personeelsinzet werden een probleem. Vandaar dat op grond van de nieuwe technische mogelijkheden is gezocht naar uitgave in digitale vorm. Naar aanleiding van een ING

workshop over de voortzetting van het project Staten-Generaal 1610-1670 in 1995 werd in 19957 een pilot inzake full text retrieval van algemene strekking gehouden. Het rapport is inmiddels verschenen onder de naam Text retrieval als middel ter ontsluiting van historische tekst. 8 Het NHDA, meer in het bijzonder in de persoon van Hans van Mourik, leverde de technische expertise ten aanzien van programmatuur, mogelijkheden met SGML en kennis van beschikbaar vergelijkingsmateriaal op CD-ROMS en Internet sites. Een team van het ING, bestaande uit Donald Haks, Ineke Huysman, Astrid

11

111

11

I

lil. I I il

1!1

pa gina 114- vc 1 Ca hi er - numm er 11

Verheusenen mijzelf, heeft op basis van eigen inhoudelijke kennis van teksten experimenten uitgevoerd.

Het doel van de pilot was de beantwoording van de algemene vraag naar de bruikbaarheid van full textretrieval voor het werk van het ING en van de specifieke vraag naar het nut van verfijningen ten behoeve van de gebruikers. Belangrijke punten waren daarbij onder andere het effect van variërende spelling, de invloed van de inhoudelijke eigenschappen van een tekst op zoekstrategieën en de hoeveelheid en de aard van het werk dat met een en ander gemoeid is. Vanwege de wens om de gebruiker goed van dienst te zijn, werden in dit kader ook conventionele indices vergeleken met de zoekmogelijkheden in full textretrieval. Op advies van het NHDA is daarbij het programma zyrNDEx gebruikt.9 Al snel bleek dat dit programma tamelijk sterk is gericht op het inhoudelijk schiften van een grote verzameling kleinere documenten en minder op de analyse van lange teksten. Niettemin leende het zich wel voor ons doel, al waren er een paar beperkingen. Een overzicht van de eigenschappen van full textretrieval programma's die op de markt zijn, wordt overigens geboden door de VOGIN.10 Gezien de positieve resultaten is het Instituut voor Nederlandse Geschiedenis intussen voortgegaan op de ingeslagen weg. In 1998 is besloten text retrieval te gebruiken bij de voortzetting van de editie Staten-Generaal. Ook is nader onderzoek gedaan door Barbara Bikker, studente te Groningen, die haar stage bij het Instituut besteedde aan full text retrieval, met bijzondere aandacht voor retrodigitalisering van het project Nederlands-Indonesische Betrekkingen 1950·1963JI

De gekozen teksten Aan de pilot van 1995 lagen drie omvangrijke teksten ten grondslag die reeds in digitale vorm ter beschikking stonden en waarvan de inhoud globaal bekend was. Deze teksten waren acta van de classicale vergaderingen van de Hervormde Kerk uit de late zestiende en de vroege zeventiende eeuw (met een omvang van 900 bladzijden in druk)I 2 , particuliere notulen van de Staten van Holland uit de vroege zeventiende eeuw (6oo bladzijden in druk)I3 en een selectie uit de editie Staatsregelingen 1796-1806 met notulen van vertegenwoordigende en uitvoerende organen (575 bladzijden in druk).I4 Ieder lid van de werkgroep nam hiervan een afzonderlijk bestand voor zijn rekening, zodat bij het testen de inhoudelijke consistentie bewaard bleef.

De teksten stonden in WP 5.1, opgedeeld in bestanden van niet meer dan 100 KB. Ze hadden geen markeringen in SGML of van andere aard. Wel boden ze goede aanknopingspunten voor indeling in velden of voor codering omdat alle teksten per vergadering zijn gedateerd en meestal ook per kleiner onderdeel genummerd. Verder was in alle teksten de contemporaine spelling,

I'• ' tl i t! ,, lt 'i • vr. t C tt ltt t· 1 rt '''''''' ' r r '

argezil'll V; lll 1\1' 1 i liJ',! ' llllllll , iii Sl' l in gen, gehandhaafd. Ook deze hindernis kon, ondanks waa 1 s< lltt wi 11 ge n in de literatuur, worden overwonnen met truncating, ofwel het reduceren van een woord tot zijn stam met behulp van wildcards. Er was altijd wel ruis, maar deze bleef van een aanvaardbare omvang. Alleen voor synoniemen en sterk afwijkende namen voor hetzelfde verschijnsel moesten andere oplossingen worden gezocht. Persoons- en , ~

plaatsnamen zouden in aparte velden kunnen worden geplaatst. Dit bleek aanbevelenswaardig, om verwarring tussen namen en begrippen te voorkomen.

De praktijk Zoals boven vermeld, is een lijst van alle in een tekst voorkomende woorden een onmisbare basis voor de bewerking van een tekst in een full textretrieval omgeving. Het programma zyrNDEx maakt inderdaad een dergelijke lijst, in alfabetische volgorde en met opgave van de frequentie waarin ze voorkomen. Helaas is het niet mogelijk de woorden op te vragen in rangorde van frequentie, of om ze na gebruik af te vinken. Verder vormen de vele spellingvarianten in de oude teksten bij gebruik van een ongeschoonde woordenlijst een flinke belemmering.

In teksten staan uiteraard veel woorden die niet van belang zijn bij de inhoudelijke ontsluiting van een tekst. In een conventionele index worden ze genegeerd, in full textretrieval zou men ze het liefst ook uitbannen. Nu bevat zyrNDEX een op modern Nederlands gebaseerde ruiswoordenlijst, die zeer vaak voorkomende woorden zoals 'en' en 'dat' uit de woordenlijst schrapt. Deze lijst bleek voor de vroeg negentiende-eeuwse tekst al voldoende nuttig effect te hebben. Het oudere Nederlands vereiste aanpassingen, maar deze waren gelukkig wel mogelijk. Overigens is het gevaarlijk teveel woorden als ruiswoorden te brandmerken, want ze worden daarmee ook van zoekacties uitgesloten. Daarbij blijken echter soms meer woorden van belang te zijn als aanknopingspunt dan op voorhand zou worden gedacht.

Synoniemen zijn een bekend probleem bij welke inhoudelijke ontsluiting van teksten dan ook. In zyrNDEX bevindt zich een op modern Nederlands gebaseerde synoniemenlijst, 'thesaurus' genoemd. Hierin kunnen verschillende termen voor hetzelfde begrip gegroepeerd worden weergegeven. Het is mogelijk tot een zeker oneigenlijk gebruik van deze lijst over te gaan, door niet alleen synoniemen, maar ook gerelateerde termen en spellingvarianten toe te voegen. De gebruiker ziet dan bij raadpleging van de thesaurus de synoniemen, gerelateerde termen en spellingvarianten bij elkaar staan, met hun frequentie in de tekst. Zo merkt hij dan bijvoorbeeld dat 'adel' niet en 'aristocratie' wel voorkomt en dus in een zoekactie kan worden opgenomen. Een zorgvuldig opgezette en verantwoorde thesaurus zal zeker vruchten

,'1:

I'

I

pa gi 11 <1 11 6 - vc 1 C11/li ct 1111111111 1' 1 11

afwerpen. Het is immers een middel om tot de i11 fulllvxl lt'lltt•v.d 1\\'Wt' II Sit' clustering van woorden te komen vóórdat zoekopdrachten worden gv nwakt.

De strijd tegen in teksten van vóór de negentiende eeuw voorkomende spellingvarianten moest in full text retrieval uiteraard worden gevoerd. In een conventionele index is dit natuurlijk geen enkel probleem, omdat de gekozen trefwoorden los staan van woorden in de tekst. Een schijnbaar hulpmiddel, ingebouwd in het programma, namelijkfuzzy zoeken, was erger dan de kwaal. Fuzzy matching bestaat hierin dat de gebruiker een graad van afwijking van de door hem of haar in te typen letterformatie kiest. Het resultaat bestaat uit treffers die op deze lettercombinatie 'lijken' . In de praktijk blijkt dat afwijkende spellingen in oude teksten dit hulpmiddel doldraaien. De precision was al in de lichtste fuzzy-graad compleet zoek, dat wil zeggen dat een groot aantal hits niet inhoudelijk met het gezochte in verband stond. Omgekeerd werd evenmin een aanvaardbare reeall bereikt, dus ook wat wèl werd gezocht, kwam niet volledig boven tafel. Deze uitkomst strookt uiteraard met het quasi-associatieve karakter vanfuzzy matching. Het doorbreekt de streng inhoudelijke theoretische kaders van indelingen en rasters. Tegelijkertijd echter blijkt het alleen te functioneren dankzij rigide spellingswetten die al te fuzzy resultaten helpen uitsluiten.

Veel effectiever voor het omzeilen van moeilijkheden rond de spelling was het gebruik van wildcards. Met name de bekende sterretjes, die elke hoeveelheid tekens tussen twee gegeven letters in kunnen vertegenwoordigen, leidden tot uitstekende resultaten. Met dit truncating kon, ook in de oude spelling, vrijwel altijd een unieke stam worden gevonden voor het gezochte woord in al zijn varianten, mèt daarmee samenhangende woorden. Het vraagteken, dat één enkele letter vervangt, hielp daarentegen niet voldoendé. Het formuleren van de zoekopdrachten met wildcards vergde wel het nodige denkwerk, goede kennis van de spelling van de tekst en veel toetsing aan de tekst, maar de inspanning werd beloond. Theoretische vereenvoudiging van spellingsvarianten loont, zolang de eenheid van betekenis van woorden met een gelijkluidende taalkundige stam gehandhaafd kan worden.

Voor het combineren van begrippen, om tot een hoger ambstactieniveau in de zoekopdrachten te komen, boden de Booleaanse operatoren goede diensten. Deze verbinden twee of meer gegeven woorden of zoektermen tot

J

één zoekopdracht. De bekendste zijn AND voor termen die tegelijk in een tekst moeten voorkomen en OR voor termen die één van beide moeten voorkomen. Andere Booleaanse operatoren zijn onder andere NOT, dat termen uitsluit, en wrTHIN, dat termen zoekt die op een aangegeven woordafstand van elkaar voorkomen. Theoretisch gesproken zijn OR combinaties het veiligste voor het inhoudelijk ontsluiten van tekst. Ze combineren inhoudelijk

p.tg lll .l 11 7 • VL I C' 11f11 1' 1 1111111111 1' 1 11

vt· twante begrippen die elk afzonderlijk ergens in een tekst moeten voorkomen. De term met het hoogste abstractieniveau bepaalt tevens het .1 bstractieniveau van de zoekopdracht. De AND operator is niet zuiver t umulatief, maar vereist dat begrippen in combinatie met elkaar voorkomen. 11 ier worden twee begrippen aaneengeklonken tot een begrip van logisch . hoger niveau, waarbij altijd het gevaar bestaat dat andere verwante woorden , ~ in de tekst worden genegeerd. WITHIN is een verbijzondering van AND, noodzakelijk in het gebruik omdat zyrNDEX bij AND niet in ogenschouw neemt hoe ver twee woorden uit elkaar staan, als ze maar in één tekstbestand te vinden zijn. De operator OR is voor effectief inhoudelijk zoeken onontbeerlijk om te komen tot clustering van inhoudelijk verwante begrippen. OR is tevens bruikbaar als wildcards geen afdoende oplossing bieden voor spellingvarianten. AND combinaties kunnen eigenlijk alleen veilig gemaakt worden door twee of meer zoekopdrachten waarin reeds inhoudelijke clustering van alle voorkomende woorden heeft plaatsgevonden, met elkaar te verbinden. Met andere woorden, in zyrNDEX werkt de operator AND het beste als deze reeds geteste 'concepten' (vastgelegde zoekopdrachten) met elkaar combineert.

Het programma levert een alfabetische lijst van aangemaakte concepten, die keuze mogelijk maakt. Ook kan de gebruiker daarin zien hoe het concept is samengesteld. Deze mogelijkheid tot verifiëren is uiteraard essentieel. De opvatting van de bewerker blijft daarmee toetsbaar. Wellicht doet een bewerker er dus verstandig aan, niet verder te gaan dan clustering van aanverwante begrippen en verdere acties aan de gebruiker over te laten. Met het uit verschillende begrippen samengestelde concept, dat zijn naam en inhoud geheel en al ontleent aan de definitie van de bewerker, komen we immers weer uit bij het hoofdprobleem van alle indicering. De bewerker moet er in slagen een goede relatie tot stand te brengen tussen de denkwereld en het woordgebruik van de gebruiker en de denkwereld en het woordgebruik van de tekst. In een full text retrieval-omgeving kan deze vertaalslag echter heel goed aan de gebruiker worden overgelaten. Beide blijven echter gekluisterd aan de woorden die werkelijk in de tekst voorkomen. Deze eigenschap valt niet te omzeilen.

Onbruikbaar voor het doel van ontsluiting van grote tekstbestanden in yrNDEX, maar helaas ook onvervangbaar is de operator NOT. Deze operator

zou theoretisch kunnen worden gebruikt om stamverwante woorden met een andere betekenis en eventuele andere 'ruis' uit te sluiten van een zoekopdracht. Clusters woorden rond eenzelfde begrip hoeven niet met NOT te worden uitgesloten, maar kunnen positief met OR worden opgebouwd. De operator NOT in zyrNDEX sluit echter niet alleen de treffers uit waarin het op NOT volgende woord voorkomt, maar meteen het hele tekstbestand.

pagina r18- ver Cahier- numm er rr

Perspectief De historicus wenst ook in een full text retrieval-omgeving een inhoudelijke ontsluiting van een tekst met volledige recall, dus de mogelijkheid om echt alle in aanmerking komende plaatsen terug te vinden. Een goede tweede is de hoogst mogelijke mate van inhoudelijke precision. En om het inhoudelijke draait het dan. De historicus stelt daarom andere eisen aan dergelijke programmatuur dan een taalwetenschapper, een bibliograaf of een documentalist. Het voorkomen van een woord, woordfrequentie, zogenaamde density (hoe vaak komen de gezochte termen vlak bij elkaar in de buurt voor) en gebruik van woorden zijn interessante gegevens, maar slechts middelen tot een doel, het vinden van inhoudelijke informatie. Ook bij selectie uit een grote hoeveelheid documenten heeft de historicus dus een andere invalshoek Het gaat hem niet om een rangorde van inhoudelijk belang, zodat alleen de belangrijkste teksten ter beschikking komen. Hij wil alle teksten, waarna hij zelf het belang van de inhoud bepaalt.

De historicus die een bron inhoudelijk ontsluit, moet daarom zijn eigen strategie kiezen in de wereld van de full textretrievaL Zijn gebruikers wensen alle in een tekst beschikbare informatie over hun zoekvraag, zowel expliciete als, tot op zekere hoogte, impliCiete. Het gaat niet om de meest volledige hit die gezochte gegevens biedt, maar om de meest volledige verzameling van hits waarin de gezochte gegevens al of niet los voorkomen. Kortom, wij wadett op een andere manier door de woorden dan de rest De beste reeall en de grootste precision worden in elk geval bereikt door zo dicht mogelijk bij de feitelijk in de tekst voorkomende woorden en begrippen te blijven. In hel algemeen _betekent dat een zo laag mogelijk abstractieniveau als de teksl toelaat

Zoals gezegd, leiden de beperkingen van de Boleaanse operatoren er loc dat de uiteindelijke verantwoordelijkheid voor de volledigheid van de reeall sterker bij de gebruiker komt te liggen dan bij de bewerker. De bewerker is verantwoordelijk voor betrouwbare zoekeenheden, niet voor volledige dekki " I', door zoekopdrachten van de hele inhoud van de tekst en ook niet voor ei <' betrouwbaarheid van combinatie van zoekopdrachten tot nieuwe begrippct I. Geen enkel samenstel van zoekopdrachten zal immers kunnen pretenden•11 alle mogelijkheden te hebben benut en alle denkbare vragen te kunn en beantwoorden. Tegenover deze beperkingen staat dat ieder in de tekst voorkomend woord via een lijst kan worden opgezocht. Zo kan de ge bruik( •t bijvoorbeeld zoeken op functionele termen zoals commissie of advies, d iv nooit in een conventionele index zouden worden opgenomen.

De moraal van dit verhaal is dat niet moet worden gestreefd naar ' n;t t!t.! ltl· ' van de conventionele index in een full textretrieval ongeving. Dat slu i l op theoretische grenzen van de mogelijkheden en het leidt tot een grote

pagina II9 - VG J Cahi er- numm e r JJ

hoeveelheid overbodig werk De inhoud van de tekst bepaalt geheel en al, welk logisch abstractieniveau kan worden bereikt door clustering van verwante begrippen. Hoe consistenter een tekst is in zijn eigen woordgebruik en hoe groter de graad van abstractie is, hoe beter deze tekst zich leent om en hoog abstractieniveau te bereiken met zoekopdrachten. In de bij de pilot ".

gebruikte tekst van het Dagverhaal van de Nationale Vergadering van rond t8oo konden inderdaad concepten van een hoog abstractieniveau worden geconstrueerd, zoals 'provinciale schulden', 'democratische republiek', 'sociale zorg' en 'onderwijs en opvoeding' . De meeste historische tekst~n van vóór het midden van de achttiende eeuw voldoen echter niet aan deze wens. 1-Iier zal men zich tevreden moeten stellen met beperkter concepten. Maar we blijven waden door woorden, op zoek naar inhoudelijke informatie voor een prachtig vak, dat dankzij de full textretrieval op een nog rijker geschakeerde manier kan worden beoefenen.

Noten

1. Textretrieval als middel ter onsl1Liting van historische teksten. Werkgroep Textretrieval. Interne

publicatie van het Instituut voor Nederlandse Geschiedenis. Den Haag 1996. De tekst van dit rapport

kunt u ook vinden op de www-site van het Instituut http://www.konbib.nlfinfolevfingfrgpfwerkbest{

tekstret{textretr. htm.

2. ). Roelevink m.m.v. P.J. Drooglever, M.T.A. Schouten en A. ). Veenendaal jr, Leidraad voor het

indiceren van een bron~Lenuitgave . Interne publicatie van het Insti tuu t voor Nederlandse Geschiedenis,

Oen Haag, 1995 (ook op www-site, http://www.konbib.nlfing). Vrijwel all e literatuur over het onderwerp

is angelsaksisch. Hier wordt echter een ander systeem gepropageerd dan in Europa gebruikelijk is.

3· Voor de geschiedenis: K. Kooijmans en ).P. de Valk, 'Eene dienende onderneming' .

De Rijkseemmissie voor Vaderlandse Geschiedenis en haar Bureau 1902-1968 in: Bron en Publikatie.

Voordrachten en opstellen over de ontsluiting van geschiedkundige bronnen, uitgegeven bij het 75)arig bestaan

van het Bureau de.- Rijkscommissie voor Vaderlandse Geschiedmis ('s-Gravenhage 1985) , p. 203-280 en

J. Roelevink en A. J.Veenendaal jr. , ' Undeleting the Dutch Past: Thc Netherlands Government

om mission on National History' in: Documentary Editing XII (1990), p. 44-48.

4· Het meest recente overzicht van alle tot dusver verschenen publicaties jaarverslag 1998. fltstituut

voor Nederlandse Geschiedenis (Den Haag 1996), p. 50-59.

5· Ch. jeurgens en P.M.M. Klep, Informatiepmcessen van de Bataafs-Franse overheid 1795-1813.

(Den Haag, 1995); A. Verheusen, Informatieprocessen van de Bataafs-Franse overheid? in:

VGI Cahier X (1998) p. 63-82.

6 . A. ). Veenendaal en ). Roelevink (red.), Unlocking government arch ives ofthe early modern period.

Papers presentedat a workshop held at the Institute of Netherlands History, The Hague, 17-18 I'Wvember

'994· Den Haag, 1995; B.G.J. de Graaffen A.). Veenendaal jr. (red. ), Bronontsluiting voor de negentiende

<'11 twintigste eeuw. Teksten van een symposium georganiseerd door het Instituut voor Nederlandse

eschiedenis. Interne publikatie van het Instituut voor Nederlandse Geschiedenis. Den Haag 1995·

De tekst van laatstgenoemde publicatie eveneens op http://www.konbib.nl{ing.

lil i/

:I:

i/i

pagina u.o - vc: 1 C:tillit•t llllllllll t ' l 11

7- J. Roelevink, 'Navigating new waters: The project Resolutions of the States-General 1576-1670' in:

Unlocking government archives, p. 67-83.

8. Den Haag, 1996. Ter inzage en te downloaden op de internet site van het Instituut voor

Nederlandse geschiedenis, http:f fwww.konbib.nlfing.

9· ZyrNDEX for Windows 5·3·

10. Nederlandse Vereniging van Gebruikers van Online Informatiesystemen (voGI N), Projectgroep

Programmatuurvergelijking Text Retrieval Software. Een vergelijking van bijna 50 retrieval-programma's

aangevuld met gegevens over thesaurus-software en con versie-programma 's. Eindred. E. Sieverts.

('s-Gravenhage 1996).

11. B. Bikker, Stageverslag textretrieval. Instit uut voor Nederlandse Geschiedenis te Den haag, 20 april tot

en met 22 juni 1998.

12. Classicale Acta 1573-1620, IV, Provinciale synode Zeeland, Classis Walcheren 1602-1 620, Classis Zuid

Beveland 1579 -1591. Bewerkt door J. Bouterse. Rijks Geschiedkundige Publicati!n uitgegeven door het

Instituut voor Nederlandse Geschiedenis, Kleine Serie, nr. 79 · Den Haag, 1995; Classicale Acta 1573 -

1620, V, Provinciale synode Zuid-Holland Classis Leiden 1585-1620, Classis Woerden 1617-1620. Bewerkt

door M. Kok, bezorgd en ingeleid door J. Roelevink met medewerking van A.J. J. van 't Riet. Rijks

Geschiedkundige Publicatiën uitgegeven door het Instituut voor Nederlandse Geschiedenis, Kleine

Serie, nr. 88. (Den Haag 1996).

13- Particuliere notulen van de vergadering~n der Staten van Holland 162o-164o door N. StellingwerfT en S.

Schot, V novem ber 163o-december 1632, bewerkt door J.W. Veenendaa i-Barth en L. de Vree , Rijks

Geschiedkundige Publicatiën uitgegeven doo r het Instituut voor Nederlandse Geschiedenis, Grote

Serie, nr. 228. (Den Haag 1995).

14. De selectie had betrekking op de door L. De Go u bewerkte delen De staatsregeling van 1798. Bronnen

voor de totstandkoming, De staatsregeling van 1801 . Bronnen voor de totstandkoming en De staatsregelingen

van 1805 en 1806. Bronnen voor de totstandkoming. Rijks Geschiedkundige Publicatiën uitgegeven door

het instituut voor Nederlandse Geschiedenis , Kleine Serie, nrs 65-67, 85 en 89. (Den Haag 1988-1997).

po~ g 11 1.1 1 2. 1 • v< .l Cu lti r t lltlllllll t' l 11

François M.M. Hendrickx

N ominal Record Linkage in

a Multi-Lingual Environment.

Two Amendments to the Guth Algorithm. ,/ •

The problem In July 1995, the Luxembourg government and the Fandation Bassin Minier started a two-year research proj ect to investigate the role of internal migration during the initial phase of industrialisation in the Grand-Duchy of Luxembourg (r88o-r9oo). The industrialisation of Luxembourg was concentrated in the southern region of the country known as the Bassin Minier. Here the discovery of rich iron ore deposits in the r84os led to the foundation of a series of steel mills from the early r87os onward which were operated to a substantial extent by migrants from Belgium, France, Germany, [taly, Austria and the Eastern provinces of the German Empire, today's Poland. This resulted in an ethnically mixed population. As both national and communal migration registers as well as population registers for this period were stilllargely absent in the Grand-Duchy, the choice of specific sourees to establish the size and composition of migratory movements over this period is limited. What is available, however, is a complete set of population censuses for all Luxembourg communities, including all original recording sheets, over the period r839-19I0. Over this period, population censuses were carried out far more frequently in Luxembourg than was usually the case in other continental European countries.r As these censuses as a rule contain detailed information a bout each inhabitant such as place and date of birth, nationality, sex, occupation, and occasionally the date of arrival in a community, and moreover form a reliable overview of the population present in a community on one particular day, it was decided that the censuses rormed an appropriate starting point to establish the importance of migration in the growth of the Bassin Minier and the development of its steel industry ;~nd the associated ore mining industry.

However, werking with population censuses for the study of migration has some serious drawbacks as well. Firstly, they do not allow for a proper longitudinal analysis of in-migration as short-term migratory movements are not captured: people who came to a community after a census was held, and lcft again before the next census was carried out, were not included in the

"'

Waden door woorden. Inhoudelijke ontsluiting van elektronische tekst.

Documents