De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor Nederlandse Lexicologie. Klaar? In! Kant-en-klare bouwstenen voor de CLARIN-infrastructuur Remco van Veenendaal, 26 mei 2009, kick-off CLARIN-NL
24
Embed
De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor Nederlandse Lexicologie.
Klaar? In!
Kant-en-klare bouwstenen voor
de CLARIN-infrastructuur
Remco van Veenendaal, 26 mei 2009, kick-off CLARIN-NL
• IMPACT– OCR & technologie t.b.v. digitalisering gedrukt cult. erfgoed
• GTB-software, ANW-software, etc.• Corex (voor CGN en D-Coi; offline en online)• …
13
Spelregels
14
Spelregels
• Kennisdeling IPR en licenties– Ook met Work Package 7 CLARIN (IPR and
Business Models)
15
Wat is er bijna klaar?
16
Bijna klaar
• STEVIN– DAESO (corpus en software voor semantiek)– DPC (parallelle corpora Nl-En en Nl-Fr)– Lassy (syntactisch geannoteerd tekstcorpus)– Midas (software voor robuuste spraakherkenning)– N-best (benchmark voor Nederlandstalige spraakherkenning) – Autonomata Too (demo POI spraakherkenningservice)– DAISY (software voor samenvattingen)– DISCO (spraakherkenning in CALL voor tweedetaalleerders)– DuOMAn (media analyse - opinie)– PaCo-MT (hybride machinevertaling Nl-En-Nl, Nl-Fr-Nl)– SoNaR (tekstcorpus 500m woorden)
• …
17
Maar …
18
Uitdaging
• Binnen CLARIN en CLARIN-NL zoveel mogelijk resources en tools integreren in de CLARIN-infrastructuur– Toegankelijk via single sign-on– Data zo uniform mogelijk raadpleegbaar en doorzoekbaar– Data uploadbaar en bewerkbaar– Tools zoveel mogelijk modulair en koppelbaar– Workflows zoveel mogelijk herhaalbaar
• Afschriften van bewerkingen
– Gebruikersvriendelijkheid (!)
19
Zoek binnen de resultaten
voorkomens van Poldernederlands (einde = aainde)
Vraag: onderzoek het
Poldernederlands
Voorkomens van Poldernederlands in
spraakcorpora
Zoek in metadata naar Nederlandse
spraakcorpora met
orthografische en fonologische transcriptie
20
Spraakcorpus
Corpus beschikbaar
binnen CLARIN
Unieke ids
Metadata
Validatie
Uploaden
21
Teksten
Tekstcorpus voorzien van
diverse automatische annotaties en frequentielijst beschikbaar
binnen CLARIN
Frequentietool
Tagger-lemmatiser
Parser
Validatie
Metadata
Samenvatter
Corefwebservice
Uploaden
Unieke ids
22
Waar droomt u van?
23
Conclusie
• Veel mooie bouwstenen beschikbaar– Resources, tools, infrastructuur, kennis– Juist ook voor het Nederlands
• Uitdaging is deze bruikbaar te integreren in de CLARIN-infrastructuur