Top Banner
Vad är Swe-Clarin? Lars Borin Språkbanken/svenska språket, Göteborgs universitet Swe-Clarin Kulturarvet som ettor och nollor/1 KB 9/10 2015
29

Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

Apr 12, 2017

Download

Data & Analytics

Digisam
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

Vad är Swe-Clarin?

Lars BorinSpråkbanken/svenska språket, Göteborgs universitet

Swe-Clarin

Kulturarvet som ettor och nollor/1 • KB 9/10 2015

Page 2: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

det korta svaret

Swe-Clarin

är densvenska delen

av deneuropeiska forskningsinfrastrukturen

CLARIN ERIC

Page 3: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

<http://www.clarin.eu>

Page 4: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

CLARIN i ett nötskal(efter Steven Krauwer)

Common Language Resources and Technology Infrastructure<http://www.clarin.eu>)Grundidé:

◮ Europeisk federation av digitala arkiv med språkresurseroch språkverktyg (text, tal, multimodala, teckenspråk . . . )

◮ med tillgång till resurser och verktyg genom nättjänster föratt hämta, bearbeta, förädla, utforska och användaresurserna

◮ genom en samlad inloggningsprocedur för arkiv och verktyg

◮ med forskare inom humaniora och samhällsvetenskap sommålgrupp

◮ som ska täcka alla EU-länder samt associerade stater

◮ och alla språk som är relevanta för målgruppen

Page 5: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

Mål och visioner – språkets roll(efter Steven Krauwer)

◮ Språket intar en central plats i många humanistiska ochsamhällsvetenskapliga discipliner. Exempelvis:

◮ som studieobjekt i sig◮ som mänskligt kommunikationsmedel◮ som mänskligt uttrycksmedel◮ som kunskapskälla om vår historia◮ som en del av vår kulturella identitet◮ som kunskaps- och informationsbärare

Page 6: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

varför CLARIN?

◮ CLARIN anpassar och utvecklar språkteknologi ochspråkresurshantering som e-vetenskap – datorverktyg somforskningsstöd inom humaniora, samhällvetenskap ochandra discipliner där innehållet i text (och tal) utgörprimärdata för forskningen

◮ CLARIN bygger en basinfrastruktur för att möjliggöraforskning både på dagens enorma volymer ”primärtdigitala” språkliga data och på de snabbt ökandemängderna digitaliserade kulturarvsdata

Page 7: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

språkteknologi ochspråkresurser i Sverige

◮ lång historia (från 1960-talet), många forskargrupper◮ svenska korpusar (Språkbanken [1975–], SUC, GSLC, många

inlärarkorpusar, . . . )◮ flerspråkiga korpusar (Uppsala, Linköping, Göteborg, . . . )◮ taldatabaser (KTH, Telia Research, . . . )◮ resurser för informationsåtkomst (SICS, KTH, . . . )◮ lexikondatabaser (Språkbanken, KTH, Språkrådet, . . . )◮ många olika verktyg för text och tal

◮ men i huvudsak bedriven som korta forskningsprojekt ochfragmenterad

◮ och i behov av harmonisering och integration

Page 8: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

den svenska META-NET-vitboken(från META-NORD-projektet)

<http://www.meta-net.eu/whitepapers/overview>

Här får vi veta att svenska idag är större på internet än i den fysiska världen

men lämnar mycket övrigt att önska ifråga om språkteknologistöd.

Page 9: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

SWE-CLARIN

◮ CLARIN: ESFRI-förberedelsefas 2008-01 – 2011-06

◮ CLARIN ERIC (European Research InfrastructureConsortium) startade 29/2 2012 med 9 medlemmar

◮ Swe-Clarin (∼50 MSEK från VR 2014–2018)startade 1/1 2014 med målen:

◮ att bilda en svensk nod i CLARIN ERIC(inträdet – som 10:e medlem – skedde 1/10 2014):

◮ Göteborgs universitet/Språkbanken◮ Göteborgs universitet/SND◮ KTH◮ Linköpings universitet◮ Lunds universitet◮ Stockholms universitet◮ Uppsala universitet◮ Språkrådet◮ DigiSam

◮ att bygga en basinfrastruktur för CLARIN i Sverige

Page 10: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

<http://sweclarin.se>

Page 11: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

CLARIN-conceptet

◮ e-vetenskap – i form av språkteknologi somforskningsverktyg – för discipliner där text (och tal) ärprimärdata:

◮ humaniora◮ samhällsvetenskap◮ (vissa sorters) medicin

◮ CLARINs betydelse växer i takt med digitaliseringen avkulturarvet och den elektroniska kommunikationensutbredning

Page 12: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

digital spetsforskningspotential

Precis som vid gruvbrytning, kräver stora mängder ’informationsglest’ digitalttext- och talmaterial effektiv teknik för sökning, korrelering och korsindexeringi det språkliga innehållet – inte minst mellan olika språk – för att forskningenska få ut användbara primärdata ur det.

Page 13: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

exempel 1: telefoner i Sverige

Page 14: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

exempel 2: språkutveckling

Page 15: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

exempel 3: ledtrådar tillhistoriska händelser

Page 16: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

användargrupperna i Sverige

◮ språkvetenskap (mycket långt kommen; e-vetenskap sen1960-talet!)

◮ medicin (långt kommen; flera projekt)

◮ historia (några projekt)

◮ litteraturvetenskap (enstaka projekt)

◮ statsvetenskap (ansatser)

I hela CLARIN-området är användningen betydande, ochCLARIN ERIC blir ett centralt forum för effektivt utbyte avexpertis och erfarenheter.

Swe-Clarin befinner sig i ett ”kontaktsökande” uppbyggnads-skede och evenemang som den här workshopen är viktiga föratt skapa Swe-Clarins framtid.

Page 17: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

några konkretaSwe-Clarin-samarbeten

◮ politisk opinionsbildning i sociala medier (statsvetenskap,Göteborg)

◮ kvinnors aktiviteter i tidigmodern tid (historia, Uppsala)◮ allusion och textåteranvändning i litteratur

(litteraturvetenskap, Göteborg)◮ språkliga signaler för tidig upptäckt av demens

(medicin/vårdvetenskap, Göteborg)◮ ”återupplivande” av traditionell matlagning (ISOF m.fl.,

KTH)◮ undersökning av diskriminerande gymnasiebetygssättning

(nationalekonomi, Stockholm)◮ förändring över tid i attityder till retorik avspeglade i ett

historiskt tidningsmaterial (litteraturvetenskap, Uppsala)◮ . . .

. . . och många fler önskas!

Page 18: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

(Swe-)CLARINs fyra ben

1. en teknisk infrastruktur: PID, identitetsfederation, automatiskmetadatainhämtning, grid/moln

2. standardisering av data- och metadataformat samtinnehållsmodeller: ISO TC37/SC7 (SIS TK115), W3C;hantering av upphovsrättsfrågor

3. en administrativ struktur för underhåll och vidareutvecklingav infrastrukturen, samt för expertis och användarstöd:föreståndare, styrgrupp, referensgrupp,CLARIN-centra (⊂ CLARIN ERIC)

4. språkteknologiska basresurser: BLARK (Basic LAnguageResource Kit) och SNK (en svensk nationell korpus)

Page 19: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

från kökkenmödding tillinfrastruktur

SWE-CLARIN

Page 20: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

standarder är omfattande,petiga och osynliga . . .

Page 21: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

. . . men de möjliggör fantastiskasaker

Page 22: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

språkteknologi som forsknings-redskap och digitalisering (1)

◮ utveckling av sofistikerade språkverktyg kräver öppnalicenser (Open Content) för text och andra språkresurser(ordlistor, termbanker, tesaurer, etc.)

◮ detta beror bland annat på att den dominerandeutvecklingsmetodologin bygger på maskininlärning(”självlärande system”)

◮ som kräver stora mängder träningsdata

◮ (men även manuella ansatser bygger på generaliseringoch abstraktion från språkliga rådata)

Page 23: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

språkteknologi som forsknings-redskap och digitalisering (2)

◮ det är ett oerhört slöseri med resurser att alltid nyskapaträningsdata istället för att kunna ackumulera dem

◮ forskningens logik (verifierbarhet och reproducerbarhet)kräver dessutom att forskningsrådata alltid är åtkomliga

◮ öppna data skapar en god cirkel med ständigt bättreredskap för informationsåtkomst sprungna ur forskningen,som i sin tur kan dra nytta av den högkvalitativareinformationen

Page 24: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

med andra ord:

◮ den som för det allmännas räkning digitaliserar texter (i vidbemärkelse) och bygger databaser (t.ex. omkulturarvsobjekt) borde alltid (åtminstone) görainformationen i dess helhet så fritt tillgänglig som lagentillåter (d.v.s. fulltext, kompletta databasdumpar, etc.)

◮ (med licenser som CC0, CC BY eller CC BY-SA som tillåterbearbetning och återdistribution)

◮ ett sämre men möjligt alternativ (som CLARIN stödjer) ärdataåtkomst baserad på kategoritillhörighet (t.ex.”forskare anställd vid ett universitet i ett medlemsland”)som kontrolleras genom s.k. identitetsfederationer (jfr.Eduroam).

Page 25: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

(enbart) ”titthålsaccess” räckerinte

◮ gör jag inte forskarsamhället en tjänst om jag struktureraråtkomsten och tillhandahåller ett sökgränssnitt och/eller ettAPI

◮ (kanske byggt på öppna standarder)

◮ (t.ex. till en digitaliserad brevsamling, en språktypologisk,lexikalisk, bibliografisk eller biografisk databas, geodataeller mina forskningsdata)?

Page 26: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

◮ jo, absolut!

◮ men om jag gör enbart det,

◮ är alla andra utlämnade till vad jag vet och kan föreställamig,

◮ och jag stänger fler möjligheter än jag öppnar,

◮ eftersom det inte går att förutse framtidens forskningsfrågoroch forskningsmetoder

◮ och eftersom det blir svårt eller omöjligt attkombinera/korrelera material från olika källor

◮ eller generalisera över datamängderna (”data mining” /”text mining”)

Page 27: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

vilka är hindren?

◮ juridiska:◮ integritet (t.ex. inspelade samtalsdata)◮ sekretess (t.ex. patientjournaler)◮ upphovsrätt (”moderna” textdata, teve/radioprogram):

inget undantag för forskning

◮ ekonomiska/ideologiska/politiska/tekniska:◮ trög och bristfällig digitalisering◮ ovana (omedvetenhet)/ovilja att dela med sig av

forskningsdata◮ data-, metadata- och innehållsstandarder under utveckling

(”rörliga mål”)

Page 28: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

sammanfattningsvis

◮ Swe-Clarin är en e-vetenskapsinfrastruktur för humanioraoch samhällsvetenskap

◮ som är under uppbyggnad i Sverige

◮ som en del av det europeiska CLARIN ERIC-initiativet

◮ Två faktorer är avgörande för Swe-Clarins framtid:

1. koppling till faktiska forskningsfrågor hos målgruppen2. tillgång till digitala språkresurser på villkor som möjliggör

både fri forskning på resurserna och vidareutveckling avinfrastrukturen

Page 29: Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

tack för uppmärksamheten!