Helpt datamanagement de onderzoeker? ja ... maar de praktijk is weerbarstig [email protected] 2015-03-12 Delft
Jul 19, 2015
Helpt datamanagement de onderzoeker?
ja ... maar de praktijk is weerbarstig
2015-03-12 Delft
download as pdf
Welcome to SHEBANQ
Wido van Peursen, leader of ETCBC. Initiator and strategic leader.
Oliver Glanz, Andrews University. ETCBC data expert, contributing numerous queries for teaching.
Dirk Roorda, DANS. Author of most of the code.
Eep Talstra, founder of ETCBC. Still computing (Pascal): participant data in the making.
Constantijn Sikkel, data designer for ETCBC. Inventor of efficient data creation work flows.
Janet Dyk, linguist at ETCBC. Long-time data contributor, specialized in verbal valence and language variation.
Reinoud Oosting, data designer for Leiden University. Contributed ETCBC data, now key user.
Ulrik Sandborg-Petersen, creator of Emdros. Without it, SHEBANQ would not exist!
Henk van den Berg, DANS. Programmed the first versions.
Heleen van de Schraaf, then DANS. Programmed the first user interface.
SHEBANQ relies on data and tools created by
contributors in the past
User Guide
System for HEBrew Text: ANnotations for Queries and Markup funded byCLARIN-NL, The Language Archive
words with highlighted
occurrences
queries with highlighted hits
click name to toggle preview
of query
click author to goto query and
all hits
click entry to goto word and all occurrences
click gloss to toggle preview
of word
click any word to toggle its highlight
Context items for this chapter
enlarge preview of query in a
pop-up
Toegankelijkheid van Data
Deze onderzoekers zijn begonnen vóór internet
ze hebben een fantastische datacreatie workflow ontwikkeld op hun instituut
de ETCBC heeft een behoorlijk dikke celwand gekregen
research data cycle ?religious
communities
theol. scholars
theol. scholars
enlightened lay people
linguists
comp. hum
Research Data Archiving
DANS
CLARIN SHEBANQ LAF-Fabric
stap 4: project (2013)
SHEBANQ
System for Hebrew Text: ANnotations for Queries
project: CLARIN-NL
data curation: LAF
demonstrator: query saver
infrastructuur
data formaat
instrument
This is LAF
<node xml:id="n_88917"><link targets="r1 r2 r3 r4 r5 r6 r7 r8 r9 r10 r11"/>
</node><edge xml:id="e1" from="n88917" to="n84383"/>
<a xml:id="ae1" label="parents" ref="e1" as="link"/>
<region xml:id="r_2" anchors="6 23"/><node xml:id="n_3"><link targets="r_2"/></node>
<a xml:id="a_3" label="word" ref="n_3" as="monads"/>labeled edges
nodes
annotations(features)
annotations(empty)
primary data
regions
lexeme_utf8= תישארsurface_consonants_utf8= תישאר
׃ץראה תאו םימשה תא םיה.א ארב תישארב
0-56-2392 72-91r9r10r11
n2n3
word
sentence
phrase
determination=determinedphrase_function=Objc
phrase_type=PP
parents
mothersubphrase
clause
r11 r10 r9
clause_atom_number=1clause_atom_relation=0clause_atom_type=xQtl
indentation=0
<a xml:id="af22" label="ft" ref="n3" as="utf8"><fs><f name="lexeme_utf8" value=" תישאר "/>
<f name="surface_consonants_utf8" value=" תישאר "/></fs></a>
link to regions
Linguistic Annotation Framework
data en tools
data is niet los verkrijgbaar
er is altijd een instrument nodig: software
kijken/checken
transporteren
transformeren
data science at the command linehttp://datascienceatthecommandline.com
http://datasciencetoolbox.org
The Data Science Toolbox is a virtual environment based on Ubuntu Linux that is specifically suited for doing data science. Its purpose is to get you started in a matter of minutes. You can run the Data Science Toolbox either locally (using VirtualBox and Vagrant) or in the cloud (using Amazon Web Services).
kijken-checkendirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls etcbc4.hdr etcbc4_lingo.c.xml etcbc4_lingo.sp.xml etcbc4_regions.xml etcbc4.lst etcbc4_lingo.p.xml etcbc4_lingo.xml etcbc4_sections.xml etcbc4.txt etcbc4_lingo.pa.xml etcbc4_monads.lex.xml etcbc4.txt.hdr etcbc4_lingo.s.xml etcbc4_monads.xml
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > du -h . 1.5G .
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > fgrep -l 'BR>' *.xml etcbc4_monads.lex.xml
BR> = ברא = maken
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > fgrep -c 'BR>' etcbc4_monads.lex.xml 113
kijken-checkendirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls -lh *.txt -rw-r--r-- 1 dirk staff 5.1M Jul 23 10:58 etcbc4.txt
kijken-checken (xml)dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls -lh *.xml -rw-r--r-- 1 dirk staff 104M Jul 23 11:00 etcbc4_lingo.c.xml -rw-r--r-- 1 dirk staff 107M Jul 23 11:00 etcbc4_lingo.p.xml -rw-r--r-- 1 dirk staff 148M Jul 23 11:00 etcbc4_lingo.pa.xml -rw-r--r-- 1 dirk staff 22M Jul 23 11:00 etcbc4_lingo.s.xml -rw-r--r-- 1 dirk staff 23M Jul 23 11:00 etcbc4_lingo.sp.xml -rw-r--r-- 1 dirk staff 299M Jul 23 11:00 etcbc4_lingo.xml -rw-r--r-- 1 dirk staff 642M Jul 23 10:58 etcbc4_monads.lex.xml -rw-r--r-- 1 dirk staff 125M Jul 23 10:58 etcbc4_monads.xml -rw-r--r-- 1 dirk staff 37M Jul 23 10:58 etcbc4_regions.xml -rw-r--r-- 1 dirk staff 36M Jul 23 10:58 etcbc4_sections.xml
dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > time xmllint --nonet --noout --stream --schema /Users/dirk/Dropbox/laf-fabric-data/etcbc4/decl/graf-standoff.xsd etcbc4_monads.lex.xml etcbc4_monads.lex.xml validates real 2m26.029s user 2m20.308s sys 0m2.376s
transformerenHoe kan ik de computer zo snel mogelijk voor mij aan het werk zetten?
scripten
shell, python
scientific programming
software als instrument
uur cyclus
door onderzoeker voor onderzoeker
programmeren
C, C++, Java
software engineering
applicaties als product
wekelijkse cyclus
door ICTer voor onderzoeker
waar vallen wetenschappers voor?
het zijn geen software ontwikkelaars
maar ze programmeren wel
ze exploreren data, kneden, masseren
hun product is geen programma
maar analyse, visualisatie, publicatie
cultuur
fragmenten uit een
video van Fernando Perez
4:19 onderzoekers en computing - 7:37
17:00 tools en de data life cycle - 20:26
42:09 data en publiceren - 44:20 / 49:22
stap 6: oogsten (2014-2015)
Rens Bod: ling/dighum
Data Oriented Parsing
Bible Online Learner Nicolai Winther-Nielsen
EuroPlot, University of Aalborg
Martijn Naaijer Linguistic Variation: statistics with R
stap 7: meer (toekomst)meer projecten
meer disciplines
meer databronnen
meer linking
meer wetenschappelijke output
meer community, meer competitieSoftware Sustainability
Institute
research environmentfunction medium infra
data LAF in dataset DANS EASY
web site web2py DANS=>KNAW, Leaseweb, Cloud
tools LAF-Fabric, Shebanq, Emdros
Github, Sourceforge
publishingIPython notebooks, Restructured Text
Github, Readthedocs
products apps, notebooks, articles
Github, Science Clouds, Journals
is dit een succes verhaal?dat staat nog te bezien ... er begint wat momentum te komen
pas na 6 jaar tekenen van versnelling
vaak de gelegenheid grijpen
overmatig overtuigen
technische diepgang
affiniteit met de bronnen en het onderzoek
investeringen vooraf
waarom gaat het niet sneller?
de groep heeft zich efficiënt georganiseerd
veel is onder controle
nieuwe methoden zijn nog niet bewezen
technische support is schaars en moeilijk te betalen voor alfa-groepen
welke factoren dragen bij?
personele veranderingen in de vakgroep
nieuwe projecten
nieuwe eisen van NWO (open access)
competitie en samenwerking over disciplines
door de al maar doorgaande dynamiek van meer-beter-sneller-werkbaarder:
komt de digitale wereld steeds dichter bij steeds meer mensen
Helpt data management de onderzoeker?
ja, als zij inziet waar archivering en hergebruik goed voor zijn
ja, als hij de weg naar het archief weet te vinden
ja, als het archief relevant voor haar weet te zijn
ja, als het archief alert omgaat met de ontwikkelingen in ICT
Helpt data management de onderzoeker?
ja, als zij inziet waar archivering en hergebruik goed voor zijn
ja, als hij de weg naar het archief weet te vinden
ja, als het archief relevant voor haar weet te zijn
ja, als het archief alert omgaat met de ontwikkelingen in ICT
Niets hiervan is
vanzelfsprekend