Gérer et diffuser ses données: principes et bonnes pratiques
Post on 08-Apr-2017
32 Views
Preview:
Transcript
Geacuterer et diffuser ses donneacutees
principes et bonnes pratiques
1
Formation doctorale LASH et DESPEG2e partie de la formation Open science et donneacutees de la recherche co-organiseacutee par lrsquoURFIST de Nice et le SCD de lrsquoUNS
Mathieu Saby
SCD-BU UNS
donnees-scdunicefr
Plan
1 Les donneacutees de la recherche et leur gestion
2 Produire ou reacuteutiliser des donneacutees
3 Stocker ses donneacutees en seacutecuriteacute
4 Organiser ses donneacutees
5 Documenter ses donneacutees
6 Enjeux juridiques et eacutethiques
7 Partager et diffuser ses donneacutees
8 Stocker et archiver apregraves le projet
9 Contacts sur la gestion des donneacutees
2Mathieu Saby - avrilmai 2016
1 Les donneacutees de la recherche et
leur gestion De quoi parle-t-on
3Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Deacutefinition eacutelastique
Au sens strict eacuteleacutements discrets structureacutes et analysables statistiquement porteurs dinformations sur des faits ou objets du monde reacuteel
Au sens large tous les mateacuteriaux analyseacutes ou interpreacuteteacutes lors dune recherche
4Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Production et utilisation croissante
Mouvement geacuteneacuteral douvertureagrave des fins de validation et de reacuteutilisationsoutenu par des financeurs de la recherche (dont
lUE) des eacutediteurs des universiteacutes desorganismes internationaux
5Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterents modes de creacuteation
Expeacuterience (en laboratoire sur le terrainhellip)
Observation (par questionnaire enquecircte mesure
captation recueil de traces)
Simulation ou modeacutelisation numeacuterique
Extraction agrave partir de sources
6Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterentes formes
7Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterents supports
Nativement numeacuterique
Analogique (livres cassettes photos objetshellip)
Numeacuterisation de support analogique
8Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees
9Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dimension empirique variable selon les disciplines et les approches meacutethodologiques
Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo
Reproductibiliteacute non revendiqueacutee dans certaines disciplines
Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel
10Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche
Quelques exemples franccedilais dans diffeacuterentes disciplines
Cf Myriam Posner (2015) Humanities data a necessary contradiction
11Mathieu Saby - avrilmai 2016
Labex Transfers (plusieurs projets)
Meacutedialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne agrave loeuvre
ColostrumCriminocorpus
Peut-on parler de donneacutees en SHS
Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires
Mais aussi en Europe et agrave lrsquoeacutetranger
12Mathieu Saby - avrilmai 2016
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Plan
1 Les donneacutees de la recherche et leur gestion
2 Produire ou reacuteutiliser des donneacutees
3 Stocker ses donneacutees en seacutecuriteacute
4 Organiser ses donneacutees
5 Documenter ses donneacutees
6 Enjeux juridiques et eacutethiques
7 Partager et diffuser ses donneacutees
8 Stocker et archiver apregraves le projet
9 Contacts sur la gestion des donneacutees
2Mathieu Saby - avrilmai 2016
1 Les donneacutees de la recherche et
leur gestion De quoi parle-t-on
3Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Deacutefinition eacutelastique
Au sens strict eacuteleacutements discrets structureacutes et analysables statistiquement porteurs dinformations sur des faits ou objets du monde reacuteel
Au sens large tous les mateacuteriaux analyseacutes ou interpreacuteteacutes lors dune recherche
4Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Production et utilisation croissante
Mouvement geacuteneacuteral douvertureagrave des fins de validation et de reacuteutilisationsoutenu par des financeurs de la recherche (dont
lUE) des eacutediteurs des universiteacutes desorganismes internationaux
5Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterents modes de creacuteation
Expeacuterience (en laboratoire sur le terrainhellip)
Observation (par questionnaire enquecircte mesure
captation recueil de traces)
Simulation ou modeacutelisation numeacuterique
Extraction agrave partir de sources
6Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterentes formes
7Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterents supports
Nativement numeacuterique
Analogique (livres cassettes photos objetshellip)
Numeacuterisation de support analogique
8Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees
9Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dimension empirique variable selon les disciplines et les approches meacutethodologiques
Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo
Reproductibiliteacute non revendiqueacutee dans certaines disciplines
Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel
10Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche
Quelques exemples franccedilais dans diffeacuterentes disciplines
Cf Myriam Posner (2015) Humanities data a necessary contradiction
11Mathieu Saby - avrilmai 2016
Labex Transfers (plusieurs projets)
Meacutedialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne agrave loeuvre
ColostrumCriminocorpus
Peut-on parler de donneacutees en SHS
Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires
Mais aussi en Europe et agrave lrsquoeacutetranger
12Mathieu Saby - avrilmai 2016
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
1 Les donneacutees de la recherche et
leur gestion De quoi parle-t-on
3Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Deacutefinition eacutelastique
Au sens strict eacuteleacutements discrets structureacutes et analysables statistiquement porteurs dinformations sur des faits ou objets du monde reacuteel
Au sens large tous les mateacuteriaux analyseacutes ou interpreacuteteacutes lors dune recherche
4Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Production et utilisation croissante
Mouvement geacuteneacuteral douvertureagrave des fins de validation et de reacuteutilisationsoutenu par des financeurs de la recherche (dont
lUE) des eacutediteurs des universiteacutes desorganismes internationaux
5Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterents modes de creacuteation
Expeacuterience (en laboratoire sur le terrainhellip)
Observation (par questionnaire enquecircte mesure
captation recueil de traces)
Simulation ou modeacutelisation numeacuterique
Extraction agrave partir de sources
6Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterentes formes
7Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterents supports
Nativement numeacuterique
Analogique (livres cassettes photos objetshellip)
Numeacuterisation de support analogique
8Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees
9Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dimension empirique variable selon les disciplines et les approches meacutethodologiques
Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo
Reproductibiliteacute non revendiqueacutee dans certaines disciplines
Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel
10Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche
Quelques exemples franccedilais dans diffeacuterentes disciplines
Cf Myriam Posner (2015) Humanities data a necessary contradiction
11Mathieu Saby - avrilmai 2016
Labex Transfers (plusieurs projets)
Meacutedialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne agrave loeuvre
ColostrumCriminocorpus
Peut-on parler de donneacutees en SHS
Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires
Mais aussi en Europe et agrave lrsquoeacutetranger
12Mathieu Saby - avrilmai 2016
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les donneacutees de la recherche en bref
Deacutefinition eacutelastique
Au sens strict eacuteleacutements discrets structureacutes et analysables statistiquement porteurs dinformations sur des faits ou objets du monde reacuteel
Au sens large tous les mateacuteriaux analyseacutes ou interpreacuteteacutes lors dune recherche
4Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Production et utilisation croissante
Mouvement geacuteneacuteral douvertureagrave des fins de validation et de reacuteutilisationsoutenu par des financeurs de la recherche (dont
lUE) des eacutediteurs des universiteacutes desorganismes internationaux
5Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterents modes de creacuteation
Expeacuterience (en laboratoire sur le terrainhellip)
Observation (par questionnaire enquecircte mesure
captation recueil de traces)
Simulation ou modeacutelisation numeacuterique
Extraction agrave partir de sources
6Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterentes formes
7Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterents supports
Nativement numeacuterique
Analogique (livres cassettes photos objetshellip)
Numeacuterisation de support analogique
8Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees
9Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dimension empirique variable selon les disciplines et les approches meacutethodologiques
Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo
Reproductibiliteacute non revendiqueacutee dans certaines disciplines
Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel
10Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche
Quelques exemples franccedilais dans diffeacuterentes disciplines
Cf Myriam Posner (2015) Humanities data a necessary contradiction
11Mathieu Saby - avrilmai 2016
Labex Transfers (plusieurs projets)
Meacutedialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne agrave loeuvre
ColostrumCriminocorpus
Peut-on parler de donneacutees en SHS
Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires
Mais aussi en Europe et agrave lrsquoeacutetranger
12Mathieu Saby - avrilmai 2016
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les donneacutees de la recherche en bref
Production et utilisation croissante
Mouvement geacuteneacuteral douvertureagrave des fins de validation et de reacuteutilisationsoutenu par des financeurs de la recherche (dont
lUE) des eacutediteurs des universiteacutes desorganismes internationaux
5Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterents modes de creacuteation
Expeacuterience (en laboratoire sur le terrainhellip)
Observation (par questionnaire enquecircte mesure
captation recueil de traces)
Simulation ou modeacutelisation numeacuterique
Extraction agrave partir de sources
6Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterentes formes
7Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterents supports
Nativement numeacuterique
Analogique (livres cassettes photos objetshellip)
Numeacuterisation de support analogique
8Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees
9Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dimension empirique variable selon les disciplines et les approches meacutethodologiques
Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo
Reproductibiliteacute non revendiqueacutee dans certaines disciplines
Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel
10Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche
Quelques exemples franccedilais dans diffeacuterentes disciplines
Cf Myriam Posner (2015) Humanities data a necessary contradiction
11Mathieu Saby - avrilmai 2016
Labex Transfers (plusieurs projets)
Meacutedialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne agrave loeuvre
ColostrumCriminocorpus
Peut-on parler de donneacutees en SHS
Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires
Mais aussi en Europe et agrave lrsquoeacutetranger
12Mathieu Saby - avrilmai 2016
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les donneacutees de la recherche en bref
Diffeacuterents modes de creacuteation
Expeacuterience (en laboratoire sur le terrainhellip)
Observation (par questionnaire enquecircte mesure
captation recueil de traces)
Simulation ou modeacutelisation numeacuterique
Extraction agrave partir de sources
6Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterentes formes
7Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterents supports
Nativement numeacuterique
Analogique (livres cassettes photos objetshellip)
Numeacuterisation de support analogique
8Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees
9Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dimension empirique variable selon les disciplines et les approches meacutethodologiques
Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo
Reproductibiliteacute non revendiqueacutee dans certaines disciplines
Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel
10Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche
Quelques exemples franccedilais dans diffeacuterentes disciplines
Cf Myriam Posner (2015) Humanities data a necessary contradiction
11Mathieu Saby - avrilmai 2016
Labex Transfers (plusieurs projets)
Meacutedialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne agrave loeuvre
ColostrumCriminocorpus
Peut-on parler de donneacutees en SHS
Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires
Mais aussi en Europe et agrave lrsquoeacutetranger
12Mathieu Saby - avrilmai 2016
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les donneacutees de la recherche en bref
Diffeacuterentes formes
7Mathieu Saby - avrilmai 2016
Les donneacutees de la recherche en bref
Diffeacuterents supports
Nativement numeacuterique
Analogique (livres cassettes photos objetshellip)
Numeacuterisation de support analogique
8Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees
9Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dimension empirique variable selon les disciplines et les approches meacutethodologiques
Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo
Reproductibiliteacute non revendiqueacutee dans certaines disciplines
Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel
10Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche
Quelques exemples franccedilais dans diffeacuterentes disciplines
Cf Myriam Posner (2015) Humanities data a necessary contradiction
11Mathieu Saby - avrilmai 2016
Labex Transfers (plusieurs projets)
Meacutedialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne agrave loeuvre
ColostrumCriminocorpus
Peut-on parler de donneacutees en SHS
Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires
Mais aussi en Europe et agrave lrsquoeacutetranger
12Mathieu Saby - avrilmai 2016
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les donneacutees de la recherche en bref
Diffeacuterents supports
Nativement numeacuterique
Analogique (livres cassettes photos objetshellip)
Numeacuterisation de support analogique
8Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees
9Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dimension empirique variable selon les disciplines et les approches meacutethodologiques
Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo
Reproductibiliteacute non revendiqueacutee dans certaines disciplines
Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel
10Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche
Quelques exemples franccedilais dans diffeacuterentes disciplines
Cf Myriam Posner (2015) Humanities data a necessary contradiction
11Mathieu Saby - avrilmai 2016
Labex Transfers (plusieurs projets)
Meacutedialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne agrave loeuvre
ColostrumCriminocorpus
Peut-on parler de donneacutees en SHS
Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires
Mais aussi en Europe et agrave lrsquoeacutetranger
12Mathieu Saby - avrilmai 2016
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Peut-on parler de donneacutees en SHS
Dans vos recherches ou votre discipline pensez-vous produire ou reacuteutiliser des donneacutees
9Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Dimension empirique variable selon les disciplines et les approches meacutethodologiques
Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo
Reproductibiliteacute non revendiqueacutee dans certaines disciplines
Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel
10Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche
Quelques exemples franccedilais dans diffeacuterentes disciplines
Cf Myriam Posner (2015) Humanities data a necessary contradiction
11Mathieu Saby - avrilmai 2016
Labex Transfers (plusieurs projets)
Meacutedialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne agrave loeuvre
ColostrumCriminocorpus
Peut-on parler de donneacutees en SHS
Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires
Mais aussi en Europe et agrave lrsquoeacutetranger
12Mathieu Saby - avrilmai 2016
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Peut-on parler de donneacutees en SHS
Dimension empirique variable selon les disciplines et les approches meacutethodologiques
Vocabulaire riche pour deacutesigner les mateacuteriaux de recherche sources corpus traces enquecircteshellip et parfois seulement laquo donneacutees raquo
Reproductibiliteacute non revendiqueacutee dans certaines disciplines
Les donneacutees laquo brutes raquo sont souvent deacutejagrave une laquo interpreacutetation raquo du reacuteel
10Mathieu Saby - avrilmai 2016
Peut-on parler de donneacutees en SHS
Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche
Quelques exemples franccedilais dans diffeacuterentes disciplines
Cf Myriam Posner (2015) Humanities data a necessary contradiction
11Mathieu Saby - avrilmai 2016
Labex Transfers (plusieurs projets)
Meacutedialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne agrave loeuvre
ColostrumCriminocorpus
Peut-on parler de donneacutees en SHS
Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires
Mais aussi en Europe et agrave lrsquoeacutetranger
12Mathieu Saby - avrilmai 2016
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Peut-on parler de donneacutees en SHS
Mais les approches numeacuteriques peuvent renouveler plus ou moins profondeacutement la maniegravere dappreacutehender les mateacuteriaux de recherche
Quelques exemples franccedilais dans diffeacuterentes disciplines
Cf Myriam Posner (2015) Humanities data a necessary contradiction
11Mathieu Saby - avrilmai 2016
Labex Transfers (plusieurs projets)
Meacutedialab (idem)
Labex Obvil (idem)
Symogih (idem)
Labex Arts-H2H (idem)
Biblissima (idem)
Montaigne agrave loeuvre
ColostrumCriminocorpus
Peut-on parler de donneacutees en SHS
Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires
Mais aussi en Europe et agrave lrsquoeacutetranger
12Mathieu Saby - avrilmai 2016
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Peut-on parler de donneacutees en SHS
Tournant numeacuterique soutenu par des infrastructures et des reacuteseaux en France Humanum Progedo OpenEdition Perseacutee Maisons des Sciences de lHomme Reacuteseaux disciplinaires
Mais aussi en Europe et agrave lrsquoeacutetranger
12Mathieu Saby - avrilmai 2016
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
La gestion des donneacutees de la recherche
Une expression barbarehellip
Mais chaque chercheur fait de la gestion des donneacutees comme Monsieur Jourdain de la prose
13Mathieu Saby - avrilmai 2016
il y a plus de quarante ans que je dis de la prose sans
que jrsquoen susse rien et je vous suis le plus obligeacute du
monde de mrsquoavoir appris cela
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
La gestion des donneacutees de la recherche
Ensemble de pratiques parfois quotidiennes parfois plus exceptionnelles meneacutees par les chercheurs etou par du personnel speacutecialiseacute pour faciliter
pendant le projet lexploitation et la seacutecurisation des donneacutees
apregraves la fin du projet leur preacuteservation leur partage et leur reacuteutilisation
14Mathieu Saby - avrilmai 2016
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Le cycle de vie des donneacutees
15Mathieu Saby - avrilmai 2016
Pendant le projet
Apregraves le projet
Preacuteservation des donneacutees
Reacuteutilisation des donneacuteesSocieacuteteacute
Autres projets de recherche
Creacuteation ou collecte de
donneacutees brutes
+
Utilisation de donneacutees
existantes
Traitement analyse
interpreacutetation des donneacutees
Publication (article livre
thegravese)
+
Partage des donneacutees
Planification
du projet
+
Planification de la gestion des donneacutees
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les plans de gestion de donneacutees
Besoin dexpliciter et de formaliser la gestion des donneacutees
Exemple la base de donneacutees linguistique CLAPI (et site de meacutethodologie associeacutee Corinte)
16Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les plans de gestion de donneacutees
DMP (Data Management Plan)
Outil pour planifier la gestion des donneacutees et la rendre plus efficace
Pas exigeacute lors drsquoun doctorat mais deacutemarche qui peut ecirctre inspirante
17Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les plans de gestion de donneacutees
Document formel preacutecisant la maniegravere dont seront produites traiteacutees deacutecrites diffuseacutees et conserveacutees les donneacutees au cours et agrave lrsquoissue du projet Pratique Syntheacutetique Prospectif Eacutevolutif
18Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les plans de gestion de donneacutees
Une utiliteacute pour le projet lui-mecircme Drsquoautant plus utile que les donneacutees sont
Nombreuses varieacutees complexes Uniques Couteuses ou difficiles agrave produire Sensibles Utiles agrave drsquoautres personnes
Et que le projet est Collaboratif Long
19Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les plans de gestion de donneacutees
Une utiliteacute administrative Reacutepondre aux exigences de certains financeurs
Systeacutematique aux USA et Royaume-Uni mais tregraves rare en France
Agences de financements publiques et fondations Universiteacutes et organismes de recherche Union Europeacuteenne (projet pilote pour certains
projets du programme Horizon 2020)
20Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les plans de gestion de donneacutees
Pas de modegravele unique mais des eacuteleacutements et rubriques qui se recoupent souvent
Pour reacutediger un PGD Modegravele imposeacute par le financeur A deacutefaut adopter un modegravele existant en lrsquoadaptant
au besoin Des outils informatiques DMPonline DMPTool
21Mathieu Saby - avrilmai 2016
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les plans de gestion de donneacutees
Un modegravele britannique (Digital curation center V4 2014)
Informations administratives
Collecte des donneacutees organisation
Documentation et meacutetadonneacutees
Ethique et cadre leacutegal
Stockage sauvegarde seacutecuriteacute
Archivage
Partage des donneacutees
Responsabiliteacutes et moyens
22Mathieu Saby - avrilmai 2016
Apregraves le projet
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les plans de gestion de donneacutees
Un modegravele franccedilais (Paris Diderot et Paris Descartes 2015)
Informations relatives au projet
Responsabiliteacute des donneacutees reacutepartition des rocircles
Ressources neacutecessaires agrave la mise en œuvre
Pour chaque jeu de donneacutees
Description du jeu de donneacutees
Stockage accegraves et seacutecuriteacute des donneacutees
Documentation et organisation des donneacutees
Disseacutemination du jeux de donneacutees (apregraves le projet)
Seacutelection et archivage
23Mathieu Saby - avrilmai 2016
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
2 Produire ou reacuteutiliser des donneacutees
24Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Reacuteutiliser des donneacutees existantes
Le projet peut-il reacuteutiliser des donneacutees
existantes
Inteacuterecirct et limites
Conditions daccegraves
Coucirct
25Mathieu Saby - avrilmai 2016
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Produire des donneacutees
Des donneacutees seront-elles produites
Eleacutement central ou secondaire du projet
Combien de jeux de donneacutees ou densembles
distincts
Quel degreacute de reproductibiliteacute des donneacutees
Quel inteacuterecirct pour la recherche ou des acteurs
de la socieacuteteacute
26Mathieu Saby - avrilmai 2016
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Reacuteutiliser des donneacutees existantes
Plusieurs sources possibles
Autres projets de recherche
Organismes priveacutes
Donneacutees publiques
Accegraves libre et gratuit France eacutetranger institutions internationales
Accegraves restreint Reacuteseau Queacutetelet (statistiques publiques et grandes
enquecirctes)
Accegraves payant certaines donneacutees INSEE ou IGNhellip
Institutions culturelles (museacutees bibliothegraveques archives) situation
variable
27Mathieu Saby - avrilmai 2016
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Produire des donneacutees
Mode de creacuteation ou de collecte
Type de donneacutees
Support
28Mathieu Saby - avrilmai 2016
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Produire des donneacutees
Eacutetapes et niveaux drsquoeacutelaboration des donneacutees
au cours du projet
Ces eacutetapes sont-elles documenteacutees et
reproductibles (mateacuteriel logiciels meacutethodes
algorithmes code informatique)
29Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Produire des donneacutees
Exemple de projet (histoire maritime)
Navigocorpus 1 archives
30Mathieu Saby - avrilmai 2016
DEDIEU Jean-Pierre MARZAGALLI Silvia Partage dexpeacuterience Navigocorpus Un corpus de sources pour lhistoire de la navigation agrave
leacutepoque moderneLettre de lINSHS 2013 p 23-25
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Produire des donneacutees
Exemple de projet Navigocorpus2 codage et saisie dans une base de donneacutees
accessible en ligne
31Mathieu Saby - avrilmai 2016
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Produire des donneacutees
Exemple de projet Navigocorpus3 donneacutees analyseacutees et visualiseacutees
32Mathieu Saby - avrilmai 2016
MARZAGALLI Silvia ldquoNavigocorpus database and eighteenth-century French world maritime networksrdquo in Ceacutesar Ducruet (ed)
Maritime Networks Spatial structures and time dynamics New York Routledge 2016 p 92-111
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Produire des donneacutees
33Mathieu Saby - avrilmai 2016
Formats de fichiers
Qui doit pouvoir les lire Pour combien de temps
Pour un usage agrave long terme privileacutegier des
formats ouverts
Utilisables librement et gratuitement
Bien documenteacutes
Non lieacutes agrave un logiciel speacutecifique
FACILE - Service de validation de formats du CINES
Formats conseilleacutes par Data Archive (UK)
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Produire des donneacutees
Ex de formats agrave la peacuterenniteacute garantie
34Mathieu Saby - avrilmai 2016
(PDFA
uniquement)
Sert de cadre base agrave de tregraves
nombreux formats avec des
extensions diverses
POR
(Fichier SPSS
portable)
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Produire des donneacutees
Ex de formats courants sans peacuterenniteacute garantie
35Mathieu Saby - avrilmai 2016
Fichiers proprieacutetaires SPSS
STATA SAS NVIVO Altasti etc
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
3 Stocker ses donneacutees en seacutecuriteacute
36Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Des risques agrave eacutevaluer
37Mathieu Saby - avrilmai 2016
Dapregraves vous quels risques pegravesent sur les
donneacutees pendant un projet
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Des risques agrave eacutevaluer
38Mathieu Saby - avrilmai 2016
Perte (vol destruction deacutefaillance mateacuterielle ou logicielle virus mauvaise
organisation erreur de manipulation)
Deacuteterioration (deacutefaillance ou logicielle virus erreur humaine)
Lecture impossible (obsolescence du format ou du mateacuteriel)
Compreacutehension impossible (mauvaise organisation perte du contexte
ou de la documentation associeacutee)
Accegraves non autoriseacute (seacutecurisation insuffisante piratage erreur humaine)
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Bonnes pratiques
Stockage et sauvegarde seacutecuriseacutee
Organisation adeacutequate
Documentation adeacutequate
39Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Des risques agrave eacutevaluer
40Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Stockage adapteacute
Usages deacutesireacutes partage des donneacutees avec
partenaires internes ou externes stockage
sauvegarde ou publication
Caracteacuteristiques des donneacutees donneacutees
publiquesconfidentiellessecregravetes Quel
dommage causerait leur perte ou leur diffusion
Capaciteacutes
Tarifs
41Mathieu Saby - avrilmai 2016
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Stockage adapteacute
42Mathieu Saby - avrilmai 2016
Supports de stockage Risques Avantages
Reacuteseau seacutecuriseacute (universiteacute
laboratoire)
Pannes de serveur erreur
humaine
seacutecuriteacute sauvegarde
automatique
Disque dur dordinateur
personnel ou professionnel
Pannes vol erreur
humaine
Cloud commercial dont cloud
proposeacute par lrsquouniversiteacute
(OneDrive)
Vol de mot de passe
Disparition des socieacuteteacutes
Cadre juridique parfois
flou
partage faciliteacute
synchronisation
automatique avec PC
Supports externes (cleacute USB
disque externe CDROM
DVDROM)
Deacuteteacuterioration des
supports perte vol
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Sauvegarde meacutethodique
Mecircme en cas de stockage adapteacute neacutecessiteacute de
sauvegardes reacuteguliegraveres et freacutequentes
Utile pour se proteacuteger de ses propres erreurs
Ideacutealement 2 sauvegardes sur supports
diffeacuterents dont une stockeacutee physiquement agrave
distance (ex cloud + disque externe)
43Mathieu Saby - avrilmai 2016
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Protection
Mots de passe fiables Agrave ne jamais partager
Eacuteviter les ordinateurs inconnus
Pour les donneacutees sensibles non crypteacutees eacuteviter Les supports amovibles
Le cloud
Les transferts par courriel
44Mathieu Saby - avrilmai 2016
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Cryptage
Crypter les donneacutees les plus sensibles Logiciels de chiffrement Ex FileVault (Mac)
Veracrypt (Mac et PC) CryptSync (PC)
Cloud chiffreacute Tresorit Securesafe Synchcom
Spideroak
Attention aux effets secondaires du cryptage (perte
deacutefinitive des fichiershellip)
45Mathieu Saby - avrilmai 2016
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Des risques agrave eacutevaluer
46Mathieu Saby - avrilmai 2016
Ougrave stockez-vous vos donneacutees Quels
avantages et inconveacutenients des diffeacuterentes
solutions
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
4 Organiser ses donneacutees
47Mathieu Saby - avrilmai 2016
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les principes
48Mathieu Saby - avrilmai 2016
Adopter des regravegles
Les expliciter
Les appliquer
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Organiser sa documentation
49Mathieu Saby - avrilmai 2016
Utiliser Zotero ou un autre un gestionnaire de
reacutefeacuterences pour sa bibliographie et ses sources
Ex httpwwwboiteaoutilsinfo201211gerer-la-
documentation-ii-une-approcha
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Organiser ses dossiers
50Mathieu Saby - avrilmai 2016
Organisation hieacuterarchique
Isoler et ne pas retoucher les donneacutees brutes
Pour faciliter
Lexploitation des informations
Les sauvegardes
Le partage
Larchivage apregraves le projet
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Organiser ses dossiers
51Mathieu Saby - avrilmai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Rapports
Ethique_Droit
CNIL
Consentements
Methodes Etat_de_l_art Donnees
Enquetes Experiences
DonneesBrutes
Analyse
Resultats
Publications
Communications Articles
2015-Art01
2016-Art02
These
Ch1
Ch2
Exemple fictif
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Organiser ses dossiers
52Mathieu Saby - avrilmai 2016
Plusieurs options
Type de mateacuteriel (donneacutees publications
documents administratifs gestion de projethellip)
Activiteacute de recherche (eacutetat de lrsquoart enquecircte
questionnairehellip)
Diffeacuterents jeux de donneacutees
Eacutetapes de traitement des donneacutees
Eacutetape du projet
Chronologie
Geacuteographie
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Nommer et versionner ses fichiers
53Mathieu Saby - avrilmai 2016
Garantir la lecture sur diffeacuterentes machines
Noms relativement brefs
Pas de caractegraveres speacuteciaux ni accentueacutes
Pas drsquoespaces ni de ponctuation
Utiliser azA-Z0-9_-
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Nommer et versionner ses fichiers
54Mathieu Saby - avrilmai 2016
Noms uniques coheacuterents et informatifs
Exemple ensembles de fichiers fictifs
2012-03-07_SujetA_Audiomp3
2012-03-07_SujetA_Transcription-brutdocx
2012-03-07_SujetA_Transcription-reludocx
2012-03-07_SujetA_Transcription-anonymedocx
2012-04-22_SujetB_Audiomp3
2012-04-22_SujetB_Transcription-brutdocx
Grille-entretiendocx
Analyse_v01docx
Analyse_v02docx
Readmetxt
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Nommer et versionner ses fichiers
55Mathieu Saby - avrilmai 2016
Eleacutements de construction possibles
Sujet
Type de donneacutees (questionnaire testhellip)
Variable mesureacutee
Date etou heure
Numeacuterotation (saisir des 0 initiaux pour les tris)
Etat de traitement des donneacutees
Numeacutero ou nom drsquoinstrument
Versions (v012 v034hellip et laquo FINAL raquo pour le
document valideacute pour diffusion)
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Quelques outils pratiques
56Mathieu Saby - avrilmai 2016
Renommer en masse des fichiers Bulk Rename Utility
(Windows) Advanced Renamer (Windows) Automator (Mac)hellip
Ex httpdatablogspotfr201602using-bulk-rename-utility-in-digitalhtml
Comparer des fichiers WinMerge
Ex httpdatablogspotfr201602using-winmerge-to-manage-files-andhtml
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Organiser les donneacutees au sein drsquoun fichier
57Mathieu Saby - avrilmai 2016
Quel sont les problegravemes dans ce fichier
Ex de conseils deacutetailleacutes httpdataresearchcornelleducontenttabular-
data
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
5 Documenter ses donneacutees
58Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Des questions agrave anticiper
59Mathieu Saby - avrilmai 2016
Objectif(s)
Utilisation pendant le projet
Reacuteutilisation et la reacuteplicabiliteacute
Diffusion et larchivage
Public(s) viseacute(s)
Chercheurs membres du projet
Chercheurs speacutecialistes
Autres chercheurs
Etudiants
Autre public
Ordinateur
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Diffeacuterents niveaux de documentation
60Mathieu Saby - avrilmai 2016
Garder une trace
De leur signification
De leur contexte de creacuteation
Des traitements et analyses effectueacutees
Quel niveau
Ensemble des donneacutees du projet
Chaque jeu de donneacutees
Variables dun jeu de donneacutees
Informations minimales ou explications
deacutetailleacutees
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Pratiques variables selon les disciplines
61Mathieu Saby - avrilmai 2016
Quel type de documentation serait neacutecessaire
pour reacuteutiliser vos donneacutees
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Pratiques variables selon les disciplines
62Mathieu Saby - avrilmai 2016
Documents geacuteneacuterauxProtocoles meacutethodes
Documents administratifs
Recueil des donneacutees
Carnets de laboratoire carnets de terrain
Consentement des participants
Questionnaire grille drsquoentretien
Traitement et analyse des donneacutees
Fichier readme
Instructions de codage des reacuteponses (codebook)
Dictionnaires de donneacutees
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Pratiques variables selon les disciplines
63Mathieu Saby - avrilmai 2016
Ex documents exigeacutes pour deacuteposer une
enquecircte qualitative en SHS dans BeQuali
httpscdspsciences-pofrpagephpampidRubrique=depotamplang=FR
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Redocumenter les donneacutees a posteriori
64Mathieu Saby - avrilmai 2016
Parfois neacutecessaire pour faciliter leur
compreacutehension
Ex laquo Enquecirctes sur lrsquoenquecircte raquo reacutealiseacutes par
BeQuali
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Une bonne pratique simple
65Mathieu Saby - avrilmai 2016
Fichier texte readmetxt Pour lensemble du projet
Pour chaque fichier ou ensemble de fichiers
Informations sur les regravegles de nommage et dorganisation
le contenu dun ensemble de fichiers
le contenu dun fichier (entecirctes des colonneshellip)
les logiciels ou codes informatiques neacutecessaires
pour les lire
preacutecautions agrave prendre pour la reacuteutilisation
la personne agrave contacter pour plus dinformations
Ex de modegraveles (tregraves deacutetailleacute) agrave luniversiteacute de Cornell
Ex reacuteel httpszenodoorgrecord49583
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Preacuteparer la creacuteation de meacutetadonneacutees
66Mathieu Saby - avrilmai 2016
Meacutetadonneacutee information structureacutee et
lisible informatiquement portant sur une
ressource quelconque (numeacuterique ou
physique)
En geacuteneacuteral creacuteeacutees par des archivistes des
documentalistes ou des logiciels
Souvent agrave partir dinformations conserveacutees
sous forme moins structureacutee
Ex Guide du deacuteposant du reacuteseau Queacutetelet
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Preacuteparer la creacuteation de meacutetadonneacutees
67Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148
Date de publication
Numeacutero drsquoidentificationType de document
Mode drsquoaccegraves
Deacuteposant
Licence
Cateacutegories
Liens agrave des
publications
TitreAuteur
Meacutetadonneacutees sur chaque fichier
Nom date taille
Description
Pour les humainshellip
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Preacuteparer la creacuteation de meacutetadonneacutees
68Mathieu Saby - avrilmai 2016
httpszenodoorgrecord48148exportxd
Pour les machineshellip
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Preacuteparer la creacuteation de meacutetadonneacutees
69Mathieu Saby - avrilmai 2016
Un scheacutema de meacutetadonneacutees simple mais
tregraves utiliseacute Dublin Core (15 eacuteleacutements)
De nombreux scheacutemas speacutecialiseacutes parfois
utiliseacutes en compleacutement
Version enrichie du Dublin Core
Data Documentation Initiative (DDI) surtout en
sciences sociales
Propres agrave un type de document (images sons
videacuteos) une discipline etc
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
6 Enjeux juridiques et eacutethiques
70Mathieu Saby - avrilmai 2016
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Le statut des donneacutees de la recherche
71Mathieu Saby - avrilmai 2016
Qui est proprieacutetaire des donneacutees
Peut-on les vendre controcircler leur utilisation
Peut-on reacuteutiliser les donneacutees produites par
dautres A quelles conditions
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Le statut des donneacutees de la recherche
72Mathieu Saby - avrilmai 2016
Analyse parfois deacutelicate Pas de regravegle juridique
unique applicable aux donneacutees en geacuteneacuteral
Ex que peut-on faire de ces donneacutees Quels
principes juridiques invoquent leurs auteurs httpwwwlimc-francefrpresentation (Conditions dutilisation)
httpscriminocorpusorgfr (DROITS en pied de page)
httpdxdoiorg107910DVN28674 (onglet TERMS)
httpclapiish-lyoncnrsfr (Conditions dutilisation)
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Le statut des donneacutees de la recherche
73Mathieu Saby - avrilmai 2016
Questions agrave poser avant de reacuteutiliser traiter
creacuteer diffuser tout document donneacutee ou
information protection par la proprieacuteteacute intellectuelle
protection particuliegraveres pour certaines donneacutees
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Seacutecuriser les usages par une licence
En fonction du degreacute de reacuteutilisation souhaiteacute Licence ad hoc si donneacutees particuliegraverement
complexes ou demandant une protection speacuteciale
Licence CC (Creative Commons) Outil pour choisir une licence CC
Ideacutealement CC-BY v 4 (simple obligation de creacutediter lauteur)
laquo Renonciation raquo CC-0 Reacuteutilisation maximale Ideacuteale
en absence de droit dauteur clair sur les donneacutees
Autres licences OBDL Licence Ouverte etc
Pour les logiciels GPLv3 MIT BSD CeCILL
74Mathieu Saby - avrilmai 2016
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les principaux cas de figure (tregraves simplifieacute)
75Mathieu Saby - avrilmai 2016
Pas de protection par la
proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation libre
Protection par la proprieacuteteacute intellectuelle
Diffusion et reacuteutilisation limiteacutes (par deacutefaut)
Protection particuliegravere
notamment pour des
donneacutees concernant
Ideacutees faits donneacutees brutes sauf si
beacuteneacuteficient dune protection particuliegravere
Oeuvres entreacutees dans le domaine public
Informations publiques (issues de documents
produits ou reccedilus par ladministration) sauf
documents soumis agrave la PI ou informations
beacuteneacuteficiant dune protection particuliegravere
Oeuvres non entreacutees dans le
domaine public (textes images
sons videacuteos logiciels etc)
Bases de donneacutees (recueil
doeuvres de donneacutees ou dautres
eacuteleacutements indeacutependants disposeacutes de
maniegravere systeacutematique ou meacutethodique
et individuellement accessibles par
des moyens eacutelectroniques ou par tout
autre moyen)
droit sui generis des bases de
donneacutees
+
droit dauteur sur la base elle-mecircme
+
droit dauteur sur ses eacuteleacutements
La vie priveacutee de personnes
physiques
Le secret statistique
Les secrets commerciaux ou
industriels
Les inteacuterecircts de lEtat
Respecter
le droit moral pour les oeuvres entreacutees dans le
domaine public
leacutequivalent du droit moral pour les
informations publiques
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits
dauteurs et eacuteventuels droits
voisins
Autorisation requise (et
eacuteventuellement reacutemuneacuteration)
des deacutetenteurs des les droits dauteurs
et droits voisins sur les oeuvres
incluses de la base
des deacutetenteurs des droits dauteurs sur
la structure de la base
du producteur de la base (sil fait
jouer son droit) sauf pour une
extraction non substantielle
Proceacutedures speacutecifiques
Deacuteclaration agrave la CNIL ou au CIL
Demande dautorisation agrave la CNIL
Organismes speacutecifiques
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les principaux cas de figure
76Mathieu Saby - avrilmai 2016
Reacutefeacuterences principales Code de la proprieacuteteacute intellectuelle
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0006069414
Code des relations entre le public et ladministration (livre III)
httpswwwlegifrancegouvfraffichCodedocidTexte=LEGITEXT00
0031366350
Loi 1978-17 Informatique et liberteacute
httpswwwlegifrancegouvfraffichTextedocidTexte=JORFTEXT0
00000886460
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Le traitement des donneacutees personnelles
Donneacutees personnelles Toutes les donneacutees permettant drsquoidentifier une
personne physique directement ou indirectement
Protection renforceacutee pour les donneacutees
sensibles ou agrave risque
Deacutefinition large du traitement raquo Collecte enregistrement organisation conservation
modification utilisation communication
interconnexionhellip
Les traitements doivent ecirctre deacuteclareacutees agrave la
CNIL et doivent parfois ecirctre autoriseacutes
explicitement
77Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Le traitement des donneacutees personnelles
78Mathieu Saby - avrilmai 2016
Principes agrave respecter pour tout traitement Finaliteacute explicite preacutecise et leacutegitime
Collecte loyale et licite
Donneacutees adeacutequates agrave la finaliteacute
Limiter la conservation des donneacutees
Seacutecuriser les donneacutees
Respecter les droits des personnes consentement
accegraves rectification opposition
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Le traitement des donneacutees personnelles
Conseil pratique pour limiter les formaliteacutes ne
pas recueillir plus de donneacutees personnelles qursquoil
nrsquoest neacutecessaire Ex ville et non adresse preacutecise Tranche drsquoacircge et non
acircge preacutecishellip
79Mathieu Saby - avrilmai 2016
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Le traitement des donneacutees personnelles
80Mathieu Saby - avrilmai 2016
Pour en savoir plus interlocuteur local et
intermeacutediaire entre le chercheur et la CNIL le
Correspondant Informatique et liberteacutes de
lrsquouniversiteacute
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Un droit en eacutevolution
81Mathieu Saby - avrilmai 2016
Principe reacutecent (2013) la recherche a pour
mission laquo Lorganisation de laccegraves libre aux
donneacutees scientifiques raquo (Code de la recherche article L112‐1)
Projet de loi Reacutepublique numeacuterique art 17laquo II - Degraves lors que les donneacutees issues dune activiteacute de recherche financeacutee au moins pour moitieacute par des
dotations de lEacutetat des collectiviteacutes territoriales des eacutetablissements publics des subventions dagences de
financement nationales ou par des fonds de lUnion europeacuteenne ne sont pas proteacutegeacutees par un droit
speacutecifique ou une reacuteglementation particuliegravere et quelles ont eacuteteacute rendues publiques par le chercheur
leacutetablissement ou lorganisme de recherche leur reacuteutilisation est libre
laquo III - Leacutediteur dun eacutecrit scientifique mentionneacute au I ne peut limiter la reacuteutilisation des donneacutees de la
recherche rendues publiques dans le cadre de sa publication
laquo IV - Les dispositions du preacutesent article sont dordre public et toute clause contraire agrave celles-ci est reacuteputeacutee
non eacutecrite raquo
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Un droit en eacutevolution
82Mathieu Saby - avrilmai 2016
Vers une autorisation de la fouille de texte et de
donneacutees (Text and data mining) Forte demande des chercheurs
Gouvernement opposeacute
Assembleacutee nationale favorable
Seacutenat favorable mais de maniegravere plus limiteacute
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Enjeux eacutethiques
83Mathieu Saby - avrilmai 2016
Quels risques la collecte le traitement etou
la diffusion des donneacutees font peser sur
les personnes
les entreprises
le patrimoine
lenvironnement
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Enjeux eacutethiques
84Mathieu Saby - avrilmai 2016
La diffusion des donneacutees nuit-elle aux
relations entre le chercheur et les participants
agrave ses recherches
La reacuteutilisation des donneacutees dun autre
chercheur est-elle un pillage ou un hommage
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Enjeux eacutethiques
85Mathieu Saby - avrilmai 2016
Certaines donneacutees ne seront jamais partageacutees
Mais des solutions existent pour contourner les
obstacles
recueil de consentements
suppression des informations sensibles
anonymisation
limitation du public
accegraves restreint voire environnement controcircleacute
licences restrictives
embargo
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
7 Partager et diffuser ses donneacutees
86Mathieu Saby - avrilmai 2016
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Des questions agrave anticiper
Quelles donneacutees diffuser Quand Comment Agrave qui Gratuitement ou pas Sous quelles conditions En permettant quel usage Sous quelle forme Avec quelles informations compleacutementaires
87Mathieu Saby - avrilmai 2016
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Comment et ougrave diffuser ses donneacutees
88Mathieu Saby - avrilmai 2016
Toutes les donneacutees sont dans la publication Partage agrave la demande Site du laboratoire ou du chercheur Ex httppikettypseensfrfrcapital21c
Site de lrsquoeacutediteur (laquo mateacuteriel drsquoaccompagnement raquo) Ex Revue Sociologie
Site du projet Ex Navigocorpus
Entrepocirct de donneacutees (preacutefeacuterable)
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les entrepocircts de donneacutees
Plus de 1500 sur le registre Re3data
Critegraveres de choix essentiels dun entrepocirct
Reconnaissance par une communauteacute disciplinaire (cf listes des groupe Nature et PLOS ONE )
Type et taille des fichiers accepteacutes
Nature des meacutetadonneacutees autoriseacutees
Possibiliteacute de versionner les fichiers
Attribution drsquoidentifiants uniques peacuterennes (DOI Handle ARK)
Possibiliteacute drsquoaccegraves restreint ou drsquoembargo
Fiabiliteacute garantie de peacuterenniteacute de lrsquoentrepocirct
Certification
Prix
89Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les entrepocircts de donneacutees
Plusieurs types speacutecialiseacutes disciplinaires institutionnels geacuteneacuteralistes
Ex franccedilais Ortholang (linguistique) MediHAL(images sons videacuteos)
Ex internationaux Dryad (biologie environnement) ICPSR (sciences sociales)
Principaux entrepocircts geacuteneacuteralistes internationaux Figshare (priveacute lieacute agrave un groupe de presse)
Zenodo (public lieacute au CERN)
90Mathieu Saby - avrilmai 2016
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les entrepocircts de donneacutees exemple dutilisation
91Mathieu Saby - avrilmai 2016
Fichier son
httpshalarchives-ouvertesfrmedihal-01242449
Thegravese
Etude analyse et modeacutelisation physique de la
production de la parole avec applications aux
troubles lieacutes agrave une surditeacute profonde
httpstelarchives-ouvertesfrtel-01269639
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Les entrepocircts de donneacutees exemple dutilisation
92Mathieu Saby - avrilmai 2016
Fichier de donneacutees
httpszenodoorgrecord29239
Thegravese
Identification des indices acoustiques utiliseacutes
lors de la compreacutehension de la parole deacutegradeacutee
p 183-5
httpstelarchives-ouvertesfrtel-01266326
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Citer et ecirctre citer
93Mathieu Saby - avrilmai 2016
Bonnes pratiques Citer les donneacutees comme tout autre document (dans
le corps du texte et en note)
Citer eacutegalement les publications associeacutees aux donneacutees
Donner les informations neacutecessaires pour permettre la
citation de ses donneacutees
Une citation doit permettre Lrsquoidentification des donneacutees rarr titre date version eacutediteur
identifiant peacuterenne
Lrsquoattribution agrave leurs auteurs rarr nom des auteurs
Une lecture par des machines rarr identifiant peacuterenne
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Citer et ecirctre citer
94Mathieu Saby - avrilmai 2016
Reacuteflexion internationale en cours Consortium DataCite
Joint Declaration of Data Citation Principles
Structuration et eacuteleacutements importants Le format preacutecis (ordre des eacuteleacutements ponctuation) peut
varier selon les exigences des revues et des disciplines
Ex Auteur (Anneacutee) Titre Entrepocirct de donneacutees
Version (facultatif) Type de ressource (facultatif)
Identifiant
Un outil utile pour formater les citations (de donneacutees et
de publications) httpcrossciteorgciteproc
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Deacutecrire ses donneacutees dans un data paper
95Mathieu Saby - avrilmai 2016
Pour faciliter leur reacuteutilisation
Publication dans une revue scientifique ordinaire
Ou dans un Data journal publiant des articles
scientifiques (revus par les pairs) deacutecrivant des
jeux de donneacutees geacuteneacuteraliste
Scientific Data
Research Ideas and Outcomes
displinaire Journal of open archeology data
Journal of Open Psychology Data
Journal of open humanities data
Research Data Journal for the Humanities and Social Sciences
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
8 Stocker et archiver apregraves le projet
96Mathieu Saby - avrilmai 2016
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Une probleacutematique speacutecifique
Les entrepocircts de donneacutees ne reacutesolvent pas tous
les problegravemes
Toutes les donneacutees ne peuvent pas ecirctre diffuseacutees
dans un entrepocirct de donneacutees
Sauf exception les entrepocircts de donneacutees ne
garantissent pas un archivage durable des donneacutees
On diffuse donc dans un entrepocirct une copie des
donneacutees en sauvegardant lrsquooriginal ailleurs
97Mathieu Saby - avrilmai 2016
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Des choix agrave faire
98Mathieu Saby - avrilmai 2016
Quelles donneacutees conserver
A minima les donneacutees sur lesquelles se fondent les
analyses preacutesenteacutees dans les publications ou la
thegravese
Eventuellement dautres donneacutees (non exploiteacutees
complegravetement dans les publications)
Dans quelle version (brutes traiteacutees
analyseacutees anonymiseacuteeshellip)
Dans quel format
Pour combien de temps
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Du stockage agrave lrsquoarchivage peacuterenne
Stockage seacutecuriseacute Inteacutegriteacute des fichiers garantie agrave moyen ou long terme
Archivage peacuterenne Inteacutegriteacute des fichiers garantie long terme (gt30 ans)
Lisibiliteacute des fichiers garantie long terme Migrations de formats
Eacutemulations
Utilisabiliteacute des fichiers garantie long terme Documentation pousseacutee sur les donneacutees et leur contexte
99Mathieu Saby - avrilmai 2016
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Du stockage agrave lrsquoarchivage peacuterenne
Lrsquoarchivage peacuterenne Est assureacute par des professionnels
Peut ecirctre complexe et coucircteux agrave organiser
Ne concerne pas forceacutement toutes les donneacutees
Doit ecirctre anticipeacute
100Mathieu Saby - avrilmai 2016
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Deux outils drsquoHumanum Nakala et Nakalona
Outils proposeacutes par Humanum Nakala (Stockage seacutecuriseacute facilite lrsquoarchivage
peacuterenne exposition de meacutetadonneacutees mais pas
drsquointerface)
Nakalona (Nakala+interface de consultation)
Exemple drsquoutilisation Les archives du Centre Franco-
Eacutegyptien drsquoEacutetude des Temples de Karnak
Beacuteneacuteficiaires projets importants en SHS (collaboratifs)
Pas pour les donneacutees drsquoune thegravese ordinaire
101Mathieu Saby - avrilmai 2016
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Lrsquoarchivage peacuterenne
Mission du CINES
Archive notamment Thegraveses eacutelectroniques et articles deacuteposeacutes dans HAL
Donneacutees de projets importants en SHS par
lrsquointermeacutediaire drsquoHumanum httpwwwhuma-
numfrservices-et-outilsarchiver
Donneacutees de grandes enquecirctes qualitatives BeQuali
httpbequalifr
102Mathieu Saby - avrilmai 2016
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Contacts sur la gestion des donneacutees
Formations URFIST de Nice
Conseils et accompagnement Bibliothegraveque
universitaire (donnees-scdunicefr)
Donneacutees personnelles Correspondant
informatique et liberteacute
103Mathieu Saby - avrilmai 2016
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
Creacutedits
104Mathieu Saby - avrilmai 2016
Icocircnes par Freepik disponibles sur wwwflaticoncom
Costume de scegravene du Bourgeois Gentilhomme (domaine Public) disponible sur
httpscommonswikimediaorgwikiFileLe-bourgeois-gentilhommejpg
top related