Responsabilité en analyse de données massives : équité, neutralité et transparence Serge Abiteboul Inria et ENS Cachan Avec la participation de Julia Stoyanovich 6/8/16 1 Serge Abiteboul Un déluge de données 2 6/8/16 Serge Abiteboul
Responsabilitéenanalysededonnéesmassives:équité,neutralitéettransparenceSergeAbiteboul
InriaetENSCachan
AveclaparticipationdeJuliaStoyanovich
6/8/16 1SergeAbiteboul
Undélugededonnées
26/8/16 SergeAbiteboul
DataResponsibly,SergeAbiteboul
Etmêmeuneexplosiondedonnées
Donnéespersonnellesquenousproduisonsnous-mêmesQued’autreshumainsproduisentsurnousProduitespardescapteursdiversetpardesprogrammes
LesdonnéesWeb:4V:Volume,véracité,vitesse,variétéLesindividusetlasociétéperdentlecontrôlesurcesdonnées
36/8/16
Promessesetrisquesdesdonnéesmassives
Améliorerlaviedesgens:recommandationsAccélérerladécouvertescientifique:médecineNourrirl’innovation:voituresautonomesTransformerlasociété:gouvernementouvert(opengovernment)Optimiserlebusiness(publicitésciblées)
Unressentimentcroissantcontre:• Lescomportementsdéviants:
racisme,terrorisme,pédophilie,vold’identité,cyber-harcèlement,cybercrime.
• Lesentreprises:marketingagressif,personnalisationcryptique,décisionscommerciales…
• Lesgouvernements:NSAetsesanalogueseuropéens
• Uneprisedeconsciencecroissantedel’asymétrieentrecequelessystèmesconnaissentdenousetcequenousconnaissons.
46/8/16 SergeAbiteboul
Motivation
• Beaucoupdeproblèmessociauxsontliésàl’acquisitionetautraitementdedonnées• Cequ’ondevraitfaire
–Changerlamanièredontnoustraitonslesdonnéespersonnelles?–Changerleweb?
6/8/16 5SergeAbiteboul
Références
Dataresponsibly,withJuliaStoyanovich(Drexel)&GeromeMiklau(U.Mass),EDBTTutorial2016Dataresponsibly,withJuliaStoyanovich(Drexel),SigmodBlog
(inFrench,LeMonde),2016ManagingyourdigitallifewithaPersonalinformationmanagementsystem,withBenjaminAndré(CozyCloud)&DanielKaplan(Fing),CACM2015Personalinformationmanagementsystems,withAmélieMarian(Rutgers),EDBTTutorial2015PlatformNeutrality,CNNumReport,2015
6/8/16 6SergeAbiteboul
Organisation
MotivationVieprivéeAnalysededonnéesEvaluationdelaqualitédesdonnéesDisséminationdesdonnéesMémoiredesdonnées
6/8/16 7SergeAbiteboul
VIEPRIVÉE
1. Vieprivéeetdonnées2. Lessystèmesdegestion
d’informationpersonnelle,(PIMS–personalinformationmanagementsystems)
6/8/16 8SergeAbiteboul
Sécuritédesdonnéesetviepersonnelle
• Deplusenplusdesoucisaveclavieprivée(privacy)• Deslimitessurcequelescompagniesdegestiondedonnéespeuventfaire• Desloisforcentlescompagniesàdemanderuneautorisationpourconstruiredesbasesdedonnéesavecdesinformationspersonnelles(France)• Desrèglessurcequelesutilisateursdevraientpouvoirfaire• Desloisobligentlescompagnies(banques,sociétésdecréditàlaisserlesusagersvoiretcorrigerlesinformationsquilesconcernent(USA)• Cesloisdépendentdespaysetilestdifficiledelesfairerespecter
Déconnecter?
6/8/16 9SergeAbiteboul
Confidentialitédesdonnées:est-cequ’ilyaquelquechoseàfaire?
Existencedemoyenspourgarantirlaconfidentialitédesdonnées:inutilisés-tropcompliquésàutiliserouàcomprendre
OutilsdecryptographieDroitsd’accèsContratsd’utilisationillisiblesDifficultéàtransférerlesdonnéesd’unlogicielàl’autre:
«enfermementpropriétaire»(Vendorlockin)
6/8/16 10SergeAbiteboul
Protectiondesdonnées:lesPIMS
Unserviceduweb
s’exécute
• Surunemachineinconnue• avecnosdonnées• traitéesparunlogiciel
inconnu
Perspective
• Unemachinepersonnelle,
connue
• Avecnosdonnées
– répliquantdessystèmesquenousapprécions
• Avecnotrelogicieloupermettantl’utilisationdeservicesexternes
Unsystèmed’informationspersonnelles(PIM)estunsystèmeennuagequigèretoutel’informationd’unepersonne
6/8/16 11SergeAbiteboul
DataResponsibly,SergeAbiteboul
L’idéeprincipale:l’intégrationdedonnées
6/8/16 12
m
i
m
i
lu
lu
za
za
localization
webSearch
calendar
contacts
tripadvisor
banks
whatsap
Facebook Intégrationdesdonnéesdenombreux utilisateurspourunservice
Intégrationdesservicespourunutilisateur
ALICEX
X
X
X
X
X
X
X
X
SergeAbiteboul
Desproblèmesderechercheetdéveloppement
Desproblèmesanciens,revisitésIntégrationdesinformationspersonnellesConnaissancedescontextesAnalysedesdonnéespersonnellesSynchronisation/sauvegardeetséquencementdestâchesContrôledesaccèsetdel’échanged’informationsContrôledesaccèsconnectés
136/8/16
ANALYSEDEDONNÉES
1. Equité2. Transparence3. Diversité4. Vieprivée(Privacy)
6/8/16 14SergeAbiteboul
Créerdusavoiràpartirdesdonnées
TrouverdescorrélationsstatistiquesPublierdesstatistiquesagrégéesDétecter
Lespoints«aberrants»Lestendances
Techniquesdisponibles:fouillededonnées,donnéesmassives,apprentissagemachine
6/8/16 15SergeAbiteboul
DataResponsibly,SergeAbiteboul
Analysededonnées:équitéOriginedesbiais
Collectedesdonnéesp.ex,donnéesnonreprésentatives
Analysedesdonnéesp.exmoteurderecherchequifavorisecertainssitespourdesraisonscommerciales
CebiaispeutêtreillégalFairedesoffresfinancièresmoinsavantageusesauxmembresdecertaines
minorités(«sterling»).Exemple:analysedesdonnéesscientifiques
DevraitexpliquercommentlesdonnéesontétéobtenuesQuellesanalysesontétémenéesaveccesdonnéesLesexpérimentationsdoiventêtrereproductibles
Domainetrèsexploré;beaucoupdeproblèmesderecherche
6/8/16 16SergeAbiteboul
DataResponsibly,SergeAbiteboul
Effetssurdessouspopulations
17
Admissionsdanslesécolesvisées
Admis Refusés
F 1512 2809
M 3715 4727Genre
résultats
positifs
35% de femmes
44% d’hommes
UC Berkeley 1973: les femmes candidatent à des départements plus sélectifs, avec de faibles taux d’admission.
ParadoxedeSimpson
Uneinégalitéauniveaudelapopulationdisparaîtous’inversequandonconsidèredessouspopulations
6/8/16 SergeAbiteboul
DataResponsibly,SergeAbiteboul
Equitédegroupeouindividuelle
18
Auniveaudugroupe:l’allocation«moyenne»auxindividusne
dépendpasdelasouspopulation
Score
Bon Mauvais
noirs
blancs
⊕⊖⊖
⊖⊕⊕ ⊖
⊖
⊖⊕
résultats
positifs
40% de noirs
40% de blancs
race
Auniveauindividuel
Deux personnes similaires à l’égard d‘un facteur particulier devraient avoir des évaluations semblables
crédit
obtenu
6/8/16 SergeAbiteboul
DataResponsibly,SergeAbiteboul
Analysededonnée:diversitéPertinenceduclassement(pourdesrecommandations) sebasegénéralementsurlapopularité
Lesinformationsmoinspopulairesdeviennentdemoinsenmoinspopulairesunmanquedediversitépeutengendrerunrisquedediscriminationet
d’exclusionExemples
sitederencontresenligne(match.com)marchédefinancementcollaboratifcommeAmazonMechanicalTurkouuneplate-formedefinancementcommeKickstarter
Le riche s’enrichit alors que le pauvre s’appauvrit …
6/8/16 19SergeAbiteboul
DataResponsibly,SergeAbiteboul
Analysededonnée:Transparence
Exemple:manquedetransparencedansletraitementdesdonnéesparFacebook
Engénéral,contratdelicenced’utilisationillisibleLesutilisateursveulentcontrôlercequiestenregistrélesconcernantetcommentcesinformationssontutilisées
Latransparenceaideàvérifierqueleservicefonctionnecommeildevraitlefaire,commec’estannoncéPermetaussiaufournisseurdedonnéesdevérifierquesesdonnéessontutiliséescommecelaaétéspécifié
6/8/16 20SergeAbiteboul
DataResponsibly,SergeAbiteboul
Vieprivéeetanalysededonnées
Publicationdestatistiques: protégerlespersonnesAnonymisation«intimitédifférentielles»->Differentialprivacy
DéjàtrèsétudiéSujetnonclos
6/8/16 21SergeAbiteboul
Problèmes:vérifiercespropriétés
instrumentspourcollecterdesdonnéesetlesanalyserdemanièreresponsableinstrumentspourvérifierqu’uneanalyseaétéréaliséedemanièreresponsableplusfacilesilaresponsabilitéestpriseencomptetrèstôt,
conceptiondesinstrumentsenrapportavecdesutilisationsresponsables>responsibilitybydesignPourvérifierlecomportementd’unprogramme,onpeut:
enanalyserlecode≈preuveparlesthéorèmesmathématiquesanalyserseseffets≈étudesdephénomènes(telsleclimatoulecoeur
humain)
6/8/16 22SergeAbiteboul
Vérification:analysedeseffets
AnalysestatistiqueDétecterlesbiaisDétecterlesutilisationsillégalesd’attributsprotégés
VérifierlatransparenceVérifierla“loyauté”
Lesystèmesecomportecommeill’adéclaré
Exemple:GoogleAdsSettings&AdFisher
6/8/16 23SergeAbiteboul
GoogleAdsSettings
6/8/16 24
Anonymisé
SergeAbiteboul
Transparenceetresponsabilité
AnalyseparAdFisherNesecomportepascommeilestdéclaré
Choixdespublicitésbaséssurdavantagededonnées,parexemple
attributprotégésleshommesreçoiventdemanièresignificativedavantagede
publicitéspourdespostesàhautsalairequelesfemmes
PeudecontrôlesurlespublicitésEnleverunintérêtdiminuelenombredepublicitésrelativesà
cetintérêtparexemple,leschats
6/8/16 25SergeAbiteboul
ÉVALUATIONDELAQUALITÉDES
DONNÉES
6/8/16 26SergeAbiteboul
Cequ’onneveutpasvoirsurleweb
SitesNaziSitesterroristesContenupédophileFaussesinformationssurlasantéThéorieducomplotCybercrimeHarcèlementenligne…
6/8/16 27SergeAbiteboul
Problèmes:quepeut-onfaire?
DétecterlescontenusillégauxsurleWebÉvaluationautomatique
delaqualitédescontenusdelalégalitédescontenusbasésurlatransparenceduclassement
Analyseetclassementcollaboratifdespagesweb
Nombreuxsujetsderecherche
6/8/16 28SergeAbiteboul
DISSÉMINATIONDESDONNÉES
1. Protectiondesdonnées2. Accèsouvertsauxdonnées3. Neutralité
6/8/16 29SergeAbiteboul
Protectiondesdonnées
Pourchacunedenosdonnéesenligne,nousaimerionscontrôler:
QuipeutleslireCommentellessonttransmisesCommentsont-ellesmodifiéesCommentsont/seront-ellesutilisées?
Nousaimerionsgarderunpeudecontrôlesurlesparamètresdediffusion
Contrôledel’accèssurlewebBeaucoupdeproblèmesouverts
6/8/16 30SergeAbiteboul
Neutralité
Neutralitédunetetdesplate-formes(rapportCNNum)Leréseautransportedesdonnéessansbiaisparrapportauxsources,destinations,contenus…Plateformesenligne:discriminationenfaveurdeleursservices?Liensaveclesproblématiquesdel’équitéetdeladiversité
Le riche s’enrichit alors que le pauvre s’appauvrit …
316/8/16 SergeAbiteboul
6/8/16 32SergeAbiteboul
Problèmes
Tests de neutralité Surveillance de la neutralité
6/8/16 33SergeAbiteboul
MÉMOIREDESDONNÉES
1. Donnéespersonnelles2. Archiver3. Archivesduweb
6/8/16 34SergeAbiteboul
Archivagedesdonnées
Problèmes:déciderCequ’ilfautarchiverCequ’ilfautoublier
OublierestunmoyendeproduiredesabstractionsClasser,résumer…
Parexemple,projeteuropéenForgetIT
6/8/16 35SergeAbiteboul
Conclusion
Denombreuxconflitspolitiquesetsociauxsontaujourd’huiliésauxdonnéesLesproblèmessonttrèsclairementpasuniquementtechniques
Ilseraittempsdechangerlafaçondontonutiliselesdonnéespersonnelles?Dechangerleweb?
Desorganismesytravaillent• CNNum• différentsgouvernements
(USA,UE…)Parexemple,pourleweb• InternetGovernmentForum
(UN)• GlobalInternetPolicy
Observatory(UE?)• W3CTechnologyPolicy
InternetGroup
6/8/16 36SergeAbiteboul
http://abiteboul.com http://binaire.blog.lemonde.fr