Top Banner
Responsabilité en analyse de données massives : équité, neutralité et transparence Serge Abiteboul Inria et ENS Cachan Avec la participation de Julia Stoyanovich 6/8/16 1 Serge Abiteboul Un déluge de données 2 6/8/16 Serge Abiteboul
19

Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Sep 12, 2018

Download

Documents

buidieu
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Responsabilitéenanalysededonnéesmassives:équité,neutralitéettransparenceSergeAbiteboul

InriaetENSCachan

AveclaparticipationdeJuliaStoyanovich

6/8/16 1SergeAbiteboul

Undélugededonnées

26/8/16 SergeAbiteboul

Page 2: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

DataResponsibly,SergeAbiteboul

Etmêmeuneexplosiondedonnées

Donnéespersonnellesquenousproduisonsnous-mêmesQued’autreshumainsproduisentsurnousProduitespardescapteursdiversetpardesprogrammes

LesdonnéesWeb:4V:Volume,véracité,vitesse,variétéLesindividusetlasociétéperdentlecontrôlesurcesdonnées

36/8/16

Promessesetrisquesdesdonnéesmassives

Améliorerlaviedesgens:recommandationsAccélérerladécouvertescientifique:médecineNourrirl’innovation:voituresautonomesTransformerlasociété:gouvernementouvert(opengovernment)Optimiserlebusiness(publicitésciblées)

Unressentimentcroissantcontre:• Lescomportementsdéviants:

racisme,terrorisme,pédophilie,vold’identité,cyber-harcèlement,cybercrime.

• Lesentreprises:marketingagressif,personnalisationcryptique,décisionscommerciales…

• Lesgouvernements:NSAetsesanalogueseuropéens

• Uneprisedeconsciencecroissantedel’asymétrieentrecequelessystèmesconnaissentdenousetcequenousconnaissons.

46/8/16 SergeAbiteboul

Page 3: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Motivation

• Beaucoupdeproblèmessociauxsontliésàl’acquisitionetautraitementdedonnées• Cequ’ondevraitfaire

–Changerlamanièredontnoustraitonslesdonnéespersonnelles?–Changerleweb?

6/8/16 5SergeAbiteboul

Références

Dataresponsibly,withJuliaStoyanovich(Drexel)&GeromeMiklau(U.Mass),EDBTTutorial2016Dataresponsibly,withJuliaStoyanovich(Drexel),SigmodBlog

(inFrench,LeMonde),2016ManagingyourdigitallifewithaPersonalinformationmanagementsystem,withBenjaminAndré(CozyCloud)&DanielKaplan(Fing),CACM2015Personalinformationmanagementsystems,withAmélieMarian(Rutgers),EDBTTutorial2015PlatformNeutrality,CNNumReport,2015

6/8/16 6SergeAbiteboul

Page 4: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Organisation

MotivationVieprivéeAnalysededonnéesEvaluationdelaqualitédesdonnéesDisséminationdesdonnéesMémoiredesdonnées

6/8/16 7SergeAbiteboul

VIEPRIVÉE

1. Vieprivéeetdonnées2. Lessystèmesdegestion

d’informationpersonnelle,(PIMS–personalinformationmanagementsystems)

6/8/16 8SergeAbiteboul

Page 5: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Sécuritédesdonnéesetviepersonnelle

• Deplusenplusdesoucisaveclavieprivée(privacy)• Deslimitessurcequelescompagniesdegestiondedonnéespeuventfaire• Desloisforcentlescompagniesàdemanderuneautorisationpourconstruiredesbasesdedonnéesavecdesinformationspersonnelles(France)• Desrèglessurcequelesutilisateursdevraientpouvoirfaire• Desloisobligentlescompagnies(banques,sociétésdecréditàlaisserlesusagersvoiretcorrigerlesinformationsquilesconcernent(USA)• Cesloisdépendentdespaysetilestdifficiledelesfairerespecter

Déconnecter?

6/8/16 9SergeAbiteboul

Confidentialitédesdonnées:est-cequ’ilyaquelquechoseàfaire?

Existencedemoyenspourgarantirlaconfidentialitédesdonnées:inutilisés-tropcompliquésàutiliserouàcomprendre

OutilsdecryptographieDroitsd’accèsContratsd’utilisationillisiblesDifficultéàtransférerlesdonnéesd’unlogicielàl’autre:

«enfermementpropriétaire»(Vendorlockin)

6/8/16 10SergeAbiteboul

Page 6: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Protectiondesdonnées:lesPIMS

Unserviceduweb

s’exécute

• Surunemachineinconnue• avecnosdonnées• traitéesparunlogiciel

inconnu

Perspective

• Unemachinepersonnelle,

connue

• Avecnosdonnées

– répliquantdessystèmesquenousapprécions

• Avecnotrelogicieloupermettantl’utilisationdeservicesexternes

Unsystèmed’informationspersonnelles(PIM)estunsystèmeennuagequigèretoutel’informationd’unepersonne

6/8/16 11SergeAbiteboul

DataResponsibly,SergeAbiteboul

L’idéeprincipale:l’intégrationdedonnées

6/8/16 12

m

i

m

i

lu

lu

za

za

localization

webSearch

calendar

mail

contacts

facebook

tripadvisor

banks

whatsap

Facebook Intégrationdesdonnéesdenombreux utilisateurspourunservice

Intégrationdesservicespourunutilisateur

ALICEX

X

X

X

X

X

X

X

X

Page 7: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

SergeAbiteboul

Desproblèmesderechercheetdéveloppement

Desproblèmesanciens,revisitésIntégrationdesinformationspersonnellesConnaissancedescontextesAnalysedesdonnéespersonnellesSynchronisation/sauvegardeetséquencementdestâchesContrôledesaccèsetdel’échanged’informationsContrôledesaccèsconnectés

136/8/16

ANALYSEDEDONNÉES

1. Equité2. Transparence3. Diversité4. Vieprivée(Privacy)

6/8/16 14SergeAbiteboul

Page 8: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Créerdusavoiràpartirdesdonnées

TrouverdescorrélationsstatistiquesPublierdesstatistiquesagrégéesDétecter

Lespoints«aberrants»Lestendances

Techniquesdisponibles:fouillededonnées,donnéesmassives,apprentissagemachine

6/8/16 15SergeAbiteboul

DataResponsibly,SergeAbiteboul

Analysededonnées:équitéOriginedesbiais

Collectedesdonnéesp.ex,donnéesnonreprésentatives

Analysedesdonnéesp.exmoteurderecherchequifavorisecertainssitespourdesraisonscommerciales

CebiaispeutêtreillégalFairedesoffresfinancièresmoinsavantageusesauxmembresdecertaines

minorités(«sterling»).Exemple:analysedesdonnéesscientifiques

DevraitexpliquercommentlesdonnéesontétéobtenuesQuellesanalysesontétémenéesaveccesdonnéesLesexpérimentationsdoiventêtrereproductibles

Domainetrèsexploré;beaucoupdeproblèmesderecherche

6/8/16 16SergeAbiteboul

Page 9: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

DataResponsibly,SergeAbiteboul

Effetssurdessouspopulations

17

Admissionsdanslesécolesvisées

Admis Refusés

F 1512 2809

M 3715 4727Genre

résultats

positifs

35% de femmes

44% d’hommes

UC Berkeley 1973: les femmes candidatent à des départements plus sélectifs, avec de faibles taux d’admission.

ParadoxedeSimpson

Uneinégalitéauniveaudelapopulationdisparaîtous’inversequandonconsidèredessouspopulations

6/8/16 SergeAbiteboul

DataResponsibly,SergeAbiteboul

Equitédegroupeouindividuelle

18

Auniveaudugroupe:l’allocation«moyenne»auxindividusne

dépendpasdelasouspopulation

Score

Bon Mauvais

noirs

blancs

⊕⊖⊖

⊖⊕⊕ ⊖

⊖⊕

résultats

positifs

40% de noirs

40% de blancs

race

Auniveauindividuel

Deux personnes similaires à l’égard d‘un facteur particulier devraient avoir des évaluations semblables

crédit

obtenu

6/8/16 SergeAbiteboul

Page 10: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

DataResponsibly,SergeAbiteboul

Analysededonnée:diversitéPertinenceduclassement(pourdesrecommandations) sebasegénéralementsurlapopularité

Lesinformationsmoinspopulairesdeviennentdemoinsenmoinspopulairesunmanquedediversitépeutengendrerunrisquedediscriminationet

d’exclusionExemples

sitederencontresenligne(match.com)marchédefinancementcollaboratifcommeAmazonMechanicalTurkouuneplate-formedefinancementcommeKickstarter

Le riche s’enrichit alors que le pauvre s’appauvrit …

6/8/16 19SergeAbiteboul

DataResponsibly,SergeAbiteboul

Analysededonnée:Transparence

Exemple:manquedetransparencedansletraitementdesdonnéesparFacebook

Engénéral,contratdelicenced’utilisationillisibleLesutilisateursveulentcontrôlercequiestenregistrélesconcernantetcommentcesinformationssontutilisées

Latransparenceaideàvérifierqueleservicefonctionnecommeildevraitlefaire,commec’estannoncéPermetaussiaufournisseurdedonnéesdevérifierquesesdonnéessontutiliséescommecelaaétéspécifié

6/8/16 20SergeAbiteboul

Page 11: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

DataResponsibly,SergeAbiteboul

Vieprivéeetanalysededonnées

Publicationdestatistiques: protégerlespersonnesAnonymisation«intimitédifférentielles»->Differentialprivacy

DéjàtrèsétudiéSujetnonclos

6/8/16 21SergeAbiteboul

Problèmes:vérifiercespropriétés

instrumentspourcollecterdesdonnéesetlesanalyserdemanièreresponsableinstrumentspourvérifierqu’uneanalyseaétéréaliséedemanièreresponsableplusfacilesilaresponsabilitéestpriseencomptetrèstôt,

conceptiondesinstrumentsenrapportavecdesutilisationsresponsables>responsibilitybydesignPourvérifierlecomportementd’unprogramme,onpeut:

enanalyserlecode≈preuveparlesthéorèmesmathématiquesanalyserseseffets≈étudesdephénomènes(telsleclimatoulecoeur

humain)

6/8/16 22SergeAbiteboul

Page 12: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Vérification:analysedeseffets

AnalysestatistiqueDétecterlesbiaisDétecterlesutilisationsillégalesd’attributsprotégés

VérifierlatransparenceVérifierla“loyauté”

Lesystèmesecomportecommeill’adéclaré

Exemple:GoogleAdsSettings&AdFisher

6/8/16 23SergeAbiteboul

GoogleAdsSettings

6/8/16 24

Anonymisé

SergeAbiteboul

Page 13: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Transparenceetresponsabilité

AnalyseparAdFisherNesecomportepascommeilestdéclaré

Choixdespublicitésbaséssurdavantagededonnées,parexemple

attributprotégésleshommesreçoiventdemanièresignificativedavantagede

publicitéspourdespostesàhautsalairequelesfemmes

PeudecontrôlesurlespublicitésEnleverunintérêtdiminuelenombredepublicitésrelativesà

cetintérêtparexemple,leschats

6/8/16 25SergeAbiteboul

ÉVALUATIONDELAQUALITÉDES

DONNÉES

6/8/16 26SergeAbiteboul

Page 14: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Cequ’onneveutpasvoirsurleweb

SitesNaziSitesterroristesContenupédophileFaussesinformationssurlasantéThéorieducomplotCybercrimeHarcèlementenligne…

6/8/16 27SergeAbiteboul

Problèmes:quepeut-onfaire?

DétecterlescontenusillégauxsurleWebÉvaluationautomatique

delaqualitédescontenusdelalégalitédescontenusbasésurlatransparenceduclassement

Analyseetclassementcollaboratifdespagesweb

Nombreuxsujetsderecherche

6/8/16 28SergeAbiteboul

Page 15: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

DISSÉMINATIONDESDONNÉES

1. Protectiondesdonnées2. Accèsouvertsauxdonnées3. Neutralité

6/8/16 29SergeAbiteboul

Protectiondesdonnées

Pourchacunedenosdonnéesenligne,nousaimerionscontrôler:

QuipeutleslireCommentellessonttransmisesCommentsont-ellesmodifiéesCommentsont/seront-ellesutilisées?

Nousaimerionsgarderunpeudecontrôlesurlesparamètresdediffusion

Contrôledel’accèssurlewebBeaucoupdeproblèmesouverts

6/8/16 30SergeAbiteboul

Page 16: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Neutralité

Neutralitédunetetdesplate-formes(rapportCNNum)Leréseautransportedesdonnéessansbiaisparrapportauxsources,destinations,contenus…Plateformesenligne:discriminationenfaveurdeleursservices?Liensaveclesproblématiquesdel’équitéetdeladiversité

Le riche s’enrichit alors que le pauvre s’appauvrit …

316/8/16 SergeAbiteboul

6/8/16 32SergeAbiteboul

Page 17: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Problèmes

Tests de neutralité Surveillance de la neutralité

6/8/16 33SergeAbiteboul

MÉMOIREDESDONNÉES

1. Donnéespersonnelles2. Archiver3. Archivesduweb

6/8/16 34SergeAbiteboul

Page 18: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

Archivagedesdonnées

Problèmes:déciderCequ’ilfautarchiverCequ’ilfautoublier

OublierestunmoyendeproduiredesabstractionsClasser,résumer…

Parexemple,projeteuropéenForgetIT

6/8/16 35SergeAbiteboul

Conclusion

Denombreuxconflitspolitiquesetsociauxsontaujourd’huiliésauxdonnéesLesproblèmessonttrèsclairementpasuniquementtechniques

Ilseraittempsdechangerlafaçondontonutiliselesdonnéespersonnelles?Dechangerleweb?

Desorganismesytravaillent• CNNum• différentsgouvernements

(USA,UE…)Parexemple,pourleweb• InternetGovernmentForum

(UN)• GlobalInternetPolicy

Observatory(UE?)• W3CTechnologyPolicy

InternetGroup

6/8/16 36SergeAbiteboul

Page 19: Responsabilité en analyse de neutralité et transparence · Techniques disponibles : fouille de données, données massives, apprentissage machine ... Vie privée et analyse de données

http://abiteboul.com http://binaire.blog.lemonde.fr