Quelle transparence pour les algorithmes d’apprentissage machine · Existence institutionnelle : Transalgo. Enjeu particulier de l’AM à cet égard : algorithmes ≪opaques ≫

Quelletransparencepourlesalgorithmesd’apprentissagemachine?

MaëlPégny – IssamIbnouhsein18mai2018

©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited

Discours sur les algorithmes

Importance croissante du discours sur le rôle social des algorithmes : surveillance, discrimination, prise de décision, automatisation du travail...

2


Saisir la singularité des algorithmes

Ne pas rejouer la critique de la bureaucratie : certains algorithmes sont juste une automatisation de procédures préexistantes.

Intérêt pour l’AM : des algorithmes qui ne décident pas comme les humains.

3


La transparence

Importance du discours sur la transparence, des points de vue médiatique, politique et scientifique.

Existence institutionnelle : Transalgo.

Enjeu particulier de l’AM à cet égard : algorithmes ≪ opaques ≫(blackboxness) même pour leurs concepteurs.

Problème : quelle transparence pour les algorithmes d’AM ?

4


Plan

1. Les sens de la transparence

2. L’intelligibilité des algorithmes en AM : remarques transverses

3. Quelques rappels concrets autour de l’AM

4. Enjeux techniques autour de l’intelligibilité des sorties des algorithmes d’AM

5. Conclusion

5

Lessensdelatransparence1


Nature de la discussion

Notre propos n’est pas, sauf exception explicitement déclarée, de nature juridique.

Propos conceptuel, dont les juristes peuvent tirer profit.

Distinction de quatre sens fondamentaux et stratégiques, sans prétention à l’exhaustivité, de la transparence.

7


Deux familles de propriétés

Distinction de deux familles :

• Famille de propriétés normatives extrinsèques : • Loyauté : Un algorithme est loyal si la fonctionnalité affichée auprès de

l’utilisateur est identique à la fonctionnalité connue du fournisseur. • Équité : un algorithme est équitable si son fonctionnement ne provoque pas

d’effets discriminants à l’égard d’une partie de la population.

• Famille de propriétés épistémiques intrinsèques : • Intelligibilité : un algorithme est intelligible s’il est possible de comprendre

son comportement dans l’état de l’art scientifique. • Explicabilité : Un algorithme est explicable s’il est possible de faire

comprendre son fonctionnement à un utilisateur (sans expertise scientifique).

8


Propriétés intrinsèques et extrinsèques

Prolifération du discours attribuant des propriétés intentionnelles aux algorithmes : ne rejouons pas la comédie de l’IA forte.

≪ Propriété intrinsèque des algorithmes ≫ : propriété attribuable à l’algorithme parce que son attribution dépend essentiellement de la connaissance de ses caractéristiques techniques.

9


Les propriétés normatives sont extrinsèques

Loyauté : propriété du fournisseur, ou de la relation entre fournisseur etutilisateur.

Équité : propriété extrinsèque des effets sociaux de l’usage de l’algorithme ;ex: spambot collectant des adresses mails en fonction de la consonance desnoms de famille, et envoyant des courriels raciste ou poétique.

➜. Algorithmes identiques à substitution du corps de message près :caractéristiques techniques identiques, effets sociaux différents.

10


Les propriétés épistémiques sont (probablement) intrinsèques

Intelligibilité : propriété intrinsèque de l’algorithme, car attribution dépendante de l’état de l’art.

Explicabilité : dépendance évidente de l’explication aux caractéristiques techniques, une et une seule explication d’un algorithme VS doit-on modifier l’explication en fonction du public visé ou des contextes d’usage ?

→ Solution nécessaire pour déterminer le caractère intrinsèque de la propriété.

Adaptation désirable d’un point de vue pédagogique vs problèmes de communication et de responsabilité juridique.

11


Relations entre les concepts : l’épistémique comme fondement du normatif

L’explicabilité dépend de l’intelligibilité : il est nécessaire de comprendre pour expliquer.

Intelligibilité = explicabilité fondamentale.

L’intelligibilité est fondamentale pour vérifier qu’un algorithme est loyal et équitable : • Il faut expliquer pour être loyal. • Le manque d’intelligibilité peut créer des effets discriminants

inattendus.

12


CERNA et Transalgo

Notre travail : affinage des catégories existantes.

Rapport du CERNA : apprentissage machine, mais pas uniquement sur l’enjeu de transparence (et d’intelligibilité). Même domaine, autres problèmes.

Transalgo : transparence pour tout type d’algorithmes, avec intérêt pour la rétro-ingénierie. Même problème, autre domaine.

13


Singularités de notre approche

Importance de l’intention dans la définition de la loyauté : distinction entreerreur honnête et offuscation.

Distinction entre intelligibilité et explicabilité : insistance sur l’intelligibilité.

Restriction aux propriétés les plus fondamentales : traçabilité, existence delogs = exigences instrumentales secondaires.

Suggestions terminologiques : emploi de transparence dans le contextenormatif, intelligibilité (interprétabilité) dans le contexte épistémique,interrogation sur le caractère intrinsèque des propriétés.

14

L’intelligibilitédesalgorithmesd’AM:remarquestransverses2


Prolifération des intelligibilités

Prendre garde à la prolifération terminologique sur l’intelligibilité en AM selon de multiples paramètres :

• Objets : composantes du modèle, étapes de la procédure (Lipton, WHI 2016), ...

• Modalités : intelligibilité qualitative du lien entrées-sorties (Krause et al., WHI 2016), formalisme rigoureux (Doshi-Velez, Kim, 2017)

• Produits : logs, artefacts textuels ou graphiques à visée explicative...

Prolifération terminologique : signe d’une difficulté à hiérarchiser les enjeux

16


Une distinction stratégique

Intelligibilité des sorties du modèle (numériques, graphiques, prédiction,décision, action sur son environnement...) VS intelligibilité de laprocédure.

On peut bien comprendre une procédure, d’un point mathématique ouintuitif, sans bien comprendre une sortie donnée.

Distinction transverse aux autres catégorisations : intelligibilité des étapes.

17


Intelligibilité des sorties dans les procédures bureaucratiques

Les procédures bureaucratiques sont compositionnelles (suite de décisions élémentaires simples).

Elles permettent une explicabilité par extraits : sélection de quelques éléments simples, compréhensibles et pertinents dans l’arbre de décision.

Essentiel pour permettre la croissance en taille des procédures sans compromettre l’explicabilité pour le public.

18


Un enjeu stratégique pour l’emploi de l’apprentissage machine

Des algorithmes ”conventionnels” sont souvent d’une grandesophistication mathématique : l’explicabilité de l’ensemble de laprocédure est compromise.

La simple taille des procédures bureaucratiques les plus courantes rendleur intelligibilité difficile.

Enjeu pratique de l’explicabilité de l’AM : non pas tant faire de lavulgarisation des réseaux de neurones profonds, mais extraire uneexplication brève et compréhensible des sorties. Est-ce possible ?

19

Quelquesrappelsconcretsautourdel’AM3


Point de départ

Desdonnées

Unproblème

Unordinateur

Comment construire des algorithmescapables d’ingérer efficacement lescorrélations existantes dans les données desituations passées, pour calculer despropositions pertinentes dans des situationsnouvelles ?

Ceciestunchien!

21


Un exemple type d’utilisation de l’AM

Individu Sexe Age Salairebrut Enfants Epargne

Paul M 26 35000 0 LivretA

Arthur M 23 19000 1 Rien

Sarah F 24 34000 0 LivretA

Didier M 54 56000 2 SICAV

Considéronslecasd’unmodèled’octroidecrédit.Onchercheàutiliserlesdonnéespasséesd’octroidecrédit,depaiementsounondeséchéances,ainsiqued’autresinformationspersonnellespourdécidersidesnouveauxcandidatsserontdebonspayeurs.

Aprèsnettoyageetmiseenformedesdonnées(feature engineering),ondisposedecolonnesquicorrespondentauxvariablesditesexplicatives,i.e.permettantderésoudreleproblèmeposé:

22


Nous associons la cible aux variables explicatives pour chaque exemple

• Unhistoriquedelacible(bonpayeurounon)estdisponible.• Ilfautconstruire unegrandetableintégrantvariablesexplicativesetlavariablecible*:

Individu Sexe Age Salairebrut

Enfants Epargne Défaut <10ans

Paul M 26 35000 0 LivretA 1Isabelle F 49 40000 2 PEL 0Frank M 37 60000 4 AV 0

X_train y_train(notationhabituelle)

Comment interpréter ces lignes?

Cescatégoriestextuellessontenréalitétransforméesencatégoriesnumériques

L’instanciationoul’entraînementd’unmodèlesurunepartiedesdonnéespasséescorrespondàl’apprentissagedescorrélationsentrecibleetvariablesexplicatives

23


Individu Sexe Age Salairebrut Enfants EpargneArthur M 23 19000 1 RienSarah F 24 34000 0 LivretA

Défaut <10ans

10

La production de prédictions sur la partie des données passées non utiliséeslors de l’entraînement permet de mesurer la performance du modèle

Nouveauxexemples

Valeursréélles

Pasdedéfaut VN=870 FP=30

Défaut FN=40 VP=60

Pasdedéfaut Défaut

Valeursprédites

Matricedeconfusionpourmesurerlaperformance:• VN:Vrainégatif(0prédit0)• VP:Vraipositif(1prédit1)• FP:Fauxpositif(0prédit1)• FN:Fauxnégatif(1prédit0)

24


Récapitulatif de la procédure d’instanciation d’un modèle d’AM

… légèresimplificationcarondoittesterlaperformancepourtouslesseuilspossibles

RÉSULTATS

Probabilité Prédiction

0.98 1

0.32 0

… …

0.76 1

TABLED’APPRENTISSAGE

ID Variablesexplicatives

Variablecible

345 … 1

2 … 0

… … …

10054 … 1

TABLEDETEST

ID Variablesexplicatives

204 …

3 …

… …

2301 …

DONNÉESPRÉPARÉES

70%

30%

+ +

MODÈLE ENTRAÎNÉ

PRÉDICTION

SÉPARATION

ENTRAÎNEMENT DU MODÈLE

MESURE DE LA PERFORMANCE

1

2

3

4

25


• Lesréseauxdeneurones:trèsperformantspourletraitementd’images

• Lesalgorithmesbayésiens:trèsutilespourdesoutilsd’aideàladécisionavecinformationapriori

• Lessupportvector machines(SVM):uneméthodeavancéedeclassification

• Lesarbresdedécision: trèsutileslorsqueuneinterprétationclaireetsimpledumodèleestcruciale

Ilexistebeaucoupdedéclinaisonsdifférentespourchaquegrandeclassedemodèle:

• Onpeutimaginerdifférentesarchitecturesderéseauxdeneurones

• Onpeutregrouperlesarbresdansdesforêts

Une grande variété d’algorithmes

26

Enjeuxtechniquesautourdel’intelligibilitédessorties4


Explicitation des segmentations établies par un arbre de décision dans unespace de données très simple à deux dimensions (v,h)

Figure 2 – Exemple de segmentation dans l’espace des données établie par unarbre de régression. v et h correspondent respectivement à la vitesse du vent età l’humidité de l’air, tandis que la variable à prédire est la température T . Lesfrontières des segments (à gauche) sont en correspondance avec les règles d’évo-lution dans l’arbre (à droite), et sont optimisées à partir des données servant àl’instanciation du modèle.

espace de données initial non transformé. Dans le cas des réseaux de neuronesou des méthodes à noyaux, il est souvent difficile d’avoir une définition explicitedes frontières définissant le voisinage d’un point, voisinage au sein duquel unesortie homogène est calculée.

Plusieurs techniques ont donc été développées afin de permettre à l’expert devérifier les facteurs justifiant la sortie d’un modèle d’AM instancié. Par exemple,l’analyse classique de l’importance des variables, ou encore la méthode Leave-One-Out Covariance (LOOC) qui consiste en relancer l’entraînement d’un mo-dèle en remplaçant les valeurs d’une colonne par une valeur non signifiante,mesurent l’impact relatif de chaque variable sur les prédictions du modèle. Demême, les algorithmes de réduction de dimension, comme l’analyse en compo-santes principales ou encore l’algorithme t-distributed Stochastic Neighbour Em-bedding (t-SNE), permettent d’étudier les segmentations établies par un modèlesur des espaces de grande dimension en les projetant sur des espaces de dimen-sion plus petite. Enfin, des techniques plus évoluées comme les Local Interpre-table Model-Agnostic Explanations (LIME) construisent un modèle intelligiblelocalement proche d’un modèle difficile d’interprétation, en se basant sur le pré-lèvement d’un échantillon d’observations autour d’un point quelconque, qui sertalors d’échantillon labellisé pour l’entraînement du modèle de substitution plusintelligible, comme un arbre de décision. Il faut noter que dans de tels cas, onétablit localement une segmentation dont les frontières sont explicitables, et quiapproxime la segmentation établie par le modèle original [21]. On peut d’ailleursexpliciter l’ensemble des frontières ou une sous-partie uniquement, selon le ni-veau de complétude pertinent et souhaité pour la description du segment 17.

17. On peut bien sûr voir une analogie entre cette approche et l’explication par extraitsd’une procédure bureaucratique. Quant à savoir si cette analogie doit être prise au sérieux, ils’agit là d’une question qui dépasse les limites de ce travail.

20

Segmentationétablieparunarbrededécisiondansl’espacedel’humiditéetdelavitesseduventpourprédirelatempérature

Représentationgraphiquedessegmentations:ellessontintelligiblescarlesvariablessontexplicitesetlesfrontièresbiendéfinies

28


Mais les dimensions selon lesquelles est établie une segmentation ne sont pastoujours facilement interprétables…





20

Ex:arbrededécision Ex:modèlesparamétriques Ex:calculintermédiaired’unréseaudeneurones





20





20

Segmentationclaireenfonctiondesvariablesd’entrée

TransformationintelligibledesvariablesSegmentationformalisablemaisdontlesenspeutêtreopaque,ex:créditpart.

Transformationnon-intelligibledesvariablesDessegmentationspeuventêtreétabliesàchaqueétageduréseau,maisleurévolution

etsensrestentlargementopaques

?

29


Examinons concrètement le cas d’un réseau de neurones : souvent, seules lesdimensions au départ et à la fin possèdent un sens clair

DE( ), =5

DE( ) =6

DS( ), 5

DS( ) 0

Les points correspondant aux vecteurs de pixels 3 et 8sont plus proches (selon une distance simplifiée) queles points correspondant aux vecteurs de pixels 3 et 3

Lespointscorrespondantauxscoresfinauxsontplusprochesentre3et3qu’entre3et8

~

~

Lespointsintermédiairesn’appartiennentpasàdesespacesàdimensionsfacilementintelligibles

• L’intelligibilitedessortiesd’unalgorithmed’AMn’estdoncpastoujoursgarantie,carmemesilescritèresdeproductiondelasortiepeuventetreapproximéspardescritèresexplicites,cesderniersnesontpasnécessairementintelligibles,ycomprispourunexpert.

• De là nait le sentiment d’opacite entourant certaines applications de l’AM, en particulier l’analysed’imagespardesréseauxdeneuronesprofonds

30


Il existe un lien fort entre incomplétude de la spécification du problème,incertitude, insuffisance des métriques standards, et besoin d’intellgibilité

• Lessourcesd’incertitude:• Doshi-Velez&Kim:laspécificationnoncomplèteduproblème• Lipton:lamétriquebaséesurlesprédictionsetlaground truth estinsuffisante

• Cesdeuxsourcesd’incertitudesontreliéesàlanécessitéd’uneintelligibilitédessorties:• Ex.d’unclassifieur chien/huskyquiutilisel’arrière-planpelousevsneige->mauvaisapprentissage!• Lesmétriquesstandardnepeuventdétecterleproblèmesilejeudetestpossèdelemêmebiais• L’incomplétudedelaspécificationrenddifficiledelistertouslesbiaispossibles->laréductiondebiaissefaitdemanièreheuristique,d’oùlanécessitéd’uneintelligibilitédessorties

• Ilfautdistinguerdeuxtypesd’incertitudes:• Incertitudealéatoire:intrinsèqueauphénomène,ex:aléalorsdulancerd’unepièce(p,1-p)• Incertitudeépistémique:baisseaufuretàmesuredeslancerspourpermettreunemesureprécisedep

31


Le recours au machine learning se fait justement lorsque la paramétrisation du problème estincomplète, mais tous les algorithmes de ne valent pas du point de vue de la gestion de l’incertitude

Paramétrisation complèteduproblèmeetrelationsconnueentreentréesetsorties

• La forme de la relation f : E -> S vautexplication

• Mesure de l’incertitude souvent« naturelle » pour les modèlesparamétriques, comme dans lesrégressions (ex : calcul des moments)

Paramétrisation incomplèteduproblèmeetrelationsinconnueentreentréesetsorties

• Compréhension des relations f(e)=s aposteriori (importance des variables, etc.)

• Utilisation de modèles non-paramétriques(mais pas que…)

Arbresdedécision

Deep learning

Processusgaussien=réseauinfinimentprofond

Régressionlogistique

Generalizedlinear models

(GLM)

Quelques travaux surl’interprétation bayésienne deshyperparamètres, ex : dropout=> vise à construire un cadreprobabiliste de mesured’incertitude

Pasdedifficultédanslamesured’incertitude Pasdemesuresystématiqued’incertitude,enparticulierpasdedistinctionaléatoire/épistémique

GLM

32

Conclusion5


L’auditabilité et la certification des algorithmes d’AM sont absolumentnécessaires pour le développement de l’industrie

34

Google obligé de ré-entraîner sonmodèle sans gorilles dans les données :couplage fort de la procédure globaleavec calcul d’une sortie ≠ processusbureaucratique

Tesla pas responsable car le conducteurdisposait de 7s pour réagir : cadeaujuridique empoisonné car le but d’unevoiture autonome à terme est d’être…autonome !

Deuxexemplesdepolémiquesrécentes,avecbonneauditabilité maisdéfautdemesured’incertitude


Pour un comité dédié à l’intelligibilité et à l’explicabilité de l’AM

Dans l’état de l’art actuel, on ne sait pas à quel point les procédures d’AMsont irréductibles à des procédures plus ”conventionnelles”.

La mise en place d’un cadre réglementaire identique pour tous lesalgorithmes n’est pas réaliste.

Mise en place d’un comité dédié à l’intelligibilité et l’explicabilité de l’AM(RGPD) : veille scientifique, standards d’explicabilité.

35

Quelle transparence pour les algorithmes d’apprentissage machine · Existence institutionnelle : Transalgo. Enjeu particulier de l’AM à cet égard : algorithmes ≪opaques ≫

Documents