Quelle transparence pour les algorithmes d’apprentissage machine ? Maël Pégny – Issam Ibnouhsein 18 mai 2018
Quelletransparencepourlesalgorithmesd’apprentissagemachine?
MaëlPégny – IssamIbnouhsein18mai2018
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Discours sur les algorithmes
Importance croissante du discours sur le rôle social des algorithmes : surveillance, discrimination, prise de décision, automatisation du travail...
2
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Saisir la singularité des algorithmes
Ne pas rejouer la critique de la bureaucratie : certains algorithmes sont juste une automatisation de procédures préexistantes.
Intérêt pour l’AM : des algorithmes qui ne décident pas comme les humains.
3
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
La transparence
Importance du discours sur la transparence, des points de vue médiatique, politique et scientifique.
Existence institutionnelle : Transalgo.
Enjeu particulier de l’AM à cet égard : algorithmes ≪ opaques ≫(blackboxness) même pour leurs concepteurs.
Problème : quelle transparence pour les algorithmes d’AM ?
4
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Plan
1. Les sens de la transparence
2. L’intelligibilité des algorithmes en AM : remarques transverses
3. Quelques rappels concrets autour de l’AM
4. Enjeux techniques autour de l’intelligibilité des sorties des algorithmes d’AM
5. Conclusion
5
Lessensdelatransparence1
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Nature de la discussion
Notre propos n’est pas, sauf exception explicitement déclarée, de nature juridique.
Propos conceptuel, dont les juristes peuvent tirer profit.
Distinction de quatre sens fondamentaux et stratégiques, sans prétention à l’exhaustivité, de la transparence.
7
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Deux familles de propriétés
Distinction de deux familles :
• Famille de propriétés normatives extrinsèques : • Loyauté : Un algorithme est loyal si la fonctionnalité affichée auprès de
l’utilisateur est identique à la fonctionnalité connue du fournisseur. • Équité : un algorithme est équitable si son fonctionnement ne provoque pas
d’effets discriminants à l’égard d’une partie de la population.
• Famille de propriétés épistémiques intrinsèques : • Intelligibilité : un algorithme est intelligible s’il est possible de comprendre
son comportement dans l’état de l’art scientifique. • Explicabilité : Un algorithme est explicable s’il est possible de faire
comprendre son fonctionnement à un utilisateur (sans expertise scientifique).
8
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Propriétés intrinsèques et extrinsèques
Prolifération du discours attribuant des propriétés intentionnelles aux algorithmes : ne rejouons pas la comédie de l’IA forte.
≪ Propriété intrinsèque des algorithmes ≫ : propriété attribuable à l’algorithme parce que son attribution dépend essentiellement de la connaissance de ses caractéristiques techniques.
9
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Les propriétés normatives sont extrinsèques
Loyauté : propriété du fournisseur, ou de la relation entre fournisseur etutilisateur.
Équité : propriété extrinsèque des effets sociaux de l’usage de l’algorithme ;ex: spambot collectant des adresses mails en fonction de la consonance desnoms de famille, et envoyant des courriels raciste ou poétique.
➜. Algorithmes identiques à substitution du corps de message près :caractéristiques techniques identiques, effets sociaux différents.
10
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Les propriétés épistémiques sont (probablement) intrinsèques
Intelligibilité : propriété intrinsèque de l’algorithme, car attribution dépendante de l’état de l’art.
Explicabilité : dépendance évidente de l’explication aux caractéristiques techniques, une et une seule explication d’un algorithme VS doit-on modifier l’explication en fonction du public visé ou des contextes d’usage ?
→ Solution nécessaire pour déterminer le caractère intrinsèque de la propriété.
Adaptation désirable d’un point de vue pédagogique vs problèmes de communication et de responsabilité juridique.
11
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Relations entre les concepts : l’épistémique comme fondement du normatif
L’explicabilité dépend de l’intelligibilité : il est nécessaire de comprendre pour expliquer.
Intelligibilité = explicabilité fondamentale.
L’intelligibilité est fondamentale pour vérifier qu’un algorithme est loyal et équitable : • Il faut expliquer pour être loyal. • Le manque d’intelligibilité peut créer des effets discriminants
inattendus.
12
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
CERNA et Transalgo
Notre travail : affinage des catégories existantes.
Rapport du CERNA : apprentissage machine, mais pas uniquement sur l’enjeu de transparence (et d’intelligibilité). Même domaine, autres problèmes.
Transalgo : transparence pour tout type d’algorithmes, avec intérêt pour la rétro-ingénierie. Même problème, autre domaine.
13
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Singularités de notre approche
Importance de l’intention dans la définition de la loyauté : distinction entreerreur honnête et offuscation.
Distinction entre intelligibilité et explicabilité : insistance sur l’intelligibilité.
Restriction aux propriétés les plus fondamentales : traçabilité, existence delogs = exigences instrumentales secondaires.
Suggestions terminologiques : emploi de transparence dans le contextenormatif, intelligibilité (interprétabilité) dans le contexte épistémique,interrogation sur le caractère intrinsèque des propriétés.
14
L’intelligibilitédesalgorithmesd’AM:remarquestransverses2
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Prolifération des intelligibilités
Prendre garde à la prolifération terminologique sur l’intelligibilité en AM selon de multiples paramètres :
• Objets : composantes du modèle, étapes de la procédure (Lipton, WHI 2016), ...
• Modalités : intelligibilité qualitative du lien entrées-sorties (Krause et al., WHI 2016), formalisme rigoureux (Doshi-Velez, Kim, 2017)
• Produits : logs, artefacts textuels ou graphiques à visée explicative...
Prolifération terminologique : signe d’une difficulté à hiérarchiser les enjeux
16
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Une distinction stratégique
Intelligibilité des sorties du modèle (numériques, graphiques, prédiction,décision, action sur son environnement...) VS intelligibilité de laprocédure.
On peut bien comprendre une procédure, d’un point mathématique ouintuitif, sans bien comprendre une sortie donnée.
Distinction transverse aux autres catégorisations : intelligibilité des étapes.
17
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Intelligibilité des sorties dans les procédures bureaucratiques
Les procédures bureaucratiques sont compositionnelles (suite de décisions élémentaires simples).
Elles permettent une explicabilité par extraits : sélection de quelques éléments simples, compréhensibles et pertinents dans l’arbre de décision.
Essentiel pour permettre la croissance en taille des procédures sans compromettre l’explicabilité pour le public.
18
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Un enjeu stratégique pour l’emploi de l’apprentissage machine
Des algorithmes ”conventionnels” sont souvent d’une grandesophistication mathématique : l’explicabilité de l’ensemble de laprocédure est compromise.
La simple taille des procédures bureaucratiques les plus courantes rendleur intelligibilité difficile.
Enjeu pratique de l’explicabilité de l’AM : non pas tant faire de lavulgarisation des réseaux de neurones profonds, mais extraire uneexplication brève et compréhensible des sorties. Est-ce possible ?
19
Quelquesrappelsconcretsautourdel’AM3
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Point de départ
Desdonnées
Unproblème
Unordinateur
Comment construire des algorithmescapables d’ingérer efficacement lescorrélations existantes dans les données desituations passées, pour calculer despropositions pertinentes dans des situationsnouvelles ?
Ceciestunchien!
21
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Un exemple type d’utilisation de l’AM
Individu Sexe Age Salairebrut Enfants Epargne
Paul M 26 35000 0 LivretA
Arthur M 23 19000 1 Rien
Sarah F 24 34000 0 LivretA
Didier M 54 56000 2 SICAV
Considéronslecasd’unmodèled’octroidecrédit.Onchercheàutiliserlesdonnéespasséesd’octroidecrédit,depaiementsounondeséchéances,ainsiqued’autresinformationspersonnellespourdécidersidesnouveauxcandidatsserontdebonspayeurs.
Aprèsnettoyageetmiseenformedesdonnées(feature engineering),ondisposedecolonnesquicorrespondentauxvariablesditesexplicatives,i.e.permettantderésoudreleproblèmeposé:
22
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Nous associons la cible aux variables explicatives pour chaque exemple
• Unhistoriquedelacible(bonpayeurounon)estdisponible.• Ilfautconstruire unegrandetableintégrantvariablesexplicativesetlavariablecible*:
Individu Sexe Age Salairebrut
Enfants Epargne Défaut <10ans
Paul M 26 35000 0 LivretA 1Isabelle F 49 40000 2 PEL 0Frank M 37 60000 4 AV 0
X_train y_train(notationhabituelle)
Comment interpréter ces lignes?
Cescatégoriestextuellessontenréalitétransforméesencatégoriesnumériques
L’instanciationoul’entraînementd’unmodèlesurunepartiedesdonnéespasséescorrespondàl’apprentissagedescorrélationsentrecibleetvariablesexplicatives
23
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Individu Sexe Age Salairebrut Enfants EpargneArthur M 23 19000 1 RienSarah F 24 34000 0 LivretA
Défaut <10ans
10
La production de prédictions sur la partie des données passées non utiliséeslors de l’entraînement permet de mesurer la performance du modèle
Nouveauxexemples
Valeursréélles
Pasdedéfaut VN=870 FP=30
Défaut FN=40 VP=60
Pasdedéfaut Défaut
Valeursprédites
Matricedeconfusionpourmesurerlaperformance:• VN:Vrainégatif(0prédit0)• VP:Vraipositif(1prédit1)• FP:Fauxpositif(0prédit1)• FN:Fauxnégatif(1prédit0)
24
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Récapitulatif de la procédure d’instanciation d’un modèle d’AM
… légèresimplificationcarondoittesterlaperformancepourtouslesseuilspossibles
RÉSULTATS
Probabilité Prédiction
0.98 1
0.32 0
… …
0.76 1
TABLED’APPRENTISSAGE
ID Variablesexplicatives
Variablecible
345 … 1
2 … 0
… … …
10054 … 1
TABLEDETEST
ID Variablesexplicatives
204 …
3 …
… …
2301 …
DONNÉESPRÉPARÉES
70%
30%
+ +
MODÈLE ENTRAÎNÉ
PRÉDICTION
SÉPARATION
ENTRAÎNEMENT DU MODÈLE
MESURE DE LA PERFORMANCE
1
2
3
4
25
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
• Lesréseauxdeneurones:trèsperformantspourletraitementd’images
• Lesalgorithmesbayésiens:trèsutilespourdesoutilsd’aideàladécisionavecinformationapriori
• Lessupportvector machines(SVM):uneméthodeavancéedeclassification
• Lesarbresdedécision: trèsutileslorsqueuneinterprétationclaireetsimpledumodèleestcruciale
Ilexistebeaucoupdedéclinaisonsdifférentespourchaquegrandeclassedemodèle:
• Onpeutimaginerdifférentesarchitecturesderéseauxdeneurones
• Onpeutregrouperlesarbresdansdesforêts
Une grande variété d’algorithmes
26
Enjeuxtechniquesautourdel’intelligibilitédessorties4
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Explicitation des segmentations établies par un arbre de décision dans unespace de données très simple à deux dimensions (v,h)
Figure 2 – Exemple de segmentation dans l’espace des données établie par unarbre de régression. v et h correspondent respectivement à la vitesse du vent età l’humidité de l’air, tandis que la variable à prédire est la température T . Lesfrontières des segments (à gauche) sont en correspondance avec les règles d’évo-lution dans l’arbre (à droite), et sont optimisées à partir des données servant àl’instanciation du modèle.
espace de données initial non transformé. Dans le cas des réseaux de neuronesou des méthodes à noyaux, il est souvent difficile d’avoir une définition explicitedes frontières définissant le voisinage d’un point, voisinage au sein duquel unesortie homogène est calculée.
Plusieurs techniques ont donc été développées afin de permettre à l’expert devérifier les facteurs justifiant la sortie d’un modèle d’AM instancié. Par exemple,l’analyse classique de l’importance des variables, ou encore la méthode Leave-One-Out Covariance (LOOC) qui consiste en relancer l’entraînement d’un mo-dèle en remplaçant les valeurs d’une colonne par une valeur non signifiante,mesurent l’impact relatif de chaque variable sur les prédictions du modèle. Demême, les algorithmes de réduction de dimension, comme l’analyse en compo-santes principales ou encore l’algorithme t-distributed Stochastic Neighbour Em-bedding (t-SNE), permettent d’étudier les segmentations établies par un modèlesur des espaces de grande dimension en les projetant sur des espaces de dimen-sion plus petite. Enfin, des techniques plus évoluées comme les Local Interpre-table Model-Agnostic Explanations (LIME) construisent un modèle intelligiblelocalement proche d’un modèle difficile d’interprétation, en se basant sur le pré-lèvement d’un échantillon d’observations autour d’un point quelconque, qui sertalors d’échantillon labellisé pour l’entraînement du modèle de substitution plusintelligible, comme un arbre de décision. Il faut noter que dans de tels cas, onétablit localement une segmentation dont les frontières sont explicitables, et quiapproxime la segmentation établie par le modèle original [21]. On peut d’ailleursexpliciter l’ensemble des frontières ou une sous-partie uniquement, selon le ni-veau de complétude pertinent et souhaité pour la description du segment 17.
17. On peut bien sûr voir une analogie entre cette approche et l’explication par extraitsd’une procédure bureaucratique. Quant à savoir si cette analogie doit être prise au sérieux, ils’agit là d’une question qui dépasse les limites de ce travail.
20
Segmentationétablieparunarbrededécisiondansl’espacedel’humiditéetdelavitesseduventpourprédirelatempérature
Représentationgraphiquedessegmentations:ellessontintelligiblescarlesvariablessontexplicitesetlesfrontièresbiendéfinies
28
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Mais les dimensions selon lesquelles est établie une segmentation ne sont pastoujours facilement interprétables…
Figure 2 – Exemple de segmentation dans l’espace des données établie par unarbre de régression. v et h correspondent respectivement à la vitesse du vent età l’humidité de l’air, tandis que la variable à prédire est la température T . Lesfrontières des segments (à gauche) sont en correspondance avec les règles d’évo-lution dans l’arbre (à droite), et sont optimisées à partir des données servant àl’instanciation du modèle.
espace de données initial non transformé. Dans le cas des réseaux de neuronesou des méthodes à noyaux, il est souvent difficile d’avoir une définition explicitedes frontières définissant le voisinage d’un point, voisinage au sein duquel unesortie homogène est calculée.
Plusieurs techniques ont donc été développées afin de permettre à l’expert devérifier les facteurs justifiant la sortie d’un modèle d’AM instancié. Par exemple,l’analyse classique de l’importance des variables, ou encore la méthode Leave-One-Out Covariance (LOOC) qui consiste en relancer l’entraînement d’un mo-dèle en remplaçant les valeurs d’une colonne par une valeur non signifiante,mesurent l’impact relatif de chaque variable sur les prédictions du modèle. Demême, les algorithmes de réduction de dimension, comme l’analyse en compo-santes principales ou encore l’algorithme t-distributed Stochastic Neighbour Em-bedding (t-SNE), permettent d’étudier les segmentations établies par un modèlesur des espaces de grande dimension en les projetant sur des espaces de dimen-sion plus petite. Enfin, des techniques plus évoluées comme les Local Interpre-table Model-Agnostic Explanations (LIME) construisent un modèle intelligiblelocalement proche d’un modèle difficile d’interprétation, en se basant sur le pré-lèvement d’un échantillon d’observations autour d’un point quelconque, qui sertalors d’échantillon labellisé pour l’entraînement du modèle de substitution plusintelligible, comme un arbre de décision. Il faut noter que dans de tels cas, onétablit localement une segmentation dont les frontières sont explicitables, et quiapproxime la segmentation établie par le modèle original [21]. On peut d’ailleursexpliciter l’ensemble des frontières ou une sous-partie uniquement, selon le ni-veau de complétude pertinent et souhaité pour la description du segment 17.
17. On peut bien sûr voir une analogie entre cette approche et l’explication par extraitsd’une procédure bureaucratique. Quant à savoir si cette analogie doit être prise au sérieux, ils’agit là d’une question qui dépasse les limites de ce travail.
20
Ex:arbrededécision Ex:modèlesparamétriques Ex:calculintermédiaired’unréseaudeneurones
Figure 2 – Exemple de segmentation dans l’espace des données établie par unarbre de régression. v et h correspondent respectivement à la vitesse du vent età l’humidité de l’air, tandis que la variable à prédire est la température T . Lesfrontières des segments (à gauche) sont en correspondance avec les règles d’évo-lution dans l’arbre (à droite), et sont optimisées à partir des données servant àl’instanciation du modèle.
espace de données initial non transformé. Dans le cas des réseaux de neuronesou des méthodes à noyaux, il est souvent difficile d’avoir une définition explicitedes frontières définissant le voisinage d’un point, voisinage au sein duquel unesortie homogène est calculée.
Plusieurs techniques ont donc été développées afin de permettre à l’expert devérifier les facteurs justifiant la sortie d’un modèle d’AM instancié. Par exemple,l’analyse classique de l’importance des variables, ou encore la méthode Leave-One-Out Covariance (LOOC) qui consiste en relancer l’entraînement d’un mo-dèle en remplaçant les valeurs d’une colonne par une valeur non signifiante,mesurent l’impact relatif de chaque variable sur les prédictions du modèle. Demême, les algorithmes de réduction de dimension, comme l’analyse en compo-santes principales ou encore l’algorithme t-distributed Stochastic Neighbour Em-bedding (t-SNE), permettent d’étudier les segmentations établies par un modèlesur des espaces de grande dimension en les projetant sur des espaces de dimen-sion plus petite. Enfin, des techniques plus évoluées comme les Local Interpre-table Model-Agnostic Explanations (LIME) construisent un modèle intelligiblelocalement proche d’un modèle difficile d’interprétation, en se basant sur le pré-lèvement d’un échantillon d’observations autour d’un point quelconque, qui sertalors d’échantillon labellisé pour l’entraînement du modèle de substitution plusintelligible, comme un arbre de décision. Il faut noter que dans de tels cas, onétablit localement une segmentation dont les frontières sont explicitables, et quiapproxime la segmentation établie par le modèle original [21]. On peut d’ailleursexpliciter l’ensemble des frontières ou une sous-partie uniquement, selon le ni-veau de complétude pertinent et souhaité pour la description du segment 17.
17. On peut bien sûr voir une analogie entre cette approche et l’explication par extraitsd’une procédure bureaucratique. Quant à savoir si cette analogie doit être prise au sérieux, ils’agit là d’une question qui dépasse les limites de ce travail.
20
Figure 2 – Exemple de segmentation dans l’espace des données établie par unarbre de régression. v et h correspondent respectivement à la vitesse du vent età l’humidité de l’air, tandis que la variable à prédire est la température T . Lesfrontières des segments (à gauche) sont en correspondance avec les règles d’évo-lution dans l’arbre (à droite), et sont optimisées à partir des données servant àl’instanciation du modèle.
espace de données initial non transformé. Dans le cas des réseaux de neuronesou des méthodes à noyaux, il est souvent difficile d’avoir une définition explicitedes frontières définissant le voisinage d’un point, voisinage au sein duquel unesortie homogène est calculée.
Plusieurs techniques ont donc été développées afin de permettre à l’expert devérifier les facteurs justifiant la sortie d’un modèle d’AM instancié. Par exemple,l’analyse classique de l’importance des variables, ou encore la méthode Leave-One-Out Covariance (LOOC) qui consiste en relancer l’entraînement d’un mo-dèle en remplaçant les valeurs d’une colonne par une valeur non signifiante,mesurent l’impact relatif de chaque variable sur les prédictions du modèle. Demême, les algorithmes de réduction de dimension, comme l’analyse en compo-santes principales ou encore l’algorithme t-distributed Stochastic Neighbour Em-bedding (t-SNE), permettent d’étudier les segmentations établies par un modèlesur des espaces de grande dimension en les projetant sur des espaces de dimen-sion plus petite. Enfin, des techniques plus évoluées comme les Local Interpre-table Model-Agnostic Explanations (LIME) construisent un modèle intelligiblelocalement proche d’un modèle difficile d’interprétation, en se basant sur le pré-lèvement d’un échantillon d’observations autour d’un point quelconque, qui sertalors d’échantillon labellisé pour l’entraînement du modèle de substitution plusintelligible, comme un arbre de décision. Il faut noter que dans de tels cas, onétablit localement une segmentation dont les frontières sont explicitables, et quiapproxime la segmentation établie par le modèle original [21]. On peut d’ailleursexpliciter l’ensemble des frontières ou une sous-partie uniquement, selon le ni-veau de complétude pertinent et souhaité pour la description du segment 17.
17. On peut bien sûr voir une analogie entre cette approche et l’explication par extraitsd’une procédure bureaucratique. Quant à savoir si cette analogie doit être prise au sérieux, ils’agit là d’une question qui dépasse les limites de ce travail.
20
Segmentationclaireenfonctiondesvariablesd’entrée
TransformationintelligibledesvariablesSegmentationformalisablemaisdontlesenspeutêtreopaque,ex:créditpart.
Transformationnon-intelligibledesvariablesDessegmentationspeuventêtreétabliesàchaqueétageduréseau,maisleurévolution
etsensrestentlargementopaques
?
29
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Examinons concrètement le cas d’un réseau de neurones : souvent, seules lesdimensions au départ et à la fin possèdent un sens clair
DE( ), =5
DE( ) =6
DS( ), 5
DS( ) 0
Les points correspondant aux vecteurs de pixels 3 et 8sont plus proches (selon une distance simplifiée) queles points correspondant aux vecteurs de pixels 3 et 3
Lespointscorrespondantauxscoresfinauxsontplusprochesentre3et3qu’entre3et8
~
~
Lespointsintermédiairesn’appartiennentpasàdesespacesàdimensionsfacilementintelligibles
• L’intelligibilitedessortiesd’unalgorithmed’AMn’estdoncpastoujoursgarantie,carmemesilescritèresdeproductiondelasortiepeuventetreapproximéspardescritèresexplicites,cesderniersnesontpasnécessairementintelligibles,ycomprispourunexpert.
• De là nait le sentiment d’opacite entourant certaines applications de l’AM, en particulier l’analysed’imagespardesréseauxdeneuronesprofonds
30
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Il existe un lien fort entre incomplétude de la spécification du problème,incertitude, insuffisance des métriques standards, et besoin d’intellgibilité
• Lessourcesd’incertitude:• Doshi-Velez&Kim:laspécificationnoncomplèteduproblème• Lipton:lamétriquebaséesurlesprédictionsetlaground truth estinsuffisante
• Cesdeuxsourcesd’incertitudesontreliéesàlanécessitéd’uneintelligibilitédessorties:• Ex.d’unclassifieur chien/huskyquiutilisel’arrière-planpelousevsneige->mauvaisapprentissage!• Lesmétriquesstandardnepeuventdétecterleproblèmesilejeudetestpossèdelemêmebiais• L’incomplétudedelaspécificationrenddifficiledelistertouslesbiaispossibles->laréductiondebiaissefaitdemanièreheuristique,d’oùlanécessitéd’uneintelligibilitédessorties
• Ilfautdistinguerdeuxtypesd’incertitudes:• Incertitudealéatoire:intrinsèqueauphénomène,ex:aléalorsdulancerd’unepièce(p,1-p)• Incertitudeépistémique:baisseaufuretàmesuredeslancerspourpermettreunemesureprécisedep
31
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Le recours au machine learning se fait justement lorsque la paramétrisation du problème estincomplète, mais tous les algorithmes de ne valent pas du point de vue de la gestion de l’incertitude
Paramétrisation complèteduproblèmeetrelationsconnueentreentréesetsorties
• La forme de la relation f : E -> S vautexplication
• Mesure de l’incertitude souvent« naturelle » pour les modèlesparamétriques, comme dans lesrégressions (ex : calcul des moments)
Paramétrisation incomplèteduproblèmeetrelationsinconnueentreentréesetsorties
• Compréhension des relations f(e)=s aposteriori (importance des variables, etc.)
• Utilisation de modèles non-paramétriques(mais pas que…)
Arbresdedécision
Deep learning
Processusgaussien=réseauinfinimentprofond
Régressionlogistique
Generalizedlinear models
(GLM)
Quelques travaux surl’interprétation bayésienne deshyperparamètres, ex : dropout=> vise à construire un cadreprobabiliste de mesured’incertitude
Pasdedifficultédanslamesured’incertitude Pasdemesuresystématiqued’incertitude,enparticulierpasdedistinctionaléatoire/épistémique
GLM
32
Conclusion5
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
L’auditabilité et la certification des algorithmes d’AM sont absolumentnécessaires pour le développement de l’industrie
34
Google obligé de ré-entraîner sonmodèle sans gorilles dans les données :couplage fort de la procédure globaleavec calcul d’une sortie ≠ processusbureaucratique
Tesla pas responsable car le conducteurdisposait de 7s pour réagir : cadeaujuridique empoisonné car le but d’unevoiture autonome à terme est d’être…autonome !
Deuxexemplesdepolémiquesrécentes,avecbonneauditabilité maisdéfautdemesured’incertitude
©Quantmetry 2018|AllRightsReserved– Reproductioninwholeorinpartwithoutwrittenpermissionisprohibited
Pour un comité dédié à l’intelligibilité et à l’explicabilité de l’AM
Dans l’état de l’art actuel, on ne sait pas à quel point les procédures d’AMsont irréductibles à des procédures plus ”conventionnelles”.
La mise en place d’un cadre réglementaire identique pour tous lesalgorithmes n’est pas réaliste.
Mise en place d’un comité dédié à l’intelligibilité et l’explicabilité de l’AM(RGPD) : veille scientifique, standards d’explicabilité.
35