Apprendre et Apprendre et optimiser la courbe optimiser la courbe ROC ROC Une application Une application médicale médicale Michèle Sébag, Jérôme Azé, Noël Lucas CAP’03 CAP’03
Jan 19, 2016
Apprendre et optimiser la Apprendre et optimiser la courbe ROCcourbe ROC
Une application médicaleUne application médicale
Michèle Sébag, Jérôme Azé, Noël Lucas
CAP’03CAP’03
2 CAP’03
Les risques d’athérosclérose
• Les données
• Les buts
• Reformuler le problème– Utilisation des courbes ROC
• Résultats
• Conclusion
3 CAP’03
L’athérosclérose
Association variable de remaniement de la paroi des artères consistant en une accumulation de lipides, de produits sanguins et de dépôts calcaires ; le tout s’accompagnant de modification de diamètre et de la solidité du vaisseau (OMS)
4 CAP’03
Une plaque d’athérosclérose
5 CAP’03
6 CAP’03
D’où viennent les données
Collecte des données sur 20 ansSt Charles University,Academy of Sciences, Prague
Contexte un challenge européen
Helsinki, Août 2002
European Conference on Machine LearningPrinciples and Practice of Knowledge Discovery in Databaseshttp://lisp.vse.cz/challenge/ecmlpkdd2003/
7 CAP’03
Deux bases de données
Entry (cliché + informations familiales)• 1419 hommes d’age moyen
• 219 attributs
• 3 classes (normal, à risque, pathologique)
Control (suivi sur ~20 ans : 1976-1999)• 10610 examens
• 66 attributs (changements, maladies, examen bio, …)
8 CAP’03
Objectifs
But – Prévention des maladies cardio-vasculaires– Identification des facteurs de risque
Questions– Quels facteurs sont importants ?– Comment interagissent-ils ?
Analyse exploratoire des données
9 CAP’03
Difficultés 1
Remarque : (1) et (2) sont renseignés dans la base
(3) est une information cachée
Identification des conditions nécessaires
mais pas des conditions suffisantes
Exemple de règle
Si diabète (1)
Et Tension élevée (2)
Et le patient ne rit pas assez (3)
Alors Risque Elevé
10 CAP’03
Difficultés 2
La base Entry
Identification
Caractéristiques sociales
Activités physiques
Tabac
Alcool
Sucre, café, thé
Anamnèse familiale
Anamnèse personnelle
Questionnaire A2
Examens biochimique
Examens physique
2
3
4
3
10
3
160
18
3
8
3
Description détaillée creuseInfarctus de la 4ème sœur, renseigné 4 fois dans la base
11 CAP’03
Redescription des données
Métaphore : Le corps est un pont
• La robustesse initiale du pont anamnèse familiale
• La robustesse courante du pont attributs personnels
• Le trafic qui charge le pont alcool, tabac, …
Redescription des facteurs de risque en utilisant cette métaphore et avec l’aide intensive de l’expert
• Facteurs familiaux 160 var 9 var, (ANAES1)
• État de santé 32 var 16 var
• Intoxication (tabac, alcool) 13 var 2 var1 Agence Nationale d’Accréditation et Évaluation en Santé
12 CAP’03
Difficulté 3Communication avec l’expert
Approches usuellesApprentissage artificiel
Fouille de données des hypothèses (nombreuses…)
L’expert dit : oui ou non.
Approche proposée
Représentation du risque des graphiques
L’expert dit : ceci suggère que …
Using vision to think
Card, Mackinlay, Schneiderman, 1999
13 CAP’03
Classes de risque Indicateur de risque
Besoin– Une perception fine du risque
• (risque du patient X > risque du patient Y)
Objectif– Apprendre un indicateur (numérique) de risque
Approche– Un critère d’évaluation : la courbe ROC
– Un moteur d’optimisation : algorithmes génétiques(problème d’optimisation mixte, combinatoire et numérique)
14 CAP’03
La courbe ROC(Receiver Operating Characteristics)
Évaluation d’un test médical : compromis entre– Taux de vrais positifs (sensibilité médicale)– Taux de vrais négatifs (spécificité médicale)
Faux positifs
Vra
is p
osit
ifs
15 CAP’03
Aire sous la courbe ROC
Critère plus fiable que la précision (Ling, Huang, Zhang, AI’03)– Insensible à la distribution
– Indépendant des coûts d’erreur
De plus en plus utilisé en apprentissage supervisé – Ferry, Flach, Hernandez-Orallo, ICML’2002
– Mozer et al., NIPS’01
16 CAP’03
Algorithme, 1
Espace de recherche / espace des hypothèsesCombinaison linéaire des attributs
h(Ex) = i x atti (Ex) avec (Ex, +/-)
Qualité d’une hypothèse : Aire sous la courbe ROCh (risque(Ex), Etiq(Ex))Trier les exemples par risque croissant
++++-+---++-----+++-----------
+ : malade (exemple positif pour l’athérosclérose)- : sain (exemple négatif pour l’athérosclérose)
risque
17 CAP’03
Algorithme, 2
Critère à optimiser maximiser l’aire sous la courbe ROC
minimiser la somme des rangs des ex. positifs
h1: ++++++---- h2 : +++-+++--- h3 : ++-+-++-+-rang = 21 rang = 25 rang = 26
18 CAP’03
Algorithme, 3
Moteur d’optimisation– Stratégies d’évolution (utilisation d’EvolC)
Validation expérimentale– 2/3 apprentissage , 1/3 test– 21 exécutions indépendantes– Calcul de la courbe ROC médiane
19 CAP’03
Évaluation et courbe ROC
Courbe médiane, comparaison avec Machines à Vecteurs Supports
20 CAP’03
Évaluation et courbe ROCR
isqu
e
Normal
À risque
Pathologique
Individus triés par risque croissant
21 CAP’03
Analyse de sensibilité
Exploitation des 21 runs (algs. Stochastique)
22 CAP’03
Analyse d’impact le facteur tabac
ProcédureA = { 100 individus non fumeurs }
B = { 100 individus gros fumeurs }
Ordonner A et B par risque croissant
Tracer (i, risque(i))
23 CAP’03
Impact du tabac
24 CAP’03
Impact de l’alcool
25 CAP’03
Conclusion et perspectives
Mériter l’attention d’un expert médecin– Un algorithme stable– Des résultats précis et lisibles
La retenir– Explorer des hypothèses : que se passe-t-il si ?
• Je fige l’importance de l’alcool, de l’anamnèse familiale que devient l’importance de l’éducation ?
– Extension de comités d’experts– Apprendre la fonction d’intérêt de l’utilisateur