ARF R´ egression lin ´ eaire R´ egression logistique Descente de gradient Cours 2 ARF Master DAC Nicolas Baskiotis [email protected]http://webia.lip6.fr/ ˜ baskiotisn ´ equipe MLIA, Laboratoire d’Informatique de Paris 6 (LIP6) Universit ´ e Pierre et Marie Curie (UPMC) S2 (2016-2017) N. Baskiotis (LIP6, UPMC) ARF S2 (2016-2017) 1 / 19
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
ARF
Regression lineaireRegression logistiqueDescente de gradient
N. Baskiotis (LIP6, UPMC) ARF S2 (2016-2017) 2 / 19
Introduction
Regression lineaire
Objectif : predire une sortie continue reelle y a partir d’un nombre devariables d’entreebeaucoup d’applications, tres utilisee un peu dans tous les domainestres flexible (transformation des entrees)
20000 25000 30000 35000 40000 45000 50000 55000Revenu par menage
50000
100000
150000
200000
250000
300000
350000
400000
Prix
moy
en p
ar lo
gem
ent
N. Baskiotis (LIP6, UPMC) ARF S2 (2016-2017) 3 / 19
Formalisation
Objectif
Etant donne un ensemble {(xi, yi)} ∈ Rd × R,Hypothese : variation lineaire de la sortie en fonction des entrees
E(y|x) = w0 +
d∑i=1
wixi
⇒ On cherche :I une fonction fw(x) = w0 +
∑di=1 wixi
I qui fait le moins d’erreurs : f (xi) doit etre proche de yi
I sous la condition que l’erreur est independante de x, de variance σ2
constante, suit une loi normale.⇒ y|x ∼ N (f (x), σ2) (lien avec l’apprentissage bayesien)
N. Baskiotis (LIP6, UPMC) ARF S2 (2016-2017) 4 / 19
Formalisation (2)
Objectif
Minimiser :E(`(f (x), y)) =
∫x,y(y− f (x))2p(x, y)dxdy
Soit trouver w ∈ Rd+1 qui minimise :
n∑j=1
`(fw(x), y) =n∑
j=1
(yj − f (xj))2 =
n∑j=1
(yj − w0 −d∑
i=1
wixji)
2
N. Baskiotis (LIP6, UPMC) ARF S2 (2016-2017) 5 / 19
Quelques notations et rappels
ConvexiteC ensemble convexe de Rn : ∀x, y ∈ C,∀λ ∈ [0, 1], λx + (1− λ)y ∈ C∑
i λixi est une combinaison convexe ssi ∀i, λi ≥ 0 et∑
i λi = 1Enveloppe convexe d’un ensemble fini {xi}, i = 1 . . . n : toutes lescombinaisons convexes de l’ensembleFonction f : X → R convexe ssi
∀x, x′ ∈ X,∀λ ∈ [0, 1] tq λx + (1− λx′ ∈ X)
alors f (λx + (1− λ)x′) ≤ λf (x) + (1− λ)f (x′)
si λi ≥ 0 et∑
i λi = 1, alors f (∑
i λixi) ≤∑
i λif (xi) (inegalite de Jensen)
N. Baskiotis (LIP6, UPMC) ARF S2 (2016-2017) 6 / 19
Quelques notations et rappels
DifferentiabiliteSi f : X → R est convexe ssi ∀x, x′ ∈ X, f (x′) ≥ f (x)+ < x′ − x,∇f (x) >
Si f convexe, alors sa matrice hessienne est definie semi-positive :∇2f ≥ 0.
MinimumSi f atteint son minimum, alors les minimums forment un ensembleconvexe.Si l’ensemble est strictement convexe, le minimum est un singleton.Si f est strictement convexe, son gradient ne s’annule que a sonminimum local.
N. Baskiotis (LIP6, UPMC) ARF S2 (2016-2017) 7 / 19
Regression : solution analytique
FormalisationMinimiser :
E(`(f (x), y)) =∫
x,y(y− f (x))2p(x, y)dxdy
Soit trouver w ∈ Rd+1 qui minimise :
L(w) =
n∑j=1
`(fw(x), y) =n∑
j=1
(yj − f (xj))2 =
n∑j=1
(yj − w0 −d∑
i=1
wixji)
2
La fonction L : Rd+1 → R est convexe⇒ Solution analytique : annuler son gradient !⇒ Trouver w∗ tq ∇wL(w∗) = 0
N. Baskiotis (LIP6, UPMC) ARF S2 (2016-2017) 8 / 19
N. Baskiotis (LIP6, UPMC) ARF S2 (2016-2017) 9 / 19
Plan
1 Regression lineaire
2 Regression logistique
3 Descente de gradient
N. Baskiotis (LIP6, UPMC) ARF S2 (2016-2017) 10 / 19
Problematique
Classification binaireDeux classes : Y = {0,+1}, et un ensemble d’apprentissage{(xi, yi) ∈ Rd × Y}Peut-on utiliser un cout quadratique dans ce cas ?Cas 2D :
N. Baskiotis (LIP6, UPMC) ARF S2 (2016-2017) 11 / 19
Problematique
Classification binaireDeux classes : Y = {0,+1}, et un ensemble d’apprentissage{(xi, yi) ∈ Rd × Y}Peut-on utiliser un cout quadratique dans ce cas ?Cas 2D :