1 1 Fouille de données Fouille de données fonctionnelles fonctionnelles Gilbert Gilbert Saporta Saporta Chaire de Statistique Appliquée Chaire de Statistique Appliquée Conservatoire National des Arts et Métiers Conservatoire National des Arts et Métiers 292 Rue Saint Martin 292 Rue Saint Martin 75141 Paris Cedex 03 75141 Paris Cedex 03 [email protected][email protected]
39
Embed
Fouille de données fonctionnelles - LIPN · 2012. 7. 30. · 39 Références zCOHEN G. , 1999 Contribution à la prévision des processus aléatoires par l'analyse harmonique, Ph.D.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
11
Fouille de données Fouille de données fonctionnellesfonctionnelles
Gilbert Gilbert SaportaSaportaChaire de Statistique AppliquéeChaire de Statistique AppliquéeConservatoire National des Arts et MétiersConservatoire National des Arts et Métiers292 Rue Saint Martin292 Rue Saint Martin75141 Paris Cedex 0375141 Paris Cedex [email protected]@cnam.fr
22
INTRODUCTIONINTRODUCTION
Premiers travaux:Premiers travaux:
J. C. Deville J. C. Deville –– 19741974P.P. BesseBesse –– 19791979G.G. SaportaSaporta –– 19811981
Taille d’une familleTaille d’une famille t t années après le mariageannées après le mariageValeur boursiereValeur boursiere
Pour chaque Pour chaque tt
variable numérique:variable numérique:
Infinité non dénombrable de variables si t Infinité non dénombrable de variables si t ∈∈ [0;T][0;T]
(1)
( )
.
.
.
t
t
t n
x
x
x
⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟=⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠
55
PROCESSUS QUALITATIFPROCESSUS QUALITATIF
ExemplesExemples::
Phases Phases du sommeildu sommeilStatut socialStatut socialStatut matrimonialStatut matrimonial
A chaque instantA chaque instant ttvariablevariable nominale xnominale xtt àà m m catégories.catégories.
66
I ACP FONCTIONNELLEI ACP FONCTIONNELLE
XXtt centrécentréfonction de covariance:fonction de covariance:Opérateur de covarianceOpérateur de covariance CC
Combinaison linéaireCombinaison linéaire
( )2tX L T∈ Ω×
( ) ( ) ( )0
,T
f s C t s f s ds→∫
( , ) ( )t sC t s E X X=
0( )
T
tf t X dtξ = ∫
77
Opérateurs linéaires associés à Xt
UU
UU**
UU**°° UU = C= CUU °° UU* * =W=W
( ) ( )
( ) ( )
2 2
0
ΩT
t
L T L
f t X f t dt
→
→ ∫
( ) ( )( )
2 2Ω
t
L L T
Y E YX
→
→
( ) ( )2 2Ω ΩL L→ ( )0
T
t tY X E X Y dt→ ∫
88
I.1 Processus quasi I.1 Processus quasi –– deterministe deterministe
Même forme à une constanteMême forme à une constante prèsprès ξξii relative relative ààll’’individu iindividu i
( ) ( )t iX i f tξ=
-400
-300
-200
-100
0
100
200
300
400
500
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33
99
Tout processus peut être approchTout processus peut être approchéé par une par une somme de processus quasisomme de processus quasi ddééterministes.terministes.
ξξii(k(k))=coordonnée=coordonnée sur l’axesur l’axe kk
( )k kt
k
X f tξ# ∑
1010
Choix de la baseChoix de la base ffkk(t)(t)
Fonctions orthogonales de Fonctions orthogonales de LL22(T)(T)
Fourier par exemple:Fourier par exemple:
MAIS les MAIS les ξξk k sont corrélés. sont corrélés.
( ) ( )0
10
Tk l si k l
f t f t dtsi k l
=⎧= ⎨ ≠⎩
∫
( ) 2 2cos sink k t k tf t ouT Tπ π
= ( )0
Tk
k tX f t d tξ⇒ = ∫
1111
I.2 Décomposition de Karhunen I.2 Décomposition de Karhunen –– Loeve Loeve
Remarques: Remarques: Si le processus XSi le processus Xtt est périodique en moyenne est périodique en moyenne quadratique de période sous multiple de T : quadratique de période sous multiple de T : C(t,s+T/k)=C(t,s), alors la décomposition de C(t,s+T/k)=C(t,s), alors la décomposition de KarhunenKarhunen--Loeve est la décomposition de Loeve est la décomposition de Fourier avec valeurs propres doubles Fourier avec valeurs propres doubles associées à sin(2kassociées à sin(2kππt/T) et cos(2kt/T) et cos(2kππt/T)t/T)L’ordre des valeurs propres n’est pas celui des L’ordre des valeurs propres n’est pas celui des fréquences fréquences
SolutionsSolutions analytiques pour quelques processus bien connusanalytiques pour quelques processus bien connus(eg mouvement et pont brownien(eg mouvement et pont brownien motion)motion)
Pur n trajectoires:Pur n trajectoires:W W matricematrice n n ×× n (multidimensional scaling);n (multidimensional scaling);
wwijij se calcule facilement pour des processus de se calcule facilement pour des processus de sautssauts ⇒⇒ solutionssolutions exactes exactes ⇒⇒
Matrice diagonale de poidsMatrice diagonale de poidsméthode des rectangles:méthode des rectangles:
méthode des trapèzes:méthode des trapèzes:Simpson …Simpson …
( ) ( ) ( )0
,T
C t s f s ds f tλ=∫( ) ( ) ( )
0,
p
j j jt
C t t f t a f tλ=
=∑
( )CAf f tλ=1j j ja t t+= −
1 1 11 00 .....
2 2 2j j p p
j p
t t t tt ta a a+ − −− −−= = =
2424
Projection on a subspace Projection on a subspace EEpp
Convergence is proved if Convergence is proved if EEpp→→LL22
Step functionsStep functions
;t tX PX C PCP→ →
[ ]
( ) [ ]
,
;
t t
a
sa
Y X i f t a b
X f s d s i f t a b
= ∉
= ∈∫
( ) ( );t tV Y V X≤ ( ) ( ) ( ) ( )max ,b
a
V Yt C t s f s ds f tλ⇒ =∫
( ) 1f tb a
=−
a b
2525
( ) ( ) ( )b
t t s aba
V X V Y E X M ds− = −∫
2 2 supf
C C TM with C Cfε εΔ− ≤ + =
( )2tM E X>
12 2j j
TMλ λ ε εΔ− < +
12
2
2
22
j jf f T M
w h e re T M
ε εδ
δε ε
Δ 2 2− < +
+ <
2626
The The ““bestbest”” discretization discretization problem:problem:
If If XXtt brownianbrownian notion: N(0; notion: N(0; σσ22(t))(t))Best Best ΔΔ: fixed length intervals: fixed length intervals
Generalized to process with independent and Generalized to process with independent and stationary incrementsstationary increments
1i iTt t lp−− = =
( )211
0
6
pi i
i
t tfor ε
−+
=
−= ∑ ( )
2
3 16i il p pλ λ Δ− ≤ −
Min ε
2727
II. L’analyse harmonique II. L’analyse harmonique qualitativequalitative
(Deville, (Deville, Saporta Saporta 1979)1979)
Évolution d’une variable qualitative, trajectoires Évolution d’une variable qualitative, trajectoires d’un processus qualitatifd’un processus qualitatif
0 T
i1
i2
in state 1
state 2
state 3
state 4
2828
Cas généralCas général
XXtt tt∈∈[0; T][0; T]
Principe barycentrique en temps continu:Principe barycentrique en temps continu:
( )
0
0
1
1 1
T
t t
Tx x
i t tx
z X a d tT
z a i d tT
α
α
⎧=⎪
⎪⎨⎪ =⎪⎩
∫
∑∫1 '
tt t ta N X zα −= ( )1 , ....., nt t ta a a=
1
0
équa tion in tégra le1 T
tt ts s tN N a ds aT
λ− =∫
0
é q u a tio n m a tr ic ie lle1 T
tA d t z zT
λ⎡ ⎤
=⎢ ⎥⎣ ⎦∫
2929
«« Multidimensional scalingMultidimensional scaling » avec un indice de » avec un indice de présence présence –– rareté rareté
AAtt –– matrice de similaritématrice de similarité
Rassemblement de Rassemblement de toutestoutes les dates de changement d’étatles dates de changement d’état
AFCAFC
ApprochéeApprochéeDécomposer T en p périodes Décomposer T en p périodes Approximation par des fonctions constantes par intervallesApproximation par des fonctions constantes par intervalles
3131
Exemple (Deville 82):Exemple (Deville 82):French women married more than 3 timesFrench women married more than 3 timesn=423 m=4 single n=423 m=4 single tt∈∈[15; 45][15; 45]
kk--means, Ward etc. applicables sans means, Ward etc. applicables sans difficulté à des courbes dès que l’on a une difficulté à des courbes dès que l’on a une distance.distance.Processus numériquesProcessus numériques
D’autres distances sont possiblesD’autres distances sont possibles
( )2
2
0( ; ) ( ) ( )
T
i jd i j x t x t dt= −∫
3737
Espaces de SobolevEspaces de Sobolev
Conséquences inattendues d’un lissage ou d’une Conséquences inattendues d’un lissage ou d’une interpolation lissée quand il manque des interpolation lissée quand il manque des observations (Besse, 1979): observations (Besse, 1979): utiliser des splines de utiliser des splines de lissage revient à changer de métrique et donc d’espace lissage revient à changer de métrique et donc d’espace car c’est aussi faire des hypothèses de régularité car c’est aussi faire des hypothèses de régularité (dérivabilité..) sur le processus.(dérivabilité..) sur le processus.Interpoler revient à faire une transformation des Interpoler revient à faire une transformation des données donc implicitement des produits scalaires; données donc implicitement des produits scalaires; L’analyse n’est pas meilleure, elle est différente. L’analyse n’est pas meilleure, elle est différente.
3838
Développements et perspectives
Utiliser les composantes de l’ACP Utiliser les composantes de l’ACP fonctionnelle pour faire du supervisé fonctionnelle pour faire du supervisé
Mais moins bon que PLSMais moins bon que PLS
Plusieurs fonctions : fonctionnel vectoriel Plusieurs fonctions : fonctionnel vectoriel extension des méthodes 3extension des méthodes 3--way way
3939
Références
COHEN G. , 1999 Contribution à la prévision des processus aléatoires par l'analyse harmonique, Ph.D. CNAM Dabo-Niang S., Ferraty F. (2008): Functional and Operatorial Statistics, Springer-VerlagDEVILLE J.C., 1974, « Méthodes statistiques et numériques de l’analyse harmonique », Annales de l’INSEE 15, 3-101 DEVILLE J.C., SAPORTA G., 1979, « Analyse harmonique qualitative », Data Analysis and Informatics, E. Diday eds., North-Holland, 375-389 DEVILLE J.C., SAPORTA G., 1983, « Correspondence analysis, with an extension towards nominal time-series », Journal of Econometrics 22, 169-189 HEIJDEN PGM van der.,1987, Correspondence analysis of longitudinal categorical data, DSWO Press, Leiden PREDA C. , 1999, Analyse factorielle d’un processus, Ph.D. Université Lille 1RAMSAY, J.O. and SILVERMAN, B.W. ,2005: Functional Data Analysis. 2nd ed.SpringerRAMSAY, J.O. and SILVERMAN, B.W., 2002: Applied Functional Data Analysis. Methods and Case Studies. SpringerSAPORTA G., 1985, « Data analysis for numerical and categorical individual time-series », Applied Stochastic Models and Data Analysis vol.1., n°2, 109-119