Apprentissage statistique et Big Data, focus sur l’algorithme online-EM Olivier Capp´ e Laboratoire Traitement et Communication de l’Information CNRS, T´ el´ ecom ParisTech, 75013 Paris 8 octobre 2013 0. Capp´ e (LTCI) Journ´ ee de rencontre BIG DATA 8 octobre 2013 1 / 34
34
Embed
Apprentissage statistique et Big Data, focus sur l ... · Apprentissage statistique Quelques id ees sur l’apprentissage statistique Je m’int eresse aux approches statistiques
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Apprentissage statistique et Big Data, focus surl’algorithme online-EM
Olivier Cappe
Laboratoire Traitement et Communication de l’InformationCNRS, Telecom ParisTech, 75013 Paris
8 octobre 2013
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 1 / 34
Apprentissage statistique
1 Apprentissage statistique
2 Big Data
3 Online EM
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 2 / 34
Apprentissage statistique
L’apprentissage automatique
Apprentissage automatique (machine learning)
Apprendre a effectuer des taches a partir d’exemples
De facon supervisee Avec des exemples de donnees et de resultatssouhaites↪→ Classification
De facon non supervisee Avec uniquement des exemples de donnees↪→ Clustering
De facon sequentielle En traitant un flux de donnees de facon causale↪→ Prediction sequentielle
Par extension, problemes dont le traitement presente des analogies avec cequi precede↪→ Regression en grande dimension
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 3 / 34
Apprentissage statistique
Quelques idees sur l’apprentissage statistique
Je m’interesse aux approches statistiques de l’apprentissage
1 Comme en statistique usuelle j’utilise un modele probabiliste desdonnees
par exemple, Y = f(x)β + ε, avec ε aleatoire
2 Mais ce qui m’interesse c’est predire | classifier | reconstruire plusqu’estimer
predire Y ′ par f(x′)β pour un nouvel x′
plus que β en lui meme
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 4 / 34
Apprentissage statistique
Quelques idees sur l’apprentissage statistique . . .
3 D’autant plus que je crois que le modele utilise est instrumental(probablement faux)
on doit avoir Y = F(x) + ε, avec F assez compliquee
4 De ce fait, j’ai interet a faire croıtre la complexite du modele avecle nombre de donnees disponibles
si j’observe Y1, . . . , Yn, j’utilise plutot le modele
Yi =
kn∑j=1
fj(xi)βj + εi, ou kn ↑ avec n
5 Le choix / selection de modele est crucial
choisir kn pour quekn∑j=1
fj(x′)βj soit le plus proche de Y ′
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 5 / 34
Apprentissage statistique
Quelques idees sur l’apprentissage statistique . . . . . .
6 L’optimisation est un outil central
β = argminβ‖Y − xβ‖2 plutot que β = (xTx)−1xTY
de facon a penser a argminβ:‖β‖1≤λ
‖Y − xβ‖2
qu’il va falloir resoudre numeriquement. . .
7 Comme les modeles sont faux j’ai interet a les combiner
J’estime β1, . . . , βk separement dans les
modeles Y = f1(x)β1 + ε, . . . , Y = fk(x)βk + ε,
j’utilise l’ensemble {f1(x′)β1, . . . , fk(x′)βk} pour predire Y ′
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 6 / 34
Apprentissage statistique
Quelques idees sur l’apprentissage statistique . . . . . . . . .
8 L’approche bayesienne permet de retrouver beaucoup des methodesprecedentes (kn ↑ n, ‖β‖1 ≤ λ, {f1(x′)β1, . . . , fk(x
′)βk}) ainsi que
certaines de leurs variantes
J’imagine que β (voire k) est une variable aleatoire
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 7 / 34
Big Data
1 Apprentissage statistique
2 Big DataQuelques idees generalesQuelques idees de modelisation
3 Online EM
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 8 / 34
Big Data
Il est trop tard pours’interroger sur l’opportunitedu Big∗ Data. . .
Neanmoins son potentielreste assez largementspeculatif
∗ Suffisamment grand pour esperer repondre a des questions complexes
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 9 / 34
Big Data Quelques idees generales
Un phenomene qui impacte aussi la science
Big DataWeb, reseaux sociaux, commerce enligne, systemes d’informationd’entreprise. . .
mais aussi
Sciences du vivant, sciences duclimat, physique des particules,sciences humaines, . . .
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 10 / 34
Big Data Quelques idees generales
Vers une “science des donnees” ?
Experience JEM-EUSO Capteur de 2.105 pixels / 2.5µs pour detecter une centaine de
particules de tres haute energie par jour (source Balazs Kegl, LAL/LRI)
↪→ detecteur obtenu par des methodes d’apprentissage statistique(boosting) a partir de donnees preliminaires et de simulations
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 11 / 34
Big Data Quelques idees generales
Une demande tres forte sur l’enseignement
Qui mele des competences en mathematiques appliquees (statistiques,optimisation) et en informatique
L’exemple du Master specialise Big Data a Telecom ParisTech (Stephan Clemencon)
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 12 / 34
Big Data Quelques idees generales
Modelisation et Big Data
Il est necessaire (et utile) de modeliser le Big Data
If you cannot solve the proposedproblem, try to solve first somerelated problem. Could you imaginea more accessible related problem?
George Polya,How to Solve It (1945)
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 13 / 34
Big Data Quelques idees de modelisation
Grand n, grand p
Plus de donnees
mais aussi plus de statistiques!
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 14 / 34
Big Data Quelques idees de modelisation
Grand n, grand p
On imagine une sequence d’experiences dans lesquelles les nombresd’observations et de variables explicatives augmentent simultanement
VARIABLES p
OB
SE
RV
AT
ION
S n
. . .
VARIABLES p
OB
SE
RV
AT
ION
S n
Pour modeliser certaines situations (experience “Microarray” engenomique), il est possible de considerer aussi des cas ou p > n
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 15 / 34
Big Data Quelques idees de modelisation
“Lois” de Zipf
Rare n’est pas synonyme d’ininteressant
Comment echantillonner les donnees ?
Peut on construire (avec une complexite acceptable) des resumesexhaustifs des donnees ?
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 16 / 34
Big Data Quelques idees de modelisation
Controle du taux de faux positifs
Q: olivier cappe big data
Q: olivier cappe big data toulouse
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 17 / 34
Big Data Quelques idees de modelisation
Compromis performance / robustesse / calcul
Le volume de donnees necessite de reduire la complexite des traitementsIdees : Algorithmes sous optimaux, utilisation de resumesdes donnees. . .
− Regression sous-echantillonnee en observations
et en predicteurs
− Regressions marginales
Le calcul n’est plus une abstractionContraintes : structure des ressources de calcul, acces auxdonnees
Algorithmes online, distribues
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 18 / 34
A l’etape k, etant donne l’estime courant θkn du parametre
Etape E Calculer
qn,θkn(θ) =
n∑t=1
Eθkn [ log pθ(Xt, Yt)|Yt]
Etape M Mettre a jour l’estime du parametre
θk+1n = arg max
θ∈Θqn,θkn(θ)
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 22 / 34
Online EM L’algorithme EM
Principe
1 C’est un algorithme MM (maximisation d’un minorant) de parl’inegalite de Jensen
Figure: La quantite intermediaire de l’EM minore localement la log-vraisemblance
2 Qui ne peut s’arreter qu’en un point stationnaire de lalog-vraisemblance (du fait de la relation dite de Fisher)
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 23 / 34
Online EM L’algorithme EM
L’algorithme EM n’a pas un comportement satisfaisantlorsque n est grand
Le cout de calcul (et de stockage) del’algorithme EM (pour un nombrefixe d’iteration) est proportionnel a npour un resultat qui ne s’ameliorepas quand n ↑ ∞
as one observation (with m of the order of a few k documents)
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 31 / 34
Online EM Applications
Large-scale probabilistic sequence alignment
Streaming fragment assignment for real-time analysis of sequencing experiments,
Adam Roberts & Lior Pachter, Nature, 2013
Context High-throughput sequencingexperiments in biology
Task Learn parameters of probabilisticmodels for sequence alignments(finite-valued sequences withinsertion/deletion/substitutionprobabilities) from 10M sequencefragments (reads) with 10k targetsequences (transcripts)
Note that the actual goal is the retrospective probabilistic sequenceassignment (E-step)
Use a single pass of online EM through all the data, followed by a fewmore batch EM steps
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 32 / 34
Online EM References
Roberts, A. & Pachter, L. (2013). Streaming fragment assignment for real-timeanalysis of sequencing experiments. Nature.
Cappe, O. (2011). Online EM algorithm for hidden Markov models. J. Comput.Graph. Statist.
Cappe, O. (2011). Online Expectation-Maximisation. In Mixtures, Wiley.
Rohde, D. & Cappe, O. (2011). Online maximum-likelihood estimation for latentfactor models. IEEE Statistical Signal Processing Workshop.
Liang, P. & Klein, D. (2009). Online EM for Unsupervised Models. NAACLConference.
Cappe, O. & Moulines, E. (2009). On-line expectation-maximization algorithm forlatent data models. J. Roy. Statist. Soc. B.
Sato, M. & Ishii, S. (2000). On-line EM algorithm for the normalized Gaussiannetwork. Neural Computation.
Sato, M. (2000). Convergence of on-line EM algorithm. International Conferenceon Neural Information Processing.
Neal, R. M. & Hinton, G. E. (1999). A view of the EM algorithm that justifiesincremental, sparse, and other variants. In Learning in graphical models, MITPress.
Titterington, D. M. (1984). Recursive parameter estimation using incompletedata. J. Roy. Statist. Soc. B.
0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 33 / 34
F I N
1 Apprentissage statistique
2 Big DataQuelques idees generalesQuelques idees de modelisation