Introduction Technologies des donn´ ees massives Exemples de la ”vraie” vie Apprentissage Statistique et Donn ´ ees Massives Philippe Besse Universit ´ e de Toulouse INSA – Dpt GMM Institut de Math ´ ematiques – ESP UMR CNRS 5219 Philippe Besse — CIRM 2016 Apprentissage et donn ´ ees massives
17
Embed
Apprentissage Statistique et Donnees Massives´ - math.univ …besse/pub/Besse-cirm-2016_appent-ma… · Big Data Croissanceexponentielle duVolume Variet´ e,´ Velocit´ e´ Valorisation
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
Apprentissage Statistiqueet
Donnees Massives
Philippe Besse
Universite de ToulouseINSA – Dpt GMM
Institut de Mathematiques – ESPUMR CNRS 5219
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
Motivations, objectifsEnjeux des donnees massivesNouvelle Science ?
Big Data
Croissance exponentielle du VolumeVariete, VelociteValorisation et analyse (ML)Passage a l’echelle VolumeMethodes d’apprentissage vs. Nouvelles technologies
Point de vue ”pedagogique”
De Statisticien a Data ScientistQuelles competences ?Quelques Exemples
Trajectoires GPSPhilippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
Motivations, objectifsEnjeux des donnees massivesNouvelle Science ?
Domaines et objectifs tres varies
E-commerce : recommandations et Reseaux sociauxPublique : administrations, sante et (open data)Recherche Meteo, Biologie, Astronomie...Industrie : defaillance, fraudes, maintenance...
Reellement massives ?Seuils technologiques (RAM,Disque)Preparation (munging) desdonnees (Python-pandas)Donnees distribuees :Hadoop distributed file system Ferme de donnees
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
Motivations, objectifsEnjeux des donnees massivesNouvelle Science ?
Realite ou confusion ?Aspects societaux et Datafication du quotidienbig data vs. big brother (NSA)Information / prevision de comportement moyen / individuelAssurances et asymetrie d’informationSegmentation vs. mutualisation des risques
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
Motivations, objectifsEnjeux des donnees massivesNouvelle Science ?
QuestionLa Science des donnees est-elle une Nouvelle Science ?
Volume et ”nouveaux” paradigmes
1990s MO Data Mining & Experimentation2000s GO Bioinformatique & Parcimonie (p >> n)2010s TO Science des donnees & Optimisation
Nouveau terme d’erreurErreur d’approximation vs. d’estimation (biais / variance)Erreur d’optimisation
Contrainte de ressources (temps, RAM, nb processeurs)Taille echantillon vs. temps d’execution & memoireMethodes disponibles pour donnees distribuees
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
Motivations, objectifsEnjeux des donnees massivesNouvelle Science ?
Nouveaux modeles economiquesEldorado de la pub en ligne (advertising)Cloud computing : SaaS, IaaS, PaaS, DaaS, ITaaS...
Marges sur materiels et logiciels (open source)Amazon (WS), Microsoft (Azure),Google cloud, IBM (Analytics), ...Python et Enthought, Continuum analyticsSpark (Databricks), H20 (Oxdata), RHadoop (RevolutionAnalytics – Microsoft)
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
Motivations, objectifsEnjeux des donnees massivesNouvelle Science ?
Nouvelles Methodes stat ou ML ?Hadoop et MapReduce pour paralleliserRetour vers le futur (SVD, k-means, logistique, RF...)Obligation de collaborer entre Maths, Info
Michael Jordan (SFdS 13/10/2015)GDR MADICS du CNRS (juin 2015)
Nouveaux problemes d’optimisationOptimisation convexe et parcimonie (Candes & Tao, 2010)Gradient stochastique (donnees distribuees ou en flux)Librairies d’algorithmes parallelises
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
Motivations, objectifsEnjeux des donnees massivesNouvelle Science ?
En resumeExemple d’Amazon Web Service Machine Learning
Utiliser une technologie d’apprentissage-machinepuissante sans avoir besoin de maıtriser les algorithmes ettechniques de l’apprentissage-machine (sic !)Cloud mais qu’avec modele lineaire ou logisticPenalisation Lasso, Ridge, mais ... manuelle
Science des donneesNouveau packagingNouveaux enjeuxExplosion de nouvelles technologiesProblemes d’optimisation
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
HDFS & HadoopMapReduce pour les nulsLogiciels
HadoopEnvironnement : Google puis ApacheHadoop Distributed File System (HDFS)Donnees heterogenes distribueesDistribution : Cloudera, Hortonworks, Oracle, IBM...Parallelisation : Map Reduce
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
HDFS & HadoopMapReduce pour les nulsLogiciels
Hadoop Distributed File System (HDFS)
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
HDFS & HadoopMapReduce pour les nulsLogiciels
Classification par centres mobiles (≈ k-means)
Definition d’une distance euclidienne (ou non : PAM)Algorithme de Forgy
Initialisation des k centresIteration des etapes MapReduce
Map : Affectation de chaque individu (valeur) au centre(clef) le plus procheReduce : Calcul des centres des individus de meme clefMise a jour des centres
Probleme : acces disques a chaque iterationSolution actuelle : Spark (Resilient Distributed Dataset)
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
HDFS & HadoopMapReduce pour les nulsLogiciels
Methodes echelonnables (scalable)
RHadoop : k-means, regression, regression logistique...MLlib de Spark : k-means, SVD, NMF (ALS), regressionlineaire et logistique avec penalisations, SVM lineaires,classifieur bayesien naıf, Arbre, Foret Aleatoire, BoostingFinalement peu de methodesMais passage direct a l’echelle ”volume”
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
HDFS & HadoopMapReduce pour les nulsLogiciels
Implementations des forets aleatoires
Python (scikit-learn) equivalente a R(randomForest)ntree, mtryMLlib de Spark
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
”Big Data” et signal faibleQuelle methode × technologie ?Conclusion
Donnees massives et ”information”Compenser un signal faible (sismique inverse)Representativite
Fiasco de Google flu trendExhaustivite et mesure d’audience (Mediametrie)Philippe Tassi (SFdS 13/10/2015)
Qualite des variables (features)Million Song Dataset : benchmark de Databricks
Base UCI — Credit : Databricks — Annee observee vs. predite
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
”Big Data” et signal faibleQuelle methode × technologie ?Conclusion
Methode × Technologie
Criteo (advertising) : regression logistique et group lassoTinyclues (profilage) : factorisation non negativeCDiscount (categorisation) : regressions logistiquesDeepki (batiments) : random forest et boostingAirbus (essais en vol) : archivage Hadoop (Oracle)IRT Saint-Exupery (images satellites) : boosting (Spark)
Philippe Besse — CIRM 2016 Apprentissage et donnees massives
IntroductionTechnologies des donnees massives
Exemples de la ”vraie” vie
”Big Data” et signal faibleQuelle methode × technologie ?Conclusion
ConclusionPlatform as a service Amazon WS : +50% par anSoftware as a Service : Watson, AWS ML, tensor flow...Hadoop Spark MLlibDomaines en developpement perenne, d’autres pas...Gartner Hype Cycle : Trough of Disillusionment of MLSelection ”naturelle” des technologies
Philippe Besse — CIRM 2016 Apprentissage et donnees massives