© Soft Computing – www.softcomputing.com Big Data by Soft Computing Big Data, tout le monde en parle… Soft Computing le pratique au quotidien : concepts, outils, applications marketing, retours d’expérience. 12/06/2015
Jul 29, 2015
© Soft Computing – www.softcomputing.com
Big Data by Soft Computing
Big Data, tout le monde en parle… Soft Computing le pratique au quotidien : concepts, outils, applications marketing, retours d’expérience.
12/06/2015
© 4
SOMMAIRE Sommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 5
Compétences Interlocuteurs Prestations Modalités Marchés
Data
Science
Information
Technologies
Direction Digital,
Marketing, Data
IT
AMOA
Think
Build
Run
Délégation
d’expertise
Mode projet
Centre de
services
Digital
Marketing
Clients : 80% des
F500 Français
12 pays servis
Expertises
Sectorielles
Retail
Finance Services
Industrie
Carte d’identité : spécialiste Digital, Big Data & CRM
Spécialiste
Digital : 12,6 M€
Big Data: 11 M€
CRM: 14,5 M€
© 8
Du vécu métier
2003 2015 Web mining
15 M Clients
5 ans
Recommandations
Temps réel
Réseaux
d’influence
Analyse de
sentiments
50 To+
© 11
SOMMAIRE Sommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 13
Défi technique #2 : sortir de la quadrature du triangle
2005 2015
Disponibilité
« Les données sont toujours accessibles »
Tolérance
« seul la panne totale interromp »
Cohérence
« Les commits rendent
l’ensemble des données
cohérentes »
Disponibilité
« Les données sont toujours accessibles »
Tolérance
« seul la panne totale interromp »
Cohérence
« Les commits rendent
l’ensemble des données
cohérentes »
Commit en
2 phases
© 14
Défi technique #3 : exécuter tout calcul en moins de 0,14
secondes
2005 2015
Trading Desk
(ATD)
Editeur de
site
Demand Side
Platform
(DSP)
Ad exchange
(Adex)
Supply Side
Platform
(SSP)
Annonceur
ou Agence
média
Ad Server de
l’éditeur ou
Ad network
RTB &
programmati
que
© 16
Un segment (sur?) peuplé
Xaas
Hardware
Projets Open Source Distributions
Données Analyse Visualisation Application
EMR Bigquery
Professionnal services (tec & biz)
© 17
Les grandes familles NoSQL
SQL
Cohérence indispensable
Relationnel
Oracle, SQL Server, DB2…
Clé-valeur
Structure simple
Stockage clé valeur
Dynamodb, Redis, Riak, MS Azure table, Oracle
NoSQL
Colonnes
Analytique
Stockage en colonne pour des
recherches rapides
Bigtable, Cassandra,
Hbase, Hadoop
Document
Structure complexe, temps
de réponse
Clé-valeur avec de multiples
attributs (semi-structuré (XML…)
Couchdb, Mongodb
Autres
Hérarchiques (ldap…), Graph (Neoj4…), OODB
(Versant…)
Principes techniques :
• Shared-nothing
• Schemaless
• Interfaces Restful simples
Avantages :
• Evolutivité des schémas
• Scalabilité horizontale
• Protocoles simples
Inconvénients :
• Requêtes plus complexes
• Pas de cohérence garantie
• Pas de clé unique garantie
© 18
Les caractéristiques communes
Nosql
Non-relationnel
Evolutivité horizontale
Traitement distribué
Débit rapide
Matériel banalisé
Haute disponibilité
Tolérance
Cohérence éventuelle
© 19
Trouver un nouvel équilibre
« Since the inception of ebay,
not a single data was
deleted ! »
Meg Whitman, DG eBay
« Toute donnée stockée doit
être justifiée par un
traitement »
Mon DSI
« Où mettre le
curseur entre ces
deux extrêmes ? »
© 20
SOMMAIRE Sommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 22
Démocratisation hardware
5 nœuds
1 namenode, 20 cœurs, 192 Go ram
4 datanodes, 64 cœurs, 64 Gb ram, 10 To DD
© 29
Impact sur les usages : notre synthèse
+
Données Détail
Temps réel
Prédictif
Non-structuré
Ouvert sur l’extérieur
Autonome
Hybride
© 30
Données Détail
Elément de structure
Région Segment
Bonne gamme
Client
Mr XXX Contrat
Compte courant
Ecriture
Code commerçant
© 31
Décisionnel
analytique
Temps réel
Transaction
opérationnelle
Evénements
Traitement
métier
Stockage
données
Interception à
la source
Analyse
Ex : page vue, ….
Ex : display Résultats Alerte Ex : RTB
© 32
Non-structuré
Streams sociaux Weblogs Capteurs E-mails
Détail transactions Pages web Documents scannés Trace GPS
Données boursières Enregistrements
téléphoniques
Video-surveillance Données d’usage
© 34
Hybride Syst
èm
es
sourc
es
Syst
èm
es
bancair
es
de p
roducti
on
Exte
rnes
ETL Appliance
Entrepôt
Vision unique
du client
Datamarts
Sandbox
Entrepôt Hadoop
Usages
Reporting
Tableaux de
bord
Cubes OLAP
Statistique
(SAS...)
Systèmes
front-end
Base
métier
Données de référence
Synthèses transactions
Données externes
structurées
Données externes
peu structurées
Données
volumétrie importante
Réintégration données
après pré-traitement
Sa
s d
e
sé
cu
rité
Accès A
ccès
Acc
ès
Données externes
à la demande
Eléments de ciblage (dont scores)
Extractions Métiers (dont scores, segmentations...)
Base
métier
Base
métier
Base
métier
Base
métier
Base
métier
Web Services
Services temps réel
À destination des front-end
© 35
SOMMAIRE Sommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 36
Les nouveaux besoins d’analyse
Améliorer la performance
de détection / de prévision
avec des données exogènes
Agilité, pertinence, auto
apprentissage
Personnalisation one to one Identifier et optimiser les
parcours omnicanaux
© 37
Les nouvelles méthodologies utilisées
Random Forest
Boosting Gradient
Machine
Textmining/
Voicemining
Réseau Bayesien
Support Vector
Machines
Sequential Pattern
Analysis
© 38
SOMMAIRE Sommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 39
Où est quoi : architecture générale
Big data : données
chaudes
Big data : données
froides
Dataware : données
structurées
A
gré
gats
de s
ignaux f
ort
s
D
onnées
CRM
& m
ém
oir
e c
ourt
e
Historique
Prédictif
Données CRM
Prédictif & signaux forts
© 41
Outillage : exemples
Query BI Dataviz Statistique Machine
learning
Script Langage Environne
ment
Couche d’accès
© 42
Connecteurs
Loader
Couche d’accès
Query
Sto
cker
Explo
rer
Transf
orm
er
Modélise
r Appliquer
BI Dataviz Statistique Machine
learning
Script Langage Environne
ment
Fonctions * outillage
© 43
Compétences * fonctions
Marketing Datascience Programmation
Stocker
Explorer
Transformer
Modéliser
Appliquer
© 44
SOMMAIRE Sommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 46
Solution fonctionnelle
Prototyper l’algorithme de
substitution
Produire la matrice
d’association
Suivre et optimiser la
performance l’algorithme
Proposer des susbstitutions
Intégrer l’algorithme de
substitution
Développer l’algorithme de
substitution
algorithme
Algorithme
« industrialisé »
Matrice
d’association
Historique des propositions
Référentiels
produit
Scan list
Programme
de production des
matrices
d’associations
Hub
Produits
éligibles
EAN
substituts
© 47
Architecture
Lab data Large Data Fast Data
Prototyper l’algorithme de
substitution
Produire la matrice
d’association
Suivre et optimiser la
performance l’algorithme
Proposer des substitutions
Intégrer l’algorithme de
substitution
Développer l’algorithme de
substitution
© 49
Planning
Run
Initialisation du centre de services
Conception et réalisation « large »
Maintenance
Monitoring applications
Administration
Gestion des projets de setup
Gestion du centre de services Program Management
Gestion des projets d’évolutions
Busi
ness
IT
G
est
ion d
e p
roje
t et
de s
erv
ices
Setup
Sprints algorithme sur le
« lab »
Mise en place
architecture
Définition du SLA
Conception et réalisation « fast »
Tests
Sprints d’amélioration algorithme sur le « lab »
Surveillance de la santé de l’algorithme « lab »
Infr
a
Hard & soft
Hébergement et monitoring
Data
exploration
M1 M2 M3 M4 M5
© 50
SOMMAIRE Sommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 51
R.O.I.
Connaissance Datamining
Assortiments en magasins
Rapports
Rapports industriels
Données : vision 360° client et produit
Campagnes ciblées
Technologies
1
2
3
4
Business Driven