Top Banner
© Soft Computing www.softcomputing.com Big Data by Soft Computing Big Data, tout le monde en parle… Soft Computing le pratique au quotidien : concepts, outils, applications marketing, retours d’expérience. 12/06/2015
54
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Big Data by Soft Computing - Lille

© Soft Computing – www.softcomputing.com

Big Data by Soft Computing

Big Data, tout le monde en parle… Soft Computing le pratique au quotidien : concepts, outils, applications marketing, retours d’expérience.

12/06/2015

Page 2: Big Data by Soft Computing - Lille

© 3

Merci de votre présence

Sylvain BELLIER

Directeur du pôle Marketing

Services Soft Computing

Page 3: Big Data by Soft Computing - Lille

© 4

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

Page 4: Big Data by Soft Computing - Lille

© 5

Compétences Interlocuteurs Prestations Modalités Marchés

Data

Science

Information

Technologies

Direction Digital,

Marketing, Data

IT

AMOA

Think

Build

Run

Délégation

d’expertise

Mode projet

Centre de

services

Digital

Marketing

Clients : 80% des

F500 Français

12 pays servis

Expertises

Sectorielles

Retail

Finance Services

Industrie

Carte d’identité : spécialiste Digital, Big Data & CRM

Spécialiste

Digital : 12,6 M€

Big Data: 11 M€

CRM: 14,5 M€

Page 5: Big Data by Soft Computing - Lille

© 6

Big Data : ça reste à mode

Page 6: Big Data by Soft Computing - Lille

© 7

Oui, mais on aborde la vallée des désillusions

Big Data

Page 7: Big Data by Soft Computing - Lille

© 8

Du vécu métier

2003 2015 Web mining

15 M Clients

5 ans

Recommandations

Temps réel

Réseaux

d’influence

Analyse de

sentiments

50 To+

Page 8: Big Data by Soft Computing - Lille

© 9

Du recul aussi sur le plan technique

Page 9: Big Data by Soft Computing - Lille

© 10

Mais également de l’humilité…

Page 10: Big Data by Soft Computing - Lille

© 11

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

Page 11: Big Data by Soft Computing - Lille

© 12

Défi technique #1 : se préparer à gérer des volumes inimaginables

2005 2015

Page 12: Big Data by Soft Computing - Lille

© 13

Défi technique #2 : sortir de la quadrature du triangle

2005 2015

Disponibilité

« Les données sont toujours accessibles »

Tolérance

« seul la panne totale interromp »

Cohérence

« Les commits rendent

l’ensemble des données

cohérentes »

Disponibilité

« Les données sont toujours accessibles »

Tolérance

« seul la panne totale interromp »

Cohérence

« Les commits rendent

l’ensemble des données

cohérentes »

Commit en

2 phases

Page 13: Big Data by Soft Computing - Lille

© 14

Défi technique #3 : exécuter tout calcul en moins de 0,14

secondes

2005 2015

Trading Desk

(ATD)

Editeur de

site

Demand Side

Platform

(DSP)

Ad exchange

(Adex)

Supply Side

Platform

(SSP)

Annonceur

ou Agence

média

Ad Server de

l’éditeur ou

Ad network

RTB &

programmati

que

Page 15: Big Data by Soft Computing - Lille

© 17

Les grandes familles NoSQL

SQL

Cohérence indispensable

Relationnel

Oracle, SQL Server, DB2…

Clé-valeur

Structure simple

Stockage clé valeur

Dynamodb, Redis, Riak, MS Azure table, Oracle

NoSQL

Colonnes

Analytique

Stockage en colonne pour des

recherches rapides

Bigtable, Cassandra,

Hbase, Hadoop

Document

Structure complexe, temps

de réponse

Clé-valeur avec de multiples

attributs (semi-structuré (XML…)

Couchdb, Mongodb

Autres

Hérarchiques (ldap…), Graph (Neoj4…), OODB

(Versant…)

Principes techniques :

• Shared-nothing

• Schemaless

• Interfaces Restful simples

Avantages :

• Evolutivité des schémas

• Scalabilité horizontale

• Protocoles simples

Inconvénients :

• Requêtes plus complexes

• Pas de cohérence garantie

• Pas de clé unique garantie

Page 16: Big Data by Soft Computing - Lille

© 18

Les caractéristiques communes

Nosql

Non-relationnel

Evolutivité horizontale

Traitement distribué

Débit rapide

Matériel banalisé

Haute disponibilité

Tolérance

Cohérence éventuelle

Page 17: Big Data by Soft Computing - Lille

© 19

Trouver un nouvel équilibre

« Since the inception of ebay,

not a single data was

deleted ! »

Meg Whitman, DG eBay

« Toute donnée stockée doit

être justifiée par un

traitement »

Mon DSI

« Où mettre le

curseur entre ces

deux extrêmes ? »

Page 18: Big Data by Soft Computing - Lille

© 20

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

Page 19: Big Data by Soft Computing - Lille

© 21

Big data 2015

Démocratisation

Page 20: Big Data by Soft Computing - Lille

© 22

Démocratisation hardware

5 nœuds

1 namenode, 20 cœurs, 192 Go ram

4 datanodes, 64 cœurs, 64 Gb ram, 10 To DD

Page 21: Big Data by Soft Computing - Lille

© 23

Démocratisation : stockage

Page 22: Big Data by Soft Computing - Lille

© 24

Démocratisation : outils de datavisualisation

Page 23: Big Data by Soft Computing - Lille

© 25

Démocratisation : de plus en plus de données en libre service

Page 24: Big Data by Soft Computing - Lille

© 26

Démocratisation : de plus en plus de données à coût modique

Page 25: Big Data by Soft Computing - Lille

© 27

Démocratisation : analytique ML en cloud

Page 26: Big Data by Soft Computing - Lille

© 28

Démocratisation : ML « as a service »

Page 27: Big Data by Soft Computing - Lille

© 29

Impact sur les usages : notre synthèse

+

Données Détail

Temps réel

Prédictif

Non-structuré

Ouvert sur l’extérieur

Autonome

Hybride

Page 28: Big Data by Soft Computing - Lille

© 30

Données Détail

Elément de structure

Région Segment

Bonne gamme

Client

Mr XXX Contrat

Compte courant

Ecriture

Code commerçant

Page 29: Big Data by Soft Computing - Lille

© 31

Décisionnel

analytique

Temps réel

Transaction

opérationnelle

Evénements

Traitement

métier

Stockage

données

Interception à

la source

Analyse

Ex : page vue, ….

Ex : display Résultats Alerte Ex : RTB

Page 30: Big Data by Soft Computing - Lille

© 32

Non-structuré

Streams sociaux Weblogs Capteurs E-mails

Détail transactions Pages web Documents scannés Trace GPS

Données boursières Enregistrements

téléphoniques

Video-surveillance Données d’usage

Page 31: Big Data by Soft Computing - Lille

© 33

Autonome

Page 32: Big Data by Soft Computing - Lille

© 34

Hybride Syst

èm

es

sourc

es

Syst

èm

es

bancair

es

de p

roducti

on

Exte

rnes

ETL Appliance

Entrepôt

Vision unique

du client

Datamarts

Sandbox

Entrepôt Hadoop

Usages

Reporting

Tableaux de

bord

Cubes OLAP

Statistique

(SAS...)

Systèmes

front-end

Base

métier

Données de référence

Synthèses transactions

Données externes

structurées

Données externes

peu structurées

Données

volumétrie importante

Réintégration données

après pré-traitement

Sa

s d

e

cu

rité

Accès A

ccès

Acc

ès

Données externes

à la demande

Eléments de ciblage (dont scores)

Extractions Métiers (dont scores, segmentations...)

Base

métier

Base

métier

Base

métier

Base

métier

Base

métier

Web Services

Services temps réel

À destination des front-end

Page 33: Big Data by Soft Computing - Lille

© 35

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

Page 34: Big Data by Soft Computing - Lille

© 36

Les nouveaux besoins d’analyse

Améliorer la performance

de détection / de prévision

avec des données exogènes

Agilité, pertinence, auto

apprentissage

Personnalisation one to one Identifier et optimiser les

parcours omnicanaux

Page 35: Big Data by Soft Computing - Lille

© 37

Les nouvelles méthodologies utilisées

Random Forest

Boosting Gradient

Machine

Textmining/

Voicemining

Réseau Bayesien

Support Vector

Machines

Sequential Pattern

Analysis

Page 36: Big Data by Soft Computing - Lille

© 38

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

Page 37: Big Data by Soft Computing - Lille

© 39

Où est quoi : architecture générale

Big data : données

chaudes

Big data : données

froides

Dataware : données

structurées

A

gré

gats

de s

ignaux f

ort

s

D

onnées

CRM

& m

ém

oir

e c

ourt

e

Historique

Prédictif

Données CRM

Prédictif & signaux forts

Page 38: Big Data by Soft Computing - Lille

© 40

Cohabitation Datawarehouse et big data

Connecteurs

SQL

Loader

(import/export)

Page 39: Big Data by Soft Computing - Lille

© 41

Outillage : exemples

Query BI Dataviz Statistique Machine

learning

Script Langage Environne

ment

Couche d’accès

Page 40: Big Data by Soft Computing - Lille

© 42

Connecteurs

Loader

Couche d’accès

Query

Sto

cker

Explo

rer

Transf

orm

er

Modélise

r Appliquer

BI Dataviz Statistique Machine

learning

Script Langage Environne

ment

Fonctions * outillage

Page 41: Big Data by Soft Computing - Lille

© 43

Compétences * fonctions

Marketing Datascience Programmation

Stocker

Explorer

Transformer

Modéliser

Appliquer

Page 42: Big Data by Soft Computing - Lille

© 44

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

Page 43: Big Data by Soft Computing - Lille

© 45

Exemple de problématique

Page 44: Big Data by Soft Computing - Lille

© 46

Solution fonctionnelle

Prototyper l’algorithme de

substitution

Produire la matrice

d’association

Suivre et optimiser la

performance l’algorithme

Proposer des susbstitutions

Intégrer l’algorithme de

substitution

Développer l’algorithme de

substitution

algorithme

Algorithme

« industrialisé »

Matrice

d’association

Historique des propositions

Référentiels

produit

Scan list

Programme

de production des

matrices

d’associations

Hub

Produits

éligibles

EAN

substituts

Page 45: Big Data by Soft Computing - Lille

© 47

Architecture

Lab data Large Data Fast Data

Prototyper l’algorithme de

substitution

Produire la matrice

d’association

Suivre et optimiser la

performance l’algorithme

Proposer des substitutions

Intégrer l’algorithme de

substitution

Développer l’algorithme de

substitution

Page 46: Big Data by Soft Computing - Lille

© 48

Lab data Large Data Fast Data

Page 47: Big Data by Soft Computing - Lille

© 49

Planning

Run

Initialisation du centre de services

Conception et réalisation « large »

Maintenance

Monitoring applications

Administration

Gestion des projets de setup

Gestion du centre de services Program Management

Gestion des projets d’évolutions

Busi

ness

IT

G

est

ion d

e p

roje

t et

de s

erv

ices

Setup

Sprints algorithme sur le

« lab »

Mise en place

architecture

Définition du SLA

Conception et réalisation « fast »

Tests

Sprints d’amélioration algorithme sur le « lab »

Surveillance de la santé de l’algorithme « lab »

Infr

a

Hard & soft

Hébergement et monitoring

Data

exploration

M1 M2 M3 M4 M5

Page 48: Big Data by Soft Computing - Lille

© 50

SOMMAIRE Sommaire

1. Introduction

2. Big Data : le décor

3. Big Data : quoi de neuf ?

4. Analyses : évolutions des usages et méthodes

5. Organisation et outillage

6. Illustration sur un cas concret

7. Pour conclure

Page 49: Big Data by Soft Computing - Lille

© 51

R.O.I.

Connaissance Datamining

Assortiments en magasins

Rapports

Rapports industriels

Données : vision 360° client et produit

Campagnes ciblées

Technologies

1

2

3

4

Business Driven

Page 50: Big Data by Soft Computing - Lille

© 52

Best-of-breed intégré et verticalisé avec IBM

Outils

Page 51: Big Data by Soft Computing - Lille

© 53

Cibler des R.O.I. < 6 mois

Page 52: Big Data by Soft Computing - Lille

© 54

Reconsidérer chaque

année les ROI : les

barrières à l’entrée

baissent toujours plus

Page 53: Big Data by Soft Computing - Lille

© 55

Offre de services

S ensibilisation

tratégie

andbox

R oadmap

ollout

un

Page 54: Big Data by Soft Computing - Lille

© 56