Top Banner
BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr Big Data l Analytics l DataViz Introduction aux technologies Big Data
42
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Meetup intro techno big data

BIG DATA l ANALYTICS l DATAVIZ

www.data-business.fr

Big Data l Analytics l DataViz

Introduction aux technologiesBig Data

Page 2: Meetup intro techno big data

2Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014

Cheminement du cours

Volume

Variété2

Vitesse3

Eco-System Hadoop4

1

Page 3: Meetup intro techno big data

3BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Cette année nous fêtons les 80 ans de l’informatique

• 1934 : Alan Turing

• 1968 : Intel

• 1972 : Internet

• 1977 : Oracle

• 1992 : Internet = 1 million de PCs

• 1995 : MySQL / PostGreSQL

• 1996 : Internet = 36 millions de PCs

• 2000 : Internet = 360 millions de Pcs

• 2007 : Iphone

• 2015 : 2 milliards de smartphones

• 2020 : 50 milliards d’objets connectés ?

Limit MySQL PostGreSQL MongoDB OracleDatabase Size Limité par l'OS Unlimited 128 TB

Table Size 16 TB 32 TB Row Size 65 000 bytes 1.6 TB Field Size … 0,06Mb 1 GB 16 Mb

Rows per Table illimiteds Unlimited 4b or illimited Columns per Table 85 250 - 1600 Indexes per Table Unlimited unlimited

Page 4: Meetup intro techno big data

4BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

% de personnes se connectant à internet

Page 5: Meetup intro techno big data

5BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Où vont les données ? Sur des disques !

Page 6: Meetup intro techno big data

6BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

La meilleure config sur Rue du Commerce : 60 To

➢ Les interfaces de connexion au disque dur:• IDE-ATA : 133 Mo/s ( obsolète )• SCSI : de 5 à 600 Mo/s ( intelligent, plus rapide, standardisé )• S-ATA : de 150 à 600 Mo/s ( standard actuel )

➢ Carte mères : 500 eur• 2 x SATA3 6.0 Gb / s• 8 x SAS2/SATA3 6.0 Gb / s

➢ Taille des disques : 6 To – 300 euros

➢ Configuration : 60 To max / 3500 euros

➢ Temps de lecture : • Théorique : 10 000 secondes / 2.7 heures • Pratique : Deux ou trois fois plus lent : environ 9 heures

IDE-ATA

SCSI

S-ATA=> Combien de temps pour tout lire ?

Page 7: Meetup intro techno big data

7BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

IBM Benchmark ( 2011) : 480 disques !

480 disques de 146 Gb : 71 Tb

15 K RPM14 Gb / s5 000 secondes pour tout lire : 80 minutes ! => Combien de temps pour tout lire ?

=> A quel prix ?

Page 8: Meetup intro techno big data

8BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

MTBF : Mean Time Before Failure

100 disques | MTBF 5 ans = 20 pannes / anSoit un disque à changer toutes les 2 semaines.

Risques :1. Coût2. Instabilité du système3. Perte d’information !

Hadoop résout le MTBF en déduplicant la donnée : replication factor = 3

Si un disque tombe en panne, on retrouve l’information sur un des deux autres disques.

Page 9: Meetup intro techno big data

9BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

MTBF : Transformer un problème en atout

Lent (dédié au mode “batch”)

Pas cher(12 Keur/machine)mais redondant !

RapideMap (Sort) Reduce

mais complexe !

Page 10: Meetup intro techno big data

10BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Map-Reduce Algorihtm

MAP (MAGIC SORT) REDUCE (RESULT)

Page 11: Meetup intro techno big data

11Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014

Cheminement du cours

Volume

Variété2

Vitesse3

Eco-System Hadoop4

1

Page 12: Meetup intro techno big data

12BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Des sources de plus en plus diverses

Page 13: Meetup intro techno big data

13BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

La fin d’un monde

1950 - 20092015

JSON

Page 14: Meetup intro techno big data

14BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Formalisme JSON :

Page 15: Meetup intro techno big data

15BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Des caractéristiques différentes ...

1950 - 2009

2015

Online Transaction Processing

Transactions garantiesLecture et écriture

Schéma défini

Banques / Systèmes de sécurité

Oracle / AccessPostGreSQL / MySQL

Online Analytical Processing

Pas de transactionsPrincipalement en lecture

Sans schéma

Sites Web / Applications non critiques

MongoDB / CouchDB HBase / Cassandra

Page 16: Meetup intro techno big data

16BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Pour de nouveaux usages :1950 - 2009

2015

Online Transaction Processing

Transactions garantiesLecture et écriture

Schéma défini

Banques / Systèmes de sécurité

Oracle / AccessPostGreSQL / MySQL

Online Analytical Processing

Pas de transactionsPrincipalement en lecture

Sans schéma

Sites Web / Applications non critiques

MongoDB / CouchDB HBase / Cassandra

Page 17: Meetup intro techno big data

17BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Un vocabulaire qui change :

1950 - 2009

2015

Online Transaction Processing

MCD / Schéma / RelationnelUML / MERISE

Référentiel / dictionnaires de donnéesSQL Triggers

Silos / Logiciels / Licences / BI

Online Analytical Processing

NoSQL / Schemaless

Machine Learning / PrédictifApprentissage (Non) Supervisé

Partage / API / Open Sources / Dashboard / Data Visualisation

Page 18: Meetup intro techno big data

18Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014

Cheminement du cours

Volume

Variété2

Vitesse3

Eco-System Hadoop4

1

Page 19: Meetup intro techno big data

19BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Support matters

La RAM est jusqu’à 70 fois plus rapide que le disque en écriture et 50 fois en lecture

Page 20: Meetup intro techno big data

20BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Support matters

x 388

Page 21: Meetup intro techno big data

21BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Support matters

x 388

x 777

Page 22: Meetup intro techno big data

22BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Support matters

x 388

x 777

x 1314

Page 23: Meetup intro techno big data

23BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

Page 24: Meetup intro techno big data

24BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

Page 25: Meetup intro techno big data

25BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

Page 26: Meetup intro techno big data

26BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

Page 27: Meetup intro techno big data

27BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

20 € / Tb

Page 28: Meetup intro techno big data

28BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

9 000 € / Tb

20 € / Tb

Page 29: Meetup intro techno big data

29BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

9 000 € / Tb

20 € / Tb

Page 30: Meetup intro techno big data

30Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014

Cheminement du cours

Volume

Variété2

Vitesse3

Eco-système Hadoop 4

1

Page 31: Meetup intro techno big data

31BIG DATA – ESILV – Septembre 2014

Coordination complexe dans les Systèmes Parallèles

Loi d’Amdhal :Soit un programme :

• P = % possible en parallèle sans synchronisation (dans [ 0, 1[ )• N = nombre de processeurs• 1 = durée nécessaire pour effectuer l’algorithme avec un processeur

Gain possible en temps : • Gain sur P = P/N < P < 1• Partie sur laquelle on ne peut rien gagner : 1 – P < 1• Durée nécessaire : (1-P) + P/N <1• Accélération possible : 1 / Durée nécessaire > 1

• Exemples :• 95% parallélisable : P = 0.95• 100 processeurs : N = 100• Accélération = 1 / ( 0.05 + 0.95/100) = 16,8 fois plus rapide• Avec 50 processeurs : 1 / (0.05 + 0.95/10) = 14,5 fois plus rapide

Page 32: Meetup intro techno big data

32BIG DATA – ESILV – Septembre 2014

Rendez vos codes Parralélisables !

Page 33: Meetup intro techno big data

33BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

HADOOP 1.0

Page 34: Meetup intro techno big data

34BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

HADOOP 2.0

Page 35: Meetup intro techno big data

35BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Zookeeper

Page 36: Meetup intro techno big data

36BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Front - End

Page 37: Meetup intro techno big data

37BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

D3JS

Page 38: Meetup intro techno big data

38BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Présentation de Memorandum.pro

▪ Fondateur cabinet Mémorandum▪ Alcatel-Lucent, Toshiba Services▪ ESCP, Télécom Paris

Romain Jouin

▪ Développement informatique▪ Développement commercial▪ Stratégie Big Data▪ Analyse de données

COMPÉTENCES

▪ Jaccede.com – gestion d’infrastructure▪ EDF – E-reputation▪ Toshiba –1ère plateforme de Cloud Computing▪ Alcatel – Développement commercial Ex-URSS

SELECTION DE PROJETS RECENTS

• Cabinet de conseil en Stratégie Big Data

• Expertise Usages et Applications Big Data

• Missions de conseil et formations

• Développement logiciel

• Gestion d’industrialisation Big Data

Page 39: Meetup intro techno big data

39BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

History

Page 40: Meetup intro techno big data
Page 41: Meetup intro techno big data

41BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

La base :

Page 42: Meetup intro techno big data

BIG DATA l ANALYTICS l DATAVIZ

www.data-business.fr

[email protected]

06.52.86.87.30