Cyres Big Data Pre 769 Sentation Tables Rondes Ingensi

Tables Rondes Le Big Data

2012 - 2013

1

Plan Introduc9on 1 - Prsenta9on Ingensi 2 - Le Big Data cest quoi ? 3 - Lhistoire 4 - Le monde du libre : Hadoop 5 - Le systme HDFS 6 - Les algorithmes distribus : Map Reduce 7 - Hbase : La base NoSQL

2012 - 2013

2

Ingensi, team du groupe Cyrs

Ingensi est une division du groupe Cyrs spcialise dans le traitement et lanalyse temps rel de gros volumes de donnes. Ce>e division est anime par Christophe Cerqueira (directeur de projets) et Guillaume Polaert (Responsable R&D).

Les 3 ples complmentaires du Groupe CYRES :

Architectures la demande et services hbergs dans le Cloud. Leader Franais de la messagerie CollaboraTve Exchange.

Consultants conrms et experts de la data : DBA Oracle et PostgreSQL, ETL-EAI, ODI, Business Intelligence Agence de communicaTon digitale spcialis dans les soluTons mobiles et 2.0

Quelques experTses cls

Spcialiste en intgraTon de donnes avec des ouTls EAI/ETL/ELT (ODI, Talend, etc.)

Infogrance de milliers de comptes Exchange/Sharepoint

Mise en place douTls alternaTfs de reporTng et de datavizual9on comme Tableau Soaware

3 datacenters, disponibilit garan9e 99,9%

ScurisaTon des donnes, cer9ca9on PCI-DSS Level 1 Visa & Mastercard pour NORDPAY

Partenariat DELL - Ingensi

Complmentarit : ore globale de services et de support autour de la soluTon Cloudera (Hadoop)

Acteurs Majeur de la fourniture dinfrastructures de machines Hautes Performances pour les soluTons Big Data

3

1- Ingensi, notre vision du Big Data

Lancement du projet Ingensi en septembre 2009, CraTon dune quipe R&D (Laurat JCEF-37 en 2011) Constat

De plus en plus de dicults traiter les donnes et canaliser les ux entrants

Sauvegarde et resTtuTon de linformaTon de plus en plus complexes

Cot des soluTons diteurs croissant (Oracle, Microsoa, etc.)

Maturit des pure-players de lInternet (Google, Yahoo, Facebook, etc.)

ObjecTfs du projet

Structurer une ore de services et de conseils autour des Big Data et de lcosystme Hadoop

Mise disposiTon dune ore SaaS pour le traitement ponctuel et/ou conomique de grands volumes de donnes

CraTon dun ple de comptences et de formaTons autour Hadoop

Sensibilisa9on des acteurs informaTques aux problmaTques Big Data et aux soluTons adaptes

RalisaTon de Proof Of Concept et de maque>e

DniTon des architectures techniques/foncTonnelles

FormaTons et support (Cloudera)

AdministraTon et opTmisaTon dun cluster Hadoop

SoluTons : Mahout (Analyse),Hive (BI),HBase (NoSQL)

La R&D, au cur de lore Partenariat avec luniversit de Tours Mise en place dune thse Volont de crer un ple franais

contributeur des soluTons Hadoop Projet Europen pour construire un Cluster de 1600 Cores

4

Ore de services Ingensi

Quelques chires

1,8 ze`aoctets en 2011 soit une pile de blu-ray qui ferait 7 fois le tour de la Terre 1 60% de croissance/an des volumes dinforma9ons 5% pour les budgets informa9ques 2

Un Boeing produit 20 To/heure de donnes 2

250 milliards demails envoys par jour (80 % de spam) 3

72h de vidos dposes par minute sur Youtube de linforma9on

est non-exploite 4 de linforma9on est non-structure 4

(1) IDC, 2011 - (2) Gartner, 2011 - (3) Radica7 Group, 2009 - (4) Forrester, 2011 Dbut dune nouvelle re

Les systmes actuels sont incapables de grer de telles quanTts :

80% 95%

5

2 - Big Data, solu9on au data dluge ?

2 - Big Data, prparer et an9ciper

Les soluTons actuelles rpondent mal (pas) aux problmaTques lies, avec un TCO lev (Exadata dOracle, Netezza dIBM, etc.) Les applicaTons doivent changer

Dimensionnes lchelle de la plante Flux de donnes complexes, mulTples et

en temps rel Agilit tous les niveaux : analyse, stockage,

resTtuTon

Pour

Trer prot de ses donnes mais galement de celles qui sont porte de main,

rpondre des besoins qui pour le moment ntaient pas adressables

et tout a en temps rel

6

2 - Big Data, trois V

Les soluTons mises en uvre doivent rpondre aux 3 V dans leur globalit

Volume SaturaTon des systmes actuels avec toujours plus de donnes

Vlocit Quel dlai pour prendre une dcision parTr de linformaTon collecte ?

Varit Intgrer une mulTtude de formats dirents provenant dune mulTtude de sources de donnes

BIG DATA

7

3 - Lhistoire : le Big Data, Google : Le systme de chier GFS

Pour stocker son Index Grandissant Quelle solu4on pour Google ? U4lisa4on dun SGBDR ?

Problme de distribu4on des donnes problme du nombre du4lisateurs problme de Vitesse du moteur de recherche

InvenTon dun nouveau systme Propritaire : GFS ( Google File Systme en 2003)

8

3 - Lhistoire : le Big Data, Google : Le systme de fichier GFS

3 - Lhistoire : le Big Data, Comment exploiter ce systme de chier ?

La no4on de Big Data est in4mement li la capacit de traitements de gros volumes Un nouvel Algorithme a t mis au point. Le premier ArTcle a t publi en 2004 : Jeffrey Dean and Sanjay Ghemawat

MapReduce : Simplied Data Processing on Large Clusters

Cest un algorithme invent par Google, Inc an de distribuer des traitements sur un ensemble de machines avec le systme GFS Google possde aujourd'hui plus de 1 000 0000 de serveurs interconnects dans le monde 10

3 - Lhistoire : le Big Data, Google et les autres

11

Contributeur de limplmenta9on Libre ( Dugg Kelng)

Les pures players de linternet ont choisi du9liser ces algos distribus. ( HDFS et MAPREDUCE)

-Facebook -TwiIer -LinkedIn -.

12

Le monde du Libre : Hadoop

4 - Big Data, solu9on Apache Hadoop

Hadoop Projet ini9 par les pure-players de lInternet

(Yahoo, Facebook, Twi>er) ds 2008 Inspir des travaux de Google Libre, fonda9on Apache Enrichit chaque jour par de nombreuses socits

ddies : Cloudera, Hortonworks, etc.

2 concepts cls HDFS : Stockage conomique et extensible, pour de

grandes quanTts dinformaTon bnciant dune haute tolrance aux pannes

MapReduce : Algorithme de traitements parallles et distribus des donnes.

cosystme riche Mahout : machine-learning (dataming, clustering) HBase : base de donnes temps-rel NoSQL Hive : traitement batch analyTque BI 3 diteurs (Cloudera, Hortonworks, MapR)

13

5 - HDFS, systme de chiers distribus

ObjecTfs et principes

Stocker de grandes quanTts dinformaTon moindre cot u9lisa9on de serveurs courants

Idalement des chiers volumineux Haute tolrance aux pannes donne rplique 3 fois

sur 3 serveurs gographiquement distants Stockage extensible volont ajout chaud de

serveurs pour augmenter les capacits de stockage et de traitement de larchitecture

Techniquement

namenode : serveur matre. Cartographie des blocs de donnes sur le cluster. Vital pour la plateforme

datanode : stocker localement les blocs de donnes. Informe le namenode de son tat via un ba>ement de cur toutes les secondes. Possibilit de dnir sa posiTon gographique (site de donnes, rack) pour que le namenode contrle au mieux les dirents emplacements des blocs de donnes

14

HDFS

6 - MapReduce, algorithme de traitement des donnes Principe

Traitement divis en tche lesquelles sont traites en parallle : MAP

Synthse et agrgaTon des traitements : REDUCE Les traitements sont eectus l o la donne

est stocke (sur chaque serveur)

Techniquement

Service jobtracker coordonne lexcuTon du traitement. Dcoupe et aecte chaque tche aux tasktracker.

Service tasktracker responsable de lexcuTon de la tche localement.

Si une tche choue, le jobtracker la relance sur un autre serveur.

15

7- HBase, base de donnes NoSQL temps rel

Pourquoi ?

Ncessit dun mode temps rel pour le systme Hadoop.

Le mode batch ne convient pas toutes les applicaTons

Concepts cls

Base de donnes NoSQL en mode colonne GesTon des transacTons simple Dploiement grande chelle sur un trs grand nombre de serveurs

ParTTonnement automaTque des tables par lajout de serveur (region server)

ModlisaTon des donnes oriente recherche

Usages

Stockage et recherche de nimporte quel type de donnes (PDF, photos, document word, etc.).

Donnes accessibles via de nombreuses API Stockage dnormalis des donnes InserTon et recherche en temps rel via une srie de mthode

Recherche trs rapide (concept in memory )

16

17

INGENSI Groupe Cyrs 19 - 21 rue douard Vaillant 37000 Tours Tl : 02 47 68 48 50 [email protected]

Cyres Big Data Pre 769 Sentation Tables Rondes Ingensi

Documents

solutons big

services ingensi

solutons hadoop projet

ingensi complmentarit

prsenta9on ingensi

lancement du projet

solutons mobiles

hadoop sensibilisa9on