Top Banner

of 17

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • Tables Rondes Le Big Data

    2012 - 2013

    1

  • Plan Introduc9on 1 - Prsenta9on Ingensi 2 - Le Big Data cest quoi ? 3 - Lhistoire 4 - Le monde du libre : Hadoop 5 - Le systme HDFS 6 - Les algorithmes distribus : Map Reduce 7 - Hbase : La base NoSQL

    2012 - 2013

    2

  • Ingensi, team du groupe Cyrs

    Ingensi est une division du groupe Cyrs spcialise dans le traitement et lanalyse temps rel de gros volumes de donnes. Ce>e division est anime par Christophe Cerqueira (directeur de projets) et Guillaume Polaert (Responsable R&D).

    Les 3 ples complmentaires du Groupe CYRES :

    Architectures la demande et services hbergs dans le Cloud. Leader Franais de la messagerie CollaboraTve Exchange.

    Consultants conrms et experts de la data : DBA Oracle et PostgreSQL, ETL-EAI, ODI, Business Intelligence Agence de communicaTon digitale spcialis dans les soluTons mobiles et 2.0

    Quelques experTses cls

    Spcialiste en intgraTon de donnes avec des ouTls EAI/ETL/ELT (ODI, Talend, etc.)

    Infogrance de milliers de comptes Exchange/Sharepoint

    Mise en place douTls alternaTfs de reporTng et de datavizual9on comme Tableau Soaware

    3 datacenters, disponibilit garan9e 99,9%

    ScurisaTon des donnes, cer9ca9on PCI-DSS Level 1 Visa & Mastercard pour NORDPAY

    Partenariat DELL - Ingensi

    Complmentarit : ore globale de services et de support autour de la soluTon Cloudera (Hadoop)

    Acteurs Majeur de la fourniture dinfrastructures de machines Hautes Performances pour les soluTons Big Data

    3

  • 1- Ingensi, notre vision du Big Data

    Lancement du projet Ingensi en septembre 2009, CraTon dune quipe R&D (Laurat JCEF-37 en 2011) Constat

    De plus en plus de dicults traiter les donnes et canaliser les ux entrants

    Sauvegarde et resTtuTon de linformaTon de plus en plus complexes

    Cot des soluTons diteurs croissant (Oracle, Microsoa, etc.)

    Maturit des pure-players de lInternet (Google, Yahoo, Facebook, etc.)

    ObjecTfs du projet

    Structurer une ore de services et de conseils autour des Big Data et de lcosystme Hadoop

    Mise disposiTon dune ore SaaS pour le traitement ponctuel et/ou conomique de grands volumes de donnes

    CraTon dun ple de comptences et de formaTons autour Hadoop

    Sensibilisa9on des acteurs informaTques aux problmaTques Big Data et aux soluTons adaptes

    RalisaTon de Proof Of Concept et de maque>e

    DniTon des architectures techniques/foncTonnelles

    FormaTons et support (Cloudera)

    AdministraTon et opTmisaTon dun cluster Hadoop

    SoluTons : Mahout (Analyse),Hive (BI),HBase (NoSQL)

    La R&D, au cur de lore Partenariat avec luniversit de Tours Mise en place dune thse Volont de crer un ple franais

    contributeur des soluTons Hadoop Projet Europen pour construire un Cluster de 1600 Cores

    4

    Ore de services Ingensi

  • Quelques chires

    1,8 ze`aoctets en 2011 soit une pile de blu-ray qui ferait 7 fois le tour de la Terre 1 60% de croissance/an des volumes dinforma9ons 5% pour les budgets informa9ques 2

    Un Boeing produit 20 To/heure de donnes 2

    250 milliards demails envoys par jour (80 % de spam) 3

    72h de vidos dposes par minute sur Youtube de linforma9on

    est non-exploite 4 de linforma9on est non-structure 4

    (1) IDC, 2011 - (2) Gartner, 2011 - (3) Radica7 Group, 2009 - (4) Forrester, 2011 Dbut dune nouvelle re

    Les systmes actuels sont incapables de grer de telles quanTts :

    80% 95%

    5

    2 - Big Data, solu9on au data dluge ?

  • 2 - Big Data, prparer et an9ciper

    Les soluTons actuelles rpondent mal (pas) aux problmaTques lies, avec un TCO lev (Exadata dOracle, Netezza dIBM, etc.) Les applicaTons doivent changer

    Dimensionnes lchelle de la plante Flux de donnes complexes, mulTples et

    en temps rel Agilit tous les niveaux : analyse, stockage,

    resTtuTon

    Pour

    Trer prot de ses donnes mais galement de celles qui sont porte de main,

    rpondre des besoins qui pour le moment ntaient pas adressables

    et tout a en temps rel

    6

  • 2 - Big Data, trois V

    Les soluTons mises en uvre doivent rpondre aux 3 V dans leur globalit

    Volume SaturaTon des systmes actuels avec toujours plus de donnes

    Vlocit Quel dlai pour prendre une dcision parTr de linformaTon collecte ?

    Varit Intgrer une mulTtude de formats dirents provenant dune mulTtude de sources de donnes

    BIG DATA

    7

  • 3 - Lhistoire : le Big Data, Google : Le systme de chier GFS

    Pour stocker son Index Grandissant Quelle solu4on pour Google ? U4lisa4on dun SGBDR ?

    Problme de distribu4on des donnes problme du nombre du4lisateurs problme de Vitesse du moteur de recherche

    InvenTon dun nouveau systme Propritaire : GFS ( Google File Systme en 2003)

    8

  • 3 - Lhistoire : le Big Data, Google : Le systme de fichier GFS

  • 3 - Lhistoire : le Big Data, Comment exploiter ce systme de chier ?

    La no4on de Big Data est in4mement li la capacit de traitements de gros volumes Un nouvel Algorithme a t mis au point. Le premier ArTcle a t publi en 2004 : Jeffrey Dean and Sanjay Ghemawat

    MapReduce : Simplied Data Processing on Large Clusters

    Cest un algorithme invent par Google, Inc an de distribuer des traitements sur un ensemble de machines avec le systme GFS Google possde aujourd'hui plus de 1 000 0000 de serveurs interconnects dans le monde 10

  • 3 - Lhistoire : le Big Data, Google et les autres

    11

    Contributeur de limplmenta9on Libre ( Dugg Kelng)

    Les pures players de linternet ont choisi du9liser ces algos distribus. ( HDFS et MAPREDUCE)

    -Facebook -TwiIer -LinkedIn -.

  • 12

    Le monde du Libre : Hadoop

  • 4 - Big Data, solu9on Apache Hadoop

    Hadoop Projet ini9 par les pure-players de lInternet

    (Yahoo, Facebook, Twi>er) ds 2008 Inspir des travaux de Google Libre, fonda9on Apache Enrichit chaque jour par de nombreuses socits

    ddies : Cloudera, Hortonworks, etc.

    2 concepts cls HDFS : Stockage conomique et extensible, pour de

    grandes quanTts dinformaTon bnciant dune haute tolrance aux pannes

    MapReduce : Algorithme de traitements parallles et distribus des donnes.

    cosystme riche Mahout : machine-learning (dataming, clustering) HBase : base de donnes temps-rel NoSQL Hive : traitement batch analyTque BI 3 diteurs (Cloudera, Hortonworks, MapR)

    13

  • 5 - HDFS, systme de chiers distribus

    ObjecTfs et principes

    Stocker de grandes quanTts dinformaTon moindre cot u9lisa9on de serveurs courants

    Idalement des chiers volumineux Haute tolrance aux pannes donne rplique 3 fois

    sur 3 serveurs gographiquement distants Stockage extensible volont ajout chaud de

    serveurs pour augmenter les capacits de stockage et de traitement de larchitecture

    Techniquement

    namenode : serveur matre. Cartographie des blocs de donnes sur le cluster. Vital pour la plateforme

    datanode : stocker localement les blocs de donnes. Informe le namenode de son tat via un ba>ement de cur toutes les secondes. Possibilit de dnir sa posiTon gographique (site de donnes, rack) pour que le namenode contrle au mieux les dirents emplacements des blocs de donnes

    14

    HDFS

  • 6 - MapReduce, algorithme de traitement des donnes Principe

    Traitement divis en tche lesquelles sont traites en parallle : MAP

    Synthse et agrgaTon des traitements : REDUCE Les traitements sont eectus l o la donne

    est stocke (sur chaque serveur)

    Techniquement

    Service jobtracker coordonne lexcuTon du traitement. Dcoupe et aecte chaque tche aux tasktracker.

    Service tasktracker responsable de lexcuTon de la tche localement.

    Si une tche choue, le jobtracker la relance sur un autre serveur.

    15

  • 7- HBase, base de donnes NoSQL temps rel

    Pourquoi ?

    Ncessit dun mode temps rel pour le systme Hadoop.

    Le mode batch ne convient pas toutes les applicaTons

    Concepts cls

    Base de donnes NoSQL en mode colonne GesTon des transacTons simple Dploiement grande chelle sur un trs grand nombre de serveurs

    ParTTonnement automaTque des tables par lajout de serveur (region server)

    ModlisaTon des donnes oriente recherche

    Usages

    Stockage et recherche de nimporte quel type de donnes (PDF, photos, document word, etc.).

    Donnes accessibles via de nombreuses API Stockage dnormalis des donnes InserTon et recherche en temps rel via une srie de mthode

    Recherche trs rapide (concept in memory )

    16

  • 17

    INGENSI Groupe Cyrs 19 - 21 rue douard Vaillant 37000 Tours Tl : 02 47 68 48 50 [email protected]