Motivations Les VVVV... En Astronomie Technologies Hadoop Cluster Hadoop Cloud computing Cloudera HDFS Map/Reduce HBase Déploiement d’un cluster Hadoop sur le Cloud Étapes Cluster API Tests et utilisation réelle Tests : WordCount Tests : algorithmes simples Utilisation réelle Big Data : utilisation d’un cluster Hadoop Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet Big Data: cluster Hadoop
41
Embed
Big Data : utilisation d'un cluster Hadoop - LABORATOIREbeckmann/common/Cavet_BigData_01_14.pdf · Motivations LesVVVV... EnAstronomie Technologies Hadoop ClusterHadoop Cloudcomputing
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Big Data : utilisation d’un clusterHadoop
Cécile Cavetcecile.cavet at apc.univ-paris7.fr
Centre François Arago (FACe), Laboratoire APC, Université Paris DiderotLabEx UnivEarthS
14 Janvier 2014
C. Cavet Big Data: cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Plan
1 Motivations
2 Cluster Hadoop
3 Déploiement d’un cluster Hadoop sur le Cloud
4 Tests et utilisation réelle
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Big Data
Problématique :Ù Gestion des grandes masses de données.
Actions en cours :R&T du CNES.PetaSky (MASTODONS) au CNRS.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Technologies liées au Big Data
Hadoop.NoSQL.Cloud computing.Data warehouse (entrepôts de base de données) /data smart.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Histoire synthétique d’Hadoop1
Google en 2004 : solution propriétaire.GFS (Google FS) : stockage distribué.The Google File System, S. Ghemawat, H. Gobioff& S. Leung.Google Map/Reduce : calcul distribué.MapReduce: Simplified Data Processing on LargeClusters, J. Dean & S. Ghemawat.BigTable : SGBD (Système de Gestion de Basesde Données) basé sur GFS.BigTable: A Distributed Storage System forStructured Data.
Ù Calcul et stockage distribué, tolérant aux pannes.1Les base de données NoSQL, R. Bruchez, Eyrolles (2013)
CDH (Cloudera’s Distribution includingApache Hadoop)
Composants Apache :HDFS : système de fichier distribué.MapReduce : framework de traitement parallélisé.HBase : SGBD NoSQL.Hive : Rrequêtage de type SQL.Pig : scripting et requêtage Hadoop.ZooKeeper : coordination des appli. distribuées.Mahout : framework d’apprentissage et dedatamining pour Hadoop.
Composants Cloudera :Oozie : workflow et planification de jobs Hadoop.Sqoop : intégration de bases SQL.Flume : exploitation de fichiers (log) Hadoop.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
CDH
Figure: Fonctionnement de la distribution Cloudera.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
HDFS
Système de fichiers distribué :En Java.Stocke des données structurées ou non sur unensemble de serveurs distribués.Redondant, résilient.Découpage et distribution en blocks des données :
Blocksize : taille unitaire de stockage(généralement 64 Mo ou 128 Mo).Replication factor : nombre de copies d’unedonnées devant être réparties sur les différentsnoeuds.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
HDFS
Figure: Fonctionnement de HDFS.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Map/Reduce
Algorithme de traitement de données :Natif :
JAVA (bientôt C++).Autres possibilités (en streaming) :
Python, Ruby, Perl...Fonctionnement :
1 Load input data as key/values.2 Distribute them to computing node.3 Map(): transform to new key/values pairs.4 Reduce(): combine values having the same key.5 Write to output file.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Map/Reduce
Figure: Fonctionnement de Map/Reduce.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
HBase
SGBD NoSQL :En Java.SGBD non relationnelles.Orientée colonne.Manipulation de grand volume de données sur desarchitectures distribuées.Utilisation conjointe avec HDFS.Gère les accès read/write aléatoires.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
HBase
Figure: Fonctionnement de HBase.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Base de données NoSQL
NoSQL : Not Only SQL (2009).SGBD NoSQL Ù permet la gestion des grands volumesde données en passant à l’échelle et en fournissant desmeilleurs performance d’accès aux données.
Large volumes of structured, semi-structured, andunstructured dataAgile sprints, quick iteration, and frequent codepushesObject-oriented programming that is easy to useand flexibleEfficient, scale-out architecture instead of expensive,monolithic architecture
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Base de données NoSQL
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Déploiement d’un cluster Hadoop sur leCloud : étapes
1 Installation de Hadoop.2 Configuration de Hadoop.3 Tests et utilisation réelle Ù en cours...
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Cluster virtuel
OS :Image disque customisée
CentOS 6.4.Espace disque de 24 GB.Contextualisation : StratusLab et CloudInit.
Srirama et al., FGCS (2012).Algorithmes qui peuvent être adaptés à l’exécutiond’un modèle de Map/Reduce :
Conjugate Gradient (CG) Ù one iteration.Two different k-medoid clustering algorithms:
Partitioning Around Medoids (PAM) Ù oneiteration.Clustering Large Application (CLARA) Ùsequential execution.
Factoring integers Ù single execution,embarrassingly parallel algorithms.
Ù test HDFS et Map/Reduce.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Tests : algorithmes simples
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Bilan de Map/Reduce
Avantages :Bonne montée en charge.
Inconvénients :Structure des applications Map/Reduce est trèsstricte.Réduire un algorithme complexe à un modèleMap/Reduce n’est pas triviale.Pas de garantie que l’algorithme Map/Reducerésultant soit effectif.
Ù Nécessité de bien choisir les applications.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Utilisation réelle : données SDSS
Mesmoudi & Hacid, ACM (2013).Etude PetaSky Ù test HadoopDB et Hive.Données en entrée :
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Utilisation réelle : données SDSS
Figure: Test de requête.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Bilan des bases de données NoSQL
Avantages :Passe à l’échelle.Full-scan performant.En plein essor (gestion des index, inclusionSGDB...)
Inconvénients :Jointures inefficaces (et interdites si > 2 tables).Paramétrisation difficile.
Ù Nécessité de bien choisir les applications.
C. Cavet Big Data : cluster Hadoop
MotivationsLes VVVV...
En Astronomie
Technologies
Hadoop
Cluster HadoopCloud computing
Cloudera
HDFS
Map/Reduce
HBase
Déploiement d’uncluster Hadoopsur le CloudÉtapes
Cluster
API
Tests etutilisation réelleTests : WordCount
Tests : algorithmessimples
Utilisation réelle
Merci pour votre attention.
C. Cavet Big Data : cluster Hadoop
AnnexesSGBD
Type de données
SQL vs NoSQL
C. Cavet Big Data : cluster Hadoop
AnnexesSGBD
Type de données
SQL vs NoSQL
C. Cavet Big Data : cluster Hadoop
AnnexesSGBD
Type de données
Type de données
Type de données
Acquisi0on Stockage Traitement Visualisa0on
Structurées Réplica/on Extrac/on Mise en forme Flots d’évènements
BD Mul/ples formats de données et de stockage transac/onnel
Requêtes et traitement sur les BD (SQL/OLAP) Fédéra/on de requêtes sur des BD ou des systèmes de fichiers distribués Traitements légers
Pas mal d’ou/ls de visualisa/on
Non structurées Transfert de fichiers Extrac/on à par/r de sources différentes
Systèmes de fichier distribués Stockage des fichiers ini/aux
Pré-‐traitement / Map-‐Reduce SQL difficile à définir Workflows de traitement pour produire de l’informa/on Traitements lourds
Besoins en post-‐traitements rapides et parallèles
Des ou/ls de visualisa/on commencent à émerger
Figure: Type de données (Deprez et al. (2012)).C. Cavet Big Data : cluster Hadoop