Top Banner
Antonio Soto SolidQ COO [email protected] @antoniosql The H Hour: Hadoop The awakening of the BigData
43

The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Jul 31, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Antonio Soto

SolidQ COO

[email protected]

@antoniosql

The H Hour: HadoopThe awakening of the BigData

Page 2: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Tendencias de la Industria

Page 3: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

3© 2011 SolidQ

El nuevo rol del operador

El operador de ayer El operador de hoy

Sigue el proceso basado en

procedimientos predefinidos

Toma decisiones objetivas basadas en

datos en tiempo real

Trabajar dentro de una función lineal y

funcional

Trabaja en una organización

interfuncional

Mantener el cumplimiento de las

normas de ajuste

Contribuir a la conducción de cambios

de procesos

Tomar decisiones independientes

basadas en formación

Aprovechar el conocimiento

institucionalizado

Page 4: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Agenda

• ¿Qué es Big Data?

• Entonces… Hadoop, ¿Qué es?

• Ventajas

• Componentes

• Apache Hadoop y Microsoft BI

• HDInsight

• Windows Azure HDInsight

• Casos de Uso

Page 5: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

¿Qué es Big Data?

Big data Consists of datasets that grow so large that theybecome awkward to work with using on-hand DBManagement tools.

Wikipedia

Big data is when the size of the data itself becomes part ofthe problem

Mike Lukides, O’Reilly Radar

It’s not just your “Big Data” problems, it’s all about your BIG“data” Problems.

Alexander Stojanovic, Hadoop Manager on Win Azure

Page 6: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Las 4 V’s

Volumen

Velocidad

Variedad

Variabilidad

Page 7: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Ejemplos de Big Data

12 Tbdía

21 PbHadoop

cluster

7 Pbmes

1 Tbtweets/dia

75

Millionscores/day

14 TbHadoop

cluster

4 BillionGraph

edg/day

7 Tbdatos/dia

Page 8: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Entonces…¿cómo obtengo insights?

Datos

estructurados

Datos estructurados Bases de Datos relacionales

Bases de Datos analíticasRegistros

Page 9: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

BIG DATA

Entonces…¿cómo obtengo insights?

Datos

estructurados

Datos estructurados Bases de Datos relacionales

Bases de Datos analíticasRegistros

Page 10: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Ficheros log

Datos

menos

estructura

dos

Datos

públicos

Device

outputs

Texto/

Imágenes

New

Insights

Datos menos estructurados Intentar un ETL para

transformarlo en relacional Tiempo de desarrollo elevado

Son datos susceptibles a cambios de estructura

Archivados y Borrados

Acceso caro

Entonces…¿cómo obtengo insights?

Datos

estructurados

Datos estructurados Bases de Datos relacionales

Bases de Datos analíticasRegistros

Page 11: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

20%

80%

Tipos de datos

Estructurado

Menos estructurado

Entonces…¿cómo obtengo insights?

Page 12: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

DEMOInsights de datos no estructurados

Page 13: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

¿Qué es Hadoop?

• Open Source

• Plataforma de almacenamiento de datos y

análisis para Big Data

• Optimizado para manejar

• Datos masivos a través de paralelismo

• Variedad de datos (Estructurados, No-estructurados,

Menos estructurados)

• Uso de hardware económico

• No para OLTP / OLAP

Page 14: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Escalable

Escala linealmente en capacidad de almacenamiento y computación

Tolerante a Fallos

Proporcionado por el Sistema de ficheros distribuido y el framework de lectura

Procesamiento distribuido

Sigue la estrategia de divide y vencerás

¿Qué es Hadoop?: Ventajas

Page 15: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 16: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 17: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Hadoop Distributed File System (HDFS)

• Sistema de ficheros distribuido diseñado para grandes conjuntos de datos

• Fiable y con buen rendimiento

• Alto rendimiento de acceso: Latencia de disco

• Alto ancho de banda Almacenamiento Clustered auto-reparable

• Divide los datos entre los nodos en un Cluster

• NameNode: Mantiene el mapeo de bloques de ficheros a nodos esclavos

• DataNode: Almacena y sirve bloques de datos

Page 18: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Hadoop Distributed File System (HDFS)

File File File

File File File

File

File File File

File File File

File File

File File File

File File

File File File

File File

NameNode DataNode

File File

File File

DataNode DataNode

File

File

File File

File

File File

Block Size = 64 Mb

Replication Factor = 3

Page 19: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 20: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Map Reduce Framework

• Motor de planificación parar Procesamiento de carga

distribuido

• Pares Clave-Valor

• Función Map

• Función Reduce

• Lenguajes de Script : Java, python, Javascript…

• Saca provecho de la distribución de datos de HDFS

• JobTracker: Planifica los trabajos entre los TaskTrackers

• TaskTracker: unidades de trabajo

Page 21: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Map Reduce Framework

File File File

File File File

File

File File File

File File File

File File

File File File

File File

File File File

File File

JobTracker TaskTracker

MapReduce

Job

TaskTracker TaskTracker

File

File

File File

File

File File

map

mapmap

Reduce

Page 22: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 23: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Sqoop

• Tecnología que sirve de interfaz entre HDFS y los

Sistemas de información empresarial

• Orígenes de datos relacionales integrados

• MySQL, Oracle, SQL Server …

• Importación / Exportación (Bidireccional)

Page 24: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 25: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Pig

• Lenguaje de flujo de datos de alto nivel y framework de ejecución

• Lenguaje de consulta: PigLatin

• Posibilidad de join de tablas

• Por detrás ejecuta trabajos MapReduce

Page 26: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 27: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Hive

• Infraestructura Data Warehouse desde Hadoop

• Proporciona

• Sumarización de Datos

• Consultas Ad-hoc

• Lenguaje consulta estilo SQL: HiveQL

• Por detrás ejecuta trabajos MapReduce

Page 28: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 29: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Otros componentes: Hadoop Ecosystem

Mahout

• Minería de Datos y Machine Learning

Pegasus

• Page Rank yGraph Mining

• Social Network Analysis

Lucene

• Technología de indexación y búsqueda

Algunos otros: Avro, Hbase, Flume, Oozie…

Page 30: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

MICROSOFT ON THE HADOOP

Page 31: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

HDInsight

• Project Isotope

• Proporciona Apache Hadoop en

• Windows Server

• Windows Azure

• Active Directory & System Center

Page 32: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

Hadoop: Componentes Originales

Page 33: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

HDInsight

Page 34: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

JDBC

Hive ODBC

Microsoft

BI

Platform

HDinsight

Page 35: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

JDBC

Hive ODBC

Windows Azure & Windows Server

Microsoft

BI

Platform

HDInsight

Page 36: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

DEMOWindows Azure HDInsight

Page 37: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Características HDInsight

HDFS

• Basado en Windows

• Compatibilidad con Directorio Activo

• Almacenamiento compatible:

• HDFS

• Azure Blob Storage

• Amazon S3

MapReduce Framework

• Compatibilidad JavaScript

• Hadoop Streaming con compatibilidad F# y C#

Page 38: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Características HDInsight

Hive

• Consolta Interactiva

• Complemento Hive para Excel 2010

• Hive ODBC Driver

• Potentes funciones regex

Pig

• Consola Interactiva

Sqoop

• Driver JDBC para SQL Server y SQL Server PDW

Page 39: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

DEMOTrabajando con HDInsight

Page 40: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Casos de Uso

• Analítica de Eventos

• Analítica de clics a gran escala

• Optimizaciones de precio

• Gestión de riesgo financiero

• Análisis de sentimiento

• Minería de datos a gran escala

Page 41: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Recapitulando

• HDInsight nos permite almacenar, procesar y

analizar datos menos estructurados

• Los proyectos de Apache Hadoop Ecosystem

agregan características extra

• Complementa y enriquece el Análisis de Negocio

• Encaja perfectamente con la Experiencia Cloud

Page 42: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

PREGUNTAS

Page 43: The H Hour: Hadoop The awakening of the BigData€¦ · Alexander Stojanovic, Hadoop Manager on Win Azure. Las 4 V’s Volumen Velocidad Variedad Variabilidad. Ejemplos de Big Data

Gracias!

Antonio Soto

[email protected]

@antoniosql