Top Banner
Big Data: La Hora H
46

Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Aug 20, 2015

Download

Technology

SolidQ
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Big Data: La Hora H

Page 2: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Agenda

•Introducción: La revolución de los Datos

•Escenarios de Business Analytics

•¿Y cómo exploto toda esta información?: Microsoft Excel

Page 3: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

La revolución de los Datos

Page 4: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Tendencias de la Industria

Los datos digitales crecerán 44x próxima década

EXPLOSIÓN DE DATOS

CONSUMERIZACIÓN DE TI

NUBE PÚBLICA Y PRIIVADA

En 2015, servicios de nube pública tendrán 46% de crecimiento neto en gasto de tiIDC Digital Universe Study, sponsored by EMC, May 2010.Worldwide and Regional Public IT Cloud Services 2011 – 2015 Forecast, IDC , June 2011—Doc #228485

Page 5: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Introducción: La revolución de los datos

•Big Data, Data Science y lo que nos pueden proporcionar

•Actores de mercado en Big Data

•Utilidades de Big Data

Page 6: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

¿Qué es Big Data?

•Big data Consists of datasets that grow so large that they become awkward to work with using on-hand DB Management tools.

•Wikipedia

Big data is when the size of the data itself becomes part of the problem

Mike Lukides, O’Reilly Radar

It’s not just your “Big Data” problems, it’s all about your BIG “data” Problems.

Alexander Stojanovic, Hadoop Manager on Win Azure

Page 7: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Las 4 V’s

Volumen

Velocidad

Variedad

Variabilidad

Page 8: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Ejemplos de Big Data

12 Tbdía

21 PbHadoopcluster

7 Pbmes

1 Tbtweets/dia

75 Millio

nscores/day

14 TbHadoopcluster

4 Billion

Graph edg/day

7 Tbdatos/dia

Page 9: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Ficheros log

Datos menos

estructurados

Datos públicos

Device outputs

Texto/ Imágenes

New Insight

s

Datos menos estructurados Intentar un ETL para

transformarlo en relacional Tiempo de desarrollo elevado Son datos susceptibles a

cambios de estructura Archivados y Borrados Acceso caro

Entonces…¿cómo obtengo insights?

Datos estructurad

os

Datos estructurados Bases de Datos relacionales Bases de Datos analíticas

Registros

Page 10: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

¿Qué es Big Data para ?

• Datos, datos, datos…..• ¿Big? Hoy es Big, pero dentro de 2-3 años, ¿seguirá siendo big?• Equipos y negocios “centrados en datos”• Big Data: “ Barreras para que una organización o equipo puedan

almacenar, procesar y acceder todos los datos que necesitan para operar con eficiencia, tomar decisiones, reducir riesgos, etc.”

Page 11: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Utilidades de Big Data

•Vista completa de nuestros usuarios

•Seguridad / inteligencia

•Operaciones Analíticas (TI, dispositivos,…)

•Complemento de DW

Page 12: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Caso de Éxito: Mood Index

Page 13: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

MIDAMO

Page 14: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Escenarios de Business Analytics

Page 15: Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Page 16: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Escenarios de Business Analytics

•Análisis sencillo de gran cantidad de datos no estructurados: Microsoft HDInsight

•Análisis sencillo de datos en memoria: Microsoft StreamInsight

•Análisis en profundidad: SQL Server y Self-Service BI

Page 17: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

¿Qué es Hadoop?

•Open Source

•Plataforma de almacenamiento de datos y análisis para Big Data

•Optimizado para manejar• Datos masivos a través de paralelismo

• Variedad de datos (Estructurados, No-estructurados, Menos estructurados)

• Uso de hardware económico

•No para OLTP / OLAP

Page 18: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

•Escalable•Escala linealmente en capacidad de almacenamiento y computación

•Tolerante a Fallos•Proporcionado por el Sistema de ficheros distribuido y el framework de lectura

•Procesamiento distribuido•Sigue la estrategia de divide y vencerás

¿Qué es Hadoop?: Ventajas

Page 19: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 20: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 21: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Hadoop Distributed File System (HDFS)

•Sistema de ficheros distribuido diseñado para grandes conjuntos de datos

•Fiable y con buen rendimiento• Alto rendimiento de acceso: Latencia de disco

• Alto ancho de banda Almacenamiento Clustered auto-reparable

•Divide los datos entre los nodos en un Cluster• NameNode: Mantiene el mapeo de bloques de

ficheros a nodos esclavos

• DataNode: Almacena y sirve bloques de datos

Page 22: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Hadoop Distributed File System (HDFS)

File File File

File File File

File

File File File

File File File

File File

File File File

File File

File File File

File File

NameNode

DataNode

File File

File File

DataNode DataNode

File

File

File File

File

File File

Block Size = 64 Mb

Replication Factor = 3

Page 23: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 24: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Map Reduce Framework

•Motor de planificación parar Procesamiento de carga distribuido• Pares Clave-Valor

• Función Map

• Función Reduce

•Lenguajes de Script : Java, python, Javascript…

•Saca provecho de la distribución de datos de HDFS• JobTracker: Planifica los trabajos entre los

TaskTrackers

• TaskTracker: unidades de trabajo

Page 25: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Map Reduce Framework

File File File

File File File

File

File File File

File File File

File File

File File File

File File

File File File

File File

JobTracker TaskTracker

MapReduce Job

TaskTracker TaskTracker

File

File

File File

File

File File

map

map

map

Reduce

Page 26: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 27: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Sqoop

•Tecnología que sirve de interfaz entre HDFS y los Sistemas de información empresarial

•Orígenes de datos relacionales integrados• MySQL, Oracle, SQL Server …

•Importación / Exportación (Bidireccional)

Page 28: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 29: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Pig

•Lenguaje de flujo de datos de alto nivel y framework de ejecución

•Lenguaje de consulta: PigLatin

• Posibilidad de join de tablas

•Por detrás ejecuta trabajos MapReduce

Page 30: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 31: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Hive

•Infraestructura Data Warehouse desde Hadoop

•Proporciona• Sumarización de Datos

• Consultas Ad-hoc

•Lenguaje consulta estilo SQL: HiveQL

•Por detrás ejecuta trabajos MapReduce

Page 32: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

¿Qué es Hadoop?: Componentes

Page 33: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Otros componentes: Hadoop Ecosystem•Mahout

• Minería de Datos y Machine Learning

•Pegasus• Page Rank y Graph Mining

• Social Network Analysis

Page 34: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

HDInsight

•Project Isotope

•Proporciona Apache Hadoop en• Windows Server

• Windows Azure

•Active Directory & System Center

Page 35: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Lucene …

Hadoop: Componentes Originales

Page 36: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Flume

HDInsight

Page 37: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Flume

JDBC

Hive ODBCMicrosoft

BIPlatform

HDinsight

Page 38: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

HDFS

Map Reduce

HivePig

Sqoop

Mahout Pegasus Flume

JDBC

Hive ODBC

Windows Azure & Windows Server

MicrosoftBI

Platform

HDInsight

Page 39: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Características HDInsight

•HDFS

•Basado en Windows

•Compatibilidad con Directorio Activo

•Almacenamiento compatible:• HDFS

• Azure Blob Storage

• Amazon S3

•MapReduce Framework

•Compatibilidad JavaScript

•Hadoop Streaming con compatibilidad F# y C#

Page 40: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Características HDInsight

•Hive

•Consola Interactiva

•Complemento Hive para Excel

•Hive ODBC Driver

•Potentes funciones regex

•Pig

•Consola Interactiva

•Sqoop

•Driver JDBC para SQL Server y SQL Server PDW

Page 41: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Administrando un cluster HDinsight en Windows AzurePrimeros pasos

Icon de tecnologíaIcon de tecnologíaIcon de tecnología

Page 42: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Escenarios de Integración

Page 43: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

¿Y cómo explotamos esta información?

Page 44: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

¿Y cómo exploto toda esta información?: Microsoft Excel

•PowerPivot

•Complementos Excel para Minería de Datos

•Acceso a Datos Hadoop

•Data Explorer

Page 45: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Excel y sus complementos

Icon de tecnologíaIcon de tecnologíaIcon de tecnología

Page 46: Introducción a Big Data. HDInsight - Webcast Technet SolidQ

Big Data: La Hora H