OpenAnalytics - BigData por Ivan del Prado (Datasalt)

Post on 20-Jun-2015

1720 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Iván del Prado, CEO de Datasalt y uno de los creadores de Pangool Hadoop API y Splout SQL repasó las necesidades de usar tecnologías y procesos BigData y las alternativas libres para abordar proyectos de diversa índole.

Transcript

Big DataUna visión pragmática

Iván de Prado Alonso – CEO of Datasaltwww.datasalt.es@ivanprado@datasalt

Consultoría y formaciónConsultoría y formaciónBig DataBig Data

Analyzing credit card transactions

Extracting insights from Social Networks

Dealing with thousands of millions of classifieds

Managing billions of events per day

PangoolRevamped Hadoop API

Splout SQLMaking Hadoop data accessible

Success storiesDeep Knowledge

Building the future

ICDM 2012

Big Data Hype

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

5 / 27

BIG“MAC”DATA

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

6 / 27

Agenda

1. Definición de Big Data

2. Lo disruptivo

3. Ejemplos sectoriales

4. Conclusiones

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

7 / 27

Definición del Big Data – 4 puntos de vista

● Datos– Volumen

– Velocidad

– Variedad

● Inteligencia de negocio– Cruce de datos

● Redes sociales● Sensores, etc

● Filosofía de desarrollo– No tires ni un dato

– Esquemas en lectura

– Tolerancia a fallos humanos

● Herramientas– Hadoop

– NoSQL

– Sistemas distribuidos

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

8 / 27

Confusión

Big Data

La “caja” del Big Data pinta muy bien ...

¿Pero hay algo realmente nuevo y disruptivo dentro?

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

12 / 27

Agenda

1. Definición de Big Data

2. Lo disruptivo

3. Ejemplos sectoriales

4. Conclusiones

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

13 / 27

Tecnologías disruptivas

● Big Data → Nuevas tecnologías relevantes– Capaces de hacer viable lo que antes era inviable

● Distribuidas– Aprovechan el potencial de varias máquinas– Abstraen al programador de las complejidades de

coordinación● Pero siguen siendo complejas

● Open Source (la mayoría)● De bajo coste

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

16 / 27

Agenda

1. Definición de Big Data

2. Lo disruptivo

3. Ejemplos sectoriales

4. Conclusiones

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

17 / 27

Anuncios clasificados (I)

● Lo que se podía antes del Big Data– Hacer portales de clasificados (inmobiliarios, etc) a nivel de un país

– Tecnologías principales:

● Bases de datos relacionales (i.e. MySQL)

● Lo que era casi imposible y ahora es muy razonable– Hacer un buscador de clasificados de escala mundial

– Tecnologías principales:

● Hadoop, Hbase, Storm● Solr, ElasticSearch

● Ejemplos

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

18 / 27

Anuncios clasificados (II)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

19 / 27

Análisis de influencia online y en redes sociales (I)

● Lo que se podía antes del Big Data– Restringido al poder de una máquina (análisis locales)

– Tecnologías principales:

● Bases de datos relacionales (i.e. MySQL)● Analítica monomáquina

● Lo que era casi imposible y ahora es muy razonable– Analizar la influencia de todos los individuos en una red social

– Tecnologías principales:

● Hadoop, Hbase, Storm● NoSQL: Voldemort, Cassandra● Hamma, Giraph

● Ejemplos

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

20 / 27

Análisis de influencia online y en redes sociales (II)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

21 / 27

Explotar datos agregados (I)

● Lo que se podía antes del Big Data– Datos en silos

– Presos de los DW (muy poco flexibles)

– Tecnologías principales:

● EDW MPP

● Lo que era casi imposible y ahora es muy razonable– Explotar de nuevas maneras los datos y dar valor a terceros

– Tecnologías principales:

● Hadoop● NoSQL● Gestores geográficos

● Ejemplos

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

22 / 27

Explotar datos agregados (II)

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

23 / 27

Redes de anuncios (Ad networks)

● Lo que se podía antes del Big Data– Estadísticas básicas en Bds relacionales a clientes

– Agregados de muy alto nivel (se pierde el grano fino)

– Tecnologías principales:

● Bds relacionales (i.e. MySql, Oracle)

● Lo que era casi imposible y ahora es muy razonable– No tirar un sólo dato

– Estadísticas muy ricas y de gran detalle para cada cliente

– Tecnologías principales:

● Hadoop● NoSQL, Splout SQL

● Ejemplos

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

24 / 27

Juegos online

● Lo que se podía antes del Big Data– Recibir y procesar el gran nivel de eventos era casi imposible

– Tecnologías principales:

● Bds relacionales (i.e. MySql, Oracle)● Sistema de colas con consumidores

● Lo que era casi imposible y ahora es muy razonable– Estadísticas y respuesta a eventos en tiempo real

– Tecnologías principales:

● Storm, Erlang● NoSQL

● Ejemplos

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

25 / 27

Agenda

1. Definición de Big Data

2. Lo disruptivo

3. Ejemplos sectoriales

4. Conclusiones

Cop

yrig

ht ©

201

2 D

atas

alt S

yste

ms

S.L

. All

rig

hts

rese

rved

. Not

to b

e re

prod

uced

wit

hout

pri

or w

ritt

en c

onse

nt.

26 / 27

Conclusión

● El Big Data es algo disruptivo● Razón principal: Nuevas tecnologías

– Que hacen posibles aplicaciones antes casi imposibles● Tecnologías aún no maduras y muy dispersas

– Salvo Hadoop, con alto grado de madurez y que resuelve gran parte de problemas

● Oportunidad: arriesgar y abrazar estas tecnologías– Hay cierto riesgo (bajo grado de madurez)– Pero puede suponer una ventaja estratégica– Apostar por equipos pequeños pero capaces

● No centrarse únicamente en tecnología– Preparar equipos humanos Big Data (científicos de datos)

Gracias

Iván de Prado Alonsoivan@datasalt.com@ivanpradowww.datasalt.com

Creative Commons images:http://www.flickr.com/photos/83633410@N07/7658298768/http://www.flickr.com/photos/meatheadmovers/5346219239/in/photostream/http://www.flickr.com/photos/meatheadmovers/5346220901/in/photostream/http://www.flickr.com/photos/jepoirrier/8319130269/

top related