Top Banner
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék RHadoop: MapReduce R-ben Kocsis Imre ikocsis @mit.bme.hu BURN Meetup, 2014.01.15.
15

Lightning talk on RHadoop at the January meetup of BURN

Oct 21, 2014

Download

Technology

My lightning talk on RHadoop at the 2014 January meetup of the Budapest Users of R Network (BURN).
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Lightning talk on RHadoop at the January meetup of BURN

Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék

RHadoop: MapReduce R-ben

Kocsis Imre

[email protected]

BURN Meetup, 2014.01.15.

Page 2: Lightning talk on RHadoop at the January meetup of BURN

Egy/A Big Data probléma

Elosztott tárolás

„Computation to data”

„At rest Big Data”

o Nincs update

o „Mindent” elemzünk

„Not true, but a very, very good lie!”(T. Pratchett, Nightwatch)

Page 3: Lightning talk on RHadoop at the January meetup of BURN

MapReduce

Distributed File System

[ , ][ , ][ , ]

[ , ][ , ][ , ]

[ , ][ , ][ , ]

[ , ][ , ][ , ]

[ , ][ , ][ , ]

[ ,[ , , ]]

[ ,[ , , ]]

[ ,[ , , ]]

[ ,[ , , ]]

[ ,[ , , ]]

SHUFFLE

Map

Reduce

[ , ] [ , ] [ , ] [ , ] [ , ]

Page 4: Lightning talk on RHadoop at the January meetup of BURN

Szószámlálás

Page 5: Lightning talk on RHadoop at the January meetup of BURN

MapReduce stílusban szervezhető…

Ami „zavarbaejtően párhuzamos”o „embarrassingly parallel”

„Statistical Query Model”o Locally Weighted Linear Regression, Naive Bayes, Gaussian

Discriminative Analysis, k-means, Logistic Regression, Neural Network, PCA, ICA, EM, SVM, …

„Generalized Iterative Matrix-Vector mult.”o PageRank, gráfátmérő, összefüggő komponensek, …

Page 6: Lightning talk on RHadoop at the January meetup of BURN

RHadoop = Hadoop + R

Hadoop

HDFS

[ , ] [ , ] [ , ]

SHUFFLE

Map

Red

uce map(k,v)

reduce(k,vv)

mapreduce(...)

Page 7: Lightning talk on RHadoop at the January meetup of BURN

RHadoop

github.com/RevolutionAnalytics/RHadoop/

„The most mature […] project for R and Hadoop is RHadoop.” (O’Reilly, R In a Nutshell, 2012)

rmr: mapreduce

rhdfs: HDFS állománykezelés

rhbase, plyrmr

Page 8: Lightning talk on RHadoop at the January meetup of BURN

rmr: mapreduce

Page 9: Lightning talk on RHadoop at the January meetup of BURN

Local backend

rmr.options(backend="local")

Helyi állományrendszer

Szekvenciális végrehajtás

Debug!

Input/output itt is állományrendszer

Page 10: Lightning talk on RHadoop at the January meetup of BURN

Input/output format

text

json

csv

native (R sorosítás)

sequence.typedbytes (Hadoop)

pig.hive

hbase

Page 11: Lightning talk on RHadoop at the January meetup of BURN

Előnyök

Map és Reduce: R-ben

o Csomagok!

oMR algoritmus-prototipizálás

+ a vezérlés is: kényelem

Hadoop Job: egy függvényhívás!

o Pl. iteratív MapReduce teljesen R-ben

o Map és Reduce: ~a hívó környezetben

Page 12: Lightning talk on RHadoop at the January meetup of BURN

Hogyan lehet ilyenem?

Local backend, sandbox VM-ek

o Cloudera, Hortonworks

Saját Hadoop klaszter

Amazon Elastic MapReduce (EMR)

o Bérelhető Hadoop klaszter

Saját felhő megoldás

Page 13: Lightning talk on RHadoop at the January meetup of BURN

Rhadoop az Apache Virtual Computing Lab-ban

Előnyök és hátrányok

Page 14: Lightning talk on RHadoop at the January meetup of BURN

Hátrányok?

Nehézkes debug

+1 hangolási réteg

MAHOUT-klón

Sok Hadoop funkc.

Kevés példa

Page 15: Lightning talk on RHadoop at the January meetup of BURN

Ritka események kategorizálása RHadooppal

Infrastr.-adatok

Salánki Ágnes

Működik.

Jópár „gotcha”

De inkább, mint Java-ban