Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices

Distributed Machine Learning and Graph Processing with Sparse Matrices

Speaker: LIN Qianhttp://www.comp.nus.edu.sg/~linqian/

Big Data, Complex Algorithms

PageRank(Dominant eigenvector)

Recommendations(Matrix factorization)

Anomaly detection(Top-K eigenvalues)

User Importance(Vertex Centrality)

Machine learning + Graph algorithms

Large-Scale Processing Frameworks

Data-parallel frameworks – MapReduce/Dryad (2004)– Process each record in parallel – Use case: Computing sufficient statistics, analytics queries

Graph-centric frameworks – Pregel/GraphLab (2010)– Process each vertex in parallel– Use case: Graphical models

Array-based frameworks – MadLINQ (2012)– Process blocks of array in parallel– Use case: Linear Algebra Operations

PageRank using Matrices

Power Method Dominant

eigenvector

M = web graph matrixp = PageRank vector

Simplified algorithm repeat { p = M*p }

Linear Algebra Operations on Sparse Matrices

Statistical software

moderately-sized datasetssingle server, entirely in memory

Work-around for massive dataset

Vertical scalabilitySampling

MapReduce

Limited to aggregation processing

Data analytics

Deep vs. Scalable

Statistical software(R, MATLAB, SPASS, SAS) MapReduce

Improvement ways

1. Statistical sw. += large-scale data mgnt2. MapReduce += statistical functionality3. Combining both existing technologies

Parallel MATLAB, pR

HAMA, SciHadoop

MadLINQ [EuroSys’12]

Linear algebra platform on DryadNot efficient for sparse matrix comp.

Ricardo [SIGMOD’10]

But ends up inheriting the inefficiencies of the MapReduce

interface

R Hadoopaggregation-processing queries

aggregated data

Array-basedSingle-threaded

Limited support for scaling

Challenge 1: Sparse Matrices

Challenge 1 – Sparse Matrices

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 971

LiveJournal Netflix ClueWeb-1B

Block ID

1000x more data Computation imbalance

Challenge 2 – Data Sharing

Sharing data through pipes/network

Time-inefficient (sending copies)Space-inefficient (extra copies)

Process

copy of data

local copy

Process

copy of data

Process

copy of data

Server 1

network copy

Server 2

Sparse matrices Communication overhead

Extend R – make it scalable, distributedLarge-scale machine learning and

graph processing on sparse matrices

Presto architecture

WorkerWorker

Master

R instanceR instance

R instance R instanceR instance

R instance

Distributed array (darray)PartitionedSharedDynamic

foreach

Parallel execution of the loop body

Barrier

Call Update to publish changes

PageRank Using Presto

M darray(dim=c(N,N),blocks=(s,N))P darray(dim=c(N,1),blocks=(s,1))while(..){ foreach(i,1:len,

calculate(m=splits(M,i), x=splits(P), p=splits(P,i)) { p m*x

Create Distributed Array

PageRank Using Presto

M darray(dim=c(N,N),blocks=(s,N))P darray(dim=c(N,1),blocks=(s,1))while(..){ foreach(i,1:len,

calculate(m=splits(M,i), x=splits(P), p=splits(P,i)) { p m*x

Execute function in a cluster

Pass array partitions

Dynamic repartitioning

To address load imbalanceCorrectness

Repartitioning Matrices

Profile execution

Repartition

Partition if

Invariants

compatibility in array sizes

Maintaining Size Invariants

invariant(mat, vec, type=ROW)

Data sharing for multi-core

Zero-copy sharing across cores

Data sharing challenges

1. Garbage collection2. Header conflict

R object data partR object header

R instance R instanceGarbage collect

ReadWrite Write

Overriding R’s allocator

Allocate process-local headersMap data in shared memory

Shared R object data partLocal R object header

page boundary page boundary

Immutable partitions Safe sharing

Only share read-only data

Versioning arrays

To ensure correctness when arrays are shared across machines

Fault tolerance

Master: primary-backup replicationWorker: heartbeat-based failure detection

Presto applications

Presto doubles LOC w.r.t. purely programming in R.

Evaluation

Faster than Spark and Hadoop using in-memory data

Multi-core support benefits

Data sharing benefits

Compute TransferCO

No sharing

Sharing

Repartitioning benefits

0 20 40 60 80 100 120 140 160

Transfer ComputeW

0 20 40 60 80 100 120 140 160

No Repartition

Repartition

Repartitioning benefits

0 2 4 6 8 10 12 14 16 18 202000

400Convergence TimeTime spent partitioning

Number of Repartitions

artiti

Limitations

1. In-memory computation2. One writer per partition

3. Array-based programming

• Presto: Large scale array-based framework extends R

• Challenges with Sparse matrices• Repartitioning, sharing versioned arrays

Conclusion

IMDb Rating: 8.5Release Date: 27 June 2008Director: Doug SweetlandStudio: PixarRuntime: 5 min

Brief: A stage magician’s rabbit gets into a magical onstage brawl against his neglectful guardian with two magic hats.

Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices

data sharingsharing

memory data

big data

data analyticsdeep

data sharing benefits4

data sharing challenges1

largescale data mgnt2

data computation imbalance

Technology

Peter Benner Thomas Mach€¦ · matrices. Hierarchical...

Presto: Distributed Machine Learning and Graph Processing...

Sparse Matrices for High-Performance Graph...

Sparse Matrices sparse … many elements are zero dense …....

Lecture 17: More Fun With Sparse Matrices

Dimensionality reduction via sparse matrices€¦ ·...

sparse matrices in tress

Sparse Matrices

Sparse matrices and substructures : with a novel...

When Sparse Matrices Met Heterogeneous Processors ... ·...

Sparse Matrices and Graphs: There and Back...

Design Patterns for Scientific Computations on Sparse...

Fast Matrix Multiplication with Big Sparse Data18 2. Problem...

SPECTRA OF SPARSE GRAPHS AND MATRICES - Alexey · SPECTRA.....

Storage Scheme for Sparse Matrices - University of Minnesota

Sparse Matrices In MATLAB: Design and Implementation