Large Scale Analytical Data Management

Peter Boncz

Large-Scale Analytical Data Management

Database Research Data Mgmt Systems Research• SIGMOD, TODS, PVLDB, ICDE, VLDBJ

– major industry connections (billion$/y)

Expanding Topic set & Societal Impact– Data Stream Processing– Data Mining – Information Extraction, Text Retrieval– RDF and Graph data management– MapReduce + Cloud– Data Privacy

DB Research Highlights (1/4)

Data Storage and Query – efficiency/scalability• Computer architecture vs DBMS architecture

http://www.tpc.org/tpch/results/tpch_perf_results.asp?resulttype=noncluster

Data Storage and Query – efficiency/scalability• Computer architecture vs DBMS architecture

– Columnar storage

– Fast Compression Methods– Differential Storage Techniques (Positional Delta

Trees)– Vectorized Execution

• http://www.tpc.org/tpch/results/tpch_perf_results.asp?resulttype=noncluster

– Robust Query Execution (“micro adaptivity”)– Just-In-Time (JIT) Compilation– Cooperative Scans – sharing scarce I/O bandwidth

http://www.tpc.org/tpch/results/tpch_perf_results.asp?resulttype=noncluster

Commodity Cluster Computing - Cloud• Various MonetDB Cluster Projects

– Shared-nothing data storage, query optimization• Hadoop VectorWise (VU MSc projects)

– cluster scalability &failover– Tightly integrated Hadoop/YARN/HDFS

• CWI scilens cluster– Amdahl number >1 large I/O resources– Other uses:webcraw analysis, 500 billion triple BI BSBM

benchmark

Adaptive Indexing• DBA expertise extremely scarce• Science workloads hard to predict & variableDatabase Cracking:“every query is an advise how to store the

data”continuous self-steering data

reorganization

+ Approximate Query Execution on Samples+ Recycling – exploit overlap in workloads+ Fingerprint Indexing – exploit local

correlations

Support for non-tabular data• Text (retrieval)• Scientific

– Data vaults: directly query FITS, GeoTIFF,BEM,MSEED,..

– SciQL: Arrays as 1st class database objects– MonetDB.R: using columns as arrays (and vice

versa)• Semantic Data – RDF

– “automatically discovering schemas in LOD data”• Bridge gap between RDF and relational

• Graph Data Management– Benchmark development

Application Areas

– Business Intelligence• Marketing/Sales, Fraud Detection, Churn (spin-offs)• Social network analysis (LDBC)

– Security• Digital Forensics (NFI - XIRAF)• ...

– Science• Astronomy (LOFAR transient search) • Meterology (Earthquake Analysis - KNMI)

– Linked Data• Open government (LOD2)

Areas of Activity

Understand and decide

Analyze and model

Store and process

Reasoning

Knowledge representati

MultimediaRetrieval

Modeling and

simulation

Machine Learning

Information Retrieval

Decision Theory

BusinessAnalytics

VisualAnalytics

DistributedProcessing

Large Scale Databases

SoftwareEng.

System / Network

Data Science Education

enormous demand for (“big”) data scientists• Possibilities/limitations of wide array of techniques

– Information extraction, cleaning– Ranking, retrieval– Data Mining, and its applications– DB principles (Q-opt, query processing algorithms, storage techniques)

• Understand key performance factors– Latency vs bandwidth– Networks, computer architecture– algorithm optimization techniques

• Practical skills– Modern Software engineering methods– Rapid prototyping languages– Solving problems usin Hadoop clusters

proposal: “Extreme Data Management” MSc course

Opportunities: CWI

• Database Architecture Group– research, application, data science experience– MonetDB, Vectorwise technologies– Scilens: data-intensive large compute cluster

• CWI motivators– Dual Appointments– Data Science MSc education

• Attracting top students into MSc projects / PhD– DSRC co-positioning in future research funding

Conclusion

• Database research present in Amsterdam– research, application, valorisation

• Data Science Education!– Proposal: Extreme data Management course

• ..DSRC and the CWI..

Large Scale Analytical Data Management

data storage

retrieval data mining

semantic data rdf

cloud data privacy

extreme data management

ds rcdb research highlights

lod data bridge gap

data open government

Technology

RoSS.pFTU Large-Scale,RoSS.pFTU Large-Scale

7 APlace: A High Quality, Large-Scale Analytical...

Eﬃcient simulation-based toll optimization for large-scale...

Large scale abstract_sculpture

A Large-Scale Neural Network Which Recognizes Handwritten...

Inferring large-scale patterns in complex...

LARGE SCALE ORGANISATIONS

Large Scale Note

Cosmology : Cosmic Microwave Background & Large scale...

Building Big Data Analytical Applications at Scale Using...

Architecture and Details of a High Quality, Large-Scale...

Large-Scale Image Classification using High Performance...

FINANCING LARGE SCALE SOLAR · FINANCING LARGE SCALE SOLAR....

Fast Analytical-Scale Separations by Capillary...

Review Analytical-scale supercritical fluid extraction: a...

Geography of Scale. Definitions of Scale Why does Scale...