Top Banner
Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics Netherlands Spanning tussen theorie en data gedreven manier van werken
38

Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

May 22, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Van Big Data naar Officiële Statistiek

Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS

31 Jan., Leuven

Statistics Netherlands

Spanning tussen theorie en data gedreven manier van werken

Page 2: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Overview

2

• Big Data and Statistics Netherlands

• A Big Data based official statistic

• Skills needed

• Results of other Big Data projects

• Some concluding remarks

Page 3: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Statistics Netherlands

– Where?

3

Heerlen

Den Haag

We love Big Data!!

Page 4: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Center for Big Data Statistics (CBDS)

• Produce new, real time statistics and enriches and

deepens the statistics already produced (such as regional indicators)

• Reduce the impact on society (‘response burden’) • Deepens the methodological knowledge and privacy

considerations for using Big Data in official statistics • Stimulate cooperation by creating an ecosystem of

partners

4

Page 5: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

CBDS Scope

Data-scouting and data

access

Ethics and privacy

Methodology and data integration

Big data in official

statistics

Social statistics, safety, housing and health

Sustainable Development Goals

Smart Cities

Statistics on Economics internet economy, labour market, energy transition

Mobility day time population, traffic flows

5

Page 6: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Why is Big Data important?

Big Data has the potential to

– Shorter time to publication

– Respond to current events

– Higher reliability

– More detail

– More efficient processes

Considerations:

- Infrastructure

- Skills

- Culture

6

Page 7: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Big data based official statistics

– Big Data can be used for official statistics in several ways

1) As a single source

- census like

2) As an additional source

- combined with survey data

- combined with admin data

3) Other ways

- add missing data for some variables and/or units

– Road sensor data is used by our office to produce the

first Big Data based official statistic!

‐ Use this to illustrate the (new) skills needed! 7

Page 8: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Road sensors

Road sensor data – Passing vehicle counts for each minute (24/7) by about 60.000 sensors – 20.000 on the Dutch highways – Types of sensors:

‐ Induction loop ‐ Camera ‐ Bluetooth

– Large volume: approx. 230 million records/day

8

Page 9: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Dutch highways

9

Page 10: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Dutch highways + road sensors

10

20.000 sensors on highways

Page 11: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Minute data of 1 sensor for 196 days

11

Page 12: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

‘Afsluitdijk’ (IJsselmeer dam)

12

Page 13: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

‘Afsluitdijk’ (IJsselmeer dam) (2)

Page 14: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Overall process

(2) Cleaning

(1) Transform

+ Select

(3) Estimation

(A) F

rame

14 -Regional estimates -Month/quarter/year

Page 15: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

‘Reducing’ Big Data

Big Data steps

(1)

(2) (3)

Page 16: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Process steps

(1) Transform and Select

(2) Cleaning

(A) Frame

(3) Estimation

16

Skills needed?

Skills needed?

Skills needed?

Skills needed?

Page 17: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Skills needed

17

Data Science Venn Diagram

Page 18: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

(1) Transform + Select

– Convert raw data to more compact data (without

information loss)

‐ Remove unneeded data

(variables and erroneous records)

‐ Recalculate values

‐ Store as compact as possible

‐ Implement process as efficient as possible

– Reduces size > 1000x !!

18

Statistics

Statistics

IT

IT

Page 19: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

(2) Cleaning

– Check quality of daily sensor data

– Correct for missing data

– Implement process as efficiently as possible

19 Bayesian filter ( ‘a Kalman filter for semi Poisson process’)

IT

Statistics

Statistics

Page 20: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

(A) Frame

– Use sensors on main route of Dutch Highways

– Project geolocation of sensors on roads

– Metadata quality checking and editing

– Calculate weights for sensors on road segments

20

Statistics

Statistics

IT

Statistics

Page 21: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

(3) Estimation

– Calculate number of vehicles per road segment

– Calculate traffic intensity per region

– Check/compare time series

– Adjust extremes where needed (if unexplained)

21

Statistics

Statistics

Statistics

Content

Page 22: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Skills when using Big Data

22

For Big Data we need Data Scientists (statisticians with IT skills!)

1x

10x Statistics

Content

IT 4x

Page 23: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Data journalism and fast statistics

Produced within

tw0 days!

Produce very rapidly available

statistics

Traffic reduced by half because of glazed frost

23

Page 24: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Traffic intensity and GDP

- GDP - Traffic

Traffic precedes GDP!

• By 1 quarter

Correlation

• 91% from 2011-

Q2 till 2014-Q4

24

Page 25: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Social media sentiment

Consumer confidence

So

cial

med

ia s

enti

men

t

- Correlation > 0.9, Facebook is most important date source (Twitter is the other one) - Including social media in survey based consumer confidence increases precision of estimate

Page 26: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Social unrest indicator (near ‘real time’)

26

Page 27: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Social unrest indicator (2)

Year Month

Week Day

Page 28: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Cyber security

28

Study DDos attacks in various sources

These are all reactions to the attack, not the attack itself

Page 29: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Automatic Identification System data

Data of ships (GPS signal) 200 millions records/day world wide Courtesy of Maarten Pouwels 29

Page 30: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Innovation in the Netherlands

30

Page 31: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

New (and fun) indicators

31

‘Pepernoten’ index: result of data-driven exploratory study on scanner data

(Friday afternoon projects)

Turn over of ‘cookies’ specific for Saint Nicolas festivities (2015 and 2016: weekly)

31

Page 32: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Spring in the Netherlands

2013 2,5 mean 8 days below zero

2014 8,3 mean 0 days below zero

Flowering of the wood anemone

32

Page 33: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

33

Big Data and CBS

Sources (bits)

‘Big Data’ Administrative data Survey data

Sta

tist

ics

(bit

s)

16,00% 0,62%

13,62%

0,38%

23,95% 14,52%

5,09%

3,07%

3,05%

19,69%

scannerdata

Page 34: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Concluding remarks

– Big Data has potential for official statistics – There is one example, more are on the way

– Interesting (first) results but ‐ It is a relatively new area for official statistics, so a lot needs to be

checked

‐ People need to get adjusted to the ‘Big Data’ way of working

– The skills set of ‘statisticians’ needs to be extended ‐ Programming and optimization

– Definite need for a methodological foundation ‐ Population view

‐ Interpret and asses data-driven results

34

Page 35: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Big Data !!!

35

Page 36: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

The Future

36

The future

of statistics

looks

BIG

Page 37: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Thank you for your attention! @pietdaas

Page 38: Van Big Data naar Officiële Statistiek...Van Big Data naar Officiële Statistiek Piet J.H. Daas en al mijn Big Data collega's/Data scientists bij het CBDS 31 Jan., Leuven Statistics

Questions?

38