Top Banner
College 4 Exploring Data
34

Software Engineering College 4 - exploring data

Jan 20, 2017

Download

Documents

Jurjen Helmus
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Software Engineering College 4 - exploring data

College 4 – Exploring Data

Page 2: Software Engineering College 4 - exploring data

https://play.google.com/store/apps/details?id=com.ionicframework.evspotter711839

Verzoek aan de groep – gebruik de EV spotter APP

Page 3: Software Engineering College 4 - exploring data

WITH THE CHARGING DATA AS CENTRAL DATASET, THE DATABASE IS CONTINUOUSLY EXPANDED, EXTENDED AND ENRICHED AND SCRAPED

Data Extension

Data enrichment Data Scraping

Data Expansion

OCPI

Page 4: Software Engineering College 4 - exploring data

Hoofdstukken

Kortom: Wat is er blijven hangen van het vorige college?

Page 5: Software Engineering College 4 - exploring data

Het doel van dit college is dat je • Een nieuwe dataset gestructureerd kunt

exploreren• Ggplot2 kunt inzetten voor data exploratie• In timeseries enkele transformaties kunt maken

om de data te exploreren

Page 6: Software Engineering College 4 - exploring data

Exploring data volgens Pr Dt Sc

Time serie changes

Opdracht komende week

Page 7: Software Engineering College 4 - exploring data

Stel je voor je bent klaar…. Wat heb je dan????Metadata

Legacy

OLTP

ERP

External

Datamart 1

ETLStagingArea

BusinessIntelligenceApplications

(Q&R,OLAP,Visualization,Data Mining)

Datamart 2

Datamart n

‘Production’ ‘Assembly & Logistics’ ‘Consumption’

‘closed loop’

EAIEII ODS

ETL

Data Warehouse

Page 8: Software Engineering College 4 - exploring data

SCREENSHOT RSTUDIO MET VEEL DATASETS

Juist ja.. Een Rstudio vol met dataframes

Page 9: Software Engineering College 4 - exploring data

Hfst3 exploring data

Page 10: Software Engineering College 4 - exploring data

Feitelijk zijn we in een soort tussenfase beland waar we wel de schone en uniforme data hebben maar nog geen inzicht in de data

Page 11: Software Engineering College 4 - exploring data

Exploring data – wat is de 0e functie die je uitvoert als je en dataset binnenkrijgt??

Hebben alle variabelen in de juiste class

Page 12: Software Engineering College 4 - exploring data

Exploring data – wat is de 1e functie die je uitvoert als je en dataset binnenkrijgt??

Waar kijk je naar? • Per variabele• NA’s• Scheve verdeling /outliers / technische onmogelijkheden

Page 13: Software Engineering College 4 - exploring data

Exploring data – wat is de 2e functie die je uitvoert als je en dataset binnenkrijgt??Pairs[data.frame[,kolommen]]

Page 14: Software Engineering College 4 - exploring data

Opdracht – analyseer deze dataset

Page 15: Software Engineering College 4 - exploring data

Exploring data – voorbeeld uit het boek

Page 16: Software Engineering College 4 - exploring data

Exploring data – voorbeeld uit het boek

Page 17: Software Engineering College 4 - exploring data

Wat kun je zoal vinden

Missing valuesInvalid and outliersData rangeUnit issues (1,000$ vs $)

Page 18: Software Engineering College 4 - exploring data

Wat haal je uit de grafische dataWhat is the peak value of the distribution? How many peaks are there in the distribution (unimodality versus bimodality)?

How normal (or lognormal) is the data?

How much does the data vary? Is it concentrated in a certain interval or in a certain category

Page 19: Software Engineering College 4 - exploring data

Maak een schets in 1 figuur van …

TTV: Hoe zou je je data science project voortzetten als je data als custdata$age eruit zou zien?

Page 20: Software Engineering College 4 - exploring data

Normale plots versus Log plots

Leg uit wat je van deze plot vindt en wat deze plot je vertelt

Page 21: Software Engineering College 4 - exploring data

Normale plots versus Log plots

TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg 48), geef voorbeelden..

Page 22: Software Engineering College 4 - exploring data

Normale plots versus Log plots

TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg

Page 23: Software Engineering College 4 - exploring data

Opdracht (10 minuten)

Zoek een wiskundige uit waarvan je denkt dat hij/zij jou iets uit kan leggen zodanig dat jij het ons uit kan leggen.

Wat is het verschil tussen een normale en een lognormale verdeling

Wat is skewness?

Wat is kurtosis?

Page 24: Software Engineering College 4 - exploring data

2 dimensionele grafieken tonen je het volgende

Page 25: Software Engineering College 4 - exploring data

De stacked bar laat verschillen zien tussen twee groepen op basis van een 2e variabele

Page 26: Software Engineering College 4 - exploring data

Facetting toont groepen van variabelen nast elkaar

Page 27: Software Engineering College 4 - exploring data

http://sachaepskamp.com/files/CCStalkEpskamp.pdf

Correlation networks met qgraph

Page 28: Software Engineering College 4 - exploring data

library(radarchart) library(tidyr) radarDF <- top20 %>% select(player_name, 10:42) %>% as.data.frame() radarDF <- gather(radarDF, key=Label, value=Score, -player_name) %>% spread(key=player_name, value=Score) chartJSRadar(scores = radarDF, maxScale = 100, showToolTipLabel = TRUE)

Page 29: Software Engineering College 4 - exploring data

www.kaggle.com/datasets

TransferMatrix <- na.omit(TransferDf) %>% ungroup() %>% group_by(FormerLeague, CurrentLeague) %>% summarise(sub = n()) %>% ungroup() %>% na.omit() %>% mutate_each(funs(factor), FormerLeague:CurrentLeague) %>% acast(FormerLeague ~ CurrentLeague, value.var = "sub")

Page 30: Software Engineering College 4 - exploring data

Hoeveel feitelijke variabelen hebben we eigenlijk?

Page 31: Software Engineering College 4 - exploring data
Page 32: Software Engineering College 4 - exploring data

Opdracht komende vrijdagExploreer één van de datasets op Kaggle.com/datasets

Presenteer iig het volgende1. Schets de context van de data (wat is gemeten, wat is de data, gebruik

plaatjes/figuren/illustrateis) -> wij moeten het begrijpen2. Download en ETL de data (leg uit wat je binnen ETL gedaan hebt)3. Exploreer de data als geheel, per variabele, paarsgewijs en als totaal*4. Leg uit wat je opvalt in de data en maak daar een uitleg bij in de context van de data5. Welke kansen of onderzoeksvragen of praktijkvragen kun je met de data oplossen6. Stel hypotheses over wat je verwacht als je een (voorspel) model zou maken7. Reflectie slide(s) (1) welke problemen / onverwachtse dingen ben je

tegengekomen (2) wat heb je geleerd

Zorg voor• Backup slides van de code die je gebruikt hebt• Backup slides van alle figuren die je niet als basis verhaal hebt maar wel als ondersteuning

Tip: Steel jat en ontleen aan Kaggle en Google, maar niet zonder dat je zelf kun uitleggen wat de code doet!* iig Summary / pairs / heatmap / ggplot /qgraph en vele andere….

Page 33: Software Engineering College 4 - exploring data
Page 34: Software Engineering College 4 - exploring data

Typische Tentamenvragen• geef enkele voorbeelden (inclusief R code) voor het exploreren

van data