Top Banner
Big Data: Business, not as usual Dr. Ir. Patrick A. De Mazière
44

Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

Jan 23, 2017

Download

Business

ikinnoveer
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

Big Data: Business, not as usualDr. Ir. Patrick A. De Mazière

Page 2: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Structuur Workshop

• 1.5u Big Data: Ex Cathedra wat, spelers en analysetechnieken big data analyses at your service…

• 30’ Pauze• 1.5u Nu is het aan jullie Q & A Tips & tricks ivm the dark side of the net Weetjes

Page 3: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Bio• Patrick De Mazière, °1973

• Burg. Ir. Computerwetenschappen, Programmatuur (KU Leuven, 1998)

• PhD Biomedische wetenschappen (KU Leuven, 2007)

• Masterclass High-Tech Entrepreneurship (KU Leuven-LRD, 2010)

• Postdoc, Neurofysiologie/Fac. Geneeskunde (KU Leuven, 2007 -)

Lid stuurgroep KU Leuven HPC (2005 - 2010)

Data/Text Mining (~ HPC)

Hersenonderzoek via mathematische modellen (~ HPC + Data Mining)

Statistiek

Onderwijsprojecten

• Onderzoekscoördinator ITech & Lector TI (UCLL, 2012 -)

Page 4: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Terminologie: big, deep, broad data• Big Data ~ data wetenschap:

Gigantische datasets (on)gestructureerd en bijhorende algoritmes om patronen, trends etcte detecteren in die datasets. Meestal gerelateerd aan het menselijke gedrag. Big data is om anderen te observeren

• Deep Data: Combinatie van een expert zijn domeinkennis met data wetenschap. Gevorderde interpretaties en pre-processing mogelijkheden. Deep data is meestal ook gecollecteerd met een bepaalde bedoeling/analyse in het achterhoofd. Deep data is om te reflecteren

• Broad data: Niet noodzakelijk big data, maar eerder gestratificeerde & diverse data (bronnen). Zoveel mogelijk weten vanuit verschillende standpunten, invalshoeken in plaats van veel te weten vanuit 1 invalshoek. Is dus om bestaande data te verrijken.

Page 5: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Big Data

Refereert aan 3,5 zaken• Big• Data

• Analyse

• Interpretatie resultaten

Page 6: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Wat is BigSchaal: Byte Kb Mb Gb Tb Pb Exab Zettab Yottab

• 8 keer 0 of 1 8 bit of 1 byte

• Deze presentatie ± 15 Megabyte

• DVD (= ± 6.5CDs) 4.5 Gigabyte

• Een doorsnee univ-bib 1 Terabyte of 3j lang muziek aan CD kwaliteit

• Ons menselijk functionele geheugen ± 1.25 Tb

• UZ Leuven, PACS systeem (2015) 1.6 Petabyte

Anno 2014: Rijstkorrels / jaar opgegeten = 27.5 quadriljoen (27.5 peta korrels)

Wereldwijd data-verbruik / 30 minuten = 40.4 petabytes

Page 7: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Wat is DataAlles wat ge kunt “bedenken”• Hopen cijfertjes (CERN, bevolkingsdata, …)• Gouden Gids• Medisch (fMRI, MRI, PET, CT scanners, EMD/GMD, …)• Biomedisch (omeomics: genomics, proteomics, ….)• Verkeersinformatie (~ Google Maps + traffic info)• Social Media Interacties (FB, Google+, Twitter, LinkedIn, …)• …

Page 8: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Wie is/levert Big Data (2012)fMRI data (hersenscan /1u @ 1.5M res/2s) 80 Gb

Database Google Earth (2014) > 20 Pb

Dropbox > 50 Pb

Facebook Cloud > 300 Pb

Microsoft Cloud (Azure + Hotmail) > 300 Pb

CERN Data cloud (Budapest + Geneva) 340 Pb

Google Cloud > 600 Pb

Amazon’s cloud > 900 Pb

Bronnen: http://www.extremetech.com/computing/129183-how-big-is-the-cloud, 2012

Kostprijs voor 40Pb /maand = ± $100.000Google betaalde in 2007 2.4 mia$ voor zijn datacenters

Big data = big business

Page 9: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

FB in detail (2012)• 9% dagelijkse internet-verkeer

• > 1 000 000 000 000 (1T) webpage views/maand

• 300 miljoen foto’s extra /dag

• > 1 miljoen websites

• > 550 000 applicaties gelinkt aan FB (Candy Crush, Farmville, ….)

• > 10 data centers; 60.000 servers

• 845 miljoen gebruikers / maand

• De echte grootte ? Company secret

FB Data center in North Carolina; 2.8 hectare; 60 MegaWatt

Bron: http://www.datacenterknowledge.com/the-facebook-data-center-faq/

Page 10: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Google in detail (2014)• 425 mio Gmail gebruikers

• Google (Dremel) scant ±70 mia items/sec; 2 mio zoekopdrachten/sec

• 16 data centers (900k servers): US/EU: 9/7; 260MW of 0.01% wereldverbruik E

• Google zal alle boeken (129 mio) gescand hebben voor 2020

• Slechts 16% van de dagelijkse internet searches zijn nieuw voor Google

• Google int 60 mia$/jaar door zijn advertising in 2014

• Op 16/8/2013 was Google offline gedurende 5 minuten => internet trafiek -40%

• 1 Google zoekopdracht vereist meer rekenkracht > Apollo 11 maanlanding

• Google Maps Traffic info ? Google traceert alle online Android devices continu

Bron: https://storageservers.wordpress.com/2013/07/17/facts-and-stats-of-worlds-largest-data-centers/http://www.factslides.com/s-Google

Page 11: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI https://myaccount.google.com/privacy

Middelmatige Gmail gebruiker, Google+ gebruiker sinds 1jaar => 14Gb aan data

Page 12: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

BTW, dit zijn echt wel grote jongensWho Registered population [millions]Google+ 1600

China 1390

Facebook 1280

India 1260

Twitter 646

Qzone (Chinese Facebook) 480

USA 323

Indonesia 252

Brasil 202

LinkedIn 200

Sources: http://en.wikipedia.org/wiki/List_of_social_networking_websites 2014 http://www.worldometers.info 2014

Page 13: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Klassieke fMRI analyse• Massieve univariate aanpak. Per voxel:

1 Generiek Lineair Model: elke regressor ~ stimulus (of confound/baseline) Regressoren worden gecorrigeerd voor gekende inertie van het bloed (temp. autocorrelatie)

=> Regressie coeff’s ~ maat gerelateerdheid van een voxel aan de stimuli Significantie van gerelateerdheid wordt uitgedrukt dmv. t-test gebaseerd op verschil in regressie

coeff. (+ multiple comparison correction)

Page 14: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Alternatieve, geavanceerde aanpak• Onderzoek fMRI metingen mbv. SVMs, i.c., onderzoek van de temporele consistentie van het

antwoord van voxels op de stimulus: Stimulus gevoelige voxels hebben een “identisch” antwoordpatroon over tijd

=> Predictie van accuraatheid van SVM is boven kansniveau Niet-stimulus gevoelige voxels hebben een random antwoordpatroon over tijd

=> Predictie van accuraatheid van SVM is quasi gelijk aan kansniveau

• Probleem:Men moet 500k SVMs berekenen ? Elk met 100x permutaties van de training en test sets om de betrouwbaarheid van de resultaten op een deftig niveau te brengen.Workstation Quad Core Xeon: 2jaar rekentijd ….

Verdeel & heers: Data opsplitsen in blokjes, elk blokje door 1 “computer” laten berekenen ~> HPC.Slechts 2 dagen werk !

Page 15: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Page 16: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Page 17: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Page 18: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Page 19: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Page 20: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

• 4-5 uur / 20 voxels, gecompileerde Matlab code (incl. 100 permutaties)• Datasets worden locaal op cluster bewaard => beperkte I/O trafiek

Page 21: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI Analysemethoden in Big Data Teaser• Aandachtspunten• Numerieke & Visuele analysetechnieken

Computerkracht vs realiteit• Wet van Moore: computerkracht x2 / 18 maanden• Wet van Carlson: complexiteit/kost groeit exponentieel

Page 22: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

1. Data & Resultaat Integriteit

• Data check = belangrijk ! Volledig ? Representatief ? (!) Outliers

• Controle van vals positieven en negatieven

• Hoogdimensionaal+ veel data uiteraard

Page 23: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

2. “Numerieke” analysemethodes• Summatieve statistiek (gemiddelde, variantie, sd, …)• (Multivariate) analyses: ANOVA, MANOVA, ANCOVA, …• Model-gebaseerde technieken

~ Fitten van data aan een functie (rechte, polynoom, …)~ (Lineaire) Regressie modellen

• Unsupervised categorisatie >> predictie• Feature extractie (prototypes)

Vaak weet je op voorhand wat je zoekt, ga je uit van een bepaald model. Bruikbaarheid is beperkt, al levert het indicaties.

Page 24: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

3. Visuele analysemethodes

Ook numeriek uiteraard, maar beter interpreteerbaar

• Parallelle coördinaten

• Supervised clustering (k-means, Fuzzy clustering, …)

• Projectie technieken (PCA, MDS, …)

• AI/Machine Learning: Self-organising maps (SOM), U-maps

Meestal vrij complexe berekeningen (die veeeeel tijd & CPU vragen), maar wel zeer verhelderend zijn en meestal niet-model gebaseerd

Page 25: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Parallelle Coördinaten

• Is ne simpele om zelf te doen als je cat kent

• Beschouw data als Excel bestand: Elke kolom een variabele/eigenschap/parameter Elke rij een voorkomen van je data (sample)

• Herschaal (normaliseer) elke kolom, bijvoorbeeld [min, max] -> [-100, 100]

• Zet uit in een grafiek: elke kolom is 1 as, elk sample teken je op die as met de kleur van zijn cat en volgens schaal

Page 26: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

3 dimensions; 120 samples coming from 4 categories

Vb 1 parallelle coordinaten

Page 27: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Vb 2 parallelle coordinaten300 dimensions; 90 samples coming from 4 categories

Page 28: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Vb PCA (principale comp analyse)Zelfde 300 dimensions; 90 samples coming from 4 categories

Page 29: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Text mining

• Elk document wordt voorgesteld in functie van aanwezige woorden (elk woord-stam is een dimensie). Aantal voorkomens wordt bijgehouden

• Verzameling documenten kan je dan mappen op de unie van al deze dimensies van de verschillende documenten.

= veel getallekes (teveel om te vatten)=> Visualiseren (MultiDimensional Scaling bijvoorbeeld)

Page 30: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Text Mining – MDS voorbeeld

Page 31: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

SOM – U-maps

• Opnieuw startend van text mining resultaat: voorstelling van elk document in extreem hoog-dimensionale ruimte (> 1.5 miljoen dimensies voor zelfstandige naamwoorden en werkwoorden alleen, vertrekkende van 7000 documenten)

• Artificieel Neuraal Network gaat mapping zoeken (niet-lineair, unsupervised). 1 week rekenwerk op workstation

Page 32: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI Text Mining – SOM / U-maps

Alternative visualisation to find related features. Each color is different feature. Neigbouring cells represent neighbouring “documents” too

Page 33: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

Genoeg theorie…

Toepassingen nu !

Page 34: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Social Media gebruiken ? Ja, maar…

• FB, Google+, … hebben data zat over jou, je klanten en je concurrenten, maar ze (ver)sturen je die uiteraard niet op (simpel) verzoek

• Oplossing: methodisch, indirect werken en de social media voor jou laten werken en eventueel zelf data verzamelen

Page 35: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Strategie: 1. Definieer InfluencersDefinieer je influencers : zij die jouw kar gaan trekken

1. Relevantie/Context: • In welk domein wil je actief worden ?• Wie is daar nog actief ?

2. Wat is hun bereik ? • Hoeveel followers, readers, likes, connecties moeten ze hebben? • In welk domein moeten die mensen voornamelijk zitten ?

3. Wat moet hun activiteitsgraad/resonantie zijn ?• Followers moeten niet alleen lezen maar ook het product kopen• Zijn het echte beïnvloeders of gewoon goede cursiefjes schrijvers• Zijn het mensen met gezag/aanzien/naam

Page 36: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Strategie: 2. Zoek die InfluencersZoek die influencers

1. Search Engine Optimisation (SEO)• Gewoon goed googlen, bingen, …• Search Engines gebruiken social media invloed in hun pageranks• Google alerts (https://www.google.com/alerts; maar geen SM)

2. Gebruik Social Media crawlers : 1. www.klout.com, 2. www.traackr.com3. www.kred.com4. www.kissmetrics.com5. www.appinions.com6. buzzsumo.com7. www.brandwatch.com

3. Werk je in, in de social media (bijv. hashtag research > hootsuite) om meer van hen te weten

Page 37: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI Zoeken: www.traackr.com

• Ondersteunt het zoeken van influencers

• Neemt de taak van het crawlen van social mediaop zich op basis van jouw keywords

Page 38: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI Blijf op de hoogte : https://www.google.com/alerts

Gebruik de groten om automatisch info te vergaren

https://cloud.google.com/bigquery/Try it for free

Page 39: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI Monitor je web-relevantie : https://www.google.com/trends

Page 40: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI (Eigen) bereik: www.klout.com

• Baseert zich op ± 400 factoren tweets, followers, likes, comments, retweets, mentions, connections,

1+, …

• Geeft een score terug gebaseerd op jouw online profiel tussen 0 en 100.

• Ik heb 40, kies mij dus niet niet actief op Facebook, zelfs geen account Google+, LinkedIn, Twitter, Forums etc

Page 41: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Monitor: http://buzzsumo.com

• Volg hoe jouw content zich waar via wie verspreid<> Google analytics: monitor wie naar jouw site komt

• Duid de influencers aan

• Content alerts ~ Google alerts

Page 42: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI Activiteit: www.kred.com ~ klout

• Monitoren van wie jou bereikt (0 – 1000) en hoeveel jij er bereikt (0 – 12) dmv hashtags / tweets

Momenteel zit Kredin een transitie

Page 43: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Centraal gebruik SM: distribueer boodschap Rapporteer activiteit per geconnecteerde SM-account “Hootsuite University” how to excel using SM

(Eigen) Bereik/Actie: www.hootsuite.com

Page 44: Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big data - patrick de mazière - deel 1

QUADRI

Strategie: 3. Bind die Influencers

Bind de gevonden influencers aan jeHoe ?Na de pauze !