Top Banner
Tutustuminen data-analytiikan ja Big Datan maailmaan Pasi Hellsten & Jari Jussila @PasiHellsten & @jjussila @EdutechTUT # Data4BizTraining 26.11.2015
66

Tutustuminen data-analytiikan ja big datan maailmaan

Jan 09, 2017

Download

Business

Jari Jussila
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Tutustuminen data-analytiikan ja big datan maailmaan

Tutustuminen data-analytiikan ja

Big Datan maailmaan

Pasi Hellsten & Jari Jussila @PasiHellsten & @jjussila

@EdutechTUT #Data4BizTraining

26.11.2015

Page 2: Tutustuminen data-analytiikan ja big datan maailmaan

”Suomen talouspolitiikkaa tehdään pahasti vanhentuneiden tietojen varassa, käytännössä sokkona.”

Kansanedustaja Jyrki J. J. Kasvi, TkT, Tieken tutkimus- ja kehitysjohtaja, ‘Tietoasiantuntija’-lehti 4/2015 (02.11.2015) https://t.co/piwBtps9Zn

”90 % maailman datasta on tuotettu kahden viime vuoden aikana*. Mutta pystymmekö me hyödyntämään kaikkea tätä dataa, muuttamaan sen informaatioksi, tiedoksi ja päätöksiksi?” ”..suuri osa meidän tietovarannoistamme on niin heikkolaatuisia, ettei niitä voi käyttää mihinkään muuhun kuin siihen tarkoitukseen, jota varten tiedot on alun perin kerätty.” ”Vanhoja tietojärjestelmiä ei ole suunniteltu big datan tarpeisiin, minkä seurauksena tietoaineistot ovat epäyhdenmukaisia ja vanhentuneita, ja määritelmät ja metadata ovat puutteellisia.”

* vrt. Mooren laki, 1965 (1975)

Page 3: Tutustuminen data-analytiikan ja big datan maailmaan

Liiketoimintatiedonhallinta

•  Liiketoimintatiedon hallinnalla tarkoitetaan toimintaa, jossa –  tietoisesti kerätään omaan liiketoimintaan ja liiketoimintaympäristöön

liittyvää tietoa, –  tulkitaan ja –  analysoidaan sitä, –  arvioidaan tiedon merkitystä ja –  käytetään analysoitua tietoa päätöksenteon tukena.

(Hannula 2003)

05/12/15 3

Page 4: Tutustuminen data-analytiikan ja big datan maailmaan

Kurssin kannalta keskeisiä termejä ja niiden väliset suhteet

P. Virtanen 4

Ulkoinen

Sisäinen

Tiedon luonne Kilpailutiedon

hallinta

Kilpailijatiedon hallinta

Laaja Kapea Tiedon keräämisen näkökulma

Pirttimäki 2007

Liiketoimintatiedon hallinta

Business (and competitive) intelligence, B(C)I

Competitive intelligence, CI

Competitor intelligence

Page 5: Tutustuminen data-analytiikan ja big datan maailmaan

Lähtökohtaisesti..

-  Ei ole olemassa kahta samanlaista organisaatiota. à  päätöksenteon tueksi organisaatiossa tarvitaan aina erilaista tietoa. -  Päätöksenteon nopeus kilpailuedun tuottajana on korostunut yritysten

nykyisessä toimintaympäristössä (tietotalous) -  Saatavilla olevan tiedon määrä on suuri, mutta sen tyyppi ja laatu

vaihtelevat -  Kaikkea tarpeellista tietoa ei kuitenkaan ole saatavilla (..helposti/halvalla/..) -  Kaikki tieto ei ole tarpeellista (infoähky) -  Haasteena on, miten löytää oikea tieto, analysoida ja hyödyntää sitä

Page 6: Tutustuminen data-analytiikan ja big datan maailmaan

Tiedolla johtamista ja tiedon johtamista

•  Tietojohtaminen voidaan jakaa tiedon johtamiseen ja tiedolla johtamiseen:

P. Virtanen 6

•  Tiedon johtaminen •  organisaatioiden tietovirtojen ohjaus •  tietotuotteiden kehittäminen •  tietojärjestelmien hyödyntäminen •  jne.

•  Tiedolla johtaminen

•  strateginen johtaminen ja arvonluonti •  suorituksen johtaminen ja tehokkaampi organisaatio •  jne.

Esitetty jako ei ole ehdoton, vaan pikemminkin tarkastelutapa. Vrt. kolikon kaksi puolta.

Page 7: Tutustuminen data-analytiikan ja big datan maailmaan

•  Liiketoimintatiedon hallinta käytännön tasolla –  Ilmiö pitää ymmärtää –  Tilaajan/päätöksentekijän toimintaa pitää ymmärtää (myös

oikea tahtotila) –  Sitten käytetään työkaluja

05/12/15 7

Page 8: Tutustuminen data-analytiikan ja big datan maailmaan

05/12/15 8

TOP Business Intelligence and Analytics Platforms

Lähde: Gartner 2015 http://www.gartner.com/technology/reprints.do?id=1-2ACLP1P&ct=150220&st=sb

Page 9: Tutustuminen data-analytiikan ja big datan maailmaan

05/12/15 9

TOP Advanced Analytics Platforms

Lähde: Gartner 2015 http://www.gartner.com/technology/reprints.do?id=1-2AHPOU0&ct=150225&st=sb

Page 10: Tutustuminen data-analytiikan ja big datan maailmaan

Johdanto

•  Termit haltuun ja uudet mahdollisuudet –  Big Datan ja analytiikkamaailman käsitteiden läpikäyminen

•  Tiedolla johtaminen –  Toiminnan kehittämisen eri ulottuvuudet, mihin kaikkeen data ja

analytiikka taipuvat •  Kulttuurin luominen ja organisointi

05/12/15 10

Page 11: Tutustuminen data-analytiikan ja big datan maailmaan

Datan käyttö ja analysointi; terminologiaa Termi Ajanjakso Kuvaus

Päätöksenteon tuki [Decision Support Systems]

1970-1985 Hyödynnetään data-analyysiä tukemaan päätöksentekoa

Johdon tukijärjestelmät [Executive Support/Information Systems]

1980-1990 Fokus data-analyysissä ylemmän johdon tueksi

Kuutioiden mallinnus [Online Analytical Processing, OLAP]

1990-2000 Ohjelmistoja multidimensionaalisten datataulujen analysointiin

Liiketoimintatiedon hallinta [Business Intelligence]

1989-2005 Työkaluja tukemaan datalähtöistä päätöksentekoa, painopiste raportoinnissa

Analytiikka [Analytics]

2005-2010 Fokus tilastollisessa ja matemaattisessa analyysissä päätöksenteon tueksi

Massadata [Big Data]

2010- Fokus erittäin isossa, monimuotoisessa ja nopeasti liikkuvassa datassa

11 (Big Data at Work, Davenport, 2014)

Page 12: Tutustuminen data-analytiikan ja big datan maailmaan

Päätöksenteon tukijärjestelmät ja johdon tietojärjestelmät ”1970-1990” •  Säästetään kustannuksia, optimoidaan tiettyä toimintaa,..

•  Tuotannonohjaus (Material Requirements Planning) •  Laajempi tuotannon ohjaus (Manufacturing Resources Planning, MRP II) •  Toiminnanohjaus (Enterprise Resource Planning) •  Erilaiset toimintokohtaiset järjestelmät

à Raportteja ja katsauksia

05/12/15 12

Liiketoiminnan odotukset IT:lle (Tallon & Kraemer 2007)

Page 13: Tutustuminen data-analytiikan ja big datan maailmaan

Kuutioiden mallinnus - OLAP (online analytical processing)

05/12/15 13

Tuote

Aika

Markkinat

image Athanasios Kastanidis

”1980-1990” Mm. ERP

Page 14: Tutustuminen data-analytiikan ja big datan maailmaan

OLAP-kuutioiden perusidea

•  OLAP-tekniikka poikkeaa perinteisestä tilastoinnista ja raportoinnista siten, että käyttäjä voi vaihtaa näkökulmaa tiedontarpeensa mukaan.

•  Esimerkiksi analyytikko voi lähteä 1) tarkastelemaan tuoteryhmien myyntiä maittain, 2) filtteröidä aineisto tiettyihin maihin 3) joista löytää jotain esimerkiksi myyntitavoitteista poikkeavaa. Tämän jälkeen 4) porautua esimerkiksi myyntiin tietyissä kaupungeissa. 5) Vaihtaa näkökulmaa liikevoittoon tuoteryhmittäin, jne.

05/12/15 14

”1980-1990”

Page 15: Tutustuminen data-analytiikan ja big datan maailmaan

Liiketoimintatiedon hallinnan ulottuvuudet

05/12/15 15

Organisaation sisäinen

Organisaation ulkoinen TIEDON

KOHDE

Määrällinen

Laadullinen

TIEDON TYYPPI

Organisaation sisäinen

Organisaation ulkoinen

TIEDON LÄHDE

(Hannula 2005; image Athanasios Kastanidis)

”1989-2005”

Page 16: Tutustuminen data-analytiikan ja big datan maailmaan

Tiedon arvoketju liiketoimintatiedon hallinnan näkökulmasta

05/12/15 16

(Myllärniemi 2012)

Page 17: Tutustuminen data-analytiikan ja big datan maailmaan

Tiedon tasot esimerkein avattuna

17

Informaatio Data Tietämys Ymmärrys

A X1 X2

1 1 300

2 0 159

… … …

100 1 501

A X1 X2

1 1 300

2 0 159

… … …

100 1 501

A = asiakasnumero

X1 = sukupuoli (0=nainen, 1=mies)

X2 = kk-ostot

• ”Meillä on tietokannassamme 100 asiakkuutta”

• ”85% asiakkaistamme on naisia”

• ”Keskimääräiset kk-ostot ovat 250€”

• ”Suurin osa asiakkaistamme on naisia, vaikka tuotteemme ovat suunnattu pääasiassa miehille -?!@%!”

Väisänen 2011

Page 18: Tutustuminen data-analytiikan ja big datan maailmaan

Tiedonhallinnan tasot

18

Innovoiva

Erottuva

Arkistoiva

Mallinnus Visualisointi

Ennustaminen Optimointi

Raportointi

”Löytyisikö täältä jotain?”

”Tiedän mitä tarvitsen mutta haluan tehdä sen kilpailijoita paremmin"

”Tätä tarvitaan mutta tällä ei erotuta"

(Informaatiosta kilpailuetua teollisuusyrityksiin, Valli & Ahlgren 2013)

tieto, joka on tallennettava esimerkiksi määräysten perusteella

tieto, jonka avulla voidaan edistää ja parantaa nykyistä liiketoimintaa

tieto, jonka avulla voidaan innovoida uutta liiketoimintaa

Page 19: Tutustuminen data-analytiikan ja big datan maailmaan

Visualisointi, Broad Street, Lontoo 1854 Koleraepidemia, John Snow (vrt. myös Jukka Huhtamäki)

19

Kuva Robin Wilson

Page 20: Tutustuminen data-analytiikan ja big datan maailmaan

Organisaation tietoresurssien tarve

Tiedetään, että tiedetään

05/12/15 20

Ei tiedetä, että ei tiedetä

Ei tiedetä, että tiedetään

Tiedetään, että ei tiedetä

P. Virtanen

Page 21: Tutustuminen data-analytiikan ja big datan maailmaan

Mitä seuraavista keinoista hyödynnät pyrkiessäsi tunnistamaan asiakkaiden kriittiset tietotarpeet? (N=79) (1 = ei lainkaan, 5 = erittäin paljon)

Kunnari 2014 tietojohtamisen erikoistyö

Page 22: Tutustuminen data-analytiikan ja big datan maailmaan

Liiketoimintatiedon hallinnan prosessimalli ja keskeiset tehtävät

05/12/15 22

Tietojohtaminen (Laihonen et al. 2013)

Page 23: Tutustuminen data-analytiikan ja big datan maailmaan

Tiedonlouhinta, knowledge discovery in databases (KDD) ”1990-2007”

05/12/15 23

10-20 % 20-30 % 50-70 % 10-20 % 10-20 % 5-10 %

1. Liiketoiminnan ymmärtäminen

2. Datan ymmärtäminen

3. Datan valmistelu

3. Mallinnus, tiedonlouhinta

5. Arviointi

6. Tulosten julkaisu

(The CRISP-DM Model; Shearer 2000, Aho 2014)

Page 24: Tutustuminen data-analytiikan ja big datan maailmaan

Analytiikka ”2005-2010”

•  Deskriptiivinen analytiikka

•  Diagnostiivinen analytiikka

•  Prediktiivinen analytiikka

•  Preskriptiivinen analytiikka

•  Päätöksentekoa tukeva analytiikka

05/12/15 24

(Big Data and Analytics, Kaisler et al. 2014)

Page 25: Tutustuminen data-analytiikan ja big datan maailmaan

Arvioi seuraavien analyysimenetelmien ja -työkalujen tärkeyttä omassa työssäsi. (N=78)

(1 = ei lainkaan tärkeä, 5 = erittäin tärkeä) Kunnari 2014 tietojohtamisen erikoistyö

Page 26: Tutustuminen data-analytiikan ja big datan maailmaan

Käytettyjä järjestelmiä (esim. ERP, DW, …)? (N=61)

•  ERP (SAP) •  DW •  ETL •  DB •  Business warehouse •  Office-työkalut •  Qlikview •  CRM •  Cognos

•  Data mining •  Sharepoint •  Hadoop •  Nosql •  ennakoiva analytiikka •  Kaupankäyntijärjestelmät •  HR-järjestelmä •  Master-data

Kunnari 2014 tietojohtamisen erikoistyö

Page 27: Tutustuminen data-analytiikan ja big datan maailmaan

Kuinka paljon hyödynnät seuraavia menetelmiä tietojärjestelmistä saatavien tietojen analysoinnissa? (N=78)

(1 = ei lainkaan, 5 = erittäin paljon) Kunnari 2014 tietojohtamisen erikoistyö

Page 28: Tutustuminen data-analytiikan ja big datan maailmaan

Big Data ”2010-”

05/12/15 28

Volyymi Vauhti Variaatio Varmuus

Data at Rest Data in Motion Data in Many Forms Data in Doubt

Terabittejä olemassa olevaa dataa

prosessoitavaksi

Striimattua dataa, nopea vasteaika millisekunneista

sekunteihin

Strukturoitua, ei-strukturoitua, ja

semistrukturoitua dataa

Epävarmuutta liittyen datan epätäydellisyyteen,

puutteellisuuteen, tai virheellisyyteen

(Breuker 2014; Laney, Meta Group 2001 (3V:tä))

Page 29: Tutustuminen data-analytiikan ja big datan maailmaan

Big Data transaktioista interaktioihin

05/12/15 29

WEB

BIG DATA

(mukaillen Yli-Pietilä & Backman 2013; Valli & Ahlgren 2013)

ERP

CRM

ostotiedot maksutiedot

segmentointi tarjoustiedot asiakaskohtaamiset tukikontaktit

weblogit

tarjoushistoria A/B testaaminen

Dynaaminen hinnoittelu

Hakukonemarkkinointi ja optimointi

Mainosverkostot

Käyttäytymispohjainen kohdentaminen Dynaamiset funnellit

Sentimentti

Ulkopuolinen demografia

Kuvat ja videot

Puheen muuttaminen tekstiksi

Feedit

Anturi/sensoridata

Tuote / palvelu logit

SMS/MMS

Sosiaaliset verkostot

Sosiaalinen media

Käyttäjien luoma sisältö Mobiilidata

Klikkivirran analyysi

Sijaintidata

Page 30: Tutustuminen data-analytiikan ja big datan maailmaan

Datan lajeja Datan laji Muoto Volyymi Kuvaus Esimerkkejä

Master Data Strukturoitu Matala Yritystason dataa jolla on strategista arvoa organisaatiolle

Asiakas, tuote, toimittaja

Transaktiodata Struktoroitu & semi-strukturoitu

Keskinkertainen - korkea

Transaktiot joita syntyy liiketoiminta-prosesseissa

Tilaukset, ostot, maksut

Referenssidata Struktoroitu & semi-strukturoitu

Matala – keskin-kertainen

Faktoja jotka tukevat organisaation kykyä tehokkaasti prosessoida transaktioita, hallita masterdataa ja tukea päätöksiä

Demografiset kentät

Metadata Strukturoitu Matala ”Dataa datasta” Datan nimi, datan dimensiot tai yksiköt, ym.

Analytiikkadata Strukturoitu Keskinkertainen - korkea

Liiketoimintaoperaatiosta tai transaktioista jalostettua tietoa raportoinnin ja analytiikan tarpeisiin

Data joka sijaitsee tietovarastoissa ja päätöksenteon tukijärjestelmissä

Big Data Struktoroitu, semi-strukturoitu ja ei strukturoitu

Korkea Isoja data settejä, joita on haastava tallentaa, etsiä, jakaa, visualisoida ja analysoida

Ihmisten ja koneiden luomaa dataa sosiaalisesta mediasta, webistä, mobiililaitteista, sensoreista, ym.

05/12/15 30

(Big Data and Analytics, Kaisler et al. 2014)

Page 31: Tutustuminen data-analytiikan ja big datan maailmaan

Kuinka liiketoimintatiedon hallinta on muuttunut massadatan myötä?

Massadata Business analytiikka Liiketoimintatiedon hallinta

Vanhaa •  Relaatiotietokannat •  SQL •  Tietovarastot

•  Tiedonlouhinta •  Kvantitatiivinen

analyysi •  Tilastotiede •  Operaatiotutkimus

•  Päätöksenteon tukijärjestelmät

•  Johdon tietojärjestelmät

•  OLAP

Uutta •  4V:tä •  Monimuotoista dataa •  Vähemmän struktuuria •  Big Data teknologiat

(MapReduce, Hadoop, NoSQL, ym.)

•  Ei strukturoitua dataa •  Dataa monesta

lähteestä •  Monimuotoista dataa •  Data liikkeessä •  Tekstianalytiikka •  Visuaalinen analytiikka •  Sosiaalisen median

analytiikka

•  Helppokäyttöisyys •  Visuaalisuus •  Dynaamisuus •  Kattaa organisaation

prosessit •  Koneoppiminen •  RTAP

05/12/15 31 (mukailtu Introduction to Big Data, Kaisler et al. 2014)

Page 32: Tutustuminen data-analytiikan ja big datan maailmaan

Lähteitä •  Breuker, D. 2014. Towards Model-Driven Engineering for Big Data Analytics – An Exploratory Analysis of Domain-

Specific Languages for Machine Learning. 47th Hawaii International Conference on System Sciences. •  Davenport, T. H., Patil, D. J. 2012. Data Scientist. The Sexiest Job of the 21st Century. Harvard Business Review.

October 2012. •  Davenport, T. H. 2014. Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Harvard Business

Review. •  Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Introduction to Big Data. Presented at HICSS-47, January

6, 2014, Waikoloa, Hawai’i. •  Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Big Data and Analytics. Presented at HICSS-47, January

6, 2014, Waikoloa, Hawai’i. •  Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Advanced Analytics – Issues and Challenges in the Global

Environment. 47th Hawaii International Conference on System Sciences. •  Hannula, M. 2005. Tieto- ja liiketoiminta. Tekniset välineet ja sovellukset. Luento 23.10.2005. •  Laihonen, H., Hannula, M; Helander, N; Ilvonen, I; Jussila, J; Kukko, M; Kärkkäinen, H; Lönnqvist, A; Myllärniemi,

J; Pekkola, S; Virtanen, P; Vuori, V; Yliniemi, T. 2013. Tietojohtaminen. Laitosraportti. Tampereen teknillinen yliopisto. http://dspace.cc.tut.fi/dpub/bitstream/handle/123456789/21534/tietojohtaminen.pdf

•  Laney, D. 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. Retrieved 6 February 2001.

•  Loukides, M. 2010. What is Data Science? O’ Reilly, Cambridge. http://www.kiwidatascience.it/wp-content/uploads/2013/05/What_Is_Data_Science.pdf

•  Yli-Pietilä & Backman 2013. Management by analytics. Commercial and technical applications in the Big Data era. Teradata

•  Valli, K., Alhgren 2013. Informaatiosta kilpailuetua teollisuusyrityksiin. Teknologiateollisuus. http://www.teknologiateollisuus.fi/file/16270/Informaatiostakilpailuetua.pdf.html

•  Vilminko-Heikkinen, R., Pekkola, S. 2013. Establishing an Organization’s Master Data Management Function: A Step-wise Approach. 46th Hawaii International Conference on System Sciences.

05/12/15 32

Page 33: Tutustuminen data-analytiikan ja big datan maailmaan

Tiedolla johtaminen

•  Toiminnan kehittämisen eri ulottuvuudet, mihin kaikkeen data ja analytiikka taipuvat

•  Verkon ja sosiaalisen median analytiikka esimerkkejä

05/12/15 33

Page 34: Tutustuminen data-analytiikan ja big datan maailmaan

Analytiikan eri muodot

05/12/15 34

Analyysi

Informaatio

Mitä on tapahtumassa?

Miksi se tapahtui? Mitä tulee

todennäköisesti tapahtumaan?

Mitä minun pitäisi tehdä sille?

Prediktiivinen analytiikka Diagnostiivinen analytiikka

Deskriptiivinen analytiikka Preskriptiivinen analytiikka

Lähde: Gartner

Page 35: Tutustuminen data-analytiikan ja big datan maailmaan

Analytiikan muodot yritysten (liike)toiminnassa

05/12/15 35

Raportit

RAPORTOIDAAN MITÄ

tapahtui?

ANALYSOIDAAN MIKSI

se tapahtui?

Ad hoc BI työkalut

ENNUSTETAAN MITÄ TULEE

tapahtumaan?

Ennustavat mallit

OPERATIONALISOIDAAN MITÄ ON

tapahtumassa nyt?

Linkki operatiivisiin järjestelmiin

AKTIVOIDAAN PISTETÄÄN tapahtumaan

Automaattiset linkitykset

STRATEGINEN ÄLYKKYYS

OPERATIONAALINEN ÄLYKKYYS

Lähde: mukaillen Yli-Pietilä & Backman 2013

Page 36: Tutustuminen data-analytiikan ja big datan maailmaan

Deskriptiivinen analytiikka

05/12/15 36 http://www.tableau.com/solutions/data-discovery

Page 37: Tutustuminen data-analytiikan ja big datan maailmaan

Diagnostiivinen analytiikka

05/12/15 37

Lähde: McDaniel 2009

Mitä on tapahtunut?

Miksi?

Page 38: Tutustuminen data-analytiikan ja big datan maailmaan

Prediktiivinen analytiikka

05/12/15 38

Predicting the future: IBM:n 4 osainen sarja

Page 39: Tutustuminen data-analytiikan ja big datan maailmaan

Louhian Mika Laukkasen näkökulma prediktiiviseen analytiikkaan

•  Millä ohjelmistoilla ennakoiva analytiikka onnistuu ja millä ei? –  Onnistuu: RapidMiner, SAS, SPSS, MS analysis services, R, AnyLogic.. –  Ei onnistu: IBM Cognos, Qlikview, Business Objects, MS reporting services,

Tableau, Oracle OBIEE…

•  Vinkkinä ennustemenetelmiä ovat muun muassa seuraavat: –  Luokittelumuuttujille - naive bayes, neuroverkko, logistinen regressio,

päätöspuut.. –  Jatkuville muuttujille - erilaiset regressioanalyysit, neuroverkot..

•  Jos näitä ominaisuuksia ei löydy, niin kyseessä on raportointiin / (päätöksentekoa tukevaan) visualisointiin tarkoitettu ohjelmisto

•  Milloin kannattaisi investoida prediktiiviseen analytiikkaan? Silloin kun sinulla on edellytyksiä hyödyntää sen tuloksia, esim.

•  Voit toteuttaa ennakoivan huollon ennen laitteen vikaantumista •  Voit torjua asiakaspoistumaa tai ostoskorin hylkäämistä aktiivisilla toimenpiteillä •  Kykenet kohdistettuun myyntiin ja markkinointiin

05/12/15 39 Muokattu lähteestä: [Louhia]

Page 40: Tutustuminen data-analytiikan ja big datan maailmaan

Prediktiivinen analytiika, esim. päätöspuut •  Yhdistetään regressio ja klusterointi

–  Jaetaan havaintoja osajoukkoihin (klusterointi) tietyn ennustettavan muuttujan mukaan (regressio)

•  Käytetään usein asiakkaiden luokitteluun, kun tiedetään, minkä ominaisuuden mukaan halutaan luokitella –  Puhelinoperaattorilla tiedossa, että 70 % asiakkaista maksaa

laskunsa myöhässä, ja nyt halutaan tietää, keitä nämä ihmiset oikein ovat, ja miten voidaan ennustaa, maksaako uusi asiakas mahdollisesti laskunsa ajoissa

–  Asiakastiedoista valitaan ne muuttujat, joiden arvellaan olevan keskeisessä roolissa. Oletetaan, että seuraavat muuttujat voisivat vaikuttaa siihen, maksaako asiakas laskunsa ajoissa (0= ei maksa ajoissa, 1= maksaa ajoissa)

1.  Keskimääräinen puhelimen käyttöaste (min/kk) 2.  Ikä (1 = alle, 30v. 2 = yli 30v.) 3.  Siviilisääty (1 = naimaton, 2 = naimisissa)

05/12/15 40

Page 41: Tutustuminen data-analytiikan ja big datan maailmaan

05/12/15 41

•  Puhelinoperaattoriesimerkki jatkuu… –  Alussa meillä on kaikki havainnot (10 000) yhdessä, joista

siis 3 000 maksaa laskunsa ajoissa

–  Puumalli jaottelee kaikki 10 000 havaintoa parhaiten kohdemuuttujaa (laskun ajoissa maksu) luokittelevalla muuttujalla

1: 30% 3000

0: 70% 7000

Yht. 100% 10000

1: 30% 3000

0: 70% 7000

Yht. 100% 10000

1: 11.7% 460

0: 88.3% 3480

Yht. 100% 3940

1: 41.9% 2540

0: 58.1% 3520

Yht. 100% 6060

Ikä 2 1

Ikä (1 = alle, 30v. 2 = yli 30v.)

Päätöspuut

1 = maksaa ajoissa 0 = ei maksa ajoissa

1 = maksaa ajoissa 0 = ei maksa ajoissa

Page 42: Tutustuminen data-analytiikan ja big datan maailmaan

05/12/15 42

1: 30% 3000

0: 70% 7000

Yht. 100% 10000

1: 11.7% 460

0: 88.3% 3480

Yht. 100% 3940

1: 41.9% 2540

0: 58.1% 3520

Yht. 100% 6060 2 1

1: 67.1% 490

0: 32.9% 240

Yht. 100% 730

1: 38.5% 2050

0: 61.5% 3280

Yht. 100% 5330

1: 9.3% 310

0: 90.7% 3030

Yht. 100% 3340

1: 25.0% 150

0: 75.0% 450

Yht. 100% 600

Puh. käyttö

Ikä

Siviili-sääty

1 2 1 2

•  Puhelinoperaattoriesimerkki jatkuu… •  Lopullinen malli voi näyttää tältä

Siviilisääty (1 = naimaton, 2 = naimisissa)

Ikä (1 = alle, 30v. 2 = yli 30v.)

Keskimääräinen puhelimen käyttöaste (1 = <300, 2 = >300 )

Päätöspuut

1 = maksaa ajoissa 0 = ei maksa ajoissa

1 = maksaa ajoissa 0 = ei maksa ajoissa

1 = maksaa ajoissa 0 = ei maksa ajoissa

1 = maksaa ajoissa 0 = ei maksa ajoissa

Page 43: Tutustuminen data-analytiikan ja big datan maailmaan

Päätöspuut

•  Mitä saatiin selville? – 91 % alle kolmekymppisistä naimattomista ei

maksa laskuaan ajoissa – Ainoa ryhmä, joka maksaa laskunsa

ennemmin ajoissa kuin myöhässä on yli kolmekymppiset alle 300min/kk puhujat

–  Ikä on silti tärkein kriteeri

05/12/15 43

Asiakaspoistuman korjaamiseen telekommunikaatioalalla opas PwC:ltä: Curing Customer Churn

Page 44: Tutustuminen data-analytiikan ja big datan maailmaan

Preskriptiivinen analytiikka

•  Suosittelujärjestelmät, esim. Amazonin automaattiset tuotesuositukset

•  Vakutuusalalla esimerkiksi ajoneuvovakuutusten hinnoittelussa pyritään tunnistamaan tekijät, jotka ennustavat, mitä tietylle kuljettaja-ajoneuvo-yhdistelmälle tulee ensi vuonna tapahtumaan. Käytännössä jokaiselle asiakkaalle tulee eri hinta. (Timo Ahvonen, Vakuutusyhtiö Fennia)

05/12/15 44

Page 45: Tutustuminen data-analytiikan ja big datan maailmaan

Miten analytiikkaa tehdään? Mikä avuksi?

05/12/15 45

Page 46: Tutustuminen data-analytiikan ja big datan maailmaan

CRISP-DM referenssimalli CRISP-DM referenssimallin tehtävät

Liiketoiminnan ymmärtäminen

Datan ymmärtäminen

Datan valmistelu

Mallinnus, tiedonlouhinta

Arviointi Tulosten julkaisu

Määritä liiketoiminnan tavoitteet Tee tilannearvio Määritä tiedonlouhinnan tavoitteet Laadi projektisuunnitelma

Kerää alustava data Kuvaa data Tutki dataa Varmista datan laatu

Datasetin kuvaus Datan valinta Datan siivous Datan rakentaminen Datan integrointi Datan formatointi

Valitse mallinnus menetelmä Suunnittele koe Rakenna malli Arvioi mallia

Arvioi tuloksia Arvioi ja varmista tiedonlouhintaprosessin laatu Määrittele seuraavat stepit

Suunnittele mallin julkaisu (esim. verkkosivuna) asiakkaalle Suunnittele mallin ylläpito Laadi loppuraportti Arvioi projekti

05/12/15 46

Lähde: The CRISP-DM Model (Shearer 2000), ks. myös CRISP-DM 1.0 Step-by-step data mining guide: https://the-modeling-agency.com/crisp-dm.pdf

Page 47: Tutustuminen data-analytiikan ja big datan maailmaan

Analytiikkasykli 1.  Määrittele liiketoimintaongelma tai kysymys johon haluat vastauksen 2.  Tunnista, kerää, siivoa ja valmistele data kysymyksen vastausta varten 3.  Deskriptiivinen analytiikka

–  Perehdy dataan (descriptives, correlations, factor analysis, cluster analysis, ym.)

–  Luo mahdollisia hypoteeseja (data mining ym.) 4.  Prediktiivinen analytiikka

–  Muodosta hypoteesit –  Tunnista soveltuvimmat analytiikkamenetelmät –  Kehitä analyyttiset mallit (multivariate regression, logistic regression,

forecasting, non-linear models, decision trees, ym.) –  Aja mallit ja luo ennusteet

5.  Preskriptiivinen analytiikka –  Kehitä päätös- ja optimointimallit –  Hyödynnä koneoppimista päätöksien ohjelmointiin

6.  Kirjoita johtopäätökset ja suositukset

05/12/15 47

Lähde: Introduction to Big Data (Kaisler et al. 2014)

Page 48: Tutustuminen data-analytiikan ja big datan maailmaan

Analytiikkaan pohjautuva päätöksenteko: 6 vaihetta

48/6

Liiketoiminta- ongelman tai –kysymyksen tunnistaminen

Aikaisempien löydöksien läpikäynti

1. 2. 3. 4. 5. 6.

Ratkaisun mallintaminen ja muuttujien

valinta

Datan kerääminen

Datan analysointi

Tuloksien esittäminen

ja niiden pohjalta

toimiminen

Kun käytetään big dataa päätöksenteossa, liiketoimintaihmisten (”non-quants”) pitäisi keskittyä prosessin ensimmäiseen ja viimeiseen vaiheeseen. Numeroihmiset tyypillisesti hoitaa yksityiskohdat välissä, mutta (viisaat) liiketoimintaihmiset esittävät paljon kysymyksiä matkan varrella.

Analytics-Based Decision Making – in Six Key Steps (Daveport, 2013) Analytiikka liiketoiminnassa

Page 49: Tutustuminen data-analytiikan ja big datan maailmaan

Tiedonlouhinnan menetelmiä

05/12/15 49

Suunnattu

Ei-suunnattu

Ad Hoc Strateginen suunnittelu

Ennustaminen Segmentointi

Klusterointi

Visualisointi

OLAP

Neuroverkot

Regressio

Lähde: (Kudyba & Hoptroff, 2001; Väisänen, 2011])

Page 50: Tutustuminen data-analytiikan ja big datan maailmaan

Klusterointi •  Kuvailevaa tiedonlouhintaa / deskriptiivistä analytiikkaa •  Tavoitteena klusteroida (luokitella) datamatriisin

havainnot siten, että jokaisen klusterin sisällä olevat havainnot ovat mahdollisimman homogeenisia, ja jokainen klusteri mahdollisimman heterogeeninen muiden klusterien kanssa

•  Yleisiä käyttötarkoituksia –  asiakkaiden segmentointi –  myymälöiden ryhmittely menestyksen mukaan esimerkiksi

kolmeen ryhmään: menestyjiin, keskinkertaisiin ja huonoihin (Niemijärvi 2013)

05/12/15 50

Page 51: Tutustuminen data-analytiikan ja big datan maailmaan

Esimerkki hierarkkisesta klusteroinnista

05/12/15 51

Klusterien lukumäärä

Klusterit

5 (1) (2) (3) (4) (5)

4 (1,2) (3) (4) (5)

3 (1,2) (3,4) (5)

2 (1,2) (3,4,5)

1 (1,2,3,4,5)

1 2 3 4 5

Lähde: (Väisänen, 2011)

Page 52: Tutustuminen data-analytiikan ja big datan maailmaan

Assosiaatiosäännöt •  Prediktiivistä analytiikkaa •  Tarkoituksena löytää havaintoja, jotka esiintyvät yhdessä

useammin kuin muut •  Usein käytettyjä sovelluksia

–  Ostoskorianalyysi, engl. market basket analysis (MBA), ks. Esim. (Niemijärvi 2014); (Ollikainen 2013)

–  Klikkivirran analyysi, engl. web clickstream analysis (WCA) (Paananen 2006)

•  Normaaleista tietokannoista poiketen assosiaatiosääntöjä tarkastellaan transaktio- ei asiakaspohjaisesti –  MBA:ssa yksi datamatriisin rivi vastaa yhtä kassalla käyntiä –  WCA:ssa yksi datamatriisin rivi vastaa yhtä vierailua

verkkosivuille

05/12/15 52

Page 53: Tutustuminen data-analytiikan ja big datan maailmaan

Assosiaatiosäännöt •  Assosiaatiosääntö on todennäköisyyteen perustuva

lausuma tiettyjen tapahtumien samanaikaisesta tapahtumisesta: •  JOS A=1 ja B=1, NIIN (tietyllä todennäköisyydellä p) C=1 •  Todennäköisyys, että ostetaan tavara X, kun tavara Y on ostettu:

X → Y •  Esim. (Maito & Tee) → Keksejä (assosioaatiosääntö) •  Säännön oikealla puolella yleensä vain yksi tekijä •  Säännön vasemmalla puolella harvoin kolmea tekijää enempää (3.

asteen sääntö) •  Todennäköisyydet tavaroiden ostamiselle saadaan jakamalla

ostotapahtumien esiintymistiheys kaikkien ostotapahtumien lukumäärällä

05/12/15 53

Lähde: (Väisänen, 2011)

Page 54: Tutustuminen data-analytiikan ja big datan maailmaan

•  Tuki (”Support”) {A → B} = P(A ja B) –  Todennäköisyys, että tuotteet A ja B löytyvät satunnaisesta ostoskorista. Jos 40%

ostoksista sisältää sekä maitoa että leipää, tuki {maitoa→ leipää} = 0.4 •  Symmetrinen, eli tuki {leipää → juustoa} = tuki {juustoa → leipää} •  Jos tuki kovin alhainen, ei säännöllä välttämättä ole kovin suurta käytännön

merkitystä

•  Luottamus (”Confidence”) {A → B} = tuki {A → B} / tuki {A} –  Todennäköisyys, että satunnaisesta ostoskorista löytyy tuote B, jos siellä on tuote A –  Jos 80 % ostoksista sisältää leipää, mutta vain 40 % sisältää sekä leipää että maitoa,

luottamus {leipää → maitoa} = 0.4 / 0.8 = 0.5 –  Luku ei välttämättä ole symmetrinen

•  Noste (”Lift”) {A → B} = luottamus {A → B} / tuki {B} –  Normalisoitu luku, joka ilmaisee, kuinka paljon tuotteen A ostaminen vaikuttaa tuotteen

B ostamiseen –  Jos luottamus {leipää → maitoa} = 0.5 ja 40 % ostoksista sisältää maitoa, noste {leipää → maitoa} = 0.5 / 0.4 = 1.25

–  Eli henkilöt, jotka ostelevat leipää, ostelevat 1.25-kertaisesti maitoa verrattuna koko porukkaan

05/12/15 54

Assosiaatiosäännöt

Lähde: (Väisänen, 2011)

Page 55: Tutustuminen data-analytiikan ja big datan maailmaan

Regressio •  Lineaarinen regressio auttaa ennustamaan

toisen muuttujan arvoja toisen muuttujan arvoilla •  Logistisen regression avulla voidaan selittää/

ennustaa binääristä muuttujaa •  Kuinka mallinnuksen avulla ennustetaan

asiakkaan ostotodennäköisyys? (esim.Ollikainen 2014)

05/12/15 55

Page 56: Tutustuminen data-analytiikan ja big datan maailmaan

Kulttuurin luominen ja organisointi

05/12/15 56

Page 57: Tutustuminen data-analytiikan ja big datan maailmaan

BI-prosessimallit 1/5, tiedon jalostumisprosessi

P. Virtanen 57 Hannula & Pirttimäki 2005

Aiempi tieto

Aiempi tietämys

Informaatio (maksaa…)

Data (0, 0, 1, 0, 1, 0, ..)

Tieto (hintakehitys…)

Tietämys (kannattaa…) Jalostumisprosessi

Page 58: Tutustuminen data-analytiikan ja big datan maailmaan

BI-prosessimallit 2/5

P. Virtanen 58

Tietotarpeet Tiedon organisointi ja

varastointi

Tiedon hankinta

Tietotuotteet ml. -palvelut

Tiedon jakaminen Tiedon käyttö

Toiminnan mukauttaminen

Choo 2001

Page 59: Tutustuminen data-analytiikan ja big datan maailmaan

BI-prosessimallit 3/5

P. Virtanen 59

2. Tiedon

tunnistus

1. Tietotarve ja määrittely

3. Työkalujen

valinta

4. Käyttöön-

otto

5. Käyttö

TOTEUTUS

5. Hyötykäyttö

6. Analysointi ja seuranta

9. Muutokset

toiminnassa

8. Päätöksen-

teko

7. Vaihto- ehtojen muotoilu

KÄYTTÖ

Hannula 2011

Page 60: Tutustuminen data-analytiikan ja big datan maailmaan

BI-prosessimallit 4/5

P. Virtanen 60 Chaudhuri & Dayal, 1997

Valvonta ja hallinto

Metadata

ETL, Extract Transform Load (refresh)

DWH

Datamartit

Datan lähteet

Operatiiviset tietokannat

Ulkoiset lähteet

Kyselyt ja raportit

Analyysi

OLAP palvelimet

toimittaa

Tiedon louhinta

DWH

Loppukäyttö

Page 61: Tutustuminen data-analytiikan ja big datan maailmaan

BI-prosessimallit 5/5

P. Virtanen 61 Myllärniemi et al. 2009

tietomassa ymmärrys ja toiminta

tiedon lähteiden määrittely ja etsintä

prosessoitu tieto tietotuote

5. Tiedon hyödyntäminen ja palaute

1. Tietotarpeiden määrittely

3. Tiedon prosessointi

2. Tiedon kerääminen

4. Tiedon jakaminen

Page 62: Tutustuminen data-analytiikan ja big datan maailmaan

BI-prosessimalli käytännössä

P. Virtanen 62

Potilasvirrat Potilasvirrat Potilasvirrat

Henkilöstö

Potilasdata

Resurssit

Tilat

Laitteet

Materiaalit

Aineeton po

Mahdollistaa

Tuottaa

Syötteenä

Muuntaa

Päätöksenteon tukena

Potilasvirtojen hallinnan

tehostaminen

Raportointi

Mallinnus ja simulointi

Potilas- informaation

käyttö

Väihinpää et al. 2008

Page 63: Tutustuminen data-analytiikan ja big datan maailmaan

Kulttuurin luominen •  5 hyvää käytäntöä analytiikkakulttuurin

luomiseksi: 1.  Tunnista (liike-)toimintaongelmat ja alueet, jotka

hyötyisivät analytiikkatyökaluista ja/tai –strategiasta 2.  Johdon asetettavat selkeät odotukset (ja insentiivit) 3.  Aloita pienestä ja rakenna iteratiivisesti à kevyet

lähdöt 4.  Rakenna/tue/rekrytoi asian puolestapuhujia

(champions) ja juhli pieniä voittoja 5.  Tunnusta että epäonnistumiset ovat hyväksyttävä

tapa oppia

05/12/15 63

Helms 2015. Five Myths and Five Ways to Create an Analytics Culture. http://www.businessofgovernment.org/blog/business-government/five-myths-and-five-ways-create-analytics-culture

Page 64: Tutustuminen data-analytiikan ja big datan maailmaan

Mitä voidaan oppia parhailta?

05/12/15 64

Raportti saatavissa: https://hbr.org/resources/pdfs/tools/17568_HBR_SAS

%20Report_webview.pdf

Page 65: Tutustuminen data-analytiikan ja big datan maailmaan

Analytiikkajohtajat käyttävät oikeanlaisia mittareita

05/12/15 65

Lähde: Harvard Business Review 2012. The Evolution of Decision Making: How Leading Organizations Are Adopting a Data-Driven Culture

Page 66: Tutustuminen data-analytiikan ja big datan maailmaan

Mitkä ovat analytiikkajohtajien keskeisiä piirteitä? Ø Ylin johto edellyttää analytiikan käyttöä ja hyvin

määriteltyjä päätöksentekoprosesseja Ø Analytiikkajohtajat käyttävät oikeanlaisia mittareita Ø Analytiikkajohtajat korostavat päätöksenteon

läpinäkyvyyttä Ø Analytiikkajohtajat jakavat KPIt läpi organisaation Ø Analytiikkajohtajat panostavat koulutukseen Ø Analytiikkajohtajilla on analytiikka-ammattilaisia

organisaation eri tasoilla ja funktioissa

05/12/15 66

Lähde: Harvard Business Review 2012. The Evolution of Decision Making: How Leading Organizations Are Adopting a Data-Driven Culture