Top Banner
© Ivorio 2013
53

Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Nov 18, 2014

Download

Technology

ivoriofinland

Esitys big datasta Aalto-yliopistolla "Taulukkolaskenta ja analytiikka"-kurssilla 04.11.2013.
- Mitä on big data?
- Mikä on Hadoop?
- Case-esimerkkejä
- Microsoft PowerPivot
- Google BigQuery
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Page 2: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Ivorion missio

Ivorio on Pohjoismaiden johtava riippumaton big data -asiantuntija.

Autamme asiakkaitamme ratsastamaan tiedon vallankumouksen aallonharjalla.

Page 3: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Tiedon

Markkinat jaetaan nyt uudelleen

vallankumous

Page 4: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Big data ilmiö vuodesta 2011

Page 5: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

“Big Data” kiinnostus nousee nopeasti

© Ivorio 2013

Google-haun “big data” suosio 1.11.2013 asti

Page 6: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Mistä big datassa on kysymys?1. Volume

Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään.

2. VelocityTietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti.

3. VarietyTietoa (dataa) tulee kiihtyvällä tahdilla erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin

Veracity, Value Virality, Validity, Viscosity… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.

Ensimmäisenä tämän esitti META Group, jonka Gartner osti vuonna 2005

Page 7: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Organisaation hallussa tai

saatavilla oleva data (ERP, CRM,

DW, RDBMS)

Datan alkuperä

Page 8: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Datan alkuperä

© Ivorio 2013

Digitaalinen todellisuus(internet, sosiaalinen media)

Organisaation hallussa tai

saatavilla oleva data (ERP, CRM,

DW, RDBMS)

Page 9: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Datan alkuperä

© Ivorio 2013

Digitaalinen todellisuus(internet, sosiaalinen media)

Fyysinen todellisuus(sensorit, esineiden internet)Organisaation

hallussa tai saatavilla oleva data (ERP, CRM,

DW, RDBMS)

Page 10: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Datan alkuperä

© Ivorio 2013

Saatavilla olevat datavarannot(avoin data, datamarkkinat)

Digitaalinen todellisuus(internet, sosiaalinen media)

Fyysinen todellisuus(sensorit, esineiden internet)Organisaation

hallussa tai saatavilla oleva data (ERP, CRM,

DW, RDBMS)

Page 11: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Datan alkuperä

© Ivorio 2013

Saatavilla olevat datavarannot(avoin data, datamarkkinat)

Potentiaalinen data(ei vielä kerätä)

Digitaalinen todellisuus(internet, sosiaalinen media)

Fyysinen todellisuus(sensorit, esineiden internet)Organisaation

hallussa tai saatavilla oleva data (ERP, CRM,

DW, RDBMS)

Page 12: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

“McKinsey:

By 2009, nearly all sectors in US economy had at least an average of 200 terabytes of stored data per company with more than 1 000 employees.

© Ivorio 2013

Page 13: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

“Accenture:

Räjähdysmäisesti kasvavat tietomäärät avaavat uusia mahdollisuuksia ja potentiaalisia kilpailuetuja monilla aloilla ja monissa yrityksissä.

© Ivorio 2013

Page 14: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Kuinka suuret ovat big data -markkinat?

Yleisin luku on välillä 15-50 mrd €

○ IDC sanoo (12/2012), että vuonna 2016 markkinoiden koko on n. 26 mrd $

○ Gartner sanoo (10/2012), että vuonna 2012 big data -markkinat olivat n. 28 mrd $

○ Wikibon ennustaa (02/2012), että big data -markkinat ovat vuonna 2015 n. 54 mrd $

○ McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olleen jo vuonna 2011 arviolta 1 000 mrd €

© Ivorio 2013

Page 15: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Pääomasijoittajien sijoitukset big data-yritykseen, Top 10

© Ivorio 2013

Yritys Sijoitus (milj. $)

MongoDB 231 milj. $

Mu Sigma 208 milj. $

Cloudera 141 milj. $

Opera Solutions 114 milj. $

Hortonworks 98 milj. $

DataStax 83.7 milj. $

Guavus 75.5 milj. $

GoodData 75.5 milj. $

Talend 61.6 milj. $

CouchBase 56.0 milj. $

Page 16: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Koska big data -hankkeet aloitetaan Suomessa?

Julkishallinnon organisaatiot“Big data -selvitys, 09/2013”

© Ivorio 2013

Page 17: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

“McKinsey, 2011:

By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills.

© Ivorio 2013

Page 18: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Big datan teknologiat

● Hadoop (tunnetuin yksittäinen uusi teknologia)

● Appliancet (valmisratkaisut)

● In-memory -analytics, NoSQL (muotiteknologioita)

● Pilvipalvelut ja big data

○ Amazon (Elastic MapReduce...)○ Google (BigQuery...)○ Microsoft (HDInsight...)○ IBM (SoftLayer...)○ jne...

© Ivorio 2013

Page 19: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Hadoop - big datan tunnetuin teknologia

Google-haun “big data” suosio 1.11.2013 asti

Google-haun “hadoop” suosio 1.11.2013 asti

Page 20: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Hadoopin tausta Googlessa

Page 21: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Hadoop - innoittajana Google

Googlen julkaisu Vuosi

Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?

GFS ja MapReduce

2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri)

Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka

BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)

Pregel 2010 Giraph 2011 Graph-tietokanta

Dremel / F1 2010 Cloudera Impala

2012 Nopeat kyselyt(SQL)

Spanner 2012 ? ???? Transaktiot

Page 22: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Googlen MapReduce -patenttejaPatentti Teknologia, johon liityyy

US 8,123,909 MapReduce

US 7,756,919 MapReduce

US 7,650,331 MapReduce

US 2012/0278323 MapReduce

US 2012/0254193 MapReduce

US 2012/0215787 MapReduce

US 2012/0122065 MapReduce

PCT/US2012/030941 MapReduce

PCT/US2012/030897 MapReduce

Page 23: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Open Patent Non-Assertion PledgeGoogle lupaa olla hyödyntämättä patentteja tai estämästä niiden kattaman teknologian käyttöä

Google promises to each person or entity that develops, distributes or uses Free or Open Source Software (a “Pledge Recipient”) that Google will not bring a lawsuit or other legal proceeding against a Pledge Recipient for patent infringement under any Pledged Patents based...

Page 24: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Mitä se Hadoop oikein tekee?

Page 25: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Hadoopissa kaksi keskeistä komponenttia

HDFS MapReduce

tiedostojärjestelmä tiedonlouhintaa

Page 26: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Mitä Hadoop tekee?

Hadoop auttaa rakentamaan klusterin palvelimista

Miksi haluaisin Hadoop-klusterin?- edullista tallennustilaa- tehokasta prosessointia- toimintavarmuutta- skaalautuvuutta- ekosysteemi, lisäosia ja laajennoksia!

Page 27: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Hadoopin asema big data -ilmiössä

Hadoop

Tiedon määrä

Tied

on r

aken

teis

uus

2 Tb1 Gb 20 Tb 200 Tb

Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees.McKinsey 2011

By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop.Gartner 2013

© Ivorio 2013

Page 28: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Hadoop Suomessa

© Ivorio 2013

Käyttäjiä v. 2013 mm.

Käyttäjiä lähitulevaisuudessa

Rovio

Sanoma

Supercell

Vähittäiskauppa

Teollisuus

Telekommunikaatio

MediaPalvelualat

Page 29: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Hadoop-työpaikkojen tarjonta

© Ivorio 2013

Lähde: Indeed.comTyöpaikat pääasiassa Yhdysvalloissa

Page 30: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Datan tallentaminen pilvessä

Page 31: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Amazon, Google, Microsoft

© Ivorio 2013

Dataa yht. Amazon (S3) Google Storage Microsoft Azure Storage

< 1 TB 0.095 $ 0.085 $ 0.095 $

< 50 TB 0.080 $ 0.076 $ 0.080 $

< 500 TB 0.070 $ 0.063 $ 0.070 $

< 1000 TB 0.065 $ 0.063 $ 0.065 $

< 5000 TB 0.060 $ 0.054 $ 0.055 $

Mitä maksaa gigatavun tallentaminen per kuukausi julkisessa pilvessä?

Kustannussäästöt eivät ole olennaisin asia pilvipalveluissa!

Page 32: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Datan hyödyntäminen pilvessä

Page 33: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Datan analysoiminen pilvessä

© Ivorio 2013

Terasortin maailmanennätys Googlen pilvipalvelussa:

MapR (Hadoop-jakeluyritys):“Benchmark broke the one minute barrier with 1,003 servers, 4,012 cores and 1,003 disks as compared to the previous record set by Yahoo. The prior documented record of 62 seconds was set by Yahoo running Apache Hadoop on 1,460 servers, 11,680 cores and 5,840 disks.”

Mitä maailmanennätys maksoi?

Page 34: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Datan analysoiminen pilvessä

© Ivorio 2013

Terasortin maailmanennätys Googlen pilvipalvelussa:

“Since the servers used in MapR’s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record.”

joustavuudesta!

Tästä on kysymys:

$ 9 vs. $ 5 000 000

Page 35: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Investoinnit teknologiaan sekä tutkimus- ja kehitystyöhön valtavia

Page 36: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Googlen tutkimus- ja tuotekehitysmenot

© Ivorio 2013

Vuosi Investoinnit tutkimus- ja tuotekehitykseen

2013 7 900 milj. $ (arvio Q3-lukujen perusteella)

2012 6 800 milj. $

... …

2004 226 milj. $

2003 91 milj. $

2002 32 milj. $

2001 17 milj. $

2000 11 milj.$

Page 37: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Esimerkkejä luvuista: Amazon ja Google

© Ivorio 2013

Nettoinvestoinnit teknologiaan v. 2012 (palvelimet yms.)

Yritys Nettoinvestoinnit Taserivi Liikevaihto

Amazon 1 655 milj. $Technology and content

+ 13 016 milj. $

Google 1 657 milj. $Information technology assets

+ 8 134 milj. $*

*) Motorola-kauppaa ei mukana tässä

“Investoinnit ovat suuria, mutta liiketoiminnan kasvu monin verroin suurempi. Palvelinkeskukset ovat databisneksen raaka-ainetta, bulkkia.”

Page 38: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Big data, esimerkein

Page 39: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Big dataa arkipäivässä

● Hakukoneet○ Google on maailman johtava big data -yritys

● Suositukset○ Amazon, Spotify, YouTube, Netflix

● Mainonta○ Google AdSense, Facebook

Page 40: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Google Flu Trends

Page 41: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Keskosten tarkkailu

● Hengenvaarallisten tulehdusten riski korkea● Monipuolisen tilastoinnin ja analysoinnin myötä

tunnistetaan tulevat ongelmat jo vuorokautta aikaisemmin -> reagoidaan, valmistaudutaan

● Toronto’s Hospital for Sick Children, University of Ontario, IBM

Page 42: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Ennakoiva huolto

● Koneiden, laitteiden, ajoneuvojen sensorista dataa ja vikatilastoja yhdistellään

● Analytiikka tunnistaa toistuvia tapahtumia, korrelaatioita datan ja vikaantumisen välillä

● Huollot voidaan ennakoida ennen suurempien vahinkojen syntymistä

● Vältetään odottamattomia keskeytyksiä prosesseissa

Page 43: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Big Cities, Big Challenges

● Chicago, rikosten ennakointi analysoimalla tilastoja, hätäpuheluja, videokuvaa

● New York, paloturvallisuusriskien tunnistaminen vuokrakiinteistöistä tilastojen avulla

● Liikenneonnettomuudet, ruuhkat, ennakoiva terveydenhuolto, petosten tunnistaminen, mielipideanalyysit ...

Page 44: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Nopeasti kohti big data -toteutuksia

Microsoft PowerPivot

Page 45: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

● Mukana Excel 2013 -tuotteessa● Ilmainen laajennusosa Excel 2010 -tuotteeseen

Microsoft PowerPivot Excel plug-in“BI työkalupakki ja suuremmat taulukot ”

Page 46: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

● Yhteen taulukkoon enemmän dataa, n. 1M -> 100M+

● Silti kaikki paikallisessa työasemassa

PowerPivot: keskeiset piirteet

Page 47: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

● Analyysin taustalla taulukon sijaan malli: tauluja ja relaatioita

PowerPivot: keskeiset piirteet

Page 48: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

● Työkaluja näkymien/BI työkalujen rakentamiseksi, nopeasti ja ilman ohjelmointia -> julkaistavissa mm. SharePointissa

● Keskeisenä laskennan apuvälineenä tutut pivot-taulukot

PowerPivot: keskeiset piirteet

Page 49: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

● Datan tuominen ulkopuolisesta lähteestä● Mallin luominen● Pivot-kyselyt

● Kuvataan tarkemmin luokkaharjoituksissa

PowerPivot: harjoitustyö osana kurssia

Page 50: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

Nopeasti kohti big data -toteutuksia

Google BigQuery

Page 51: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

● Pilvipalvelu, tuhansien palvelinten laskentateho● Kokeiltavissa rajoitetusti (<100Gb/kk) ilmaiseksi,

vaatii kuitenkin Google-tilin

BigQuery: keskeiset piirteet

Page 52: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

© Ivorio 2013

● SQL:n kaltainen kyselykieli● Käyttöliittymät

○ Selain○ Komentorivi○ REST API

● Laskutus käytön perusteella

BigQuery: keskeiset piirteet

Page 53: Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy

Kiitos

© Ivorio 2013

Immo [email protected] 1233 563

Markku [email protected] 1301 943