Top Banner
Big Data 28.01.2013 Immo Salo Eufris
39

Big Data -esitys, Arcada ammattikorkeakoulu

Dec 07, 2014

Download

Technology

Eufris

Big Data -esitys Arcada ammattikorkeakoulussa 28.01.2013.
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Big Data -esitys, Arcada ammattikorkeakoulu

Big  Data28.01.2013Immo  SaloEufris

Page 2: Big Data -esitys, Arcada ammattikorkeakoulu

Eufris

• Peruste'u  vuonna  2006• Koulutus-­‐  ja  konsultoin/palveluita,  erikoistunut  pilvipalveluihin

• Yri7äjä:  Immo  Salo• Kirjat

• “Cloud  compu/ng  -­‐  palvelut  verkossa”,  WSOYPro  2010

• “Hyötyä  pilvipalveluista”,  Docendo  2012

• “Big  Data”,  Docendo  2013  (tulossa)

www.eufris.fiwww.bigdata.fi

Page 3: Big Data -esitys, Arcada ammattikorkeakoulu

Big  Data:  hype  nousee!

Page 4: Big Data -esitys, Arcada ammattikorkeakoulu

Google  Trends

Web 2.0Social mediaCloud computing

Big data

Page 5: Big Data -esitys, Arcada ammattikorkeakoulu
Page 6: Big Data -esitys, Arcada ammattikorkeakoulu

Big  Data:  mitä  se  on?

Page 7: Big Data -esitys, Arcada ammattikorkeakoulu

Big  Data-­‐määritelmiä

"Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis"IDC

"Big Data is a technology that helps extract value from the digital universe.”IDC

"Techniques and technologies that make handling data at extreme scale economical."Forrester

Page 8: Big Data -esitys, Arcada ammattikorkeakoulu

Gartnerin  top  10  strategista  teknologiaa  20121. Media  Tablets  and  Beyond

2. Mobile-­‐Centric  Applica/ons  and  Interfaces

3. Contextual  and  Social  User  Experience

4. Internet  of  Things

5. App  Stores  and  Marketplaces

6. Next-­‐Genera/on  Analy/cs

7. Big  Data

8. In-­‐Memory  Compu/ng

9. Extreme  Low-­‐Energy  Servers

10.Cloud  Compu/ng

Page 9: Big Data -esitys, Arcada ammattikorkeakoulu

Gartnerin  top  10  strategista  teknologiaa  20131. Mobile  Devices  Ba7les

2. Mobile  Applica/ons  and  HTML5

3. Personal  Cloud

4. Internet  of  Things

5. Hybrid  IT  and  Cloud  Compu/ng

6. Strategic  Big  Data

7. Ac/onable  Analy/cs

8. Mainstream  In-­‐Memory  Compu/ng

9. Integrated  Ecosystems

10.  Enterprise  App  Stores

Page 10: Big Data -esitys, Arcada ammattikorkeakoulu

Big  Data:  datan  määrä  kasvaa

Page 11: Big Data -esitys, Arcada ammattikorkeakoulu

Pari  yleistä  kuvaa

2012 2015 2020

Page 12: Big Data -esitys, Arcada ammattikorkeakoulu

Mistä  dataa  oikein  tulee?

Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com, apple.com, nokia.com

Page 13: Big Data -esitys, Arcada ammattikorkeakoulu

Vaihtoehtoja  on  paljon

Page 14: Big Data -esitys, Arcada ammattikorkeakoulu

KäyFökokemuksia

Haasteellisinta big datassa on päästä alkuun.

Page 15: Big Data -esitys, Arcada ammattikorkeakoulu

Osaajapula  uhkaa

“There will be a shortage of talent necessary for organizations to take advantage of big data. By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills as well as 1.5 million managers and analysts with the know-how to use the analysis of big data to make effective decisions.”

Lähde: McKinsey

Page 16: Big Data -esitys, Arcada ammattikorkeakoulu

Big  Data:  viitekehyksiä

Page 17: Big Data -esitys, Arcada ammattikorkeakoulu

Big  Datan  ABC

• Analy/cs  (analy2ikka)• Data  pitää  jalostaa  informaa2oksi,  2edoksi  ja  ymmärrykseksi.  Visualisoin2,  

konkre2soin2,  ennusteiden  tekeminen,  tunnuslukujen  laskeminen,  korrelaa2oiden  hakeminen...

• Bandwidth  (2etoliikenne)• Suurten  2etomäärien  liiku=elu  on  yhä  useammin  pullonkaula.  Lähtökohtainen  päätös  

siitä,  missä  2etoja  säilytetään  ja  missä  niitä  prosessoidaan  on  yhtä  merki=ävä  kuin  käytetyt  teknologiat  ja  analyysin  hyödyntämiskohteet.

• Content  (sisältö)• Edelleen  suuri  osa  2edosta  säilytetään,  mu=a  jätetään  käy=ämä=ä  tai  vielä  

pahempaa:  heitetään  hukkaan  ilman  ensimmäistäkään  analyysia.

Lähde: Netapp.com

Page 18: Big Data -esitys, Arcada ammattikorkeakoulu

Big  Datan  kolme  V-­‐kirjainta  (3V)

• Variety  (vaihtelevuus)• Dataa  on  strukturoitua  ja  strukturoimatonta.  Molempia  pitää  pystyä  hyödyntämään.

• Velocity  (vauh2)• Datan  määrä  kasvaa  vauhdilla  ja  sitä  tulee  lukema=omista  lähteistä.  Lähes  

reaaliaikaisen  analyysi  tavoi=eena.

• Volume  (voluumi)

• Data  pitää  pystyä  analysoimaan  ja  säily=ämään  myöhempää  käy=öä  varten.

Lähde: Netapp.com

Page 19: Big Data -esitys, Arcada ammattikorkeakoulu

Big  Data:  Hadoop

Page 20: Big Data -esitys, Arcada ammattikorkeakoulu

Google  Trends:  Hadoop

Onko huomiarvon huippu saavutettu?

Page 21: Big Data -esitys, Arcada ammattikorkeakoulu

Indeed  Trends:  Hadoop  työpaikat

Työpaikkojen tarjonta nousee nopeasti!

Page 22: Big Data -esitys, Arcada ammattikorkeakoulu

Computerworld.com 24.01.2013

Page 23: Big Data -esitys, Arcada ammattikorkeakoulu

Hadoop

• Avoimen  lähdekoodin  Apache-­‐projek/,  joka  on  ehkä  tunnetuin  yksi7äinen  tuotenimi  Big  Data-­‐tarjoomista

• Tarkoite7u  suurten  datamäärien  hajaute7uun  prosessoin/in

• Asennetaan  palvelinklusteriin,  joka  on  vikasietoinen  eli  yksi7äisen  palvelimen  vikaantuminen  ei  hai7aa

• Kolme  alaprojek/a1. Hadoop  Common

2. Hadoop  Distributed  Filesystem

3. Hadoop  MapReduce

Page 24: Big Data -esitys, Arcada ammattikorkeakoulu

Node  1. Node  2.

Node  2.Node  1.

Hadoop  MapReduceDATA

“raakadata” “raakadata”

Map Map

“välitulokset” “välitulokset”

Reduce Reduce

HDFS HDFS

Sort and shuffle

Page 25: Big Data -esitys, Arcada ammattikorkeakoulu

Master

Hadoop:  arkkitehtuuri

Job tracker

Task tracker

Name node

Data node

Master

Task tracker

Data node

MapReduce

HDFS

Page 26: Big Data -esitys, Arcada ammattikorkeakoulu

Mihin  Hadoop  parhaiten  sopii?

• Hadoop on klusteriarkkitehtuurin toteuttava ohjelmisto

• Käyttökelpoinen kun...

• Nopeus on valttia

• Tarvitaan skaalautuvuutta!

• Vikasietoisuus on arvokasta

• Analysoitavaa dataa on paljon

• Laitteistoriippumattomuus(?) kiinnostaa

• Nopeasti kehittyvä ekosysteemi koetaan hyödylliseksi

Page 27: Big Data -esitys, Arcada ammattikorkeakoulu

Hadoopin  sisarprojekRt

• HBase• Hive• Pig• Zookeeper

Mitkä ihmeen sisarprojektit? Pelkkä Hadoop on sopimaton moniin käyttötarkoituksiin ja hyödyntää huonosti olemassa olevaa osaamista. Sisarprojektit parantavat hallittavuutta, lisäävät toiminnallisuuksia ja helpottavat käyttöä.

Page 28: Big Data -esitys, Arcada ammattikorkeakoulu

Ketkä  käyFävät  Hadoopia?

• Facebook• Walmart• eBay• Yahoo

• Hadoop ei millään tavalla ole sidottu suurten yritysten käyttöön!

• http://wiki.apache.org/hadoop/PoweredBy

Page 29: Big Data -esitys, Arcada ammattikorkeakoulu

Esimerkki:  Facebook

• Kaksi  isoa  klusteria:• 1  100  kone7a  (8  800  suori*nta,  12  PT  tallennus*laa)

• 300  kone7a  (2  400  suori*nta,  3  PT  tallennus*laa)

Facebookilla  on  n.  miljardi  käy'äjää.

Page 30: Big Data -esitys, Arcada ammattikorkeakoulu

Hadoop-­‐ekosysteemi

• Moni startup-yritys on rakentanut liiketoimintansa Hadoopin ympärille• Cloudera

• Hortonworks

• MapR

• Hadoop on mukana suuressa osassa big data -tuotteita ja palveluita• Oracle Big Data Appliance (Cloudera)

• Teradata Aster Big Analytics Appliance (Hortonworks)

• IBM InfoSphere BigInsights (Cloudera)

• Microsoft Azure Hadoop (HDInsight) (Hortonworks)

• Amazon Web Services EMR (MapR)

Page 31: Big Data -esitys, Arcada ammattikorkeakoulu

Big  Data  pilvipalveluna

Page 32: Big Data -esitys, Arcada ammattikorkeakoulu

Pilvipalvelut  ja  big  data

Kaksi ilmiötä, yksi tarina?

Page 33: Big Data -esitys, Arcada ammattikorkeakoulu

Hadoop-­‐pilvipalveluiden  käyFöEdut

• Ei investointeja

• Nopea käyttöönotto

• Valmis konfiguraatio

• Mahdolliset rajapinnat muihin palveluihin (esim. S3-tuki)

• Mahdollisuus käyttää analysointivoimaa myös muuhun kuin organisaation omaan dataan

• Mahdolliset lisäarvoa tuottavat lisäpalvelut

Riskit

• Tietoturva

• Luottamus

• SLA

• Latenssi

• Mahdollisuus palveluehto- ja muihin sopimuksellisiin muutoksiin

• Palvelukatkokset ja muut tekniset ongelmat

• Rajoitettu kustomoitavuus

Page 34: Big Data -esitys, Arcada ammattikorkeakoulu

Oma  Hadoop-­‐klusteri  pilvipalveluna

• Välimuoto pilvipalveluna tarjottavalle klusterille (AWS EMR tai Microsoft Windows Azure)• Rakennetaan oma klusteri pilvipalveluna saatavilla oleville

palvelimille

Edut

• Kts. edellinen kalvo

Riskit

• Kts. edellinen kalvo

Haasteena konfigurointi ja ylläpito (kuten omassakin klusterissa, mutta pahempi)

Page 35: Big Data -esitys, Arcada ammattikorkeakoulu

Google  Cloud  ja  Big  Data

Page 36: Big Data -esitys, Arcada ammattikorkeakoulu

Google  BigQuery• “Google  BigQuery  is  a  web  service  that  lets  you  do  interac2ve  analysis  of  massive  datasets

—up  to  billions  of  rows.  Scalable  and  easy  to  use,  BigQuery  lets  developers  and  businesses  tap  into  powerful  data  analy2cs  on  demand.”

Tarjolla• Selainkäy7ölii7ymä

• Browser  Tool

• Komentorivityökalu• bq  command-­‐line  tool

• API

Page 37: Big Data -esitys, Arcada ammattikorkeakoulu

Google  BigQuery  esimerkki

Page 38: Big Data -esitys, Arcada ammattikorkeakoulu

Mihin  Eufris  on  erikoistunut?• Pilvipalvelut

• Amazon  Web  Services

• Google  Cloud

• Salesforce.com

• Big  Data• Hadoop

Page 39: Big Data -esitys, Arcada ammattikorkeakoulu

KIITOS!