Big Data 28.01.2013 Immo Salo Eufris
Dec 07, 2014
Big Data28.01.2013Immo SaloEufris
Eufris
• Peruste'u vuonna 2006• Koulutus-‐ ja konsultoin/palveluita, erikoistunut pilvipalveluihin
• Yri7äjä: Immo Salo• Kirjat
• “Cloud compu/ng -‐ palvelut verkossa”, WSOYPro 2010
• “Hyötyä pilvipalveluista”, Docendo 2012
• “Big Data”, Docendo 2013 (tulossa)
www.eufris.fiwww.bigdata.fi
Big Data: hype nousee!
Google Trends
Web 2.0Social mediaCloud computing
Big data
Big Data: mitä se on?
Big Data-‐määritelmiä
"Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis"IDC
"Big Data is a technology that helps extract value from the digital universe.”IDC
"Techniques and technologies that make handling data at extreme scale economical."Forrester
Gartnerin top 10 strategista teknologiaa 20121. Media Tablets and Beyond
2. Mobile-‐Centric Applica/ons and Interfaces
3. Contextual and Social User Experience
4. Internet of Things
5. App Stores and Marketplaces
6. Next-‐Genera/on Analy/cs
7. Big Data
8. In-‐Memory Compu/ng
9. Extreme Low-‐Energy Servers
10.Cloud Compu/ng
Gartnerin top 10 strategista teknologiaa 20131. Mobile Devices Ba7les
2. Mobile Applica/ons and HTML5
3. Personal Cloud
4. Internet of Things
5. Hybrid IT and Cloud Compu/ng
6. Strategic Big Data
7. Ac/onable Analy/cs
8. Mainstream In-‐Memory Compu/ng
9. Integrated Ecosystems
10. Enterprise App Stores
Big Data: datan määrä kasvaa
Pari yleistä kuvaa
2012 2015 2020
Mistä dataa oikein tulee?
Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com, apple.com, nokia.com
Vaihtoehtoja on paljon
KäyFökokemuksia
Haasteellisinta big datassa on päästä alkuun.
Osaajapula uhkaa
“There will be a shortage of talent necessary for organizations to take advantage of big data. By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills as well as 1.5 million managers and analysts with the know-how to use the analysis of big data to make effective decisions.”
Lähde: McKinsey
Big Data: viitekehyksiä
Big Datan ABC
• Analy/cs (analy2ikka)• Data pitää jalostaa informaa2oksi, 2edoksi ja ymmärrykseksi. Visualisoin2,
konkre2soin2, ennusteiden tekeminen, tunnuslukujen laskeminen, korrelaa2oiden hakeminen...
• Bandwidth (2etoliikenne)• Suurten 2etomäärien liiku=elu on yhä useammin pullonkaula. Lähtökohtainen päätös
siitä, missä 2etoja säilytetään ja missä niitä prosessoidaan on yhtä merki=ävä kuin käytetyt teknologiat ja analyysin hyödyntämiskohteet.
• Content (sisältö)• Edelleen suuri osa 2edosta säilytetään, mu=a jätetään käy=ämä=ä tai vielä
pahempaa: heitetään hukkaan ilman ensimmäistäkään analyysia.
Lähde: Netapp.com
Big Datan kolme V-‐kirjainta (3V)
• Variety (vaihtelevuus)• Dataa on strukturoitua ja strukturoimatonta. Molempia pitää pystyä hyödyntämään.
• Velocity (vauh2)• Datan määrä kasvaa vauhdilla ja sitä tulee lukema=omista lähteistä. Lähes
reaaliaikaisen analyysi tavoi=eena.
• Volume (voluumi)
• Data pitää pystyä analysoimaan ja säily=ämään myöhempää käy=öä varten.
Lähde: Netapp.com
Big Data: Hadoop
Google Trends: Hadoop
Onko huomiarvon huippu saavutettu?
Indeed Trends: Hadoop työpaikat
Työpaikkojen tarjonta nousee nopeasti!
Computerworld.com 24.01.2013
Hadoop
• Avoimen lähdekoodin Apache-‐projek/, joka on ehkä tunnetuin yksi7äinen tuotenimi Big Data-‐tarjoomista
• Tarkoite7u suurten datamäärien hajaute7uun prosessoin/in
• Asennetaan palvelinklusteriin, joka on vikasietoinen eli yksi7äisen palvelimen vikaantuminen ei hai7aa
• Kolme alaprojek/a1. Hadoop Common
2. Hadoop Distributed Filesystem
3. Hadoop MapReduce
Node 1. Node 2.
Node 2.Node 1.
Hadoop MapReduceDATA
“raakadata” “raakadata”
Map Map
“välitulokset” “välitulokset”
Reduce Reduce
HDFS HDFS
Sort and shuffle
Master
Hadoop: arkkitehtuuri
Job tracker
Task tracker
Name node
Data node
Master
Task tracker
Data node
MapReduce
HDFS
Mihin Hadoop parhaiten sopii?
• Hadoop on klusteriarkkitehtuurin toteuttava ohjelmisto
• Käyttökelpoinen kun...
• Nopeus on valttia
• Tarvitaan skaalautuvuutta!
• Vikasietoisuus on arvokasta
• Analysoitavaa dataa on paljon
• Laitteistoriippumattomuus(?) kiinnostaa
• Nopeasti kehittyvä ekosysteemi koetaan hyödylliseksi
Hadoopin sisarprojekRt
• HBase• Hive• Pig• Zookeeper
Mitkä ihmeen sisarprojektit? Pelkkä Hadoop on sopimaton moniin käyttötarkoituksiin ja hyödyntää huonosti olemassa olevaa osaamista. Sisarprojektit parantavat hallittavuutta, lisäävät toiminnallisuuksia ja helpottavat käyttöä.
Ketkä käyFävät Hadoopia?
• Facebook• Walmart• eBay• Yahoo
• Hadoop ei millään tavalla ole sidottu suurten yritysten käyttöön!
• http://wiki.apache.org/hadoop/PoweredBy
Esimerkki: Facebook
• Kaksi isoa klusteria:• 1 100 kone7a (8 800 suori*nta, 12 PT tallennus*laa)
• 300 kone7a (2 400 suori*nta, 3 PT tallennus*laa)
Facebookilla on n. miljardi käy'äjää.
Hadoop-‐ekosysteemi
• Moni startup-yritys on rakentanut liiketoimintansa Hadoopin ympärille• Cloudera
• Hortonworks
• MapR
• Hadoop on mukana suuressa osassa big data -tuotteita ja palveluita• Oracle Big Data Appliance (Cloudera)
• Teradata Aster Big Analytics Appliance (Hortonworks)
• IBM InfoSphere BigInsights (Cloudera)
• Microsoft Azure Hadoop (HDInsight) (Hortonworks)
• Amazon Web Services EMR (MapR)
Big Data pilvipalveluna
Pilvipalvelut ja big data
Kaksi ilmiötä, yksi tarina?
Hadoop-‐pilvipalveluiden käyFöEdut
• Ei investointeja
• Nopea käyttöönotto
• Valmis konfiguraatio
• Mahdolliset rajapinnat muihin palveluihin (esim. S3-tuki)
• Mahdollisuus käyttää analysointivoimaa myös muuhun kuin organisaation omaan dataan
• Mahdolliset lisäarvoa tuottavat lisäpalvelut
Riskit
• Tietoturva
• Luottamus
• SLA
• Latenssi
• Mahdollisuus palveluehto- ja muihin sopimuksellisiin muutoksiin
• Palvelukatkokset ja muut tekniset ongelmat
• Rajoitettu kustomoitavuus
Oma Hadoop-‐klusteri pilvipalveluna
• Välimuoto pilvipalveluna tarjottavalle klusterille (AWS EMR tai Microsoft Windows Azure)• Rakennetaan oma klusteri pilvipalveluna saatavilla oleville
palvelimille
Edut
• Kts. edellinen kalvo
Riskit
• Kts. edellinen kalvo
Haasteena konfigurointi ja ylläpito (kuten omassakin klusterissa, mutta pahempi)
Google Cloud ja Big Data
Google BigQuery• “Google BigQuery is a web service that lets you do interac2ve analysis of massive datasets
—up to billions of rows. Scalable and easy to use, BigQuery lets developers and businesses tap into powerful data analy2cs on demand.”
Tarjolla• Selainkäy7ölii7ymä
• Browser Tool
• Komentorivityökalu• bq command-‐line tool
• API
Google BigQuery esimerkki
Mihin Eufris on erikoistunut?• Pilvipalvelut
• Amazon Web Services
• Google Cloud
• Salesforce.com
• Big Data• Hadoop
KIITOS!