Top Banner
30

Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Jan 07, 2017

Download

Software

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa
Page 2: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Hadoop ekosistem u praksi

Socijalne mreže - unapređenje prodaje i servisa

Vladimir Marković, Banca Intesa BeogradDarko Marjanović, Things SolverMiloš Milovanović, Things Solver

Page 3: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

• Uvod (10 minuta)• Vizija i domen• Pet realnih scenarija korišćenja

• Hadoop ekosistem (10 minuta)• POC (25 minuta)• Zaključak (5 minuta)

Agenda

Page 4: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Uvod

• Identifikovanje problema • Vizija• Strateški cilj i zahtevi• POC domen• Pet realnih scenarija korišćenja

Page 5: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Identifikovanje problemaSocijalne mreže

Tekuće stanje

Poslovni problem

• Izbor i pregled objavljenih postova se izvodi ručno ili polu ručno• Marketing specijalista pretražuje postove po ključnim rečima• Objavljeni postovi se klasifikuju ručno i ne smeštaju se u bazu postova• Sentiment postova se ne deli u organizaciji• Mali broj korisnika je upoznat sa „stanjem“ u etru

• Broj postova raste skoro eksponecijalno• Marketing specijalsta identifikuje i klasifikuje samo one postove koji

mogu biti nađeni pomoću njegovih veština u raspoloživom vremenu• Domen pretrage je limitiran samo na blogere od interesa

• Dozvoljavaju pojedincu i kompaniji da iskaže svoje mišljenje• Ljudi objavljuju informacije, o sebi , prijateljima, šta vole ili ne, daju

mišljenja o servisima i proizvodima

Page 6: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Vizija

Big Data

Podrška poslovnim korisnicima

DWH/BI

• Hvatanje potencijalnih korisnika i „inbound marketing“ u realnom vremenu

• Community intelligence insight and „outbound marketing“• Influence marketing• Sentiment analiza objavljenih postova

• Struktuiranje i ocena postova• Distribucija postova svim zainteresovanim stranama• Integracija sa WF, call centar, aCI, razvojem proizvoda

• Uspostavljanje Hadoop okruženja• Prikupljanje, klasifikovanje i čuvanje postova od interesa

Page 7: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Strateški cilj i zahteviStrateški cilj

Poslovni zahtevi

Metrike

• Unapređenje procesa pretrage i prikupljanja postova na interentu• Unapređenje procesa izbora postova od interesa• Olakšati i unaprediti generisanje znanja i inicijativa• Real-time decision making

• FTE vs operativni troškovi• Broj inicijativa izvedenih na osnovu generisanog znanja i informacija• Prosečno vreme od objave posta do preduzimanja akcije

IT ciljevi• Upoznavanje sa novim tehnologijama Big Data & Hadoop• Usvajanje znanja o text mining i machine learning

• Umanjenje reputacionig rizika• Unapređenje razvoja korisničkih servisa i proizvoda• Odgovor na pitanje „Ko su naši klijenti?“

Page 8: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

POC domen

Hadoop okruženje

Big data servisi

DWH/BI

• Twitter Live Stream Loader (TwLSL)• Twitter Post Selector (TwPS)• RSS Loader (RSSL)

• Real Time Data Mart (RTDM) – relaciona baza na MS SQL Server 2012• ETL: Hadoop HDFS à RTDM (SSIS)• Razvoj web aplikacije Social Sentiment & Sales (3S web application) -

ASP.NET AJAX

• Instalacija Hadoop okruženja na 4 radne stanice• HDFS, YARN, MapReduce, Tez. Nagios, Ganglia, Hive, Pig, Flume,...

Page 9: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Case 1: Decreasing reputational risk

• The post is caught by TwLSL, transformed by TwPS, stored in Hadoop storage,sent by BI ETL in RTDM

• Officer (using 3S web application)• searches published posts and finds the post• subscribes to comments, followers, likes, dislikes on the post• marks as extremly risky• redirects the post to marketing manager

• Marketing manager takes actions• All stakeholders can see reports on Information Delivery Portal• The report is refreshed automatically

Page 10: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Case 2: Capturing prospects

• The post is caught by TwLSL, transformed by TwPS, stored in Hadoop storage,sent by BI ETL in RTDM

• Officer (using 3S web application)• searches published posts and finds the post• redirects to Internet Sales Department

• Sales Adviser has decided to send personilzed ad• initiates the requestof personalized ad• Advertising Service sends to Twitter request for ad for specific Twitter user

or the post page (all readers of the post can see ad)• The ad contains unique identifier and response can be calculated• Pairing with customer is more likely, if the twitter user has allowed

cookie, and has used our e-bank application

Page 11: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Case 3: Service improvement

• The post is caught by TwLSL, transformed by TwPS, stored in Hadoop storage,sent by BI ETL in RTDM

• Officer (using 3S web application)• searches published posts and finds the post• redirects to IT Department & Product Development Department

• Web log is loaded into Hadoop ştorage (HDFS)• IT analyzes log (path log analysis) to check usage scenario• Development department initiates RfC

Page 12: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Case 4: Marketing campaign feedback

Page 13: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Case 5: Community and sales

• The post is caught by TwLSL, transformed by TwPS, stored in Hadoop storage,sent by BI ETLin RTDM

• Officer (using 3S web application)• searches published posts and finds the post• redirects the post to CRM

• CRM initiates load of all followers of the author• Followers Service creates graph using

Twitter API • Clustering Service analyzes the graph and

determines the group of people „closest“ to satisfied customer (example red group)

• CRM prepares campaign• Adverising Service sends to Twitter request

for ad for the group of the followers

Page 14: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Hadoop okruženje

• HDFS• MapReduce• YARN• Obrada podataka na Hadoop-u• Hadoop i društvene mreže

Page 15: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Hadoop• Hadoop je open-source softver Apache fondacije.

• Služi za skladištenje i procesiranje velikih količina podataka.

• Napisan je u Java programskom jeziku.

• Osnovne komponente su: • Hadoop Common• HDFS• MapReduce• YARN

Page 16: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

HDFSHDFS ili Hadoop distribuirani fajl sistem baziran na Java programskom jeziku,pruža pouzdan i skalabilan način za skladištenje velikih količina podataka.

Page 17: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

MapReduce

HDFS

Data

MAP

MAP

MAP

REDUCE

REDUCE

Results

MapReduce je algoritam koji omogućava distribuiranu, paralelnu obradu velikih količina podataka naklasteru.

Page 18: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

YARN• ResourceManager

• Scheduler – Alokacija resursa• ApplicationsManager – Prihvatanje poslova …

• Nove aplikacije na Hadoop-u (Real Time, Interactive…)• Veća iskorišćenost resursa

Page 19: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Hadoopobradapodataka● ApacheHive predstavljaDWHinfrastrukturunaHadoopokruženjukojaomogućava

analizuvelikihkoličinapodataka● Lakoseintegrišesaostalimtehnologijamaudatacentru● Omogućavapisanje“SQLlike”upita● HCatalogkomponentaprikazujepodatke tabelarno

● ApachePig jeplatformazaETLproceseiobraduvelikihkoličinapodatakanaHadoopokruženju

● KoristisezalakopisanjeMapReduceposlova● SadržiPigLatinupitnijezikzaobradupodataka● IntegrišesesaostalimalatimaHadoopokruženja

Page 20: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Društvene mreže• Polustrukturirani podaci, koji su u obično u JSON formatu

• Podatke sa društvenih mreža karakteriše i velika brzina generisanja

Page 21: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

POC

• Gruba skica arhitekture• Twitter Live Stream Loader• Twitter Post Selector

• Appache Pig Loader• Hive Filter

• Prezentacioni sloj• SSIS ETL i Real Time Data Mart• 3S - AJAX.NET web aplikacija

Page 22: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Gruba skica arhitekture

Page 23: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Twitter Live Stream Loader

• Twitter Streaming API daje programerima pristuptwitter podacima, u realnom vremenu

• Flume je alat koji omogućava efikasno prikupljanjepodataka sa različitih izvora, i njihovo skladištenje uHDFS. Može se reći da se sastoji iz tri komponente:Source koji je definiše izvor podataka, Channel kojidefiniše kanal kojim podaci putuju i Sink koji definišedestinaciju podatka

Page 24: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Twitter PostSelector

Zadatak:● Kreiranje šeme za Twitter podatke● Učitavanje,strukturiranje iupisivanje

podatakautabele● Izdvajanje postova od interesa

Hive filterraw-tweets filtered-tweets

cron job (15 min)

Pig Loaderjson

Zahtevi:● Konzistentnost● Automatizovanost● Pouzdanost● Fleksibilnost

Page 25: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Apache Pig Loader

ETL (LTD) MapReduce transformacija sirovih podataka:• učitavanje podataka• transformacija• strukturiranje

Pig Latin +

Elephantbird

Hivetabela

Page 26: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Hivefilter

● Filtriranjepostova:○ pojeziku○ poključnimrečima○ pokorisniku○ pogeolokaciji○ ….

● Određivanjekategorijepostova● Blokiranje(ignorisanje) poključnimrečima

HiveQL(filter, category)

Page 27: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Real Time Data MartqRelaciona baza u 3NF (MS SQL Server 2012)qIzvor za 3S web aplikacijuqObjavljene strukture kroz BI alateqMogućnost izrade naprednih analiza i uparivanja sa klijentom

Page 28: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Social Sentiment & Sales (3S)

Takeaction – redirectthepost

Postassessment

Page 29: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Zaključak● Bigdatakao koncept i hadoop kao okruženje zaslužuju pažnju,kako zbog mogućnosti

čuvanja i obrade velike količine podataka različitih tipova i formata,tako i zbog mnoštva alatai gotovih komponenti koje seuglavnom nelicenciraju.

● Sektorigde preovladavaju struktuirani podaci klasični DHW/BIsistemi mogu pružiti više odhadoop sistema

● Sektori ukojima preovladavaju nestruktuirani podaci ili ogromne količine stuktuiranihpodataka (veličite PB),hadoop kao platforma može naći svoju primenu

● Bigdataprojektom uBankaIntezi pokazano jedakompanije,zavisno odsvoje potrebe,mogu imati uisto vreme i klasičanDWH/BIi hadoop sistem koji su udruženi utzv.hadoopekosistem.

● Trebauvekimatinaumudaobasistemaimasvojuulogu,aliobaimajuisticilj– podrškauodlučivanjuiunapređenjeposlovanja

● Genijalnostbigdatakonceptanisuizgrađeneogromne„planine“podatakavećpogledsvrha

Page 30: Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa