Top Banner
© Blogmeter 2014 I www.blogmeter.it Real-time discovery e sentiment analysis su Twitter: BlogmeterNow Vittorio Di Tomaso @BlogMeter [email protected] Milano, 28-29 novembre 2014
49

Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Jul 14, 2015

Download

Technology

Codemotion
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

© Blogmeter 2014 I www.blogmeter.it

Real-time discovery e sentiment analysis su Twitter: BlogmeterNow !!Vittorio Di Tomaso!@BlogMeter!

[email protected]!

Milano, 28-29 novembre 2014

Page 2: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 2    

Leader in Italia nella social media intelligence!

500+ progetti realizzati

100+ clienti

3 sedi: Milano,

Roma e Torino Tecnologie d’avanguardia per la social intelligence!

4 miliardi post e interazioni

social misurate l’anno

20 mila topic di classificazione

configurati

7 mila profili aziendali social

analizzati giornalmente

15 mila entrate lessicali x

sentiment automatico

Chi siamo

Page 3: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 3    3!

ANALISI & REPORTING!Servizio di analisi e reportistica quali-quantitativa sulla reputazione online

e/o di tracking dell’efficacia delle campagne di marketing!

INFOGRAFICHE!Una sintesi grafica delle attività social

relative a una trasmissione tv o iniziativa di marketing!

Blogmeter Social Toolbox per l’analisi e la gestione dei social media!

Analisi dati e formazione!

ACADEMY!Formazione direzionale relativa

all’introduzione dei social in azienda, best practice da seguire, fino alla

strutturazione di !un’attività di monitoraggio!

Analizza la tua !reputazione !

sui social media!

Misura l’impatto delle!trasmissioni televisive !su Facebook e Twitter!

Analizza le performance!dei profili aziendali su!Facebook e Twitter.!

Gestisci il tuo social!customer care e crm!

Offerta

Page 4: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 4    

Agenda

COSA FACCIAMO! COME LO FACCIAMO!PERCHE’ LO FACCIAMO!

Page 5: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 5    

Cosa facciamo!

Page 6: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 6    

Analizziamo in real time conversazioni e interazioni sui media sociali!

Cosa facciamo

Ingestion! Content Analysis!

Sentiment Analysis! Indexing! Delivery!

Page 7: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 7    

Circa 25k “item” al minuto (post e interazioni) da tutte le fonti sociali, acquisiti 24x7 utilizzando scraper specifici,

API pubbliche e servizi commerciali!

Data Acquisition

Ingestion! Content Analysis!

Sentiment Analysis! Indexing! Delivery!

Page 8: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 8    

Analisi semantica (Ontology Based Natural Language Processing) per la classificazione dei documenti in

topic di interesse e per la sentiment analysis !!

[4k/minuto circa contengono testo]!

Data Analysis

Ingestion! Content Analysis!

Sentiment Analysis! Indexing! Delivery!

Page 9: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 9    

Utilizzo congiunto di tecnologie relazionali (PostreSQL) e non relazionali (Redis, Lucene) per lo

storage e l’indicizzazione dei documenti!

Indicizzazione

Ingestion! Content Analysis!

Sentiment Analysis! Indexing! Delivery!

Page 10: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 10    

Applicazioni di analisi dei dati, di discovery e di alerting!

Delivery

Ingestion! Content Analysis!

Sentiment Analysis! Indexing! Delivery!

Page 11: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 11    

Perché lo facciamo?!

Page 12: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 12    

Cos’è il Real Time Marketing?

«Il Real Time Marketing è un approccio al mercato che fa leva sulla capacità aziendale di rispondere tempestivamente ad eventi e stimoli esterni, siano

essi prevedibili o meno»!

Page 13: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 13    

Cos’è il Real Time Marketing?

Page 14: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 14    

Planned – Reactive (1/4): Geolocation

Page 15: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 15    

Planned – Reactive (2/4): Geolocation

Page 16: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 16    

Planned – Reactive (3/4): NFC/iBeacon

https://www.youtube.com/watch?v=3QFrZjvp2E0#t=28

Page 17: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 17    

Planned – Reactive (4/4): Predictive Analytics Software per prevedere un bisogno del consumatore, sulla base dell’analisi di dati relativi ai suoi comportamenti o a quelli di categorie similari di persone. !!

Page 18: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 18    

Planned - Proactive

Page 19: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 19    

Unplanned - Reactive

Page 20: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 20    

Unplanned - Reactive

Page 21: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 21    

Come prepararsi al!Real Time Marketing!

Page 22: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 22    

Il flusso: organizzazione e tool

Obiettivi e KPI RTM!

Preparare contenuti!

Definire i ruoli!

Definire i processi!

Prevedere il peggio!

Testare il Tool!

Live!

Tool!

Tool!

Tool!

Page 23: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 23    

Conversation Trend with sentiment!

Most Engaging

Tweets with sentiment &

emotions!

Conversation KPIs!

Most Mentioned

Hashtag!

Most mentioned Accounts!

All tweets!

BlogmeterNow abilita il monitoraggio costante e in tempo reale delle conversazioni online presenti su Twitter al fine di scoprire nuovi contenuti rilevanti, utili sia ai fini di protezione aziendale che per attività di real time marketing e communication.!

Blogmeter Now

Page 24: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 24    

Come lo facciamo!

Page 25: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 25    

Come lo facciamo

Normalization!Unique Indentifier!

Full Text Indexing!Semantic

Annotation Indexing!

Metadata Extraction!

Semantic Annotation!

Sentiment Analysis!

Language Detection!

1!Ingest!

2!Enrich!

3!Index!

User & Location!

Named Entities!

Topics!

Polarity!

Emotions!

Ontology Based Natural Language Processing

Components!

Page 26: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 26    

Come lo facciamo

Data Storage

Processing Layer

Business Layer

User Services

Security

Scheduling & Config

Kestrel

Physical Layer

•  300 core •  1.2T RAM •  29T Disk

Page 27: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 27    

Architettura semantica Processing layer

Analysis pipeline

Primary index

Risorse linguistiche

Metadata extractor

•  Item full text analyzer

•  Item • Metadata Linguist

analyzer Semantic Analyzer

Primary index

•  Item • Metadata •  Token

•  Item • Metadata •  Token • El. linguistici

•  Item • Metadata •  Token • El. Linguistici • Sentiment

(opinioni) • Classificazione

•  Vocabolario Morfologico • Gazetteer ( liste di nomi,

persone, sigle, etc…)

Configurazione del dominio di conoscenza (regole semantiche )

Regole di identificazione e isolamento dei token

Dipendono dalla lingua

Dipendono dalla lingua e dal dominio applicativo

Regole di estrazione dei metadati ( dipendenti dalla struttura dei dati in analisi)

Possibili configurazioni

Full text search

Intelligent search

Semantic search Metriche

Staging area

Page 28: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 28    

Cosa stiamo imparando!

Page 29: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 29    

Da una architettura di ingestion, analisi e delivery che aggiorna i dati nel corso delle 6/12 ore successive a una architettura di ingestion,

analisi e delivery real time!

Cosa stiamo imparando

Page 30: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 30    

La modifica architetturale non è stata indolore.!!

Analizzare linguaggio naturale è computazionalmente complesso, farlo in real

time lo è ancora di più!

Impatti

Page 31: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 31    

1.  Analisi diverse su ontologie di classificazione diverse!

2.  Non possiamo prevedere come un item dovrà essere classificato e con quale set di componenti linguistici (lessici, regole di sentiment, ontologie)!

3.  Lavoriamo su uno stream real time che non si ferma ad aspettarci…!

Perché complesso

Page 32: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 32    

1.  Evitare di fare due volte lo stesso lavoro (gli stream contengono molti item duplicati, non possiamo analizzarli più volte)!

2. Evitare di applicare processori computazionalmente complessi quando non sono richiesti!

Obiettivi

Page 33: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 33    

Abbiamo dedicato particolare attenzione a definire un approccio per limitare la quantità di

duplicati e per garantire una identificabilità univoca di tutti i documenti!

Soluzione: eliminare duplicati in maniera efficiente

Page 34: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 34    

       

Soluzione: eliminare duplicati in maniera efficiente

Stream  (API)  

Search  

Stream  (Provider)  

Dupicate  Detector  -­‐  Unique  ID  

Dupicate  Detector  -­‐  Unique  ID  

Analysis  

       

Analysis  

Storage  

Page 35: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 35    

Semantic routing su un’architettura in cui il flusso delle informazioni tra i processori può essere descritto

come un grafo aciclico direzionato!

Soluzione: routing intelligente dei documenti

Page 36: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 36    

Data Processing Network (esempio)

NLP auto_it

data stream lang lang reco

domain classifier

author

gender reco

loc reco

topic reco

lang NLP mood EN

NLP mood IT

NLP mood es

domain

NLP telco_it

NLP fashion_en

persister

NE Reco

Attivazione intelligente dei processori: si adatta

all’informazione disponibile azzerando il lavoro inutile!

Page 37: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 37    

Vantaggi e risultati raggiunti

Il lavoro su documenti duplicati è ridotto a 0, con conseguente risparmio di cicli di CPU e di spazio sullo storage  

La pipeline di analisi semantica si autoconfigura attivando il flusso giusto per classificare correttamente il documento a

seconda dell’obiettivo!

Il troughput è molto elevato e ci consente di catturare i picchi prevedibili (e anche molti non prevedibili)!

La scabilità orizzontale è garantita da un meccanismo che consente di deployare in maniera “semplice” nuovi nodi di

analisi!

Page 38: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 38    

Case studies!

Page 39: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 39    

VIRUS il contagio delle idee!Seconda edizione del talk show politico di RAI 2 condotto da Nicola Porro.!!Blogmeter Now!Durante la trasmissione Blogmeter Now rileva in tempo reale le conversazioni su Twitter relative alla trasmissione. In particolare: !•  i temi del dibattito!•  gli ospiti!•  i tweet più virali!•  l‘uso degli hashtag lanciati a inizio trasmissione per

schierarsi con uno degli ospiti (es: #haragionedemagistris #haragionesallusti)!

!Social Listening!Durante la settimana aiutiamo gli autori di VIRUS a comprendere le opinioni della rete sui temi della puntata:!•  volume delle conversazioni!•  sentiment sui politici!•  viralità dei messaggi!!

Virus – Rai 2

Page 40: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 40    

Italian MTV Awards 2014!L’evento live più importante di MTV Italia con la premiazione dei migliori artisti dell’anno!!Blogmeter Now!Durante la trasmissione Blogmeter Now è servito a: !•  Real Time Polling per individuare l’artista

più votato dal pubblico su Twitter (due categorie: Best Live Performance e Best Dance Crew) con un effetto diretto sullo show: dopo un minuto dalla votazione i vincitori sono stati premiati sul palco!

•  Monitoraggio in real time dei tweet dedicati all’evento per capire i momenti più caldi!

•  Raccolta di tutte informazioni necessarie a creare un’infografica utile per la successiva comunicazione esterna!

!!

Italia MTV Awards

Page 41: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 41    

!TIM Stadium!E’ il portale di TIM per vivere le partite della Serie A con il supporto di dati numerici. !Si tratta di dati che provengono sia dai campi di gioco (tiri, gol, tattica, ecc…) che dal web: questi ultimi sono forniti da Blogmeter Now.!!Blogmeter Now!Tutti i flussi di tweet relativi alle partite di calcio sono elaborati da Blogmeter Now. La delivery verso la piattaforma TIM Strudium è attraverso API. TIM Stadium che rende disponibili nella sua interfaccia:!•  i volumi di tweet!•  il sentiment (positivo/negativo) dei tweet!•  il flusso dei tweet!•  i tweet più retwittati!•  gli hashtag più usati!•  i profili Twitter più citati!

TIM Stadium

Page 42: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 42    

ProActive

PROtezione del territorio con infrAttrutture ICT avanzate, cittadinanza attiVa, e rEti sociali!

PROPONENTI!•  WebRatio - MPMI (coord)!•  Polimi - OdR!•  Cefriel - OdR!•  Vodafone - GI!•  Gulliver ! MPMI!•  Blogmeter - MPMI!•  Pipetech - MPMI!•  LSI-Lastem- MPMI!•  MM - Utilities!•  TEA - Utilities !

PA COINVOLTE!•  ARPA Lombardia !•  Protezione Civile!•  Comune di Bergamo, Milano, Como e Mantova (pending)!

Bando Smart Cities; !Programma Operativo Regionale (POR) per la Competitività; !Fondo europeo di sviluppo regionale (FESR).!!

AMBITO!a. Sostenibilità ambientale!

SETTORI !a.1 sicurezza del territorio!a.2 mobilità urbana!a.4 gestione risorse idriche !!

SPESE AMMISSIBILI!RI & SS 5.000.000,00 euro!

CONTRIBUTO BANDO SC !RI & SS 2.000.000,00 euro!

!

!!

Obiettivo: Comprendere in real-time come si muovono i cittadini nel territorio e ad individuare attraverso l'analisi dei contenuti che arrivano dalle rete sociali eventuali problemi!!!!

Page 43: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 43    

Un’ultima cosa: Eventi su Twitter!

Page 44: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 44    

Eventi su twitter

Abbiamo dati con sufficiente ampiezza e profondità

storica !Siamo in grado di studiare la

forma delle curve di conversazioni che possono nascere in relazione ad un

certo evento!

http://blog.wolframalpha.com/2013/06/10/using-formulas-for-everything-from-a-complex-analysis-class-to-political-cartoons-to-music-album-covers/

Page 45: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 45    

1.  A parità di volume, le serie temporali di post possono avere forme molto diverse, suggerendo atteggiamenti profondamente differenti da parte degli utenti Twitter.!

2.  Diversamente dal semplice conteggio dei volumi, l’analisi della forma ci fornisce delle misure più significative del fenomeno. !

3.  Oltre a essere un’analisi interessante, ci fornisce gli strumenti per il nostro capacity planning !

Che cosa ci dicono i dati?

Page 46: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 46    

9 ottobre!Post totali: 807k!Post negativi: 140k!Comportamento: picchi!

10 ottobre!Post totali: 863k!Post negativi: 147k!Comportamento: piatto!

15 novembre!Post totali: 751k!Post negativi: 116k!Comportamento: piatto!

16 novembre!Post totali: 738k!Post negativi: 128k!Comportamento: picchi!

Alluvione di Genova, andamento tweet

Page 47: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 47    

22  novembre:  Lazio  –  Juventus  (#)  

23  novembre:  Milan  –  Inter  (#)  

23  oEobre:  X  Factor  (#)  

22  novembre:  Che  Tempo  Che  Fa  (#)  

Diverse trasmissioni di intrattenimento

Page 48: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 48    

Serie di Tweet!

Uniformi! Picchi!

Notizie/aggiornamenti! Intrattentimento/episodi!

Maggiore coinvolgimento iniziale!

Coinvolgimento continuativo!

Recap: una tassonomia delle curve di reazione

Page 49: Real-time discovery e sentiment analysis su Twitter: BlogmeterNow - Vittorio Di Tomaso - Codemotion Milan 2014

Blogmeter 2014 | www.blogmeter.it 49    

+39 0249526400

[email protected]

www.blogmeter.it

Milano | Roma | Torino

Grazie per l’attenzione!

Aspettiamo i vostri CV!

Dal 2007 Blogmeter ha supportato 100+ aziende e agenzie nell'ascolto del web e nell'analisi delle performance sui social media, realizzando più di 500

progetti.

@Blogmeter facebook.com/Blogmeter Consulta le nostre ricerche Guarda le nostre infografiche