Tecnologie e Metodologie di Big Data Analytics Giambattista Amati*, Simone Angelini*, Giorgio Gambosi • , Daniele Pasquini • *Fondazione Ugo Bordoni • Università Tor Vergata Roma, Seminario ISCOM, 2 luglio 2019 Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 1
160
Embed
Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Tecnologie e Metodologie di Big Data Analytics
Giambattista Amati*, Simone Angelini*, Giorgio Gambosi•, DanielePasquini•
*Fondazione Ugo Bordoni• Università Tor Vergata
Roma, Seminario ISCOM, 2 luglio 2019
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 1 / 73
Sommario
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search
4 VisualizzazioneSpam Farm
5 Machine Learning e Data Mining (Giorgio Gambosi)
6 Hadoop e Spark (Simone Angelini)
7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 2 / 73
Big Data Analytics
Section 1
Big Data Analytics
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 3 / 73
Big Data Analytics
Cosa sono i Big Data?
VARIETÀ
Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .
VELOCITÀ
Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.
VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 4 / 73
Big Data Analytics
Cosa sono i Big Data?
VARIETÀ
Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .
VELOCITÀ
Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.
VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 4 / 73
Big Data Analytics
Cosa sono i Big Data?
VARIETÀ
Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .
VELOCITÀ
Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.
VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 4 / 73
Big Data Analytics
Big DataThe Forrester Wave, Q1 2013
The Forrester Wave, Q1 2013
Soluzioni software e hardware che permettano le organiz-
zazioni di scoprire, valutare e realizzare modelli predittivi anal-
izzando sorgenti informative molto grandi di dati al fine di
migliorare le proprie performance e mitigare i rischi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 5 / 73
Big Data Analytics
Big DataThe Forrester Wave, Q1 2013
The Forrester Wave, Q1 2013
Soluzioni software e hardware che permettano le organiz-
zazioni di scoprire, valutare e realizzare modelli predittivi anal-
izzando sorgenti informative molto grandi di dati al fine di
migliorare le proprie performance e mitigare i rischi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 5 / 73
Big Data Analytics
Gartner (Febbraio 2016)
By 2018, smart, governed, Hadoop-based, search-based
and visual-based data discovery will converge in a single
form of next-generation data discovery that will include self-
service data preparation and natural-language generation.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 6 / 73
Big Data Analytics
Internet of Things (IoT)Da Terabytes a Yottabytes
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 7 / 73
Big Data Analytics Progetti ISCOM-FUB
Subsection 1
Progetti ISCOM-FUB
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 8 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI
Monitoraggio delle piattaforme sociali:
SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter
Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 9 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI
Monitoraggio delle piattaforme sociali:
SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter
Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 9 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI
Monitoraggio delle piattaforme sociali:
SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter
Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 9 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDOT
Raffinamento della Piattaforma di Big Data Analytics
Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni
120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti
Dataset unico di estremo valore e interesse
Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 10 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Progetto BigDataDOCS
Analisi del malware sia attraverso l’analisi del malware siaacquisendo informazioni real-time in rete (Twitter)
Collection Nr Docs #Tokens Nr Occurrences Index Di-mensions
Table: The MW-TaggedText collection contains text of a subset of theVirusShare.com collection and occupies 30GB of malware data. TheCybSec-ISCOM-FUB collection is data collected from Twitter, withapproximately one index per day from the first day of detection on the10th November 2017.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 11 / 73
Big Data Analytics Progetti ISCOM-FUB
Il Laboratorio ISCOM
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 12 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
Gli iniziIl Web
Web è un esempio di ipertesto, con nodi e link.
HTML nasce per trattare l’ipertesto (CERN 1980)
La prima interfaccia: “World Wide Web” (1990)
Il primo browser, MOSAIC per UNIX (1993)
Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)
W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)
Page e Brin (Stanford University) creano PageRank di Google(1996)
Google (1997)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 13 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
PassatoTrasporre una matrice grande e sparsa ....
1998 - Google
1999 - Systema MG (Managing Gygabytes)
2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC
2004 - Terabyte track (TREC)
2006 - Google DFS
2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.
2008 - MapReduce di Google
2011 dicembre - Hadoop su cluster di macchine.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 14 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
OggiScalare ma in tempo reale ....
2013 Apache Spark molto più efficiente di Hadoop
2013 Apache PySpark API di Pyton per Spark
2014 - Apache Storm trattamento dei dati real time
2014-Apache GraphX per la visualizzazione dei grafi.
2015 giugno - SparkR - R distribuito, il data mining massivo con
open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.
Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 15 / 73
Big Data Analytics Progetti ISCOM-FUB
Volume
Nel 2007 Google ha elaborato 403 PB di documenti
Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.
Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.
Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.
Secondo una nostra stima si è passati da 200 tweet al minuto
(fine 2011) a 1300 tweet medi al minuto di oggi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73
Big Data Analytics Progetti ISCOM-FUB
Volume
Nel 2007 Google ha elaborato 403 PB di documenti
Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.
Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.
Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.
Secondo una nostra stima si è passati da 200 tweet al minuto
(fine 2011) a 1300 tweet medi al minuto di oggi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73
Big Data Analytics Progetti ISCOM-FUB
Volume
Nel 2007 Google ha elaborato 403 PB di documenti
Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.
Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.
Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.
Secondo una nostra stima si è passati da 200 tweet al minuto
(fine 2011) a 1300 tweet medi al minuto di oggi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73
Big Data Analytics Progetti ISCOM-FUB
Volume
Nel 2007 Google ha elaborato 403 PB di documenti
Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.
Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.
Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.
Secondo una nostra stima si è passati da 200 tweet al minuto
(fine 2011) a 1300 tweet medi al minuto di oggi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73
Big Data Analytics Progetti ISCOM-FUB
Volume
Nel 2007 Google ha elaborato 403 PB di documenti
Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.
Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.
Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.
Secondo una nostra stima si è passati da 200 tweet al minuto
(fine 2011) a 1300 tweet medi al minuto di oggi.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 16 / 73
Big Data Analytics Progetti ISCOM-FUB
Architettura di un ecosistema Big Data: Spark & R ...
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 39 / 73
Trasformazioni dei Dati Visualizzazione
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 40 / 73
Trasformazioni dei Dati Visualizzazione
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 41 / 73
Trasformazioni dei Dati Visualizzazione
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 42 / 73
Streaming & Search
Section 3
Streaming & Search
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 43 / 73
Streaming & Search
Architettura
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 44 / 73
Streaming & Search
Storm processing
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 45 / 73
Streaming & Search
Tweet Processing
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 46 / 73
Streaming & Search
Counting & Estimating
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 47 / 73
Streaming & Search
MashupRedis
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 48 / 73
Streaming & Search
Efficient Retrieval by Key-valuesMongoDB
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 49 / 73
Streaming & Search
Trends
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 50 / 73
Streaming & Search
Real TimeMost active accounts
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 51 / 73
Streaming & Search
Topic Search
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 52 / 73
Streaming & Search
Authority Entity Search
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 53 / 73
Streaming & Search
Author Search
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 54 / 73
Streaming & Search
Trends
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 55 / 73
Visualizzazione
Section 4
Visualizzazione
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 56 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
Visualizzazione di Grafi
Existing Software are very slow
Existing Software manage few nodes and edges. We are able to
manage 500,000 nodes ( using SVG to 1ML).
Difficult to personalize.
Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).
Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 57 / 73
Visualizzazione
We scale by Visualising all the sub-graphs of acommunity!First perform the clustering
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 58 / 73
Visualizzazione
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 59 / 73
Visualizzazione
A community
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 60 / 73
Visualizzazione
A communityInternal communication
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 61 / 73
Visualizzazione
A hub node
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 62 / 73
Visualizzazione
Central NodesThey connect two different comunities
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 63 / 73
Visualizzazione Spam Farm
Subsection 1
Spam Farm
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 64 / 73
Visualizzazione Spam Farm
Spam farmSpamming, counterfeiting, fake news and cybersecurity
A (real) community? (Trump community)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 65 / 73
Visualizzazione Spam Farm
Spam farmSpamming, counterfeiting, fake news and cybersecurity
A hub/authoritative account, but it is a bot!
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 66 / 73
Visualizzazione Spam Farm
Spam farmSpamming, counterfeiting, fake news and cybersecurity
A bot community (sparm farm)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 67 / 73
Visualizzazione Spam Farm
Spam farmSpamming, counterfeiting, fake news and cybersecurity
A bot community (sparm farm)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 68 / 73
Visualizzazione Spam Farm
Spam farmSpamming, Counterfeit, fake news and cybersecurity
Posts do not link to the news but to a different content!
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 69 / 73
Visualizzazione Spam Farm
Il Prossimo futuroPrevisione di Gartner (febbraio 2017)
Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.
Entro il 2021, il numero di utenti di BI & Analytics con ricerca e
visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.
≤ 2020, il 50% delle ricerche analitiche mediante ricerca,
elaborazione del linguaggio naturale o voce, o generate
automaticamente.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 70 / 73
Visualizzazione Spam Farm
Il Prossimo futuroPrevisione di Gartner (febbraio 2017)
Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.
Entro il 2021, il numero di utenti di BI & Analytics con ricerca e
visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.
≤ 2020, il 50% delle ricerche analitiche mediante ricerca,
elaborazione del linguaggio naturale o voce, o generate
automaticamente.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 70 / 73
Visualizzazione Spam Farm
Il Prossimo futuroPrevisione di Gartner (febbraio 2017)
Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.
Entro il 2021, il numero di utenti di BI & Analytics con ricerca e
visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.
≤ 2020, il 50% delle ricerche analitiche mediante ricerca,
elaborazione del linguaggio naturale o voce, o generate
automaticamente.
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 70 / 73
Machine Learning e Data Mining (Giorgio Gambosi)
Section 5
Machine Learning e Data Mining (Giorgio
Gambosi)
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 71 / 73
Hadoop e Spark (Simone Angelini)
Section 6
Hadoop e Spark (Simone Angelini)
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 72 / 73
Analisi di Grandi Grafi (Daniele Pasquini)
Section 7
Analisi di Grandi Grafi (Daniele Pasquini)
1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce
2 Trasformazioni dei DatiVisualizzazione
3 Streaming & Search4 Visualizzazione
Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)
Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 73 / 73