Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Tecnologie e Metodologie di Big Data Analytics

Giambattista Amati*, Simone Angelini*, Giorgio Gambosi•, DanielePasquini•

*Fondazione Ugo Bordoni• Università Tor Vergata

Roma, Seminario ISCOM, 2 luglio 2019

Giambattista Amati (FUB) Big Data Analytics Roma, Seminario ISCOM, 2 luglio 2019 1 / 73

Sommario

1 Big Data AnalyticsProgetti ISCOM-FUBMapReduce

2 Trasformazioni dei DatiVisualizzazione

3 Streaming & Search

4 VisualizzazioneSpam Farm

5 Machine Learning e Data Mining (Giorgio Gambosi)

6 Hadoop e Spark (Simone Angelini)

7 Analisi di Grandi Grafi (Daniele Pasquini)


Big Data Analytics

Section 1

Big Data Analytics



3 Streaming & Search4 Visualizzazione

Spam Farm5 Machine Learning e Data Mining (Giorgio Gambosi)6 Hadoop e Spark (Simone Angelini)7 Analisi di Grandi Grafi (Daniele Pasquini)


Big Data Analytics

Cosa sono i Big Data?

VARIETÀ

Dati di diversa natura e non strutturati come testi, flussi di click, segnaliprovenienti da RFID, cellulari, sensori, transazioni commerciali di variogenere. . .

VELOCITÀ

Dati che affluiscono devono essere elaborati a ritmi sostenuti o intempo reale. La velocità non si riferisce alla crescita ma alla necessitàdi comprimere i tempi di gestione e analisi.

VOLUMETerabytes di dati e la correlazione tra dati non sono gestibili con i DBtradizionali.


Big Data Analytics


VARIETÀ


VELOCITÀ




Big Data Analytics


VARIETÀ


VELOCITÀ




Big Data Analytics

Big DataThe Forrester Wave, Q1 2013

The Forrester Wave, Q1 2013

Soluzioni software e hardware che permettano le organiz-

zazioni di scoprire, valutare e realizzare modelli predittivi anal-

izzando sorgenti informative molto grandi di dati al fine di

migliorare le proprie performance e mitigare i rischi.


Big Data Analytics

Big DataThe Forrester Wave, Q1 2013

The Forrester Wave, Q1 2013

Soluzioni software e hardware che permettano le organiz-

zazioni di scoprire, valutare e realizzare modelli predittivi anal-

izzando sorgenti informative molto grandi di dati al fine di

migliorare le proprie performance e mitigare i rischi.


Big Data Analytics

Gartner (Febbraio 2016)

By 2018, smart, governed, Hadoop-based, search-based

and visual-based data discovery will converge in a single

form of next-generation data discovery that will include self-

service data preparation and natural-language generation.


Big Data Analytics

Internet of Things (IoT)Da Terabytes a Yottabytes


Big Data Analytics Progetti ISCOM-FUB

Subsection 1

Progetti ISCOM-FUB



Il Progetto SNOOPISocial Networks: L’OsservatoriO sulle Pubbliche AmministrazionI

Monitoraggio delle piattaforme sociali:

SNOOPI ha misurato quantitativamente e qualitativamente lacapacità di presidio e di interazione delle PubblicheAmministrazioni, e rilevato i temi di interesse dei cittadini su Twitter

Per fare ciò SNOOPI si è dotato di un laboratorio conun’infrastruttura HW & SW di tipo Big Data.















Il Progetto BigDOT

Raffinamento della Piattaforma di Big Data Analytics

Open Data: Il traffico mobile e elettrico di Trento e Milano (∼ 2TB, 2 mesi)Tutto il flusso di Twitter sulle Pubbliche Amministrazioni

120,000,000 circa di Tweet.Più di 400,000 argomenti trattati in 12 mesi di monitoraggioPiù di 4,000,000 di utenti coinvolti

Dataset unico di estremo valore e interesse

Tutti gli eventi di rilevanza locale o nazionale per le PA, e ilsentiment di opinione relativo (EXPO, Elezione del Presidentedella Repubblica, Jobs Act, la riforma della scuola, ecc.)



Il Progetto BigDOT








Il Progetto BigDOT








Il Progetto BigDOT








Il Progetto BigDOT








Il Progetto BigDOT








Il Progetto BigDOT








Il Progetto BigDOT








Il Progetto BigDataDOCS

Analisi del malware sia attraverso l’analisi del malware siaacquisendo informazioni real-time in rete (Twitter)

Collection Nr Docs #Tokens Nr Occurrences Index Di-mensions

Nrindexes

CybSecISCOM-FUB 53.643.416 82.937.329 1.095.045.889 83GB 111MW-TaggedText 655.361 153.587.253 4.222.109.462 21GB 1

Table: The MW-TaggedText collection contains text of a subset of theVirusShare.com collection and occupies 30GB of malware data. TheCybSec-ISCOM-FUB collection is data collected from Twitter, withapproximately one index per day from the first day of detection on the10th November 2017.



Il Laboratorio ISCOM



Gli iniziIl Web

Web è un esempio di ipertesto, con nodi e link.

HTML nasce per trattare l’ipertesto (CERN 1980)

La prima interfaccia: “World Wide Web” (1990)

Il primo browser, MOSAIC per UNIX (1993)

Stanford University introduce le tassonomie con Yahoo! (1994),Lycos (CMU 1994)

W3C Consortium (CERN+MIT) nasce nel 1995, AltaVista (DEC1995)

Page e Brin (Stanford University) creano PageRank di Google(1996)

Google (1997)



Gli iniziIl Web








Google (1997)



Gli iniziIl Web








Google (1997)



Gli iniziIl Web








Google (1997)



Gli iniziIl Web








Google (1997)



Gli iniziIl Web








Google (1997)



Gli iniziIl Web








Google (1997)



Gli iniziIl Web








Google (1997)



PassatoTrasporre una matrice grande e sparsa ....

1998 - Google

1999 - Systema MG (Managing Gygabytes)

2004 - Prima release di Terrier (Terabyte Retriever), motore diricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC

2004 - Terabyte track (TREC)

2006 - Google DFS

2008-2009 -Distributed Terrier, progetto FUB-Matrixware per lagestione dei brevetti europei su HPC con 80 core.

2008 - MapReduce di Google

2011 dicembre - Hadoop su cluster di macchine.




1998 - Google




2006 - Google DFS







1998 - Google




2006 - Google DFS







1998 - Google




2006 - Google DFS







1998 - Google




2006 - Google DFS







1998 - Google




2006 - Google DFS







1998 - Google




2006 - Google DFS







1998 - Google




2006 - Google DFS






OggiScalare ma in tempo reale ....

2013 Apache Spark molto più efficiente di Hadoop

2013 Apache PySpark API di Pyton per Spark

2014 - Apache Storm trattamento dei dati real time

2014-Apache GraphX per la visualizzazione dei grafi.

2015 giugno - SparkR - R distribuito, il data mining massivo con

open source I Data Scientists possono lavorare sui Big Data conlo stile di programmazione di R2017 luglio- SparklyR - partnership tra Databricks e Rstudio peruna versione distribuita di R.

Clustering massivo, Locality Sensitive Hashing (LSH) e Coda.Business Intelligence su Big Data









































































Volume

Nel 2007 Google ha elaborato 403 PB di documenti

Nel 2009 Il Regional Computer Forensic Laboratory della FBI haesaminato 3 PB di dati.

Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byteciascun tweet) = 1.25 Terabyte al giorno.

Il flusso italiano filtrato da SNOOPI su Twitter è di 1.8 ML tweetal giorno.

Secondo una nostra stima si è passati da 200 tweet al minuto

(fine 2011) a 1300 tweet medi al minuto di oggi.



Volume









Volume









Volume









Volume









Architettura di un ecosistema Big Data: Spark & R ...

SparklyR SparkPy SparkSQL MLibSpark

StreamingGraphX

Spark Core API

R Python SQL Scala Java

YARN (Hadoop-Gestione Risorse, scheduling, monitoraggio)

HDFS (Gestione File Distribuito, repliche ...)



Come gestire i Big DataIl paradigma MapReduce: I Concetti Chiave

Distributed File System (DFS)

I dati hanno una chiave associata (chiave-valore)

Il modello computazionale MapReduce















Distributed File SystemGoogle GFS, Hadoop HDFS



Distributed File System (DFS)I dati vengono spezzettati, distribuiti e replicati in più file e più macchine

Si hanno cluster di rack

Ciascun rack ha 8-64 macchine collegate con uno switch a 1Gbps

I cluster sono collegati tra loro da un backbone principale a 2-8Gbps

I dati si spezzettano in chunk (∼ 128 MB), ogni chunk ospitato inmemoria da una macchina (chunk server).

Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.



































Distributed File SystemGoogle GFS, Hadoop HDFS

Le operazioni tipiche che vengono effettuate sono due: lettura e

concatenazione (read e append)

Gli update sulle singole macchine sono rari.



Distributed File SystemQuante macchine?

Nel 2007 Google affermava di avere 403 PB.

Tasso di compressione degli indici 3,5%: ∼ 14PB di datiprodottiSe tutto l’indice è in memoria centrale ....

con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno128 GB di RAM.


























Big Data Analytics MapReduce

Subsection 2

MapReduce



La programmazione distribuita è molto pesanteSoluzione: MapReduce

MapReduce viene incontro alle sfide della programmazione distribuita.Le 3 regole

Archivia i dati con ridondanza su nodi multipli per garantire lapersistenza e la loro disponibilità

Effettua il calcolo in prossimità dei dati per minimizzare il costodi trasferimento dei dati

Usa un modello semplice di programmazione per nasconderela complessità dell’architettura

















Conteggio Parole

words(doc.txt)| sort| uniq -c

Map

Scandire un termine alla voltaEstrarre da ogni record un valore dalla chiave

Raggruppare per chiavi

Ordinare e Distribuire

Ridurre

Aggregare, sommare, filtrare o trasformareScrivere il risultato su file

Il principio è sempre lo stesso, Map e Reduce cambiano aseconda del problema



Conteggio Parole


Map




Ridurre





Conteggio Parole


Map




Ridurre





Conteggio Parole


Map




Ridurre





Conteggio Parole


Map




Ridurre





Conteggio Parole


Map




Ridurre





Conteggio Parole


Map




Ridurre





Conteggio Parole


Map




Ridurre





Map ReduceDichiarare il numero dei Map e di Reduce, una chiave per un solo Reduce



Map Reduce

map(key, value)://key: document id; value: il testo del documento

for each word w in value:emit(w, 1)

reduce(key, values):// key:una parola w; value: un intero come contatore

result = 0for each count v in values:

result += vemit(w, result)



Map ReduceIn breve



Scheduling & Data flowCosa non deve fare il programmatore, ma che fa il sistema

Partizione dei dati

Scheduling dei task per l’esecuzione del programma tra le variemacchine

Ordinare per chiave i dati

Assegnare i dati (intermedi) ai nodi.

Gestire i guasti dei nodi.

Gestire la comunicazione delle macchine




Partizione dei dati









Partizione dei dati









Partizione dei dati









Partizione dei dati









Partizione dei dati








Spark

Azioni, contare o mostrare i primi elementi di un RDD o di unDataFrame

Trasformazioni generano nuovi RDD, map, filter, reduce, join,groupBy

Trasformazioni senza shuffle map, filter, select

Trasformazioni con shuffle reduce, join, groupBy



Spark







Spark







Spark






Trasformazioni dei Dati

Section 2








80% of time is spent to clean and trasform the data..... 20% to comunicate

1 Import the data, json, sql, csv, Hive etc.2 Preliminary analysis of the data & cleaning missing values,

key-values data (transform into the third form of Codd),correlations etc. (tidy data).

3 Trasform the data. A pipeline of processes: mutate, join,summarize, group_by, select, filter, ecc.

4 Automatic Completion of missing values.Regression/Classification

5 Modelling (eg. MLlib or H2O)6 Visualization of data7 Communication of results



























































Modelling & Visualization, Data Science with R

Why R?

open source

IDE Rstudio

Rmarkdown

Small e Big Data (seamlessly): sparklyr is a library of R.

Easy interface to Spark

Powerful visualization tools




Why R?

open source

IDE Rstudio

Rmarkdown







Why R?

open source

IDE Rstudio

Rmarkdown







Why R?

open source

IDE Rstudio

Rmarkdown







Why R?

open source

IDE Rstudio

Rmarkdown







Why R?

open source

IDE Rstudio

Rmarkdown






R e sparklyrTidy data



Il ciclo di vita dei dati

package tidyverse (dplyr, small data)

package sparklyr (big data)



Il ciclo di vita dei dati

package tidyverse (dplyr, small data)

package sparklyr (big data)


Trasformazioni dei Dati Visualizzazione

Subsection 1

Visualizzazione



VisualizzazioneCome risulta il database prima delle trasformazioni di pulizia e di completamento

dei dati



VisualizzazioneDopo la pulizia e il completamento dei dati



Joining data & VisualizzazioneSource http://datiopen.istat.it/datasetCOM.php

https://dait.interno.gov.it/elezioni/open-data/dati-elezioni-politiche-4-marzo-2018








Streaming & Search

Section 3

Streaming & Search






Streaming & Search

Architettura


Streaming & Search

Storm processing


Streaming & Search

Tweet Processing


Streaming & Search

Counting & Estimating


Streaming & Search

MashupRedis


Streaming & Search

Efficient Retrieval by Key-valuesMongoDB


Streaming & Search

Trends


Streaming & Search

Real TimeMost active accounts


Streaming & Search

Topic Search


Streaming & Search

Authority Entity Search


Streaming & Search

Author Search


Streaming & Search

Trends


Visualizzazione

Section 4

Visualizzazione






Visualizzazione

Visualizzazione di Grafi

Existing Software are very slow

Existing Software manage few nodes and edges. We are able to

manage 500,000 nodes ( using SVG to 1ML).

Difficult to personalize.

Visual and Cognitive Overload.Nodes and edges must be linkable e searchable(visual searchengine).

Given an edge visualise the communication between the twonodes.Given a node provide any information about the node.Given a query provide the relevant nodes and relevant edges.Given a set of nodes provide the relevant or most similarcommunity.


Visualizzazione









Visualizzazione









Visualizzazione









Visualizzazione









Visualizzazione









Visualizzazione









Visualizzazione









Visualizzazione









Visualizzazione

We scale by Visualising all the sub-graphs of acommunity!First perform the clustering


Visualizzazione


Visualizzazione

A community


Visualizzazione

A communityInternal communication


Visualizzazione

A hub node


Visualizzazione

Central NodesThey connect two different comunities


Visualizzazione Spam Farm

Subsection 1

Spam Farm



Spam farmSpamming, counterfeiting, fake news and cybersecurity

A (real) community? (Trump community)




A hub/authoritative account, but it is a bot!




A bot community (sparm farm)




A bot community (sparm farm)



Spam farmSpamming, Counterfeit, fake news and cybersecurity

Posts do not link to the news but to a different content!



Il Prossimo futuroPrevisione di Gartner (febbraio 2017)

Entro il 2020, Data Discovery intelligente su Hadoop & Spark,con ricerca e visualizzazione, come componente di unapiattaforma di BI & Analytics.

Entro il 2021, il numero di utenti di BI & Analytics con ricerca e

visualizzazione, crescerà a un tasso doppio anche in valore dibusiness.

≤ 2020, il 50% delle ricerche analitiche mediante ricerca,

elaborazione del linguaggio naturale o voce, o generate

automaticamente.









automaticamente.









automaticamente.


Machine Learning e Data Mining (Giorgio Gambosi)

Section 5

Machine Learning e Data Mining (Giorgio

Gambosi)






Hadoop e Spark (Simone Angelini)

Section 6

Hadoop e Spark (Simone Angelini)






Analisi di Grandi Grafi (Daniele Pasquini)

Section 7

Analisi di Grandi Grafi (Daniele Pasquini)






Tecnologie e Metodologie di Big Data Analytics · Big Data Analytics Section 1 Big Data Analytics 1 Big Data Analytics Progetti ISCOM-FUB MapReduce 2 Trasformazioni dei Dati Visualizzazione

Documents