Top Banner
Applicazione di metodi statistici alla lassificazione del traffico in reti dat Alessandro Finamore Marco Mellia Fabio Neri Relatori:
27

Applicazione di metodi statistici alla classificazione del traffico in reti dati

Jan 01, 2016

Download

Documents

rajah-stone

Applicazione di metodi statistici alla classificazione del traffico in reti dati. Alessandro Finamore. Marco Mellia Fabio Neri. Relatori:. Il problema della classificazione. Traffico generico. Internet Service Provider. Qual è il protocollo della comunicazione ?. 1/17. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Applicazione di metodi statistici allaclassificazione del traffico in reti dati

Alessandro Finamore

Marco MelliaFabio Neri

Relatori:

Page 2: Applicazione di metodi statistici alla classificazione del traffico in reti dati

1/17

Il problema della classificazione

Traffico generico

Qual è il protocollo della comunicazione?

Page 3: Applicazione di metodi statistici alla classificazione del traffico in reti dati

2/17

Il problema della classificazione

Porta:

Porta: 4662/4672

Porta:

Porta:

Payload: “bittorrent”

Payload: E4/E5

Payload:

Payload: protocollo RTP

Skype Bittorrent

Gtalk eMule

Page 4: Applicazione di metodi statistici alla classificazione del traffico in reti dati

3/17

Classificazione statistica

Caratterizzazione statistica delle comunicazioni

Fase 1

Statistiche

Fase 3

Testing

Sviluppo del sistema di predizione

Analisi degli errori di classificazione

Fase 2

PredizioneTraffico noto

Page 5: Applicazione di metodi statistici alla classificazione del traffico in reti dati

4/17

Classificazione statisticaFase 1

Statistiche

Fase 3

Testing

Fase 2

PredizioneTraffico noto

Caratterizzazione statistica delle comunicazioni Test2

Page 6: Applicazione di metodi statistici alla classificazione del traffico in reti dati

5/17

Chunking e 2

Primi N bytePrimi N byte

C chunks da

b bits

21

2C[ ], … ,

Vettore di statistiche

Frequenze dei valori assunti dai chunk

Distribuzioneuniforme

Page 7: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Esempio di chunk di 4bit

6/17

random

Page 8: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Esempio di chunk di 4bit

6/17

random

deterministico

Page 9: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Esempio di chunk di 4bit

6/17

random

deterministico

mixed

Page 10: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Esempio di chunk di 4bit contatore

7/17

Page 11: Applicazione di metodi statistici alla classificazione del traffico in reti dati

8/17

Classificazione statisticaFase 1

Statistiche

Fase 3

Testing

Fase 2

PredizioneTraffico noto

Caratterizzazione statistica delle comunicazioni

Sviluppo del sistema di predizione Test

Distanza geometrica tra punti in uno spazio

2

Page 12: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Classificazione geometrica

9/17

21

2C[ ], … ,

Iperspazio

Regioni di classificazione

Distanza Euclidea

Support VectorMachine

2i

2j

classe

classe

classenon nota

Page 13: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Distanza Euclidea

10/17

2i

2j Centroide

media aritmetica

Page 14: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Distanza Euclidea

10/17

2i

2j

Veri Neg.“lontani”

Veri Pos. “vicini”

Centroide media aritmetica

Page 15: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Distanza Euclidea

10/17

2i

2j

Falsi Positivi

Centroide media aritmetica

Ipersfera

Page 16: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Distanza Euclidea

10/17

2i

2j Centroide

media aritmetica

Ipersfera Falsi Negativi

Page 17: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Distanza Euclidea

10/17

2i

2j Centroide

media aritmetica

Ipersfera min { Falsi Pos. } min { Falsi Neg. }

Affidabilità distanza euclidea

Page 18: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Support Vector Machine

11/17

Spazio dei campioni(dim. D)

Kernel function

Spazio delle feature

(dim. ∞)

Kernel functions Clusterizzazione più

semplice

Page 19: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Support Vector Machine

11/17

Support vectors

Support vectors

Kernel functions Clusterizzazione più

semplice

Margine Massimizzazione Bordo di classificazione Support Vector LibSVM

Page 20: Applicazione di metodi statistici alla classificazione del traffico in reti dati

Support Vector Machine

11/17

Kernel functions Clusterizzazione più

semplice

Margine Massimizzazione Bordo di classificazione Support Vector

Classificazione Distanza dal bordo

LibSVM

Probabilità

p ( classe )

Page 21: Applicazione di metodi statistici alla classificazione del traffico in reti dati

12/17

Classificazione statistica

Caratterizzazione statistica delle comunicazioni

Fase 1

Statistiche

Fase 3

Testing

Sviluppo del sistema di predizione

Analisi degli errori di classificazione

Fase 2

PredizioneTraffico noto

Test

Distanza geometrica tra punti in uno spazio

2

Analisi dei Falsi Positivi e Falsi Negativi

Page 22: Applicazione di metodi statistici alla classificazione del traffico in reti dati

13/17

Analisi delle tracce datiInternet

Fastweb

Training + Other Modello Traffico noto Falsi Negativi Traffico generico Falsi Positivi

Traccia

RTPeMuleDNS

Trafficonoto

other

Trafficogenerico

circa 1 giorno di cattura

20 GByte ditraffico UDP

Page 23: Applicazione di metodi statistici alla classificazione del traffico in reti dati

14/17

Errori % per alcuni casi critici

Caso A Caso BRtp 0.08 0.23Edk 13.03 7.97Dns 6.57 19.19

Caso A Caso B0.01 0.083.99 0.11.39 2.36

Caso A Caso Bother 13.6 17.01

Distanza euclidea SVM

Caso A Caso B36.68 26.92

Le SVM descrivono bene la geometria delle nuvole … ma è difficile eliminare lo spazio non rappresentativo

Traf. noto(Falsi Neg.)

Traf. gen.(Falsi Pos.)

Introduzione di una classe complementare

Page 24: Applicazione di metodi statistici alla classificazione del traffico in reti dati

15/17

Errori % per alcuni casi critici

Caso A Caso BRtp 0.08 0.23Edk 13.03 7.97Dns 6.57 19.19

Caso A Caso B0.01 0.083.99 0.11.39 2.36

Caso A Caso B- 0.050.98 0.540.12 2.14

Caso A Caso Bother 13.6 17.01

Distanza euclidea SVMSVM con classe complementare

Caso A Caso B36.68 26.92

Caso A Caso B- 0.18

Page 25: Applicazione di metodi statistici alla classificazione del traffico in reti dati

16/17

Prestazioni

Il calcolo del può richiedere molta memoria

Effettuate solo analisi offline

Attraverso ottimizzazione mirate è possibile ottenere risultati anche online

Numero di bit per chunk Numero di chunk

2

La tempistica di predizione è lineare

Valutazione puntuale difficile

Numero di bit per chunk Numero di chunk Numero di protocolli Numero di Support Vector

Page 26: Applicazione di metodi statistici alla classificazione del traffico in reti dati

17/17

Conclusioni

Il è un utile operatore di classificazione2

Le SVM danno risultati migliori ma richiedono l’uso di una classe complementare

Un semplice classificatore a distanza euclidea può essere efficace

Page 27: Applicazione di metodi statistici alla classificazione del traffico in reti dati