PREDIZIONE DI MALFUNZIONAMENTI IN RETI DI TELECOMUNICAZIONI CON TECNICHE DI MACHINE LEARNING Relatore: prof. Alberto Bartoli Correlatore: prof. Eric Medvet Laureando: Francesco Occhioni Anno accademico: 2015-2016 Tesi di Laurea Magistrale in Ing. Informatica
24
Embed
Predizione di malfunzionamenti in reti di telecomunicazioni con tecniche di machine learning
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
PREDIZIONE DI MALFUNZIONAMENTI IN RETI DI TELECOMUNICAZIONI CON TECNICHE DI MACHINE LEARNING
Relatore: prof. Alberto Bartoli Correlatore: prof. Eric Medvet Laureando: Francesco Occhioni
Anno accademico: 2015-2016
Tesi di Laurea Magistrale in Ing. Informatica
Introduzione
Collaborazione con:
● Emaze S.p.A
● Operatore Telefonico Nazionale
1/23
Obbiettivi
Migliorare:
● Il servizio del CRM● La soddisfazione del cliente
Sviluppo e realizzazione di un Proof of Concept per:
● Strumento di supporto alla proactive assurance● Valutare applicazione di tecniche di Machine Learning
2/23
Obbiettivi
Cosa effettivamente “prevedere?”
Come poter definire un guasto?
Necessario uno studio e un reverse engineeringdei sistemi informativi preesistenti
3/23
Stato attuale - CPE
Customer Premise Equipment
● Dispositivo assegnato all’utente● Connessione alla WAN
Identificabile da Link Reference
Differenziati per tipo di linea e tipo di servizi offerti
WAN
CPE
Link Reference
4/23
Stato attuale - Monitoring
3 Sistemi per il monitoraggio dei CPE in tempo reale:
● SeQuMo● CDSeQuMo● HaWMo
Coprono il 95% della customer base
Rilevazione dei Key Performance Indicator (KPI) da ogni CPE
#SeQuMo = 65% sul totale#CDSeQuMo = 30% sul totale#HaWMo = 15% sul totale
5/23
Stato attuale - SeQuMo
Rilevazione dei KPI ogni 15 minuti
KPI:
● Mos - Mean Opinion Score● Latenza HTTP● Latenza DNS● Reboot● Stato Linea Primaria
6/23
Stato attuale - CDSeQuMo
Rilevazione dei KPI ogni 15 minuti
KPI:
● Packet Loss ● Download Rate● Upload Rate● Mos● Latenza HTTP● Latenza DNS● Reboot● Stato linea Primaria
7/23
Stato Attuale - Ticketing
Ticket: lamentela o un reclamo da parte della clientela in relazione ad un disservizio sull’infrastruttura di rete
Data di Apertura - Data di Chiusura - Close Code
Previsione Ticket ≈ Previsione Guasti
8/23
Classificatore - Costruzione DataSet
Riferimenti temporali:
Istanza Positiva:
● “Tra t+G e t+G+H si aprirà un Ticket su questo CPE”
Istanza Negativa:
● “Tra t+G e t+G+H non si aprirà un Ticket su questo CPE”
9/23
Classificatore - N/A e Sbilanciamento
Approcci comuni in letteratura:
Trattamento dei Missing Values ( N/A ):
● Sostituiamo ogni N/A con il valore medio della feature● “Non c’è” ≣ “C’è ed ha il valore medio”
Trattamento dei dati sbilanciati:
● #istanze negative ≅ 1000 #istanze positive● Training Cost Sensitive
10/23
Classificatore - Valutazione Prestazioni
Confusion Matrix:
True Positive Rate:
● % Ticket predetti che si sono verificati
False Positive Rate:
● % Ticket predetti che non si sono verificati
11/23
Classificatore - Valutazione Prestazioni
Reciever Operating Characteristics:
Valuto TPR per FPR=0.25
Quanti ticket riesco a prevederecon un 25% di falsi allarmi ?
12/23
Classificatore
Random Forest
● Basato su alberi decisionali● Molto efficiente● Resistente all’overfitting
Alberi Decisionali
● Facilità di interpretazione● Buona accuratezza generale● Robustezza al rumore
13/23
Risultati
14/23
Per ogni sistema di monitoraggio:
● TPR
● FPR
● TPR con FPR = 0,15%
Risultati - CDSeQuMo (TPR)
Con granularità di 15 minuti prevedo il 65% dei Ticket
Con granularità di un’ora prevedo il 90% dei ticket
Con granularità H>1h prevedo il 95% dei ticket
15/23
Risultati - CDSeQuMo (FPR)
All’aumentare della granularità H aumentano i falsi allarmi
Worst Case:
● Falsi Allarmi ≅ 3%
16/23
Risultati - CDSeQuMo (TPR@0,15%)
Con granularità di 15 minuti prevedo solo il 25% dei Ticket
Con granularità H>1h prevedo il 75% dei ticket
17/23
Risultati - SeQuMo (TPR)
Con granularità di 15 minuti prevedo il 65% dei Ticket
Con granularità di un’ora prevedo il 85% dei ticket
Con granularità H>1h prevedo il 90% dei ticket
18/23
Risultati - SeQuMo (FPR)
All’aumentare della granularità H aumentano i falsi allarmi
Worst Case:
● Falsi Allarmi ≅ 15%
19/23
Risultati - SeQuMo (TPR@0,15%)
Previsione dei ticket del 60%
Con G > 5h le prestazioni peggiorano sensibilmente
20/23
Conclusione
I classificatori funzionano:
● Previsione dei Ticket in percentuale alta● Bassa percentuale di falsi allarmi● Buone le previsioni con falsi allarmi dello 0,15%
Prestazioni migliori su CDSeQuMo rispetto a SeQuMo
● KPI di raggiungibilità e Upload/Download rate migliorano il classificatore
21/23
Sviluppi Futuri
● Presentazione delle prestazioni al committente
● Rilascio in produzione
● Valutazione in ambiente reale e taratura del classificatore
● Valutare le prestazioni in base a diverse tipologie linea