Instance-based learning and Numeric prediction Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN. Corso di laurea specialistica in informatica – A.A. 2008/2009 Corso di basi di dati avanzate e tecniche di data mining Studenti: Andrea Manfucci Davide Ciambelli Professore: Giuseppe Busanello
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Instance-based learning andNumeric prediction
Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN.Corso di laurea specialistica in informatica – A.A. 2008/2009
Corso di basi di dati avanzate e tecniche di data mining
Studenti:Andrea ManfucciDavide Ciambelli
Professore:Giuseppe Busanello
2
SOMMARIO
Metodi instance-basedObiettivo del modelloComplessitàIstanze prototipoRegioni rettangolari
Predire valori numericiAlberi di regressione: model treeSmoothingEsempi
Instance-based learning and Numeric prediction
3
Rappresentazioni instance-based
È la più semplice forma di learningObiettivo: cercare le istanze dell'insieme di training più somi-glianti alla nuova istanza considerataLe istanze stesse rappresentano la conoscenza
Istanza caratterizzata da un solo attributo numerico
Diversi attributi numerici
Attributi nominali
Instance-based learning and Numeric prediction
4
Complessità
Complessità del metodoSpaziale: devono essere memorizzate tutte le istanze dell'insie-me di trainingTemporale: necessità di visitare l'intero training set
Possibilità di diminuire la complessità spaziale
Instance-based learning and Numeric prediction
5
Rappresentazione IB: istanze prototipo
Sono memorizzate solo le istanze coinvolte nella deci-sioneLe istanze disturbo dovrebbero essere eliminate
Instance-based learning and Numeric prediction
6
Eliminazione del disturbo
Pesare ogni attributoDistanza pesata euclidea:
Instance-based learning and Numeric prediction
L'aggiornamento dei pesi è basato sul nearest-neighborClasse corretta: incrementa il pesoClasse non corretta: decrementa il peso
Per ogni attributo i , la differenza |xi-y
i| è la misura del
contributo che l'attributo da alla decisioneSe la differenza è piccola l'attributo contribuisce positivamenteSe la differenza è grande potrebbe contribuire negativamente
7
Rappresentazione IB: regioni rettangolari
La regola nearest-neighbor è usata solo fuori dai ret-tangoliOgni rettangolo identifica una regolaRegioni rettangolari annidate rappresentano regole con eccezioni
Instance-based learning and Numeric prediction
8
Generalized exemplars
Instance-based learning and Numeric prediction
Regioni rettangolari di istanze vengono chiamate iper-rettangoliPer conoscere la classe di una nuova istanza e si utiliz-za una funzione distanza che permette di stabilire la classe di appartenenza di eQuando una nuova istanza è predetta correttamente viene semplicemente associata all'istanza più vicina appartenente alla medesima classeL'istanza più vicina può essere:
Una singola istanzaViene creato un nuovo iperrettangolo che copre la vecchia e la nuo-va istanza
Un iperrettangoloL'iperrettangolo viene esteso fino a comprendere la nuova istanza
9
La funzione distanza
Instance-based learning and Numeric prediction
La linea di separazione per-mette di stabilire se un'istanza appartiene ad una classe o al-l'altra
La distanza da una istanza al-l'iperrettangolo è definita uguale a zero se il punto si trova all'interno dell'iperret-tangolo
10
SOMMARIO
Metodi instance-basedObiettivo del modelloComplessitàIstanze prototipoRegioni rettangolari
Predire valori numericiAlberi di regressione: model treeSmoothingEsempi
Instance-based learning and Numeric prediction
11
Predire valori numerici
Instance-based learning and Numeric prediction
Esistono delle alternative per lo schema discusso pre-cedentemente
Quasi tutti gli schemi di classificazione possono essere applicati ai problemi di regressione
Discriminare la classe in intervalliPredire la media pesata dell'intervallo medioPeso in accordo alla probabilità
12
Alberi di regressione
Instance-based learning and Numeric prediction
Sono alberi di decisioneLe foglie predicono quantità numeriche calcolate fa-cendo la media delle istanze che raggiungono la foglia considerataFacile da interpretareVersione più sofisticata: model tree
13
Model tree
Instance-based learning and Numeric prediction
Sono alberi di regressione con modelli di regressione li-neare associati ad ogni foglia
14
Smoothing
Instance-based learning and Numeric prediction
Smoothing: fattore di una precedente previsione
dovep' è la previsione passata al nodo superiorep è la previsione passata dal nodo inferioreq è il valore predetto dal nodon è il numero delle istanze di training che raggiungono il nodo sottostantek è la costante di smoothing (raffinamento)
Il vantaggio sostanziale è che l'accuratezza della previ-sione aumenta in ragione della costante di smoothing
15
Costruire l'albero
Instance-based learning and Numeric prediction
Criterio di splitting: mediante deviazione standard
Criterio di terminazione:La deviazione standard è una frazione piccola (< 5%)Troppe poche istanze rimaste
Criterio di taglio:Calcolato attraverso funzione euristica
Dove:n è il numero delle istanze del training setv è il numero dei parametri che danno il valore della classe al nodo
Procedendo verso la radice si confronta l'errore a_a_e con l'erro-re del sottoalbero a cui il nodo appartiene
16
Attributi nominali e valori mancanti
Instance-based learning and Numeric prediction
Convertire attributi nominali in binarioOrdinare gli attributi per il valore medio della classeSe l'attributo ha k valori vengono generati k-1 attributi binari
Modificare il criterio di divisione in questo modo:
In questo caso si parla di surrogate splitting
17
Surrogate splitting
Instance-based learning and Numeric prediction
Scegliere un punto di divisione basato sul valore medio delle istanzeQuesto punto divide le istanze in 2 sottoinsiemi
L (la più piccola classe media)R (la più grande classe media)
m è la media dei due valori mediPer un'istanza con un valore mancante:
Si sceglie L se il valore della classe < mAltrimenti si sceglie R
Una volta che l'albero è costruito completamente, si so-stituiscono i valori mancanti con le medie dei corri-spondenti nodi foglia
18
Pseudo-codifica
Instance-based learning and Numeric prediction
Quattro metodi:Metodo principale: MakeModelTreeMetodo per dividere: splitMetodo per tagliare: pruneMetodo per gestire errori: subtreeError
Ora daremo uno sguardo ad ogni metodo
19
MakeModelTree
Instance-based learning and Numeric prediction
20
split
Instance-based learning and Numeric prediction
21
prune
Instance-based learning and Numeric prediction
22
subtreeError
Instance-based learning and Numeric prediction
La funzione errore ritorna:
Doven è il numero delle istanze nel nodov è il numero di parametri nel modello lineare del nodo