Instance-based learning and Numeric prediction

Instance-based learning andNumeric prediction

Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN.Corso di laurea specialistica in informatica – A.A. 2008/2009

Corso di basi di dati avanzate e tecniche di data mining

Studenti:Andrea ManfucciDavide Ciambelli

Professore:Giuseppe Busanello

SOMMARIO

Metodi instance-basedObiettivo del modelloComplessitàIstanze prototipoRegioni rettangolari

Predire valori numericiAlberi di regressione: model treeSmoothingEsempi

Instance-based learning and Numeric prediction

Rappresentazioni instance-based

È la più semplice forma di learningObiettivo: cercare le istanze dell'insieme di training più somi-glianti alla nuova istanza considerataLe istanze stesse rappresentano la conoscenza

Istanza caratterizzata da un solo attributo numerico

Diversi attributi numerici

Attributi nominali

Complessità

Complessità del metodoSpaziale: devono essere memorizzate tutte le istanze dell'insie-me di trainingTemporale: necessità di visitare l'intero training set

Possibilità di diminuire la complessità spaziale

Rappresentazione IB: istanze prototipo

Sono memorizzate solo le istanze coinvolte nella deci-sioneLe istanze disturbo dovrebbero essere eliminate

Eliminazione del disturbo

Pesare ogni attributoDistanza pesata euclidea:

L'aggiornamento dei pesi è basato sul nearest-neighborClasse corretta: incrementa il pesoClasse non corretta: decrementa il peso

Per ogni attributo i , la differenza |xi-y

i| è la misura del

contributo che l'attributo da alla decisioneSe la differenza è piccola l'attributo contribuisce positivamenteSe la differenza è grande potrebbe contribuire negativamente

Rappresentazione IB: regioni rettangolari

La regola nearest-neighbor è usata solo fuori dai ret-tangoliOgni rettangolo identifica una regolaRegioni rettangolari annidate rappresentano regole con eccezioni

Generalized exemplars

Regioni rettangolari di istanze vengono chiamate iper-rettangoliPer conoscere la classe di una nuova istanza e si utiliz-za una funzione distanza che permette di stabilire la classe di appartenenza di eQuando una nuova istanza è predetta correttamente viene semplicemente associata all'istanza più vicina appartenente alla medesima classeL'istanza più vicina può essere:

Una singola istanzaViene creato un nuovo iperrettangolo che copre la vecchia e la nuo-va istanza

Un iperrettangoloL'iperrettangolo viene esteso fino a comprendere la nuova istanza

La funzione distanza

La linea di separazione per-mette di stabilire se un'istanza appartiene ad una classe o al-l'altra

La distanza da una istanza al-l'iperrettangolo è definita uguale a zero se il punto si trova all'interno dell'iperret-tangolo

SOMMARIO

Metodi instance-basedObiettivo del modelloComplessitàIstanze prototipoRegioni rettangolari

Predire valori numericiAlberi di regressione: model treeSmoothingEsempi

Predire valori numerici

Esistono delle alternative per lo schema discusso pre-cedentemente

Quasi tutti gli schemi di classificazione possono essere applicati ai problemi di regressione

Discriminare la classe in intervalliPredire la media pesata dell'intervallo medioPeso in accordo alla probabilità

Alberi di regressione

Sono alberi di decisioneLe foglie predicono quantità numeriche calcolate fa-cendo la media delle istanze che raggiungono la foglia considerataFacile da interpretareVersione più sofisticata: model tree

Model tree

Sono alberi di regressione con modelli di regressione li-neare associati ad ogni foglia

Smoothing

Smoothing: fattore di una precedente previsione

dovep' è la previsione passata al nodo superiorep è la previsione passata dal nodo inferioreq è il valore predetto dal nodon è il numero delle istanze di training che raggiungono il nodo sottostantek è la costante di smoothing (raffinamento)

Il vantaggio sostanziale è che l'accuratezza della previ-sione aumenta in ragione della costante di smoothing

Costruire l'albero

Criterio di splitting: mediante deviazione standard

Criterio di terminazione:La deviazione standard è una frazione piccola (< 5%)Troppe poche istanze rimaste

Criterio di taglio:Calcolato attraverso funzione euristica

Dove:n è il numero delle istanze del training setv è il numero dei parametri che danno il valore della classe al nodo

Procedendo verso la radice si confronta l'errore a_a_e con l'erro-re del sottoalbero a cui il nodo appartiene

Attributi nominali e valori mancanti

Convertire attributi nominali in binarioOrdinare gli attributi per il valore medio della classeSe l'attributo ha k valori vengono generati k-1 attributi binari

Modificare il criterio di divisione in questo modo:

In questo caso si parla di surrogate splitting

Surrogate splitting

Scegliere un punto di divisione basato sul valore medio delle istanzeQuesto punto divide le istanze in 2 sottoinsiemi

L (la più piccola classe media)R (la più grande classe media)

m è la media dei due valori mediPer un'istanza con un valore mancante:

Si sceglie L se il valore della classe < mAltrimenti si sceglie R

Una volta che l'albero è costruito completamente, si so-stituiscono i valori mancanti con le medie dei corri-spondenti nodi foglia

Pseudo-codifica

Quattro metodi:Metodo principale: MakeModelTreeMetodo per dividere: splitMetodo per tagliare: pruneMetodo per gestire errori: subtreeError

Ora daremo uno sguardo ad ogni metodo

MakeModelTree

subtreeError

La funzione errore ritorna:

Doven è il numero delle istanze nel nodov è il numero di parametri nel modello lineare del nodo

23Instance-based learning and Numeric prediction

GRAZIE PER L'ATTENZIONE

Instance-based learning and Numeric prediction

learning obiettivo

numeric prediction4

numeric prediction15

numeric prediction6

numeric prediction14

una istanza

istanze dellinsieme

rappresentazioni instance

Technology

User Personalized Satisfaction Prediction via Multiple...

Object Communication Error Prediction in Constructor ... ·...

Exercise3 Numeric

Numeric to Numeric Encryption of Databases Using 3kDES...

Improving performance of numeric weather prediction codes

Niort numeric

Black Box Methods – Neural Networks and Support Vector ......

Focal onset seizure prediction using convolutional...

Lightweight Mobile Bandwidth Availability...

Performance-Influence Models: Prediction, Optimization,...

Numeric investors

Calcul Numeric

Input: Concepts, Attributes, Instances. 2 Module Outline ...

Is numeric

Frecvenţmetrul numeric

Input: Concepts, Attributes, InstancesConcepts, Attributes,....