Instance-based learning and Numeric prediction

Instance-based learning andNumeric prediction

Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN.Corso di laurea specialistica in informatica – A.A. 2008/2009

Corso di basi di dati avanzate e tecniche di data mining

Studenti:Andrea ManfucciDavide Ciambelli

Professore:Giuseppe Busanello

2

SOMMARIO

Metodi instance-basedObiettivo del modelloComplessitàIstanze prototipoRegioni rettangolari

Predire valori numericiAlberi di regressione: model treeSmoothingEsempi

Instance-based learning and Numeric prediction

3

Rappresentazioni instance-based

È la più semplice forma di learningObiettivo: cercare le istanze dell'insieme di training più somi-glianti alla nuova istanza considerataLe istanze stesse rappresentano la conoscenza

Istanza caratterizzata da un solo attributo numerico

Diversi attributi numerici

Attributi nominali


4

Complessità

Complessità del metodoSpaziale: devono essere memorizzate tutte le istanze dell'insie-me di trainingTemporale: necessità di visitare l'intero training set

Possibilità di diminuire la complessità spaziale


5

Rappresentazione IB: istanze prototipo

Sono memorizzate solo le istanze coinvolte nella deci-sioneLe istanze disturbo dovrebbero essere eliminate


6

Eliminazione del disturbo

Pesare ogni attributoDistanza pesata euclidea:


L'aggiornamento dei pesi è basato sul nearest-neighborClasse corretta: incrementa il pesoClasse non corretta: decrementa il peso

Per ogni attributo i , la differenza |xi-y

i| è la misura del

contributo che l'attributo da alla decisioneSe la differenza è piccola l'attributo contribuisce positivamenteSe la differenza è grande potrebbe contribuire negativamente

7

Rappresentazione IB: regioni rettangolari

La regola nearest-neighbor è usata solo fuori dai ret-tangoliOgni rettangolo identifica una regolaRegioni rettangolari annidate rappresentano regole con eccezioni


8

Generalized exemplars


Regioni rettangolari di istanze vengono chiamate iper-rettangoliPer conoscere la classe di una nuova istanza e si utiliz-za una funzione distanza che permette di stabilire la classe di appartenenza di eQuando una nuova istanza è predetta correttamente viene semplicemente associata all'istanza più vicina appartenente alla medesima classeL'istanza più vicina può essere:

Una singola istanzaViene creato un nuovo iperrettangolo che copre la vecchia e la nuo-va istanza

Un iperrettangoloL'iperrettangolo viene esteso fino a comprendere la nuova istanza

9

La funzione distanza


La linea di separazione per-mette di stabilire se un'istanza appartiene ad una classe o al-l'altra

La distanza da una istanza al-l'iperrettangolo è definita uguale a zero se il punto si trova all'interno dell'iperret-tangolo

10

SOMMARIO

Metodi instance-basedObiettivo del modelloComplessitàIstanze prototipoRegioni rettangolari

Predire valori numericiAlberi di regressione: model treeSmoothingEsempi


11

Predire valori numerici


Esistono delle alternative per lo schema discusso pre-cedentemente

Quasi tutti gli schemi di classificazione possono essere applicati ai problemi di regressione

Discriminare la classe in intervalliPredire la media pesata dell'intervallo medioPeso in accordo alla probabilità

12

Alberi di regressione


Sono alberi di decisioneLe foglie predicono quantità numeriche calcolate fa-cendo la media delle istanze che raggiungono la foglia considerataFacile da interpretareVersione più sofisticata: model tree

13

Model tree


Sono alberi di regressione con modelli di regressione li-neare associati ad ogni foglia

14

Smoothing


Smoothing: fattore di una precedente previsione

dovep' è la previsione passata al nodo superiorep è la previsione passata dal nodo inferioreq è il valore predetto dal nodon è il numero delle istanze di training che raggiungono il nodo sottostantek è la costante di smoothing (raffinamento)

Il vantaggio sostanziale è che l'accuratezza della previ-sione aumenta in ragione della costante di smoothing

15

Costruire l'albero


Criterio di splitting: mediante deviazione standard

Criterio di terminazione:La deviazione standard è una frazione piccola (< 5%)Troppe poche istanze rimaste

Criterio di taglio:Calcolato attraverso funzione euristica

Dove:n è il numero delle istanze del training setv è il numero dei parametri che danno il valore della classe al nodo

Procedendo verso la radice si confronta l'errore a_a_e con l'erro-re del sottoalbero a cui il nodo appartiene

16

Attributi nominali e valori mancanti


Convertire attributi nominali in binarioOrdinare gli attributi per il valore medio della classeSe l'attributo ha k valori vengono generati k-1 attributi binari

Modificare il criterio di divisione in questo modo:

In questo caso si parla di surrogate splitting

17

Surrogate splitting


Scegliere un punto di divisione basato sul valore medio delle istanzeQuesto punto divide le istanze in 2 sottoinsiemi

L (la più piccola classe media)R (la più grande classe media)

m è la media dei due valori mediPer un'istanza con un valore mancante:

Si sceglie L se il valore della classe < mAltrimenti si sceglie R

Una volta che l'albero è costruito completamente, si so-stituiscono i valori mancanti con le medie dei corri-spondenti nodi foglia

18

Pseudo-codifica


Quattro metodi:Metodo principale: MakeModelTreeMetodo per dividere: splitMetodo per tagliare: pruneMetodo per gestire errori: subtreeError

Ora daremo uno sguardo ad ogni metodo

19

MakeModelTree


20

split


21

prune


22

subtreeError


La funzione errore ritorna:

Doven è il numero delle istanze nel nodov è il numero di parametri nel modello lineare del nodo

23Instance-based learning and Numeric prediction

FINE

GRAZIE PER L'ATTENZIONE

Instance-based learning and Numeric prediction

Technology

learning obiettivo

numeric prediction4

numeric prediction15

numeric prediction6

numeric prediction14

una istanza

istanze dellinsieme

rappresentazioni instance