Instance-based learning and Numeric prediction

Post on 12-May-2015

446 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Rappresentazione Instance-based

Transcript

Instance-based learning andNumeric prediction

Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN.Corso di laurea specialistica in informatica – A.A. 2008/2009

Corso di basi di dati avanzate e tecniche di data mining

Studenti:Andrea ManfucciDavide Ciambelli

Professore:Giuseppe Busanello

2

SOMMARIO

Metodi instance-basedObiettivo del modelloComplessitàIstanze prototipoRegioni rettangolari

Predire valori numericiAlberi di regressione: model treeSmoothingEsempi

Instance-based learning and Numeric prediction

3

Rappresentazioni instance-based

È la più semplice forma di learningObiettivo: cercare le istanze dell'insieme di training più somi-glianti alla nuova istanza considerataLe istanze stesse rappresentano la conoscenza

Istanza caratterizzata da un solo attributo numerico

Diversi attributi numerici

Attributi nominali

Instance-based learning and Numeric prediction

4

Complessità

Complessità del metodoSpaziale: devono essere memorizzate tutte le istanze dell'insie-me di trainingTemporale: necessità di visitare l'intero training set

Possibilità di diminuire la complessità spaziale

Instance-based learning and Numeric prediction

5

Rappresentazione IB: istanze prototipo

Sono memorizzate solo le istanze coinvolte nella deci-sioneLe istanze disturbo dovrebbero essere eliminate

Instance-based learning and Numeric prediction

6

Eliminazione del disturbo

Pesare ogni attributoDistanza pesata euclidea:

Instance-based learning and Numeric prediction

L'aggiornamento dei pesi è basato sul nearest-neighborClasse corretta: incrementa il pesoClasse non corretta: decrementa il peso

Per ogni attributo i , la differenza |xi-y

i| è la misura del

contributo che l'attributo da alla decisioneSe la differenza è piccola l'attributo contribuisce positivamenteSe la differenza è grande potrebbe contribuire negativamente

7

Rappresentazione IB: regioni rettangolari

La regola nearest-neighbor è usata solo fuori dai ret-tangoliOgni rettangolo identifica una regolaRegioni rettangolari annidate rappresentano regole con eccezioni

Instance-based learning and Numeric prediction

8

Generalized exemplars

Instance-based learning and Numeric prediction

Regioni rettangolari di istanze vengono chiamate iper-rettangoliPer conoscere la classe di una nuova istanza e si utiliz-za una funzione distanza che permette di stabilire la classe di appartenenza di eQuando una nuova istanza è predetta correttamente viene semplicemente associata all'istanza più vicina appartenente alla medesima classeL'istanza più vicina può essere:

Una singola istanzaViene creato un nuovo iperrettangolo che copre la vecchia e la nuo-va istanza

Un iperrettangoloL'iperrettangolo viene esteso fino a comprendere la nuova istanza

9

La funzione distanza

Instance-based learning and Numeric prediction

La linea di separazione per-mette di stabilire se un'istanza appartiene ad una classe o al-l'altra

La distanza da una istanza al-l'iperrettangolo è definita uguale a zero se il punto si trova all'interno dell'iperret-tangolo

10

SOMMARIO

Metodi instance-basedObiettivo del modelloComplessitàIstanze prototipoRegioni rettangolari

Predire valori numericiAlberi di regressione: model treeSmoothingEsempi

Instance-based learning and Numeric prediction

11

Predire valori numerici

Instance-based learning and Numeric prediction

Esistono delle alternative per lo schema discusso pre-cedentemente

Quasi tutti gli schemi di classificazione possono essere applicati ai problemi di regressione

Discriminare la classe in intervalliPredire la media pesata dell'intervallo medioPeso in accordo alla probabilità

12

Alberi di regressione

Instance-based learning and Numeric prediction

Sono alberi di decisioneLe foglie predicono quantità numeriche calcolate fa-cendo la media delle istanze che raggiungono la foglia considerataFacile da interpretareVersione più sofisticata: model tree

13

Model tree

Instance-based learning and Numeric prediction

Sono alberi di regressione con modelli di regressione li-neare associati ad ogni foglia

14

Smoothing

Instance-based learning and Numeric prediction

Smoothing: fattore di una precedente previsione

dovep' è la previsione passata al nodo superiorep è la previsione passata dal nodo inferioreq è il valore predetto dal nodon è il numero delle istanze di training che raggiungono il nodo sottostantek è la costante di smoothing (raffinamento)

Il vantaggio sostanziale è che l'accuratezza della previ-sione aumenta in ragione della costante di smoothing

15

Costruire l'albero

Instance-based learning and Numeric prediction

Criterio di splitting: mediante deviazione standard

Criterio di terminazione:La deviazione standard è una frazione piccola (< 5%)Troppe poche istanze rimaste

Criterio di taglio:Calcolato attraverso funzione euristica

Dove:n è il numero delle istanze del training setv è il numero dei parametri che danno il valore della classe al nodo

Procedendo verso la radice si confronta l'errore a_a_e con l'erro-re del sottoalbero a cui il nodo appartiene

16

Attributi nominali e valori mancanti

Instance-based learning and Numeric prediction

Convertire attributi nominali in binarioOrdinare gli attributi per il valore medio della classeSe l'attributo ha k valori vengono generati k-1 attributi binari

Modificare il criterio di divisione in questo modo:

In questo caso si parla di surrogate splitting

17

Surrogate splitting

Instance-based learning and Numeric prediction

Scegliere un punto di divisione basato sul valore medio delle istanzeQuesto punto divide le istanze in 2 sottoinsiemi

L (la più piccola classe media)R (la più grande classe media)

m è la media dei due valori mediPer un'istanza con un valore mancante:

Si sceglie L se il valore della classe < mAltrimenti si sceglie R

Una volta che l'albero è costruito completamente, si so-stituiscono i valori mancanti con le medie dei corri-spondenti nodi foglia

18

Pseudo-codifica

Instance-based learning and Numeric prediction

Quattro metodi:Metodo principale: MakeModelTreeMetodo per dividere: splitMetodo per tagliare: pruneMetodo per gestire errori: subtreeError

Ora daremo uno sguardo ad ogni metodo

19

MakeModelTree

Instance-based learning and Numeric prediction

20

split

Instance-based learning and Numeric prediction

21

prune

Instance-based learning and Numeric prediction

22

subtreeError

Instance-based learning and Numeric prediction

La funzione errore ritorna:

Doven è il numero delle istanze nel nodov è il numero di parametri nel modello lineare del nodo

23Instance-based learning and Numeric prediction

FINE

GRAZIE PER L'ATTENZIONE

top related