Top Banner
Instance-based learning and Numeric prediction Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN. Corso di laurea specialistica in informatica – A.A. 2008/2009 Corso di basi di dati avanzate e tecniche di data mining Studenti: Andrea Manfucci Davide Ciambelli Professore: Giuseppe Busanello
23

Instance-based learning and Numeric prediction

May 12, 2015

Download

Technology

Rappresentazione Instance-based
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Instance-based learning and Numeric prediction

Instance-based learning andNumeric prediction

Università degli Studi di Perugia – Facoltà di Scienze MM.FF.NN.Corso di laurea specialistica in informatica – A.A. 2008/2009

Corso di basi di dati avanzate e tecniche di data mining

Studenti:Andrea ManfucciDavide Ciambelli

Professore:Giuseppe Busanello

Page 2: Instance-based learning and Numeric prediction

2

SOMMARIO

Metodi instance-basedObiettivo del modelloComplessitàIstanze prototipoRegioni rettangolari

Predire valori numericiAlberi di regressione: model treeSmoothingEsempi

Instance-based learning and Numeric prediction

Page 3: Instance-based learning and Numeric prediction

3

Rappresentazioni instance-based

È la più semplice forma di learningObiettivo: cercare le istanze dell'insieme di training più somi-glianti alla nuova istanza considerataLe istanze stesse rappresentano la conoscenza

Istanza caratterizzata da un solo attributo numerico

Diversi attributi numerici

Attributi nominali

Instance-based learning and Numeric prediction

Page 4: Instance-based learning and Numeric prediction

4

Complessità

Complessità del metodoSpaziale: devono essere memorizzate tutte le istanze dell'insie-me di trainingTemporale: necessità di visitare l'intero training set

Possibilità di diminuire la complessità spaziale

Instance-based learning and Numeric prediction

Page 5: Instance-based learning and Numeric prediction

5

Rappresentazione IB: istanze prototipo

Sono memorizzate solo le istanze coinvolte nella deci-sioneLe istanze disturbo dovrebbero essere eliminate

Instance-based learning and Numeric prediction

Page 6: Instance-based learning and Numeric prediction

6

Eliminazione del disturbo

Pesare ogni attributoDistanza pesata euclidea:

Instance-based learning and Numeric prediction

L'aggiornamento dei pesi è basato sul nearest-neighborClasse corretta: incrementa il pesoClasse non corretta: decrementa il peso

Per ogni attributo i , la differenza |xi-y

i| è la misura del

contributo che l'attributo da alla decisioneSe la differenza è piccola l'attributo contribuisce positivamenteSe la differenza è grande potrebbe contribuire negativamente

Page 7: Instance-based learning and Numeric prediction

7

Rappresentazione IB: regioni rettangolari

La regola nearest-neighbor è usata solo fuori dai ret-tangoliOgni rettangolo identifica una regolaRegioni rettangolari annidate rappresentano regole con eccezioni

Instance-based learning and Numeric prediction

Page 8: Instance-based learning and Numeric prediction

8

Generalized exemplars

Instance-based learning and Numeric prediction

Regioni rettangolari di istanze vengono chiamate iper-rettangoliPer conoscere la classe di una nuova istanza e si utiliz-za una funzione distanza che permette di stabilire la classe di appartenenza di eQuando una nuova istanza è predetta correttamente viene semplicemente associata all'istanza più vicina appartenente alla medesima classeL'istanza più vicina può essere:

Una singola istanzaViene creato un nuovo iperrettangolo che copre la vecchia e la nuo-va istanza

Un iperrettangoloL'iperrettangolo viene esteso fino a comprendere la nuova istanza

Page 9: Instance-based learning and Numeric prediction

9

La funzione distanza

Instance-based learning and Numeric prediction

La linea di separazione per-mette di stabilire se un'istanza appartiene ad una classe o al-l'altra

La distanza da una istanza al-l'iperrettangolo è definita uguale a zero se il punto si trova all'interno dell'iperret-tangolo

Page 10: Instance-based learning and Numeric prediction

10

SOMMARIO

Metodi instance-basedObiettivo del modelloComplessitàIstanze prototipoRegioni rettangolari

Predire valori numericiAlberi di regressione: model treeSmoothingEsempi

Instance-based learning and Numeric prediction

Page 11: Instance-based learning and Numeric prediction

11

Predire valori numerici

Instance-based learning and Numeric prediction

Esistono delle alternative per lo schema discusso pre-cedentemente

Quasi tutti gli schemi di classificazione possono essere applicati ai problemi di regressione

Discriminare la classe in intervalliPredire la media pesata dell'intervallo medioPeso in accordo alla probabilità

Page 12: Instance-based learning and Numeric prediction

12

Alberi di regressione

Instance-based learning and Numeric prediction

Sono alberi di decisioneLe foglie predicono quantità numeriche calcolate fa-cendo la media delle istanze che raggiungono la foglia considerataFacile da interpretareVersione più sofisticata: model tree

Page 13: Instance-based learning and Numeric prediction

13

Model tree

Instance-based learning and Numeric prediction

Sono alberi di regressione con modelli di regressione li-neare associati ad ogni foglia

Page 14: Instance-based learning and Numeric prediction

14

Smoothing

Instance-based learning and Numeric prediction

Smoothing: fattore di una precedente previsione

dovep' è la previsione passata al nodo superiorep è la previsione passata dal nodo inferioreq è il valore predetto dal nodon è il numero delle istanze di training che raggiungono il nodo sottostantek è la costante di smoothing (raffinamento)

Il vantaggio sostanziale è che l'accuratezza della previ-sione aumenta in ragione della costante di smoothing

Page 15: Instance-based learning and Numeric prediction

15

Costruire l'albero

Instance-based learning and Numeric prediction

Criterio di splitting: mediante deviazione standard

Criterio di terminazione:La deviazione standard è una frazione piccola (< 5%)Troppe poche istanze rimaste

Criterio di taglio:Calcolato attraverso funzione euristica

Dove:n è il numero delle istanze del training setv è il numero dei parametri che danno il valore della classe al nodo

Procedendo verso la radice si confronta l'errore a_a_e con l'erro-re del sottoalbero a cui il nodo appartiene

Page 16: Instance-based learning and Numeric prediction

16

Attributi nominali e valori mancanti

Instance-based learning and Numeric prediction

Convertire attributi nominali in binarioOrdinare gli attributi per il valore medio della classeSe l'attributo ha k valori vengono generati k-1 attributi binari

Modificare il criterio di divisione in questo modo:

In questo caso si parla di surrogate splitting

Page 17: Instance-based learning and Numeric prediction

17

Surrogate splitting

Instance-based learning and Numeric prediction

Scegliere un punto di divisione basato sul valore medio delle istanzeQuesto punto divide le istanze in 2 sottoinsiemi

L (la più piccola classe media)R (la più grande classe media)

m è la media dei due valori mediPer un'istanza con un valore mancante:

Si sceglie L se il valore della classe < mAltrimenti si sceglie R

Una volta che l'albero è costruito completamente, si so-stituiscono i valori mancanti con le medie dei corri-spondenti nodi foglia

Page 18: Instance-based learning and Numeric prediction

18

Pseudo-codifica

Instance-based learning and Numeric prediction

Quattro metodi:Metodo principale: MakeModelTreeMetodo per dividere: splitMetodo per tagliare: pruneMetodo per gestire errori: subtreeError

Ora daremo uno sguardo ad ogni metodo

Page 19: Instance-based learning and Numeric prediction

19

MakeModelTree

Instance-based learning and Numeric prediction

Page 20: Instance-based learning and Numeric prediction

20

split

Instance-based learning and Numeric prediction

Page 21: Instance-based learning and Numeric prediction

21

prune

Instance-based learning and Numeric prediction

Page 22: Instance-based learning and Numeric prediction

22

subtreeError

Instance-based learning and Numeric prediction

La funzione errore ritorna:

Doven è il numero delle istanze nel nodov è il numero di parametri nel modello lineare del nodo

Page 23: Instance-based learning and Numeric prediction

23Instance-based learning and Numeric prediction

FINE

GRAZIE PER L'ATTENZIONE