Top Banner
32

¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Jan 05, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar
Page 2: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

¿Que es big dimension?

Veronica Bolon Canedo 2/30

Page 3: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Big dimension

“En esta nueva era de Big Data, los metodos de aprendizajemaquina deben adaptarse para poder tratar con este volumen dedatos sin precedentes. Analogamente, el termino Big Dimension seha acunado para referirse al enorme numero sin predecentes decaracterısticas con las que hay que tratar.”

V. Bolon-Canedo, N. Sanchez-Marono, A. Alonso-BetanzosFeature Selection for High-Dimensional DataSpringer, 2015

Veronica Bolon Canedo 3/30

Page 4: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Repasemos algunos conceptos basicos...

Veronica Bolon Canedo 4/30

Page 5: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Aprendizaje supervisado

Terminologıa:

• D = {X,Y } es el conjunto de datos (o dataset).• Cada fila de X es un ejemplo (o instancia, o muestra).• Cada columna de X es una caracterıstica (o atributo).• Y es el vector de etiquetas (o clases).• N es el numero de ejemplos.

Veronica Bolon Canedo 5/30

Page 6: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Aprendizaje supervisado

Veronica Bolon Canedo 6/30

Page 7: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Hay casos, como por ejemplocuando tratamos con datosgeneticos, donde el numerode caracterısticas es muchomas grande que el deejemplos.

Veronica Bolon Canedo 7/30

Page 8: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Si echamos un vistazo a los datasets del repositorio UCI1...

1https://archive.ics.uci.edu/ml/index.htmlVeronica Bolon Canedo 8/30

Page 9: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Y si analizamos el repositorio LIBSVM Database2...

• Existen conjuntos de datos con mas de 29 millones decaracterısticas (KDD Cup 2010)

• Varios conjuntos de datos tienen mas de 1 millon de caracterısticas

2https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/Veronica Bolon Canedo 9/30

Page 10: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Aprendizaje supervisado

Veronica Bolon Canedo 10/30

Page 11: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Aprendizaje supervisado

Veronica Bolon Canedo 11/30

Page 12: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Seleccion de caracterısticas

Veronica Bolon Canedo 12/30

Page 13: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Reduccion de la dimension

Las tecnicas de reduccion de ladimension se aplican para reducir ladimension de los datos originales y,al mismo tiempo, mejorar elaprendizaje.

Veronica Bolon Canedo 13/30

Page 14: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Tecnicas de reduccion de la dimension

Extraccion de caracterısticasTransforma las caracterısticas originales en un subconjunto de nuevascaracterısticas

Seleccion de caracterısticasElimina las caracterısticas irrelevantes y/o redundantes

Veronica Bolon Canedo 14/30

Page 15: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

¿Podemos decir como de “util” es una caracterıstica?

Imaginemos que estamos tratando de adivinar el precio de un coche...

• Relevantes: motor, edad, kilometraje, ano de compra,presencia de oxido,. . .

• Irrelevantes: color de los limpiaparabrisas, presenciade pegatinas,. . .

• Redundantes: edad/ano de compra

Veronica Bolon Canedo 15/30

Page 16: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

¿Por que aplicar seleccion de caracterısticas?

• Tener mas caracterısticas no implica obtener mejores resultados deaprendizaje.

• Trabajar con menos caracterısticas reduce la complejidad delproblema y reduce el tiempo de ejecucion.

• Con menos caracterısticas, se mejora la capacidad degeneralizacion.

• Obtener los valores para ciertas caracterısticas pueden ser costoso odifıcil.

• Con menos caracterısticas, es mas facil comprender el modelo.

Veronica Bolon Canedo 16/30

Page 17: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Tecnicas de seleccion de caracterısticas

Filtro Embebido Wrapper

Veronica Bolon Canedo 17/30

Page 18: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Filtros

Veronica Bolon Canedo 18/30

Page 19: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Medidas de filtrado

• Medidas de separabilidad. Estiman la separabilidad entre clases:euclıdea, Mahalanobis...

• Por ejemplo, en un problema binario, un proceso de SC basado eneste tipo de medidas determina que X es mejor que Y si X induce unadiferencia mayor que Y entre las dos probabilidades condicionales apriori entre las clases.

• Correlacion. Los buenos subconjuntos son aquellos que estancorrelacionados con la clase.

f (X1, ...,XM) =

∑Mi=1 ρic∑M

i=1

∑Mj=i+1 ρij

donde ρic es el coeficiente de correlacion entre la variable Si y la etiqueta c de la

clase C y ρij es el coeficiente de correlacion entre Xi y Xj

Veronica Bolon Canedo 19/30

Page 20: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Medidas de filtrado

• Teorıa de la Informacion. La correlacion solo puede detectardependencias lineales. Un metodo mas potente es la informacionmutua.

• La informacion mutua I(X1,...,M ;C) mide la cantidad de incertidumbreque se pierde en la clase C cuando los valores del vector X1,...,M sonconocidos.

• Debido a que es complejo el calculo de I, normalmente se usanreglas heurısticas

f (X1,...,M) =M∑

i=1

I(Xi ;C)− βM∑

i=1

M∑j=i+1

I(Xi ;Xj)

con β = 0.5, por ejemplo

Veronica Bolon Canedo 20/30

Page 21: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Filtros

Ventajas Inconvenientes Ejemplos

Independencia del clasificador No interaccion con clasificador CFSBajo coste computacional Consistency-basedRapido INTERACTBuena generalizacion ReliefF

Informacion mutua

Veronica Bolon Canedo 21/30

Page 22: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Embebidos

Ventajas Inconvenientes Ejemplos

Interaccion con clasificador Dependiente del clasificador SVM-RFECoste computacional mas bajo quewrappers

FS-P

Considera dependencias entre carac-terısticas

Veronica Bolon Canedo 22/30

Page 23: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Wrappers

Veronica Bolon Canedo 23/30

Page 24: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Wrappers

Ventajas Inconvenientes Ejemplos

Interaccion con clasificador Costoso computacionalmente SFS+SVMConsidera dependencias entre carac-terısticas

Riesgo de sobreajuste SBS+C4.5

Dependiente del clasificador

Veronica Bolon Canedo 24/30

Page 25: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Existe otra forma de categorizar los metodos de seleccion decaracterısticas de acuerdo a la salida que proporcionan:

• Metodos que devuelven un subconjunto de caracterısticas.

• Metodos que devuelven un ranking de caracterısticas.

Veronica Bolon Canedo 25/30

Page 26: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Metodos de subconjunto

Devuelven un subconjunto de caracterısticas optimizado de acuerdo aalgun criterio de evaluacion.

• Input: x caracterısticas, U criterio de evaluacion

• Subconjunto = {}• Repetir

• Sk = generarSubconjunto(x)• si mejora(S, Sk , U)

• Subconjunto = Sk

• Hasta CriterioParada()

• Output: Subconjunto de las caracterısticas mas relevantes

Veronica Bolon Canedo 26/30

Page 27: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Metodos de ranking

Devuelven una lista de caracterısticas ordenadas por un criterio deevaluacion.

• Input: x caracterısticas, U criterio de evaluacion

• Lista = {}• Para cada caracterıstica xi , i ∈ {1...N}

• vi = calcular(xi,U)• colocar xi en la Lista de acuerdo a vi

• Output: Lista con las caracterısticas mas relevantes primero

Veronica Bolon Canedo 27/30

Page 28: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Metodos de ranking

Caracterısticas A1 A2 A3 A4 A5 A6 A7 A8 A9Ranking A5 A7 A8 A1 A9 A2 A6 A3 A4

A5 A7 A8 A1 A9 A2 (6 caracterısticas)

Veronica Bolon Canedo 28/30

Page 29: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Algunos metodos comunmente usados

Uni/Multivariado Ranking/Subconjunto Autor y Ano Complejidad3

Chi-Squared Univariado Ranker Liu & Setiono (1995) nmF-score (Fisher score) Univariado Ranker Duda et al. (1999) nmInformation Gain Univariado Ranker Quinlan (1986) nmReliefF Multivariado Ranker Kononenko (1994) n2mmRMR Multivariado Ranker Peng et al. (2005) nm2

SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n,m)m2

CFS Multivariado Subconjunto Hall (1999) nm2

FCBF Multivariado Subconjunto Yu & Liu (2003) nm log mINTERACT Multivariado Subconjunto Zhao & Liu (2007) nm2

Consistency Multivariado Subconjunto Dash & Liu (2003) nm2

Estos metodos fueron propuestos hace muchos anos... y su complejidad esbastante alta en algunos casos... SOLUCION: aprendizaje distribuido

3n es el numero de ejemplos y m el de caracterısticas

Veronica Bolon Canedo 29/30

Page 30: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Algunos metodos comunmente usados

Uni/Multivariado Ranking/Subconjunto Autor y Ano Complejidad3

Chi-Squared Univariado Ranker Liu & Setiono (1995) nmF-score (Fisher score) Univariado Ranker Duda et al. (1999) nmInformation Gain Univariado Ranker Quinlan (1986) nmReliefF Multivariado Ranker Kononenko (1994) n2mmRMR Multivariado Ranker Peng et al. (2005) nm2

SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n,m)m2

CFS Multivariado Subconjunto Hall (1999) nm2

FCBF Multivariado Subconjunto Yu & Liu (2003) nm log mINTERACT Multivariado Subconjunto Zhao & Liu (2007) nm2

Consistency Multivariado Subconjunto Dash & Liu (2003) nm2

Estos metodos fueron propuestos hace muchos anos... y su complejidad esbastante alta en algunos casos...

SOLUCION: aprendizaje distribuido

3n es el numero de ejemplos y m el de caracterısticas

Veronica Bolon Canedo 29/30

Page 31: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Algunos metodos comunmente usados

Uni/Multivariado Ranking/Subconjunto Autor y Ano Complejidad3

Chi-Squared Univariado Ranker Liu & Setiono (1995) nmF-score (Fisher score) Univariado Ranker Duda et al. (1999) nmInformation Gain Univariado Ranker Quinlan (1986) nmReliefF Multivariado Ranker Kononenko (1994) n2mmRMR Multivariado Ranker Peng et al. (2005) nm2

SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n,m)m2

CFS Multivariado Subconjunto Hall (1999) nm2

FCBF Multivariado Subconjunto Yu & Liu (2003) nm log mINTERACT Multivariado Subconjunto Zhao & Liu (2007) nm2

Consistency Multivariado Subconjunto Dash & Liu (2003) nm2

Estos metodos fueron propuestos hace muchos anos... y su complejidad esbastante alta en algunos casos... SOLUCION: aprendizaje distribuido

3n es el numero de ejemplos y m el de caracterısticas

Veronica Bolon Canedo 29/30

Page 32: ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

Big dimensionSeleccion de caracterısticas

Veronica Bolon Canedo

Department of Computer ScienceUniversity of A Coruna (Spain)

Veronica Bolon Canedo 30/30