Jesús García Herrero CLASIFICADORES BAYESIANOS En esta clase se presentan los algoritmos Análisis de Datos para abordar tareas de aprendizaje de modelos predictivos. Se particularizan las técnicas estadísticas vistas anteriormente para resolver tareas predictivas: por un lado la regresión (lineal o no lineal) para predecir valores numéricos, y su aplicación para predecir probabilidades y clasificar instancias mediante regresión logística, y los clasificadores bayesianos como modelo de aprendizaje de parámetros de distribuciones de probabilidad para predecir probabilidades de clases. La clasificación mediante regresión permite estimar las fronteras de decisión entre clases, presentando la equivalencia del aprendizaje de fronteras de clasificación al de las funciones de estimación de pertenencia a la clase. Se puede ver la limitación de esta técnica a problemas linealmente separables. Los clasificadores bayesianos parten del principio de probabilidad condicionada para estimar probabilidades a posteriori de pertencia a clases de las instancia, una vez calculadas las probabilidades de los valores de los atributos (probabilidades a priori) en la fase de entrenamiento. Estos clasificadores permiten tratar con datos nominales y numéricos, en este último caso utilizando distribuciones normales para simplificar el proceso. La limitación está en el cálculo de dependencias entre los atributos, que requeriría un número de datos exponencial con la dimensión de éstos, problema habitualmente tratado con la simplificación de independencia condicional (método “naïve Bayes”). Se completa el tema revisando aspectos prácticos que surgen al aplicar técnicas de clasificación sobre datos reales: tratamiento de datos incompletos y datos insuficientes para estimar probabilidades muy pequeñas.
27
Embed
Jesús García Herrero CLASIFICADORES BAYESIANOSocw.uc3m.es/ingenieria-informatica/analisis-de... · Jesús García Herrero CLASIFICADORES BAYESIANOS En esta clase se presentan los
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Jesús García Herrero
CLASIFICADORES BAYESIANOS
En esta clase se presentan los algoritmos Análisis de Datos para abordar tareas de aprendizaje
de modelos predictivos.
Se particularizan las técnicas estadísticas vistas anteriormente para resolver tareas predictivas:
por un lado la regresión (lineal o no lineal) para predecir valores numéricos, y su aplicación
para predecir probabilidades y clasificar instancias mediante regresión logística, y los
clasificadores bayesianos como modelo de aprendizaje de parámetros de distribuciones de
probabilidad para predecir probabilidades de clases.
La clasificación mediante regresión permite estimar las fronteras de decisión entre clases,
presentando la equivalencia del aprendizaje de fronteras de clasificación al de las funciones de
estimación de pertenencia a la clase. Se puede ver la limitación de esta técnica a problemas
linealmente separables.
Los clasificadores bayesianos parten del principio de probabilidad condicionada para estimar
probabilidades a posteriori de pertencia a clases de las instancia, una vez calculadas las
probabilidades de los valores de los atributos (probabilidades a priori) en la fase de
entrenamiento. Estos clasificadores permiten tratar con datos nominales y numéricos, en este
último caso utilizando distribuciones normales para simplificar el proceso. La limitación está en
el cálculo de dependencias entre los atributos, que requeriría un número de datos exponencial
con la dimensión de éstos, problema habitualmente tratado con la simplificación de
independencia condicional (método “naïve Bayes”). Se completa el tema revisando aspectos
prácticos que surgen al aplicar técnicas de clasificación sobre datos reales: tratamiento de
datos incompletos y datos insuficientes para estimar probabilidades muy pequeñas.
Técnicas Clásicas en Problemas de Clasificación
Clasificadores Bayesianos
Métodos probabilísticos y numéricos
de clasificación
Jesús García Herrero
Universidad Carlos III de Madrid
Técnicas Clásicas en Problemas de Clasificación
Clasificación numérica
• Modelado de datos con atributos numéricos para su aplicación a
Clasificación. Generalización
• Datos representados como vectores de atributos numéricos: patrones
• Problemas: dimensionalidad, sobreajuste.
N21 X,...,X,X
A1 A2 ... AF
x1
1 x1
2 ... x1
F
x2
1 x2
2 ... x2
F
x3
1 x3
2 ... x3
F
... ... ... ...
xN
1 xN
2 ... xN
F
Técnicas Clásicas en Problemas de Clasificación
Clasificación numérica
Problema de Clasificación
• Clases: {C1, ..., CM}
• Muestras:E=
– Tamaño:
• Para cada clase, Ci, hay ni patrones, cada uno con F atributos: para cada clase Ci:
}X...,X ,...,X ,...,X ,X...,,X{)M(
n)M(
1)2(
n)2(
1)1(
n)1(
1M21
}X...,,X{)i(
n)i(
1i
i)i(
Fj
)i(j1
)i(j n,...,1j;
x
x
X
M
1jjnN
Técnicas Clásicas en Problemas de Clasificación
Clasificación numérica
• Función discriminante de cada clase:
• Propiedad deseable para el diseño de gi(.): sobre el conjunto de
entrenamiento E, cada patrón de la clase Ci tiene un valor máximo con el
discriminante gi(.):
M,...,1i),X(gi
)X(g1
)X(g2
)X(gM
X Max(.) C
i
i
jk
Mk
i
ji njXgXg ,...,1)},({max)( )(
,...,1
)(
)Xg(C X
}C,...,C{CR:(.)g M1F
Técnicas Clásicas en Problemas de Clasificación
Fronteras de decisión
lineales:)X(gij
0
5
10
15
20
25
30
0 5 10 15 20 25 30
X1
X2
+
+
+
+
+ +
+
+ +
+
++
++
12
3
g13
g12
g23
Técnicas Clásicas en Problemas de Clasificación
Fronteras de decisión
scuadratica:)X(gij
0
5
10
15
20
25
30
0 5 10 15 20 25 30
X1
X2
+
+
+
+
+ +
+
+ +
+
++
++
12
3g13
g12 g23
g12
Técnicas Clásicas en Problemas de Clasificación
Clasificación con Regresión Lineal • Para cada clase se define la función de pertenencia gi:
• Se construye una función lineal que “aproxime” gi:
• Hay que “aprender” M funciones gi
i
ii
CX;0
CX;1)X(g
i
ti
1i
tii
t)I(
n
t)1(1
t)i(
n
t)i(1
ii yH]HH[A ;
X1
X1
X1
X1
H
0
0
1
1
y
I
i
todos los datos 1s en los patrones
de Ci
0s en resto
Técnicas Clásicas en Problemas de Clasificación
Clasificación bayesiana:
aplicación de modelos estadísticos • Clasificación con modelo de estructura probabilística
conocida
Clases: {C1, ..., CM}. Se conoce a priori:
– Probabilidades de clase: P(Ci)
– Distribuciones de probabilidad condicionadas
(parámetros constantes)
– densidad
)C(P
)C,xX,...,xX(P
)C|xX,...,xX(P)C|x,...,x(F
i
iII11
iIII1iI1X
I1
iI1XiI1X x...x
)C|x,...,x(F)C|x,...,x(f
Técnicas Clásicas en Problemas de Clasificación
• Parámetros: vector de medias y matriz covarianzas
• Ejemplo
Ej.: distribución normal multivariada
2xxxxx
xxxx2
1x
n
1
1t2/n
F2n1F
F121
S;
)x(S)x(2
1exp
S2
1)x(f
216
621S;
5
30
Técnicas Clásicas en Problemas de Clasificación
Teorema de Bayes aplicado a clasificación
• Probabilidad a posteriori: es la probabilidad de que el ejemplo tenga
clase Ci:
• Probabilidad a priori: P(Ci) es la probabilidad total de cada clase
• Verosimilitud: : es la distribución de Ci aplicada a
• Densidad total:
Criterio de clasificación MAP:
– función discriminante de Ci: proporcional a su prob a posteriori:
– la clase es la de aquella que maximiza el discriminante
)X(f
)C(p)C|X(f)X|C(P ii
i
)X|C(P i
)C|X(f i
)C(P)C|X(f...)C(P)C|X(f)X(f MM11
)C(p)C|X(f
i
máximo)X|C(P
i
máximo)X(Clase iii
)C(p)C|X(f)X(g iii
X
Técnicas Clásicas en Problemas de Clasificación
Clasificación bayesiana y distrib normal
• Distribuciones condicionales gaussianas. Para cada clase Ci
hay una función discriminante de parámetros ij, ij, j=1...I
• Parámetros de distribución condicionada a cada clase
• Regiones de decisión:
– Funciones cuadráticas (hipérbolas) dadas por
diferencias:
– Si son iguales, y diagonales: regiones lineales (caso
particular)
2
ij
F
1i
2ijj
1t
Fii2i1
2/n
iiii
/)x(2
1K:ionsimplifica
)x(S)x(2
1
...2
)C(Plog))C|x(f)C(Plog()x(g
)x(g)x(g)x(g jiij
Técnicas Clásicas en Problemas de Clasificación
Ejemplo con distribución normal
• C1:
• C2:
• C3:
216
621R;530C;3.0P 1
t11
166
616R;535C;2.0P 2
t22
42
216R;1010C;5.0P 3
t33
Técnicas Clásicas en Problemas de Clasificación
Ejemplo
-50 -40 -30 -20 -10 0 10 20 30 40 50
-30
-20
-10
0
10
20
30
40
C1
g23 C3
C2
g13
g12
Técnicas Clásicas en Problemas de Clasificación
Resumen clasificador bayesiano numérico
• Algoritmo:
• Estimar parámetros de cada clase Ci (entrenamiento)
• Estimar probabilidad de cada clase
• Obtener regiones de decisión: gij(.)
ii)i(
n)i(
1i C,}X...,,X{:Ci
M
1ii
ii nn;
N
n)C(P
in
1j
)i(ji x
n
1ˆ
in
1j
tiiii
i
i )x)(x(n
1C
Técnicas Clásicas en Problemas de Clasificación
Clasificación Bayesiana con Atributos Nominales
Atributos nominales con valores discretos
– Ai={V1,...,Vni}: atributo con ni valores posibles
– Pasamos de densidades a probabilidades:
probabilidad a priori: p(Ai=Vj|Ck)?
– Estimación “contando” el número de casos:
k
jikkji
C clase de jemplose de ºn
VAcon C clase de jemplose de ºn)C|VA(p
Técnicas Clásicas en Problemas de Clasificación
Clasificación Bayesiana con Atributos Nominales
• Simplificación: independencia de atributos (“Naive Bayes”):
la probabilidad conjunta de varios atributos se pone como
producto
• Clasificación:
)C|VA(p*...*C|VA(p*)C|VA(p)C|X(p
)VA,...,VA,VA(X
kIIk22k11ki
II2211i
)X(p
)C(p*)C|VA(p*...*)C|VA(p*)C|VA(p
)X(p
)C(p*)C|X(p)X|C(p
i
kkFFk22k11
i
kkiik
Técnicas Clásicas en Problemas de Clasificación
Ejemplo con atributos nominales
SALARIO CLIENTE EDAD HIJOS CRÉDITO
Poco Sí Joven Uno NO Mucho Si Joven Uno SI Mucho Si Joven Uno SI Poco Si Joven Uno NO
Mucho Si Joven Dos SI Poco Si Joven Dos NO
Mucho Si Adulto Dos SI Mucho Si Adulto Dos SI Poco No Adulto Dos NO
Mucho Si Adulto Dos SI Medio No Adulto Tres NO Mucho Si Adulto Dos SI Medio Si Adulto Dos SI Medio No Adulto Tres NO Medio No Adulto Dos SI Mucho No Mayor Tres NO Poco No Mayor Tres SI Poco No Mayor Tres SI
• Si hay faltas en la muestra de entrenamiento, no cuentan en la
estimación de probabilidades de ese atributo
)Xi(p/0375.0)Xi(p/20/8*8/4*8/3*8/4
)X(p/)NO(p*)NO|tresh(p*)NO|sic(p*)NO|pocos(p
)X|NO(p
)Xi(p/0167.0)Xi(p/20/12*12/3*12/8*12/2
)X(p/)SI(p*)SI|tresh(p*)SI|sic(p*)SI|pocos(p
)X|SI(p
i
i
i
i
Técnicas Clásicas en Problemas de Clasificación
Faltas en atributo EDAD
SALARIO CLIENTE EDAD HIJOS CRÉDITO
Poco Sí Joven Uno NOMucho Si Joven Uno SIMucho Si Joven Uno SIPoco Si ? Uno NO
Mucho Si ? Dos SIPoco Si ? Dos NO
Mucho Si ? Dos SIMucho Si Adulto Dos SIPoco No Adulto Dos NO
Mucho Si Adulto Dos SIMedio No Adulto Tres NOMucho Si Adulto Dos SIMedio Si Adulto Dos SIMedio No Adulto Tres NOMedio No Adulto Dos SIMucho No Mayor Tres NOPoco No Mayor Tres SIPoco No Mayor Tres SI
Mucho No Mayor Tres NOMucho No Mayor Tres SI
Salario
Crédito No Sí
Poco 4/8 2/12
Mucho 2/8 8/12
Medio 2/8 2/12
ClienteCrédito No Sí
Sí 3/8 8/12
No 5/8 4/12
EdadCrédito No Sí
Joven 1/6 2/10
Adulto 3/6 5/10
Mayor 2/6 3/10
p(SI) = 12/20
p(NO) = 8/20
Hijos
Crédito No Sí
Uno 2/8 2/12
Dos 2/8 7/12
Tres 4/8 3/12
Técnicas Clásicas en Problemas de Clasificación
Atributos no representados.
Laplace • Problema: con muestra poco representativa, puede ocurrir que
en alguna clase, un valor de atributo no aparezca: p(Ai=Vj|Ck)=0
– Cualquier ejemplo X con Ai=Vj generará P(Ck|X)=0,
independientemente de los otros atributos!
• Se suele modificar la estimación de las probabilidades a priori
con un factor que elimina los ceros.
– Ej.: P(Edad|Crédito=NO)=
– Ley :
– A veces simplemente se inicializan las cuentas a 1 en vez de 0:
8
2:Mayor,
8
3:Adulto,
8
3:Joven
8
3/2:Mayor,
8
3/3:Adulto,
8
3/3:Joven
38
12:Mayor,
38
13:Adulto,
38
13:Joven
Técnicas Clásicas en Problemas de Clasificación
Atributos mixtos
• Independencia de atributos (“Naive Bayes”)
– Atributos discretos: probabilidades a priori con cada clase Ck
– Atributos continuos: densidades de clase Ck: normales de parámetros
k, k
)C|VA(p*...*)C|VA(p*)C|VA(p)C|X(p kFFk22k11ki
k
jikkji
C clase de jemplose de ºn
VAcon C clase de jemplose de ºn)C|VA(p
2ik
2ikj
ikkjiAkji
)V(
2
1exp
2
1)C|V(f)C|VA(p
Técnicas Clásicas en Problemas de Clasificación
Ejemplo con atributos mixtos
SALARIO CLIENTE EDAD HIJOS CRÉDITO
525 Sí Joven 1 NO 2000 Si Joven 1 SI 2500 Si Joven 1 SI 470 Si Joven 1 NO
3000 Si Joven 2 SI 510 Si Joven 2 NO
2800 Si Adulto 2 SI 2700 Si Adulto 2 SI 550 No Adulto 2 NO
2600 Si Adulto 2 SI 1100 No Adulto 3 NO 2300 Si Adulto 2 SI 1200 Si Adulto 2 SI 900 No Adulto 3 NO 800 No Adulto 2 SI 800 No Mayor 3 NO
1300 No Mayor 3 SI 1100 No Mayor 3 SI 1000 No Mayor 3 NO 4000 No Mayor 3 SI