TÉCNI MULTIV Página 1 ICAS DE ANÁLIS VARIANTE EN SA Asignatura: Estadística aplicada y m Profesor: Carlos R Alumno: Alfonso d Fecha SIS AS TM minería de datos Rivero Rodríguez de la Fuente Ruiz a: Mayo de 2009
Nov 11, 2015
TCNICAS DE ANLISIS
MULTIVARIANTE EN SAS
Pgina 1
TCNICAS DE ANLISIS
MULTIVARIANTE EN SAS
Asignatura: Estadstica aplicada y minera de datos
Profesor: Carlos Rivero Rodrguez
Alumno: Alfonso de la Fuente Ruiz
Fecha
TCNICAS DE ANLISIS
MULTIVARIANTE EN SASTM
Estadstica aplicada y minera de datos
Carlos Rivero Rodrguez
: Alfonso de la Fuente Ruiz
Fecha: Mayo de 2009
Pgina 2
INTRODUCCIN
Este documento refleja las soluciones al cuestionario prctico enviado al alumno para
la parte dedicada a Tcnicas de Anlisis Multivariante en SAS (Software de Anlisis
Estadstico) en el marco de la asignatura Estadstica Aplicada y Minera de Datos
del Master Oficial en Ingeniera Matemtica impartido por la Universidad
Complutense de Madrid, en su matrcula extraordinaria Marzo-Junio 2009.
El objetivo principal de estas prcticas es mostrar el manejo del SAS y la comprensin e
interpretacin de las salidas relativas a las tcnicas de anlisis multivariante.
El alumno ha instalado una versin de SAS en su ordenador personal debido a la
imposibilidad de realizar las prcticas en las aulas universitarias por causa de fuerza
mayor. La versin domstica empleada es la 9.0, sin posibilidad de realizar (plotear)
grficos avanzados.
Con la resolucin de las prcticas se incluye el cdigo fuente SAS asociado y los
resultados devueltos por el software. Tambin se incluye una bibliografa consultada
por el alumno para el estudio de la asignatura y la realizacin del trabajo prctico.
Pgina 3
PRIMERA PRCTICA
Fichero de datos: discriminante.dat
- 100 observaciones (clientes);
- 13 variables, X2-X14;
- Una variable de clasificacin en tres grupos de cliente, X1.
Considere las primeras 75 observaciones del fichero de datos DISCRIMINANTE y defina
con ellas un fichero de estimacin de la discriminacin (asgnele el nombre
DISCRIM_ESTIMA)
De forma anloga, con las ltimas 25 observaciones del fichero DISCRIMINANTE defina
un fichero de validacin de la discriminacin (asgnele el nombre DISCRIM_VALIDA).
CDIGO FUENTE:
(Paso DATA)
dm 'log; clear; output; clear'; /* limpiar ventanas */
data discrim_estima;
input X1 $ X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14;
/*ID
X1 - Customer Type
X2 - Product Quality
X3 - E-Commerce Activities
X4 - Technical Support
X5 - Complaint Resolution
X6 - Advertising
X7 - Product Line
X8 - Salesforce Image
X9 - Competitive Pricing
X10 - Warranty & Claims
X11 - New Products
Pgina 4
X12 - Order & Billing
X13 - Price Flexibility
X14 - Delivery Speed*/
datalines;
2 8.5 3.9 2.5 5.9 4.8 4.9 6.0 6.8 4.7 4.3 5.0 5.1 3.7
3 8.2 2.7 5.1 7.2 3.4 7.9 3.1 5.3 5.5 4.0 3.9 4.3 4.9
3 9.2 3.4 5.6 5.6 5.4 7.4 5.8 4.5 6.2 4.6 5.4 4.0 4.5
1 6.4 3.3 7.0 3.7 4.7 4.7 4.5 8.8 7.0 3.6 4.3 4.1 3.0
2 9.0 3.4 5.2 4.6 2.2 6.0 4.5 6.8 6.1 4.5 4.5 3.5 3.5
1 6.5 2.8 3.1 4.1 4.0 4.3 3.7 8.5 5.1 9.5 3.6 4.7 3.3
1 6.9 3.7 5.0 2.6 2.1 2.3 5.4 8.9 4.8 2.5 2.1 4.2 2.0
2 6.2 3.3 3.9 4.8 4.6 3.6 5.1 6.9 5.4 4.8 4.3 6.3 3.7
2 5.8 3.6 5.1 6.7 3.7 5.9 5.8 9.3 5.9 4.4 4.4 6.1 4.6
1 6.4 4.5 5.1 6.1 4.7 5.7 5.7 8.4 5.4 5.3 4.1 5.8 4.4
3 8.7 3.2 4.6 4.8 2.7 6.8 4.6 6.8 5.8 7.5 3.8 3.7 4.0
1 6.1 4.9 6.3 3.9 4.4 3.9 6.4 8.2 5.8 5.9 3.0 4.9 3.2
1 9.5 5.6 4.6 6.9 5.0 6.9 6.6 7.6 6.5 5.3 5.1 4.5 4.4
3 9.2 3.9 5.7 5.5 2.4 8.4 4.8 7.1 6.7 3.0 4.5 2.6 4.2
2 6.3 4.5 4.7 6.9 4.5 6.8 5.9 8.8 6.0 5.4 4.8 6.2 5.2
3 8.7 3.2 4.0 6.8 3.2 7.8 3.8 4.9 6.1 5.0 4.3 3.9 4.5
2 5.7 4.0 6.7 6.0 3.3 5.5 5.1 6.2 6.7 5.4 4.2 6.2 4.5
2 5.9 4.1 5.5 7.2 3.5 6.4 5.5 8.4 6.2 6.3 5.7 5.8 4.8
2 5.6 3.4 5.1 6.4 3.7 5.7 5.6 9.1 5.4 6.1 5.0 6.0 4.5
3 9.1 4.5 3.6 6.4 5.3 5.3 7.1 8.4 5.8 6.7 4.5 6.1 4.4
1 5.2 3.8 7.1 5.2 3.9 4.3 5.0 8.4 7.1 4.6 3.3 4.9 3.3
3 9.6 5.7 6.8 5.9 5.4 8.3 7.8 4.5 6.4 6.5 4.3 3.0 4.3
2 8.6 3.6 7.4 5.1 3.5 7.3 4.7 3.7 6.7 6.0 4.8 3.4 4.0
3 9.3 2.4 2.6 7.2 2.2 7.2 4.5 6.2 6.4 4.2 6.7 4.4 4.5
1 6.0 4.1 5.3 4.7 3.5 5.3 5.3 8.0 6.5 3.9 4.7 5.3 4.0
2 6.4 3.6 6.6 6.1 4.0 3.9 5.3 7.1 6.1 3.7 5.6 6.6 3.9
3 8.5 3.0 7.2 5.8 4.1 7.6 3.7 4.8 6.9 6.7 5.3 3.8 4.4
1 7.0 3.3 5.4 5.5 2.6 4.8 4.2 9.0 6.5 5.9 4.3 5.2 3.7
3 8.5 3.0 5.7 6.0 2.3 7.6 3.7 4.8 5.8 6.0 5.7 3.8 4.4
1 7.6 3.6 3.0 4.0 5.1 4.2 4.6 7.7 4.9 7.2 4.7 5.5 3.5
Pgina 5
1 6.9 3.4 8.5 4.3 4.5 6.4 4.7 5.2 7.7 3.3 3.7 2.7 3.3
1 8.1 2.5 7.2 4.5 2.3 5.1 3.8 6.6 6.8 6.1 3.0 3.5 3.0
1 6.7 3.7 6.5 5.3 5.3 5.1 4.9 9.2 5.7 4.2 3.5 4.5 3.4
2 8.0 3.3 6.1 5.7 5.5 4.6 4.7 8.7 5.9 3.8 4.7 6.6 4.2
1 6.7 4.0 5.2 3.9 3.0 5.4 6.8 8.4 6.2 6.0 2.5 4.3 3.5
1 8.7 3.2 6.1 4.3 3.5 6.1 2.9 5.6 6.1 6.5 3.1 2.9 2.5
2 9.0 3.4 5.9 4.6 3.9 6.0 4.5 6.8 6.4 4.3 3.9 3.5 3.5
3 9.6 4.1 6.2 7.3 2.9 7.7 5.5 7.7 6.1 4.4 5.2 4.6 4.9
2 8.2 3.6 3.9 6.2 5.8 4.9 5.0 9.0 5.2 7.1 4.7 6.9 4.5
1 6.1 4.9 3.0 4.8 5.1 3.9 6.4 8.2 5.1 6.8 4.5 4.9 3.2
2 8.3 3.4 3.3 5.5 3.1 4.6 5.2 9.1 4.1 1.7 4.6 5.8 3.9
2 9.4 3.8 4.7 5.4 3.8 6.5 4.9 8.5 4.9 6.2 4.1 4.5 4.1
3 9.3 5.1 4.6 6.8 5.8 6.6 6.3 7.4 5.1 4.1 4.6 4.6 4.3
2 5.1 5.1 6.6 6.9 4.4 5.4 7.8 5.9 7.2 5.2 4.9 6.3 4.5
3 8.0 2.5 4.7 7.1 3.6 7.7 3.0 5.2 5.1 3.9 4.3 4.2 4.7
2 5.9 4.1 5.7 5.9 5.8 6.4 5.5 8.4 6.4 5.1 5.2 5.8 4.8
3 10.0 4.3 7.1 6.3 2.9 5.4 4.5 3.8 6.7 3.7 5.0 4.0 3.5
2 5.7 3.8 6.8 7.5 5.7 5.7 6.0 8.2 6.6 4.8 6.5 7.3 5.2
3 9.9 3.7 3.7 6.1 4.2 7.0 6.7 6.8 5.9 7.2 4.5 3.4 3.9
3 7.9 3.9 4.3 5.8 4.4 6.9 5.8 4.7 5.2 3.6 4.1 4.2 4.3
1 6.7 3.6 5.9 4.2 3.4 4.7 4.8 7.2 5.7 5.3 4.0 3.6 2.8
3 8.2 2.7 3.7 7.4 2.7 7.9 3.1 5.3 5.3 5.0 4.5 4.3 4.9
3 9.4 2.5 4.8 6.1 3.2 7.3 4.6 6.3 6.3 9.2 4.7 4.6 4.6
1 6.9 3.4 5.7 4.4 3.3 6.4 4.7 5.2 6.4 4.4 3.2 2.7 3.3
2 8.0 3.3 3.8 5.8 3.2 4.6 4.7 8.7 5.3 4.2 4.9 6.6 4.2
3 9.3 3.8 7.3 5.7 3.7 6.4 5.5 7.4 6.6 5.9 4.1 3.2 3.4
2 7.4 5.1 4.8 7.7 4.5 7.2 6.9 9.6 6.4 7.4 5.7 6.5 5.5
3 7.6 3.6 5.2 5.8 5.6 6.6 5.4 4.4 6.7 6.4 4.6 3.9 4.0
3 10.0 4.3 5.3 3.7 4.2 5.4 4.5 3.8 6.7 4.5 3.7 4.0 3.5
3 9.9 2.8 7.2 6.9 2.6 5.8 3.5 5.4 6.2 7.0 5.6 4.9 4.0
3 8.7 3.2 8.4 6.1 2.8 7.8 3.8 4.9 7.2 4.5 5.4 3.9 4.5
2 8.4 3.8 6.7 5.0 4.5 4.7 5.9 6.7 5.1 4.2 2.7 5.0 3.6
1 8.8 3.9 3.8 5.1 4.3 4.7 4.8 5.8 5.0 7.2 4.4 3.7 2.9
1 7.7 2.2 6.3 4.5 2.4 4.7 3.4 6.2 6.0 4.7 3.3 3.1 2.6
Pgina 6
1 6.6 3.6 5.8 4.1 4.9 4.7 4.8 7.2 6.5 3.9 3.5 3.6 2.8
2 5.7 3.8 3.5 6.7 5.4 5.7 6.0 8.2 5.4 5.0 4.7 7.3 5.2
2 5.7 4.0 7.9 6.4 2.7 5.5 5.1 6.2 7.5 6.4 5.0 6.2 4.5
2 5.5 3.7 4.7 5.4 4.3 5.3 4.9 6.0 5.6 2.5 4.5 5.9 4.3
1 7.5 3.5 3.8 3.5 2.9 4.1 4.5 7.6 5.1 5.2 4.0 5.4 3.4
2 6.4 3.6 2.7 5.3 3.9 3.9 5.3 7.1 5.2 5.5 4.7 6.6 3.9
3 9.1 4.5 6.1 5.9 6.3 5.3 7.1 8.4 7.1 5.7 5.4 6.1 4.4
1 6.7 3.2 3.0 3.7 4.8 6.3 4.5 5.0 5.2 2.5 2.9 2.6 3.1
2 6.5 4.3 2.7 6.6 6.5 6.3 6.0 8.7 4.7 6.3 4.6 5.6 4.6
3 9.9 3.7 7.5 4.7 5.6 7.0 6.7 6.8 7.2 4.6 4.1 3.4 3.9
2 8.5 3.9 5.3 5.5 5.0 4.9 6.0 6.8 5.7 3.6 4.4 5.1 3.7
;
data discrim_valida;
input X1 $ X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14;
/*ID
X1 - Customer Type
X2 - Product Quality
X3 - E-Commerce Activities
X4 - Technical Support
X5 - Complaint Resolution
X6 - Advertising
X7 - Product Line
X8 - Salesforce Image
X9 - Competitive Pricing
X10 - Warranty & Claims
X11 - New Products
X12 - Order & Billing
X13 - Price Flexibility
X14 - Delivery Speed*/
datalines;
3 9.9 3.0 6.8 5.0 5.4 5.9 4.8 4.9 7.3 7.6 3.1 4.3 3.8
1 7.6 3.6 7.6 4.6 4.7 4.6 5.0 7.4 8.1 6.6 4.5 5.8 3.9
2 9.4 3.8 7.0 6.2 4.7 6.5 4.9 8.5 7.3 2.4 4.3 4.5 4.1
3 9.3 3.5 6.3 7.6 5.5 7.5 5.9 4.6 6.6 3.1 5.2 4.1 4.6
Pgina 7
1 7.1 3.4 4.9 4.1 4.0 5.0 5.9 7.8 6.1 3.5 2.6 3.1 2.7
3 9.9 3.0 7.4 4.8 4.0 5.9 4.8 4.9 5.9 6.9 3.2 4.3 3.8
3 8.7 3.2 6.4 4.9 2.4 6.8 4.6 6.8 6.3 5.1 4.3 3.7 4.0
2 8.6 2.9 5.8 3.9 2.9 5.6 4.0 6.3 6.1 4.0 2.7 3.0 3.0
1 6.4 3.2 6.7 3.6 2.2 2.9 5.0 8.4 7.3 6.5 2.0 3.7 1.6
2 7.7 2.6 6.7 6.6 1.9 7.2 4.3 5.9 6.5 4.1 4.7 3.9 4.3
1 7.5 3.5 4.1 4.5 3.5 4.1 4.5 7.6 4.9 2.8 3.4 5.4 3.4
1 5.0 3.6 1.3 3.0 3.5 4.2 4.9 8.2 4.3 7.6 2.4 4.8 3.1
2 7.7 2.6 8.0 6.7 3.5 7.2 4.3 5.9 6.9 7.7 5.1 3.9 4.3
2 9.1 3.6 5.5 5.4 4.2 6.2 4.6 8.3 6.5 4.1 4.6 4.3 3.9
2 5.5 5.5 7.7 7.0 5.6 5.7 8.2 6.3 7.4 4.9 5.5 6.7 4.9
3 9.1 3.7 7.0 4.1 4.4 6.3 5.4 7.3 7.5 4.6 4.4 3.0 3.3
1 7.1 4.2 4.1 2.6 2.1 3.3 4.5 9.9 5.5 3.5 2.0 4.0 2.4
3 9.2 3.9 4.6 5.3 4.2 8.4 4.8 7.1 6.2 6.6 4.4 2.6 4.2
3 9.3 3.5 5.4 7.8 4.6 7.5 5.9 4.6 6.4 4.9 4.8 4.1 4.6
3 9.3 3.8 4.0 4.6 4.7 6.4 5.5 7.4 5.3 4.8 3.6 3.2 3.4
1 8.6 4.8 5.6 5.3 2.3 6.0 5.7 6.7 5.8 3.6 4.9 3.6 3.6
1 7.4 3.4 2.6 5.0 4.1 4.4 4.8 7.2 4.5 6.4 4.2 5.6 3.7
1 8.7 3.2 3.3 3.2 3.1 6.1 2.9 5.6 5.0 4.3 3.1 2.9 2.5
2 7.8 4.9 5.8 5.3 5.2 5.3 7.1 7.9 6.0 5.7 4.3 4.9 3.9
2 7.9 3.0 4.4 5.1 5.9 4.2 4.8 9.7 5.7 5.8 3.4 5.4 3.5
;
Pgina 8
1. Realice un anlisis discriminante con las 13 variables del fichero
DISCRIM_ESTIMA, asumiendo distribuciones normales y matrices de varianzas-
covarianzas iguales dentro de cada grupo de clientes. Interprete los resultados
y seale las tres funciones discriminantes. Valide los resultados con el fichero
DISCRIM_VALIDA y seale las observaciones errneamente clasificadas.
CDIGO FUENTE:
Se aade lo siguiente al paso DATA:
proc discrim data=discrim_estima outstat=discrimstat method=normal pool=yes
list crossvalidate;
class X1;
priors prop;
var x2-x14;
run;
proc discrim data=discrimstat testdata=discrim_valida testout=tout testlist;
class X1;
var x2-x14;
run;
proc print data=tout;
run;
Pgina 9
RESULTADOS:
(Seales en color sobre las tablas)
Sistema SAS EST type data set
Procedimiento DISCRIM
Observacione 75 Total DF 74
Variables 13 Clases Within DF 72
Clases 3 Clases Between DF 2
Informacin del nivel de la clase
X1 Nombre de variable Frecuencia Peso Proporcin
Probabilidad anterior
1 _1 23 23.0000 0.306667 0.306667
2 _2 27 27.0000 0.360000 0.360000
3 _3 25 25.0000 0.333333 0.333333
Informacin de la matriz de covarianza ponderada
Rango de la matriz de covarianza
Registro natural de la Determinante de la
matriz de covarianza
13 -9.67291
Sistema SAS EST type data set
Procedimiento DISCRIM
Distancia cuadrada generalizada para X1
De X1 1 2 3
1 2.36399 12.66618 22.78375
2 12.98686 2.04330 10.49577
3 22.95052 10.34184 2.19722
Funcin discriminante lineal para X1
Variable 1 2 3
Pgina 10
Funcin discriminante lineal para X1
Variable 1 2 3
Constante -214.09833 -242.56274 -252.04512
X2 11.45843 13.14861 15.16736
X3 -0.90434 -4.21811 -5.40427
X4 -2.81883 -1.81536 -2.13207
X5 -3.14776 -3.33635 -2.33906
X6 -0.12005 -0.58428 -0.40680
X7 68.70245 70.49507 65.48143
X8 3.13840 5.79398 6.17267
X9 1.15050 -0.30014 -0.93680
X10 16.84896 14.78671 16.02767
X11 -1.77003 -2.35087 -2.13279
X12 -3.74753 -3.19593 -3.76753
X13 76.39380 80.43546 74.15738
X14 -118.51913 -116.61879 -104.65945
Sistema SAS EST type data set
Procedimiento DISCRIM Resultados de clasificacin para los datos calibrados: WORK.DISCRIM_ESTIMA
Resultados de resustitucin usando Funcin discriminante lineal
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
1 2 2 0.0044 0.8118 0.1838
2 3 3 0.0000 0.0050 0.9950
3 3 3 0.0000 0.0017 0.9983
4 1 1 0.9998 0.0002 0.0000
5 2 3 * 0.2396 0.1841 0.5763
6 1 1 0.9999 0.0001 0.0000
7 1 1 0.9999 0.0001 0.0000
8 2 2 0.0531 0.9461 0.0008
9 2 2 0.0059 0.9934 0.0008
Pgina 11
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
10 1 2 * 0.0956 0.9032 0.0012
11 3 3 0.0237 0.0624 0.9139
12 1 1 0.9986 0.0014 0.0000
13 1 3 * 0.0072 0.0425 0.9504
14 3 3 0.0088 0.0169 0.9743
15 2 2 0.0031 0.9826 0.0143
16 3 3 0.0000 0.0060 0.9940
17 2 2 0.0047 0.9925 0.0028
18 2 2 0.0261 0.9669 0.0070
19 2 2 0.0091 0.9905 0.0004
20 3 3 0.0001 0.2863 0.7136
21 1 1 0.9998 0.0002 0.0000
22 3 3 0.0000 0.0030 0.9970
23 2 3 * 0.0001 0.0404 0.9595
24 3 3 0.0000 0.0023 0.9977
25 1 1 0.7662 0.2337 0.0001
26 2 2 0.0007 0.9989 0.0004
27 3 3 0.0001 0.0127 0.9872
28 1 1 0.9836 0.0162 0.0001
29 3 3 0.0000 0.0493 0.9507
30 1 1 0.8697 0.1301 0.0002
31 1 1 0.9815 0.0099 0.0086
32 1 1 0.9673 0.0152 0.0176
33 1 1 0.9942 0.0058 0.0000
34 2 2 0.0005 0.9933 0.0062
35 1 1 0.9315 0.0682 0.0003
36 1 1 0.9998 0.0002 0.0000
37 2 3 * 0.2995 0.0917 0.6087
38 3 3 0.0000 0.0088 0.9912
Pgina 12
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
39 2 2 0.0012 0.9772 0.0216
40 1 1 0.9998 0.0002 0.0000
41 2 2 0.0004 0.9960 0.0037
42 2 2 0.0174 0.6600 0.3226
43 3 3 0.0011 0.2105 0.7884
44 2 2 0.0007 0.9968 0.0025
45 3 3 0.0000 0.0237 0.9762
46 2 2 0.0473 0.9492 0.0035
47 3 3 0.0001 0.0046 0.9953
48 2 2 0.0000 0.9969 0.0030
49 3 3 0.0000 0.0015 0.9985
50 3 3 0.0000 0.1673 0.8327
51 1 1 0.9995 0.0005 0.0000
52 3 3 0.0000 0.0043 0.9957
53 3 3 0.0000 0.0023 0.9977
54 1 1 0.9902 0.0060 0.0038
55 2 2 0.0006 0.9951 0.0043
56 3 3 0.2474 0.1064 0.6461
57 2 2 0.0003 0.8769 0.1228
58 3 3 0.0042 0.0351 0.9607
59 3 3 0.0027 0.0110 0.9863
60 3 3 0.0000 0.0156 0.9844
61 3 3 0.0000 0.0271 0.9729
62 2 2 0.0009 0.8312 0.1678
63 1 1 0.9820 0.0109 0.0071
64 1 1 0.9962 0.0032 0.0006
65 1 1 0.9999 0.0001 0.0000
66 2 2 0.0000 0.9975 0.0024
67 2 2 0.0068 0.9878 0.0054
Pgina 13
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
68 2 2 0.0038 0.9956 0.0006
69 1 1 0.5864 0.4133 0.0002
70 2 2 0.0208 0.9787 0.0005
71 3 3 0.0001 0.3360 0.6640
72 1 1 0.9970 0.0029 0.0001
73 2 2 0.1309 0.8633 0.0058
74 3 3 0.0000 0.0044 0.9956
75 2 2 0.0019 0.7850 0.2130
* Observacin mal clasificada
Sistema SAS EST type data set
Procedimiento DISCRIM Resumen de clasificacin para los datos calibrados: WORK.DISCRIM_ESTIMA
Resumen de resustitucin usando Funcin discriminante lineal
Nmero de observaciones y porcentaje clasificado en X1
De X1 1 2 3 Total
1 21 91.30 1
4.35 1
4.35 23
100.00
2 0 0.00 24
88.89 3
11.11 27
100.00
3 0 0.00 0
0.00 25
100.00 25
100.00
Total 21 28.00 25
33.33 29
38.67 75
100.00
Anteriores 0.30667
0.36
0.33333
Estimaciones de cuenta de error para X1
1 2 3 Total
Tasa 0.0870 0.1111 0.0000 0.0667
Anteriores 0.3067 0.3600 0.3333
Sistema SAS EST type data set
Procedimiento DISCRIM Resumen de clasificacin para los datos calibrados: WORK.DISCRIM_ESTIMA
Pgina 14
Resumen de validacin cruzada usando Funcin discriminante lineal
Nmero de observaciones y porcentaje clasificado en X1
De X1 1 2 3 Total
1 20 86.96 2
8.70 1
4.35 23
100.00
2 0 0.00 22
81.48 5
18.52 27
100.00
3 1 4.00 2
8.00 22
88.00 25
100.00
Total 21 28.00 26
34.67 28
37.33 75
100.00
Anteriores 0.30667
0.36
0.33333
Estimaciones de cuenta de error para X1
1 2 3 Total
Tasa 0.1304 0.1852 0.1200 0.1467
Anteriores 0.3067 0.3600 0.3333
Pgina 15
SEGUNDO PASO PROC DISCRIM:
Sistema SAS EST type data set
Procedimiento DISCRIM Resultados de clasificacin para los datos de test: WORK.DISCRIM_VALIDA
Resultados de clasificacin usando Funcin discriminante lineal
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
1 3 3 0.0000 0.0007 0.9993
2 1 2 * 0.3258 0.6025 0.0717
3 2 3 * 0.0112 0.1733 0.8155
4 3 3 0.0000 0.0002 0.9998
5 1 1 0.9995 0.0005 0.0000
6 3 3 0.0000 0.0094 0.9906
7 3 3 0.0036 0.1218 0.8747
8 2 1 * 0.9511 0.0199 0.0290
9 1 1 1.0000 0.0000 0.0000
10 2 3 * 0.0001 0.0593 0.9406
11 1 2 * 0.2767 0.7225 0.0008
12 1 1 1.0000 0.0000 0.0000
13 2 3 * 0.0002 0.0221 0.9777
14 2 3 * 0.2216 0.3205 0.4579
15 2 2 0.0000 0.9945 0.0055
16 3 1 * 0.8575 0.0284 0.1141
17 1 1 1.0000 0.0000 0.0000
18 3 3 0.0843 0.0079 0.9078
19 3 3 0.0000 0.0001 0.9999
20 3 1 * 0.6171 0.1572 0.2257
21 1 1 0.3951 0.3693 0.2357
22 1 2 * 0.1519 0.8415 0.0067
23 1 1 0.9993 0.0007 0.0000
24 2 2 0.1399 0.7557 0.1043
25 2 1 * 0.9465 0.0518 0.0017
* Observacin mal clasificada
Pgina 16
Sistema SAS EST type data set
Procedimiento DISCRIM Resumen de clasificacin para los datos de test: WORK.DISCRIM_VALIDA
Resumen de clasificacin usando Funcin discriminante lineal
Nmero de observaciones y porcentaje clasificado en X1
De X1 1 2 3 Total
1 6 66.67 3
33.33 0
0.00 9
100.00
2 2 25.00 2
25.00 4
50.00 8
100.00
3 2 25.00 0
0.00 6
75.00 8
100.00
Total 10 40.00 5
20.00 10
40.00 25
100.00
Anteriores 0.30667
0.36
0.33333
Estimaciones de cuenta de error para X1
1 2 3 Total
Tasa 0.3333 0.7500 0.2500 0.4556
Anteriores 0.3067 0.3600 0.3333
Pgina 17
PASO PROC PRINT:
Sistema SAS EST type data set
Obs
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
_1 _2 _3 _INTO_
1 3 9.
9
3.
0
6.
8
5.
0
5.
4
5.
9
4.
8
4.
9
7.
3
7.
6
3.
1
4.
3
3.
8
0.00001
0.00071
0.99928 3
2 1 7.
6
3.
6
7.
6
4.
6
4.
7
4.
6
5.
0
7.
4
8.
1
6.
6
4.
5
5.
8
3.
9
0.32576
0.60253
0.07171 2
3 2 9.
4
3.
8
7.
0
6.
2
4.
7
6.
5
4.
9
8.
5
7.
3
2.
4
4.
3
4.
5
4.
1
0.01119
0.17332
0.81549 3
4 3 9.
3
3.
5
6.
3
7.
6
5.
5
7.
5
5.
9
4.
6
6.
6
3.
1
5.
2
4.
1
4.
6
0.00000
0.00019
0.99981 3
5 1 7.
1
3.
4
4.
9
4.
1
4.
0
5.
0
5.
9
7.
8
6.
1
3.
5
2.
6
3.
1
2.
7
0.99951
0.00048
0.00001 1
6 3 9.
9
3.
0
7.
4
4.
8
4.
0
5.
9
4.
8
4.
9
5.
9
6.
9
3.
2
4.
3
3.
8
0.00000
0.00935
0.99065 3
7 3 8.
7
3.
2
6.
4
4.
9
2.
4
6.
8
4.
6
6.
8
6.
3
5.
1
4.
3
3.
7
4.
0
0.00355
0.12179
0.87466 3
8 2 8.
6
2.
9
5.
8
3.
9
2.
9
5.
6
4.
0
6.
3
6.
1
4.
0
2.
7
3.
0
3.
0
0.95108
0.01991
0.02901 1
9 1 6.
4
3.
2
6.
7
3.
6
2.
2
2.
9
5.
0
8.
4
7.
3
6.
5
2.
0
3.
7
1.
6
1.00000
0.00000
0.00000 1
10 2
7.
7
2.
6
6.
7
6.
6
1.
9
7.
2
4.
3
5.
9
6.
5
4.
1
4.
7
3.
9
4.
3
0.00005
0.05931
0.94063 3
11 1
7.
5
3.
5
4.
1
4.
5
3.
5
4.
1
4.
5
7.
6
4.
9
2.
8
3.
4
5.
4
3.
4
0.27673
0.72251
0.00075 2
12 1
5.
0
3.
6
1.
3
3.
0
3.
5
4.
2
4.
9
8.
2
4.
3
7.
6
2.
4
4.
8
3.
1
0.99998
0.00002
0.00000 1
13 2
7.
7
2.
6
8.
0
6.
7
3.
5
7.
2
4.
3
5.
9
6.
9
7.
7
5.
1
3.
9
4.
3
0.00017
0.02212
0.97771 3
14 2
9.
1
3.
6
5.
5
5.
4
4.
2
6.
2
4.
6
8.
3
6.
5
4.
1
4.
6
4.
3
3.
9
0.22161
0.32050
0.45789 3
15 2
5.
5
5.
5
7.
7
7.
0
5.
6
5.
7
8.
2
6.
3
7.
4
4.
9
5.
5
6.
7
4.
9
0.00003
0.99451
0.00546 2
Pgina 18
Obs
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
_1 _2 _3 _INTO_
16 3
9.
1
3.
7
7.
0
4.
1
4.
4
6.
3
5.
4
7.
3
7.
5
4.
6
4.
4
3.
0
3.
3
0.85754
0.02839
0.11406 1
17 1
7.
1
4.
2
4.
1
2.
6
2.
1
3.
3
4.
5
9.
9
5.
5
3.
5
2.
0
4.
0
2.
4
1.00000
0.00000
0.00000 1
18 3
9.
2
3.
9
4.
6
5.
3
4.
2
8.
4
4.
8
7.
1
6.
2
6.
6
4.
4
2.
6
4.
2
0.08433
0.00789
0.90778 3
19 3
9.
3
3.
5
5.
4
7.
8
4.
6
7.
5
5.
9
4.
6
6.
4
4.
9
4.
8
4.
1
4.
6
0.00000
0.00009
0.99991 3
20 3
9.
3
3.
8
4.
0
4.
6
4.
7
6.
4
5.
5
7.
4
5.
3
4.
8
3.
6
3.
2
3.
4
0.61712
0.15719
0.22568 1
21 1
8.
6
4.
8
5.
6
5.
3
2.
3
6.
0
5.
7
6.
7
5.
8
3.
6
4.
9
3.
6
3.
6
0.39507
0.36925
0.23568 1
22 1
7.
4
3.
4
2.
6
5.
0
4.
1
4.
4
4.
8
7.
2
4.
5
6.
4
4.
2
5.
6
3.
7
0.15185
0.84150
0.00665 2
23 1
8.
7
3.
2
3.
3
3.
2
3.
1
6.
1
2.
9
5.
6
5.
0
4.
3
3.
1
2.
9
2.
5
0.99926
0.00074
0.00000 1
24 2
7.
8
4.
9
5.
8
5.
3
5.
2
5.
3
7.
1
7.
9
6.
0
5.
7
4.
3
4.
9
3.
9
0.13992
0.75574
0.10433 2
25 2
7.
9
3.
0
4.
4
5.
1
5.
9
4.
2
4.
8
9.
7
5.
7
5.
8
3.
4
5.
4
3.
5
0.94655
0.05175
0.00170 1
Pgina 19
2. Realice el mismo anlisis del apartado anterior, pero utilizando distribuciones
normales y matrices de varianzas-covarianzas diferentes dentro de cada grupo
de clientes. Valide los resultados con el fichero DISCRIM_VALIDA y seale las
observaciones errneamente clasificadas. Comente las diferencias con los
resultados del apartado 1.
CDIGO FUENTE:
Se aade lo siguiente al paso DATA:
proc discrim data=discrim_estima outstat=discrimstat method=normal pool=no
list crossvalidate;
class X1;
priors prop;
var x2-x14;
run;
proc discrim data=discrimstat testdata=discrim_valida testout=tout testlist;
class X1;
var x2-x14;
run;
proc print data=tout;
run;
Pgina 20
RESULTADOS:
(Seales en color sobre las tablas)
Sistema SAS EST type data set
Procedimiento DISCRIM
Observacione 75 Total DF 74
Variables 13 Clases Within DF 72
Clases 3 Clases Between DF 2
Informacin del nivel de la clase
X1 Nombre de variable Frecuencia Peso Proporcin
Probabilidad anterior
1 _1 23 23.0000 0.306667 0.306667
2 _2 27 27.0000 0.360000 0.360000
3 _3 25 25.0000 0.333333 0.333333
Informacin de la matriz de covarianza Within
X1 Rango de la matriz
de covarianza
Registro natural de la Determinante de la
matriz de covarianza
1 13 -12.94975
2 13 -16.98286
3 13 -13.18000
Sistema SAS EST type data set
Procedimiento DISCRIM
Distancia cuadrada generalizada para X1
De X1 1 2 3
1 -10.58576 7.21178 31.26802
2 13.69913 -14.93955 19.71244
3 5.80642 9.43731 -10.98277
Sistema SAS EST type data set
Pgina 21
Procedimiento DISCRIM Resultados de clasificacin para los datos calibrados: WORK.DISCRIM_ESTIMA
Resultados de resustitucin usando Funcin discrimimante cuadrtica
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
1 2 2 0.0000 1.0000 0.0000
2 3 3 0.0000 0.0000 1.0000
3 3 3 0.0000 0.0000 1.0000
4 1 1 1.0000 0.0000 0.0000
5 2 2 0.0008 0.9905 0.0087
6 1 1 1.0000 0.0000 0.0000
7 1 1 1.0000 0.0000 0.0000
8 2 2 0.0000 1.0000 0.0000
9 2 2 0.0000 1.0000 0.0000
10 1 2 * 0.3570 0.6430 0.0000
11 3 3 0.0052 0.0066 0.9882
12 1 1 1.0000 0.0000 0.0000
13 1 1 0.9136 0.0000 0.0864
14 3 3 0.0000 0.0004 0.9996
15 2 2 0.0003 0.9997 0.0000
16 3 3 0.0022 0.0000 0.9978
17 2 2 0.0000 1.0000 0.0000
18 2 2 0.0000 1.0000 0.0000
19 2 2 0.0000 1.0000 0.0000
20 3 3 0.0000 0.0046 0.9954
21 1 1 1.0000 0.0000 0.0000
22 3 3 0.0000 0.0000 1.0000
23 2 3 * 0.0000 0.0387 0.9613
24 3 3 0.0000 0.0000 1.0000
25 1 1 1.0000 0.0000 0.0000
26 2 2 0.0000 1.0000 0.0000
27 3 3 0.0000 0.0000 0.9999
28 1 1 0.9997 0.0003 0.0000
Pgina 22
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
29 3 3 0.0000 0.0000 1.0000
30 1 1 1.0000 0.0000 0.0000
31 1 1 1.0000 0.0000 0.0000
32 1 1 1.0000 0.0000 0.0000
33 1 1 1.0000 0.0000 0.0000
34 2 2 0.0000 1.0000 0.0000
35 1 1 1.0000 0.0000 0.0000
36 1 1 1.0000 0.0000 0.0000
37 2 2 0.0696 0.7047 0.2257
38 3 3 0.0000 0.0000 1.0000
39 2 2 0.0000 1.0000 0.0000
40 1 1 1.0000 0.0000 0.0000
41 2 2 0.0000 1.0000 0.0000
42 2 2 0.0000 1.0000 0.0000
43 3 3 0.0207 0.0000 0.9792
44 2 2 0.0000 1.0000 0.0000
45 3 3 0.0000 0.0000 1.0000
46 2 2 0.0340 0.9660 0.0000
47 3 3 0.0000 0.0000 1.0000
48 2 2 0.0000 1.0000 0.0000
49 3 3 0.0000 0.0000 1.0000
50 3 3 0.0001 0.0230 0.9770
51 1 1 1.0000 0.0000 0.0000
52 3 3 0.0000 0.0000 1.0000
53 3 3 0.0000 0.0000 1.0000
54 1 1 0.9991 0.0009 0.0000
55 2 2 0.0000 1.0000 0.0000
56 3 3 0.0076 0.0023 0.9901
57 2 2 0.0000 1.0000 0.0000
Pgina 23
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
58 3 3 0.0000 0.0000 1.0000
59 3 3 0.0000 0.0000 1.0000
60 3 3 0.0000 0.0000 1.0000
61 3 3 0.0000 0.0000 1.0000
62 2 2 0.0000 1.0000 0.0000
63 1 1 1.0000 0.0000 0.0000
64 1 1 1.0000 0.0000 0.0000
65 1 1 1.0000 0.0000 0.0000
66 2 2 0.0000 1.0000 0.0000
67 2 2 0.0000 1.0000 0.0000
68 2 2 0.0000 1.0000 0.0000
69 1 1 1.0000 0.0000 0.0000
70 2 2 0.0000 1.0000 0.0000
71 3 3 0.0000 0.0000 1.0000
72 1 1 1.0000 0.0000 0.0000
73 2 2 0.0001 0.9999 0.0000
74 3 3 0.0000 0.0000 1.0000
75 2 2 0.0000 0.9999 0.0001
* Observacin mal clasificada
Sistema SAS EST type data set
Procedimiento DISCRIM Resumen de clasificacin para los datos calibrados: WORK.DISCRIM_ESTIMA
Resumen de resustitucin usando Funcin discrimimante cuadrtica
Nmero de observaciones y porcentaje clasificado en X1
De X1 1 2 3 Total
1 22 95.65 1
4.35 0
0.00 23
100.00
2 0 0.00 26
96.30 1
3.70 27
100.00
3 0 0.00 0
0.00 25
100.00 25
100.00
Pgina 24
Nmero de observaciones y porcentaje clasificado en X1
De X1 1 2 3 Total
Total 22 29.33 27
36.00 26
34.67 75
100.00
Anteriores 0.30667
0.36
0.33333
Estimaciones de cuenta de error para X1
1 2 3 Total
Tasa 0.0435 0.0370 0.0000 0.0267
Anteriores 0.3067 0.3600 0.3333
Sistema SAS EST type data set
Procedimiento DISCRIM Resumen de clasificacin para los datos calibrados: WORK.DISCRIM_ESTIMA Resumen de validacin cruzada usando Funcin discrimimante cuadrtica
Nmero de observaciones y porcentaje clasificado en X1
De X1 1 2 3 Total
1 17 73.91 3
13.04 3
13.04 23
100.00
2 2 7.41 22
81.48 3
11.11 27
100.00
3 4 16.00 6
24.00 15
60.00 25
100.00
Total 23 30.67 31
41.33 21
28.00 75
100.00
Anteriores 0.30667
0.36
0.33333
Estimaciones de cuenta de error para X1
1 2 3 Total
Tasa 0.2609 0.1852 0.4000 0.2800
Anteriores 0.3067 0.3600 0.3333
Pgina 25
SEGUNDO PASO PROC DISCRIM:
Sistema SAS EST type data set
Procedimiento DISCRIM Resultados de clasificacin para los datos de test: WORK.DISCRIM_VALIDA Resultados de clasificacin usando Funcin discrimimante cuadrtica
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
1 3 3 0.0000 0.0000 1.0000
2 1 3 * 0.0003 0.2444 0.7552
3 2 3 * 0.1490 0.0000 0.8510
4 3 3 0.0000 0.0000 1.0000
5 1 1 1.0000 0.0000 0.0000
6 3 3 0.0000 0.0233 0.9767
7 3 2 * 0.0004 0.5905 0.4092
8 2 1 * 0.9834 0.0165 0.0001
9 1 1 1.0000 0.0000 0.0000
10 2 3 * 0.0015 0.0000 0.9985
11 1 2 * 0.0082 0.9918 0.0000
12 1 1 1.0000 0.0000 0.0000
13 2 3 * 0.0000 0.0000 1.0000
14 2 2 0.1249 0.6591 0.2160
15 2 2 0.0000 1.0000 0.0000
16 3 3 0.0076 0.0000 0.9924
17 1 1 1.0000 0.0000 0.0000
18 3 2 * 0.0000 0.9994 0.0006
19 3 3 0.0000 0.0000 1.0000
20 3 1 * 0.5296 0.4694 0.0011
21 1 3 * 0.0089 0.1313 0.8599
22 1 2 * 0.0033 0.9967 0.0000
23 1 1 1.0000 0.0000 0.0000
24 2 1 * 0.9986 0.0001 0.0013
Pgina 26
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
25 2 2 0.0010 0.8342 0.1648
* Observacin mal clasificada
Sistema SAS EST type data set
Procedimiento DISCRIM Resumen de clasificacin para los datos de test: WORK.DISCRIM_VALIDA Resumen de clasificacin usando Funcin discrimimante cuadrtica
Nmero de observaciones y porcentaje clasificado en X1
De X1 1 2 3 Total
1 5 55.56 2
22.22 2
22.22 9
100.00
2 2 25.00 3
37.50 3
37.50 8
100.00
3 1 12.50 2
25.00 5
62.50 8
100.00
Total 8 32.00 7
28.00 10
40.00 25
100.00
Anteriores 0.30667
0.36
0.33333
Estimaciones de cuenta de error para X1
1 2 3 Total
Tasa 0.4444 0.6250 0.3750 0.4863
Anteriores 0.3067 0.3600 0.3333
Pgina 27
PASO PROC PRINT:
Sistema SAS EST type data set
Obs
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
_1 _2 _3 _INTO_
1 3 9.
9
3.
0
6.
8
5.
0
5.
4
5.
9
4.
8
4.
9
7.
3
7.
6
3.
1
4.
3
3.
8
0.00000
0.00000
1.00000 3
2 1 7.
6
3.
6
7.
6
4.
6
4.
7
4.
6
5.
0
7.
4
8.
1
6.
6
4.
5
5.
8
3.
9
0.00034
0.24445
0.75521 3
3 2 9.
4
3.
8
7.
0
6.
2
4.
7
6.
5
4.
9
8.
5
7.
3
2.
4
4.
3
4.
5
4.
1
0.14897
0.00000
0.85103 3
4 3 9.
3
3.
5
6.
3
7.
6
5.
5
7.
5
5.
9
4.
6
6.
6
3.
1
5.
2
4.
1
4.
6
0.00000
0.00000
1.00000 3
5 1 7.
1
3.
4
4.
9
4.
1
4.
0
5.
0
5.
9
7.
8
6.
1
3.
5
2.
6
3.
1
2.
7
1.00000
0.00000
0.00000 1
6 3 9.
9
3.
0
7.
4
4.
8
4.
0
5.
9
4.
8
4.
9
5.
9
6.
9
3.
2
4.
3
3.
8
0.00000
0.02325
0.97675 3
7 3 8.
7
3.
2
6.
4
4.
9
2.
4
6.
8
4.
6
6.
8
6.
3
5.
1
4.
3
3.
7
4.
0
0.00038
0.59045
0.40917 2
8 2 8.
6
2.
9
5.
8
3.
9
2.
9
5.
6
4.
0
6.
3
6.
1
4.
0
2.
7
3.
0
3.
0
0.98341
0.01650
0.00009 1
9 1 6.
4
3.
2
6.
7
3.
6
2.
2
2.
9
5.
0
8.
4
7.
3
6.
5
2.
0
3.
7
1.
6
1.00000
0.00000
0.00000 1
10 2
7.
7
2.
6
6.
7
6.
6
1.
9
7.
2
4.
3
5.
9
6.
5
4.
1
4.
7
3.
9
4.
3
0.00150
0.00000
0.99850 3
11 1
7.
5
3.
5
4.
1
4.
5
3.
5
4.
1
4.
5
7.
6
4.
9
2.
8
3.
4
5.
4
3.
4
0.00823
0.99177
0.00000 2
12 1
5.
0
3.
6
1.
3
3.
0
3.
5
4.
2
4.
9
8.
2
4.
3
7.
6
2.
4
4.
8
3.
1
1.00000
0.00000
0.00000 1
13 2
7.
7
2.
6
8.
0
6.
7
3.
5
7.
2
4.
3
5.
9
6.
9
7.
7
5.
1
3.
9
4.
3
0.00002
0.00000
0.99998 3
14 2
9.
1
3.
6
5.
5
5.
4
4.
2
6.
2
4.
6
8.
3
6.
5
4.
1
4.
6
4.
3
3.
9
0.12489
0.65910
0.21601 2
1 2 5 5 7 7 5 5 8 6 7 4 5 6 4 0.00 1.00 0.00 2
Pgina 28
Obs
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
_1 _2 _3 _INTO_
5 .5
.
5 .
7 .
0 .
6 .
7 .
2 .
3 .
4 .
9 .
5 .
7 .
9 000 000 000
16 3
9.
1
3.
7
7.
0
4.
1
4.
4
6.
3
5.
4
7.
3
7.
5
4.
6
4.
4
3.
0
3.
3
0.00764
0.00000
0.99236 3
17 1
7.
1
4.
2
4.
1
2.
6
2.
1
3.
3
4.
5
9.
9
5.
5
3.
5
2.
0
4.
0
2.
4
0.99998
0.00000
0.00002 1
18 3
9.
2
3.
9
4.
6
5.
3
4.
2
8.
4
4.
8
7.
1
6.
2
6.
6
4.
4
2.
6
4.
2
0.00000
0.99937
0.00063 2
19 3
9.
3
3.
5
5.
4
7.
8
4.
6
7.
5
5.
9
4.
6
6.
4
4.
9
4.
8
4.
1
4.
6
0.00000
0.00000
1.00000 3
20 3
9.
3
3.
8
4.
0
4.
6
4.
7
6.
4
5.
5
7.
4
5.
3
4.
8
3.
6
3.
2
3.
4
0.52955
0.46937
0.00107 1
21 1
8.
6
4.
8
5.
6
5.
3
2.
3
6.
0
5.
7
6.
7
5.
8
3.
6
4.
9
3.
6
3.
6
0.00886
0.13129
0.85985 3
22 1
7.
4
3.
4
2.
6
5.
0
4.
1
4.
4
4.
8
7.
2
4.
5
6.
4
4.
2
5.
6
3.
7
0.00327
0.99673
0.00000 2
23 1
8.
7
3.
2
3.
3
3.
2
3.
1
6.
1
2.
9
5.
6
5.
0
4.
3
3.
1
2.
9
2.
5
1.00000
0.00000
0.00000 1
24 2
7.
8
4.
9
5.
8
5.
3
5.
2
5.
3
7.
1
7.
9
6.
0
5.
7
4.
3
4.
9
3.
9
0.99859
0.00008
0.00133 1
25 2
7.
9
3.
0
4.
4
5.
1
5.
9
4.
2
4.
8
9.
7
5.
7
5.
8
3.
4
5.
4
3.
5
0.00099
0.83421
0.16480 2
COMENTARIO: En el anlisis discriminante del primer apartado, la tasa de estimaciones de cuenta de error por validacin cruzada fue ligeramente inferior a la registrada con matrices de varianzas-covarianzas diferentes: 0,4556 contra 0,4863.
Pgina 29
3. De las 13 variables empleadas, selecciones aquella que tenga mayor capacidad
discriminatoria. Realice un anlisis discriminante con esa nica variable
utilizando el fichero DISCRIM_ESTIMA, asumiendo distribuciones normales y
matrices de varianzas-covarianzas iguales dentro de cada grupo de clientes.
Seale las tres funciones discriminantes. Valide los resultados con el fichero
DISCRIM_VALIDA y comprelos con los del apartado 1.
CDIGO FUENTE:
Se aade lo siguiente al paso DATA:
proc discrim data=discrim_estima outstat=discrimstat method=normal pool=yes ncan=1
list crossvalidate;
class X1;
priors prop;
var x2-x14;
run;
proc discrim data=discrimstat testdata=discrim_valida testout=tout testlist;
class X1;
var x2-x14;
run;
proc print data=tout;
run;
Pgina 30
RESULTADOS:
(Seales en color sobre las tablas)
Sistema SAS EST type data set
Procedimiento DISCRIM
Observacione 75 Total DF 74
Variables 13 Clases Within DF 72
Clases 3 Clases Between DF 2
Informacin del nivel de la clase
X1 Nombre de variable Frecuencia Peso Proporcin
Probabilidad anterior
1 _1 23 23.0000 0.306667 0.306667
2 _2 27 27.0000 0.360000 0.360000
3 _3 25 25.0000 0.333333 0.333333
Informacin de la matriz de covarianza ponderada
Rango de la matriz de covarianza
Registro natural de la Determinante de la
matriz de covarianza
13 -9.67291
Sistema SAS EST type data set
Procedimiento DISCRIM
Distancia cuadrada generalizada para X1
De X1 1 2 3
1 2.36399 12.66618 22.78375
2 12.98686 2.04330 10.49577
3 22.95052 10.34184 2.19722
Sistema SAS EST type data set
Procedimiento DISCRIM Anlisis discriminante cannico
Pgina 31
Correlacin cannica
Correlacin cannica ajustada
Error
estndar aproximado
Correlacin cannica cuadrada
Autovalores de Inv(E)*H = CanRsq/(1-CanRsq)
Test de H0: Las correlaciones cannicas de
la fila actual y de todas las
siguientes son cero
Autovalor
Diferencia
Proporcin
Acumulada
Ratio de
probabilid
ad
Valor F aproximado
Num
DF
Den
DF
Pr >
F
1 0.880041 0.857415
0.026217
0.774472
3.4340
2.4171
0.7715
0.7715
0.11181421 9.19 26
120
Pgina 32
Estructura cannica entre grupos
Variable Can1
X3 -0.315371
X4 0.309563
X5 0.924828
X6 0.011029
X7 0.934356
X8 0.227172
X9 -0.755396
X10 0.531800
X11 0.305511
X12 0.889031
X13 0.018344
X14 0.878637
Estructura cannica combinada dentro
Variable Can1
X2 0.395079
X3 -0.024913
X4 0.018124
X5 0.416414
X6 0.001051
X7 0.446977
X8 0.030212
X9 -0.244746
X10 0.063884
X11 0.018383
X12 0.329523
X13 0.008344
X14 0.455492
Sistema SAS
Pgina 33
EST type data set
Procedimiento DISCRIM Anlisis discriminante cannico
Coeficientes cannicos estandarizados de la muestra total
Variable Can1
X2 1.152519569
X3 -0.708650279
X4 0.238179297
X5 0.190328133
X6 -0.076000439
X7 -0.848424984
X8 0.748144787
X9 -0.734633804
X10 -0.157175033
X11 -0.126777415
X12 0.003982978
X13 -0.504119738
X14 2.092849592
Coeficientes cannicos estandarizados combinados dentro de la clase
Variable Can1
X2 0.868196474
X3 -0.710849271
X4 0.240055972
X5 0.148154165
X6 -0.075874728
X7 -0.643632786
X8 0.736429978
X9 -0.638518366
X10 -0.155535792
X11 -0.127734549
X12 0.003328400
Pgina 34
Coeficientes cannicos estandarizados combinados dentro de la clase
Variable Can1
X13 -0.390764142
X14 1.530067712
Coeficientes cannicos brutos
Variable Can1
X2 0.810994580
X3 -1.004236836
X4 0.161255410
X5 0.167885569
X6 -0.068056661
X7 -0.651958632
X8 0.683912222
X9 -0.464428111
X10 -0.206684856
X11 -0.085994881
X12 0.004627842
X13 -0.407759346
X14 2.959661620
Medias de clase en las variables cannicas
X1 Can1
1 -2.444556283
2 0.147032956
3 2.090196188
Sistema SAS EST type data set
Procedimiento DISCRIM
Funcin discriminante lineal para X1
Variable 1 2 3
Pgina 35
Funcin discriminante lineal para X1
Variable 1 2 3
Constante -214.09833 -242.56274 -252.04512
X2 11.45843 13.14861 15.16736
X3 -0.90434 -4.21811 -5.40427
X4 -2.81883 -1.81536 -2.13207
X5 -3.14776 -3.33635 -2.33906
X6 -0.12005 -0.58428 -0.40680
X7 68.70245 70.49507 65.48143
X8 3.13840 5.79398 6.17267
X9 1.15050 -0.30014 -0.93680
X10 16.84896 14.78671 16.02767
X11 -1.77003 -2.35087 -2.13279
X12 -3.74753 -3.19593 -3.76753
X13 76.39380 80.43546 74.15738
X14 -118.51913 -116.61879 -104.65945
Sistema SAS EST type data set
Procedimiento DISCRIM Resultados de clasificacin para los datos calibrados: WORK.DISCRIM_ESTIMA
Resultados de resustitucin usando Funcin discriminante lineal
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
1 2 2 0.0044 0.8118 0.1838
2 3 3 0.0000 0.0050 0.9950
3 3 3 0.0000 0.0017 0.9983
4 1 1 0.9998 0.0002 0.0000
5 2 3 * 0.2396 0.1841 0.5763
6 1 1 0.9999 0.0001 0.0000
7 1 1 0.9999 0.0001 0.0000
8 2 2 0.0531 0.9461 0.0008
9 2 2 0.0059 0.9934 0.0008
Pgina 36
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
10 1 2 * 0.0956 0.9032 0.0012
11 3 3 0.0237 0.0624 0.9139
12 1 1 0.9986 0.0014 0.0000
13 1 3 * 0.0072 0.0425 0.9504
14 3 3 0.0088 0.0169 0.9743
15 2 2 0.0031 0.9826 0.0143
16 3 3 0.0000 0.0060 0.9940
17 2 2 0.0047 0.9925 0.0028
18 2 2 0.0261 0.9669 0.0070
19 2 2 0.0091 0.9905 0.0004
20 3 3 0.0001 0.2863 0.7136
21 1 1 0.9998 0.0002 0.0000
22 3 3 0.0000 0.0030 0.9970
23 2 3 * 0.0001 0.0404 0.9595
24 3 3 0.0000 0.0023 0.9977
25 1 1 0.7662 0.2337 0.0001
26 2 2 0.0007 0.9989 0.0004
27 3 3 0.0001 0.0127 0.9872
28 1 1 0.9836 0.0162 0.0001
29 3 3 0.0000 0.0493 0.9507
30 1 1 0.8697 0.1301 0.0002
31 1 1 0.9815 0.0099 0.0086
32 1 1 0.9673 0.0152 0.0176
33 1 1 0.9942 0.0058 0.0000
34 2 2 0.0005 0.9933 0.0062
35 1 1 0.9315 0.0682 0.0003
36 1 1 0.9998 0.0002 0.0000
37 2 3 * 0.2995 0.0917 0.6087
38 3 3 0.0000 0.0088 0.9912
Pgina 37
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
39 2 2 0.0012 0.9772 0.0216
40 1 1 0.9998 0.0002 0.0000
41 2 2 0.0004 0.9960 0.0037
42 2 2 0.0174 0.6600 0.3226
43 3 3 0.0011 0.2105 0.7884
44 2 2 0.0007 0.9968 0.0025
45 3 3 0.0000 0.0237 0.9762
46 2 2 0.0473 0.9492 0.0035
47 3 3 0.0001 0.0046 0.9953
48 2 2 0.0000 0.9969 0.0030
49 3 3 0.0000 0.0015 0.9985
50 3 3 0.0000 0.1673 0.8327
51 1 1 0.9995 0.0005 0.0000
52 3 3 0.0000 0.0043 0.9957
53 3 3 0.0000 0.0023 0.9977
54 1 1 0.9902 0.0060 0.0038
55 2 2 0.0006 0.9951 0.0043
56 3 3 0.2474 0.1064 0.6461
57 2 2 0.0003 0.8769 0.1228
58 3 3 0.0042 0.0351 0.9607
59 3 3 0.0027 0.0110 0.9863
60 3 3 0.0000 0.0156 0.9844
61 3 3 0.0000 0.0271 0.9729
62 2 2 0.0009 0.8312 0.1678
63 1 1 0.9820 0.0109 0.0071
64 1 1 0.9962 0.0032 0.0006
65 1 1 0.9999 0.0001 0.0000
66 2 2 0.0000 0.9975 0.0024
67 2 2 0.0068 0.9878 0.0054
Pgina 38
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
68 2 2 0.0038 0.9956 0.0006
69 1 1 0.5864 0.4133 0.0002
70 2 2 0.0208 0.9787 0.0005
71 3 3 0.0001 0.3360 0.6640
72 1 1 0.9970 0.0029 0.0001
73 2 2 0.1309 0.8633 0.0058
74 3 3 0.0000 0.0044 0.9956
75 2 2 0.0019 0.7850 0.2130
* Observacin mal clasificada
Sistema SAS EST type data set
Procedimiento DISCRIM Resumen de clasificacin para los datos calibrados: WORK.DISCRIM_ESTIMA
Resumen de resustitucin usando Funcin discriminante lineal
Nmero de observaciones y porcentaje clasificado en X1
De X1 1 2 3 Total
1 21 91.30 1
4.35 1
4.35 23
100.00
2 0 0.00 24
88.89 3
11.11 27
100.00
3 0 0.00 0
0.00 25
100.00 25
100.00
Total 21 28.00 25
33.33 29
38.67 75
100.00
Anteriores 0.30667
0.36
0.33333
Estimaciones de cuenta de error para X1
1 2 3 Total
Tasa 0.0870 0.1111 0.0000 0.0667
Anteriores 0.3067 0.3600 0.3333
Sistema SAS EST type data set
Procedimiento DISCRIM Resumen de clasificacin para los datos calibrados: WORK.DISCRIM_ESTIMA
Pgina 39
Resumen de validacin cruzada usando Funcin discriminante lineal
Nmero de observaciones y porcentaje clasificado en X1
De X1 1 2 3 Total
1 20 86.96 2
8.70 1
4.35 23
100.00
2 0 0.00 22
81.48 5
18.52 27
100.00
3 1 4.00 2
8.00 22
88.00 25
100.00
Total 21 28.00 26
34.67 28
37.33 75
100.00
Anteriores 0.30667
0.36
0.33333
Estimaciones de cuenta de error para X1
1 2 3 Total
Tasa 0.1304 0.1852 0.1200 0.1467
Anteriores 0.3067 0.3600 0.3333
Pgina 40
SEGUNDO PASO PROC DISCRIM:
Sistema SAS
EST type data set
Procedimiento DISCRIM Resultados de clasificacin para los datos de test: WORK.DISCRIM_VALIDA
Resultados de clasificacin usando Funcin discriminante lineal
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
1 3 3 0.0000 0.0007 0.9993
2 1 2 * 0.3258 0.6025 0.0717
3 2 3 * 0.0112 0.1733 0.8155
4 3 3 0.0000 0.0002 0.9998
5 1 1 0.9995 0.0005 0.0000
6 3 3 0.0000 0.0094 0.9906
7 3 3 0.0036 0.1218 0.8747
8 2 1 * 0.9511 0.0199 0.0290
9 1 1 1.0000 0.0000 0.0000
10 2 3 * 0.0001 0.0593 0.9406
11 1 2 * 0.2767 0.7225 0.0008
12 1 1 1.0000 0.0000 0.0000
13 2 3 * 0.0002 0.0221 0.9777
14 2 3 * 0.2216 0.3205 0.4579
15 2 2 0.0000 0.9945 0.0055
16 3 1 * 0.8575 0.0284 0.1141
17 1 1 1.0000 0.0000 0.0000
18 3 3 0.0843 0.0079 0.9078
19 3 3 0.0000 0.0001 0.9999
20 3 1 * 0.6171 0.1572 0.2257
21 1 1 0.3951 0.3693 0.2357
22 1 2 * 0.1519 0.8415 0.0067
23 1 1 0.9993 0.0007 0.0000
24 2 2 0.1399 0.7557 0.1043
Pgina 41
Probabilidad posterior de pertenencia a X1
Obs De X1 Clasificado en X1 1 2 3
25 2 1 * 0.9465 0.0518 0.0017
* Observacin mal clasificada
Sistema SAS EST type data set
Procedimiento DISCRIM Resumen de clasificacin para los datos de test: WORK.DISCRIM_VALIDA
Resumen de clasificacin usando Funcin discriminante lineal
Nmero de observaciones y porcentaje clasificado en X1
De X1 1 2 3 Total
1 6 66.67 3
33.33 0
0.00 9
100.00
2 2 25.00 2
25.00 4
50.00 8
100.00
3 2 25.00 0
0.00 6
75.00 8
100.00
Total 10 40.00 5
20.00 10
40.00 25
100.00
Anteriores 0.30667
0.36
0.33333
Estimaciones de cuenta de error para X1
1 2 3 Total
Tasa 0.3333 0.7500 0.2500 0.4556
Anteriores 0.3067 0.3600 0.3333
Pgina 42
PASO PROC PRINT:
Sistema SAS
EST type data set
Obs
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
_1 _2 _3 _INTO_
1 3 9.
9
3.
0
6.
8
5.
0
5.
4
5.
9
4.
8
4.
9
7.
3
7.
6
3.
1
4.
3
3.
8
0.00001
0.00071
0.99928 3
2 1 7.
6
3.
6
7.
6
4.
6
4.
7
4.
6
5.
0
7.
4
8.
1
6.
6
4.
5
5.
8
3.
9
0.32576
0.60253
0.07171 2
3 2 9.
4
3.
8
7.
0
6.
2
4.
7
6.
5
4.
9
8.
5
7.
3
2.
4
4.
3
4.
5
4.
1
0.01119
0.17332
0.81549 3
4 3 9.
3
3.
5
6.
3
7.
6
5.
5
7.
5
5.
9
4.
6
6.
6
3.
1
5.
2
4.
1
4.
6
0.00000
0.00019
0.99981 3
5 1 7.
1
3.
4
4.
9
4.
1
4.
0
5.
0
5.
9
7.
8
6.
1
3.
5
2.
6
3.
1
2.
7
0.99951
0.00048
0.00001 1
6 3 9.
9
3.
0
7.
4
4.
8
4.
0
5.
9
4.
8
4.
9
5.
9
6.
9
3.
2
4.
3
3.
8
0.00000
0.00935
0.99065 3
7 3 8.
7
3.
2
6.
4
4.
9
2.
4
6.
8
4.
6
6.
8
6.
3
5.
1
4.
3
3.
7
4.
0
0.00355
0.12179
0.87466 3
8 2 8.
6
2.
9
5.
8
3.
9
2.
9
5.
6
4.
0
6.
3
6.
1
4.
0
2.
7
3.
0
3.
0
0.95108
0.01991
0.02901 1
9 1 6.
4
3.
2
6.
7
3.
6
2.
2
2.
9
5.
0
8.
4
7.
3
6.
5
2.
0
3.
7
1.
6
1.00000
0.00000
0.00000 1
10 2
7.
7
2.
6
6.
7
6.
6
1.
9
7.
2
4.
3
5.
9
6.
5
4.
1
4.
7
3.
9
4.
3
0.00005
0.05931
0.94063 3
11 1
7.
5
3.
5
4.
1
4.
5
3.
5
4.
1
4.
5
7.
6
4.
9
2.
8
3.
4
5.
4
3.
4
0.27673
0.72251
0.00075 2
12 1
5.
0
3.
6
1.
3
3.
0
3.
5
4.
2
4.
9
8.
2
4.
3
7.
6
2.
4
4.
8
3.
1
0.99998
0.00002
0.00000 1
13 2
7.
7
2.
6
8.
0
6.
7
3.
5
7.
2
4.
3
5.
9
6.
9
7.
7
5.
1
3.
9
4.
3
0.00017
0.02212
0.97771 3
14 2
9.
1
3.
6
5.
5
5.
4
4.
2
6.
2
4.
6
8.
3
6.
5
4.
1
4.
6
4.
3
3.
9
0.22161
0.32050
0.45789 3
Pgina 43
Obs
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
_1 _2 _3 _INTO_
15 2
5.
5
5.
5
7.
7
7.
0
5.
6
5.
7
8.
2
6.
3
7.
4
4.
9
5.
5
6.
7
4.
9
0.00003
0.99451
0.00546 2
16 3
9.
1
3.
7
7.
0
4.
1
4.
4
6.
3
5.
4
7.
3
7.
5
4.
6
4.
4
3.
0
3.
3
0.85754
0.02839
0.11406 1
17 1
7.
1
4.
2
4.
1
2.
6
2.
1
3.
3
4.
5
9.
9
5.
5
3.
5
2.
0
4.
0
2.
4
1.00000
0.00000
0.00000 1
18 3
9.
2
3.
9
4.
6
5.
3
4.
2
8.
4
4.
8
7.
1
6.
2
6.
6
4.
4
2.
6
4.
2
0.08433
0.00789
0.90778 3
19 3
9.
3
3.
5
5.
4
7.
8
4.
6
7.
5
5.
9
4.
6
6.
4
4.
9
4.
8
4.
1
4.
6
0.00000
0.00009
0.99991 3
20 3
9.
3
3.
8
4.
0
4.
6
4.
7
6.
4
5.
5
7.
4
5.
3
4.
8
3.
6
3.
2
3.
4
0.61712
0.15719
0.22568 1
21 1
8.
6
4.
8
5.
6
5.
3
2.
3
6.
0
5.
7
6.
7
5.
8
3.
6
4.
9
3.
6
3.
6
0.39507
0.36925
0.23568 1
22 1
7.
4
3.
4
2.
6
5.
0
4.
1
4.
4
4.
8
7.
2
4.
5
6.
4
4.
2
5.
6
3.
7
0.15185
0.84150
0.00665 2
23 1
8.
7
3.
2
3.
3
3.
2
3.
1
6.
1
2.
9
5.
6
5.
0
4.
3
3.
1
2.
9
2.
5
0.99926
0.00074
0.00000 1
24 2
7.
8
4.
9
5.
8
5.
3
5.
2
5.
3
7.
1
7.
9
6.
0
5.
7
4.
3
4.
9
3.
9
0.13992
0.75574
0.10433 2
25 2
7.
9
3.
0
4.
4
5.
1
5.
9
4.
2
4.
8
9.
7
5.
7
5.
8
3.
4
5.
4
3.
5
0.94655
0.05175
0.00170 1
COMENTARIOS:
La probabilidad de superar el estadstico F est por debajo de 0.0001.
Pgina 44
SEGUNDA PRCTICA Fichero de datos: cluster.dat
- 97 observaciones (pases);
- 3 variables relativas al ndice de desarrollo.
1. Utilizar el procedimiento ACECLUS para transformar las 3 variables originales en
solamente 2 variables que tengan matriz de varianzas-covarianzas esfrica
dentro de cada cluster.
CDIGO FUENTE:
(Se emplean veinte caracteres para los pases)
dm 'log; clear; output; clear'; /** Limpiar las ventanas registro y salida de SAS **/
data poverty; /** Se conserva el nombre reflejado en el manual para los datos **/
input Birth Death InfantDeath Country $20. @@; /** Se ampla el n de caracteres **/
datalines;
24.7 5.7 30.8 Albania
12.5 11.9 14.4 Bulgaria
13.4 11.7 11.3 Czechoslovakia
12 12.4 7.6 Former_E._Germany
11.6 13.4 14.8 Hungary
14.3 10.2 16 Poland
13.6 10.7 26.9 Romania
14 9 20.2 Yugoslavia
17.7 10 23 USSR
15.2 9.5 13.1 Byelorussia_SSR
13.4 11.6 13 Ukrainian_SSR
20.7 8.4 25.7 Argentina
46.6 18 111 Bolivia
28.6 7.9 63 Brazil
23.4 5.8 17.1 Chile
27.4 6.1 40 Columbia
32.9 7.4 63 Ecuador
28.3 7.3 56 Guyana
34.8 6.6 42 Paraguay
32.9 8.3 109.9 Peru
18 9.6 21.9 Uruguay
27.5 4.4 23.3 Venezuela
29 23.2 43 Mexico
12 10.6 7.9 Belgium
13.2 10.1 5.8 Finland
12.4 11.9 7.5 Denmark
13.6 9.4 7.4 France
11.4 11.2 7.4 Germany
10.1 9.2 11 Greece
15.1 9.1 7.5 Ireland
9.7 9.1 8.8 Italy
13.2 8.6 7.1 Netherlands
14.3 10.7 7.8 Norway
11.9 9.5 13.1 Portugal
Pgina 45
10.7 8.2 8.1 Spain
14.5 11.1 5.6 Sweden
12.5 9.5 7.1 Switzerland
13.6 11.5 8.4 U.K.
14.9 7.4 8 Austria
9.9 6.7 4.5 Japan
14.5 7.3 7.2 Canada
16.7 8.1 9.1 U.S.A.
40.4 18.7 181.6 Afghanistan
28.4 3.8 16 Bahrain
42.5 11.5 108.1 Iran
42.6 7.8 69 Iraq
22.3 6.3 9.7 Israel
38.9 6.4 44 Jordan
26.8 2.2 15.6 Kuwait
31.7 8.7 48 Lebanon
45.6 7.8 40 Oman
42.1 7.6 71 Saudi_Arabia
29.2 8.4 76 Turkey
22.8 3.8 26 United_Arab_Emirates
42.2 15.5 119 Bangladesh
41.4 16.6 130 Cambodia
21.2 6.7 32 China
11.7 4.9 6.1 Hong_Kong
30.5 10.2 91 India
28.6 9.4 75 Indonesia
23.5 18.1 25 Korea
31.6 5.6 24 Malaysia
36.1 8.8 68 Mongolia
39.6 14.8 128 Nepal
30.3 8.1 107.7 Pakistan
33.2 7.7 45 Philippines
17.8 5.2 7.5 Singapore
21.3 6.2 19.4 Sri_Lanka
22.3 7.7 28 Thailand
31.8 9.5 64 Vietnam
35.5 8.3 74 Algeria
47.2 20.2 137 Angola
48.5 11.6 67 Botswana
46.1 14.6 73 Congo
38.8 9.5 49.4 Egypt
48.6 20.7 137 Ethiopia
39.4 16.8 103 Gabon
47.4 21.4 143 Gambia
44.4 13.1 90 Ghana
47 11.3 72 Kenya
44 9.4 82 Libya
48.3 25 130 Malawi
35.5 9.8 82 Morocco
45 18.5 141 Mozambique
44 12.1 135 Namibia
48.5 15.6 105 Nigeria
48.2 23.4 154 Sierra_Leone
50.1 20.2 132 Somalia
32.1 9.9 72 South_Africa
44.6 15.8 108 Sudan
46.8 12.5 118 Swaziland
31.1 7.3 52 Tunisia
52.2 15.6 103 Uganda
50.5 14 106 Tanzania
45.6 14.2 83 Zaire
51.1 13.7 80 Zambia
41.7 10.3 66 Zimbabwe
;
proc aceclus data=poverty out=ace proportion=.03;
var Birth Death InfantDeath;
run;
Pgina 46
RESULTADO:
Sistema SAS
Procedimiento ACECLUS
Estimacin de covarianza aproximada para el anlisis de grupo
Observaciones 97 Proporcin 0.0300
Variables 3 Converge 0.00100
Medias y desviaciones estndar
Variable Media
Desviacin
tpica
Birth 29.2299 13.5467
Death 10.8361 4.6475
InfantDeath 54.9010 45.9926
COV: covarianzas muestrales totales
Birth Death InfantDeath
Birth 183.512951 30.610056 534.794969
Death 30.610056 21.599205 139.925900
InfantDeath 534.794969 139.925900 2115.317811
Estimador de covarianza inicial Within-Cluster = Matriz de covarianza completa
Umbral = 0.292815
Historia de la iteracin
Iteracin
Distancia
RMS
Interrupcin
de la distancia
Interrupcin
dentro de
los pares
Medida de la
convergencia
1 2.449 0.717 385.0 0.552025
Pgina 47
Historia de la iteracin
Iteracin
Distancia
RMS
Interrupcin
de la distancia
Interrupcin
dentro de
los pares
Medida de la
convergencia
2 12.534 3.670 446.0 0.008406
3 12.851 3.763 521.0 0.009655
4 12.882 3.772 591.0 0.011193
5 12.716 3.723 628.0 0.008784
6 12.821 3.754 658.0 0.005553
7 12.774 3.740 680.0 0.003010
8 12.631 3.699 683.0 0.000676
Algoritmo convergente.
ACE: Approximate Covariance Estimate Within Clusters
Birth Death InfantDeath
Birth 5.94644949 -0.63235725 6.28151537
Death -0.63235725 2.33464129 1.59005857
InfantDeath 6.28151537 1.59005857 35.10327233
Autovalores de (ACE)*(COV-ACE)
Autovalor Diferencia Proporcin Acumulada
1 63.5500 54.7313 0.8277 0.8277
2 8.8187 4.4038 0.1149 0.9425
3 4.4149 0.0575 1.0000
Autovector (Coeficientes cannicos planos)
Can1 Can2 Can3
Pgina 48
Autovector (Coeficientes cannicos planos)
Can1 Can2 Can3
Birth 0.125610 0.457037 0.003875
Death 0.108402 0.163792 0.663538
InfantDeath 0.134704 -.133620 -.046266
Coeficientes cannicos estandarizados
Can1 Can2 Can3
Birth 1.70160 6.19134 0.05249
Death 0.50380 0.76122 3.08379
InfantDeath 6.19540 -6.14553 -2.12790
Pgina 49
Conjunto de datos de salida ACE:
Birth Death InfantDeath Country Can1 Can2 Can3
24,7 5,7 30,8 Albania -4,372277699 0,308803631 -2,310473543
12,5 11,9 14,4 Bulgaria -7,441774025 -2,060173558 2,514955008
13,4 11,7 11,3 Czechoslovakia -7,767989513 -1,267376049 2,529159852
12 12,4 7,6 Former_E._Germany -8,366367826 -1,298179749 3,159396637
11,6 13,4 14,8 Hungary -7,338337493 -2,279267799 3,488267943
14,3 10,2 16 Poland -7,184433455 -1,729744301 1,319889347
13,6 10,7 26,9 Romania -5,74988079 -3,424233653 1,144644478
14 9 20,2 Yugoslavia -6,786440527 -2,62460973 0,328163658
17,7 10 23 USSR -5,836110023 -1,143916668 0,876492345
15,2 9,5 13,1 Byelorussia_SSR -7,537909212 -1,045566583 0,993072082
13,4 11,6 13 Ukrainian_SSR -7,549832214 -1,510909368 2,384153554
20,7 8,4 25,7 Argentina -5,269022742 -0,395645675 -0,298462748
46,6 18 111 Bolivia 10,51521781 1,616223416 2,2253475
28,6 7,9 63 Brazil 0,693567737 -1,850976853 -2,325350621
23,4 5,8 17,1 Chile -6,370180726 1,561629698 -1,615310034
27,4 6,1 40 Columbia -2,750489907 0,379015908 -2,460245787
32,9 7,4 63 Ecuador 1,179488176 0,032387512 -2,640458413
28,3 7,3 56 Guyana -0,352087557 -1,151022273 -2,400772336
34,8 6,6 42 Paraguay -1,497368311 3,575747067 -2,192336742
32,9 8,3 109,9 Peru 7,594687996 -6,086982639 -4,213158761
18 9,6 21,9 Uruguay -5,989962918 -0,925340006 0,663132458
27,5 4,4 23,3 Venezuela -5,17177684 2,377729626 -2,815227107
29 23,2 43 Mexico -0,291721622 3,510250578 8,753650503
12 10,6 7,9 Belgium -8,521080657 -1,633090554 1,951148844
13,2 10,1 5,8 Finland -8,707429507 -0,885939433 1,721188576
12,4 11,9 7,5 Denmark -8,383795555 -1,183898614 2,833804253
13,6 9,4 7,4 France -8,517540168 -1,031570771 1,18423612
11,4 11,2 7,4 Germany -8,598757289 -1,742227925 2,370079783
10,1 9,2 11 Greece -8,49391854 -3,144991771 0,871408944
15,1 9,1 7,5 Ireland -8,348175909 -0,408514382 0,986360183
9,7 9,1 8,8 Italy -8,851352386 -3,050221609 0,90529092
13,2 8,6 7,1 Netherlands -8,694917215 -1,305332872 0,665735916
14,3 10,7 7,8 Norway -8,234808621 -0,552163736 2,031040977
11,9 9,5 13,1 Portugal -7,952421134 -2,553789478 0,980285672
10,7 8,2 8,1 Spain -8,917597893 -2,647062688 0,344367955
14,5 11,1 5,6 Sweden -8,462675507 -0,101275458 2,399016626
12,5 9,5 7,1 Switzerland -8,685281906 -1,477846553 1,260207615
13,6 11,5 8,4 U.K. -8,155190886 -0,821228629 2,531399188
14,9 7,4 8 Austria -8,490229558 -0,845177501 -0,165562008
9,9 6,7 4,5 Japan -9,665625044 -2,777347446 -0,487480109
14,5 7,3 7,2 Canada -8,659077202 -0,937475474 -0,196452698
16,7 8,1 9,1 U.S.A. -8,040075656 -0,054838494 0,254996008
40,4 18,7 181,6 Afghanistan 19,32245217 -10,53633223 -0,600592053
28,4 3,8 16 Bahrain -6,107111855 3,666214923 -2,872119362
42,5 11,5 108,1 Iran 8,90496028 -0,934776017 -1,969362017
42,6 7,8 69 Iraq 3,249489506 3,729444784 -2,615056163
22,3 6,3 9,7 Israel -7,450962989 2,12957322 -0,945433493
Pgina 50
38,9 6,4 44 Jordan -0,734640255 5,149601253 -2,401690526
26,8 2,2 15,6 Kuwait -6,535412802 2,726336909 -3,921472745
31,7 8,7 48 Lebanon -0,850886868 1,701173279 -1,0885161
45,6 7,8 40 Oman -0,280109927 8,975539313 -1,261712641
42,1 7,6 71 Saudi_Arabia 3,434413067 3,200927662 -2,842233426
29,2 8,4 76 Turkey 2,574292279 -3,231919995 -2,592717419
22,8 3,8 26 United_Arab_Emirates -5,46348173 -0,229394593 -3,356479412
42,2 15,5 119 Bangladesh 10,7691649 -1,873180074 0,179325078
41,4 16,6 130 Cambodia 12,26966843 -3,528460235 0,397188768
21,2 6,7 32 China -4,541863929 -1,287379286 -1,716016572
11,7 4,9 6,1 Hong_Kong -9,419124705 -2,463297344 -1,748899544
30,5 10,2 91 India 4,953275455 -4,347248257 -2,087305265
28,6 9,4 75 Indonesia 2,472624357 -3,2087307 -1,885238289
23,5 18,1 25 Korea -3,96010634 2,566370629 6,181088758
31,6 5,6 24 Malaysia -4,432401306 4,354598096 -2,035482005
36,1 8,8 68 Mongolia 2,406724513 1,056114358 -1,930437582
39,6 14,8 128 Nepal 11,579038 -4,378711851 -0,711621193
30,3 8,1 107,7 Pakistan 6,950072639 -7,01407356 -4,254154832
33,2 7,7 45 Philippines -1,174987958 2,623797888 -1,607443267
17,8 5,2 7,5 Singapore -8,431798805 0,186699152 -1,590975404
21,3 6,2 19,4 Sri_Lanka -6,280779928 0,360041886 -1,464443981
22,3 7,7 28 Thailand -4,834108695 -0,086366392 -0,863151933
31,8 9,5 64 Vietnam 1,403666818 -0,260011311 -1,297557481
35,5 8,3 74 Algeria 3,08538413 -0,101724338 -2,542128396
47,2 20,2 137 Angola 14,33138386 -1,223335363 2,484534392
48,5 11,6 67 Botswana 4,133106501 7,31561256 0,021780188
46,1 14,6 73 Congo 4,965076795 5,908377228 1,725497067
38,8 9,5 49,4 Egypt 0,316249861 4,890102788 -0,594948419
48,6 20,7 137 Ethiopia 14,56143856 -0,501587454 2,8217278
39,4 16,8 103 Gabon 8,403109952 -0,802033795 1,77133411
47,4 21,4 143 Gambia 15,29481514 -1,737098644 3,003957475
44,4 13,1 90 Ghana 6,878912184 2,61418496 -0,062921717
47 11,3 72 Kenya 4,585693445 5,912818752 -0,41442409
44 9,4 82 Libya 5,349944329 2,894302131 -2,149431709
48,3 25 130 Malawi 14,04695459 1,000945683 5,997641021
35,5 9,8 82 Morocco 4,325623032 -0,924997799 -1,916951303
45 18,5 141 Mozambique 14,40957637 -3,041743302 1,162931197
44 12,1 135 Namibia 12,78196533 -3,745325833 -2,809987881
48,5 15,6 105 Nigeria 9,685484063 2,893215052 0,917815932
48,2 23,4 154 Sierra_Leone 17,09385623 -2,513706831 3,825204604
50,1 20,2 132 Somalia 14,02212977 0,77017312 2,727101884
32,1 9,9 72 South_Africa 2,56234608 -1,126344296 -1,401109504
44,6 15,8 108 Sudan 9,621400088 0,742667831 0,896613699
46,8 12,5 118 Swaziland 10,88705804 -0,128563297 -1,747198478
31,1 7,3 52 Tunisia -0,53919819 0,663162388 -2,204858501
52,2 15,6 103 Uganda 9,880830995 4,851493037 1,024684589
50,5 14 106 Tanzania 9,897964141 3,411602969 -0,182361307
45,6 14,2 83 Zaire 6,205955328 4,278141023 0,995482734
51,1 13,7 80 Zambia 6,438494087 7,110810367 0,823823115
41,7 10,3 66 Zimbabwe 3,00333329 4,128450414 -0,820900439
Pgina 51
2. Con las 2 variables cannicas del procedimiento anterior, pasar un
procedimiento de anlisis cluster jerrquico, utilizando distancias eucldeas y el
enlace de centroides entre grupos.
CDIGO FUENTE:
Se aade lo siguiente al paso DATA del apartado anterior, interpretado como
coordenadas en el espacio eucldeo:
proc aceclus data=poverty out=ace noprint proportion=.03;
var Birth Death InfantDeath;
run;
proc cluster data=Ace method=centroid ccc pseudo print=15 outtree=Tree;
var can1 can2 ;
id country;
format country $12.; /** Pueden ser 20 caracteres **/
run;
RESULTADO:
(Muestra solamente las quince ltimas generaciones)
Sistema SAS
Procedimiento CLUSTER Anlisis del conglomerado jerrquico de centroide
Autovalores de la matriz de covarianza
Autovalor Diferencia Proporcin Acumulada
1 64.5500051 54.7313223 0.8680 0.8680
2 9.8186828 0.1320 1.0000
Desviacin estndar de la muestra total cuadrtica media = 6.097897 Distancia cuadrtica media entre observaciones = 12.19579
Historia de conglomerado
Pgina 52
NCL
Conglomerados unidos
Frecuencia SPRSQ RSQ
ERSQ CCC
PSF
PST2
Dist Cent Norm
T
i
e
15 CL18 CL26 16 0.005
2 .969
.968
0.42
184
17.3 0.258
14 CL22 Sierra_Leone
7 0.0012 .968
.965
1.00
193 3.3
0.2592
13 CL32 Romania 30 0.001
4 .967
.961
1.60
202 7.8
0.2613
12 CL21 CL20 11 0.003
5 .963
.957
1.68
202 8.6
0.2763
11 CL15 CL13 46 0.021
7 .941
.951
-
2.0 138
60.8
0.3159
10 CL51 CL14 10 0.004
4 .937
.945
-
1.5 144
11.1 0.317
9 CL23 CL33 9 0.004
4 .933
.938
-
.83 152
14.2
0.3238
8 CL9 CL10 19 0.0176 .915
.928
-
1.8 137
21.2 0.422
7 CL12 CL19 18 0.017
6 .897
.916
-
2.2 131
29.4
0.4449
6 CL7 CL16 28 0.0290 .868
.899
-
3.0 120
22.6
0.4655
5 CL6 Oman 29 0.0077 .861
.876
-
1.4 142 3.3
0.6196
4 CL8 CL54 21 0.0151 .846
.842
0.30
170 9.1
0.6334
3 CL4 CL5 50 0.1633 .682
.784
-
5.1 101
67.0
0.8022
2 CL11 CL3 96 0.613
7 .069
.657 -11
7.0 182
1.1089
1 CL2 Afghanistan 97 0.0686 .000
.000
0.00 . 7.0
1.8234
Pgina 53
3. Obtener el dendrograma correspondiente utilizando el procedimiento TREE.
Cul podra ser el nmero adecuado de clusters para agrupar los 97 pases?
CDIGO FUENTE:
Se aade lo siguiente al paso DATA del primer apartado. Se visualiza el
dendrograma en orden de formacin de conglomerados:
proc aceclus data=poverty out=ace noprint proportion=.03;
var Birth Death InfantDeath;
run;
proc cluster data=Ace method=centroid ccc pseudo noprint outtree=tree;
var can1 can2 ;
id country;
format country $12.; /** Pueden ser 20 caracteres **/
run;
goptions vsize=6.31in hsize=6.4in htext=2pct htitle=3pct;
axis1 order=(0 to 1 by 0.2);
proc tree sort height=n out=New
haxis=axis1 ;
height _rsq_;
id country;
run;
Pgina 54
RESULTADO:
Por encima de R2 = 0,25 tenemos tres conglomerados. Uno de ellos contiene
solamente un pas: Afganistn.
Por encima del nivel 0.75 tendramos cinco conglomerados.
Pgina 55
4. En el caso de optar por agrupar los pases en 3 clusters, qu pases
compondran cada uno de esos clusters?
CDIGO FUENTE:
Se aade lo siguiente al paso DATA del primer apartado:
proc aceclus data=poverty out=ace noprint proportion=.03;
var Birth Death InfantDeath;
run;
proc cluster data=Ace method=centroid ccc pseudo noprint outtree=tree;
var can1 can2;
id country;
format country $12.;
run;
proc tree noprint out=part nclusters=3;
id country;
copy can1 can2;
proc sort;
by cluster;
proc print label uniform;
id country;
var can1 can2;
format country $20.;
by cluster;
run;
Pgina 56
RESULTADO:
Sistema SAS
CLUSTER=1
Country Can1 Can2
Finland -8.7074 -0.8859
Canada -8.6591 -0.9375
Former_E._Germany -8.3664 -1.2982
Denmark -8.3838 -1.1839
Belgium -8.5211 -1.6331
Germany -8.5988 -1.7422
Netherlands -8.6949 -1.3053
Switzerland -8.6853 -1.4778
Ireland -8.3482 -0.4085
Norway -8.2348 -0.5522
France -8.5175 -1.0316
Austria -8.4902 -0.8452
Bulgaria -7.4418 -2.0602
Hungary -7.3383 -2.2793
Argentina -5.2690 -0.3956
United_Arab_Emirates -5.4635 -0.2294
USSR -5.8361 -1.1439
Uruguay -5.9900 -0.9253
Sweden -8.4627 -0.1013
Singapore -8.4318 0.1867
Czechoslovakia -7.7680 -1.2674
Byelorussia_SSR -7.5379 -1.0456
U.K. -8.1552 -0.8212
Ukrainian_SSR -7.5498 -1.5109
Greece -8.4939 -3.1450
Italy -8.8514 -3.0502
Japan -9.6656 -2.7773
Pgina 57
Country Can1 Can2
Hong_Kong -9.4191 -2.4633
U.S.A. -8.0401 -0.0548
Poland -7.1844 -1.7297
Spain -8.9176 -2.6471
Thailand -4.8341 -0.0864
Yugoslavia -6.7864 -2.6246
Portugal -7.9524 -2.5538
Albania -4.3723 0.3088
Bahrain -6.1071 3.6662
Kuwait -6.5354 2.7263
Chile -6.3702 1.5616
Sri_Lanka -6.2808 0.3600
Venezuela -5.1718 2.3777
Korea -3.9601 2.5664
China -4.5419 -1.2874
Israel -7.4510 2.1296
Malaysia -4.4324 4.3546
Columbia -2.7505 0.3790
Romania -5.7499 -3.4242
CLUSTER=2
Country Can1 Can2
Turkey 2.5743 -3.2319
Indonesia 2.4726 -3.2087
Malawi 14.0470 1.0009
Somalia 14.0221 0.7702
Ecuador 1.1795 0.0324
Vietnam 1.4037 -0.2600
Congo 4.9651 5.9084
Kenya 4.5857 5.9128
Iraq 3.2495 3.7294
Pgina 58
Country Can1 Can2
Zimbabwe 3.0033 4.1285
Iran 8.9050 -0.9348
Gabon 8.4031 -0.8020
Cambodia 12.2697 -3.5285
Namibia 12.7820 -3.7453
Nigeria 9.6855 2.8932
Tanzania 9.8980 3.4116
Angola 14.3314 -1.2233
Ethiopia 14.5614 -0.5016
Saudi_Arabia 3.4344 3.2009
Lebanon -0.8509 1.7012
Philippines -1.1750 2.6238
Jordan -0.7346 5.1496
Egypt 0.3162 4.8901
Peru 7.5947 -6.0870
Pakistan 6.9501 -7.0141
Algeria 3.0854 -0.1017
South_Africa 2.5623 -1.1263
Nepal 11.5790 -4.3787
Paraguay -1.4974 3.5757
Mexico -0.2917 3.5103
Gambia 15.2948 -1.7371
Bolivia 10.5152 1.6162
Sudan 9.6214 0.7427
Brazil 0.6936 -1.8510
Guyana -0.3521 -1.1510
Morocco 4.3256 -0.9250
Swaziland 10.8871 -0.1286
Botswana 4.1331 7.3156
Ghana 6.8789 2.6142
Pgina 59
Country Can1 Can2
Libya 5.3499 2.8943
Zaire 6.2060 4.2781
Mongolia 2.4067 1.0561
Uganda 9.8808 4.8515
Mozambique 14.4096 -3.0417
Zambia 6.4385 7.1108
Tunisia -0.5392 0.6632
Bangladesh 10.7692 -1.8732
India 4.9533 -4.3472
Sierra_Leone 17.0939 -2.5137
Oman -0.2801 8.9755
CLUSTER=3
Country Can1 Can2
Afghanistan 19.3225 -10.5363
Pgina 60
5. Analice y compare los resultados obtenidos con los procedimientos CLUSTER
(distancias eucldeas y mtodo de enlace entre grupos) y FASTCLUS, cuando se
quiere obtener 3 clusters.
CDIGO FUENTE:
PROC CLUSTER (Average linkage)
Se aade lo siguiente al paso DATA del primer apartado:
proc aceclus data=poverty out=ace noprint proportion=.03;
var Birth Death InfantDeath;
run;
proc cluster data=Ace method=average ccc pseudo print=15 outtree=tree;
var can1 can2;
id country;
format country $12.;
run;
proc tree noprint out=part nclusters=3;
id country;
copy can1 can2;
proc sort;
by cluster;
proc print label uniform;
id country;
var can1 can2;
format country $20.;
by cluster;
run;
Pgina 61
RESULTADOS:
PROC CLUSTER (Average linkage)
Sistema SAS
CLUSTER=1
Country Can1 Can2
Finland -8.7074 -0.8859
Canada -8.6591 -0.9375
Turkey 2.5743 -3.2319
Indonesia 2.4726 -3.2087
Former_E._Germany -8.3664 -1.2982
Denmark -8.3838 -1.1839
Belgium -8.5211 -1.6331
Germany -8.5988 -1.7422
Netherlands -8.6949 -1.3053
Switzerland -8.6853 -1.4778
Ireland -8.3482 -0.4085
Norway -8.2348 -0.5522
France -8.5175 -1.0316
Austria -8.4902 -0.8452
Bulgaria -7.4418 -2.0602
Hungary -7.3383 -2.2793
Argentina -5.2690 -0.3956
United_Arab_Emirates -5.4635 -0.2294
USSR -5.8361 -1.1439
Uruguay -5.9900 -0.9253
Sweden -8.4627 -0.1013
Singapore -8.4318 0.1867
Czechoslovakia -7.7680 -1.2674
Byelorussia_SSR -7.5379 -1.0456
Ecuador 1.1795 0.0324
Pgina 62
Country Can1 Can2
Vietnam 1.4037 -0.2600
Greece -8.4939 -3.1450
Italy -8.8514 -3.0502
U.K. -8.1552 -0.8212
Congo 4.9651 5.9084
Kenya 4.5857 5.9128
Japan -9.6656 -2.7773
Hong_Kong -9.4191 -2.4633
Ukrainian_SSR -7.5498 -1.5109
U.S.A. -8.0401 -0.0548
Iraq 3.2495 3.7294
Zimbabwe 3.0033 4.1285
Poland -7.1844 -1.7297
Spain -8.9176 -2.6471
Thailand -4.8341 -0.0864
Saudi_Arabia 3.4344 3.2009
Yugoslavia -6.7864 -2.6246
Portugal -7.9524 -2.5538
Lebanon -0.8509 1.7012
Philippines -1.1750 2.6238
Albania -4.3723 0.3088
Bahrain -6.1071 3.6662
Kuwait -6.5354 2.7263
Jordan -0.7346 5.1496
Egypt 0.3162 4.8901
Algeria 3.0854 -0.1017