-
COTEIDO Captulo 1. Instalacin y primeros pasos en SPSS 15
.............................. 1
Instalacin de SPSS 15
................................................................................
1 Comenzando con SPSS 15
..........................................................................
7 El entorno de trabajo de SPSS 15
................................................................ 8
Opciones de la barra de men principal
.................................................. 10 Estructura
bsica de los archivos de datos: casos y variables
..................... 16 Introduccin de datos y tipos de datos
.................................................... 16 Etiquetas
de valores y de variables
......................................................... 18 Copiar
y pegar atributos y etiquetas de variables
.................................... 20 Captulo 2. Enfoque moderno
del anlisis de datos .................................. 23
Tcnicas emergentes del anlisis de datos
.................................................. 23 Modelado
originado por la teora (tcnicas explicativas o de dependencia)
....... 28 Modelado originado por los datos (tcnicas descriptivas o
de interdependencia) 26 Extraccin del conocimiento
.......................................................................
27 Afinando concepto y clasificacin de las tcnicas de minera de
datos ...... 31 Captulo 3. Fase de seleccin en el anlisis de datos.
Tratamiento con SPSS ... 33
Fase de seleccin en el anlisis de datos
..................................................... 33 Seleccin
de datos por muestreo
.................................................................
34 Muestreo aleatorio simple
......................................................................
38 Muestreo estratificado
............................................................................
41 Muestreo sistemtico
..............................................................................
48 Muestreo unietpico de conglomerados
................................................. 52 Muestreo
bietpico de conglomerados
................................................... 56 Muestreo
polietpico de conglomerados
................................................ 59 Diseos
complejos: bietpico con estratificacin en primera etapa ....... 59
Tcnicas de muestro con SPSS
...................................................................
60 Diseos complejos y el asistente de muestreo. Creacin de un nuevo
plan de muestreo
.................................................................................
62 Asistente de muestreo: Modificar un plan
............................................... 70 Asistente de
muestreo: Ejecutar un plan
................................................. 73 Preparacin de
una muestra compleja para su anlisis: creacin de un plan de anlisis
................................................................ 73
Preparacin de una muestra compleja para su anlisis: modificar un
plan de anlisis
...................................................................
77 Clculos en muestras complejas:
-
Contenido
VIII
frecuencias, descriptivos, tablas de contingencia y razones
................... 77 Seleccin de casos con SPSS
......................................................................
83 Seleccin de casos con criterios condicionales
....................................... 83 Seleccin de fechas,
horas y filas
............................................................ 84
Seleccin de una muestra aleatoria
......................................................... 85
Semilla de aleatorizacin
........................................................................
85 Operadores de seleccin en SPSS
............................................................... 86
Operadores aritmticos
............................................................................
86 Operadores relacionales
..........................................................................
87 Operadores aritmticos
............................................................................
86 Operadores lgicos
..................................................................................
87 Funciones de generacin de nmeros aleatorios en SPSS
.......................... 87 Captulo 4. Fase de exploracin en el
anlisis de datos.
Tratamiento con SPSS
...........................................................................
91
Exploracin en el proceso de extraccin del conocimiento
........................ 91 Anlisis exploratorio
...................................................................................
92 Herramientas de exploracin visual
............................................................ 93
Histograma de frecuencias
......................................................................
93 Diagrama de tallo y hojas
........................................................................
95 Grfico de caja y bigotes
.........................................................................
96 Grfico mltiple de caja y bigotes
........................................................... 98
Grfico de simetra
..................................................................................
100 Grfico de dispersin
..............................................................................
102 Grficos para variables cualitativas
......................................................... 104
Herramientas de exploracin formal
........................................................... 107
Contraste de la bondad de ajuste a una distribucin: test de la
Chi-cuadrado .... 107 Contraste de Kolmogorov-Smirnov Lilliefors de
la bondad de ajuste a una distribucin
................................................................................
109 Estadsticos robustos de centralizacin
................................................... 110 Estadsticos
robustos de dispersin
......................................................... 111
Estadsticos robustos de asimetra y curtosis
.......................................... 113 Contrastes de
aleatoriedad
.......................................................................
116 Transformaciones de variables
....................................................................
120 Supuestos subyacentes en las tcnicas de minera de datos
........................ 121 Normalidad
..............................................................................................
121 Heteroscedasticidad
.................................................................................
125 Multicolinealidad
....................................................................................
127 Autocorrelacin
.......................................................................................
127 Linealidad
................................................................................................
128 Supuestos subyacentes en las tcnicas de minera de datos
.................... 121 Un ejemplo de anlisis exploratorio de
datos con SPSS ............................. 129 Captulo 5. Anlisis
exploratorio, grfico y formal con SPSS ................. 139
-
Tcnicas de anlisis de datos con SPSS 15
IX
Anlisis exploratorio de datos con SPSS. Procedimiento Explorar
............ 139 Anlisis exploratorio grfico en SPSS
........................................................ 144
Generador de grficos
.............................................................................
144 Histogramas
.............................................................................................
145 Grficos de normalidad
...........................................................................
145 Grficos de caja y bigotes
.......................................................................
148 Grfico de dispersin
..............................................................................
150 Grficos para variables cualitativas
......................................................... 104
Grficos interactivos dinmicos de anlisis exploratorio con SPSS
....... 152 Creacin interactiva de grficos a partir de tablas
.................................. 159 Grficos interactivos de caja
y bigotes .................................................... 160
Histogramas interactivos
.........................................................................
161 Diagramas interactivos de dispersin
...................................................... 163 Anlisis
exploratorio formal en SPSS. Contrastes de aleatoriedad y rachas
..... 165 Contraste de ajuste a una distribucin de frecuencias.
Procedimiento Prueba de Kolmogorov-Smirnov
.................................... 166 Captulo 6. Fase de
limpieza y transformacin de datos. Tratamiento con SPSS
...........................................................................
167 Limpieza y transformacin de datos
........................................................... 167
Valores atpicos (outliers)
...........................................................................
168 Informacin faltante (datos missing)
........................................................... 172
Soluciones para los datos ausentes: supresin de datos o imputacin
de la informacin faltante
................................................. 178 Transformacin
de datos
.............................................................................
180 Transponer, fusionar, agregar, segmentar y ordenar archivos
............... 181 Ponderar casos y categorizar y numerizar
variables .............................. 182 Pareamiento o matching
..........................................................................
182 SPSS y el anlisis de datos missing. Imputacin
................................................ 184 Reemplazar
valores perdidos
..................................................................
187 Deteccin de valores atpicos en SPSS
....................................................... 191
Deteccin de casos atpicos mediante grficos de control
...................... 191 Deteccin de casos atpicos mediante
grficos de caja y bigotes ............ 193 Transformacin de datos
con
SPSS.............................................................
195 Recodificacin de variables
....................................................................
197 Ordenar casos
..........................................................................................
199 Transponer, fusionar, agregar y segmentar archivos. Matching
............. 199 Ponderar casos
........................................................................................
206 Categorizar variables: categorizador visual
............................................ 207 Asignar rangos a
casos y tipificar variables
............................................ 211 Captulo 7.
Reduccin de la dimensin con variables cuantitativas ........
213
-
Contenido
X
Transformacin de datos mediante tcnicas de reduccin de la
dimensin ..... 213 Componentes principales
............................................................................
214 Clculo de las componentes principales
.................................................. 215 Puntuaciones
o medicin de las componentes
........................................ 217 Nmero de componentes a
retener ..........................................................
218 Matriz de cargas factoriales, comunalidad y crculos de
correlacin ...... 219 Rotacin de las componentes
..................................................................
220 Anlisis factorial
.........................................................................................
221 Contrastes en el modelo factorial
............................................................ 224
Rotacin de los factores
..........................................................................
226 Interpretacin grfica de los factores
...................................................... 227
Puntuaciones o medicin de los factores
................................................. 228 Tcnicas de
reduccin de la dimensin en SPSS
........................................ 229 Componentes
principales en SPSS
.............................................................. 230
Anlisis factorial en SPSS
...........................................................................
241 Captulo 8. Reduccin de la dimensin con variables
cualitativas:
correspondencias, anlisis conjunto y escalamiento
........................... 251
Categoras en SPSS y mtodos de reduccin de la dimensin
.................... 251 Anlisis de correspondencias
......................................................................
252 Anlisis de correspondencias simple
....................................................... 252 Anlisis
de correspondencias mltiple
.................................................... 253
Escalamiento ptimo
...................................................................................
254 Escalamiento multidimensional
..................................................................
256 Modelos de escalamiento mtrico
........................................................... 257
Modelos de escalamiento no mtrico
...................................................... 257 Modelos
de escalamiento de diferencias individuales
............................ 257 Modelos de escalamiento para datos
de preferencia ............................... 258 Anlisis conjunto
.........................................................................................
259 Anlisis de correspondencias simple en SPSS
............................................ 260 Anlisis de
correspondencias mltiple en SPSS
......................................... 267 Componentes
principales no lineales en SPSS
............................................ 271 Correlacin cannica
no lineal en SPSS
..................................................... 275
Escalamiento multidimensional mtrico en SPSS
....................................... 279 Escalamiento
multidimensional no mtrico en SPSS
.................................. 282 Anlisis conjunto en SPSS
..........................................................................
287 Escalamiento multidimensional mtrico en SPSS
....................................... 279
-
Tcnicas de anlisis de datos con SPSS 15
XI
Captulo 9. Tcnicas predictivas. Regresin lineal, no lineal y
categrica .... 299
Tcnicas predictivas para la modelizacin
.................................................. 299 Modelo de
regresin lineal mltiple
............................................................ 304
Estimacin del modelo, contrastes e intervalos de confianza
................. 306 Anlisis de la varianza
.............................................................................
308 Predicciones
............................................................................................
311 El anlisis de los residuos
........................................................................
312 Autocorrelacin, multicolinealidad y heteroscedastricidad
........................ 313 Modelos no lineales y ponderados
.............................................................. 316
Regresin ordinal y categrica
....................................................................
316 Procedimiento Regresin lineal
..................................................................
317 Procedimiento Estimacin ponderada y la homoscedasticidad
................... 322 Procedimiento Mnimos cuadrados en dos
fases. Variables instrumentales .... 324 Procedimiento Regresin
ordinal
................................................................
325 Procedimiento Regresin mediante escalamiento ptimo
........................... 328 Procedimiento Estimacin curvilnea
.......................................................... 331
Procedimiento Regresin no lineal
............................................................. 333
Captulo 10. Modelos del anlisis de la varianza y la covarianza.
Modelo lineal general MLG
...................................................................
363
Modelos del anlisis de la varianza ANOVA
............................................. 363 Modelos de la
covarianza ANCOVA
.......................................................... 372
Anlisis de la varianza mltiple MANOVA
............................................... 374 Anlisis de la
covarianza mltiple MANCOVA
......................................... 375 Modelo Lineal General
(GLM)
...................................................................
375 SPSS y el procedimiento ANOVA de un factor
.......................................... 375 SPSS y el
procedimiento MLG univariante
................................................ 380 SPSS y el
procedimiento MLG multivariante
............................................. 386 SPSS y el
procedimiento MLG medidas repetidas
..................................... 391 SPSS y el procedimiento
Componentes de la varianza ............................... 397
Captulo 11. Modelos con censura, modelos de supervivencia, duracin
y Regresin de Cox
.................................................................
569 Anlisis de la supervivencia
........................................................................
415 Tablas de mortalidad
...................................................................................
416 Estimaciones no paramtricas de la funcin de supervivencia
............... 417 Estimaciones paramtricas de la funcin de
supervivencia .................... 418 Procedimiento Tablas de
mortalidad
........................................................... 419
Procedimiento Kaplan-Meier
......................................................................
422 Procedimiento Regresin de Cox y covariable dependiente del
tiempo ..... 426
-
Contenido
XII
Captulo 12. Modelos mixtos y modelos con datos de panel
..................... 435
Introduccin a los modelos mixtos
.............................................................. 435
Modelos con datos de panel
........................................................................
436 Modelos de panel con coeficientes constantes
........................................... 436 Modelos de panel
con efectos fijos
............................................................ 437
Modelos de panel con coeficientes aleatorios
............................................ 438 Procedimiento
modelos mixtos de SPSS
..................................................... 439 Captulo
13. Modelos en el contexto temporal.
Anlisis de series temporales
................................................................
453
Prediccin y alisado de series
......................................................................
453 Alisado Exponencial de Brown
............................................................... 454
Alisado Lineal de Holt
............................................................................
455 Alisado Estacional de Winters
................................................................
455 Anlisis de la tendencia
...............................................................................
455 Modelos ARIMA de Box-Jenkins
............................................................... 456
Fases del modelado
.................................................................................
456 Modelos AR(p), MA(q), ARMA(p,q) y ARIMA(p,d,q)
......................... 458 Modelos de la funcin de transferencia
................................................... 460
Identificacin del modelo
........................................................................
461 Modelos ARIMA(p,d,q)(P,D,Q) estacionales
......................................... 462 Prediccin
................................................................................................
464 Procedimiento Suavizado exponencial
........................................................ 465
Procedimiento Autorregresin
....................................................................
467 Procedimiento ARIMA
...............................................................................
468 Procedimiento Descomposicin estacional
................................................. 473 Captulo 14.
Modelos de clasificacin. Modelos Logit y Probit ............... 487
Modelos de eleccin discreta
......................................................................
487 El modelo de regresin logstica
.................................................................
488 Estimacin de los coeficientes
................................................................
489 Estimacin por intervalos y contrastes de hiptesis sobre los
coeficientes .. 490 Modelos Probit
............................................................................................
491 SPSS y la regresin logstica binaria
........................................................... 492
SPSS y la regresin logstica multinomial
.................................................. 500 SPSS y los
modelos Probit
..........................................................................
505
-
Tcnicas de anlisis de datos con SPSS 15
XIII
Captulo 15. Modelos de clasificacin ad-hoc. Anlisis
discriminante .... 523
Modelos de anlisis discriminante
.............................................................. 523
Hiptesis en el modelo discriminante
......................................................... 524
Estimacin en el modelo discriminante
....................................................... 525
Contrastes de significacin en el modelo discriminante
......................... 527 Seleccin de variables discriminantes
..................................................... 531
Interpretacin de la funcin discriminante
.................................................. 534 Clasificacin
de los individuos
...................................................................
537 Anlisis discriminante cannico
..................................................................
540 SPSS y el anlisis discriminante
.................................................................
542 Captulo 16. Tcnicas de clasificacin post-hoc. Anlisis
clster
y rboles de decisin
.............................................................................
557
El anlisis clster como tcnica descriptiva de clasificacin
...................... 557 Medidas de similitud
...............................................................................
558 Tcnicas en el anlisis clster
.................................................................
562 Clsters jerrquicos, secuenciales, aglomerativos y exclusivos
(S.A.H.N.) ... 564 El dendograma en el anlisis cluster jerrquico
...................................... 565 Anlisis clster no
jerrquico
..................................................................
566 Los rboles de decisin como tcnica predictiva de clasificacin
.............. 570 Caractersticas de los rboles de decisin
.............................................. 571 Herramientas
para el trabajo con los rboles de decisin .......................
576 rboles CHAID
........................................................................................
577 rboles CART
.........................................................................................
578 rboles QUEST
......................................................................................
580 Anlisis de conglomerados y rboles de decisin como mtodos de
segmentacin
........................................................................
581 Anlisis clster jerrquico con SPSS
.......................................................... 582
Anlisis clster no jerrquico con SPSS
..................................................... 588 Anlisis
clster en dos fases con SPSS
....................................................... 593 rboles
de decisin con SPSS
....................................................................
599 Creacin de un rbol de decisin. Mtodo CHAID
..................................... 601 Mtodos CR y QUEST. Poda
de rboles ................................................ 6078
rboles QUEST
......................................................................................
580 Captulo 17. Modelos Log-lineales y tcnicas de asociacin
.................... 611
Introduccin y conceptos
...........................................................................
611 Tipos de modelos log-lineales
.....................................................................
612 Modelo saturado
......................................................................................
612 Modelo de independencia
........................................................................
613
-
Contenido
XIV
Modelos jerrquicos
................................................................................
613 Fases en la elaboracin de modelos log-lineales
......................................... 613 Seleccin del modelo
..............................................................................
614 Ajuste del modelo
....................................................................................
614 Eleccin del modelo ms
adecuado.........................................................
615 Estimacin de parmetros
.......................................................................
616 Significatividad de los efectos: Prueba de los efectos k y
prueba de asociacin parcial
...........................................................................
616 Calidad de ajuste del modelo mediante residuales
.................................. 617 Ajuste del modelo paso a
paso (stepwise) ............................................... 617
Interpretacin del modelo
........................................................................
618 Modelo Logit
...............................................................................................
618 Modelos log-lineales con datos ordinales
................................................... 619 Tablas
incompletas y ceros estructurales
.................................................... 619 SPSS y los
modelo log-lineales
...................................................................
620 Seleccin del modelo
..............................................................................
620 Anlisis log-lineal general
.......................................................................
620 Anlisis logit
...........................................................................................
620 Asociacin con variables cuantitativas. Independencia
.............................. 636 Independencia y asociacin con
variables cualitativas. Coeficientes ......... 639 El procedimiento
Correlaciones bivariadas con SPSS ................................
648 El procedimiento Correlaciones parciales con SPSS
.................................. 650 El procedimiento Distancias
de SPSS .........................................................
652 El procedimiento Tablas de contingencia
................................................... 654 Captulo 18.
Miscelnea de funciones
....................................................... 671
Funciones en SPSS 15
.................................................................................
671 Funciones exponenciales y logartmicas
................................................. 671 Funciones
trigonomtricas
......................................................................
672 Funciones numricas
...............................................................................
672 Funciones de estadstica descriptiva
....................................................... 672
Funciones de generacin de nmeros aleatorios
..................................... 673 Funciones de distribucin
y sus inversas ................................................ 675
Funciones de densidad
............................................................................
680 Funciones de cadena
................................................................................
682 Funciones lgicas
...................................................................................
684 Funciones de valores desaparecidos
........................................................ 684
Funciones de conversin
.........................................................................
685
-
Tcnicas de anlisis de datos con SPSS 15
XV
8.1 Categoras en SPSS y mtodos de reduccin de la dimensin
SPSS habilita el mdulo CATEGORAS para abordar los mtodos de
reduccin de la dimensin que usen variables categricas. Se presenta
una clasificacin de los procedimientos incluidos en el mdulo
CATEGORAS.
Mtodos de reduccin de datos
Tipos de variables en estudio
Todas Mezcla de cualitativas cuantitativas y cuantitativas
(Mdulo CATEGORAS)
Componentes Anlisis Escalamiento Anlisis principales factorial
ptimo conjunto (FACTOR) (FACTOR) (COJOIT) Correspondencias
Componentes Correlacin simples (AACOR) principales cannica
categricas no lineal Correspondencias (CATPCA) (OVERALS) mltiples
(HOMALS)
8.2 Anlisis de correspondencias
El anlisis factorial, al igual que el anlisis en componentes
principales, es una tcnica multivariante que persigue reducir la
dimensin de una tabla de datos formada por variables cuantitativas.
Si las variables fuesen variables cualitativas, estaramos ante el
anlisis de correspondencias.
Cuando se estudia conjuntamente el comportamiento de dos
variables cualitativas estamos ante el anlisis de correspondencias
simples, pero este anlisis puede ser generalizado para el caso en
que se dispone de un nmero de variables cualitativas mayor que dos,
en cuyo caso estamos ante el anlisis de correspondencias mltiples.
En el caso de correspondencias simples los datos de las dos
variables cualitativas pueden representarse en una tabla de
doble
-
Contenido
XVI
entrada, denominada tabla de contingencia. En el caso de las
correspondencias mltiples la tabla de contingencia de doble entrada
pasa a ser una hipertabla en tres o ms dimensiones, difcil de
representar y que suele sintetizarse en la denominada tabla de
Burt.
El objetivo del anlisis de correspondencias es establecer
relaciones entre variables no mtricas enriqueciendo la informacin
que ofrecen las tablas de contingencia, que slo comprueban si
existe alguna relacin entre las variables (test de la chi-cuadrado,
etc.) y la intensidad de dicha relacin (test V de Cramer, etc.). El
anlisis de correspondencias revela adems en qu grado contribuyen a
esa relacin detectada los distintos valores de las variables,
informacin que suele ser proporcionada en modo grfico (valores
asociados prximos).
Podramos sintetizar diciendo que el anlisis de correspondencias
busca como objetivo el estudio de la asociacin entre las categoras
de mltiples variables no mtricas, pudiendo obtenerse un mapa
perceptual que ponga de manifiesto esta asociacin en modo
grfico.
Anlisis de correspondencias simple Ya sabemos que el anlisis
factorial de correspondencias simple est particularmente adaptado
para tratar tablas de contingencia, representando los efectivos
existentes en las mltiples modalidades (categoras) combinadas de
dos caracteres (variables cualitativas). Si cruzamos en una tabla
de contingencia el carcter I con modalidades desde i = 1 hasta i =
n (en filas), con el carcter J con modalidades desde j = 1 hasta j
= p (en columnas), podemos representar el nmero de unidades
estadsticas que pertenecen simultneamente a la modalidad i del
carcter I y a la modalidad j del carcter J mediante kij.
En este caso, la distincin entre observaciones y variables en el
cuadro de doble entrada es artificial, pero, por similitud con
componentes principales, suele hablarse a veces de individuos u
observaciones cuando nos referimos al conjunto de las modalidades
del carcter I (filas), y de variables cuando nos referimos al
conjunto de las modalidades del carcter J (columnas), tal y como se
observa en la tabla siguiente:
-
Tcnicas de anlisis de datos con SPSS 15
XVII
M
LL
M
M
M
LL
ijk
n
i
pjI
J
2
1
21
De una forma general puede considerarse que los objetivos que se
persiguen cuando se aplica el anlisis factorial de correspondencias
son similares a los perseguidos con la aplicacin del anlisis de
componentes principales, y pueden resumirse en los dos puntos
siguientes:
Estudio de las relaciones existentes en el interior del conjunto
de modalidades del carcter I y estudio de las relaciones existentes
en el interior del conjunto de modalidades del carcter J.
Estudio de las relaciones existentes entre las modalidades del
carcter I y las modalidades del carcter J.
La tabla de datos (kij) es una matriz K de orden (n, p) donde
kij representa la frecuencia absoluta de asociaciones entre los
elementos i y j, es decir el nmero de veces que se presentan
simultneamente las modalidades i y j de los caracteres I y J.
Anlisis de correspondencias mltiple
Hemos visto que el anlisis factorial de correspondencias es de
aplicacin con dos caracteres o variables cualitativas (anlisis de
correspondencias simple o sencillamente anlisis factorial de
correspondencias), cada una de las cuales puede presentar varias
modalidades o categoras. Pero el mtodo es generalizable al caso de
un nmero de variables o caracteres cualitativos mayor de dos
(anlisis de correspondencias mltiple). Cuando el nmero de variables
cualitativas es mayor que dos (en vez de tener slo los caracteres
I, J tenemos los caracteres J1, J2, ..., JQ) ya no se puede hablar
de tabla de contingencia y la representacin tabulada de los datos
se complica. No obstante, el anlisis en correspondencias mltiples
permite estudiar las relaciones entre las modalidades de todas las
caractersticas cualitativas consideradas.
En el anlisis de correspondencias mltiples se ordenan los datos
en una tabla Z denominada tabla disyuntiva completa que consta de
un conjunto de individuos I=1,...,i,...n (en filas), un conjunto de
variables o caracteres cualitativos J1,...,Jk,...JQ (en columnas) y
un conjunto de modalidades excluyentes 1,...,mk para
-
Contenido
XVI
II
cada carcter cualitativo. El nmero total de modalidades ser
entonces J==
Q
k
km
1
.
La tabla disyuntiva completa Z de dimensin IxJ tiene el
siguiente aspecto: J J1 Jk JQ 1.........m1 ......... 1.........mk.
.......... 1.........mQ 1 . . I i Z1 .... Zk .... ZQ Z = Z1 .... Zk
.... ZQ . . n El elemento zij de la tabla toma el valor 0 o 1 segn
que el individuo i haya elegido (est afectado por) la modalidad j o
no. Por tanto, cada rectngulo de la tabla disyuntiva completa puede
considerarse, aunque no lo sea, como una tabla de contingencia
cuyos elementos son 0 o 1. La tabla disyuntiva completa Z consta
entonces de Q subtablas yuxtapuestas, con la finalidad de obtener
una representacin simultnea de todas las modalidades (columnas) de
todos los individuos (filas). Si las modalidades son excluyentes,
cada subtabla tiene un nico 1 en cada una de sus filas.
8.3 Escalamiento ptimo
El esquema de los procedimientos de escalamiento ptimo es el
siguiente:
Escalamiento ptimo Correspondencias Componentes Correlacin
simples (AACOR) principales cannica categricas no lineal
Correspondencias (CATPCA) (OVERALS) mltiples (HOMALS)
El escalamiento ptimo puede detectar relaciones no lineales y
producir
correlaciones mximas entre variables. Los cuatro procedimientos
de escalamiento ptimo antes definidos amplan el mbito de aplicacin
de las
-
Tcnicas de anlisis de datos con SPSS 15
XIX
tcnicas estadsticas clsicas de Anlisis de Componentes
Principales (ACP) y de Anlisis de Correlacin Cannica (ACC), para
acomodar variables de niveles mixtos de medida. Si todas las
variables del anlisis fuesen numricas y las relaciones entre las
variables lineales, entonces deberan emplearse los procedimientos
estadsticos estndares basados en la correlacin y no habra necesidad
de utilizar los procedimientos de escalamiento ptimo. Sin embargo,
si las variables de anlisis tienen niveles mixtos de medida, o si
se sospecha que existen relaciones no lineales entre algunos pares
de variables, entonces debera utilizarse el procedimiento de
escalamiento ptimo.
En el escalamiento ptimo, el usuario especifica el tipo de
medida de cada variable, diferenciando el nivel de medida de cada
una de las variables del anlisis, permitiendo as la bsqueda de
soluciones con el fin de que las variables elegidas por el modelo
se ajusten bien a los datos. El escalamiento ptimo tambin revelar
relaciones no lineales. Esto se hace de modo exploratorio, en
contraposicin con las pruebas de hiptesis estndar en el contexto de
las suposiciones distributivas, tales como la normalidad y la
linealidad de la regresin de las variables originales.
El escalamiento ptimo proporciona un conjunto de puntuaciones
ptimas (o cuantificaciones de categoras), para las categoras de
cada variable. Las puntuaciones ptimas se asignan a las categoras
de cada variable, basadas en el criterio de optimizacin del
procedimiento en uso. A diferencia de los valores originales de las
variables nominales u ordinales del anlisis, estas puntuaciones
tienen propiedades mtricas, por lo que stas tcnicas se describen
frecuentemente como una forma de cuantificacin de datos
cualitativos, que tambin incluyen tcnicas como el escalamiento no
mtrico multidimensional (disponible en el procedimiento ALSCAL).
Las cuantificaciones de las categoras de cada variable pueden
representarse sobre un plano bidimensional o, incluso, en un plano
tridimensional, siendo su yuxtaposicin en el mismo grfico til para
revelar patrones de asociacin entre variables.
En SPSS suelen utilizarse cuatro procedimientos relacionados con
la ejecucin del Escalamiento ptimo que son los siguientes:
Anlisis de Correspondencias Simples (AACOR): analiza datos de
tablas de contingencia de 2 dimensiones relativas a dos variables
cualitativas.
Anlisis de Correspondencias Mltiples u Homogeneidades (HOMALS):
analiza datos de tablas de contingencia de mltiples dimensiones,
donde todas las variables utilizadas son de nivel nominal y donde
pueden ignorarse las interacciones de ms dimensiones. Anlisis de
Componentes Principales Categricas (CATPCA): contabiliza los
patrones de variacin en un solo conjunto de variables de niveles de
medicin mixtos.
-
Contenido
XX
Anlisis o Lineal de Correlacin Cannica (OVERALS): contabiliza
los patrones de variacin cuando se correlacionan 2 o ms conjuntos
de variables de niveles de medicin mixtos.
Estos procedimientos son tcnicas de reduccin de datos
(dimensiones), que intentan representar las mltiples relaciones
entre variables en un nmero de dimensiones reducido. Esto permite
describir estructuras o patrones en las relaciones entre variables,
difcilmente observables de otro modo. Estas tcnicas pueden derivar
en una forma de representacin cartogrfica perceptual (perceptual
mapping). Una gran ventaja de estos procedimientos es que acomodan
los datos a los diferentes niveles de medida.
8.4 Escalamiento multidimensional El escalamiento
multidimensional tiene como finalidad crear una representacin
grfica (mapa perceptual) que permita conocer la situacin de los
individuos en un conjunto de objetos por posicionamiento de cada
uno en relacin a los dems. Dicha situacin ser producto de las
percepciones y preferencias o similitudes entre los objetos
apreciadas por los sujetos. Estas percepciones (preferencias o
similitudes) son la entrada del anlisis, y pueden ser variables
mtricas o no mtricas. El escalamiento multidimensional transforma
estas variables en distancias entre los objetos en un espacio de
dimensiones mltiples, de modo que objetos que aparecen situados ms
prximos entre s son percibidos como ms similares por los
sujetos.
Existe una diferencia clave entre el escalamiento
multidimensional y el anlisis cluster. En el escalamiento
multidimensional se desconocen los elementos de juicio de los
encuestados y no se conocen las variables que implcitamente estn
considerando stos para realizar su evaluacin de las preferencias
por los objetos. En el anlisis cluster las similitudes entre
objetos se obtienen a partir de una combinacin de variables
estudiadas.
El escalamiento multidimensional es de ms fcil aplicacin que el
anlisis factorial, ya que no requiere supuestos de linealidad, ni
que las variables sean mtricas, ni un tamao mnimo de muestra.
Resumiendo, podramos definir el escalamiento multidimensional
como una tcnica cuyo fin es elaborar una representacin grfica que
permita conocer la imagen que los individuos se crean de un
conjunto de objetos por posicionamiento de cada uno en relacin a
los dems (mapa perceptual).
-
Tcnicas de anlisis de datos con SPSS 15
XXI
Modelos de escalamiento mtrico Los modelos de escalamiento
parten de una funcin de representacin de las proximidades estimadas
ij i, j = 1,,n por los sujetos en forma de distancias entre n
objetos: dij f(ij). En el caso del modelo mtrico (tambin llamado
clsico), la relacin planteada generalmente entre proximidades y
distancias es de tipo lineal: dij = a + b ij, aunque muchas
variantes del modelo mtrico admiten tambin transformaciones
potenciales, logartmicas o polinmicas de cualquier grado. El modelo
de escalamiento mtrico se aplica nicamente a datos medidos en
escala de intervalo o razn. Toma como entrada, como hemos dicho,
una matriz de proximidades entre n objetos y nos proporciona como
salida las coordenadas de los n objetos en r dimensiones del
espacio.
Modelos de escalamiento no mtrico Mientras que el modelo de MDS
mtrico plantea una relacin lineal entre las proximidades de entrada
y las distancias derivadas por el modelo, el modelo de escalamiento
no-mtrico plantea una relacin de tipo monotnico, creciente entre
ambas, es decir, una relacin de tipo ordinal. En MDS no-mtrico, por
tanto, la relacin entre proximidades y distancias es nicamente del
tipo:
si ij > kl, entonces dij dkl.
El procedimiento de MDS no mtrico parte de una matriz de
proximidades ordinal o de otro tipo, que es transformada en una
matriz de proximidades en rangos, ordenados desde 1 hasta (n2 n)/2.
Esta transformacin se lleva a cabo simplemente asignando los rangos
a las proximidades en funcin de su tamao. A continuacin, se
calculan unos valores transformados, llamados disparidades (dij)
que se ajustan monotnicamente a las proximidades. Generalmente se
comienza con una configuracin de distancias generada aleatoriamente
o mediante algn otro mtodo, y se va ajustando sta hasta que los
rangos de las disparidades coincidan en el sentido monotnico con
los rangos de las proximidades.
Modelo de escalamiento de diferencias individuales El modelo MDS
de diferencias individuales, tambin conocido como modelo ponderado,
es parte de una familia de procedimientos de anlisis conocidos como
modelos eucldeos generalizados, que tienen en comn el hecho de que
utilizan como entrada varias matrices de proximidad (una para cada
fuente de datos) y que admiten ponderaciones diferentes de las
dimensiones del espacio para cada fuente de datos.
-
Contenido
XXI
I
Los distintos modelos difieren entre s en el modo en que esta
ponderacin se lleva a cabo, en el uso de datos mtricos o
no-mtricos, o en el permitir que las dimensiones sean, adems de
ponderadas, rotadas tambin de forma diferente para cada fuente de
datos.
Lo interesante de estos modelos es que permiten tratar
diferencias entre distintas fuentes de datos, como sujetos, grupos
o momentos temporales. Los modelos mtrico y no mtrico tambin pueden
utilizar como entrada varias matrices de proximidad, pero
considerando a cada una de stas como replicaciones de una misma
fuente de datos, de tal modo que las diferencias existentes entre
las distintas matrices se tratan como si fuesen errores. Sin
embargo, es muy posible que estas diferencias no se deban a errores
sino que, por el contrario, sean sistemticas. Los modelos MDS de
diferencias individuales permiten incorporar estas diferencias en
la solucin del anlisis.
El ms conocido y utilizado de estos modelos es el modelo IDSCAL
(Individual Differences SCALing).
Modelos de escalamiento para datos de preferencia Normalmente,
el MDS se aplica nica y exclusivamente a datos de proximidad, bien
sea obtenidos directamente, bien sea derivados a partir de datos
multivariados. Sin embargo, existen modelos de MDS pensados para
otro tipo de datos: los datos de dominancia. Para decirlo en pocas
palabras, los datos de dominancia proporcionan informacin acerca
del grado en que existen relaciones de precedencia o jerarqua entre
stos. Existen mltiples formas de recoger datos de dominancia,
algunas de ellas increblemente complejas y alambicadas, pero el
ejemplo ms habitual y sencillo de datos de dominancia son los datos
de preferencia. Para obtener este tipo de datos a partir de una
muestra de objetos es necesario nicamente solicitar a los sujetos
que ordenen estos objetos en funcin de su preferencia. Esto nos
proporcionar una matriz rectangular de preferencias P de
dimensiones n x m (sujetos x objetos), donde cada elemento pij de
la matriz corresponder a la preferencia del sujeto i por el objeto
j.
Existen dos modelos de MDS muy utilizados con datos de
preferencia: el modelo desdoblado (unfolding) y el modelo
vectorial. En el modelo desdoblado tanto sujetos como objetos
aparecen como puntos en un mismo espacio, y las preferencias de un
sujeto deberan estar en correspondencia con la distancia a la que
se hallen los objetos del punto que representa al sujeto, de tal
modo que cuanto ms preferido sea un objeto, ms prximo debera
encontrarse a ese punto. Interpretado as, el punto que representa
al sujeto correspondera al objeto ideal, o de mxima preferencia.
Por esta razn tambin se conoce al modelo desdoblado como modelo del
punto ideal.
-
Tcnicas de anlisis de datos con SPSS 15
XXII
I
El modelo vectorial se diferencia del modelo desdoblado o del
punto ideal, en que las filas de la matriz de preferencias (es
decir, los sujetos) no se representan mediante puntos, sino
mediante vectores de longitud unidad. Lo que pretende el modelo
vectorial es encontrar una combinacin lineal de los valores de
coordenadas de los objetos, de modo que sus proyecciones sobre el
vector que representa a un sujeto se correspondan lo ms
estrechamente posible con las preferencias manifestadas por ese
sujeto.
8.5 Anlisis conjunto El anlisis conjunto es una tcnica
estadstica utilizada para analizar la relacin lineal o no lineal
entre una variable dependiente (o endgena) generalmente ordinal
(aunque tambin puede ser mtrica) y varias variables independientes
(o exgenas) no mtricas. La expresin funcional del anlisis conjunto
puede escribirse tambin como sigue:
),,,(21 n
xxxFy L=
La variable dependiente recoge la preferencia (intencin de
compra, etc.) que el individuo exhibe hacia el producto (es decir,
la utilidad global que el producto le aporta) y las variables
dependientes son los atributos distintivos del producto. Es
importante tener presente que slo la variable dependiente recoger
informacin aportada por los individuos encuestados, ya que la
informacin contenida en las variables independientes ser
especificada por el investigador en virtud de los productos que
desee someter a evaluacin por los encuestados.
El anlisis conjunto permite generar un modelo individualizado
por encuestado, de modo que el modelo general para toda la muestra
resulte de la agregacin de los modelos de todos los individuos que
la componen. El anlisis conjunto descompone las preferencias que el
individuo manifiesta hacia el producto a fin de conocer qu valor le
asigna a cada atributo (tcnica descomposicional), mientras que en
el anlisis discriminante y en el anlisis de la regresin las
valoraciones de cada atributo que hace el sujeto se utilizan para
componer su preferencia sobre el producto (tcnicas
composicionales).
La mayora de software estadstico, y en concreto SPSS, utiliza la
aproximacin de perfil completo (full profile) para aplicar el
anlisis conjunto. En este caso, una vez planteado el problema, los
sujetos que responden a la encuesta elaboran un rango de los
perfiles o estmulos alternativos definidos por los niveles
particulares de todos los atributos estudiados (o de un subconjunto
definido por un diseo ortogonal como ORTHOPLAN) y recogen las
preferencias en tarjetas de estmulo, elaboradas con procedimientos
como PLANCARDS para ser luego analizadas y estimadas las utilidades
por procedimientos como CONJOINT.
-
Contenido
XXI
V
8.6 Anlisis de correspondencias simple en SPSS
Mediante anlisis de correspondencias simple analizaremos la
relacin entre las categoras de las variables origen y cilindros de
los automviles, caractersticas recogidas en el fichero
COCHES.SAV.
Para realizar un anlisis de correspondencias simple, elija en
los mens Analizar Reduccin de datos Anlisis de correspondencias
(Figura 8-1) y seleccione las variables y las especificaciones para
el anlisis (Figura 8-2). Previamente es necesario cargar en memoria
el fichero de nombre COCHES mediante Archivo Abrir Datos. Este
fichero contiene datos sobre automviles y las variables a analizar
son el origen de los coches (origen) y su cilindrada (cilind).
En cuanto a los datos, las variables categricas que se van a
analizar se encuentran escaladas a nivel nominal. Para los datos
agregados o para una medida de correspondencia distinta de las
frecuencias, utilice una variable de ponderacin con valores de
similaridad positivos. De manera alternativa, para datos tabulares,
utilice la sintaxis para leer la tabla.
En cuanto a los supuestos, el mximo nmero de dimensiones
utilizado en el
procedimiento depende del nmero de categoras activas de fila y
de columna y del nmero de restricciones de igualdad. Si no se
utilizan criterios de igualdad y todas las categoras son activas,
la dimensionalidad mxima es igual al nmero de categoras de la
variable con menos categoras menos uno. Por ejemplo, si una
variable dispone de cinco categoras y la otra de cuatro, el nmero
mximo de dimensiones es tres.
Las categoras suplementarias no son activas. Por ejemplo, si una
variable
dispone de cinco categoras, dos de las cuales son
suplementarias, y la otra variable dispone de cuatro categoras, el
nmero mximo de dimensiones es dos.
Considere todos los conjuntos de categoras con restriccin de
igualdad
como una nica categora. Por ejemplo, si una variable dispone de
cinco categoras, tres de las cuales tienen restriccin de igualdad,
dicha variable se debe tratar como si tuviera tres categoras en el
momento de calcular la dimensionalidad mxima. Dos de las categoras
no tienen restriccin y la tercera corresponde a las tres categoras
restringidas. Si se especifica un nmero de dimensiones superior al
mximo, se utilizar el valor mximo.
-
Tcnicas de anlisis de datos con SPSS 15
XXV
Figura 8-1 Figura 8-2
En los campos Fila y Columna de la Figura 8-2 se introducen las
dos variables
a cruzar en la tabla de contingencia. En los botones Definir
rango debe definir un rango para las variables de filas (Figura
8-3) y columnas (Figura 8-4). Los valores mnimo y mximo
especificados deben ser nmeros enteros. En el anlisis, se truncarn
los valores de los datos fraccionarios. Se ignorar en el anlisis
cualquier valor de categora que est fuera del rango especificado.
Inicialmente, todas las variables estarn sin restringir y activas.
Puede restringir las categoras de fila para igualarlas a otras
categoras de fila (campo Restricciones para las categoras) o puede
definir cualquier categora de fila como suplementaria. Las
categoras deben ser iguales es una restriccin que indica que las
puntuaciones de las categoras deben ser iguales. Utilice las
restricciones de igualdad si el orden obtenido para las categoras
no es el deseado o si no se corresponde con lo intuitivo. El mximo
nmero de categoras de fila que se puede restringir para que sean
consideradas iguales es el nmero total de categoras de fila activas
menos 1. Utilice la sintaxis para imponer restricciones de igualdad
a diferentes conjuntos de categoras. Por ejemplo, utilice la
sintaxis para imponer la restriccin de que sean consideradas
iguales las categoras 1 y 2 y, por otra parte, que sean
consideradas iguales las categoras 3 y 4.
La categora es suplementaria es una restriccin que indica que
las categoras suplementarias no influyen en el anlisis pero se
representan en el espacio definido por las categoras activas. Las
categoras suplementarias no juegan ningn papel en la definicin de
las dimensiones. El nmero mximo de categoras de fila suplementarias
es el nmero total de categoras de fila menos 2.
Figura 8-3 Figura 8-4
-
Contenido
XXV
I
El cuadro de dilogo Modelo (Figura 8-5) permite especificar el
nmero de dimensiones, la medida de distancia, el mtodo de
estandarizacin y el mtodo de normalizacin. En la opcin Dimensiones
en la solucin especifique el nmero de dimensiones. En general,
seleccione el menor nmero de dimensiones que necesite para explicar
la mayor parte de la variacin. El mximo nmero de dimensiones
depende del nmero de categoras activas utilizadas en el anlisis y
de las restricciones de igualdad. El mximo nmero de dimensiones es
el menor entre el nmero de categoras de fila activas menos el nmero
de categoras de fila con restriccin de igualdad, ms el nmero de
conjuntos de categoras de fila que se han restringido y el nmero de
categoras de columna activas menos el nmero de categoras de columna
con restriccin de igualdad, ms el nmero de conjuntos de categoras
de columna que se han restringido.
En el cuadro Medida de distancia puede seleccionar la medida de
distancia entre las filas y columnas de la tabla de
correspondencias. Seleccione Chi-cuadradro (utiliza una distancia
ponderada entre los perfiles, donde la ponderacin es la masa de las
filas o de las columnas siendo una distancia necesaria para el
anlisis de correspondencias tpico) o Eucldea (utiliza la raz
cuadrada de la suma de los cuadrados de las diferencias entre los
pares de filas y entre los pares de columnas.
En el cuadro Mtodo de estandarizacin seleccione la opcin Se
eliminan las medias de filas y columnas para centrar las filas y
las columnas (este mtodo es necesario para el anlisis de
correspondencias tpico), seleccione Se eliminan las medias de filas
slo para centrar las filas, seleccione Se eliminan las medias de
columnas slo para centrar las columnas, seleccione Se igualan los
totales de fila y se eliminan las medias para igualar los mrgenes
de fila antes de centrar las filas. Seleccione Se igualan los
totales de columna y se eliminan las medias para igualar los
mrgenes de columna antes de centrar las columnas.
En el cuadro Mtodo de normalizacin seleccione una de las
siguientes opciones:
Simtrico: para cada dimensin, las puntuaciones de fila son la
media ponderada de las puntuaciones de columna divididas por el
valor propio coincidente y las puntuaciones de columna son la media
ponderada de las puntuaciones de fila divididas por el valor propio
coincidente. Utilice este mtodo si desea examinar las diferencias o
similaridades entre las categoras de las dos variables.
Principal: las distancias entre los puntos de fila y los puntos
de columna son aproximaciones de las distancias en la tabla de
correspondencias de acuerdo con la medida de distancia
seleccionada. Utilice este mtodo si desea examinar las diferencias
entre las categoras de una o de ambas variables en lugar de las
diferencias entre las dos variables.
-
Tcnicas de anlisis de datos con SPSS 15
XXV
II
Principal por fila: las distancias entre los puntos de fila son
aproximaciones de las distancias en la tabla de correspondencias de
acuerdo con la medida de distancia seleccionada. Las puntuaciones
de fila son la media ponderada de las puntuaciones de columna.
Utilice este mtodo si desea examinar las diferencias o
similaridades entre las categoras de la variable de filas.
Principal por columna: las distancias entre los puntos de
columna son aproximaciones de las distancias en la tabla de
correspondencias de acuerdo con la medida de distancia
seleccionada. Las puntuaciones de columna son la media ponderada de
las puntuaciones de fila. Utilice este mtodo si desea examinar las
diferencias o similaridades entre las categoras de la variable de
columnas.
Personalizado: debe especificar un valor entre 1 y 1. El valor 1
corresponde a Principal por columna. El valor 1 corresponde a
Principal por fila. El valor 0 corresponde a Simtrico. Todos los
dems valores dispersan la inercia entre las puntuaciones de columna
y de fila en diferentes grados. Este mtodo es til para generar
diagramas de dispersin biespaciales a medida.
Figura 8-5 Figura 8-6
El botn Estadsticos de la Figura 8-2 nos lleva al cuadro de
dilogo Estadsticos (Figura 8-6), que permite especificar los
resultados numricos producidos. Las opciones posibles son: Tabla de
correspondencias, que ofrece la tabla de contingencia de las
variables de entrada con los totales marginales de fila y columna;
Inspeccin de los puntos de fila, que ofrece para cada categora de
fila las puntuaciones, la masa, la inercia, la contribucin a la
inercia de la dimensin y la contribucin de la dimensin a la inercia
del punto; Inspeccin de los puntos de columna, que ofrece para cada
categora de columna las puntuaciones, la masa, la inercia, la
contribucin a la inercia de la dimensin y la contribucin de la
dimensin a la inercia del punto; Perfiles de fila, que ofrece para
cada categora de fila la distribucin a travs de las categoras de la
variable de columna; Perfiles de col., que ofrece para cada
categora de columna la distribucin a travs de las categoras de la
variable de fila y Permutaciones de la tabla de correspondencias,
que ofrece la tabla de correspondencias reorganizada de tal manera
que las filas y las columnas estn en orden ascendente de acuerdo
con las puntuaciones en la primera dimensin.
-
Contenido
XXV
III
Si lo desea, puede especificar el nmero de la dimensin mxima
para el que se generarn las tablas permutadas. Se generar una tabla
permutada para cada dimensin desde 1 hasta el nmero especificado.
La opcin Estadsticos de confianza para puntos de fila incluye la
desviacin tpica y las correlaciones para todos los puntos de fila
no suplementarios y la opcin Estadsticos de confianza para puntos
de columna incluye la desviacin tpica y las correlaciones para
todos los puntos de columna no suplementarios.
El botn Grficos de la Figura 8-2 nos lleva al cuadro de dilogo
Grficos de la Figura 8-7 que permite especificar qu grficos se van
a generar. La opcin Diagramas de dispersin produce una matriz de
todos los grficos por parejas de las dimensiones.
Los diagramas de dispersin disponibles incluyen: Diagrama de
dispersin
biespacial (produce una matriz de diagramas conjuntos de los
puntos de fila y de columna y si est seleccionada la normalizacin
principal, el diagrama de dispersin biespacial no estar
disponible), Puntos de fila (produce una matriz de diagramas de los
puntos de fila), Puntos de columna (produce una matriz de diagramas
de los puntos de columna). Si lo desea, puede especificar el nmero
de caracteres de etiqueta de valor que se va a utilizar al
etiquetar los puntos. Este valor debe ser un entero no negativo
menor o igual que 20.
La opcin Grfico de lneas produce un grfico para cada dimensin de
la
variable seleccionada. Los grficos de lneas disponibles
incluyen: Categoras de fila transformadas (produce un grfico de los
valores originales para las categoras de fila frente a las
puntuaciones de fila correspondientes) y Categoras de columna
transformadas (produce un grfico de los valores originales para las
categoras de columna frente a las puntuaciones de columna
correspondientes). Si lo desea, puede especificar el nmero de
caracteres de etiqueta de valor que se va a utilizar al etiquetar
los ejes de categoras. Este valor debe ser un entero no negativo
menor o igual que 20.
Figura 8-7
-
Tcnicas de anlisis de datos con SPSS 15
XXI
X
En todas las figuras, el botn Restablecer permite restablecer
todas las opciones por defecto del sistema y elimina del cuadro de
dilogo todas las asignaciones hechas con las variables.
Una vez elegidas las especificaciones, se pulsa el botn Aceptar
en la
Figura 8-2 para obtener los resultados del anlisis de
correspondencias segn se muestra en la Figura 8-8. En la parte
izquierda de la figura podemos ir seleccionando los distintos tipos
de resultados haciendo clic sobre ellos. Tambin se ven los
resultados desplazndose a lo largo de la pantalla.
En la Figura 8-8 se presentan varias salidas tabulares de entre
las mltiples que ofrece el procedimiento. Las Figuras 8-9 a 8-11
presentan salidas grficas del procediminto.
La Figura 8-8 muestra la sintaxis del procedimiento, la tabla
de
contingencia para las dos variables con sus marginales, los
perfiles de fila y columna, que son las proporciones en cada fila y
columna de cada celda basadas en los totales marginales. Los
grficos de puntos fila y columna de las Figuras 8-9 a 8-11
representan estas proporciones para la localizacin geomtrica de los
puntos. La Figura 8-8 tambin muestra un cuadro resumen con la
solucin que representa la relacin entre las variables fila y
columna en tan pocas dimensiones como es posible.
En nuestro caso tenemos dos dimensiones, mostrando la primera
una
cantidad mayor de inercia (el 95% de la inercia total). Los
valores propios pueden interpretarse como la correlacin entre las
puntuaciones de filas y columnas. Para cada dimensin el cuadrado
del valor propio es igual a la inercia y por tanto es otra medida
de la importancia de esa dimensin.
En el examen de los puntos fila y columna (Figuras 8-8) se
ofrecen las
contribuciones a la inercia total de cada punto fila y columna.
Los puntos fila y columna que contribuyen sustancialmente a la
inercia de una dimensin son importantes para esa dimensin. Los
puntos dominantes de la solucin pueden detectarse fcilmente. Por
ejemplo, Japn es un punto dominante de la segunda dimensin ya que
su contribucin a la inercia de esa dimensin es 0,635 y Estados
Unidos en la primera dimensin pues su contribucin es 0,609. Por
otra parte, los coches de 8 cilindros (0,959) y 6 cilindros (0,651)
contribuyen ms que otros a la primera dimensin. A la segunda
dimensin los que ms contribuyen negativamente son los de 4
cilindros (0,096).
-
Contenido
XXX
Figura 8-8
-
Tcnicas de anlisis de datos con SPSS 15
XXX
I
Figura 8-9 Figura 8-10
Figura 8-11
8.7 Anlisis de correspondencias mltiple en SPSS
Utilizaremos anlisis de correspondencias mltiple para observar
la relacin entre la categora laboral (catlab), la clasificacin
tnica (minora) y el gnero (sexo) de los empleados de una empresa.
Los datos se recogen en el fichero empleados.sav
-
Contenido
XXX
II
Para realizar un anlisis de correspondencias mltiple, elija en
los mens Analizar Reduccin de datos Escalamiento ptimo (Figura
8-12). Previamente es necesario cargar en memoria el fichero de
nombre EMPLEADOS mediante Archivo Abrir Datos. Este fichero
contiene datos sobre los trabajadores de una empresa con las
variables catlab, minora y sexo antes descritas.
En el cuadro de dilogo Escalamiento ptimo de la Figura 8-13,
seleccione Todas las variables son nominales mltiples. A
continuacin seleccione Un conjunto, pulse en Definir, y en la
Figura 8-14 seleccione dos o ms variables para el anlisis. Defina
el nmero de categoras para las variables y su agrupacin con el botn
Discretizar (figura 8-15). Si lo desea, tiene la posibilidad de
seleccionar una o ms variables para proporcionar etiquetas de punto
en los grficos de las puntuaciones de objeto (campo Variables de
etiquetado). Cada variable genera un grfico diferente, con los
puntos etiquetados mediante los valores de dicha variable. Mediante
el cuadro de dilogo, no se puede utilizar una misma variable en el
anlisis y como variable de etiquetado. Si se desea etiquetar el
grfico de las puntuaciones de objeto con una variable utilizada ya
en el anlisis, utilice la funcin Calcular en el men Transformar
para crear una copia de dicha variable. Utilice la nueva variable
para etiquetar el grfico. Tambin se puede utilizar la sintaxis de
comandos. En el botn Dimensiones en la solucin especifique el nmero
de dimensiones que desea en la solucin.
En general, seleccione el menor nmero de dimensiones que
necesite para explicar la mayor parte de la variacin. Si el anlisis
incluye ms de dos dimensiones, SPSS genera grficos tridimensionales
de las tres primeras dimensiones. Si se edita el grfico, se pueden
representar otras dimensiones.
El botn Opciones permite seleccionar mtodos de normalizacin,
criterios de iteracin y de convergencia y otras caractersticas del
algoritmo. El botn Grficos Opciones (Figura 8-16) permite
selecionar opciones grficas muy importantes para la interpretacin
de los resultados como el diagrama de representacin biespacial con
sus variables y etiquetas. El botn Grficos Variables (Figura 8-17)
permite selecionar categoras a graficar y medidas discriminantes a
obtener.
Figura 8-12 Figura 8-13
-
Tcnicas de anlisis de datos con SPSS 15
XXX
III
Figura 8-14 Figura 8-15
Figura 8-16 Figura 8-17
En cuanto a los datos, todas las variables son nominales
mltiples y tienen cuantificaciones de categoras que pueden diferir
para cada dimensin. Una vez elegidas las especificaciones (que se
aceptan con el botn Continuar), se pulsa el botn Aceptar en la
Figura 8-14 para obtener los resultados del anlisis de
correspondencias mltiples. En las Figuras 17-Figuras 8-18 a 8-21 se
presentan varias salidas tabulares y grficas de entre las mltiples
que ofrece el procedimiento.
En la Figura 8-18 aparece la historia del proceso de
homogeneizacin a travs de las distintas iteraciones que el
procedimiento considera necesarias para llegar a una solucin de
convergencia que refleje el ajuste total, as como la tabla de
autovalores para cada dimensin del anlisis. Como el anlisis se
realiza sobre los dos primeros ejes o dimensiones, se muestra en
cada una de ellas la medida de la varianza explicada por cada
dimensin. La magnitud de esta varianza es una muestra del grado de
importancia de dicha dimensin en la solucin global. Se observa que
las dos dimensiones son casi igual de importantes ya que los dos
valores propios estn muy prximos.
En la fiura 8-19 se muestra el diagrama conjunto de puntos
categoras que muestra que ser administrativo y mujer est muy
asociado. Tambin se observa buena asociacin entre ser hombre y
directivo.
-
Contenido
XXX
IV
El pertenecer a una minora tnica (S) tambin est bien asociado
con ser administrativo, pero mal asociado con ser directivo.
Pertenecer o no a una minora tnica est igualmente asociado con ser
hombre que con ser mujer. De esta forma se miden las relaciones
entre todas las categoras de las tres variables cualitativas. Las
figuras 8-20 y 8-21 muestran los diagramas de dispersin biespacial
por pares de variables.
Figura 8-18 Figura 8-19
Figura 8-20
-
Tcnicas de anlisis de datos con SPSS 15
XXX
V
Figura 8-21
8.8 Componentes principales no lineales en SPSS
Partimos del fichero 8-3.sav que contiene los resultados de una
encuesta en la que a los individuos encuestados se les peda
manifestar el grado de acuerdo con nueve afirmaciones. Las
respuestas se codifican en las nueve variables tem1 a tem9 y
adicionalmente se clasifican segn la variable sexo. Realizar un
anlisis de no lineal de componentes principales que permita reducir
la dimensin de la informacin original de forma coherente.
Comenzamos cargando en el editor de SPSS los datos del fichero
8-3.sav mediante Abrir Datos y a continuacin se selecciona Analizar
Reduccin de datos Escalamiento ptimo (Figura 8-22). Se obtiene la
pantalla de seleccin del tipo de escalamiento ptimo que se rellena
como se indica en la Figura 8-23 seleccionando CatPCA. Al pulsar en
Definir se obtiene la pantalla de Componentes principales
categricas (Figura 8-24). Con el botn Resultados se elige la salida
que se desea (Figura 8-25) y con los botones del campo Grficos se
elige la salida grfica (Figura 8-26).
-
Contenido
XXX
VI
Figura 8-22 Figura 8-23
Figura 8-24 Figura 8-25
Figura 8-26
Al hacer clic en Continuar y Aceptar se obtiene la salida del
procedimiento de componentes principales categricas CATPCA (Figura
8-27). En la Figura 8-28 se obtiene la salida resumen del modelo
que selecciona dos componentes principales que recogen el 40,538%
de la varianza total del modelo. En la Figura 8-29 se ofrece el
historial de iteraciones hasta llegar a la solucin. En la Figura
8-30 se ve el tanto por ciento de la varianza asociada a cada
variable en cada dimensin. En la Figura 8-31 se recogen las cargas
o saturaciones de cada una de las variables sobre cada una de las
dimensiones del modelo factorial, que representan las proyecciones
de cada variable cuantificada en el espacio de los objetos. Se
trata del coeficiente de correlacin entre cada una de las variables
intervinientes en el modelo con cada una de las dos
dimensiones.
-
Tcnicas de anlisis de datos con SPSS 15
XXX
VII
Figura 8-27 Figura 8-28
Figura 8-29
Figura 8-30 Figura 8-31 En cuanto a las salidas grficas del
procedimiento, en la Figura 8-32 se presenta el grfico de
saturaciones en las componentes que se utiliza para agrupar
nuestras variables en las dos componentes. Est claro que tem2 e
tem6 se asocian con una primera componente e tem4 e tem5 con la
segunda componente. Pero ya no est tan claro con qu componente
principal asociar el resto de las variables. Segn la figura podra
ser lgico asociarlas todas con la primera componente. Tambin podran
asociarse tem7 e tem8 con la primera componente e tem1, tem 3 e
tem9 con la segunda.
No obstante, esta clasificacin de las variables en componentes
tambin puede realizarse observando la tabla de saturaciones en las
componentes de la Figura 8-31. Se observa en esta tabla que para la
componente 2, las saturaciones ms altas las presentan las variables
tem1, tem3 e tem9. Para la componente 1 las saturaciones ms altas
las presentan tem2, tem6, tem4, tem5 e tem 8 (tem 4
-
Contenido
XXX
VIII
e tem5 con valor negativo, por eso aparecen a la izquierda del
grfico). Luego la forma definitiva de agrupar las variables en
componentes sera asociar las variables tem4, tem5, tem2, tem6, tem7
e tem 8 en una componente y las variables tem1, tem3 e tem9 en la
otra componente, siendo las asociaciones ms indefinidas las de las
variables tem7 e tem 8. Se observa que la mejor forma de asociar
las variables a las componentes principales es analizar
simultneamente la tabla de las saturaciones en las componentes de
la Figura 8-31 y el grfico de las saturaciones en las componentes
de la Figura 8-32. La Figura 8-33 presenta la grfica de
puntuaciones de los objetos etiquetadas por el nmero de caso y en
la Figura 8-34 se observa el grfico de dispersin biespacial, que
muestra sobre el mismo grfico las puntuaciones de los objetos
etiquetadas por el nmero de caso y las saturaciones en las
componentes.
Saturaciones en las componentes
Normalizacin principal por variable.
Dimensin 1
,8,6,4,20,0-,2-,4-,6-,8
Dim
ensin
2
,8
,6
,4
,2
-,0
-,2
-,4
-,6
sexo
item9
item8
item7
item6
item5item4
item3
item2
item1
Figura 8-32
Figura 8-33
-
Tcnicas de anlisis de datos con SPSS 15
XXX
IX
Figura 8-34
8.9 Correlacin cannica no lineal en SPSS
Partimos del Fichero 8-4.sav que contiene los resultados de una
encuesta en la que a los individuos encuestados se les peda
manifestar el grado de acuerdo con nueve afirmaciones. Las
respuestas se codifican en las nueve variables tem1 a tem9 y
adicionalmente se clasifican segn la variable sexo. Realizar un
anlisis no lineal de correlacin cannica tomando como primer
conjunto de variables tem1, tem4 e tem6, y como segundo conjunto de
variables tem2, tem3 e tem5. Comenzamos cargando en el editor de
SPSS los datos del fichero 8-4.sav mediante Abrir Datos y a
continuacin se selecciona Analizar Reduccin de datos Escalamiento
ptimo. Se obtiene la pantalla de seleccin del tipo de escalamiento
ptimo que se rellena como se indica en la Figura 8-35 seleccionando
OVERALS (Mltiples conjuntos). Al pulsar en Definir se obtiene la
pantalla de Anlisis de correlacin cannica no lineal (Figura 8-36)
en cuyo campo Variables se introducen el primer conjunto de
variables para el anlisis. Con el botn Definir rango y escala se
declara el mximo y el mnimo de la escala de medida (Figura 8-37).
Se pulsa en Continuar y ya se tiene definido el primer conjunto de
variables (Figura 8-38). Se pulsa en Siguiente y se introduce el
segundo conjunto de variables
-
Contenido
XL
definiendo tambin su rango y escala (Figura 8-39). Con el botn
Opciones se elige la salida que se desea para el anlisis, tanto
tabular como grfica (Figura 8-40). Se pulsa en Continuar y en
Aceptar, con lo que ya tenemos la salida del procedimiento
OVERALS.
Figura 8-35 Figura 8-36
Figura 8-37
Figura 8-38 Figura 8-39
Figura 8-40
-
Tcnicas de anlisis de datos con SPSS 15
XLI
La salida tabular comienza ofreciendo listado de las variables
con los dos grupos de variables que intervienen en el anlisis junto
a su nmero de categoras (Figura 8-41), el historial de iteraciones
y el resumen del anlisis (Figura 8-42). El historial de iteraciones
presenta un informe sobre las iteraciones sucesivas que se llevan a
cabo para establecer una relacin cannica entre los dos conjuntos.
Este proceso de bsqueda de una solucin que satisfaga el valor de
convergencia (llamado valor del test de la convergencia) desemboca
en el clculo de un valor de prdida y otro de ajuste para la
iteracin 0 y la iteracin en la que se produce la convergencia (la
77 en nuestro caso). Tambin se presenta la diferencia entre las dos
ltimas iteraciones (0,000007). En el resumen del anlisis, OVERALS
muestra la prdida por cada conjunto en cada dimensin. La suma de
las prdidas del conjunto 1 y del conjunto 2 deben coincidir. La
prdida media por dimensiones indica una prdida moderada (0,580). El
ajuste de la prueba representa un valor alto (1,420) y los
autovalores (0,751 y 0,670) muestran una distribucin de cargas de
explicacin de la varianza del modelo algo superior en la dimensin 1
que en la 2. La Figura 8-43 presenta la tabla de ponderaciones y la
de saturaciones en las componentes.
Figura 8-41 Figura 8-42
Figura 8-43
-
Contenido
XLII
La tabla de ponderaciones muestra los pesos por cada dimensin
desglosados por un grupo de tems del primer anlisis y por sus
respectivos elementos. Se puede observar la elevada fuerza
explicativa del tem5 dentro de la dimensin 1 y de la carga del tem2
en la dimensin 2. Estas ponderaciones o pesos representan los
coeficientes de correlacin de cada dimensin para todas las
variables cuantificadas de un conjunto, donde las puntuaciones de
los objetos efectan un anlisis de la regresin sobre las variables
cuantificadas.
La tabla de saturaciones en las componentes contempla las cargas
de las componentes por variables simples, es decir las proyecciones
de las variables cuantificadas en el espacio de los objetos. Estas
cargas son una indicacin de la contribucin de cada variable a la
dimensin dentro de cada conjunto. Se aprecia la elevada fuerza
explicativa del tem3, as como las de los tems1 e tem2. El grfico de
saturaciones en componentes (Figura 8-45) representa en el plano de
las dos dimensiones las cargas de las componentes para variables
simples. Como ya hemos dicho, se observa la elevada fuerza
explicativa del tem3 en la dimensin 1, as como la de los tems1 e
tem2 en la dimensin 2. La tabla de ajuste de la Figura 8-44 resume
datos de ajuste mltiple, simple y prdida simple por dimensiones
para cada variable de cada uno de los conjuntos del anlisis.
Figura 8-44
Figura 8-45
-
Tcnicas de anlisis de datos con SPSS 15
XLII
I
8.10 Escalamiento multidimensional mtrico en SPSS
Consideramos la matriz de distancias entre 10 ciudades europeas
siguiente:
Ciudad Atenas Berln Estocolmo Londres Madrid Mosc Pars Roma
Varsovia Viena Atenas 0 . . . . . . . . . Berln 1 774 0 . . . . . .
. . Estoco 2 371 806 0 . . . . . . . Londre 2 355 9 19 1 387 0 . .
. . . . Madrid 2 387 1 855 2 548 1 258 0 . . . . . Mosc 2 177 1 565
1 210 2 419 3 371 0 . . . . Pars 2 065 871 1 516 339 1 048 2 419 0
. . . Roma 1 048 1 177 1 952 1 419 1 371 2 323 1 097 0 . . Varsov 1
581 484 790 1 403 2 258 1 129 1 323 1 290 0 . Viena 1 274 516 1 226
1 210 1 806 1 613 1 016 758 548 0
A partir de estas distancias, realizar un escalamiento mtrico
que site estas ciudades sobre un mapa perceptual que emule el
continente europeo.
Comenzamos introduciendo los datos de las distancias entre
capitales europeas en el editor de SPSS (archivo 8-5.sav) y a
continuacin se selecciona Analizar Escalas Escalamiento
multidimensional (Figura 8-46). Se obtiene la pantalla de entrada
del procedimiento de la Figura 8-47. Con los botones Opciones y
Modelo se obtienen pantallas que se rellenan como se indica en la
Figuras 19-48 y 19-49 (se observa Razn en ivel de medida).
Figura 8-46
Figura 8-47 Figura 8-48
-
Contenido
XLI
V
Figura 8-49
Al pulsar en Continuar y Aceptar, se obtiene la sintaxis del
procedimiento y la salida textual del procedimiento ALSCAL que
expresa las opciones de datos, de modelo, de salida y de algoritmo,
as como el historial de iteraciones y la matriz de coordenadas
normalizadas o coordenadas estmulos. El mapa perceptual de la
Figura 8-50 muestra la situacin de las capitales europeas (sera
necesario un giro adecuado para obtener la situacin real). ALSCAL
VARIABLES= atenas berln estocolm londres madrid mosc pars roma
varsovia vie na /SHAPE=SYMMETRIC /LEVEL=RATIO /CONDITION=MATRIX
/MODEL=EUCLID /CRITERIA=CONVERGE(.001) STRESSMIN(.005) ITER(30)
CUTOFF(0) DIMENS(2,2) /PLOT=DEFAULT /PRINT=HEADER . Alscal
Procedure Options Data Options- Number of Rows
(Observations/Matrix). 10 Number of Columns (Variables) . . . 10
Number of Matrices . . . . . . 1 Measurement Level . . . . . . .
Ratio Data Matrix Shape . . . . . . . Symmetric Type . . . . . . .
. . . . Dissimilarity Approach to Ties . . . . . . . Leave Tied
Conditionality . . . . . . . . Matrix Data Cutoff at . . . . . . .
. ,000000 Model Options- Model . . . . . . . . . . . Euclid Maximum
Dimensionality . . . . . 2 Minimum Dimensionality . . . . . 2
Negative Weights . . . . . . . Not Permitted
-
Tcnicas de anlisis de datos con SPSS 15
XLV
Output Options- Job Option Header . . . . . . . Printed Data
Matrices . . . . . . . . Not Printed ConFigurations and
Transformations . Plotted Output Dataset . . . . . . . . Not
Created Initial Stimulus Coordinates . . . Computed Algorithmic
Options- Maximum Iterations . . . . . . 30 Convergence Criterion .
. . . . ,00100 Minimum S-stress . . . . . . . ,00500 Missing Data
Estimated by . . . . Ulbounds Iteration history for the 2
dimensional solution (in squared distances) Young's S-stress
formula 1 is used. Iteration S-stress Improvement 1 ,00373
Iterations stopped because S-stress is less than ,005000 Stress and
squared correlation (RSQ) in distances RSQ values are the
proportion of variance of the scaled data (disparities)in the
partition (row, matrix, or entire data) which is accounted for by
their corresponding distances. Stress values are Kruskal's stress
formula 1. For matrix Stress = ,00352 RSQ = ,99994 _ ConFiguration
derived in 2 dimensions Stimulus Coordinates Dimension Stimulus
Stimulus 1 2 Number Name 1 ATENAS -,1860 1,9206 2 BERLN -,2171
-,3693 3 ESTOCOLM -,9986 -1,0381 4 LONDRES ,7928 -,9659 5 MADRID
2,1610 -,0867 6 MOSC -2,2021 -,0454 7 PARS ,8881 -,5269 8 ROMA
,6604 ,8665 9 VARSOVIA -,7562 -,0390 10 VIENA -,1423 ,2844
-
Contenido
XLV
I
Figura 8-50
8.11 Escalamiento multidimensional no mtrico en SPSS
En este caso se trata de estudiar las relaciones que existen
entre 10 tipos diferentes de delitos. Para ello se han formado
todos los pares posibles de delitos y se han ordenado estos pares
en funcin de su similitud como sigue:
Delito Homic Atraco Robo Violacin Agresi Desfal Chant Secues
Contra Terr Homic 0 . . . . . . . . . Atraco 21 0 . . . . . . . .
Robo 11 2 0 . . . . . . . Violaci 3 7 9 0 . . . . . . Agresi 6 4 12
5 0 . . . . . Desfalc 45 26 13 40 36 0 . . . . Chantaj 29 28 25 20
22 37 0 . . . Secues 18 23 16 15 14 41 10 0 . . Contrab 34 31 24 30
27 43 42 38 0 . Terroris 8 35 33 32 17 44 19 1 39 0
A partir de esta matriz de similaridades entre delitos
(contenida en el fichero 8-6.sav, realizar un escalamiento no
mtrico que site estos delitos sobre un mapa perceptual que aclare
la clasificacin y las relaciones convenientemente.
Comenzamos introduciendo los datos de las similitudes entre
delitos en el editor de SPSS y a continuacin se selecciona Analizar
Escalas Escalamiento
-
Tcnicas de anlisis de datos con SPSS 15
XLV
II
multidimensional (Figura 8-51). Se obtiene la pantalla de
entrada del procedimiento de la Figura 8-52. Con los botones
Opciones y Modelo se obtienen pantallas que se rellenan como se
indica en la Figuras 8-53 y 8-54 (se observa Ordinal en ivel de
medida).
Figura 8-51
Figura 8-52 Figura 8-53
Figura 8-54
El anlisis MDS muestra que la solucin en dos dimensiones
proporciona un buen ajuste (buena convergencia y buenos valores de
Stress y RSQ), proporcionando la matriz X de coordenadas en dos
dimensiones. La interpretacin grfica de esta matriz se observa en
la Figura 8-55. La salida es la siguiente: ALSCAL VARIABLES=
homicidi atraco robo violaci agrsin desfalco chantaje secuestr co
ntraba terroris /SHAPE=SYMMETRIC /LEVEL=ORDINAL
-
Contenido
XLV
III
/CONDITION=MATRIX /MODEL=EUCLID /CRITERIA=CONVERGE(.001)
STRESSMIN(.005) ITER(30) CUTOFF(0) DIMENS(2,2) /PLOT=DEFAULT ALL
/PRINT=DATA HEADER . Alscal Procedure Options Data Options- Number
of Rows (Observations/Matrix). 10 Number of Columns (Variables) . .
. 10 Number of Matrices . . . . . . 1 Measurement Level . . . . . .
. Ordinal Data Matrix Shape . . . . . . . Symmetric Type . . . . .
. . . . . . Dissimilarity Approach to Ties . . . . . . . Leave Tied
Conditionality . . . . . . . . Matrix Data Cutoff at . . . . . . .
. ,000000 Model Options- Model . . . . . . . . . . . Euclid Maximum
Dimensionality . . . . . 2 Minimum Dimensionality . . . . . 2
Negative Weights . . . . . . . Not Permitted Output Options- Job
Option Header . . . . . . . Printed Data Matrices . . . . . . . .
Not Printed ConFigurations and Transformations . Plotted Output
Dataset . . . . . . . . Not Created Initial Stimulus Coordinates .
. . Computed Algorithmic Options- Maximum Iterations . . . . . . 30
Convergence Criterion . . . . . ,00100 Minimum S-stress . . . . . .
. ,00500 Missing Data