Analisis Con Multiples Variables

ANALISIS CON MULTIPLES VARIABLES

Tablas de Contingencia o Cruzadas con SPSS

Hasta ahora hemos analizado cada una de las variables por separado, sin tener en cuenta las consecuencias de la interacción con las demás variables. Para esta labor, SPSS cuenta con una variedad de procedimientos que nos permiten analizar los efectos de la interacción en el comportamiento de las variables, a través de procesos de relación o mediante comparaciones de grupos. Dentro de los procedimientos más útiles y empleados para realizar este tipo de actividades, encontramos las tablas de contingencia, las variables de respuesta múltiple y los cubos OLAP.

Las tablas de contingencia nos permiten examinar o comparar los datos de dos o más variables a través de la frecuencia o el porcentaje de cada uno de los cruces de las categorías de las variables involucradas. Por el contrario, las variables de respuesta múltiple nos permiten examinar las diferentes respuestas que nos ofrece cada uno de los encuestados a una pregunta específica, determinando aspectos característicos como la marca de mayor recordación, el porcentaje de reconocimiento, etc.

Por último, los cubos OLAP nos permiten identificar el comportamiento de los datos de una o varias variables de escala a través de las diferentes combinaciones de las opciones múltiples variables categóricas. Cada uno de estos procedimientos será abordado en el transcurso del capítulo, intentando hacer una pequeña explicación de sus propiedades, aplicaciones y la forma de obtenerlo a través del paquete.

Indice Temático -Capítulo VI: Análisis con Múltiples Variables Lección 1 Tablas Contingencia

Lección 2 Cruzadas 3 Variables

Lección 3 Tablas 2 Var en Filas

Lección 4 Gráficos Cruzadas

Lección 5 Opciones Contingencia

Lección 6 Porcentaje Fila Columna

Lección 7 Porcentajes Cruzadas

Lección 8 Pruebas Estadísticas

Lección 9 Respuestas Múltiples

Lección 10 Dicotomías Múltiples

Lección 11 Conjuntos Múltiples

Lección 12 Frecuencia Múltiples

Lección 13 Cruzadas Múltiples

http://www.spssfree.com/spss/multiples1.html













Lección 14 Estadísticos Múltiples

Lección 15 Cubos OLAP de SPSS

Lección 16 Estadísticos OLAP

Lección 17 Diferencias OLAP

Lección 18 Diferencias Escala

Lección 19 Diferencia Categorías

Lección 20 Títulos Cubos OLAP

Las tablas de contingencia nos permiten realizar comparaciones de Relación / Independencia entre dos o más variables categóricas, ya sean de tipo Nominal u Ordinal. En este tipo de tablas se definen las categorías de una variable a través de la frecuencia o el porcentaje de las categorías de una segunda variable.

Para comprender el concepto nos apoyaremos en los resultados de la encuesta piloto realizada a 20 personas cuyas preguntas son ¿Género del encuestado? y ¿Tiene teléfono celular?. Los resultados de estas preguntas se plasman en las tablas de la figura [6-1]. Si nos fijamos en los resultados de la tabla del Género, notaremos que el 35 % de los encuestados corresponde a los hombres, mientras el 65 % restante corresponde a las mujeres.

Así mismo, si nos fijamos en la tabla de tenencia de teléfono celular, observaremos que el 40 % de los encuestados si tiene, mientras el 60 % no tiene. A través de una tabla de contingencia podemos obtener la relación de estas dos preguntas, identificando aspectos como ¿cuántos hombres tienen teléfono celular? o ¿cuantas mujeres no tienen teléfono celular?.

Figura 6-1

Para generar una tabla de contingencia, es necesario vincular las categorías de una de las variables en las Filas y las categorías de la segunda variable en las Columnas. Si introducimos las categorías de la variable Género en las Filas y las categorías de la variable Teléfono celular en las Columnas obtendríamos la tabla de la figura [6-2], en donde la posición uno (1) representa a los hombres que tienen teléfono, la posición dos (2) representa a los hombres que No tienen teléfono; la posición tres (3) representa a las mujeres que tienen teléfono y la posición cuatro (4) a las mujeres que No tienen teléfono.

Para hallar la frecuencia de cada una de estas opciones, es necesario acudir a los datos y verificar cuantos de los hombres y mujeres tienen teléfono y cuantos no. Los resultados de este procedimiento son expuestos en la figura 6-3. Además de las frecuencias de cada uno de los cruces de categorías, también se acostumbra introducir Totales en las filas y columnas, con el fin de obtener la mayor cantidad de información posible de las variables.








Figuras 6-2 y 6-3

Si nos fijamos en la tabla de la figura [6-3], notaremos que los dos totales dan como resultado final, el número de encuestados (que para el caso corresponde a 20). La única condición que debe cumplir un caso (Respuestas de un encuestado) para ser incluido en la tabla de contingencia, es tener una respuesta o valor valido en las dos o más variables que compongan la tabla de lo contrario, el caso será excluido. Por ejemplo, si uno de los encuestados no responde la pregunta del Género, pero si la del Teléfono o viceversa, el caso será excluido al momento de generar la tabla de contingencia.

Las tablas de contingencia pueden servir a diferentes propósitos como el análisis descriptivo, en cuyo caso el objetivo es proporcionar información condensada que describa las categorías de las variables involucradas, sin realizar comparaciones explicitas que generen conclusiones de una población. A su vez este tipo de tablas también pueden ser empleadas para la generación de análisis de Inferencia, en donde se intenta extraer conclusiones sobre las relaciones de las variables que puedan ser aplicadas a una población.

Para este objetivo se emplean pruebas estadísticas a los datos de una muestra (por lo general la prueba de independencia de Chi-cuadrado). Para generar una tabla de contingencia es necesario tener un archivo de datos abierto en el Editor de datos de SPSS. Los ejemplos de este capítulo se realizarán con los datos del archivo Cruces.sav incluido en la carpeta Capítulo6 del CD adjunto, por lo que debemos ir al menú Archivo..Abrir..Datos y por medio de la ventana de navegación ubicar el archivo en la unidad de CD ROM.

Una vez abierto el archivo, podemos ejecutar el procedimiento, el cual se encuentra en el menú Analizar... Estadísticos descriptivos...Tablas de contingencia [Fig.6-4]; al hacer clic sobre el procedimiento aparece el cuadro de diálogo correspondiente [Fig.6-5]. Este cuadro de diálogo esta dividido en cuatro secciones (Lista de variables, Casillas de selección, Opciones de resultados y Botones de opción).

Figuras 6-4 y 6-5

En la sección Casillas de selección, encontramos las tres ubicaciones que podemos emplear para las variables de la tabla (Filas, Columnas o Capas); al ingresar una variable a la casilla Filas, sus categorías definen cada una de las filas de datos de la tabla; a su vez al ingresar una variable en la casilla Columnas, sus categorías definen cada una de las columnas de la tabla.

Si se ingresan múltiples variables a una de las casillas, el programa genera una tabla de contingencia para cada combinación de variables de fila y columna. Por último encontramos la casilla de Capa; al ingresar una variable en esta casilla, el programa genera una tabla de contingencia para cada una de las categorías de la variable de Capa.

Para comprender mejor la metodología empleada en las tablas de contingencia y los elementos que nos facilita el procedimiento, en las siguientes lecciones vamos a generar una serie de ejemplos, intentando aumentar la complejidad de forma gradual.

Tablas Cruzadas con 2 y 3 Variables en SPSS

Para comprender mejor la metodología empleada en las tablas de contingencia y los elementos que nos facilita el procedimiento, vamos a generar una serie de ejemplos, intentando aumentar la complejidad de forma gradual. Para nuestro primer ejemplo, vamos a generar una tabla de contingencia simple.

TablPara realizarlo, debemos ubicar en la lista de variables la variable Estado civil y la ingresamos en la casilla de las filas; sucesivamente ubicamos la variable Género del encuestado y la ingresamos en la casilla Columnas. Después de introducir las variables en las casillas hacemos clic en Aceptar con lo que la tabla será creada en el visor de resultados de SPSS [Fig.6-6].

Por defecto el programa genera dos tablas; la primera resume el procesamiento de los casos, mostrando el número de casos validos y perdidos, así como sus respectivos porcentajes. Esta tabla

es meramente informativa y su utilidad radica en la capacidad de informarnos el número casos que son tenidos en cuenta en los resultados de la tabla de contingencia (Frecuencias o porcentajes). Si nos fijamos en la columna correspondiente a perdidos, notaremos que en esta ocasión no existe ningún valor perdido; para que un caso sea tomado como perdido, debe contar con un valor perdido en alguna de las dos variables involucradas en la tabla.

Figura 6-6

La segunda tabla que aparece en los resultados corresponde directamente a la tabla de contingencia, en ella se ubican cada una de las variables en sus respectivas dimensiones (Estado civil en las filas y Género en las columnas); además, en la tabla se vinculan los totales de las dimensiones, especificando el contenido de cada categoría. Esta es sin ninguna duda la aplicación más sencilla de una tabla de contingencia, ya que su finalidad es netamente descriptiva.

Ahora generaremos una tabla un poco más compleja ingresando una nueva variable en la dimensión de capa. Para lograrlo debemos volver al cuadro de diálogo, ubicar la variable Clase social (Claseso) en la lista e ingresarla en la casilla de capa; después de ingresarla hacemos clic en Aceptar con lo que la tabla se genera en el visor de resultados [Fig.6-7].

Figura 6-7

Si nos fijamos en la tabla de resumen del procesamiento de los datos, notaremos que en esta ocasión sólo se tuvieron en cuenta 299 casos correspondientes al 99.7 % de los datos; esto se debe a que uno de los casos no cuenta con respuestas validas para las tres variables y por lo tanto es omitido del análisis. Asimismo, si nos fijamos en la tabla de contingencia, notaremos que el programa ha generado cuatro diferentes divisiones (una por cada categoría de la variable Clase social), ubicándolas una debajo de otra.

Cada una de estas divisiones describe las características del Género y estado civil de los individuos pertenecientes a la categoría o clase social (Alta, Media, Trabajadora y Baja). Si observamos los totales de cada categoría de la Clase Social, apreciaremos que cada uno de ellos cuenta con un valor diferente, este suceso se debe a que en las tablas de contingencia de múltiples variables, los totales no representan la frecuencia de las variables de Fila sino describen las frecuencias de las categorías de la variable de Capa.

Gracias a esta propiedad podemos conocer información especifica como ¿Cuantos individuos de clase baja están casados? ó ¿Cuántas mujeres de clase media viven en Unión libre?; para ubicar esta información en la tabla de contingencia, debemos partir de las características de mayor rango e ir ubicando dentro de ella las de menor rango; es decir, si por ejemplo queremos conocer el número de individuos de clase media que se encuentran Divorciados, lo primero que debemos hacer es ubicar la clase social Media, dentro de ella ubicamos la categoría de interés (estado civil Divorciado) y una vez ubicada seguimos la fila hasta encontrar la columna Total; el valor que se ubique en esta

posición corresponde al número de personas que cumplen con las condiciones requeridas, que para el caso seria (19); lo que nos indicaría que 19 personas de la encuesta son de clase media y a su vez se encuentran divorciados.

Si por el contrario lo que deseamos es conocer el número de hombres de la clase trabajadora que son solteros, lo que debemos hacer es ubicar primero la división correspondiente a la clase trabajadora, en ella ubicamos el Estado civil Soltero y seguimos su fila hasta llegar a la columna Masculino; el valor que se encuentra en esta casilla (39), representa al número de hombres de clase trabajadora que son solteros [Fig.6-8].

Figura 6-8

En algunas ocasiones parte de las categorías de la variable de Fila, no son incluidas dentro de las divisiones debido a que no se encuentran valores pertenecientes a estas categorías dentro de los datos. Si nos fijamos en la categoría correspondiente a la Clase social Baja de la tabla de contingencia [Fig.6-9], notaremos que las categorías del Estado civil (Divorciado y Unión libre), no son incluidas en los resultados.

Figura 6-9

Debemos tener cuidado de no sacar conclusiones apresuradas de este tipo de sucesos, ya que este fenómeno no necesariamente es un reflejo del comportamiento de la población, sino que puede ser producido por un error en la aleatoriedad de los individuos seleccionados para la encuesta, comúnmente denominado Sesgo muestral (Tendencia a favorecer una clase social por parte del investigador).

as Cruzadas con 3 Variables en SPSS

Otra de las aplicaciones que se pueden generar con las tablas de contingencia se presenta cuando se ingresan múltiples variables en las casillas de Fila o Columna; en este caso el programa genera una

tabla de contingencia por cada una de las posibles combinaciones entre las variables. Para comprender este procedimiento, vamos efectuar un ejemplo ingresando dos (2) variables dentro de la casilla columnas.

Para realizarlo debemos volver al cuadro de diálogo e ingresar la variable Clase social (Claseso) dentro de la casilla Columnas; dado que esta variable se encuentra en el panel de Capa, debemos primero devolverla a la lista de variables (Seleccionarla y hacer clic en el botón flecha de desplazamiento) y una vez se encuentra en la lista, la ingresamos a la casilla Columnas. Para finalizar hacemos clic en Aceptar con lo cual las tablas serán creadas en el visor de resultados de SPSS [Fig.6-10].

Figura 6-10

Como de costumbre, el programa nos ofrece primero la tabla correspondiente al resumen del procesamiento de los casos; si nos fijamos en la combinación Estado civil * Clase social, notaremos que se excluyó uno de los casos, debido a que cuenta con un valor perdido para la variable Clase social. Ahora si observamos los resultados subsecuentes, notaremos como aparecen las tablas de contingencia de cada una de las posibles combinaciones entre las variables (Estado civil * Género y Estado civil * Clase social). Cada una de estas tablas son independientes y los resultados de las casillas no se ven afectados por la variable que no sea relacionada.

Ahora, si por el contrario se ingresan múltiples variables en la casilla de Capa, tendríamos dos opciones; la primera es generar tablas de contingencia diferentes para cada una de las variables de capa y la segunda corresponde a seguir aumentando el número de variables de control dentro de la misma tabla; es decir, aparecerían más divisiones en las que se incluirían las variables de filas y columnas, así como las categorías de la primera variable de Capa, aumentando el tamaño de la tabla.

Para definir variables de capa de segundo nivel debemos primero ingresar una variable a la casilla de capa (esta primera variable queda automáticamente definida como variable de control de primer nivel), para definir una segunda variable de control de segundo nivel debemos hacer clic en el botón siguiente que aparece al costado derecho de la sección, antes de ingresarla a la casilla [Fig.6-11]. SPSS nos permite definir hasta 8 diferentes niveles de variables de control con un máximo de seis variables por nivel. Desde luego a medida que se aumente el número de variables de capa, aumentará la complejidad de la tabla y sucesivamente se reduce el valor de los totales, ya que se hace una descripción más específica de los datos.

Figura 6-11

Por el momento no profundizaremos en los efectos de incluir múltiples variables en las capas y por el contrario nos enfocaremos en las demás secciones del procedimiento. La segunda sección del cuadro de diálogo de las tablas de contingencia corresponde a las Opciones de resultados; en esta sección se encuentran las opciones Mostrar gráfico de barras agrupado y Suprimir tablas.

Al activar la primera de las opciones aparecerán en los resultados los gráficos de cada una de las tablas de contingencia; si se emplean variables de capa, el programa genera un gráfico de barras por cada una de las divisiones o categorías de esta variable (Capa).

Los gráficos de barras de este procedimiento, sólo se realizan en dos dimensiones y sus ejes están definidos por la variable preincorporada Recuento en el eje vertical, la variable de Filas en el eje horizontal y la variable que se encuentre en las Columnas como variable de leyenda de Color. Si a su vez se selecciona la opción Suprimir tablas, los resultados del procedimiento sólo contendrán los gráficos de las tablas de contingencia.

Para comprender estas opciones en la siguiente leccion generaremos algunos ejemplos.

Graficos en las Tablas Cruzadas con SPSS

Para comprender los efectos de estas opciones generaremos algunos ejemplos. Antes de crear la tabla debemos volver al cuadro de diálogo y hacer clic en el botón Restablecer con lo cual se retoma la configuración original del procedimiento. Para el primer ejemplo ingresaremos la variable Estado civil (Estciv) en la casilla Filas y la variable Género del encuestado en la casilla Columnas, a continuación activamos la opción Mostrar los gráficos de barras agrupado, haciendo clic sobre la opción; para comprobar que la opción ha sido activada aparece un visto bueno en la casilla ( ); para finalizar hacemos clic en Aceptar con lo que los resultados se crean en el visor [Fig.6-12].

Figura 6-12

Si nos fijamos en los resultados notaremos que ahora aparece además de las tablas de recuento y contingencia, su respectivo gráfico; es necesario resaltar que el gráfico hace una comparación de la frecuencia del Género por cada uno de los estados civiles. Si observamos cada una de las barras notaremos que cuentan con colores distintos para el género Femenino y Masculino, esto se debe a que la variable Género define la leyenda de color y por lo tanto sus categorías cuentan con colores distintos para facilitar su reconocimiento.

Ahora generaremos un ejemplo con variables de Capa, para lo que volvemos al cuadro de diálogo e ingresamos la variable Clase social en la casilla de Capa y posteriormente activamos la opción Suprimir tablas; para finalizar hacemos clic en Aceptar con lo cual los gráficos serán creados en el visor de resultados [Fig.6-13].

Figura 6-13

Si nos fijamos en los resultados notaremos que cada uno de los gráficos representa la distribución de frecuencias de una de las categorías de las variables de capa (para el caso Clase social); en estos gráficos el número de casos que se incluyen depende de la frecuencia de la variable de capa, además es posible que algunas de las Categorías de la variable de Filas (eje horizontal), no sean incluidas, debido a que no aparecen en los datos de encuestados con estas características.

La última sección que encontramos en el cuadro de diálogo del procedimiento Tablas de contingencia corresponde a los Botones de opción; en ellos se localizan las propiedades para definir el orden, la forma de los resultados, las pruebas estadísticas o la precisión de los análisis. Para describir estas opciones, en la siguiente leccion realizaremos una serie de ejemplos iniciando por las propiedades más sencillas e iremos aumentando la complejidad.

Opciones de las Tablas Cruzadas de SPSS

La última sección que encontramos en el cuadro de diálogo del procedimiento Tablas de contingencia corresponde a los Botones de opción; en ellos se localizan las propiedades para definir el orden, la forma de los resultados, las pruebas estadísticas o la precisión de los análisis. Para describir estas opciones, en la siguiente leccion realizaremos una serie de ejemplos iniciando por las propiedades más sencillas e iremos aumentando la complejidad.

Para activar la totalidad de los botones de opción es necesario que la propiedad Suprimir tablas este desactivada.. La primera opción que observaremos corresponde al Botón de Formato; al hacer clic en él, aparece el cuadro de diálogo correspondiente [Fig.6-14]. En este cuadro encontramos las opciones de orden de la tabla de contingencia, a través de ellas podemos elegir la forma en que serán ordenados los resultados, contando con sólo dos posibilidades (Ascendente o Descendente); las opciones de orden hacen referencia a la manera como se ubican las categorías de la variable de

Filas y se determina de acuerdo al valor (Número) que se le haya asignado a cada categoría en las propiedades de variables.

Figura 6-14

Por defecto el programa mantiene la opción Ascendente preseleccionada, lo que nos garantiza que las categorías mantendrán el mismo orden que se le haya definido a las variables. Por el momento no variaremos el orden de las filas por lo que hacemos clic en el botón Continuar, de manera que volvemos al cuadro de diálogo principal. El segundo botón de opción que encontramos corresponde a Casillas; al hacer clic en él aparece el cuadro de diálogo Mostrar en casillas [Fig.6-15]. En este cuadro encontramos tres secciones de selección para las casillas identificadas como Frecuencias, Porcentajes y Residuos.

Figura 6-15

En la sección Frecuencias encontramos las opciones Observadas y esperadas; las frecuencias Observadas corresponden a los recuentos de los datos del archivo, mientras las frecuencias Esperadas hacen referencia al número de observaciones que deberían hallarse en cada casilla para que no exista una relación estadísticamente significativa entre las variables de Columnas y Filas; desde luego esta opción es sólo aplicable al análisis de inferencia.

La segunda sección corresponde a Porcentajes, en ella se puede definir los porcentajes que se anexarán a la tabla de contingencia; entre las opciones que nos brinda el procedimiento están los porcentajes de Fila, Columna y Total (Capa). La última sección corresponde a los Residuos; entre

las opciones de residuo encontramos No tipificados (representan la diferencia entre las frecuencias observadas y las esperadas; un residuo positivo indica que la frecuencia en la casilla es más alta de los que habría en ella si las variables de fila y columna fueran independientes), Tipificados (El residuo dividido por una estimación de su error típico; estos residuos tienen una media de 0 y una desviación típica de 1) y Tipificados corregidos (corresponde al valor no tipificado dividido por una estimación de su error típico.

Estos valores expresan unidades de desviación típica, por encima o por debajo de la media); Los residuos son empleados para la comprobación de ciertos parámetros de la estadística de inferencia, por el momento no profundizaremos en este tema ya que no se encuentra dentro de los objetivos del libro.

Para la versión 12.0 de SPSS, el procedimiento Tablas de contingencia anexa en el cuadro de diálogo Mostrar en las casillas una cuarta sección identificada como Ponderaciones no enteras. Esta nueva sección se incluye debido a que generalmente los recuentos de las casillas suelen ser valores enteros, ya que representan el número de casos de cada casilla.

Sin embargo, si el archivo de datos está ponderado en un momento determinado, por una variable de ponderación con números fraccionarios (por ejemplo, 1,25), los recuentos de las casillas pueden resultar con valores decimales. A través de esta sección se puede truncar o redondear estos valores antes o después de calcular los recuentos de las casillas o bien utilizar recuentos de casillas fraccionarios en la presentación de las tablas y los cálculos de los estadísticos.

Si se selecciona la opción Redondear frecuencias de casillas, las ponderaciones de los casos se utilizan tal cual, pero los valores de las casillas se redondean antes de calcular cualquier estadístico. Si por el contrario se emplea la opción Truncar frecuencias de casillas, las ponderaciones de los casos se utilizan tal cual, pero las ponderaciones acumuladas de las casillas se omiten antes de calcular cualquier estadístico.

Si se selecciona la opción Redondear ponderaciones de casos, las ponderaciones de los casos se redondean antes de utilizarlas. Al seleccionar la opción Truncar ponderaciones de casos, las ponderaciones de los casos se cortan antes de utilizarlas por lo que la tabla no tendrá en cuenta los valores de ponderación. Si se utiliza la última opción (Sin ajustes), las ponderaciones de los casos se utilizan sin cambios y se emplean valores fraccionarios en las frecuencias de cada casilla.

Sin embargo, cuando se solicitan estadísticos exactos (disponibles sólo con el módulo Pruebas exactas), las ponderaciones acumuladas de las casillas se trucan o se redondean antes de calcular los estadísticos de la prueba exacta.

Porcentajes de Fila, Columna y Tabla de SPSS

Una de las principales dificultades que se pueden presentar con una tabla de contingencia, surge al momento de vincular dentro de los resultados las opciones de porcentaje (Fila, Columna y Total); generalmente la interpretación de estos porcentajes ocasiona confusión al momento de extraer las conclusiones.

Para comprender la metodología empleada por el programa para la generación de estos parámetros, nos apoyaremos en el primer ejemplo de este capítulo, correspondiente a la encuesta piloto realizada a 20 personas con las preguntas ¿Género del encuestado? y ¿Tiene teléfono celular?. Los resultados del cruce de estas dos variables se exponen en la tabla de la figura 6-16. Es necesario aclarar que en las tablas de contingencia, el total que se ubica en las columnas representa las sumas de las frecuencias de las categorías de la variable de fila y el que se encuentran en las Filas representa la suma de las categorías de la variable de columna.

Figura 6-16

En cada una de las casillas de una tabla de contingencia se pueden incluir los valores de los porcentajes de Fila, Columna y Total (Tabla); para facilitar la ubicación e interpretación, emplearemos como guía en la obtención de los porcentajes, los números de identificación de casilla de la tabla de la figura [6-17].

Figura 6-15

A manera de ejemplo hallaremos el valor de cada uno de los porcentajes de Fila, Columna y Total, empleando la metodología del programa para la obtención de los cálculos, en los datos de la tabla de la figura [6-16]. El porcentaje de fila se obtiene al dividir la frecuencia de la casilla por el total de la fila (los totales de fila se ubican en las casillas 5 y 6), y multiplicar este resultado por el 100%. Por ejemplo, para sacar el porcentaje de fila de la casilla 1 (Hombre y si tiene teléfono celular), se debe dividir el valor de la frecuencia (4), en el total de hombres (7) y multiplicar este resultado por el 100%, es decir

Para las casillas 2, 3 y 4 sería:

Para los totales de columna (Casillas 7 y 8) serían:

Note que en los porcentajes de fila para los totales de columna, los valores son divididos por el total de casos involucrados en la encuesta (20). Al contrario de los totales de columna, para calcular el porcentaje de fila de los totales que representan la dimensión (Filas), se debe realizar la suma de los valores porcentuales de las casillas de la fila. Por ejemplo, el valor del porcentaje de fila para el total de los hombres es igual a la suma de los porcentajes de las columnas Si y No (Casillas 1 y 2 de la tabla de la figura 6-16); es decir

Al ingresar estos valores dentro de las respectivas casillas de la tabla de contingencia obtendríamos los resultados de la tabla de la figura [6-18].

Figura 6-18

Para obtener los porcentajes de Columna se aplica el mismo principio con la diferencia que las frecuencias se dividen por los totales de columna (Valores de la última fila casillas 7 y 8); al realizar los cálculos obtendríamos:

Para calcular los porcentajes de columna de los totales de la dimensión (Columnas) casillas 7, 8 y 9 [Fig.6-16], se deben sumar los porcentajes de las casillas de las columnas, con lo que tenemos

Al ingresar los valores a la tabla de contingencia obtendremos los resultados de la figura [6-19].

Figura 6-19

Ahora, para obtener el porcentaje del Total (comúnmente denominado % de Tabla), es necesario dividir cada uno de los valores del recuento de cada casilla por el número total de casos que se incluyeron en la tabla de contingencia. Aplicado en el ejemplo, equivale a tomar la frecuencia de cada casilla y dividirla por el número de encuestas que para el caso corresponde al número 20; los resultados de los cálculos se observan en la tabla de la figura 6-20. Dado que este tipo de porcentaje determina la proporción de cada casilla respecto al total de los datos (Encuestados), sólo es posible encontrar un valor del 100%, el cual equivale al total de casos.

Figura 6-20

Ahora que conocemos la metodologia empleada para calcular los distintos porcentajes, en el siguiente capitulo nos concentraremos en la forma de sacarlos con SPSS.

Porcentajes de Fila, Columna y Tabla con SPSS

Ahora que conocemos la metodología empleada por el programa para la obtención del valor de los porcentajes de Fila, Columna y Total (Tabla), nos concentraremos en la forma de generarlos a través del procedimiento, así como la manera de interpretar los resultados en una tabla de contingencia. Antes de sacar las conclusiones es necesario generar la tabla, por lo que debemos volver al cuadro de diálogo ya sea mediante el botón Recuperar cuadro de diálogo ( )o a través de la ruta Análisis..Estadísticos descriptivos..Tablas de contingencia.

Una vez aparece el cuadro de diálogo, hacemos clic en el botón Restablecer para retomar la configuración inicial del procedimiento. Para obtener los porcentajes es necesario definir primero las variables que serán involucradas en la tabla, por lo que nos dirigimos a la lista de variables, ubicamos la variable Estado civil (Estciv) y la ingresamos en la casilla Filas; posteriormente ubicamos en el listado la variable Género del encuestado y la ingresamos en la casilla Columnas. A continuación hacemos clic en el botón Casillas, de manera que aparezca el cuadro de diálogo correspondiente, donde activamos las opciones de porcentajes para Fila, Columna y Total.

Podemos cercioramos que los porcentajes han sido activados si aparece un visto bueno en la casilla de selección ( ). Después de activar las opciones, hacemos clic en el botón Continuar con lo que volveremos al cuadro de diálogo principal. Para finalizar hacemos clic en Aceptar de modo que la tabla se crea en el visor de resultados de SPSS [Fig.6-21].

Las tablas de contingencia suelen introducir las etiquetas de las variables de dimensión (Filas, Columnas) dentro de las leyendas de los porcentajes; esta es una propiedad exclusiva de este procedimiento ya que en los demás métodos de creación de tablas del paquete, aparecen generalmente las leyendas %Fila, %Col y %Total. Para la tabla de la figura [6-21], la leyenda (% de Estado civil) corresponde al porcentaje de Fila, la leyenda (% de Género) al porcentaje de columna y la leyenda (% del total) al porcentaje de tabla.

Figura 6-21

Si nos fijamos en los resultados de la tabla de contingencia, notaremos que aparecen dentro de cada casilla tres porcentajes distintos (% de Estado civil, %del Género y % del Total), cada uno de estos valores nos indica una conclusión diferente y su interpretación debe realizarse teniendo en cuenta el tipo de porcentaje que representa. A manera de ejercicio se han resaltado algunos valores en la tabla, ¿Podría interpretarlos?.

Para interpretar el valor del porcentaje de Fila en una casilla, debemos leer primero la categoría de la fila y después concluir sobre la categoría de la columna. Por ejemplo, si queremos interpretar el valor del % de Estado civil (% de fila) resaltado en la figura [6-22], debemos leer primero el valor “48.5%”, sucesivamente la categoría de la fila a la que pertenece “Soltero” y concluir sobre la categoría de la columna “Masculino”; al organizar la oración obtendríamos (48.5% Soltero Masculino), lo que nos indicaría que el 48.5% de las personas solteras son hombres o también (de las personas solteras el 48.5% corresponden al género masculino). Debemos tener cuidado de no confundir el nombre de la categoría con las leyendas del valor, para aclarar la ubicación de estos dos parámetros se anexan los títulos de cada parámetro dentro de la tabla de la figura [6-22].

Figura 6-22

Para interpretar el valor del porcentaje de columna se invierte la acción; es decir, se lee primero la categoría de columna y se concluye sobre la categoría de la fila. Por ejemplo, para interpretar el valor del % de Género (% Col) resaltado en la tabla de la figura 6-22, debemos leer primero el valor (15.6%), sucesivamente la categoría de columna a la que pertenece (Femenino) y concluir sobre la categoría de la fila (Casado); al organizar la oración obtendríamos (15.6% Femenino Casado), lo que nos indicaría que el 15.6 % de las mujeres son casadas.

Por último encontramos el porcentaje del total; para la interpretación de estos valores se debe tener en cuenta que sus conclusiones se hacen sobre la totalidad de los encuestados y no sobre las categorías de cruce, por lo que el orden de las categorías se basa en la gramática de la oración. Por ejemplo, al interpretar el valor del % del total resaltado en la figura [6-22], obtendríamos que el 1.0% de los Encuestados son hombres casados ó los hombres casados corresponden al 1 % de los encuestados.

Pruebas Estadisticas - Tablas de Contingencia

Hasta ahora sólo hemos empleado las tablas de contingencia de manera descriptiva, sin involucrar las pruebas estadísticas de asociación e independencia. Para poder determinar si existe una relación entre dos variables no basta con los porcentajes o los recuentos, la relación debe ser comprobada mediante una prueba estadística. Todas las pruebas con que cuenta las tablas de contingencia se encuentran ubicadas dentro de las opciones del botón Estadístico. Al hacer clic en él aparece el cuadro de diálogo correspondiente [Fig.6-23].

Figura 6-23

Dentro de las diferentes pruebas estadísticas de asociación que nos ofrece el procedimiento encontramos el Chi-cuadrado de Pearson, Chi-cuadrado de la razón de verosimilitud, prueba de asociación lineal por lineal, prueba exacta de Fisher, Chi-cuadrado corregido de Yates, r de Pearson, rho de Spearman, coeficiente de contingencia, phi, V de Cramer, lambdas simétricas y asimétricas, tau de Kruskal y Goodman, coeficiente de incertidumbre, gamma, d de Somers, tau-b de Kendall, tau-c de Kendall, coeficiente eta, kappa de Cohen, estimación de riesgo relativo, razón de ventajas, prueba de McNemar, estadísticos de Cochran y Mantel-Haenszel. La mayoría de estas pruebas nos permiten comprobar si existe alguna relación entre las variable, generando un número para representar la fuerza de la relación.

Por el momento sólo haremos énfasis en el Chi-cuadrado de Pearson, la cual es la más utiliza. Esta prueba nos permite determinar si el comportamiento de las categorías de una variable presentan diferencias Estadísticamente significativas. Para establecer la diferencia a través de SPSS, debemos partir de la teoría que no existe relación entre las variables de la tabla de contingencia (Hipótesis nula); es decir, debemos asumir que los resultados de las categorías de una variable no se ven afectados o influenciados por las categorías de la segunda variable.

El cálculo del Chi-cuadrado arroja como resultado un valor numérico denominado alfa (a), el cual debe ser comparado con el valor teórico de 0.05. Cuando el valor calculado es menor que el 0.05 se rachaza la hipótesis nula, con lo cual podemos concluir que si existe una relación entre las variables; por el contrario si el valor calculado es mayor que 0.05 no se rechaza la hipótesis nula aceptando que no existe ninguna relación entre las variables.

A manera de ejemplo vamos a generar la prueba de asociación del Chi-cuadrado para las variables Género y Estado civil; para lograrlo debemos volver al cuadro de diálogo y hacer clic en el botón Restablecer de manera que se retome la configuración inicial del procedimiento. Una vez se habilita el cuadro, ubicamos en el listado la variable Estado civil y la ingresamos en la casilla Filas; sucesivamente ubicamos la variable Género y la ingresamos en la casilla Columnas. A continuación seleccionamos el botón Estadísticos y activamos la opción Chi-cuadrado, haciendo clic sobre la opción. Para finalizar hacemos clic en Continuar y luego en Aceptar con lo que los resultados son creados en el visor [Fig.6-24].

Figura 6-24

Como de costumbre el programa genera la tabla del resumen del procesamiento y la tabla de contingencia, pero adicionalmente genera una tercera tabla denominada Pruebas de Chi-cuadrado. En ella aparecen los valores del Chi-cuadrado y la razón de verosimilitud los cuales son calculados con base a la diferencia entre las frecuencias observadas y las esperadas. De todos los valores que se incluyen en la tabla, sólo hay uno que realmente nos interesa y es el valor correspondiente a la significación asintótica (Bilateral) de la prueba Chi-cuadrado de Pearson; este valor es el resultado de la prueba y es el que se emplea para realizar la comparación.

De acuerdo al resultado podemos concluir que las variables Estado civil y Género si tienen relación ya que el valor obtenido es menor que [0.05]. Existen tres factores que pueden alterar el resultado de las pruebas de asociación e independencia como lo son el tamaño de la muestra, la fidelidad de los datos y el sesgo muestral; antes de sacar alguna conclusión es necesario revisar estos factores ya que cualquiera de ellos puede distorsionar severamente el resultado.

Para concluir con las tablas de contingencia vamos a revisar el último botón de opción que podemos encontrar en el cuadro de diálogo, el cual corresponde a Exactas (Este botón sólo está disponible si se ha instalado el módulo de pruebas exactas). Al seleccionar este botón, aparece el cuadro de diálogo correspondiente [Fig.6-25]; a través de sus opciones se proporcionan dos métodos adicionales para calcular los niveles de significación de los estadísticos disponibles en los procedimientos Tablas de contingencia y Pruebas no paramétricas. Estos métodos (el método exacto y el de Monte Carlo), proporcionan el medio para obtener resultados exactos cuando los datos no cumplen alguno de los supuestos subyacentes necesarios para obtener resultados fiables.

Figura 6-25

Las pruebas exactas permiten obtener un nivel de significación exacto sin confiar en supuestos que los datos podrían no cumplir. Por ejemplo, los resultados de un examen de calidad de 20 empaques en una fábrica muestran que los cinco empaques plásticos superaron la prueba, mientras que los resultados de los empaques de papel son diversos. Una prueba de Chi-cuadrado de Pearson, que contrasta la hipótesis nula de que los resultados son independientes del material, produce un nivel de significación asintótico del 0,07. Este resultado lleva a la conclusión de que los resultados del examen son independientes del material del empaque.

Sin embargo, dado que los datos incluyen sólo 20 casos y las casillas tienen frecuencias esperadas menores que 5, este resultado no es fidedigno. Al realizar una prueba exacta a la muestra obtenemos que el Chi-cuadrado de Pearson es de 0,04, lo que conduce a la conclusión contraria. Según la significación exacta, se concluirá que los resultados del examen y el material del empaque están relacionados. Esto demuestra la importancia de la obtención de resultados exactos cuando no se pueden cumplir los supuestos del método asintótico. La significación exacta es siempre fiable, independientemente del tamaño, la distribución, la dispersión o el equilibrio de los datos.

En conclusión, el procedimiento Tablas de contingencia nos permite realizar tablas en las que se describan las categorías de una variable a través de las categorías de una segunda variable. Para efectuar la descripción se pueden emplear diferentes medidas como el recuento, el porcentaje de fila, el porcentaje de columna o el porcentaje de tabla. Adicionalmente este procedimiento nos permite generar gráficos de barras con las variables involucradas en la tabla, así como también pruebas estadísticas de independencia como el Chi-cuadrado de Pearson e incluso generar pruebas estadísticas de precisión como el método de Monte Carlo o el método Exacto.

Preguntas de Respuesta Multiple con SPSS

Es posible que en algunas ocasiones al momento de recolectar los datos nos topemos con varias respuestas o mediciones para la misma pregunta, a este tipo de sucesos se les denomina Preguntas de Respuesta múltiple. Una de las principales dificultades que se presentan con este tipo de preguntas radica en la forma de estructurar las respuestas de manera que toda la información pueda

ser empleada en los análisis.

Generalmente las preguntas de respuesta múltiple se pueden realizar de dos formas diferentes denominadas Abiertas y Cerradas. Se asume que una pregunta es abierta, cuando se le permite al individuo ingresar libremente todas las respuestas que considere convenientes; por ejemplo, si le preguntamos a una persona cuantas marcas de gaseosas conoce, el individuo nos responderá las marcas que recuerde; en este tipo de preguntas el número de respuestas no esta delimitado y varia de acuerdo a cada entrevistado.

Por el contrario, en las preguntas cerradas se le ofrece al individuo un listado de opciones de las cuales él puede seleccionar las que considere pertinentes; para este tipo de preguntas el número de respuestas esta delimitado por el número de opciones que el investigador incluya en el listado.

El Módulo Base de SPSS nos permite realizar análisis descriptivos con los dos tipos de preguntas de respuesta múltiple y generar con ellas tablas de frecuencia y/o de contingencia. Antes de realizar análisis mediante SPSS, es necesario ingresar la información recolectada a través de este tipo de preguntas en un archivo de datos. Para comprender la forma adecuada de estructurar los resultados dentro de un archivo de datos de SPSS, vamos a generar ejemplo apoyándonos en los resultados del sondeo realizado a cinco personas con las preguntas

Las respuestas de cada uno de los encuestados a estas preguntas se exponen en las tablas de las figuras [6-26] y [6-27]. Si nos fijamos en los resultados de la primera pregunta [Fig.6-26], notaremos que cada uno de los encuestados cuenta con un número distinto de respuestas y a su vez las marcas que cada encuestado menciona son diferentes, lo que nos indica que es esta pregunta es de tipo Abierta; la principal dificultad de las preguntas Abiertas radica precisamente en la cantidad de diferentes respuestas que podemos obtener. Para la segunda pregunta [Fig.6-27], sólo se incluyen las marcas que cada uno de los encuestados confirmo que conocía; para facilitar la interpretación, hemos incluido dentro de la tabla únicamente las letras representativas de cada marca, por lo que debemos recordar que la letra A equivale a la marca Mercedes benz, la letra B a Audi, la C a Mazda y así sucesivamente.

Figura 6-26

Figura 6-27

SPSS cuenta con un método específico para organizar la información que recoge cada uno de los tipos de preguntas de respuesta múltiple. Cuando se trata de una pregunta Abierta, es necesario ubicar dentro de la totalidad de los encuestados, el individuo con mayor número de respuestas y crear una variable por cada una de las respuesta que haya dado. Por ejemplo, si nos fijamos en la figura [6-26], notaremos que el tercer individuo cuenta con el mayor número de respuestas (siete diferentes marcas), por lo que debemos crear siete (7) variables.

Para facilitar la identificación de las variables que contienen las diferentes respuestas de la pregunta, se suele emplear una frase común para todas y distinguir el orden por un número consecutivo; por ejemplo, Marca1, Marca2, Marca3,...., Marca7. Una vez se han establecido las variables, debemos ingresar los resultados; en la primera variable (Marca1), ingresamos la primera respuesta (Marca de automóvil) que haya dado cada individuo; en la segunda variable ingresamos la segunda respuesta de cada individuo y así sucesivamente hasta terminar con las respuestas.

Dado que el número de respuestas de cada individuo es diferente, cuando se terminen las respuestas del individuo debemos dejar en blanco las casillas de las variables restantes que se encuentren en la fila del sujeto (Caso). Por ejemplo, para el primer individuo de la figura [6-26], debemos introducir la respuesta Ford en la variable Marca1, Mazda en Marca2, Mercedes en Marca3, BMW en Marca4 y Renault en Marca5; para las variables Marca6 y Marca7 dejamos el espacio en blanco. Si ingresamos las respuestas de los demás individuos obtenemos la tabla de la figura 6-28.

Figura 6-28

Cuando se trabaja con preguntas de respuesta múltiple de tipo Abierto, es de gran importancia mantener el orden de las respuestas al momento de ingresar la información al archivo de datos, ya que cuando se realizan preguntas abiertas la primera respuesta de cada individuo puede ser empleada para hallar el Top of mine o Marca de mayor recordación, cuya teoría nos indica que generalmente la primera respuesta corresponde a la marca que el individuo habitualmente consume.

La otra gran ventaja de las preguntas abiertas radica en la obtención de conclusiones más acertadas

ya que las respuestas de cada individuo no se ven influenciadas por el investigador; generalmente es tipo de preguntas son empleadas en las encuestas piloto ya que brindan una orientación clara sobre los temas que se deben incluir en el estudio.

Preguntas de Respuesta Multiple: Dicotomicas

Cuando por el contrario se trata de preguntas Cerradas, antes de ingresar la información se debe crear una variable por cada una de las opciones de respuesta que contenga la encuesta o estudio. Por ejemplo, para la pregunta ¿Cuáles de las siguientes marcas de automóviles conoce o ha escuchado mencionar?, se incluyen nueve (9) posibilidades de respuesta, siendo necesario crear una variable por cada opción; es decir, nueve (9) variables en total.

Para el nombre de cada variable se recomienda incluir una frase común para todas y distinguirlas con las iniciales de la marca o nombre a la que corresponde; por ejemplo, PGMerce, PGAudi, PGMazda, PGPeug, PGBMW, PGToyota, PGNissan, PGChevro, PGFord. Debemos recordar que los nombres de las variables no deben superar los ocho (8) caracteres (64 para la versión 12.0) y que a su vez no debe comenzar con un número. En este tipo de preguntas las respuestas sólo toman dos estados o valores (“Si o No”, “Verdadero o Falso”, etc); para ingresar las respuestas de cada individuo se debe colocar un Valor Si en cada una de las variables (Opciones) que halla seleccionado el encuestado y un Valor No en las que halla omitido. Después de ingresar las respuestas de los cinco (5) encuestados obtenemos los resultados de la figura [6-29].

Figura 6-29

Este tipo de preguntas suelen ser denominadas Dicotomías múltiples dado que cada una de las opciones es seleccionada o no por parte del encuestado. Las preguntas cerradas nos ofrecen menor cantidad de información, pero a pesar de esto son más utilizadas debido a que los costos de recolección, ordenamiento y análisis son menores comparados con los de las preguntas abiertas. Desde luego cuando el número de opciones es demasiado elevado, es preferible emplear las preguntas abiertas.

Una vez se han ingresado todas las respuestas y se han definido todas las propiedades a cada una de las variables, estamos listos para comenzar con el análisis. Antes de realizar cualquier tipo de cálculo con los datos, es necesario definirle al programa los conjuntos de variables que conforman las respuestas de una pregunta. Para comprender el procedimiento que conllevan las variables de repuestas múltiples vamos a emplear el contenido del archivo de datos Multi.sav que se anexa en la carpeta Capítulo6 del CD adjunto. Para abrirlo podemos emplear la ruta Archivo... Abrir... Datos, al activarse la ventana de navegación, ubicamos el archivo en la unidad de CD ROM y posteriormente hacemos clic en Abrir.

Después de abrir el archivo de datos, debemos acceder al procedimiento de respuestas múltiples por

lo que nos dirigimos al menú Analizar y seleccionar la opción Respuestas múltiples; al seleccionarlo aparece una sola opción activa correspondiente a Definir conjuntos, las otras dos opciones (Frecuencias y Tablas de contingencia), se activan únicamente cuando se haya definido con antelación por lo menos un conjunto de variables.

Al seleccionar la opción Definir Conjuntos aparece el cuadro de diálogo correspondiente [Fig.6-30]; a través de este cuadro se definen las propiedades del conjunto de variables que contienen las respuestas de una pregunta Abierta o Cerrada. Este cuadro se divide en cinco secciones entre las que encontramos la lista de variables, la casilla de selección, la definición del tipo de pregunta, las propiedades del conjunto y la casilla de conjuntos.

Figura 6-30

Al igual que en la mayoría de procedimientos del programa, en la casilla de selección se deben ingresar todas las variables de interés, que para el caso corresponden a las variables que contienen las respuestas de una misma pregunta. Las variables que se introduzcan en esta casilla definirán un conjunto, por lo que es de gran importancia verificar que no se agregue por error una variable que no contenga respuestas de la misma pregunta, ya que esto implicaría que no cuenta con las mismas propiedades de las variables de interés (Tipo, Medida, Valores, Perdidos), lo que puede causar que se presenten problemas al momento de generar las tablas de frecuencia o de contingencia.

Una vez se han ingresado las variables, es necesario definirle al programa el tipo de respuestas que contienen. En la sección Las variables están codificadas como, encontramos las opciones Dicotomías y Categorías. SPSS denomina Dicotomías a las respuestas de una pregunta cerrada y Categorías a las respuestas de preguntas Abiertas. Cuando se selecciona la opción Dicotomías, se activa la casilla Valor contado, en esta casilla se debe ingresar el valor que representa a las respuestas validas (Si, existencia), el cual será tenido en cuenta para los cálculos. Cuando se selecciona la opción Categorías se activan las casillas del rango (Desde, Hasta); en estas casillas se deben ingresar los valores (Mínimo y Máximo) de los datos.

Después de especificar la codificación de las variables, se debe definir el nombre y la etiqueta del

conjunto de datos, ingresando los caracteres en las respectivas casillas. Para el nombre del conjunto SPSS nos permite ingresar hasta un máximo de siete (7) caracteres, teniendo en cuenta no utilizar palabras clave como casenum, sysmis, jdate, date, time, length y width. Para la etiqueta del conjunto, por el contrario se puede ingresar hasta un máximo de 40 caracteres.

La última sección que encontramos en el cuadro de diálogo corresponde a la casilla de conjuntos, en ella aparecerán todos los conjuntos de variables que hayan sido definidos satisfactoriamente. Para facilitar su identificación cada nombre de conjunto esta precediendo con un signo de dólar ($); es necesario recalcar que el programa no crea una nueva súper-variable en el editor de datos para guardar toda la información del conjunto, sino por el contrario cuando el nombre del conjunto es empleado en un procedimiento, SPSS lo sustituye por las variables que lo componen al momento de realizar los cálculos de los estadísticos (Tablas de frecuencia o Tablas de contingencia).

Para comprender la metodología empleada en la definición de los conjuntos de respuesta múltiple, en la siguiente leccion vamos a generar algunos ejemplos, empleando las variables de Marca.

Conjuntos de Respuesta Multiple en SPSS

Para comprender la metodología empleada en la definición de los conjuntos de respuesta múltiple, vamos a generar algunos ejemplos, empleando las variables de Marca (desde Marca1 hasta Marca7) para estipular un conjunto de respuestas categóricas (Abiertas) y las variables PG (PGMerce, PGAudi, PGMazda, PGPeug, PGBMW, PGToyota, PGNissan, PGChevro, PGFord), para definir un conjunto de respuestas Dicotómicas (Cerradas). Antes de comenzar es importante resaltar que a través de este procedimiento se puede definir hasta un máximo de 20 conjuntos, con la condición que cada uno de ellos cuente con un nombre diferente.

Para definir el primer conjunto debemos ubicar en el listado las variables de Marca1 hasta Marca7 y sucesivamente ingresarlas en la casilla de selección; posteriormente en la sección Las variables están codificadas como activamos la opción Categorías. Para ingresar los valores de los limites del rango (Inferior y Superior) es necesario conocer los valores que se le han asignado a cada una de las respuestas o categorías; para facilitar su identificación, en la tabla de la figura 6-31 se incluyen cada una de las marcas que aparecen en las respuestas, adicionalmente se anexa el respectivo valor representativo.

Figura 6-31

Si nos fijamos en los datos de la tabla notaremos que el valor más bajo (Mínimo) corresponde al número uno (1) y el más alto (Máximo) al número veintiocho (28); estos valores deben ser ingresados en las casillas de rango. Una vez estipulado el tipo de respuestas y el rango de los valores ingresamos en la casilla Nombre la palabra Marcas y en la casilla Etiqueta la leyenda

Marcas de automóviles. Después de definir todas las propiedades del conjunto debemos obtener los mismos resultados de la figura 6-32. Para finalizar hacemos clic en el botón Añadir con lo que aparece en la casilla de conjuntos la variable $Marcas.

Figura 6-32

Una vez se hace clic en el botón Añadir, los parámetros definidos para el conjunto de variables desaparecen restableciendo la configuración original del cuadro. Para definir el segundo conjunto debemos ubicar las variables PGMerce, PGAudi, PGMazda, PGPeug, PGBMW, PGToyota, PGNissan, PGChevro, PGFord en la lista de variables e ingresarlas en la casilla de selección; después de ingresadas seleccionamos en la sección Las variables están codificadas como la opción Dicotomías, al activarse la casilla valor contado ingresamos el número uno (1) el cual corresponde al Si (Reconoce la marca); sucesivamente en la casilla Nombre ingresamos la palabra Conoce y en la casilla de Etiqueta ingresamos la leyenda Marcas que reconoce. Después de definir todas las propiedades del conjunto obtenemos los resultados de la figura [6-33]. Para finalizar hacemos clic en Añadir de tal manera que el nombre del conjunto aparezca en la casilla de conjuntos ($conoce).

Figura 6-33

Una vez aparecen los nombres en la casilla de conjuntos, podemos terminar la definición haciendo clic en el botón Cerrar. Es necesario recalcar que las declaraciones de conjuntos de respuesta múltiple estarán disponibles solamente el tiempo que dure abierta la sesión, hasta que se abra otro

archivo de datos o salga de SPSS. Los conjuntos no son conservados a través de las distintas sesiones de SPSS, ni almacenados en el editor de datos. (Este inconveniente quedo solucionado para las ultimas versiones de SPSS por lo que los conjuntos son guardados con el archivo o ficheros de datos).

Frecuencias Conjuntos de Respuesta Multiple

El módulo Base de SPSS nos ofrece dos procedimientos para el análisis descriptivo de las preguntas de respuesta múltiple (Frecuencias y Tablas de contingencia); para acceder a estos procedimientos debemos ir al menú Analizar y seleccionar el submenú Respuestas múltiples [Fig.6-34]; al desplegarse las opciones aparecen activos los procedimientos descriptivos, esto se debe a que ya se ha definido por lo menos un conjunto de variables. Para continuar con la exploración de estos procedimientos seleccionamos la opción Frecuencias con lo que aparecerá el cuadro de diálogo correspondiente [Fig.6-35].

Figuras 6-34 y 6-35

Este cuadro se encuentra dividido en tres secciones (Lista de conjuntos, casilla de selección y Valores perdidos). En la lista de conjuntos sólo aparecen los nombres de los conjuntos que se hayan definido con antelación. En la casilla de selección se deben ingresar los conjuntos a los que se desea realizar el análisis descriptivo (Tabla de frecuencias).

En la última sección (Valores perdidos) encontramos las opciones para limitar el número de casos que serán tenidos en cuenta para los cálculos, cuando se selecciona la opción Excluir los casos según lista dentro de las dicotomías el programa omitirá de los cálculos los casos que en la totalidad de las variables no tenga un valor positivo (Valor contado); es decir, excluye los casos en que aparezca una respuesta o valor diferente al número que se haya definido como valor contado dentro de los parámetros del conjunto; esta opción se suele emplear cuando se requiere una repuesta positiva en la totalidad de las preguntas.

La segunda opción corresponde a Excluir los casos según lista dentro de las categorías, al seleccionarla el programa omite los casos en los que encuentra en alguna de las variables un valor fuera del rango establecido. Además de las opciones de esta sección, el programa también omite los casos en los que no se encuentre un valor valido dentro de la totalidad de las variables (Valor contado en Dicotomías o un valor del rango en Categorías).

A manera de ejemplo vamos a generar las tablas de frecuencia para los conjuntos ($Marcas y

$Conoce), por lo que debemos seleccionarlos e ingresarlos en la casilla de selección; por el momento no emplearemos las opciones de limitación de casos así que hacemos clic en Aceptar de manera que las tablas son creadas en el visor de resultados de SPSS [Fig.6-36].

Figura 6-36

El procedimiento Frecuencias para los conjuntos de variables de respuesta múltiple, genera tablas en formato de texto, en las que se incluyen los estadísticos Recuento (Count), Porcentaje de respuestas (Pct of Responses), Porcentaje de casos (Pct of cases), Número de casos perdidos (Missing cases) y Número de casos validos (Valid cases). Para los conjuntos de categorías, los nombres de cada categoría provienen de las etiquetas de valor que se hayan definido para la primera variable del conjunto (Columna Valores en la vista de variables).

Para los conjuntos de dicotomías múltiples, los nombres de las categorías que se muestran en los resultados provienen de las etiquetas que se hayan definido para cada variable que compone el conjunto. Para facilitar la identificación del tipo de pregunta (Dicotomía o Categórica) se incluye dentro de cada tabla una leyenda en la parte superior izquierda, que nos informa el tipo de conjunto; además, cuando se trata de un conjunto de dicotomías múltiples se incluye una leyenda con el valor contado (Value Tabulated).

Si nos fijamos en los resultados de las tablas de frecuencia de la figura [6-36], notaremos que el recuento (Count) y el porcentaje de casos (Ptc of cases) cuentan con cifras bastante altas, esto se debe a que cada encuestado tiene la posibilidad de dar hasta nueve (9) respuestas para las preguntas de Dicotomías y hasta siete (7) respuestas para las preguntas Categóricas. Una de las principales dificultades de este tipo de tablas radica en la interpretación de los porcentajes; si observamos los resultados del porcentaje de casos para la marca Mercedes Benz en las dos tablas (Dicotomías y Categóricas) notaremos una amplia diferencia porcentual entre ellas, a pesar que el objetivo de los dos tipos de preguntas es identificar la aceptación o reconocimiento de las marcas en los encuestados.

Generalmente las preguntas de Dicotomías múltiples (Cerradas) tienden a mostrar porcentajes más altos debido a que el entrevistado puede ser influenciado a recordar la marca que se le pregunta, este fenómeno no se presenta en las preguntas categóricas (Abiertas) ya que no existe ningún tipo de leyenda o frase que pueda influenciar las respuestas.

Sin importar que tipo de pregunta sea, las conclusiones deben ser obtenidas de acuerdo al porcentaje de casos; por ejemplo, si asumimos que el objetivo de las dos preguntas es identificar el reconocimiento de las marcas en el mercado, de la tabla de Dicotomías múltiples concluiríamos que el 75.0% de los encuestados reconocen la marca de automóviles Mercedes Benz, mientras que de la tabla de Categóricas concluiríamos que el 25.8% de los encuestados reconoce la marca de automóviles Mercedes Benz.

Por otro lado, el porcentaje de respuestas nos indica la porción o fracción de respuestas que se puede esperar si se realizan estas mismas preguntas a otro grupo de personas, dando una orientación sobre las tendencias de las respuestas; este porcentaje no se debe tomar como una conclusión del reconocimiento de cada marca por parte de los encuestados, sino como un parámetro informativo para futuras encuestas.

A pesar que las preguntas abiertas suelen ser más confiables y precisas, no se emplean con regularidad, debido principalmente a los altos costos que implican su recolección, organización y análisis. Para finalizar con este procedimiento es necesario resaltar que los resultados de este ejemplo no son representativos del mercado ya que los datos que se incluyen en el archivo han sido manipulados a voluntad del autor, para facilitar la interpretación de los efectos del procedimiento.

Tablas Cruzadas - Conjuntos Respuesta Multiple

El segundo procedimiento con que cuenta SPSS para el análisis descriptivo de las preguntas de respuesta múltiple corresponde a las tablas de contingencia. A través de este procedimiento se puede describir las respuestas del conjunto de acuerdo a las categorías de una o varias variables, así como también se puede crear una tabla de contingencia con dos o más conjuntos de respuesta múltiple.

Para generar una tabla de contingencia con conjuntos de variables, debemos ir al menú Analizar, activar el submenú Respuestas múltiples y seleccionar la opción Tablas de contingencia; al hacer clic en esta opción aparece el cuadro de diálogo correspondiente [Fig.6-37]. Este cuadro se encuentra dividido en cuatro secciones (Lista de variables, Lista de conjuntos, Casillas de selección y Botones de opción), a través de estas secciones se definen las características estructurales de la tabla de contingencia.

Figura 6-37

Al igual que en la mayoría de los cuadros de dialogo de los diferentes procedimientos del programa, en la lista de variables aparecen todas las variables con que cuenta el archivo de datos. Por el contrario, en la lista de conjuntos aparecen sólo los conjuntos de variables que se hayan definido durante la sesión de trabajo. La tercera sección corresponde a las casillas de selección, en ella encontramos las casillas filas, columnas y capa; las variables que se ingresen en cada una de las casillas de dimensión (Fila, Columna o Capa) definirán las categorías de cada una de las dimensiones.

Por último encontramos la sección Botones de opción, en donde encontramos el botón Definir rangos, el cual se emplea para especificar las categorías de la variable que serán incluidas en la tabla; mientras que en el botón Opciones aparecen las posibilidades de los estadísticos y los valores perdidos.

Para comprender la metodología empleada en la definición de las propiedades de las tablas de

contingencia para las preguntas de respuesta múltiple vamos a generar un ejemplo con el conjunto de dicotomías $Conoce y la variable Género del encuestado.

Para realizarlo, vamos a ingresar en la casilla Filas el conjunto $Conoce, por lo que lo seleccionamos en la lista de conjuntos y sucesivamente hacemos clic en el botón Flecha ( ) ubicado al costado izquierdo de la respectiva casilla de dimensión (Filas), a continuación ingresamos la variable Género en la casilla columnas; note como una vez que es ingresada la variable en la casilla de columnas aparece a su lado dos signos de interrogación entre paréntesis (??), esto se debe a que el programa requiere que se le estipule las categorías que se desean incluir en la tabla. Para realizarlo debemos hacer clic en el botón Definir rangos con lo que aparece el cuadro de diálogo correspondiente [Fig.6-38]; en este cuadro se encuentran las casillas Mínimo y Máximo, a través de las cuales se define el rango de las categorías de la variable género que serán incluidas en la tabla.

Figura 6-38

Si no se conoce o no se recuerda los valores de las categorías de interés de una variable, SPSS nos ofrece la oportunidad de obtener información de ella sin salir del procedimiento. Para acceder a esta información es necesario volver al cuadro principal y hacer clic derecho sobre la variable de interés de manera que surja el menú desplegable y sucesivamente elegir la opción Información de las variables con lo que aparece el cuadro de diálogo correspondiente [Fig.6-39], en este cuadro se incluye el Nombre, la etiqueta, la Medida y las Etiquetas de valor de la variable seleccionada. Para continuar con el ejemplo, seleccionaremos nuevamente el botón Definir rangos e ingresamos en la casilla Mínimo el número 1 y en la casilla Máximo el número 2, para finalizar hacemos clic en el botón Continuar con lo que los valores (Números) aparecen dentro del paréntesis de la variable Género.

Figura 6-39

Después de definir los valores de la variable Género que serán incluidos en la tabla de contingencia, debemos estipular los estadísticos del procedimiento. En la siguiente leccion aprendermos como definir los estadisticos de las tablas de Contingencia con Conjuntos de variables de Respuesta multiple.

Estadisticos: Tablas Cruzadas - Conjuntos

Después de definir los valores de la variable Género que serán incluidos en la tabla de contingencia, debemos estipular los estadísticos del procedimiento. Para realizarlo debemos hacer clic en el botón Opciones con lo que aparece el cuadro de diálogo correspondiente [Fig.6-40]. A través de este cuadro podemos pedirle al procedimiento que incluya los porcentajes de Fila, Columna y Total; estos porcentajes son calculados de la misma manera que se especifico en los apartados anteriores.

Figura 6-40

Además de los porcentajes, el procedimiento también nos ofrece otras opciones como Emparejar las variables entre los conjuntos de respuesta; al activar esta opción el programa empareja la primera variable del primer grupo con la primera variable del segundo grupo, la segunda variable del primer grupo con la segunda variable del segundo grupo, y así sucesivamente. Desde luego esta opción sólo es aplicable cuando se genera una tabla de contingencia con conjuntos de preguntas de respuesta múltiple Categóricas y los porcentajes de las casillas se deducen a partir de las respuestas en lugar de obtenerlos a partir de los casos (los entrevistados).

La tercera opción de este cuadro corresponde a Porcentajes basados en; a través de estas opciones se define si los estadísticos (porcentajes) que se incluyen en la tabla estarán basados en el número de casos (Entrevistados) o el número de respuestas; estas opciones corresponden al porcentaje de casos y el porcentaje de respuestas que aparecen en las tablas de frecuencia de las variables de respuesta múltiple. La ultima opción que encontramos corresponde a los valores perdidos y cuentan con las mismas características que en las tablas de Frecuencia de respuesta múltiple (Discutidas anteriormente).

Continuando con el ejemplo seleccionaremos la opción Porcentaje de columna y en la sección Porcentajes basados en, la opción Casos; para finalizar hacemos clic en el botón Continuar, con lo que volveremos al cuadro de diálogo principal. Para finalizar el procedimiento hacemos clic en Aceptar con lo que la tabla es creada en visor de resultados de SPSS [Fig.6-41].

Figura 6-41

De igual manera que en las tablas de frecuencia, los resultados de las tablas de contingencia para preguntas de respuesta múltiple se generan en formato de texto, en donde se incluyen las etiquetas y los nombres de las variables de cada dimensión (Fila y Columna). Así mismo, los valores de cada casilla corresponden a una combinación específica entre las categorías de las variables de las dos dimensiones (Fila y Columna).

Para la interpretación de los valores de cada casilla se debe realizar el mismo procedimiento que se explico para las tablas de contingencia de variables convencionales; por ejemplo, para interpretar el porcentaje de la primera casilla de la tabla, debemos leer primero el valor (80.7%), sucesivamente la categoría de la variable de la columna (Femenino) y concluir sobre la categoría de la fila (Mercedes Benz); ordenando la oración obtendríamos que el 80.7% de las mujeres reconocen la marca de automóviles Mercedes Benz.

Si nos fijamos en los resultados de la tabla notaremos que los valores que aparecen en la columna Total de Fila (Row total), corresponden a los valores del recuento (Count) y porcentaje de casos (Pct of cases) obtenidos para el conjunto de variables de dicotomías a través del procedimiento Frecuencias.

Las tablas de contingencia para variables de respuesta múltiple, no nos permiten generar pruebas estadísticas de Asociación/independencia como el Chi-cuadrado o las correlaciones, debido en gran medida a que estas pruebas no son aplicables a este tipo de variables. Antes de finalizar es necesario recalcar que los estadísticos (Porcentajes de resumen) que sean empleados en las tablas de contingencia deben ser elegidos teniendo como prioridad la utilidad que proporcionen a la explicación del comportamiento de la preguntas de respuesta múltiple, por lo que es aconsejable emplear en la mayoría de las ocasiones el porcentaje de casos.

En conclusión, el procedimiento Conjuntos de respuesta múltiple nos permite generar tablas de frecuencia y/o tablas de contingencia para grupos de variables que contengan las respuestas de un grupo de individuos a una pregunta de múltiple selección. La principal ventaja de este tipo de variables es la gran cantidad de información que le proporciona al investigador, ya que ofrece la posibilidad de determinar de forma precisa los gustos o tendencias de los encuestados, permitiéndoles elegir entre un elevado número de opciones.

Cubos OLAP en SPSS

El procedimiento Cubos OLAP (siglas en ingles de On-Line Analytic Processing, “Procesamiento Analítico Interactivo”) es uno de los métodos más empleados en la exploración de datos. A través de los Cubos OLAP se puede observar el comportamiento de los datos de varias variables de escala de a cuerdo a una combinación específica de categorías de múltiples variables categóricas.

La utilidad de este procedimiento radica en la capacidad de actualizar la tabla de resultados a medida que se va modificando la combinación de categorías, sin necesidad de redefinirlas en el cuadro de diálogo del procedimiento. Para el análisis de las variables de escala el programa cuenta con una serie de medidas estadísticas como la media, la mediana o la desviación estándar, a su vez para las variables categóricas el procedimiento genera listas desplegables en las que se incluye cada una de las categorías de la variable, así como la opción total.

Para comprender la metodología empleada en la definición y creación de los cubos OLAP, vamos a generar un ejemplo con los datos contenidos en el archivo Cubos.sav incluido en la carpeta Capítulo6 del CD adjunto. Antes de iniciar con el procedimiento, es necesario contar con el archivo de datos abierto en el editor de SPSS, por lo que debemos abrirlo a través de la ruta Archivo.. Abrir.. Datos. Una vez cargado el archivo, estamos listos para la generación del ejemplo. Para acceder al procedimiento, debemos ir al menú Analizar... Informes... Cubos OLAP; al seleccionarlo aparece el cuadro de diálogo correspondiente [Fig.6-42]. Este cuadro se encuentra dividido en tres secciones definidas como la Lista de variables, las Casillas de selección y los Botones de opción.

Figura 6-42

Dentro de la sección casillas de selección se definen las variables que harán parte del procedimiento. En la casilla de resumen (Variables de resumen), se deben ingresar las variables de escala que serán empleadas en el cubo; el contenido de estas variables se resume a través de los diferentes estadísticos que se seleccionen; si por algún motivo se ingresa una variable categórica en esta casilla, el programa asume que es de escala y le realiza los cálculos de los estadísticos de resumen.

En la casilla Agrupación, se deben ingresar las variables categóricas que definirán los subgrupos de datos que serán descritos a través de los resultados de los estadísticos de resumen de las variables de escala; si por algún motivo se ingresa una variable de escala en esta casilla, el programa asume que cada valor de la variable corresponde a una categoría.

Para comprender mejor el funcionamiento vamos a generar un Cubo OLAP con las variables Edad del entrevistado (Escala) y Género (Categórica). Para realizarlo, debemos ingresar la variable Edad del entrevistado en la casilla Resumen y la variable Género la ingresamos en la casilla Agrupación; para finalizar hacemos clic en Aceptar con lo que el cubo será creado en el visor de resultados de SPSS [Fig.6-43].

Figura 6-43

Para poder observar los resultados de las diferentes categorías de la variable género, es necesario activar el Cubo haciendo doble clic en él, de manera que aparezca al lado de la variable Género la lista desplegable de las categorías [Fig.6-44]. Al hacer clic sobre el icono de la lista ( ), aparecen todas las categorías de la variable que para el caso corresponden a Femenino, Masculino y Total, para seleccionar alguna de ellas basta con hacer clic sobre la categoría deseada, con lo cual los resultados de la tabla cambiarán y harán referencia exclusivamente a los casos de la categoría seleccionada.

Figura 6-44

Si seleccionamos la categoría Femenino obtendremos los valores de la figura [6-45]. Si nos fijamos en los resultados notaremos que todos los valores han cambiado y ahora hacen referencia únicamente a los casos de la categoría Femenino. A partir de estas respuestas podemos deducir que en el archivo de datos hay un total de 154 mujeres, con un promedio de edad de 31.82 ≈ 32 años, con una desviación típica de 7.066 y que a su vez conforman el 51.3% de las respuestas validas.

Figura 6-45

De igual manera ocurre si seleccionamos la categoría Masculino, en cuyo caso los valores de cada casilla cambiaran expresando el comportamiento de la edad para los hombres. Para realizar los cálculos de los estadísticos de resumen de las variables de escala, el programa toma exclusivamente los casos que correspondan a la categoría que se haya seleccionado. Para desactivar el Cubo basta con hacer clic fuera del área de la tabla.

Desde luego esta es la aplicación más sencilla que se puede realizar con un Cubo OLAP, ya que sólo vincula una variable de escala (Resumen) y una variable categórica (Agrupación). En las siguientes lecciones haremos ejemplos de Cubos OLAP mas complejos.

Estadisticos en los Cubos OLAP de SPSS

En algunas ocasiones los estadísticos de resumen que el procedimiento emplea por defecto no son realmente útiles, ya sea por el objetivo del análisis o por la naturaleza de los datos. Por ejemplo, si nos fijamos en el estadístico Suma generado en el ejercicio anterior, notaremos que nos da como resultado 4900, lo que nos indicaría el total de años que acumulan las mujeres de la encuesta; por múltiples motivos este valor no es de utilidad dada la naturaleza de los datos, sin embargo si se tratase de los ingresos o las ventas de las mujeres si tendría una aplicación más apropiada.

Para modificar estos parámetros debemos volver al cuadro de diálogo, ya sea mediante la ruta Analizar.. Informes.. Cubos OLAP ó por medio del botón Recuperar cuadro de diálogo ( ). La segunda sección del cuadro de diálogo corresponde a los Botones de opción, a través de ellos se puede definir diferentes parámetros del procedimiento como los estadísticos de resumen, las diferencias entre grupos o variables y los títulos de los resultados. Es necesario resaltar que el botón Estadísticos sólo se activa cuando se han ingresado variables a las casillas de selección (Resumen y Agrupación). Al seleccionar el botón Estadísticos, aparece el cuadro de diálogo correspondiente [Fig.6-46].

Figura 6-46

A través de este cuadro podemos definir los estadísticos de resumen que serán incluidos en el Cubo; dentro del cuadro encontramos dos casillas, la primera corresponde a la Lista de estadísticos y la segunda a la casilla de selección (Estadísticos de casilla).

El procedimiento Cubos OLAP, nos ofrece una gran variedad de estadísticos de resumen entre los que encontramos la Suma, Número de casos, Media, Mediana, Mediana agrupada, Error típico de la media, Mínimo, Máximo, Rango, Valor de la variable para la primera categoría de la variable de agrupación, Valor de la variable para la última categoría de la variable de agrupación, Desviación típica, Varianza, Curtosis, Error típico de Curtosis, Asimetría, Error típico de asimetría, Porcentaje de casos totales, Porcentaje de la suma total, Porcentaje de casos totales dentro de las variables de agrupación, Porcentaje de la suma total dentro de las variables de agrupación, Media geométrica y Media armónica.

Todos los estadísticos de resumen que se seleccionen mantendrán en los resultados el mismo orden al que aparece en la casilla de selección. Par ingresar una estadístico se debe resaltar en la lista haciendo clic sobre él y posteriormente hacer clic en el botón flecha ( ) ó simplemente haciendo doble clic sobre el estadístico de interés.

Por el momento no seleccionaremos ninguno por lo cual hacemos clic en el botón Continuar. El segundo botón de opción que encontramos corresponde a Diferencias, al seleccionarlo aparece el cuadro de diálogo correspondiente [Fig.6-47]; este cuadro se encuentra dividido en cuatro secciones correspondientes a Diferencias para estadísticos de resumen, Tipo de diferencia, Diferencias entre variables y Diferencias entre grupos de casos. Mediante estas secciones podemos especificarle al programa que realice comparaciones de porcentaje o aritméticas entre las variables de resumen o entre las categorías de una variable.

Figura 6-43

Mediante la sección Diferencias para estadísticos de resumen se define la clase de comparación que se realizará en el Cubo; en esta sección encontramos las opciones Ninguna, Diferencias entre variables y Diferencias entre grupos de casos. Para que la opción diferencias entre variables se active es necesario ingresar en la casilla de Resumen dos o más variables de escala y para activar la opción Diferencias entre grupos de casos se deben ingresar una o más variables categóricas en la casilla de agrupación. Al seleccionar alguna de estas dos opciones (Diferencias), se activa la sección correspondiente, habilitando cada una de las casillas de definición que contienen.

La segunda parte de este cuadro de diálogo corresponde al Tipo de diferencia, a través de ella podemos especificarle al programa que tipo de comparación se realizará eligiendo alguna de las opciones de porcentaje (Calcula la diferencia porcentual) o aritmética (Calcula la diferencia aritmética entre las medidas) o ambas si se desea.

Para comprender mejor el funcionamiento de las secciones de este cuadro de diálogo, en las siguientes lecciones vamos a generar algunos ejemplos tratando de involucrar la mayor cantidad de

opciones posibles.

Diferencias: Cubos OLAP en SPSS

Para el primer ejemplo debemos volver al cuadro de diálogo principal, por lo que hacemos clic en el botón Continuar; una vez volvemos al cuadro principal, hacemos clic en el botón Restablecer con el fin de retomar la configuración inicial del procedimiento. Después de reiniciaiar el cuadro, ubicamos en la lista las variables Años totales estudiados (Educaños), Edad del entrevistado (Edad), Ingresos e ingresos anuales (Inganual) y las ingresamos en la casilla de resumen, de igual manera ubicamos las variables Género y Estado civil y la ingresamos en la casilla de agrupación.

Una vez ingresadas las variables en sus respectivas casilla debemos obtener los resultados de la figura [6-48]; sucesivamente activamos el botón de estadísticos y eliminamos de la casilla de selección las los estadísticos Suma y Porcentaje total de la suma, e ingresamos la Mediana [Fig.6-49]; para finalizar hacemos clic en Continuar y luego en Aceptar con lo que el Cubo se crea en el visor de resultados de SPSS [Fig.6-50].

Figuras 6-48 y 6-49

Figura 6-50

Como de costumbre el programa genera primero la tabla del resumen del procesamiento de casos, en la que incluye los recuentos para los valores validos y perdidos de cada una de las variables de escala (Resumen) que se hayan involucrado en el procedimiento. Si nos fijamos en los resultados de esta tabla, notaremos que para los cálculos de las variables Edad en años se tuvieron en cuenta 300 casos, mientras que para la variable Años estudiados (Educaños) sólo se tuvieran en cuenta 296 casos y para las variables Ingresos mensuales e Ingresos anuales (Inganual) se tomaron 298 casos respectivamente.

La segunda tabla corresponde directamente al Cubo OLAP; en ella también se incluyen los recuentos y sus respectivos porcentajes. Si comparamos los valores porcentuales de las dos tablas notaremos que son diferentes, debido a que los porcentajes de la tabla de resumen representan la porción de los casos del archivo que se incluyeron en el procedimiento, mientras los porcentajes del Cubo corresponden al total de casos validos del cruce de las variables categóricas con cada variable de escala.

Para poder acceder al cubo es necesario hacer doble clic sobre él, con lo que cada una de sus opciones se activará [Fig.6-51]. Si observamos las columnas de la tabla notaremos que han desaparecido los estadísticos (Suma y Porcentaje de suma) y en su lugar aparece la mediana. Es necesario resaltar que los valores de los estadísticos de cada una de las variables de escala son calculados por separado basado en las condiciones (Categorías) de las variables de Agrupación.

Figura 6-51

Por el momento no entraremos a realizar el análisis de los datos y nos enfocaremos en las opciones del botón Diferencias. En la siguiente leccion le pediremos al programa que incluya diferencias entre las variables para exponer los efectos de esta opcion.

Diferencias: Variables de Escala - Cubos OLAP

Para comprender las opciones del botón Diferencias es necesario que nos fijemos en las posibilidades de cada una de las listas desplegables de las variables de agrupación [Fig.6-52], ya que los resultados de las diferencias entre categorías de una variable aparecen dentro de ellos. Si observamos los listados, notaremos que cuentan con las categorías de cada variable y adicionalmente se anexa la categoría Total; después de realizar el ejemplo compararemos los listados con el fin de hacer notar los cambios.

Figura 6-52

Los resultados de cada una de las combinaciones de las categorías de las variables de agrupación serán explorados más adelante, por el momento nos concentraremos en generar comparaciones entre las variables de escala y entre las categorías de una variable de agrupación. Para realizarlo debemos desactivar el Cubo haciendo clic fuera del área de selección y posteriormente debemos volver al cuadro de diálogo del procedimiento ya sea a través del botón Recuperar cuadro de diálogo ( ) o mediante la ruta Analizar.. Informes.. Cubos OLAP.

Una vez aparece el cuadro hacemos clic en el botón Diferencias con lo cual se activa el cuadro

correspondiente. Dado que existen cuatro variables de escala en la casilla de resumen la opción Diferencias entre variables se encuentra disponible; al seleccionar esta opción la sección Diferencias entre variables se activa, debemos observar que la ultima casilla de esta sección se encuentra aun deshabilitada debido a que en la Sección tipo de diferencia sólo se encuentra seleccionada la opción diferencia porcentual, al activar la opción diferencia aritmética se activa la casilla Etiqueta aritmética [Fig.6-53].

Figura 6-51

Después de activar los dos tipos de diferencias debemos definir las variables que serán comparadas, para lo cual nos dirigimos a la casilla variable de la sección Diferencias entre variables y por medio del botón desplegable ( ) ubicamos la variable Ingresos anuales (Inganual); posteriormente, en la casilla Menos variable seleccionamos la variable Ingresos mensuales (Ingrsos).

A continuación introducimos en la etiqueta de porcentaje la leyenda Diferencia porcentual entre los ingresos y en la casilla etiqueta aritmética la leyenda Diferencia aritmética entre los ingresos. Una vez especificadas cada una de las casillas, hacemos clic en el botón flecha ( ) con lo que la diferencia queda definida en la casilla Pares [Fig.6-54]. Para finalizar hacemos clic en el botón Continuar y luego en Aceptar con lo que los resultados son expuestos en el visor [Fig.6-55]. Si nos fijamos en los resultados notaremos que ahora aparecen dos nuevas filas correspondientes a la diferencia porcentual y la diferencia aritmética entre las variables Ingresos anuales y la variable Ingresos mensuales.

Figura 6-55

Cada una de las casillas de estas filas contiene la diferencia aritmética o porcentual que existe entre los valores de las dos variables. Para hallar la diferencia aritmética el programa toma el valor de la

primera variable (Inganual) y le resta el valor de la segunda variable (Ingresos); mientras que para la diferencia porcentual toma el resultado de la diferencia aritmética y lo divide por el valor de la casilla de la segunda variable (Ingresos) y el resultado se multiplica por el 100 %.

La diferencia entre variables de escala es de gran utilidad cuando trabajamos con variables como las ventas, ya que nos permite determinar las variaciones entre dos grupos de ventas. El programa nos permite definir varios grupos de variables siempre y cuando las variables tengan la misma dimensión; es decir, no debemos definir variables que no estén relacionadas como la edad y los ingresos ya que la primera se expresa en años y la segunda representa cantidades de dinero (en este caso dólares). El número máximo de diferencias esta limitado por el número de variables de escala que se hayan definido para el procedimiento.

El programa no permite que las diferencias entre variables sean empleadas al mismo tiempo que las diferencias entre categorías de una variable, por este motivo si desplegamos las listas de categorías de cada variable no aparecerán ninguna diferencia. En la siguiente leccion conoceremos la forma de crear una diferencia entre las categorias de una variable de agrupación.

Diferencias: Variables Categoricas - Cubos OLAP

Para crear una comparación entre las categorías de una variable debemos volver al cuadro de diálogo y seleccionar el botón Diferencias con lo que aparecerá el cuadro correspondiente. Antes de definir las categorías y la variable debemos seleccionar en la sección Diferencias entre estadísticos de resumen la opción Diferencias entre grupos de variables con lo que se activaran las casillas de la sección correspondiente.

En la casilla variable debemos elegir de la lista desplegable la variable Género; a continuación introducimos en la casilla categoría el número que representa a la categoría que deseamos vincular, este valor se debió estipular con anterioridad en la vista de variables, para el ejemplo este valor corresponde al número 1 que representa la categoría Femenino, sucesivamente en la casilla Menos categoría ingresamos el valor 2 que identifica la categoría Masculino; en la casilla etiqueta de porcentaje ingresamos la leyenda Diferencia porcentual y en la etiqueta aritmética la leyenda Diferencia aritmética. Una vez hemos definido cada una de las casillas satisfactoriamente hacemos clic en el botón flecha con lo que la comparación queda declarada en la casilla pares [Fig.6-56].

Figura 6-56

Es necesario aclarar que a pesar que las dos diferencias se encuentran declaradas en el mismo cuadro de diálogo, el programa sólo realiza la comparación que coincida con la opción seleccionada en la sección Diferencias para estadísticos de resumen omitiendo la otra; es decir, el programa sólo realiza la comparación correspondiente a la opción que se encuentre seleccionada en la sección Diferencia para estadísticos de resumen al momento de hacer clic en el botón Continuar. Para terminar hacemos clic en Continuar y luego en Aceptar con lo que los resultados son creados en el visor de SPSS [Fig.6-57].

Figura 6-57

A simple vista es imperceptible notar los resultados de este procedimiento, para poderlos observar debemos activar el cubo y seleccionar la lista desplegable de la variable Género, en donde encontraremos dos nuevas opciones denominadas Diferencia porcentual y Diferencia aritmética. Al seleccionar la diferencia porcentual, los resultados de cada casilla de la tabla cambiaran enseñando

valores porcentuales [Fig.6-58]; si nos fijamos en los resultados notaremos que algunos de estos valores cuentan con signo negativo, lo que nos indica que en esa casilla el resultado del Género Masculino es mayor que el Género Femenino. Cada uno de los valores de casilla representa la diferencia porcentual de los resultados de los Géneros y el signo nos indica cual de ellos es mayor.

Figura 6-58

Ahora si seleccionamos la opción Diferencia aritmética los valores de cada casilla representarán la diferencia numérica de los Géneros obteniendo los resultados de la figura [6-59].

Figura 6-59

Es necesario recalcar que para estos valores los signos cuentan con la misma utilidad (El signo positivo representan que el género femenino es mayor que el masculino y el signo negativo representa el sentido contrario) y a su vez los valores representan la diferencia que existe entre los dos géneros, es decir, si por ejemplo observamos la Media de la edad del entrevistado, este valor nos indicara que los hombres cuentan con un promedio de edad más alto que el de las mujeres y su diferencia es de 1.6 Años en promedio.

Para observar los valores de cada Género (Masculino o Femenino) debemos seleccionarlo en la lista desplegable, con lo cual los valores de la tabla representarán el comportamiento de sus datos a través de las variables de resumen. Las diferencias (Porcentual y Aritmética), también pueden ser realizadas combinando las categorías de la variable estado civil; es decir, podemos comparar el comportamiento de la edad, los años estudiados o las ingresos de los géneros de las personas casadas. Para realizarlo debemos seleccionar la lista desplegable de la variable Estado civil y elegir la categoría casado, con lo que obtendríamos los resultados de la tabla de le figura [6-60].

Figura 6-60

En la siguiente lección conoceremos el último boton de opción conque cuenta el procedimiento Cubos OLAP de SPSS.

Titulos en los Cubos OLAP de SPSS

El ultimo botón de opción que encontramos en el cuadro de dialogo de Cubos OLAP corresponde a Título, a través de él, podemos editar el título y las notas al pie que serán incluidas en el cubo. Al seleccionarlo aparece el cuadro de diálogo correspondiente [Fig.6-61]; en este cuadro encontramos dos casillas, la primera corresponde al título y la segunda a las notas al pie. En cualquiera de estas casillas podemos ingresar leyendas informativas alfanuméricas (letras, números o símbolos) con un máximo de 255 caracteres.

Figura 6-61

A manera de ejemplo vamos a ingresar en los resultados del cubo algunas leyendas informativas. Para realizarlo debemos volver al cuadro de diálogo y seleccionar el botón Título; al aparecer el cuadro ingresamos en la casilla título la leyenda Exploración de las variables Género y Estado civil, y en el casilla Pie ingresamos la leyenda Las diferencias Porcentual y Aritmética están estipuladas para los Géneros de los entrevistados; para finalizar hacemos clic en el botón Continuar y luego en Aceptar con lo que los resultados se generan en el visor [Fig.6-62].

Figura 6-62

En conclusión, el procedimiento Cubos OLAP nos permite explorar el comportamiento de varias variables de escala a través de estadísticos de resumen, los cuales son expresados de acuerdo a una combinación específica de categorías de múltiples variables categóricas. La utilidad de los cubos, radica en la posibilidad de apreciar el comportamiento de los datos a medida que se definen nuevas combinaciones de categorías, permitiéndonos observar aspectos específicos de la información como la edad o los ingresos de las mujeres casadas. Adicionalmente, el programa nos permite realizar comparaciones porcentuales o aritméticas entre las variables de escala o inclusive entre las categorías de una variable categórica.

Analisis Con Multiples Variables

Documents

los cruces

los hombres que tienen

interaccin en

una o varias variables

en donde

variable telfono celular

los encuestados corresponde

variable gnero en