Manual de SPSS Básico

M a n u a l d e S P S S , B á s i c o - I n t e r m e d i o A u t o r : J o s é L u i s G o n z á l e z L e ó n

Manual de SPSS Nivel Básico


INDICE

Prólogo ...................................................................................................................................................... 4

1 INTRODUCCIÓN A SPSS ............................................................................................................... 5

1.1 Tipos de ventana ......................................................................................................................... 6

1.2 Los cuadros de diálogo ............................................................................................................... 7

2 LOS DATOS ................................................................................................................................... 11

2.1 DEFINICIÓN DE VARIABLES Y CASOS............................................................................ 11

2.1.1 Variables cualitativas y cuantitativas ................................................................................ 12

2.1.2 Atributos de variable ......................................................................................................... 12

2.2 INTRODUCCIÓN DE DATOS ............................................................................................... 14

2.3 EDICIÓN DE DATOS ............................................................................................................. 15

2.4 LEER DATOS .......................................................................................................................... 16

2.4.1 LEER DATOS DE WORD PARA WINDOWS .............................................................. 16

2.4.2 LEER DATOS EN FORMATO ASCII (TEXTO) ........................................................... 18

3 CREACIÓN Y TRANSFORMACIÓN DE DATOS ..................................................................... 21

3.1 CREACIÓN DE VARIABLES (COMPUTE) ......................................................................... 21

3.1.1 Creación de nuestra primera variable ................................................................................ 22

3.1.2 Creación de una variable condicional ............................................................................... 23

3.2 RECODIFICACIÓN DE VARIABLES (RECODE) ............................................................... 24

3.2.1 Ejemplo de recodificación. ............................................................................................... 25

3.3 RECODIFICACIÓN AUTOMATICA (AUTORECODE) ..................................................... 25

3.4 CATEGORIZADOR VISUAL ................................................................................................ 27

3.5 ASIGNAR RANGOS A CASOS (RANK) .............................................................................. 29

3.5.1 Rangos por grupos ............................................................................................................ 31

3.6 CONTAR CASOS (COUNT) .................................................................................................. 31

3.7 VALORES PÉRDIDOS (MISSING) ....................................................................................... 33

3.7.1 Valores perdidos determinados por el usuario .................................................................. 33

4 SELECCIÓN DE CASOS O GRUPOS .......................................................................................... 35

4.1 SEPARACIÓN DE CASOS (SPLIT FILE) ............................................................................. 35

4.2 FILTRADO DE CASOS (SELECT CASE) ............................................................................ 36

4.3 PONDERAR CASOS (WEIGHT CASES) .............................................................................. 38

4.4 ORDENAR CASOS (SORT) ................................................................................................... 39

5 ESTADÍSTICA. INTRODUCCIÓN .............................................................................................. 40

6 ESTADÍSTICA DESCRIPTIVA .................................................................................................... 41

6.1 DESCRIPCIÓN DE VARIABLES (FREQUENCIES) ........................................................... 41

6.1.1 Descripción de variables nominales .................................................................................. 42

6.1.2 Descripción de variables ordinales ................................................................................... 45

6.1.3 Descripción de variables de intervalo ............................................................................... 46

6.2 DESCRIPCIÓN DE VARIABLES POR GRUPOS (MEANS) ............................................... 48

6.2.1 Descripción jerárquica de variables por grupo ................................................................. 49

6.2.2 Gráfico agrupado (de barras) ............................................................................................ 50

6.3 DESCRIPCIÓN RÁPIDA DE VARIABLES CUANTITATIVAS (DESCRIPTIVES) ......... 52

6.4 DESCRIPCIÓN DETALLADA DE VARIABLES Y GRUPOS (EXAMINE) ...................... 53

6.4.1 Gráfico de tallo y hojas ..................................................................................................... 54

6.4.2 Gráfico de cajas ................................................................................................................. 55

6.4.3 El caso extremo y la necesidad de eliminarlo ................................................................... 55

6.4.4 Gráfico agrupado (de cajas) .............................................................................................. 56

6.5 VARIABLES MULTIRESPUESTA (MULT RESPONSE) ................................................... 57


6.5.1 Definición de variables dicotómicas ................................................................................. 58

6.5.2 Definición de variables múltiples (categóricas) ................................................................ 59

6.5.3 Distribución de frecuencias ............................................................................................... 60

6.5.4 Tablas de contingencia ...................................................................................................... 61

7 ESTADÍSTICA INFERENCIAL .................................................................................................... 64

7.1 Introducción a la estadística inferencial ................................................................................... 64

7.2 Prueba – T y Pruebas de hipótesis ............................................................................................ 64

7.3 Comparación de medias ........................................................................................................... 65

7.3.1 Prueba T para una muestra ................................................................................................ 65

7.3.2 Prueba T para muestras independientes ............................................................................ 68

7.3.3 Prueba T para muestras relacionadas ................................................................................ 71

7.3.4 ANOVA de un factor (Análisis de varianza) .................................................................... 73

7.3.4.1 Comparación Post Hoc .................................................................................................. 75

7.3.4.2 Gráfico ........................................................................................................................... 76

8 TABLAS DE CONTINGENCIA.................................................................................................... 77

8.1 El caso simple ............................................................................................................................. 78

8.2 Gráfico ........................................................................................................................................ 80

8.3 El caso complejo ......................................................................................................................... 80

8.3.1 Estadístico ² (Chi – cuadrado) ........................................................................................ 81

8.3.2 Estadístico exacto de Fisher .............................................................................................. 82

8.3.3 Phi y V de Cramer ............................................................................................................. 82

9 ANÁLISIS DE CORRELACIÓN LINEAL ................................................................................... 82

9.1 Correlación Bivariada ................................................................................................................. 83

9.2 Correlación Parcial ...................................................................................................................... 85

9.3 Gráfico de dispersión .................................................................................................................. 86

10 REGRESIÓN .................................................................................................................................. 88

10.1 Regresión Lineal Simple .......................................................................................................... 89

10.2 Regresión Lineal Múltiple ........................................................................................................ 92

10.3 Estimaciones Curvilineas ......................................................................................................... 93

10.3.1 Estimación Exponencial .................................................................................................... 93

10.3.2 Estimación logarítmica ..................................................................................................... 95

10.3.3 Estimación cuadrática ....................................................................................................... 96

10.3.4 Estimación cúbica ............................................................................................................. 97


SPSS (Statistical Product and Service Solutions) para Windows es un programa de ordenador que se utiliza

para realizar una gran variedad de análisis estadísticos, desde los más sencillos a los más extensos, SPSS

ofrece un sistema eficiente y fácil de usar para organizar y analizar datos, es por tal motivo uno de los

programas estadísticos más utilizados tanto en el mundo académico como en el de los negocios en todo el

mundo.

La versión del programa SPSS que se describe es la que se usa en ordenadores en el entorno Windows. El

manual se ha realizado en base a la versión 12.0 del programa SPSS para Windows, el cual puede ser

instalado en las versiones Windows 95, Windows 98, Windows 2000, Windows NT y Windows XP, para la

versión de Windows Vista deberás contar con la versión más reciente de SPSS que durante la realización de

este manual la última versión es la 15.0.

El propósito del manual y del curso es doble: enseñar el manejo del SPSS para Windows y exponer los

conceptos estadísticos necesarios para entender los resultados que produce el programa, el nivel del curso es

básico-intermedio. Con respecto al programa el enfoque del curso es simplificar su uso explicando los

elementos más importantes y esenciales tanto en relación con los cuadros de diálogo como con las

sentencias; y con respecto a la estadística es, también, explicar de la manera más sencilla los principales

conceptos estadísticos.

Por otro lado se supondrá que el alumno tiene los conocimientos necesarios para trabajar en el entorno

Windows, es decir, deberá saber trabajar con archivos y carpetas, y trabajar con los diferentes dispositivos

de almacenamiento, por lo que en este manual se omitirá explicar la manera en que se guardaran los

diferentes elementos de los que SPSS hace uso.


SPSS organiza sus datos y resultados en varias ventanas de trabajo o de lectura, de las cuales las dos

principales que encontramos cuando accedemos al programa son: la ventana de editor de datos y la venta de

visor de resultados, y cada una de ellas se identifica en la barra de título con un botón.

La ventana del editor de datos es la principal de SPSS, pues será en donde se introducirán los datos que

queramos estudiar, esta ventana al ser guardada automáticamente se le asignara la extensión (*.sav) donde

el asterisco determina el nombre que el usuario decida agregar. El visor de resultados se generara

automáticamente cuando se decida realizar algún análisis con los datos existentes en la ventana de editor de

datos, esta nueva ventana al ser guardada automáticamente se le asignara la extensión (*.spo).

SPSS hace uso de otras cuatro ventanas, el editor de sintaxis, el editor de gráficas, el visor borrador y el

editor de autoprocesos, de las cuales no profundizaremos. Con SPSS puedes trabajar de dos maneras, con

cuadros de diálogo o con comandos. Los comandos son una alternativa a los cuadros de diálogo. El editor de

sintaxis se emplea para procesar los comandos. El editor de gráficas le sirve para cambiar el aspecto de las

gráficas. El visor borrador es una manera alternativa de ver los resultados. El editor de autoprocesos le

permite automatizar los resultados del visor SPSS.

SPSS para Windows y como todas las ventanas de cualquier programa que trabajan bajo el entorno Windows

tienen, aunque con diferentes herramientas el mismo tipo de barras de trabajo y por ende el mismo nombre:

barra de título, que es la que nos servirá para identificar el nombre que nosotros le asignemos a esa ventana

y contendrá algunos botones de control (minimizar, restaurar, maximizar y cerrar); barra de menús, que es

en donde encontraremos una serie de botones de menú de los cuales se encontrarán todas las herramientas

de las que SPSS hace uso (archivo, edición, ver, datos, etc.); barra de herramientas, que es en donde

encontraremos algunas herramientas de las que SPSS hace uso frecuentemente; barra de pestañas, en la

cual están contenidas dos pestañas, visor de datos y el visor de variables y; la barra de estado, la cual

principalmente nos dará información de cuando un análisis este en proceso y en su caso informara del

termino de este.

… c o n t i n u a


… c o n t i n u a c i ó n

1: Barra de título.

2: Barra de menús.

3: Barra de herramientas.

4: Barra de fichas.

5: Barra de estado.

Al iniciar una sesión con el SPSS nos encontramos con una ventana de aspecto similar al de una hoja de

cálculo (ver figura): el Editor de datos. El Editor de datos es la ventana principal del SPSS, pero no la única.

En los próximos capítulos iremos explicando con detalle algunas de las diferentes ventanas de SPSS, pero

antes, en este capítulo, debemos hacernos una idea general del conjunto de las mismas. Conocer las

distintas ventanas del SPSS es, probablemente, la mejor manera de aproximarnos por primera vez al

programa y obtener una idea global sobre la estructura del mismo.

1.1 Tipos de ventana

Existen ocho tipos de ventanas SPSS, aunque no todas ellas poseen la misma importancia desde el punto de

vista de su utilidad para el usuario. Las dos ventanas principales (imprescindibles para trabajar con el SPSS)

son:

El Editor de datos. Contiene el archivo de datos sobre el que se basa la mayor parte de las

acciones que es posible llevar a cabo con el SPSS. El Editor de datos se abre automáticamente

(vació, sin datos; ver figura) cuando se entra en el SPSS. La ventana del Editor de datos puede

mostrar dos contenidos diferentes: los datos propiamente dichos y las variables del archivo

…con t i nua acompañadas del conjunto de características que las definen. Es posible abrir más

5

4

3

1

2 1


de un Editor de datos y, por lo tanto, trabajar con varios archivos de datos simultáneamente; no

obstante, los datos que interese analizar juntos deberán estar en el mismo archivo.

El Visor de resultados. Recoge toda información (estadísticos, tablas, gráficos, etc.) que el SPSS

genera como consecuencia de las acciones que lleva a cabo. El Visor permite editar los resultados y

guardarlos para su uso posterior. Es posible tener abiertas ventanas del Visor asociadas a cada Editor

de datos.

Los resultados del Visor adoptan tres formatos distintos: tablas, gráficos y texto. El SPSS dispone de un

editor (y, por tanto, una ventana distinta) para cada uno de estos tres formatos básicos:

El Editor de tablas. Ofrece múltiples posibilidades de edición de los resultados presentados

en formato de tabla pivotante (un tipo particular de formato que estudiaremos mas

adelante).

El Editor de gráficos. Permite modificar los colores, los tipos de letra, las etiquetas, la

posición de los ejes y muchos otros detalles de los gráficos del Visor.

El Editor de texto. Permite modificar los diferentes atributos (tipo, tamaño, color, etc., de

las fuentes) de los resultados tipo texto: títulos, subtítulos, y notas.

El resto de ventanas SPSS son las siguientes:

El Borrador del Visor de resultados. Ofrece la misma información que el Visor en modo normal,

pero en formato texto, es decir, con un aspecto menos depurado y sin las posibilidades de edición del

Visor en modo normal (no es posible, por ejemplo, pivotar tablas o editar gráficos).

El Editor de sintaxis. Permite utilizar las posibilidades de programación del SPSS. Las acciones que

el SPSS lleva a cabo como resultado de las selecciones hechas en los menús y cuadros de diálogo se

basan en un conjunto de instrucciones construidas con una sintaxis propia del SPSS. Estas

instrucciones en sintaxis SPSS pueden pegarse en una ventana de sintaxis desde cualquier cuadro de

diálogo. El botón Pegar disponible en la mayor parte de los cuadros de diálogo siempre tiene el

mismo efecto: convierte en sintaxis SPSS las selecciones hechas. La sintaxis SPSS pegada puede

editarse para, por ejemplo, ejecutar algunas acciones no disponibles desde los cuadros de diálogo, o

para salvarla en un archivo y volver a utilizarla en una sesión diferente. Es posible tener abiertas

simultáneamente varias ventanas de sintaxis.

Editor de procesos. Permite personalizar y automatizar algunas de las tareas que el SPSS lleva

acabo, especialmente en lo relacionado con el contenido y el aspecto de las tablas de resultados.

1.2 Los cuadros de diálogo

En todo momento que realices algún análisis de datos haciendo uso de cualquier herramienta de las que

SPSS te ofrece, comúnmente tendrás que vértelas con diferentes cuadros de diálogo y generalmente en

todos los cuadros de diálogo hay botones que tienen el siguiente significado:


Figura 2: Cuadro de diálogo

Aceptar: Realiza las operaciones de acuerdo a lo definido.

Pegar: Escribe la sintaxis correspondiente a lo definido en la ventana de sintaxis.

Restablecer: Cuando se usa por segunda vez un cuadro de diálogo, éste conserva las definiciones de la

primera vez, si se pulsa este botón se eliminan esas definiciones.

Cancelar: Cancela las definiciones en curso y sale del cuadro.

Ayuda: Provee ayuda sobre el cuadro de diálogo.

Botones de acceso a cuadros de diálogo

secundarios


Cuando en una sección de un cuadro haya varias opciones señaladas con círculos sólo se puede elegir una

(como en la sección “Mostrar” de la figura 2), y cuando haya varias opciones señaladas con cuadrados se

elegir cada una de ellas (como en la sección “Descriptivo” del cuadro de diálogo siguiente), ahí se puede

elegir Tallo y hojas o/y Histograma, o bien ninguna de ellas.

Contnuar: Acepta lo definido en este cuadro y vuelve al cuadro de diálogo principal.

Cancelar: Cancela lo definido en este cuadro y vuelve al cuadro de diálogo principal.

Ayuda: Provee ayuda sobre las secciones del cuadro de diálogo.

Se puede elegir

cada una de ellas

Sólo se puede

elegir una de las

cuatro

posibilidades


1: En este apartado del cuadro de diálogo se encontraran el nombre de cada una de las variables con

las que cuenta tu plantilla, por lo tanto serán con las que podrás trabajar, notaras que del lado

izquierdo del nombre de la variable hay un símbolo, entonces la variable que contenga este símbolo

será aquella que hace uso de valores numéricos, por ende se trata de una variable numérica; la

variable que este precedida por este símbolo será aquella que hace uso de valores alfanuméricos,

por ende se trata de una variable alfanumérica.

2: En este apartado del cuadro de diálogo encontraremos un botón que dependiendo de la acción que

deseemos realizar, este se transformara, cuando el botón se encuentre de esta manera

significa que podemos agregar una variable del apartado 1 al apartado 2, simplemente seleccionando

la variable y presionando el botón; cuando el botón se encuentre de esta manera querrá decir

que agregamos una variable al apartado 3, por ende podemos regresarla al apartado 1,

seleccionando la variable y presionando el botón.

3 En este apartado, se encontraran aquellas variables de las que con anterioridad agregamos con los

botones del apartado 2, entonces única y exclusivamente serán analizadas aquellas variables que

estén agregadas en este apartado.

1

2

3


Antes de iniciar una sesión de análisis de datos, éstos deben ser introducidos en el programa. Existen

muchas formas distintas de administrar datos al programa. Desde la introducción directa por el teclado, la

lectura de un archivo, la importación de datos de otras aplicaciones, el cortado y pegado desde otra tabla de

datos, hasta una potente herramienta de consultas a otras bases de datos (MSAccess, Excel, Dbase, etc) a

través del servidor ODBC de Windows. Antes de continuar profundizando en los entresijos del programa, se

presentan dos conceptos clave que aparecerán recurrentemente durante el resto del documento y conviene

detenerse en su clarificación: variables y casos.

2.1 DEFINICIÓN DE VARIABLES Y CASOS

Todo conjunto de datos puede ser visto como una matriz. Las filas se corresponden con los distintos sujetos

o unidades de investigación, sobre los que se han realizado las distintas observaciones. Éstas últimas se

corresponden con las columnas. Los sujetos (filas) suelen denominarse casos y las observaciones (columnas)

suelen denominarse variables. A modo de ejemplo, se emplea una investigación en la que se analiza la

relación entre ciertas variables demográficas, como el género, la edad, el estado civil, la ciudad de

procedencia, y otras variables como número de individuo encuestado e ingreso mensual.

Figura 4: Variables y casos

1) Nombre de la variable.

2) Número de caso, que corresponderá a cada uno de los datos de las columnas variables.

1

2


Cuando empecemos a trabajar con SPSS estaremos en la ventana de editor de datos, que es donde

introduciremos cada uno de los datos que se analizarán. En la parte inferior hay dos solapas o pestañas:

Vista de datos (para introducir los datos) y Vista de variables (para definir los atributos de cada una de las

variables). Por lo tanto, para definir las variables, pulsa en la solapa Vista de variables. En la vista de

variables cada línea definirá una variable y las columnas son los diferentes atributos de la o las variables que

podremos manipular.

2.1.1 Variables cualitativas y cuantitativas

Las variables cualitativas (nominales) son variables de cuyos valores sólo se puede decir que son distintos y

que tienen valores que son arbitrarios y que por lo tanto tienen que ser convenidos de antemano, así la

variable CIUDAD contendrá los valores 1, 2 y 3, pero estos valores por si solos no nos dicen algo, por lo

tanto los valores de una variable cualitativa no son autoexplicativos pues no sabremos que ciudad

corresponde al número 1 o al 2 o al 3, entonces haciendo uso del atributo “Valores” (que veremos más

adelante) podremos determinar que le corresponde a cada valor, por ejemplo las personas que sean del

Distrito Federal tendrán el valor 1, las de Monterrey el valor 2, y las de Guadalajara el 3.

Las variables cuantitativas no reciben valores arbitrarios porque son autoexplicativos, es decir si un caso

tiene 33 en la variable EDAD es que tiene 33 años. Las variables cuantitativas se dividen en:

1) Ordinales: Los valores son distintos y se pueden ordenar.

2) Intervalo: Además de ser valores distintos y que se pueden ordenar existe una unidad común.

3) De razón: además de los rasgos anteriores existe un cero real.

2.1.2 Atributos de variable

Antes de que describamos cada uno de los diferentes atributos de las variables es muy importante tener en

cuenta lo que a continuación te expondré: Una variable de SPSS, puede tener hasta 64 letras como máximo,

debe empezar por una letra, puede contener cualquier letra o número y no debe contener ningún carácter

especial como guión, la coma o el signo de interrogación; si puede contener acentos, guión bajo, el punto, el

signo de $ o el signo @. No puede haber dos variables con el mismo nombre. Entonces, nombres válidos, por

ejemplo, son: VAR000001, VAR8, PESO, PRECIO_2, C@123, MONEDA$.

A continuación describiremos cada uno de los diferentes atributos que podemos agregar a cada una de las

variables con las cuales trabajaremos en SPSS.

1) Columna “Nombre”: En esta columna agregaremos el nombre de las variables, el nombre de una

variable puede tener hasta 64 letras como máximo, debe empezar por una letra, puede contener

cualquier letra o número y no debe contener ningún carácter especial como guión, la coma o el

signo de interrogación; si puede contener acentos, guión bajo, el punto, el signo de $ o el signo @.

No puede haber dos variables con el mismo nombre. Entonces, nombres válidos, por ejemplo, son:

VAR000001, VAR8, PESO, PRECIO_2, C@123, MONEDA$. Ahora, cuando se omite agregar nombre


a una variable y se agregan datos, este automáticamente será VAR00001, para la primera variable

sin nombre, para una segunda variable sin nombre será VAR00002 y así sucesivamente.

2) Columna “Tipo”: Cuando es nombrada una variable, observaras que SPSS automáticamente la

define como una variable Numérica. Si deseas modificar el tipo de variable, pulsa sobre este

botón . Aparecerá el cuadro de diálogo Tipo de variable:

3) Columna “Anchura”: Esta columna determina el ancho de números con respecto a una variable

Numérica, y SPSS automáticamente a una variable Numérica le asigna un ancho de 8 dígitos.

Puedes modificar la anchura desde la propia Vista de variables desde este botón que aparecerá

cuando te desplaces a la columna “Anchura” o desde el cuadro de diálogo Tipo de

variable.

4) Columna “Decimales”: En esta columna se determina el número de dígitos decimales que

contendrá una variable Numérica, SPSS automáticamente asigna dos números decimales de los 8

dígitos que fueron determinados en la columna anchura. Puedes modificar el número de decimales

desde la propia Vista de variables desde este botón que aparecerá cuando te desplaces a la

columna “Decimales” o desde el cuadro de diálogo Tipo de variable.

5) Columna “Etiqueta”: Esta columna es una de las más importantes, pues en ella podrás escribir una

pequeña descripción de la variable que muchas de las veces el propio nombre de la variable no

describirá, esta descripción es empleada en el visor cuando se use esa variable.

6) Columna “Valores”: Cuando los datos de una variable no son autoexplicativos es necesario hacer

uso de la columna “Valores”, en la cual podremos definir los valores que tendrán hombres y

mujeres. Para definir los valores de la variable GENERO sitúese en la columna “Valores” y pulse en

el botón . Aparece el cuadro de diálogo Etiquetas de valor donde en la casilla Valor, deberas

teclear el número, y en la casilla Etiqueta de valor Teclear la etiqueta y después pulsar el botón

Añadir. Y así para cada uno de los valores que se quieran etiquetar. Finalmente pulsar el botón

aceptar.


7) Columna “Perdidos”: En algunas investigaciones no se obtienen todos los datos para cada caso. En

este caso se suele pedir un valor, que indica esa circunstancia, en las posiciones que ocuparían los

valores de la variable cuyos datos faltan. Es muy usual codificar de una manera las respuestas “no

sabe” o “no contesta”. Esto se maneja con la columna “Perdidos” de Vista de variables.

8) Columna “Columnas”: Nos servirá para controlar la anchura de la columna de esa variable en la

vista de datos. No confundas anchura de la columna y la anchura de la variable pues son cosas muy

diferentes.

9) Columna “Alineación”: En esta columna podremos determinar la alineación de los datos que

nuestro visor de datos contenga, pues los podremos alinear del lado derecho que es la forma

predeterminada, o si los queremos centrados o alineados a la izquierda, y bastara situarnos en la

columna “alineación” y pulsar en el botón .

10) Columna “Medida”: Esta columna servirá para determinar que tipo de valores es el que

contendrá esa variable, es decir si será escalar, ordinal o nominal (ver variables cualitativas y

cuantitativas), podrás elegir un tipo de valor situándote en la columna “Medida” y pulsar en el

botón .

2.2 INTRODUCCIÓN DE DATOS

Una vez definidos los atributos de cada una de las variables que contendrá tu plantilla se pasa a introducir

los datos. Entonces pulsa en la pestaña Vista de datos, y tomando como ejemplo la figura 4, donde se hace

uso de un archivo llamado Encuesta.sav define las variables ID, EDAD, INGRESO, EDO_CIVIL, GENERO y

CIUDAD, una vez echo esto teclea el número y pulsa la tecla Enter, el número aparecerá en la casilla y

resaltada la casilla inferior. Además del ratón, se pueden emplear las teclas de dirección y para

moverse por la cuadricula.

Las etiquetas añadidas van apareciendo aquí


Una vez insertados todos los datos de la primera columna (variable id) se continua con la siguiente columna

situándose en la primera casilla del caso 1 en la variable EDAD, y así sucesivamente para cada una de las

variables restantes.

2.3 EDICIÓN DE DATOS

Veamos ahora las principales características del editor de datos (vista de datos). Aunque lo que sigue está

pensado para aplicarse en la vista de datos la mayoría de las funciones también son operativas en la vista de

variables. Muchas de las funciones que se nombraran en este capitulo se harán de la misma forma que en

una hoja de cálculo de Excel, entonces en estos casos solo veras del lado derecho la leyenda “como en

Excel”.

Para moverse emplear las flechas de movimiento. La tecla TAB cambia a la casilla contigua. Además,

para ir a la primera columna pulsar CTRL + . Para ir a la ultima columna CTRL. + . Para ir al

principio (primera columna, primera línea), pulsar CTRL. + INICIO. Para ir al final (última columna,

última línea) pulsar CTRL. + FIN.

Para ir a un caso concreto elegir del menú Datos Ir a caso o pulsar el icono .

Para corregir un dato completamente, igual que en Excel.

Para corregir un dato parcialmente, igual que en Excel.

Para seleccionar.

o Una celdilla, igual que en Excel.

o Un caso (fila), hacer clic sobre la casilla del número del caso.

o Una variable (columna), hacer clic sobre la casilla del nombre de la variable.

o Un rectángulo de datos (rango), igual que en Excel.

Para buscar un dato de alguna variable, hay que situarse en la columna de la variable y elegir

Edición Buscar, o teclear Ctrl + F, o bien emplear el icono.

A continuación se nombraran todas las funciones típicas de cualquier editor que en SPSS podrás hacer uso, y

que en este curso se dará por hecho que las puedes manejar sin ningún problema, por ende solo serán

mencionadas, y son:

Copiar una celda.

Mover una celda.

Copiar una celda a varias filas y/o columnas.

Copiar todos los datos de un caso a otro caso.

Copiar los datos de un caso a un caso nuevo.

Mover un caso a otro sitio.

Copiar una variable sobre otra.

Copiar una variable a otro sitio.

Mover una variable a otro sitio.

Copiar un rango de celdas.

Borrar.

Borrarlo todo.

Deshacer.

Rehacer.


2.4 LEER DATOS

Comúnmente trabajaremos sobre archivos de datos que fueron guardados con anterioridad y para elegirlos

en SPSS como en cualquier otro tipo de programas que trabajan bajo el entorno Windows se harán de la

siguiente manera, elegir Archivo Abrir Datos, o usar el icono de abrir en la barra de herramientas. Al

realizar esto se abrirá un cuadro de diálogo con todos los archivos guardados, de donde deberás elegir el

archivo con el cual trabajaras, una vez seleccionado presiona el botón Abrir para visualizar los datos en

SPSS, recuerda que los archivos en SPSS son guardados con la extensión SAV, y podrías pensar que por tal

efecto sólo podrás trabajar en SPSS con archivos que contengan la extensión SAV, pero no es así, en SPSS

puedes utilizar archivos con diferentes tipos de extensión.

SPSS puede leer archivos editados por cualquier otro programa de uso estadístico o de base de datos, por

nombrar algunos son: Excel (uno de los más comunes), Access, Visual FoxPro, entre otros.

2.4.1 LEER DATOS DE WORD PARA WINDOWS

En SPSS también podemos hacer uso de los archivos denominados planos, es decir de aquellos que

provienen de un editor de texto, en este caso veremos como es que podemos hacer uso de datos que estén

capturados en archivos con extensión DOC, como es seguro todos ustedes sabrán que se trata del editor de

texto de Microsoft Word para Windows y hay dos alternativas. La primera consiste en guardar los datos como

texto (ASCII) y emplear el lenguaje de comandos del SPSS (que no se verá en este manual) o el asistente de

lectura de archivos de texto (Elija Archivo Leer datos de texto). La segunda, que se explica a

continuación, permite leer, fácilmente, los datos empleando el portapapeles.

Al capturar los datos en el programa Word los datos de cada sujeto (caso) tienen que estar en una sola línea

(si el tamaño de la página no lo permite, se puede emplear un tamaño de página personalizada con páginas

más anchas o bien definir la posición de los tabuladores de forma que éstos estén más próximos entre sí).

Los datos de cada sujeto se introducen separándolos con tabulaciones, es decir, se inserta un dato, se pulsa

el tabulador, se inserta otro dato, se pulsa el tabulador, y así sucesivamente. Un dato perdido se inserta con

dos tabuladores. Para decimales hay que emplear el punto.

Una vez capturados todos los datos en Word y situados en este programa:

1) Seleccionar todo o utilizar la combinación de teclas para este fin Ctrl. + E.

2) Copiar lo seleccionado Edición Copiar o combinación de teclas Ctrl. + C y se copiaran todos los

datos en el portapapeles.

3) Una vez copiados los datos deberás abrir el programa SPSS, o cambiarse a él si ya esta abierto.

4) En SPSS en el Editor de datos posiciónate en la casilla 1 de la primera variable y elige Edición

Pegar o la combinación de teclas Ctrl. + V.


Editor de texto Word.

Datos pegados de Word a SPSS


2.4.2 LEER DATOS EN FORMATO ASCII (TEXTO)

Otro modo de leer datos externos es a partir del tan conocido formato ASCII, hay que elegir Archivo Leer

datos de texto. Selecciona el archivo que quieres leer. SPSS entiende por defecto que este archivo debe

tener una extensión TXT o DAT, si tu archivo tiene otra extensión escribe el nombre completo del archivo si

lo conoces o elige en la sección Tipo de archivos la opción “Todos los archivos” y selecciónalo de la lista. A

partir de ahí un asistente te ira guiando en el proceso e incluso te mostrará las primeras líneas del archivo de

texto.

Los datos en el Bloc de notas fueron capturados de la misma forma en la que fueron capturados los datos en

Word.

Al abrir datos con una extensión TXT o DAT desde SPSS aparecerán una serie de cuadros de diálogo en los

que deberás elegir ciertas opciones, en este caso solo describiré aquellos pasos que nos servirán para utilizar

el archivo Ejemplo.txt previamente creado y guardado:

1) En SPSS elige el botón Archivo Leer datos de texto.

2) En el cuadro de diálogo Abrir archivo selecciona el archivo Ejemplo, no será necesario que

determines el tipo de extensión, pues automáticamente SPSS sobre entiende eso, una vez

seleccionado pulsa sobre el botón Abrir.

3) En el siguiente cuadro de diálogo paso 1 de 6 deberás presionar el botón Siguiente.

4) En el cuadro de diálogo paso 2 de 6, de forma automática están seleccionados los comandos que

nos dicen que nuestros datos están delimitados por tabulaciones o una coma, en este caso nuestros

datos están delimitados por tabulaciones, deberemos seleccionar esa opción. En el segundo

apartado del mismo cuadro de diálogo nos preguntan si nuestro archivo contiene encabezados que

son los nombres de las variables, en este caso nuestros datos no contienen encabezados, entonces

seleccionamos la opción no, en caso contrario seleccionar si, una vez hecho esto presiona sobre el

botón Siguiente.


5) En el cuadro de diálogo paso 3 de 6, el primer apartado nos pregunta que a partir de que línea

inician los datos, en nuestro archivo Ejemplo inician desde la línea 1, deberemos elegir el número 1,

en el segundo apartado se nos hace la pregunta de cuantos casos queremos que sean

representados, deberemos elegir todos los casos que es la primera opción o definir un número

determinado de columnas para la otra opción, en nuestro caso podemos seleccionar la primera

opción o la segunda, siempre y cuando determinemos que son 4 variables, en caso contrario si

decimos que son menos variables, por ejemplo 3 al final tendríamos un caos en nuestros datos, en

el tercer apartado de este cuadro de diálogo se nos hace la pregunta cuantos datos son con los que

deseamos trabajar, como deseamos trabajar con todos los datos seleccionamos Todos los casos,

después presiona sobre el botón Siguiente.

6) En el cuadro de diálogo paso 4 de 6 es solo para confirmar que cada uno de los datos esta

separado con tabulaciones, presiona en el botón Siguiente.

7) En el cuadro de diálogo paso 5 de 6, deberás agregar los nombres de cada una de las variables de

las que harás uso en tu archivo, como recordaras en el paso 2 de 6 le dijimos a nuestro cuadro de

diálogo que nuestros datos no contenían encabezados, por lo tanto en este cuadro de diálogo SPSS

nos permitirá nombrar las variables, para agregar un nombre deberás seleccionar cada una de las

variables y nombrarlas, una vez nombradas todas tus variables presiona el botón Siguiente.


8) En el cuadro de diálogo paso 6 de 6 ya solo deberás presionar el botón Finalizar, para visualizar los

datos en el Editor de datos de SPSS.


En ocasiones, los datos de un archivo serán de tal índole que será posible aplicar directamente sobre ellos el

análisis estadístico deseado. Pero esto sólo ocurrirá en una situación ideal; y las situaciones ideales

raramente se presentan. Más bien al contrario, lo habitual será encontrarse con archivos de datos que

necesitarán ser cuidadosamente preparados antes de poder aplicar con las mínimas garantías cualquier

análisis estadístico.

La preparación del archivo de datos incluye desde la simple detección y corrección de los posibles errores

cometidos al introducir datos, hasta sofisticadas transformaciones (necesarias a veces para llegar a obtener

las variables que realmente interesan), pasando por la remodificación de los códigos utilizados para los

valores de una o más variables, o la creación de nuevas variables a partir de otras ya existentes.

El menú Transformar de la barra de menús principal incluye una serie de opciones que permiten efectuar

diferentes tipos de transformaciones, desde las más simples a las más complejas.

3.1 CREACIÓN DE VARIABLES (COMPUTE)

Si se elige Transformar → Calcular, podremos crear nuevas variables a partir de otras o transformar las ya

existentes, haciendo uso de operadores aritméticos, operadores lógicos, funciones aritméticas, funciones

estadísticas, funciones lógicas y otras1.

Los operadores aritméticos son: + (suma), - (resta), * (multiplicación), / (división) y ** (elevar a

una potencia).

Los operadores lógicos son: > (mayor que), < (menor que), >= (mayor o igual que), <= (menor o

igual que), ˜= (diferente que), = (igual que), AND (y), OR (o) y NOT (no), estos operadores lógicos

son usados en el momento que queramos que una operación de cualquier tipo cumpla con ciertas

condiciones, haciendo uso del botón SI (IF).

Las funciones aritméticas son: ABS (valor absoluto), RND (redondeo), TRUNC (truncado), SQRT (raíz

cuadrada), EXP (elevar e a un número), LN (logaritmo natural), LG10 (logaritmo en base 10), SIN

(seno), COS (coseno), ATAN (arco tangente), MOD10 (modulo10).

Las funciones estadísticas son: SUM (suma), MEAN (media), SD (desviación estandar), VAR

(varianza), CFVAR (coeficiente de variación), MIN (mínimo), MAX (máximo).

Las funciones lógicas son: RANGE (valor de variable en intervalo), ANY (valor en una variable igual a

valor en otras variables o valores).

1 P a r a v e r t o d a s s u s p o s i b i l i d a d e s e l i j a d e l m e n ú ? → T e m a s , e n l a s o l a p a

B ú s q u e d a , e s c r i b a C o m p u t e , p u l s e E n t e r y h a g a d o b l e c l i c s o b r e e l t e m a

C o m p u t e C o m m a n d S y s t a x .


3.1.1 Creación de nuestra primera variable

Supóngase que deseamos tener una nueva variable que sea el resultado de dividir la variable peso (en kilos)

por la variable altura (en metros) elevada al cuadrado (peso/altura²) y a la que se va a llamar índice.

Entonces elegimos Transformar → Calcular.

PESO: 64. 80, 70, 55, 69, 120, 40, 89, 100.

ALTURA: 1.50, 1.82, 1.70, 1.40, 1.20, 1.65, 1.00, 1.70, 1.50.

Se muestra a continuación el cuadro central con indicación del significado de algunas de sus teclas. Si se

pulsa el botón derecho del ratón sobre un botón o sobre una función, ofrece información acerca de él.

Para usar las funciones seleccionar y

pulsar el botón

Creación condicional

mayor o igual que

ANDD NOT

distinto a

OR


En el cuadro de diálogo Calcular variable, escribe la palabra índice en la casilla Variable de destino que será

el nombre de la nueva variable. En la casilla Expresión numérica se construye la operación que definirá la

nueva variable. Veamos como se realiza la definición de la variable empleando los elementos del cuadro de

diálogo. Para utilizar (elegir) un elemento hacer clic sobre él.

1) Seleccionar la variable PESO y hacer clic en el botón .

2) Elegir el signo /.

3) Elegir el signo ( ).

4) Seleccionar la variable ALTURA y hacer clic en el botón .

5) Elegir el signo **.

6) Elegir el número 2.

7) Elegir el botón aceptar.

Se puede añadir una etiqueta a la variable creada con el botón Tipo y etiqueta.

3.1.2 Creación de una variable condicional

Por otro lado si solo quisiéramos visualizar el índice únicamente de los casos que cumplan con la condición de

80 kilos o más para la variable PESO, tenemos que hacer uso del botón de condición que es el que nos

facilitara la creación condicional de variables.


Elija el botón en el cuadro de diálogo que surge al elegir Transformar → Calcular. Crea nuevas

variables o da nuevos valores a variables existentes si una determinada expresión lógica es cierta. Si no se

cumple la condición, no se realizará ninguna operación y el caso tendrá un valor perdido si la variable es

nueva, o el valor original si la variable ya existía.

En este ejemplo se quiere hallar la variable índice que tiene la fórmula (peso/altura²) pero sólo para aquellos

casos que pesan más de 80 kilos. El proceso es:

1) Elige Transformar → Calcular.

2) Escribir el nombre de la nueva variable.

3) Escribir la expresión: (peso/altura²).

4) Hacer clic en el botón y aparece el cuadro “Calcular variable: Si los casos”.

5) En este cuadro marcar el círculo al lado de Incluir si el caso satisface la condición.

6) Escribir en la casilla la expresión peso >= 80 directamente o ayudándose de los botones del cuadro

diálogo.

7) Pulsar el botón continuar.

8) Pulsar el botón aceptar.

Si la variable índice es nueva, la expresión sólo se calculará para aquellos casos con peso de 80 a más kilos.

En los restantes casos tendrán valor perdido. Si la variable índice ya existía, se calculará la expresión para

los casos con 80 o más kilos; para el resto la variable índice tendrá el valor que tenia antes de hacer la

transformación.

3.2 RECODIFICACIÓN DE VARIABLES (RECODE)

La opción Recodificar del menú Transformar permite cambiar los valores de una variable. La recodificación

resulta especialmente útil para agrupar en un único valor diferentes valores de una variable, y para

transformar variables con formato de cadena en variables con formato numérico.

Existen dos posibilidades: En distintas variables recodifica la variable y crea una variable nueva con esta

remodificación; y la opción En las mismas variables recodifica la variable, es decir, los datos originales de

la variable se sustituyen por los nuevos2.

2 A l s u s t i t u i r v a l o r e s e x i s t e n t e s d e u n a v a r i a b l e p o r v a l o r e s r e c o d i f i c a d o s , e s t o s

d e s a p a r e c e r á n d e f i n i t i v a m e n t e d e l a b a s e d e d a t o s , p o r l o c u a l n o p o d r á n s e r

u t i l i z a d o s n u e v a m e n t e e n f u t u r o s a n á l i s i s , a m e n o s q u e s e h a g a u n r e s p a l d o d e l a r c h i v o o r i g i n a l .


3.2.1 Ejemplo de recodificación.

Supóngase que tenemos una variable que se llama CONTINENTE y se desea reducir las alternativas EUROPA,

ASIA y AFRICA a una sola y crear una nueva variable con esta recodificación. Para ello se elige Transformar

→ Recodificar → En distintas variables. Aparece el cuadro de diálogo “Recodificar en distintas variables”.

Se selecciona de la ventana con la lista de variables la variable CONTINENTE y se pulsa el botón , la

variable aparecerá así en la ventana central: “CONTINENTE → ?”. Escribe el nuevo nombre: NCONTINENTE en

la casilla Nombre: de la sección “Variable de resultado” (opcionalmente puedes agregar una etiqueta para la

nueva variable en la casilla Etiqueta) y pulsa el botón cambiar. En la ventana central quedará así:

CONTINENTE → NCONTINENTE.

CONTINENTE: 1, 2, 3, 4, 5.

NCONTINENTE: 1, 2, 2, 2, 3. (nueva variable recodificada)

Una vez definido el nuevo nombre se hace clic en el botón Valores antiguos y nuevos para acceder al cuadro

de diálogo de la figura siguiente.

3.3 RECODIFICACIÓN AUTOMATICA (AUTORECODE)

Al igual que la herramienta “recode” el uso de la recodificación automática nos permitirá modificar los datos

de una variable, pero esta herramienta como su nombre lo dice transformara dichos datos de manera

automática y correlativamente. Por ejemplo, si una variable tiene los valores 1, 2, 4 , 7 y 9, al recodificarla

automáticamente tendrá los valores 1, 2, 3, 4 y 5, y en la plantilla se agregara una nueva variable con los

nuevos valores recodificados. El proceso para recodificar es:


1) Elige Transformar Recodificación automática.

2) Del cuadro de diálogo selecciona y transfiere la variable (recuerda el tema 1.2) que desees

recodificar.

3) Verás que existe una cuadro de texto Nuevo nombre en el que se te pedirá agregar un nombre

para la nueva variable recodificada.

4) Una vez escrito el nuevo nombre presiona el botón Agregar nuevo nombre.

5) Si lo deseas podrás determinar el sentido de la nueva recodificación, es decir podrás recodificar los

valores de la variable de forma ascendente o descendente.

6) Finalmente elige el botón Aceptar.


En la figura siguiente veremos los valores de la variable VAR01 autorecodificados de forma ascendente y

descendente respectivamente en las nuevas variables NVAR01 y NNVAR01.

3.4 CATEGORIZADOR VISUAL

Esta herramienta nos permitirá recodificar una variable continua en valores cualitativos o categóricos3 de

forma gráfica, es decir, podremos visualizar la distribución de los datos antes de realizar la recodificación y

que admite varias posibilidades más. Como ejemplo se va a recodificar la variable S3_Edad del archivo

Banco, y deberá quedar de la siguiente manera:

Edad Del menor a 30 De 30 a 40 De 40 a 50 De 50 al mayor

N_Edad 1 2 3 4

3 L o s v a l o r e s c a t e g ó r i c o s t a m b i é n s e r á n d e n o m i n a d o s v a l o r e s c u a l i t a t i v o s ( v e r

t e m a 2 . 1 . 1 )


Para hacer uso de esta herramienta elige Transformar Categorizador visual y del cuadro de diálogo

elige y transfiere la variable que transformaremos a Categorizar variables, en este momento podemos

decidir si deseamos trabajar con el total de datos de la variable o si sólo deseamos trabajar con un número

limitado de valores, por ejemplo si solo deseas trabajar con n número de valores, deberás activar el apartado

Limitar a un número de casos y agregar el número de casos que deseas transformar y pulsa el botón

continuar.


En el siguiente cuadro de diálogo deberás seleccionar la variable S3_Edad y entonces inmediatamente

aparecerá la distribución de la variable.

Como veras en este cuadro de diálogo existe una tabla de dos columnas encabezadas con la palabra Valor y

Etiqueta. En la columna Valores deberás agregar los puntos de corte: 30, 40, 50 y SUPERIOR. Se escribe el

nombre de la nueva variable en Variable categorizada, si lo deseas en la columna Etiqueta puedes agregar

las etiquetas de los valores, finalmente pulsa el botón aceptar.

Una vez presionado el botón aceptar, visualizaras a la nueva variable recodificada por este método al final de

tu plantilla de datos llamada S3_Nedad.

3.5 ASIGNAR RANGOS A CASOS (RANK)

Esta herramienta nos servirá para crear nuevas variables que contengan rangos, es decir, transformara una

variable que contenga valores numéricos no consecutivos en una nueva variable con valores consecutivos y

ordenados de 1 a n. En SPSS podremos encontrar varios métodos para llevar acabo esta sustitución, rango,

puntuación de savage, rango fraccional, rango fraccional por porcentaje, suma de ponderación de casos,

percentiles y puntuaciones normales, de los cuales solo estudiaremos el método de Rango. El proceso para

asignar rangos a casos es:

1) Alije Transformar Asignar rangos a casos.


2) Selecciona la variable y agrégala al apartado Variable(s).

3) Finalmente presiona el botón Aceptar, y la nueva variable se añadirá al Editor de datos como

última variable.

Hay dos formas de asignar rangos a los valores de una variable, esta la podrás determinar en el cuadro de

diálogo Rango de casos y se encuentra en el apartado Rango Asignado 1 a... 1) valor más pequeño, es

decir el número 1 será asignado al valor más pequeño de la variable, el 2 para el siguiente, y así

sucesivamente; 2) valor más grande, es decir el número 1 será asignado al valor más grande de la variable,

el 2 al siguiente más grande, y así sucesivamente.

Pero, que pasa con los valores de una variable que se repiten. Por defecto SPSS asigna la media de los

rangos a cada uno de los casos. Si pulsas en el botón Empates podrás seleccionar otras posibilidades de

asignar rangos. Se puede asignar el rango menor a todos los valores iguales o el rango mayor. La última

posibilidad es que haya tantos rangos como valores distintos en la variable y esto se logra marcando al lado

de Rangos secuenciales para valores únicos.


3.5.1 Rangos por grupos

Esta forma de asignar rangos a variables es bastante útil, pues se pueden realizar transformaciones por

separado para grupos definidos por otra variable (usualmente cualitativa). Por ejemplo del archivo Banco

existe una variable S3_Edad (edades) y una variable S7_Cd (ciudades), entonces podemos transformar la

variable S7_Edad en rangos por separado para la Ciudad de México, Monterrey y Guadalajara. En el cuadro

de diálogo principal Asignar rangos a los casos selecciona la variable S7_Cd y transferirla a la ventana

titulada “Por”.

3.6 CONTAR CASOS (COUNT)

Esta herramienta es utilizada para crear una variable donde visualizaremos el número de veces que aparecen

determinados valores en otras variables. A modo de ejemplo haciendo uso de la variable S7_Cd que

corresponde a una encuesta realizada por un Banco, donde los encuestados fueron de tres ciudades

diferentes y que al codificarla, a la ciudad de México le corresponde el número 1, a la ciudad de Monterrey el

2 y a la ciudad de Guadalajara el 3 y deseamos crear una nueva variable donde solo se contabilice a los

encuestados que les corresponda el número 3, es decir a los encuestados de la ciudad de Guadalajara. El

proceso para contar casos es:

1) Elige el botón de menú Transformar Contar apariciones.

2) En el cuadro de diálogo en la casilla Variable de destino escribe el nombre de la nueva variable

que contendrá los conteos.

3) Selecciona y transfiere la variable al apartado Variables numéricas. En este apartado podrás

transferir más de una variable si así lo deseas.

4) Veras que existe la opción de agregar una etiqueta a la nueva variable, esto lo podrás hacer en la

casilla Etiqueta del destino.


5) Pulsa el botón Definir valores...

6) En el cuadro de diálogo siguiente escribe el valor 3 en la casilla al lado de Valor.

7) Pulsa el botón Añadir. El valor 3 aparecerá en la ventana de Contar los valores.

8) Pulsar el botón Continuar.

9) Finalmente pulsa el botón Aceptar.


3.7 VALORES PÉRDIDOS (MISSING)

Hasta ahora hemos estado hablando de valores con los que podemos realizar alguna transformación o

tratamiento dentro de nuestro programa de SPSS, pero SPSS no se limita únicamente a valores existentes

como valores numéricos o de texto, si no que también tiene el poder de reconocer casos de variables en los

que se ha omitido algún valor o aquellos valores a los que nosotros deseamos que sean contabilizados como

valores perdidos, es decir que no tengan ningún efecto entre los datos de los cuales se llevaran acabo

análisis de cualquier índole.

SPSS determina dos tipos de valores perdidos, los primeros son determinados por el sistema que son

aquellos que en casos de variables se omitió la inserción de datos, en pocas palabras los valores perdidos

determinados por el sistema son celdas que no contienen valores y son determinados automáticamente; los

segundos son aquellos generados por el usuario atribuyendo de forma manual a casos de variables un valor

determinado. Para que SPSS determine cual o cuales son los valores que reconocerá como perdidos por el

usuario es necesario tratarlos con atributos (ver tema 2.1.2) a partir de la Vista de variables.

3.7.1 Valores perdidos determinados por el usuario

Como ya sabemos, los valores perdidos determinados por el usuario son aquellos que de antemano fueron

establecidos a partir del atributo “Perdidos” que encontramos en la Vista de variables y podemos

determinar de dos maneras los valores perdidos, de forma discreta o por rangos más un valor discreto si

fuera necesario. Y lo podemos realizar de la siguiente manera:

En la Vista de variables en la columna “Perdidos” pulsa sobre este botón . Aparecerá el cuadro de

diálogo Valores perdidos.

En este cuadro de diálogo por defecto solo se reconocerán valores perdidos por ausencia de datos en

celdas que serán los determinados por el sistema, pero como te habrás dado cuenta existen dos

alternativas más que serán las que le permitan al usuario determinar valores existentes en las

variables como valores perdidos.


1) Si seleccionamos Valores discretos perdidos podremos determinar hasta 3 valores perdidos,

estos valores pueden ser continuos o discontinuos.

2) Si seleccionamos Rango de valores perdidos podremos determinar todo un rango de valores sin

restricción y además opcionalmente podemos agregar un valor que no este contenido dentro del

rango definido.

Cuando llevamos acabo cualquier análisis de una o más variables que contengan valores perdidos, estos no

se incluyen en dichos análisis y solo se nos comunicara que existe un número determinado de valores

perdidos.


Los temas siguientes que corresponden a este capítulo son de gran ayuda pues ahora no solo analizaremos

muestras completas si no que aprenderemos a realizar análisis de datos para grupos por separado o si lo

deseamos solo con una parte de los casos. Estas herramientas no solo las podremos activar desde el botón

de menú correspondiente, también podremos activarlas desde la barra de herramientas, pues estas también

las hallaremos ahí.

En el capítulo anterior al realizar una transformación en una variable, esa transformación la podíamos

visualizar en el Editor de datos sobre la misma variable o en una variable nueva, esto no sucederá en la

mayoría de los temas de este capítulo; por ejemplo, en el momento en el que hagamos uso de la

herramienta “Separación de casos” no veremos ninguna diferencia en el Editor de datos, ni tampoco

visualizaremos una variable nueva, en este caso la utilidad de esta herramienta solo la visualizaremos

generalmente en el momento en el que realicemos un análisis estadístico, pues veremos que ese análisis se

realizo de forma grupal y será visualizado en la ventana de resultados.

4.1 SEPARACIÓN DE CASOS (SPLIT FILE)

Esta herramienta nos ayudara a organizar los datos de una variable generalmente cualitativa por grupos, al

hacer uso de esta herramienta sobre cualquier variable, todas las demás variables del archivo se verán

influidas por aquella que nos sirvió de base para crear grupos, esto quiere decir que si por ejemplo deseamos

tratar una variable llamada genero con esta herramienta, y posteriormente deseamos calcular la frecuencia

de la variable ciudad, los resultados los veremos divididos por genero, lo que no ocurriría si no hubiésemos

separado la variable genero. Veamos un ejemplo.

Para esta demostración haremos uso del archivo Banco.sav. Por ejemplo, si deseamos hallar la frecuencia de

la variable S7_Cd (ciudades) separada por hombres y mujeres deberás elegir Datos Segmentar archivo,

o también puedes hacer clic sobre el siguiente icono . En el cuadro de diálogo marca el botón de

selección al lado de “Comparar los grupos”, selecciona la variable a separar y transfiérela en este caso la

variable será S6_Gen, y finalmente presiona el botón Aceptar. En apariencia no podremos determinar si a

sucedido algo, pero si observas en la última casilla de la barra de estado podrás darte cuenta que hay algo

nuevo, una palabra que nos dirá de que manera se encuentra nuestro archivo, y veremos la palabra

“Segmentado”. Después elige Analizar Estadísticos descriptivos Frecuencias, selecciona la

variable S7_Cd y transfiérela y presiona el botón Aceptar. En el visor de resultados visualizaras la frecuencia

de cada una de las ciudades pero separadas por hombres y mujeres.


Como te podrás dar cuenta, además de la frase “Comparar los grupos” esta “Organizar los resultados por

grupos”, ambas agruparan la variable seleccionada, y también se realizará el análisis por separado para

hombres y mujeres, la diferencia radica en el visor de resultados, pues mientras que seleccionemos

“Comparar los grupos”, los resultados del análisis lo visualizaremos en una sola tabla, si seleccionamos

“Organizar los resultados por grupos”, los resultados se presentaran de una forma menos integrada en el

visor de resultados, es decir los resultados los visualizaremos en tablas separadas.

En el momento en el que se decida separar un archivo cada vez que deseemos realizar un análisis con

cualquiera de las demás variables , este se realizara por separado para hombres y mujeres. En caso de que

ya no deseemos que los análisis se realicen por separado deberemos deshacer la agrupación, y esto se logra

accediendo al cuadro de diálogo “Segmentar archivo” y marcar el botón de selección de la frase “Analizar

todos los casos, no crear los grupos”, y hacer clic sobre el botón Aceptar. Y veremos que la frase

“Segmentar” de la barra de estado desaparece.

4.2 FILTRADO DE CASOS (SELECT CASE)

Para aquellos que tengan la experiencia de trabajar en una hoja de cálculo de Excel, les será familiar la

palabra filtrado, y si, el filtrado que se realiza en una hoja de cálculo de Excel es muy similar al filtrado de

casos que se realiza en SPSS, entonces ya te estarás dando una idea de lo que veremos a continuación.

Pues bueno, esta herramienta nos ayudara a determinar que parte de los sujetos de las variables serán

analizados, al contrario que en Excel, los datos filtrados en SPSS los seguiremos visualizando en el Editor de

datos, con la diferencia de que los datos que no serán usados en los análisis estarán con una diagonal en la

parte que nos muestra el numero de casos de cada una de las variables.

Para realizar el filtrado de una parte de los sujetos hay que elegir el botón de menú Datos Seleccionar

casos o también puedes hacer clic sobre el siguiente icono . En el siguiente cuadro de diálogo deberás

elegir la opción que satisfaga la manera en la que desees realizar tu análisis.


A continuación explicare cada una de las opciones que nos ofrece este cuadro de diálogo para poder realizar

los diferentes filtrados.

3) “Todos los casos”: Esta frase esta seleccionada por defecto, pues cada vez que nosotros

realizamos un análisis de cualquier índole lo hacemos con todos los datos sin restricción alguna, en

el momento que seleccionemos cualquier otra opción de este cuadro de diálogo, ya no estaremos

trabajando con todos los datos, por ende en el momento en el que no necesitemos más el filtrado y

deseemos seguir trabajando con todos los datos deberemos abrir de nueva cuenta el cuadro de

diálogo “Seleccionar casos” y activar el botón de selección de la frase “Todos los casos”.

4) “Si se satisface la condición”: Para activar esta forma de filtrado deberás pulsar sobre el botón

“Si...”. Y accederás aun nuevo cuadro de diálogo, en el cual tendrás las herramientas para decidir

que datos serán filtrados dependiendo de si cumplen o no una condición que tu estarás

determinando.

5) “Muestra aleatoria de casos”: En esta forma de filtrar, como su nombre lo indica podremos

determinar de manera aleatoria un determinado porcentaje de datos para su análisis o seleccionar

una muestra de sujetos de los primeros n casos.

6) “Basándose en el rango del tiempo o de los casos”: Esta forma de filtrar casos, funciona por

rangos, por ejemplo podemos solo seleccionar del sujeto 20 al 54.


7) “Usar variable de filtro”: Podremos usar cualquier variable para la selección de casos, solo

debemos seleccionar la variable y transferirla, este filtrado funciona seleccionando los casos cuyo

valor sea distinto de cero o no sea valor perdido.

Para finalizar con el tema de filtrado debo darte algunas recomendaciones, en el momento en el que decidas

hacer uso de esta herramienta, deberás tomar tus precauciones, como te habrás dado cuenta cada vez que

activabas el cuadro de diálogo “Seleccionar casos” por defecto la frase “Filtrado” estaba seleccionada, que

quiere decir esto , bueno, cada vez que realizas un filtrado con esta opción activada, tienes la oportunidad de

deshacer ese filtrado y trabajar de nuevo con todos los datos originales de tu archivo, si por algún motivo

seleccionas la frase “Eliminados” y realizas un filtrado, los datos que serán ignorados para los análisis se

eliminaran definitivamente del archivo original, por lo que no tendrás la oportunidad de revertir el filtrado en

determinado momento en el que necesites trabajar con todos los datos del archivo, para evitar esto te

recomiendo guardar el archivo filtrado con un nombre diferente.

4.3 PONDERAR CASOS (WEIGHT CASES)

La palabra ponderar significa dar un peso especifico a una serie de valores a partir de otra serie de valores,

es decir, que un caso de una variable especifica represente a otros casos de variables diferentes. Como

ejemplo tomaremos el clásico juego del dado, supongamos que lanzamos 20 veces el dado y contabilizamos

las veces, en que salió una de sus caras, esto lo vemos en la siguiente tabla:

Caras 1 2 3 4 5 6

# de veces 2 3 5 3 2 5

Si deseas interpretar esta tabla, seguramente estarás pensando que la cara del dado con el valor 1 se repitió

2 veces, que la cara del dado con el valor 2 se repitió 3 veces y así hasta llegar a la cara del dado con el

numero 6 que se repitió 5 veces, lo que acabamos de realizar con esta interpretación fue haber ponderado la

variable “Caras” a partir de la variable “# de veces”, por lo tanto la variable que usamos para ponderar otra

variable fue la variable “# de veces”. Veamos como lo podemos hacer en SPSS.

Para realizar la ponderación en SPSS deberás elegir de la barra de menús Datos Ponderar casos, o

también puedes hacer clic sobre el siguiente icono . En el siguiente cuadro de diálogo deberás seleccionar

la opción “Ponderar casos por” y seleccionar la variable que ponderara a las demás, que en este caso la

variable será “Veces” y transferirla, finalmente presionar el botón Aceptar. Posteriormente puedes realizar

algún análisis, por ejemplo visualizar la frecuencia de la variable “Caras”, que será en este momento en el

que veras la utilidad de ponderar casos.


Al utilizar la herramienta de ponderación, esta permanecerá cada vez que realices algún tipo de análisis,

podrás revertir el uso de ponderación, si activas de nuevo el cuadro de diálogo Ponderar casos y

seleccionar la opción No ponderar casos y presionar el botón Aceptar.

4.4 ORDENAR CASOS (SORT)

Con esta herramienta podremos ordenar los casos de forma ascendente o descendente en función de una o

más variables. Y se hace de la siguiente manera, elige de la barra de menús Datos Ordenar casos, en el

cuadro de diálogo selecciona la o las variables que servirán para ordenar los datos, posteriormente deberás

decidir en que orden estarán ordenados ya sea de forma ascendente o descendente.

Si después de realizar una ordenación se guardan los datos, se mantendrá la ordenación.


La Estadística puede dar respuesta a muchas de las necesidades que la sociedad actual nos plantea. Su tarea

fundamental es la reducción de datos, con el objetivo de representar la realidad y transformarla, predecir su

futuro o simplemente conocerla.

Hasta ahora solo hemos manipulado los datos, ya sea en transformaciones para obtener nuevos o sustituirlos

por otros y también hemos aprendido a reagrupar esos datos para futuros análisis. A partir de este capítulo

conoceremos herramientas que nos ayudarán a obtener resultados estadísticos para futuras interpretaciones.

Para ello se supondrá que el estudiante de SPSS ya comprende los conceptos básicos estadísticos, puesto

que es esencial para el mejor manejo de nuestro programa y la mejor comprensión de los temas

subsecuentes.

Empezaremos diciendo que la estadística tiene como finalidad estudiar detalladamente las características de

un conjunto de datos, este conjunto de datos puede ser toda una población o una parte de esta a la que

comúnmente se le llama muestra poblacional. Este estudio se realiza a través de las variables (cuantitativas

o cualitativas), que son cantidades que pueden tomar distintos valores de un momento a otro o de un objeto

a otro, y son propiedades de los casos que pueden tomar distintos valores, por ejemplo si tuviésemos una

población determinada y el objeto de estudio es el género, entonces el género es una variable porque puede

tomar distintos valores: hombre o mujer.

Ahora bien, pasando al uso de nuestro programa SPSS, este nos ayudara precisamente a estudiar las

características de nuestros diferentes datos, como pueden ser la frecuencia, la tendencia, la dispersión y la

distribución de los datos.

A lo largo de los próximos temas, aprenderemos a utilizar las herramientas que nos ayudaran a generar la

estadística más básica hasta la que no lo es tanto. Aprenderemos a generar desde una simple tabla de

frecuencias hasta el poder generar relaciones complejas entre más de una variable. Y no solo obtendremos

resultados, si no que en los ejemplos que se vean en este manual se intentara dar una interpretación para el

buen entendimiento de los resultados.

También aconsejaremos al estudiante de SPSS a decidir que tipos de herramientas y estadísticos se podrán

usar para determinados tipos de datos, esto con la finalidad de obtener las mejores interpretaciones.

Empecemos pues, a introducirnos al mundo del análisis estadístico que nos ofrece el programa de SPSS.


La estadística se divide en otras ramas, una de esas ramas es la estadística descriptiva que se dedica a

analizar y representar los datos de la forma más básica pero es fundamental en todo estudio.

La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población,

altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer

conclusiones sobre el comportamiento de estas variables.

La estadística descriptiva nos servirá para estudiar algunas de las característica de las variables, de las

cuales estudiaremos las siguientes:

8) La distribución de frecuencias.

9) Medidas de posición central, es decir, la media, mediana y moda.

10) Medidas de posición no central, como los cuartiles, deciles y percentiles.

11) Medidas de dispersión, como son el rango, varianza y desviación estándar.

12) Medidas de forma: grado de concentración, coeficiente de asimetría y coeficiente de curtosis.

6.1 DESCRIPCIÓN DE VARIABLES (FREQUENCIES)

La distribución de frecuencia es la representación estructurada, en forma de tabla, de toda la información

que se ha recogido sobre la variable que se estudia.

Cuando se describe una variable se trata de reducir un conjunto de números a unos índices numéricos que

representen adecuadamente a ese conjunto de números. Los índices suponen una descripción reduccionista

porque reducen un conjunto de números a unos pocos, que nos ayudarán a medir las principales

características de las variables en estudio.

En SPSS la forma de activar la herramienta que nos permitirá estudiar la frecuencia es de la siguiente

manera, elige de la barra de menús Analizar Estadísticos descriptivos Frecuencias, y en el cuadro

de diálogo que aparece selecciona y transfiera la o las variables que desees analizar, después presiona el

botón Aceptar.

Como recordaras en el tema 2.1.1 hicimos alusión a diferentes tipos de variables, las nominales, ordinales y

de intervalo, entonces para cada uno de estos tipos de variables veremos que tipo de descripción podemos

realizar para cada una de estas variables, para su mejor comprensión y estudio.


6.1.1 Descripción de variables nominales

Para la mejor comprensión del análisis de las variables nominales, estas se estudian mediante la distribución

de frecuencias, la gráfica de barras o la gráfica de sectores y un estadístico descriptivo que en este caso será

la moda. Del archivo Banco.sav, las variables nominales son el género y la ciudad, entonces a partir de estas

veremos el siguiente ejemplo.

Empezaremos por describir a la variable región, entonces elige Analizar Estadísticos descriptivos

frecuencias, y selecciona la variable región y transfiérela.

Si en este momento decides presionar el botón Aceptar del cuadro de diálogo Frecuencias se generara un

visor de resultados, en donde apreciaremos la frecuencia de cada uno de los valores que componen la

variable ciudad, pero no es lo único que necesitamos, aun hace falta el gráfico y el estadístico descriptivo,

para generarlos presiona el botón Gráficos del cuadro de diálogo y en el nuevo cuadro de diálogo selecciona

la opción Gráficos de barras, al activar este tipo de gráfico se activaran dos alternativas más y es respecto

al modo en el que desees visualizar los datos, si por frecuencias o porcentajes y haz clic en el botón

Continuar.


Hasta ahora ya tenemos las frecuencias de la variable y la gráfica de esta, pero aun nos hace falta dar la

orden de que SPSS genere el estadístico descriptivo, y lo hacemos de la siguiente manera, aun en el cuadro

de diálogo Frecuencias presiona el botón Estadísticos, en el nuevo cuadro de diálogo en la sección

tendencia central selecciona el estadístico Moda y presiona el botón continuar. Por último presiona el

botón Aceptar del cuadro de diálogo principal.

Una vez presionado el botón Aceptar del cuadro de diálogo Frecuencias, inmediatamente saldrá de la nada

una nueva ventana, a esta nueva ventana le llamaremos Visor de resultados, que como su nombre lo dice

es donde podremos visualizar todos aquellos análisis que realicemos con nuestros datos, en este caso

visualizaremos la tabla de frecuencias, el estadístico descriptivo y el gráfico que solicitamos.

CIUDAD

Frequency Percent Valid Percent Cumulative

Percent

Valid México D.F 24 82.8 82.8 82.8

Guadalajara 2 6.9 6.9 89.7

Monterrey 2 6.9 6.9 96.6

999 1 3.4 3.4 100.0

Total 29 100.0 100.0

Como podrás ver, la tabla que nos arroja los resultados de la frecuencia de los casos de la variable ciudad

esta dividida en 4 columnas, y a continuación veremos que significan cada una de estas columnas:

En la columna Frecuencia, vemos el número de casos que se repiten de un valor, y vemos que el

valor que más se repite es el que corresponde a México D. F. Y nos dice que de los 29 encuestados

24 son de esta ciudad, y así para cada uno de los valores.


La columna Porcentaje nos sirve para visualizar el porcentaje que corresponde a la repetición de un

valor del total, es decir, decimos que del 100% de los encuestados solo el 6.9% correspondían a la

ciudad de Monterrey.

La columna Porcentaje valido, sirve para mostrar los porcentajes de las repeticiones sin tomar en

cuenta los valores perdidos, en este caso los valores de esta columna son idénticos a la columna

Porcentaje, puesto que no hay valores perdidos. Si hubiese valores perdidos, el porcentaje de las

repeticiones seguramente aumentaría con respecto al total de valores validos.

La columna Porcentaje acumulado va sumando la frecuencia de cada valor con las frecuencias de los

valores menores a él, de los Porcentajes validos.

Con respecto al gráfico que solicitamos a SPSS, que en este caso fue un gráfico de barras, como

seguramente ya lo sabes cada barra nos describe cada una de las frecuencias de los casos de una variable.

Si deseas cambiar el aspecto de la gráfica o añadir elementos, habrá que editarla. Para editar una gráfica da

doble clic continuo sobre ella.

México D.F Guadalajara Monterrey 999

S7_Cd

0

5

10

15

20

25

Frequency

S7_Cd


6.1.2 Descripción de variables ordinales

Para la mejor comprensión del análisis de las variables ordinales, estas se estudian mediante la distribución

de frecuencias, la gráfica de barras o la gráfica de sectores (cuando hay pocos valores distintos) y los

estadísticos descriptivos que en este caso serán la mediana, amplitud, máximo y mínimo. Cuando tenemos

una variable ordinal, pero los datos de esta variable son distintos y en gran cantidad (por ejemplo, más de

10) se analizan como variables de intervalo. Del archivo Banco.sav, la variable ordinal es el estatus, entonces

a partir de esta variable veremos el siguiente ejemplo.

Empezaremos por describir la variable estatus, entonces elige Analizar Estadísticos descriptivos

frecuencias, y selecciona la variable estatus y transfiérela, pero ahora en el cuadro de diálogo Frecuencias:

Estadísticos seleccionaras la Mediana, el Rango, el máximo y el Mínimo. Y en el cuadro de diálogo Gráficos

selecciona Gráfico de Pie (sectores).

Al presionar el botón Aceptar del cuadro de diálogo, en el visor de resultados en primer lugar encontramos la

tabla en la que se muestran los estadísticos solicitados. Después sigue la tabla con la distribución de

frecuencias. Y en último lugar la gráfica de pie.

Estadísticos Nivel socioeconómico

N Valid 28

Missing 1

Median 1.0000

Range 2.00

Minimum 1.00

Maximum 3.00

Tabla de frecuencia Nivel socioeconómico

Frequency Percent Valid Percent Cumulative

Percent

Valid Bajo 23 79.3 82.1 82.1

Medio 2 6.9 7.1 89.3

Alto 3 10.3 10.7 100.0

Total 28 96.6 100.0

Missing System 1 3.4

Total 29 100.0


82.1

7.1

10.7

3.6

Estatus

Bajo

Medio

Alto

Missing

Por defecto este tipo de gráfico se le asigna un color determinado por sector, pero tu como usuario puedes

reeditar los gráficos, dando doble clic continuo sobre el gráfico, y en el editor de gráficos podrás cambiar el

tipo de color, y puedes agregar leyendas en cada sector como en el ejemplo mostrado.

6.1.3 Descripción de variables de intervalo

Para la mejor comprensión del análisis de las variables de intervalo, estas se estudian mediante el

histograma (que es un tipo de gráfico), y los estadísticos descriptivos que en este caso serán la media,

rango, máximo y mínimo, y los coeficientes de asimetría y apuntamiento. Del archivo Banco.sav, la variable

de intervalo o razón es la edad, entonces a partir de esta variable veremos el siguiente ejemplo.

De la barra de menús elige Analizar Estadísticos descriptivos Frecuencias, selecciona y transfiere

la variable edad. En este momento deberás deseleccionar la opción Mostrar tablas de frecuencias.


Para visualizar el gráfico que corresponde a este caso al histograma pulsa el botón Gráficos y selecciona

Histogramas y la opción “Con curva normal”, al hacer esto sobre el gráfico del histograma veremos sobre

impresa la curva correspondiente a la distribución normal. Presiona el botón Continuar.

Ahora en el cuadro de diálogo principal presiona el botón Estadísticos, en donde en el cuadro deberpás

seleccionar los estadísticos necesarios; selecciona la media, la Desviación Típica o estándar, el rango, el

mínimo y máximo, la asimetría y la curtosis. Presiona el botón Continuar y depuse el botón aceptar.

En la siguiente tabla se muestran los estadísticos que solicitamos a SPSS calculara de la variable.

Estadísticos Edad

N Válidos 28

Perdidos 1

Media 47.89

Desv. típ. 8.094

Asimetría -.094

Error típ. de asimetría .441

Curtosis -.924

Error típ. de curtosis .858

Mínimo 32

Máximo 60

30 35 40 45 50 55 60

S3_Edad

0

2

4

6

8

10

Fre

cuen

cia

Mean = 47.89Std. Dev. = 8.094N = 28

Histograma


El coeficiente de Asimetría mide la concentración de valores con respecto a la curva de la distribución

normal, en nuestro ejemplo la asimetría tiene un valor de –0.094, es decir que existe una mayor

concentración de valores a la izquierda de la media que a su derecha.

El coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona

central de la distribución, en nuestro ejemplo la curtosis tiene un valor de –0.924, es decir que se presenta

un reducido grado de concentración alrededor de los valores centrales de la variable, en este caso se trata de

una distribución platicúrtica.

6.2 DESCRIPCIÓN DE VARIABLES POR GRUPOS (MEANS)

En el tema anterior, aprendimos a analizar los diferentes tipos de variables de forma individual con los que

comúnmente nos encontraremos, pero SPSS no nos limita a estudiar un tipo de variable de forma individual,

no, en SPSS tenemos la ventaja de analizar variables de un tipo en función de otra variable de distinto tipo,

es decir podemos describir las variables cuantitativas en función de una o más variables cualitativas.

La manera en la que puedes hacer uso de la herramienta que te permite describir variables por grupo es

presionando de la barra de menús el botón Analizar Comparar medias Medias, en el cuadro de

diálogo principal selecciona y transfiere la variable edad (cuantitativa) al apartado “Dependientes”, después

deberás seleccionar y transferir la variable Edo_Civil (cualitativa) al apartado “Independientes” y

finalmente presiona el botón Aceptar.

Informe

Edad

Edo_Civil Media N Desv. típ.

Casado o Unión libre 49.39 18 7.808

Soltero 41.60 5 9.864

Divorciado o Separado 49.75 4 5.252

Total 48.00 27 8.228


La tabla anterior vemos la manera en la que SPSS muestra los resultados del análisis de la variable edad en

función de la variable Edo_Civil, y como podrás observar muestra algunos estadísticos, como la media como

estadístico principal, el número de casos por grupo y la desviación estándar por grupo, estos estadísticos son

los que se generan por defecto, pero si presionas el botón Opciones en el cuadro de diálogo principal Medias

podrás activar otros estadísticos descriptivos de utilidad.

Para poder hacer uso de los estadísticos que no están por defecto, selecciona y transfiere a “Estadísticos de

casilla” los estadísticos que desees hallar para cada grupo, también podrás obtener un análisis de varianza

de una vía y una prueba de linealidad para la primera variable de la ventana “Independientes”. Una vez

seleccionados los estadísticos deseados presiona el botón Continuar y después el botón Aceptar.

6.2.1 Descripción jerárquica de variables por grupo

No solo podremos describir una variable cuantitativa en función de una cualitativa, si no también se puede

describir la variable cuantitativa en función de varias variables de clasificación de una manera jerarquizada.

Por ejemplo, podemos diferenciar por grupos de genero dentro de los grupos de estado civil. Para esto, en el

cuadro de diálogo principal, deberás presionar el botón “Siguiente” y seleccionar y transferir la variable

género a “Independientes” y presionar el botón Aceptar.


Informe Edad

Edo_Civil Género Media N Desv. típ.

Casado o Unión libre

Masculino 49.69 16 8.130

Femenino 47.00 2 5.657

Total 49.39 18 7.808

Soltero Masculino 34.00 1 .

Femenino 43.50 4 10.279

Total 41.60 5 9.864

Divorciado o Separado

Masculino 48.50 2 2.121

Femenino 51.00 2 8.485

Total 49.75 4 5.252

Total Masculino 48.74 19 8.259

Femenino 46.25 8 8.430

Total 48.00 27 8.228

En esta nueva tabla podremos ver a mejor detalle los estadísticos por subgrupo, por ejemplo, podemos decir

que de los encuestados 16 son hombres que se encuentran casados o viven en unión libre con una edad

media de 49,69 años y una desviación típica de 8.130.

6.2.2 Gráfico agrupado (de barras)

Para este tipo de descripción de variables por grupos también podemos determinar un tipo de gráfico, con

respecto al ejemplo anterior podremos generar un gráfico de barras de clasificación doble, es decir, que

visualicemos la comparación del grafico de barras para el estado civil agrupado por género midiendo la media

de las edades para ambos grupos. Y lo hacemos de la siguiente manera:

13) De la barra de menús presiona el botón Gráficos Barras..., en el cuadro de diálogo

selecciona el tipo de gráfico Agrupado y presiona el botón Definir.


14) En el siguiente cuadro de diálogo activa la casilla “Otra función de resumen”, después

selecciona y transfiere la variable edad al apartado Variable, selecciona y transfiere la variable

Edo_Civil al apartado Eje de categorías, por último selecciona y transfiere la variable género al

apartado Definir grupos por y finalmente presiona el botón Aceptar.


La gráfica muestra la media de las edades respecto a la variable genero agrupados por el estado civil, la

media se obtuvo por defecto, pero podemos seleccionar otro tipo de estadístico si así lo deseamos y esto lo

hacemos en el segundo cuadro de diálogo presionando el botón “Cambiar resumen” y podremos

seleccionar el estadístico deseado. El gráfico fue personalizado.

6.3 DESCRIPCIÓN RÁPIDA DE VARIABLES CUANTITATIVAS (DESCRIPTIVES)

Cuando solo deseamos visualizar los estadísticos de una o más variables cuantitativas sin tener la necesidad

de visualizar tablas de frecuencias podemos hacer uso del comando “descriptivos”, y lo hacemos de la

siguiente manera, presiona de la barra de menús el botón Analizar Estadísticos descriptivos

Casado o Unión libre Soltero Divorciado o Separado

Edo_Civil

0

10

20

30

40

50

60

Media Edad

49.69

34

48.547

43.5

51

Género

Masculino

Femenino


Descriptivos, en el cuadro de diálogo selecciona y transfiere la o las variables que desees al apartado

variables, después presiona el botón Aceptar.

Los estadísticos que visualizaras en el visor de resultados por defecto son la media, desviación típica, mínimo

y máximo. Al presionar el botón “Opciones” podrás seleccionar algunos estadísticos más.

En el cuadro de diálogo “Descriptivos” tienes la opción de crear una nueva variable en el visor de datos que

te mostrara las puntuaciones típicas de cada una de los valores correspondientes a la variable en uso, solo

deberás seleccionar “Guardar valores tipificados como variables” y al presionar el botón Aceptar,

además de que tendrás los resultados estadísticos en el visor de resultados en la Vista de datos se creara

una nueva variable con los valores tipificados.

6.4 DESCRIPCIÓN DETALLADA DE VARIABLES Y GRUPOS (EXAMINE)

Además de que podemos hallar la distribución de frecuencias y los estadísticos hasta ahora vistos, podemos

añadir un nuevo tipo de gráfico que es el llamado Gráfico de cajas, y también nos servirá para describir

variables cuantitativas en función de variables de clasificación (grupales), con el uso de esta herramienta a

comparación de MEANS podemos obtener una mayor cantidad de estadísticos descriptivos y la obtención de

las gráficas citadas.

Elige de la barra de menús Analizar Estadísticos descriptivos Explorar, y en el cuadro de diálogo

selecciona y transfiere la variable cuantitativa al apartado “Dependientes”, y en el apartado “Factores”

agrega la o las variables cualitativas y presiona el botón Aceptar.

En el cuadro de diálogo principal tienes la oportunidad de decidir si deseas visualizar o el gráfico o solo los

estadísticos, o ambos a la vez si lo deseas, por defecto obtendrás los estadísticos y el gráfico de cajas, pero

si presionas el botón “Gráficos” puedes desactivar el grafico de caja o activar el grafico histograma y

visualizar ambos. Respecto a los estadísticos, pulsando el botón “Estadísticos” podrás agregar Los “Valores

atípicos” y los “Percentiles”. Pulsa el botón Continuar y por último el botón Aceptar.


Una vez presionado el botón Aceptar en el visor de resultados visualizaremos los estadísticos por subgrupos

y los gráficos de tallo y hojas y el gráfico de cajas también por grupos, en este caso la edad en función del

estado civil.

6.4.1 Gráfico de tallo y hojas

El gráfico de tallo y hojas es otra forma de mostrar la distribución de frecuencias de cada uno de los valores

analizados, y este también divide la muestra en intervalos y es en donde visualizamos el número de casos

comprendidos en cada intervalo. Y cada intervalo es de 10 unidades (en este ejemplo será de 10 años).

Frecuencia Tallo Hoja

2 3 79 8 4 00347789

6 5 155789 2 6 00

En el ejemplo, el primer tallo que es el intervalo 3 (que va de 30 a 39) hay dos sujetos (Frecuencia) y al

observar las hojas se ven los valores 7 y 9, es decir, que hay 2 sujetos en el intervalo uno con la edad 37 y

otro con la edad 39. En el intervalo 4 (que va de 40 a 49) hay 8 sujetos y las edades son: 40, 40, 43, 44,

47, 47, 48 y 49. Y así para cada tallo y hoja. También este gráfico nos mostrara la existencia de valores

extremos.


6.4.2 Gráfico de cajas

El gráfico de cajas o también conocido como gráfico de bigotes nos muestra las medidas de posición, dentro

de las cuales tenemos los percentiles y la mediana, es decir la altura de la caja representa la amplitud

intercuartil, en ella esta representado el 50% de la muestra.

6.4.3 El caso extremo y la necesidad de eliminarlo

En el ejemplo del gráfico de cajas existe un valor extremo para el subgrupo Soltero, generalmente un valor

extremo en cualquier tipo de análisis provoca desajustes de medición, por ejemplo en el gráfico anterior en

donde existe un valor extremo vemos que la desviación estándar para el subgrupo Soltero es de 9.86, pero si

omitimos el caso extremo para el subgrupo Soltero que en este caso es el 14, entonces el valor de la

desviación estándar disminuye de manera significativa pues en este caso será de 5.56, entonces como

vemos la existencia de un caso extremo nos arrojaría mediciones no representativas.


Edo_Civil

30

35

40

45

50

55

60

Edad

14

Percentil 75

Percentil 25

Mediana

Caso extremo


6.4.4 Gráfico agrupado (de cajas)

También SPSS nos da la facilidad de mostrar gráficos de cajas por grupos, por ejemplo si deseamos

visualizar el grafico de cajas para de la edad en función del estado civil, pero además agrupados por genero,

hacemos lo siguiente:

Presiona de la barra de menús el botón Gráficos Diagramas de caja...

Del cuadro de diálogo selecciona opción “Agrupado” y presiona el botón Definir.

En el siguiente cuadro de diálogo selecciona la variable edad y transfiérela al apartado “Variable”,

después selecciona la variable Edo_civil y transfiérela al apartado “Eje de categorías” y finalmente

selecciona la variable genero y transfiérela al apartado “Definir las agrupaciones por:” y después

presiona el botón Aceptar.

Finalmente visualizaremos el gráfico dividido en dos grupos, uno para hombres y otro para mujeres en el

visor de resultados, y junto con el gráfico visualizaremos una tabla con el resumen del procesamiento de los

casos.


Edo_Civil

30

35

40

45

50

55

60

Edad

S6_Gen

Masculino

Femenino


6.5 VARIABLES MULTIRESPUESTA (MULT RESPONSE)

Con la ayuda de SPSS también podremos analizar los tipos de preguntas que se encuentren en una encuesta,

ahora bien, dentro de los tipos de preguntas que generalmente componen una encuesta son de tipo

dicotómico o de tipo categórico; las preguntas dicotómicas son aquellas que sólo admitirán dos

posibilidades de respuesta: donde se responda “si” (valor 1, por ejemplo) o se responda “no” (valor 2, por

ejemplo), las preguntas de tipo categórico son aquellas que se emplean cuando hay un gran número de

respuestas posibles y se limita el número total de respuestas o se comprueba que sólo se responde un

número menor de todas las posibles respuestas, por ejemplo, de una pregunta hay 10 posibles respuestas

pero se limita a un máximo de 5.

Por ejemplo, tomando una pequeña muestra de 10 individuos de nuestro archivo Banco.sav donde se les

pide contesten si o no a quienes tengan negocio propio (d1) y si o no quienes tienen cuenta bancaria en el

extranjero (d2) estas serán las preguntas dicotómicas, y solo abra una pregunta categórica pidiendo que de

10 bancos solo seleccionen a los 5 que tengan más confianza.

Género Estado d1 d2 b1 b2 b3 b4 b5

Mujer Casado No Si Banamex BBVA HSBC Am. Express IXE

Hombre Casado Si No Banamex BBVA Am. Express IXE Inbursa

Hombre Casado No No B. Azteca BBVA Banamex Banorte Am. Express

Mujer Casado No No BBVA Banamex Inbursa Am. Express Banorte

Hombre Soltero Si No Banamex BBVA Banorte Banco Azteca HSBC

Hombre Casado Si No BBVA Banamex HSBC Banorte IXE

Mujer Soltero Si Si BBVA B. Azteca Banamex Banorte HSBC

Hombre Soltero Si No Banamex BBVA HSBC Banorte IXE

Hombre Casado Si No Banorte HSBC Inbursa Am. Express S. Serfín

Hombre Casado No No Banamex HSBC BBVA Banco Azteca Inbursa


6.5.1 Definición de variables dicotómicas

Antes de realizar cualquier análisis con los datos de nuestra encuesta, deberemos definir los conjuntos de

respuestas en SPSS y empecemos con las preguntas dicotómicas, de la barra de menús elige Analizar

Respuesta múltiple Definir conjuntos. El proceso es el siguiente:

15) En el cuadro de diálogo “Definir conjuntos de respuestas múltiples” selecciona y

transfiere las variables d1 y d2 al apartado “Variables del conjunto”.

16) Las variables d1 y d2 son dicotómicas por lo que en el apartado Valor contado4. deberemos

escribir el 1

17) En el apartado Nombre deberemos escribir el nombre de la nueva variable que agrupara a

las dos variables d1 y d2.

18) Presiona el botón Añadir, y la nueva variable preg_di que agrupa a d1 y d2 se agregara al

apartado Conjuntos de respuestas múltiples.

19) Finalmente presiona el botón Cerrar.

4 E n e l a p a r t a d o v a l o r c o n t a d o a g r e g a m o s e l n ú m e r o 1 , p o r q u e e s

e l v a l o r a l q u e l e c o r r e s p o n d e l a r e s p u e s t a s i , e s t o q u i e r e d e c i r

q u e c u a n d o r e a l i c e m o s c u a l q u i e r a n á l i s i s , p o r e j e m p l o

f r e c u e n c i a s s o l o s e r á n c o n t a b i l i z a d a s l a s r e s p u e s t a s a l a s q u e

c o r r e s p o n d a e l s i , s i d e s e a s c o n t a b i l i z a r l a s r e s p u e s t a s a l a s

q u e c o r r e s p o n d a e l n o , d e b e r á s c r e a r u n a n u e v a v a r i a b l e c o n d 1

y d 2 , p e r o c o n v a l o r c o n t a d o 2 q u e c o r r e s p o n d e a n o .


6.5.2 Definición de variables múltiples (categóricas)

Para la definición del grupo que contendrá las variables de respuesta múltiple, de la barra de menús elige

Analizar Respuesta múltiple Definir conjuntos. El proceso es el siguiente:

20) En el cuadro de diálogo “Definir conjuntos de respuestas múltiples” selecciona y

transfiere las variables b1, b2, b3, b4 y b5 al apartado “Variables del conjunto”.

21) Las variables b1, b2, b3, b4 y b5 son respuestas que corresponden a una sola pregunta y

son categóricas, por lo que deberás seleccionar la opción Categorías5 y escribir en la casilla Rango

un 1 y en la casilla hasta un 10.

22) En el apartado Nombre deberemos escribir el nombre de la nueva variable que agrupara a

las variables b1, b2, b3, b4 y b5.

23) Presiona el botón Añadir, y la nueva variable preg_mul que agrupa a b1, b2, b3, b4 y b5

se agregara al apartado Conjuntos de respuestas múltiples, junto con preg_di.

24) Finalmente presiona el botón Cerrar.

5 E n e l a p a r t a d o C a t e g o r í a s d e t e r m i n a m o s u n r a n g o d e 1 h a s t a

1 0 , q u e c o r r e s p o n d e a l a s 1 0 p o s i b l e s o p c i o n e s d e l a s c u a l e s

s o l o 5 p o d r á n s e r s e l e c c i o n a d a s .


6.5.3 Distribución de frecuencias

Una vez definidas las variables correspondientes, podremos realizar dos tipos de análisis, Frecuencias o

generar Tablas de contingencia, en el caso que deseemos realizar la distribución de frecuencias,

deberemos elegir Analizar Respuesta múltiple Frecuencias.

En el cuadro de diálogo como notaras solo podremos visualizar aquellas variables que fueron definidas con

anterioridad, en este caso solo se encuentran las variables $preg_di que corresponde a las variables

dicotómicas y $preg_mul que corresponde a las variables múltiples. Puedes seleccionar una o ambas y

depuse transferirlas al apartado Tablas para y por último presiona el botón Aceptar.

Una vez presionado el botón Aceptar, visualizaremos los resultados de la distribución de frecuencias en

nuestro visor de resultados, teniendo lo siguiente:

_

Group $preg_di preguntas dicotómicas

(Value tabulated = 1)

Pct of Pct of Dichotomy label Name Count Responses Cases

¿Negocio propio? d1 6 75.0 85.7

¿Banco en el extranjero? d2 2 25.0 28.6

------- ----- -----

Total responses 8 100.0 114.3

3 missing cases; 7 valid cases _

Tres su je tos responden no a

las dos opc iones


Una vez presionado el botón Aceptar del cuadro de diálogo principal veremos dos análisis, uno para la

variable de grupo dicotómica y otra para la variable de grupo múltiple, analicemos la parte de la variable

dicotómica.

En la variable $pret_di hay 6 personas que responden sí a la primera opción y 2 personas que responden sí

a la segunda opción. Hay 8 respuestas afirmativas en total. La columna porcentaje de respuestas (Pct of

Responses) se calcula sobre el total de respuestas, es decir las 6 personas suponen el 75% (6/8*100) de las

respuestas. La columna porcentaje de casos (Pct of Cases) se calcula sobre el total de casos válidos (7), es

decir las 6 respuestas afirmativas a la primera opción son el 85.7% (6/7*100) con respecto a los sujetos

validos.

Group $Preg_mu Preguntas múltiples

Pct of Pct of Category label Code Count Responses Cases

American Express 2 5 10.0 50.0

Banco Azteca 3 4 8.0 40.0

BBVA 4 9 18.0 90.0

Banorte 5 7 14.0 70.0

Citibank o Banamex 6 9 18.0 90.0

HSBC 7 7 14.0 70.0

Inbursa 8 4 8.0 40.0

IXE 9 4 8.0 40.0

Santander Serfín 10 1 2.0 10.0

------- ----- -----

Total responses 50 100.0 500.0

0 missing cases; 10 valid cases

Abbreviated Extended Name Name

$Preg_mu $Preg_mul

Respecto al análisis de la variable múltiple $preg_mul, vemos que hay 5 personas que eligen la opción 2, 4

personas que eligieron la opción 3 y así para cada dato. Hay 50 elecciones en total. La columna porcentaje

de respuesta (Pct of Responses) se calcula sobre el total de elecciones, es decir las 5 personas suponen el

10% (5/50*100) de las respuestas. La columna porcentaje de casos (Pct of Cases) se calcula sobre el total

de casos válidos (10), es decir las 5 personas que eligen la opción 2 suponen el 50% (5/10*100) con

respecto a los casos válidos.

6.5.4 Tablas de contingencia

Uno más de los análisis que podemos realizar con variables múltiples son las llamadas tablas de contingencia

o tablas de distribución de frecuencias cruzadas, en el caso de hacer este tipo de análisis no solo

visualizaremos las variables que definimos anteriormente, si no también podremos hacer uso de las variables

que componen nuestro archivo *.sav. Para ello elegimos de la barra de menús, Analizar Respuesta

múltiple Tablas de contingencia.


En el cuadro de diálogo, como veras no solo se encuentran las variables que definimos con anterioridad

($pret_di y $pret_mul) sino que también podremos hacer uso de las variables que componen nuestro archivo

y esto puede ser de bastante ayuda, pues por ejemplo podríamos cruzar la variable genero con la variable

$preg_di.

25) Del cuadro de diálogo selecciona la variable genero y transfiérela al apartado Columnas.

Aparecerá como genero(? ?).

26) Presiona el botón Definir rangos, en Mínimo escribe el 1 y en máximo escribe el 2, estos

valores numéricos corresponden a hombre con el 1 y a mujer con el 2. Presiona el botón Continuar.

27) Selecciona y transfiere la variable $pret_di al apartado Filas. Si lo deseas puedes agregar

una variable más al apartado Capas, para poder visualizar la tabla en subgrupos.

28) Al presionar el botón Opciones podrás elegir de que manera deseas que se visualicen los

porcentajes si por fila, columna o por totales. Finalmente presiona el botón aceptar.


El resultado se visualizara en el visor de resultados pero en modo texto. En la tabla de contingencia podemos

observar que 5 personas del género masculino han respondido sí a la primera opción, las cuales son un

83.3% (5/6*100) del total de respuestas afirmativas a la primera opción. Por otro lado dos personas del

género femenino han respondido si a la segunda opción, un 100% de las respuestas afirmativas de la

segunda opción.

* * * C R O S S T A B U L A T I O N * * *

$preg_di (tabulating 1) preguntas dicotómicas by genero Genero

genero Count Hombre Mujer

Row pct Row

Total

1 2

$preg_di

d1 5 1 6

¿Negocio propio? 83.3 16.7 85.7

d2 0 2 2

¿Banco en el extranj .0 100.0 28.6

Column 5 2 7

Total 71.4 28.6 100.0

Percents and totals based on respondents 7 valid cases; 3 missing cases


7.1 Introducción a la estadística inferencial

La estadística Inferencial, es el proceso por el cual se deducen (infieren) propiedades o características de una

población a partir de una muestra significativa. Uno de los aspectos principales de la inferencia es la

estimación de parámetros estadísticos. Por ejemplo, para averiguar la media, µ, de las edades de todos los

individuos de una encuesta, se extrae una muestra y se obtiene su media, µ1. La media de la muestra

(media muestral), µ1, es un estimador de la media poblacional, µ. Si el proceso de muestreo está bien

realizado (es decir, la muestra tiene el tamaño adecuado y ha sido seleccionada aleatoriamente), entonces el

valor de µ, desconocido o no, puede ser inferido a partir de µ1.

La inferencia siempre se realiza en términos aproximados y declarando un cierto nivel de confianza. Por

ejemplo, si en una muestra de n = 500 individuos se obtiene una edad media µ1 = 38 años, se puede llegar

a una conclusión del siguiente tipo: la edad media, µ, de todos los individuos de la encuesta está

comprendida entre 37 años y 39 años, y esta afirmación se realiza con un nivel de confianza de un 90%.

(Esto quiere decir que se acertará en el 90% de los estudios realizados en las mismas condiciones que éste y

en el 10% restante se cometerá error.)

Si se quiere mejorar el nivel de confianza, se deberá aumentar el tamaño de la muestra, o bien disminuir la

precisión de la estimación dando un tramo más amplio que el formado por el de extremos 37 y 39.

Recíprocamente, si se quiere aumentar la precisión en la estimación disminuyendo el tamaño del intervalo,

entonces hay que aumentar el tamaño de la muestra o bien consentir un nivel de confianza menor.

Finalmente, si se quiere mejorar tanto la precisión como el nivel de confianza, hay que tomar una muestra

suficientemente grande.

7.2 Prueba – T y Pruebas de hipótesis

La Prueba–T también conocida como “t de student” es una prueba estadística que se aplica para establecer

la significación de una diferencia al comparar dos grupos. Establecer diferencias entre grupos es relevante

pero no es suficiente. Es preciso, además, determinar si la diferencia es significativa y en consecuencia debe

tomarse en cuenta, o por el contrario es insignificante y no tiene mayor trascendencia para comparar grupos

y por tanto es descartable. Algunos casos:

¿La innovación curricular introducida en una escuela produce significativamente mejores resultados de

aprendizaje con la metodología tradicional?

¿Cuál es la efectividad alcanzada por una compañía de prevención del SIDA en la ciudad de México?

Responder a estas interrogantes implica en cada una de ellas establecer y juzgar una diferencia.


El test es una herramienta que ayuda al investigador establecer la significatividad estadística de una

diferencia observada entre dos grupos. El cálculo del valor de t de student requiere en términos de la

medición de los grupos, conocer la media aritmética, la desviación estándar y el número de casos

considerados. Obtenido este valor debe calcularse los grados de libertad el cual viene dado como : GL = (Na

+ No) – 2.

Encontrar el valor crítico de t o región de rechazo de t (para ello se recurre a la tabla de valores críticos)

teniendo en cuenta el nivel de significancia, por ejemplo 5%, 10%. El valor crítico se confronta con el valor

calculado.

Para la interpretación se acostumbra sostener que existen dos hipótesis posibles.

La hipótesis nula (Ho) que señala la igualdad de los dos grupos. Es decir la no existencia de diferencia

estadística significativa.

La hipótesis alternativa (Ha) que señala la existencia de una diferencia estadísticamente significativa al

comparar los grupos.

La teoría estadística, se establece que si el valor observado es mayor que el valor crítico, entonces se

rechaza la hipótesis nula y se acepta la hipótesis alternativa.

En los capítulos siguientes de este tema, además de que veremos la forma en la que SPSS realiza la

inferencia estadística, en el tema relacionado con Prueba T para una muestra realizaremos un pequeño

ejemplo digamos a mano para ver la forma en la que deberemos decidir en que momento aceptaremos o

rechazaremos la hipótesis nula.

7.3 Comparación de medias

En SPSS encontraremos la herramienta Comparar medias el cual contiene varios de los procedimientos

estadísticos diseñados para efectuar pruebas de hipótesis sobre medias: la prueba T y el análisis de varianza

de un factor.

En este capítulo veremos los cuatro procedimientos en SPSS: Prueba – T para una muestra, Prueba – T para

muestras independientes, Prueba – T para muestras relacionadas y análisis de varianza de una vía.

7.3.1 Prueba T para una muestra

La prueba T para una muestra permite contrastar hipótesis referidas a una media poblacional, es decir, se

emplea para comprobar si la media de una muestra pertenece a una población con cierta media. En el

siguiente ejemplo comprobaremos si la muestra de la variable edad pertenece a una población de media

44.26 años.


Entonces, supongamos que tenemos una población de 300 individuos, pero por la escasees de tiempo no

podemos trabajar con toda la población, entonces decidimos seleccionar de forma aleatoria una muestra de

30 individuos, una vez selecciona dicha muestra debemos comparar su media con la media poblacional, esto

con el fin de saber si la muestra seleccionada nos representara a la población total con una confiabilidad del

95%.

Muestra:

38 37 50 38 50 60 47 49 45 46 39 57 51 37

43 40 47 31 36 39 50 47 50 42 60 41 38 37

32 37

A modo de ejemplo, y para fines didácticos realizaremos los cálculos de manera convencional, es decir, a

mano. Lo primero que deberemos hacer, es determinar nuestra prueba de hipótesis, es decir determinar

nuestra hipótesis nula y nuestra hipótesis alternativa.

Lo que deseamos con este contraste es determinar si nuestra media muestral es significativamente igual a

nuestra muestra poblacional o que nuestra media muestral es significativamente diferente a la media

poblacional. La prueba quedará planteada de la siguiente forma:

Ho: µ = 44.26 vs Ha: µ 44.26

Haciendo uso del estadístico T = (X - µo)/(S/n), que sigue una distribución t de student con (n–1) grados de

libertad. Y con la región crítica o región de rechazo queda entonces R = {| (X - µo)/(S/n) | > t(n-

1,/2)}.

Entonces el valor de la media de nuestra muestra es X = 43.80, la desviación estándar de nuestra muestra

es S = 7.636 y el tamaño de nuestra muestra es n = 30. Sustituyendo y resolviendo tenemos que T = -

0.3299.

Por otro lado deberemos determinar el valor en tablas de t(29,0.025) = 1.699. Por lo tanto la región de

rechazo queda como sigue: R = -1.699 < -0.3299 < 1.699. Por lo tanto se acepta la hipótesis nula.

Y aunque podamos pensar que ciertamente el verdadero valor de nuestra media poblacional no es 44.26, no

hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza del 95%.

La manera en que lo deberemos hacer con SPSS será de la siguiente manera:

29) Una vez determinada la muestra, elegir de la barra de menús Analizar Comparar

medias Prueba T para una muestra.

30) En el cuadro diálogo selecciona y transfiere la variable a contrastar al apartado Contrastar

variables.


31) En el apartado Valor de prueba deberás poner el valor de la media poblacional, que en este

caso es 44.26.

32) En el botón Opciones podrás modificar el porcentaje de confiabilidad, que de manera

predeterminada se asigna un 95%.

33) Finalmente presiona el botón Aceptar.

Al presionar el botón Aceptar se obtienen las dos siguientes tablas en el visor de resultados.

Estadísticos para una muestra

N Media Desviación

típ. Error típ. de

la media

Edad 30 43.80 7.636 1.394

Prueba para una muestra

De estas dos tablas de la que podremos determinar si se acepta o se rechaza la hipótesis nula será la tabla

Prueba para una muestra. Vemos que el valor de t que nos ofrece la tabla es justamente el mismo que

nosotros calculamos mediante la fórmula del estadístico t, que es –0.330, comparándolo con la región de

rechazo vemos que se cumple lo anterior calculado, es decir R = -1.699 < -0.330 < 1.699. Por lo que No se

rechazara la hipótesis nula.

Valor de prueba = 44.26

t gl Sig. (bilateral) Diferencia de medias

95% Intervalo de confianza para la

diferencia

Inferior Superior

Edad -.330 29 .744 -.460 -3.31 2.39


El resultado anterior lo podemos determinar siempre y cuando tengamos a la mano la tabla correspondiente

a los valores teóricos de t, pero no es la única manera de llegar a la conclusión anterior, no,

afortunadamente SPSS nos muestra otras dos alternativas de llegar a la misma conclusión sin la necesidad

de compara el valor de t con el valor teórico de tablas predeterminadas.

También podemos llegar a la misma conclusión con la probabilidad que nos presenta el apartado Bilateral,

es decir, que si el resultado es significativo (p <= 0.05), se dice que la muestra no representa a la población.

En nuestro caso como la t(29) = -0.330 tiene probabilidad <= 0.744 (es decir, mayor que 0.05), se concluye

que la muestra (de media 43.80) sí pertenece a la población de media 44.26.

La otra alternativa que SPSS nos brinda para la toma de decisiones es el intervalo de confianza. Si el

intervalo de confianza no incluye el valor cero, la muestra no pertenecerá a la población de media dada. Si el

intervalo de confianza incluye el valor cero, la muestra si será representativa de la población de media dada.

En el caso presente el intervalo de (-3.31 a 2.39) incluye el cero.

Entonces, de acuerdo a lo antes visto llegamos a la conclusión de que la hipótesis nula es aceptada, pues se

determina que la muestra tomada aleatoriamente es representativa de la poblacional.

7.3.2 Prueba T para muestras independientes

La prueba T para muestras independientes permite contrastar hipótesis referidas a la diferencia entre dos

medias independientes, es decir, se comprueba por el estudio de las medias si dos grupos pueden

representar ambos a la misma población o que el uso de dos métodos para el estudio de una población

tienen o no el mismo resultado.

En el siguiente ejemplo deseamos saber si de una población el grupo femenino y el grupo masculino pudieran

o no representarnos a dicha población para futuros análisis con respecto a la edad, es decir que podríamos

tomar la muestra correspondiente a mujeres o la muestra correspondiente a hombres y que cualquiera de

esas dos muestras sería representativa de toda nuestra población, donde la población incluye hombres y

mujeres, con una confiabilidad del 95%.

34) Elige de la barra de menús Analizar Comparar medias Prueba T para muestras

independientes.

35) Del cuadro de diálogo selecciona y transfiere la variable edad al apartado Contrastar

variables.

36) Ahora deberás seleccionar y transferir la variable que contiene los grupos, en este caso la

variable genero al apartado Variable de agrupación.


37) Presiona el botón Definir grupos, y en el apartado Grupo 1 escribe el 1, que corresponde a

los hombres, y en el apartado Grupo 2 escribe el 2, que corresponde a las mujeres. Después

presiona el botón continuar.

38) Si lo deseas puedes presionar el botón opciones, donde podrás modificar el porcentaje de

confiabilidad, que de manera predeterminada se asigna un 95%. Finalmente presiona el botón

Aceptar.

Al presionar el botón Aceptar, los resultados serán ofrecidos en dos tablas, en el visor de resultados, de las

cuales solo la segunda tabla será de nuestro interés.

Estadísticos de grupo

Genero N Media Desviación


la media

Edad Masculino

192 45.21 8.956 .646

Femenino

84 42.10 8.728 .952


Prueba de muestras independientes

Se han asumido varianzas

iguales No se han asumido varianzas iguales

Prueba de Levene para la igualdad de varianzas

F

.233

Sig. .630

Prueba T para la igualdad de medias

t 2.678 2.705

gl 274 162.123

Sig. (bilateral) .008 .008

Diferencia de medias 3.113 3.113

Error típ. de la diferencia 1.163 1.151

95% Intervalo de confianza para la diferencia

Inferior .824 .840

Superior 5.402 5.386

La prueba de muestras independientes tiene fórmulas distintas en función de que las varianzas de los grupos

sean o no iguales. Por lo que en primer lugar se ofrece el contraste de Fisher (F) sobre homogeneidad o

igualdad de varianzas. El resultado de este contraste es el que nos permite decidir si podemos o no suponer

que las varianzas poblacionales son iguales: si la probabilidad asociada al estadístico de Fisher es mayor que

0.05, podremos suponer que las varianzas poblacionales son iguales; si la probabilidad asociada al

estadístico de Fisher es menor que 0.05, rechazaremos la hipótesis de igualdad de varianzas y supondremos

que son distintas.

Empleando la prueba de Fisher F = 0.233 con p <= 0.630, como la probabilidad es mayor que 0.05 se

asume que las varianzas son iguales. Por lo tanto, la prueba t adecuada hay que mirarla en la columna Se

han asumido varianzas iguales. En el caso de que p <= 0.05 en la prueba de Fisher habría que mirar en

la columna No se han asumido varianzas iguales.

Vemos que el valor del estadístico t es de t = 2.678 con una probabilidad bilateral de 0.008. Lo cual

expresaremos de la siguiente forma: t(274) = 2.678 p <= 0.008. Se compara esta probabilidad con la usual

del 5% y si es menor quiere decir que existe diferencia significativa entre las medias. Aquí 0.008 < 0.05 y

por lo tanto existe diferencia entre las medias. Esto nos dice que la media de edad entre la muestra de

hombres y la muestra de mujeres es significativamente diferente, por ende no tendríamos la certeza de que

cualquiera de las dos muestras podría representarnos a la población total.

La prueba de hipótesis se plantea de la siguiente forma: deseamos comprobar que la media de dos muestras

son significativamente iguales o que son significativamente diferentes, es decir que µ1 = µ2 o µ1 µ2. Y la

prueba de hipótesis puede ser planteada de las siguientes dos formas:

Ho: µ1 = µ2 vs Ha: µ1 µ2 o Ho: µ1 - µ2 = 0 vs Ha: µ1 - µ2 0


La región de rechazo o región crítica queda determinada de la siguiente manera:

m = n1 + n2 - 2

7.3.3 Prueba T para muestras relacionadas

La prueba T para muestras relacionadas permite contrastar hipótesis referidas a la diferencia entre dos

medias relacionadas. En el caso anterior –muestras independientes- se comparan grupos de personas

distintos. En el caso presente se comparan dos variables medidas en las mismas personas o personas

emparejadas6.

Hora disponemos de una población de diferencias con media μD, obtenida al restar las puntuaciones del

mismo grupo de casos en dos variables diferentes o en la misma variable medida en dos momentos

diferentes (de ahí que hablemos de muestras relacionadas). Desde el punto de vista estadístico, este

contraste es idéntico al presentado en el apartado Prueba T para una muestra. La única diferencia existente

entre ambos contrastes es que allí teníamos una muestra de puntuaciones obtenida al medir una sola

variable y ahora tenemos dos muestras relacionadas que convertimos en una sola muestra de diferencias

restando las puntuaciones de cada par.

En el siguiente ejemplo deseamos saber si dos métodos de enseñanza tienen el mismo grado de efectividad

en una misma población, es decir, que las medias de efectividad de cada uno de los métodos de enseñanza

tiendan o no a ser iguales con una confiabilidad del 90%.

Método1 32 23 34 29 41 43 43 41 27 30 26 29

Método2 51 45 53 52 59 68 56 59 50 52 50 55

6 Las muestras emparejadas son aquellas en las que las muestras están relacionadas. Por ejemplo, sexo, edad, coeficiente

intelectual, etc.


39) Elige de la barra de menús Analizar Comparar medias Prueba T para muestras

relacionadas.

40) Del cuadro de diálogo selecciona la variable método1 y automáticamente aparecerá en la

parte inferior, en la parte Selecciones actuales, como Variable 1. Realiza lo mismo con la variable

método2 y esta aparecerá como variable 2.

41) Una vez hecho lo anterior podrás transferir al apartado Variables relacionadas.

42) Para modificar el porcentaje de confianza deberás presionar el botón Opciones, después

presiona el botón Continuar y finalmente el botón aceptar.

Si hubiese otras variables con las cuales quisiéramos realizar el contraste de medias relacionadas,

deberemos realizar los pasos anteriores descritos.

Al presionar el botón Aceptar del cuadro de diálogo principal, el visor de resultados nos mostrara tres tablas.

Estadísticos de muestras relacionadas

Media N Desviación


la media

Par 1 Método tradicional

33.1667 12 7.10740 2.05173

Método experimental

54.1667 12 5.89041 1.70042

En esta tabla visualizaremos algunos estadísticos básicos para los dos tipos de métodos, como la media,

desviación estándar y el error estándar de la media.


Prueba de muestras relacionadas

Par 1 Diferencias relacionadas

Media -21.00000

Desviación típ. 3.69274

Error típ. de la media 1.06600

90% Intervalo de confianza para la diferencia

Inferior -22.91442

Superior -19.08558

t -19.700

gl 11

Sig. (bilateral) .000

Como resultado de la comparación de las medias con respecto a dos métodos diferentes de enseñanza para

una población, haciendo uso del intervalo de confianza, llegamos a la conclusión de que existe una diferencia

significativa de las medias entre ambos métodos, por lo que se deberá elegir aquel método del cual su media

sea superior al otro método. Y llegamos a esta conclusión pues vemos que el cero no esta incluido en el

intervalo (-22.91442,-19.08558).

El planteamiento de la prueba de hipótesis queda de la siguiente manera:

Ho: μD = 0 vs Ha: μD ≠ 0 con D = X-Y

La región de rechazo es

7.3.4 ANOVA de un factor (Análisis de varianza)

Otra herramienta que SPSS nos provee para el análisis de comparación entre dos o más medias es el tan

famoso análisis de varianza de un factor, el cual nos ayudara para comprobar si existen diferencias entre las

medias de dos o más grupos no relacionados, los cuales en conjunto forman una variable. Es de un factor

pues solo se emplea una variable independiente generalmente una variable cualitativa. El análisis de

varianza se trata de una forma generalizada de la Prueba T para dos muestras independientes para el caso

de diseños con más de dos muestras.

Cuando en el análisis de varianza se halla una diferencia significativa entre las medias de varios grupos

quiere decir que hay diferencia entre al menos dos de las medias, pero no se indica entre que medias hay

diferencias. Para ello es necesario realizar un análisis posterior, el cual comprueba la diferencia entre los

pares de medias en el contexto de la muestra total.


Al igual que en los métodos anteriores de comparación de medias, en el análisis de varianza también

podemos plantear nuestra hipótesis, en donde lo que queremos corroborar o rechazar es si las medias de los

grupos en estudio son significativamente iguales o al menos existe un par de ellas que no lo son, la hipótesis

nula a contrastar queda como sigue:

Ho: μ1 = μ2 = ..... = μn vs Ha: μi μj al menos para un par (i, j) i j

En el siguiente ejemplo deseamos comprobar si el uso de 5 telares diferentes fabrican telas con la misma

resistencia, con el análisis de varianza deseamos saber si existe algún telar que fabrique telas con menor

resistencia a la de los demás.

Telares Resistencia

1 51 49 50 49 51 50

2 56 60 56 56 57

3 48 50 53 44 45

4 47 48 49 44

5 43 43 46 47 45 46

Una vez capturados los datos en SPSS deberás elegir Analizar Comparar medias ANOVA de un

factor, en el cuadro de diálogo selecciona y transfiere la variable Resistencia al apartado Dependientes,

después selecciona y transfiere la variable Telares al apartado Factor. Finalmente presiona el botón Aceptar.


ANOVA

Resistencia

Suma de

cuadrados gl Media

cuadrática F Sig.

Inter-grupos 439.885 4 109.971 23.565 .000

Intra-grupos 98.000 21 4.667

Total 537.885 25

En la tabla de análisis de varianza (ANOVA) lo primero es observar el valor F que es el cociente de los valores

de la media cuadrática, tenemos que F(4, 21) = 23.565 y que p <= 0.000, vemos que esta probabilidad es

menor al nivel de significancia es decir 0.000 <= 0.05, llegamos a la conclusión de que hay diferencia

significativa entre las medias de los cinco telares, y por lo tanto se rechaza la hipótesis nula de igualdad de

medias entre los cinco grupos.

7.3.4.1 Comparación Post Hoc

El estadístico F del análisis de varianza únicamente nos permite contrastar la hipótesis general de que las n

medias comparadas son o no iguales. Al rechazar esa hipótesis (como en nuestro ejemplo), sabemos que las

medias poblacionales comparadas no son iguales, pero no sabemos donde en concreto se encuentran las

diferencias y podríamos hacernos las siguientes preguntas: ¿son diferentes entre sí todas las medias?, ¿hay

sólo una media que difiere de las demás?, etc.

Para saber que media difiere de qué otra debemos utilizar un tipo particular de contrastes denominados

comparaciones múltiples post hoc o comparaciones a posteriori.

La manera en que podemos realizar un contraste Post hoc, es: del cuadro de diálogo principal ANOVA de un

factor, deberás presionar el botón Post hoc y seleccionar del apartado Asumiendo varianzas iguales la

prueba de Tukey, y del apartado No asumiendo varianzas iguales seleccionar la prueba de Games-

Howell, después presiona el botón Continuar y luego el botón Aceptar.


En las tabla Comparaciones múltiples visualizaremos todas las combinaciones posibles de las medias de

resistencia por pares de los telares, también visualizaremos las diferencias de las medias de cada dos grupos

y el nivel de significación. Esta tabla nos marca con un asterisco las parejas que son distintas.

En la tabla Subconjuntos homogéneos veremos una clasificación de los grupos que se basa en la

similaridad de grado de las medias entre un número n de grupos.

7.3.4.2 Gráfico

El análisis de varianza también nos ofrece la posibilidad de visualizar un gráfico de líneas que nos representa

la media de cada uno de los grupos de estudio, en este caso pudiéramos visualizar la media de la resistencia

de cada uno de los telares.

Para poder activar la generación del gráfico, del cuadro de diálogo principal, deberás presionar el botón

opciones, del cuadro de diálogo Opciones seleccionar Gráfico de las medias, después presionar el botón

Continuar y finalmente el botón Aceptar.


Telar1 Telar2 Telar3 Telar4 Telar5

Telares

45

47.5

50

52.5

55

57.5

Med

ia d

e R

es

iste

ncia

En estadística las tablas de contingencia son tablas de doble entrada en las que cada entrada representa un

criterio de clasificación y se emplean para registrar y analizar la relación entre dos o más variables,

habitualmente de naturaleza cualitativa que son aquéllas que permiten clasificar o identificar la clase, nivel o

categoría de un individuo de una población, respecto de un carácter, característica o cualidad.

Las tablas de contingencia son utilizadas para hallar distribuciones de frecuencias para poder calcular desde

simples porcentajes hasta para obtener un complejo análisis de independencia haciendo uso de los diferentes

estadísticos que el programa nos ofrece.

La forma básica de las tablas de contingencia es de la siguiente manera:


TABLA DE CONTINGENCIA DE R X S

B1 B2 ...... Bs Totales

A1 x11 x12 ...... x1s n1+

A2 x21 x22 ...... x2s n2+

..... ... ... ...... ...

Ar xr1 xr2 ...... xrs nr+

Totales n+1 n+1 n+1 n

Xij= nº de individuos de la muestra clasificados en la clase A y en la B.

ni+= total de la i-ésima fila = nº individuos de la clase A

n+j= total de la j-ésima columna = nº de individuos de la clase B

8.1 El caso simple

Veamos primero un ejemplo sencillo en el que solo calcularemos porcentajes, tenemos que en un taller se

sabe que por término medio acuden: por la mañana 3 automóviles con problemas eléctricos, 8 con

problemas mecánicos y 3 con problemas de chapa, y por la tarde 2 con problemas eléctricos, 3 con

problemas mecánicos y 1 con problemas de chapa.

1) Calcula el porcentaje de los que acuden por la tarde.

2) Calcula el porcentaje de los que acuden por problemas mecánicos.

3) Calcula la probabilidad de que un automóvil con problemas eléctricos acuda por la mañana.

Para poder resolver los tres puntos anteriores, debemos elegir Analizar Estadísticos descriptivos

Tablas de contingencia.

Del cuadro de diálogo principal selecciona y transfiere la variable momento al apartado Filas, y en el

apartado Columnas transfiere la variable problema y finalmente presionar el botón Aceptar.


Una vez presionado el botón Aceptar del cuadro de diálogo principal, únicamente visualizaremos en el visor

de resultados una tabla de doble entrada de 2x3 en la que se nos mostrara las frecuencias de los datos entre

las variables momento y problema.

Tabla de contingencia Momento * Problema

Recuento

Problema

Total eléctricos mecánicos chapa

Momento mañana 3 8 3 14

tarde 2 3 1 6

Total 5 11 4 20

Estos resultado no nos son suficientes puesto que en los puntos del ejemplo se nos pide obtener una serie de

porcentajes, para ello en el cuadro de diálogo principal debimos presionar sobre el botón Casillas, y del

cuadro de diálogo del apartado Porcentajes activar la casilla Total, después presionar el botón Continuar y

finalmente el botón Aceptar.

Tabla de contingencia Momento * Problema

Problema

Total eléctricos mecánicos chapa

Momento mañana Recuento 3 8 3 14

% del total 15.0% 40.0% 15.0% 70.0%

tarde Recuento 2 3 1 6


% del total 10.0% 15.0% 5.0% 30.0%

Total Recuento 5 11 4 20

% del total 25.0% 55.0% 20.0% 100.0%

En esta nueva tabla además de las frecuencias de los datos, también se obtienen una serie de porcentajes,

todos ellos respecto al total de casos, en este ejemplo el número valido total es de 20.

Las respuestas a las cuestiones planteadas basta leerlas en las tabla. Así, se obtiene:

1) El 30% de los automóviles acude al taller por la tarde.

2) El porcentaje de vehículos ingresados con problemas mecánicos es el 55%.

3) La probabilidad buscada es: P(acuda por la mañana/tiene problemas eléctricos) = 3/5 = 0.6

8.2 Gráfico

Si lo deseamos, también podemos generar un gráfico de barras respecto a los datos que conformarán la

tabla de contingencia, para esto, en el cuadro de diálogo principal deberemos activar la casilla con la frase

Mostrar los gráficos de barras agrupadas y presionar el botón Aceptar.

8.3 El caso complejo

En el caso anterior solo generamos una tabla bidimensional, es decir solo hicimos uso de dos variables, en

SPSS no es limitante el uso de tablas bidimensionales, también podríamos utilizar tres o mas criterios, lo que

nos llevaría a obtener tablas tridimensionales, cuatridimensionales, etc.

mañana tarde

Momento

0

2

4

6

8

Rec

uent

o

Problema

electricos

mecanicos

chapa

Gráfico de barras


SPSS nos permite general tablas de contingencia con cualquier número de dimensiones. No obstante, los

estadísticos que incluye sólo son útiles para analizar tablas bidimensionales. El análisis de tablas de

contingencia con más de dos criterios de clasificación se aborda en otros procedimientos de SPSS (por

ejemplo, en el procedimiento de Modelos Loglineales no visto en este curso).

SPSS permite obtener tablas de contingencia de dos dimensiones. Pero, además, incluye la posibilidad de

añadir terceras variables (variables de segmentación) para definir subgrupos o capas y obtener así tablas

multidimensionales. También incluye varios estadísticos y medidas de asociación que proporcionan la

información necesaria para estudiar las posibles pautas de asociación existentes entre las variables que

conforman una tabla de contingencia bidimensional.

8.3.1 Estadístico ² (Chi – cuadrado)

Este estadístico nos permitirá contrastar la hipótesis de que los dos criterios de clasificación utilizados son

independientes. Entonces, ² valdrá cero cuando las variables sean completamente independientes, en caso

contrario cuanto mayor sea su valor mayor será la relación entre las variables.

Si los datos son compatibles con la hipótesis de independencia, la probabilidad asociada al estadístico ² será

alta (mayor de 0.05). Si esa probabilidad es muy pequeña (menor de 0.05), consideraremos que los datos

son incompatibles con la hipótesis de independencia y concluiremos que las variables estudiadas están

relacionadas.

En el siguiente ejemplo veremos como obtener e interpretar el estadístico ² en una tabla de contingencia

bidimensional, donde compararemos y determinaremos si estan o no relacionadas la variable Genero con la

variable Estado civil.

Del cuadro de diálogo principal presiona el botón Estadísticos, y del subcuadro de diálogo activa la

casilla Chi-cuadrado. Después presiona el botón Continuar y finalmente Aceptar.

Pruebas de chi-cuadrado

Valor gl Sig. asintótica

(bilateral)


Chi-cuadrado de Pearson 29.486(a) 3 .000

Razón de verosimilitud 27.962 3 .000 Asociación lineal por lineal 19.656 1 .000

N de casos válidos 298

a 2 casillas (25.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 1.54.

Vemos que el estadístico Chi-cuadrado toma un valor de 29.486, el cual, en la distribución ² con 2 grados

de libertad, tiene una probabilidad (Significancia asintotica = 0.000), es decir 0.000<= 0.05. Puesto que esta

probabilidad es muy pequeña, decidimos rechazar la hipótesis de independencia y concluir que las variables

Género y Estado civil están relacionadas.

8.3.2 Estadístico exacto de Fisher

Este estadístico solo hará su aparición cuando se trate de comparar el grado de relación entre variables

dicotómicas. Y se lee de la misma forma en la que se hace con el estadístico Chi-cuadrado.

8.3.3 Phi y V de Cramer

El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más simple

es el coeficiente Phi y puede oscilar entre 0 (que indica que no existe asociación entre las variables) y 1

(asociación total).

Dos de los principales intereses que surgen en el análisis de datos, es comparar grupos y estudiar relaciones.

En capítulos anteriores ya hemos visto la manera en la que podemos comparar grupos, por ejemplo


comparar una variable cuantitativa con variables cualitativas. En este capitulo estudiaremos la relación entre

variables cuantitativas.

Dentro del análisis de correlación bivariada tenemos una serie de coeficientes que nos ayudan a medir el

grado de relación existente entre dos o más variables cuantitativas, SPSS nos permite hacer uso del

coeficiente de correlación de Pearson (uno de los más famosos), el coeficiente de correlación de Spearman

y el coeficiente de correlación de Kendall, estos dos últimos para el análisis de variables ordinales.

El análisis de correlación parcial nos ayudara a eliminar el efecto de terceras variables en el análisis de

correlación de Pearson cuando se trata de realizar el análisis entre dos variables.

9.1 Correlación Bivariada

SPSS nos permite hacer uso de tres coeficientes de correlación, los cuales nos ayudaran a medir el grado de

relación existente entre dos o más variables: Pearson, Spearman y Tau-b de Kendall.

Los coeficientes de correlación, cualquiera, mide el grado de relación existente, ahora bien, este grado de

relación solo nos mostrara que tan fuerte están vinculadas dos o más variables entre si, el grado de relación

no mide dependencia entre las variables, es decir, la correlación no indica nada respecto a las razones que

pudieran explicar la existencia de esta relación. Sólo indica que dos o más variables varían en forma

conjunta: la correlación en sí misma sólo sirve como índice del grado de relación.

Los tres coeficientes de correlación de los que podemos hacer uso en SPSS tienen un rango de medida de

entre menos uno a uno positivo, incluido el cero.

Cuando el valor numérico que nos muestra el coeficiente de correlación es negativo, decimos que existe una

relación negativa, es decir que mientras que el valor de una variable aumenta, el valor de la otra variable

disminuye; cuando el valor numérico que nos muestra el coeficiente de correlación es positivo, decimos que

existe una relación positiva, es decir que cuando el valor de una variable aumenta, el valor de la otra

variable también aumenta; y que cuando el valor numérico de nos muestra el coeficiente de correlación es

cero, esto nos dice que no existe relación entre los valores de variables diferentes, por lo que se tendría que

estudiar su relación por otros medios.

a) Relación Positiva b) Relación Negativa


0.00 2.00 4.00 6.00 8.00 10.00

X

0.00

2.00

4.00

6.00

8.00

10.00

Y

c) Relación nula d) Relación Nula

En las figuras anteriores podemos observar por medio de gráficos llamados Gráficos de dispersión la

relación que existe entre dos variables diferentes, si calculáramos el coeficiente de correlación de la figura a

y la figura b, los coeficientes obtenidos serian perfectos, es decir, que para la figura a el coeficiente de

correlación sería de 1, esto quiere decir que cuando el valor de una variable aumenta, el valor de la otra

0.00 2.00 4.00 6.00 8.00 10.00

X

0.00

2.00

4.00

6.00

8.00

10.00

Z

0.00 2.00 4.00 6.00 8.00 10.00

X

0.00

1.00

2.00

3.00

4.00

5.00

6.00

W

0.00 1.00 2.00 3.00 4.00 5.00 6.00

V

0.00

2.00

4.00

6.00

8.00

10.00

Y


variable también aumenta en la misma proporción; y el coeficiente de correlación de la figura b sería de –1,

esto quiere decir que mientras los valores de una variable aumentan, los valores de la otra variable

disminuyen en la misma proporción; y en la figura c y d el coeficiente de relación sería de cero, pues no

vemos ese crecimiento o decrecimiento de ninguna variable con respecto a la otra.

La forma en la que haremos uso de la herramienta de correlación en SPSS, es de la siguiente forma: de la

barra de menús elige Analizar Correlaciones Bivariadas, selecciona y transfiere las variables

cuantitativas que desees correlacionar, el análisis que SPSS lleva acabo de las variables es por pares de ahí

el nombre de correlación bivariada y finalmente presionar el botón Aceptar.

Si lo deseas puedes elegir el tipo de coeficiente de correlación que desees, el coeficiente de Pearson es el que

esta por defecto, pero si lo refieres puedes hacer uso de los coeficientes de Spearman y kendall que surten

mejor efecto en variables que sean ordinales.

9.2 Correlación Parcial

El hacer uso de la correlación parcial nos permite estudiar la relación lineal existente entre dos variables

controlando el posible efecto de una o más variables extrañas. El coeficiente de correlación parcial es una


técnica de control estadístico que expresa el grado de relación lineal existente entre dos variables tras

eliminar de ambas el efecto atribuible a terceras variables.

Para poder hacer uso de la correlación parcial en SPSS, deberás elegir de la barra de menús Analizar

Correlaciones Parciales, en el apartado Variables transfiere las variables que desees correlacionar y en

el apartado Controlando para agrega la variable de la cual deseas quitar los efectos en las variables

anteriores, y finalmente presiona el botón Aceptar.

9.3 Gráfico de dispersión

Este tipo de gráfico resulta bastante útil cuando deseamos ver de manera preliminar el tipo de relación

existente entre dos o más variables, pues este gráfico nos muestra una nube de puntos consistente en un

aglomerado de puntos en el que cada uno representa las puntuaciones obtenidas en las dos variables por

cada caso.

Como ejemplo, haremos uso de los siguientes valores y determinaremos el tipo de relación existente entre

las variables.

Y -6.1 -0.5 7.2 6.9 -0.2 -2.1 -3.9 3.8

x -2 0.6 1.4 1.3 0 -1.6 -1.7 0.7

Elige de la barra de menús Gráficos Dispersión, como solo se trata de graficar dos variables selecciona

la alternativa Simple, en el cuadro de diálogo principal, selecciona y transfiere a la variable dependiente al

apartado Eje Y, y en el apartado Eje X transfiere la variable independiente, y después presiona el botón

Aceptar.


Si lo deseas puedes agregar una variable en el apartado Establecer marcas por, esta variable generara

marcas en el gráfico de dispersión, por ejemplo si agregaras la variable sexo, los puntos del gráfico se verian

diferenciados por una marca diferente para hombres y mujeres.

Al visualizar el grafico de dispersión, puedo determinar rápidamente que la relación existente entre las

variables de estudio es una relación lineal positiva, al decir lineal positiva, es porque a través de los puntos

de la dispersión yo puedo agregar una línea, en este caso una línea recta, y además veo que mientras los

valores de la variable X crecen, también los valores de la variable Y crecen.

-2.00 -1.00 0.00 1.00 2.00

X

-7.50

-5.00

-2.50

0.00

2.50

5.00

7.50

Y


En múltiples ocasiones nos encontramos con situaciones en las que se requiere analizar la relación entre dos

variables cuantitativas o más. Los dos objetivos fundamentales de este análisis serán, por un lado,

-2.00 -1.00 0.00 1.00 2.00

X

-7.50

-5.00

-2.50

0.00

2.50

5.00

7.50

Y

R Sq Linear = 0.856


determinar si dichas variables están asociadas y en qué sentido se da dicha asociación (es decir, si los

valores de una de las variables tienden a aumentar o disminuir al aumentar los valores de la otra); y por

otro, estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra.

La forma correcta de abordar el primer problema es recurriendo a coeficientes de correlación (ya

estudiados). Sin embargo, el estudio de la correlación es insuficiente para obtener una respuesta a la

segunda cuestión: se limita a indicar la fuerza de la asociación mediante un único número, tratando las

variables de modo simétrico, mientras que nosotros estaríamos interesados en modelar dicha relación y usar

una de las variables para predecir la otra. Para tal propósito se recurrirá a la técnica de regresión.

Por último cabe mencionar que cualquier modelo de regresión se basa en una serie de supuestos, como son:

linealidad, independencia, normalidad, homocedasticidad y no-colinealidad.

10.1 Regresión Lineal Simple

El objeto de un análisis de regresión lineal simple es investigar la relación estadística que existe entre una

variable dependiente (Y) y una más variables independientes (X1, X2, X3, ...). Para poder realizar esta

investigación, se debe postular una relación funcional entre las variables. Debido a su simplicidad analítica, la

forma funcional que más se utiliza en la práctica es la relación lineal. Cuando solo existe una variable

independiente, esto se reduce a una línea recta:

Ŷ = 0 + 1X

donde los coeficientes 0 y 1 son parámetros que definen la posición e inclinación de la recta. (Nótese que

hemos usado el símbolo especial Ŷ para representar el valor de Y calculado por la recta. Como veremos, el

valor real de Y rara vez coincide exactamente con el valor calculado, por lo que es importante hacer esta

distinción.)

El parámetro 0, conocido como la “ordenada en el origen,” nos indica cuánto es Y cuando X = 0. El

parámetro 1, conocido como la “pendiente,” nos indica cuánto aumenta Y por cada aumento de una unidad

en X. Nuestro problema consiste en obtener estimaciones de estos coeficientes a partir de una muestra de

observaciones sobre las variables Y y X. En el análisis de regresión, estas estimaciones se obtienen

comúnmente por medio del método de mínimos cuadrados.

SPSS nos proporciona la herramienta que nos ayudara a la predicción de dicha Ŷ. Con la tabla siguiente de

datos determinaremos la ecuación de la recta que nos ayudara a determinar el grado de dependencia de Y

con X.


Y -6.1 -0.5 7.2 6.9 -0.2 -2.1 -3.9 3.8

x -2 0.6 1.4 1.3 0 -1.6 -1.7 0.7

De la barra de menús elige Analizar Regresión Lineal, en el cuadro de diálogo principal selecciona y

transfiere la variable Y al apartado Dependiente Y la variable X transfiérela al apartado Independientes Y

presiona el botón Aceptar.

Resumen del modelo

Modelo R R cuadrado R cuadrado corregida

Error típ. de la estimación

1 .925(a) .856 .833 2.00349

a Variables predictoras: (Constante), X

La tabla pivote Resumen del modelo nos muestra una correlación bastante alta con R = 0.925 que nos

indica una fuerte relación positiva entre las variables X e Y. El valor de R² = 0.856 nos indica que el 85.6%

de la varianza de la variable Y está predicha por la variable X

ANOVA(b)

Modelo Suma de

cuadrados gl Media

cuadrática F Sig.


1 Regresión 143.675 1 143.675 35.794 .001(a)

Residual 24.084 6 4.014

Total 167.759 7

a Variables predictoras: (Constante), X b Variable dependiente: Y

La tabla pivote ANOVA muestra el contraste para comprobar si la relación global es significativa o no. El

estadístico F nos permite contrastar la hipótesis nula de que el valor poblacional de R es igual a cero, lo cual,

en el modelo de regresión simple, equivale a contrastar la hipótesis de que la pendiente de la recta de

regresión vale cero, y la prueba se plantea como sigue:

Ho: 1 = 0 vs Ha: 1 0

En nuestro ejemplo como F(1, 7) = 35.794 y que p <= 0.001, vemos que esta probabilidad es menor al nivel

de significancia es decir 0.001 < 0.05, llegamos a la conclusión de que existe una relación significativa entre

la variable X y la variable Y. Es decir se rechaza la hipótesis nula de que la pendiente de la recta de la

regresión vale cero.

Coeficientes(a)

Modelo

Coeficientes no estandarizados

Coeficientes estandarizado

s

t Sig. B Error típ. Beta

1 Constante 1.163 .714 1.629 .154

X 3.234 .541 .925 5.983 .001

a Variable dependiente: Y

La tabla pivote Coeficientes, encontraremos los valores de los coeficientes de la recta de regresión. En la

columna Coeficientes no estandarizados se encuentran los coeficientes de regresión parcial que definiran la

ecuación de regresión en puntuaciones directas.

El valor que le corresponde al coeficiente 0 que es la constante de nuestra ecuación predictora es 1.163. Y

el valor que le corresponderá al coeficiente 1 que es la pendiente de nuestra ecuación predictora es 3.234.

Esto quiere decir que por cada unidad que se aumenta en la variable X, la variable Y aumenta 3,234

unidades. Según esto, la ecuación de regresión queda de la siguiente manera:

Ŷ = 1.163 + 3.234X

Esto quiere decir que a cada valor de X le corresponde un pronostico en Y basado en un incremento

constante de 1.163 más 3.234 veces el valor de X.

El coeficiente de Beta que encontramos en la columna Coeficientes estandarizados para el análisis de

regresión lineal simple, nos muestra la fuerte correlación que la variable X tiene con la variable Y con 0.925,

que corresponde al coeficiente de correlación de Pearson.


10.2 Regresión Lineal Múltiple

El objeto de un análisis de regresión lineal múltiple es investigar la relación estadística que existe entre una

variable dependiente (Y) y más de una variable independiente (X1, X2, X3, ...). La diferencia que radica

entre la regresión lineal simple y la múltiple, es de que la ecuación de regresión múltiple ya no define una

recta en el plano, si no un plano en un espacio multidimensional.

El tratar de mostrar gráficamente la relación presente entre una variable dependiente con más de una

variable independiente resulta muy poco intuitiva, por el hecho de que si tuviésemos n variables

independientes tendríamos que mostrar un gráfico con n+1 dimensiones, por lo que resultaría muy

complicado, por tal motivo nos limitaremos a partir del modelo de regresión lineal:

Ŷ = 0 + 1X1 + 2X2 + 3X3 + ... + nXn

De acuerdo con la ecuación anterior, la variable dependiente Ŷ se interpreta como una combinación lineal de

un conjunto de n variables independientes Xn, cada una de las cuales va acompañada de un coeficiente n

que indica el peso relativo de esa variable en la ecuación. También esta ecuación incluye un coeficiente 0

que corresponde a un valor constante.

Al igual que en el análisis de regresión lineal simple, en este modelo también deberemos hallar con la ayuda

de SPSS los valores numéricos de los coeficientes n para poder predecir el valor de la variable dependiente.

La manera en que lo haremos con SPSS es idéntica a la que realizamos en el análisis de regresión lineal

simple, de igual forma se interpretaran los resultados de las diferentes tablas pivote que nos arroje el

análisis de regresión múltiple. Sólo mencionare el modo de ingresar a la herramienta que SPSS nos da para

este tipo de análisis.

De la barra de menús elige Analizar Regresión Lineal, en el apartado Dependiente deberás

transferir la variable que corresponda, y en el apartado Independientes transferirás las variables

independientes y finalmente presionar el botón Aceptar.

La prueba de hipótesis correspondiente al análisis de regresión múltiple queda de la siguiente manera:

Ho: 1 = 2 = 3 = ... = n = 0 vs Ha: i 0 para algún i = 1, 2, 3,..., n


10.3 Estimaciones Curvilineas

Para poder determinar que tipo de estimación deberemos realizar con que tipos de datos, es muy

aconsejable realizar antes de cualquier análisis un gráfico de dispersión, pues el será el que nos muestre de

forma visual el tipo de relación que pudieran existir entre nuestras variables de estudio.

Algunas de las estimaciones más comunes aparte de la regresión lineal simple y múltiple, tenemos la

estimación exponencial, cúbica, cuadrática, logarítmica, entre otras. En este capítulo ejemplificaremos

algunas de ellas. Y haremos uso de los siguientes datos.

X 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Y 33 27 22 22 19 18 19 16 12 14 14.5 13.5 11 12.5 12.25 13 12

Al final deberás de tener la habilidad de determinar que tipo de estimación resulta mejor para el análisis de

los datos anteriores

10.3.1 Estimación Exponencial

De la barra de menús elige Analizar Regresión Estimación curvilínea, del cuadro de díalogo

transfiere la variable Y al apartado Dependientes y la variable X transfiérela al apartado independiente, y

del apartado Modelos deselecciona Lineal y selecciona Exponencial, finalmente presiona el botón Aceptar.


Independent: X

Dependent Mth Rsq d.f. F Sigf b0 b1

Y EXP .826 15 71.23 .000 27.1655 -.0570

El modelo de estimación exponencial queda como sigue:

Ŷ = 0 e^(1X) Ŷ = 27.1655 e^(-0.0570X)

10.00

15.00

20.00

25.00

30.00

35.00

0.00 5.00 10.00 15.00 20.00

X

Observada

Exponencial

Y


10.3.2 Estimación logarítmica

De la barra de menús elige Analizar Regresión Estimación curvilínea, del cuadro de diálogo


del apartado Modelos deselecciona Lineal y selecciona Logarítmico, finalmente presiona el botón Aceptar.

Independent: X

Dependent Mth Rsq d.f. F Sigf b0 b1

Y LOG .950 15 285.37 .000 31.7394 -7.4263

El modelo de estimación logarítmico queda como sigue:

Ŷ = 0 + 1 LnX Ŷ = 31.7394 – 7.4263 LnX

10.00

15.00

20.00

25.00

30.00

35.00

0.00 5.00 10.00 15.00 20.00

X

Observada

Logarítmico

Y


10.3.3 Estimación cuadrática



del apartado Modelos deselecciona Lineal y selecciona Cuadrático, finalmente presiona el botón Aceptar.

Independent: X

Dependent Mth Rsq d.f. F Sigf b0 b1 b2

Y QUA .937 14 104.07 .000 33.0625 -3.1052 .1142

El modelo de estimación cuadrático queda como sigue:

Ŷ = 0 + 1X + X^2 Ŷ = 33.0625 -3.1052X + 0.1142X^2

10.00

15.00

20.00

25.00

30.00

35.00

0.00 5.00 10.00 15.00 20.00

X

Observada

Cuadrático

Y


10.3.4 Estimación cúbica



del apartado Modelos deselecciona Lineal y selecciona Cúbico, finalmente presiona el botón Aceptar.

Independent: X

Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3

Y CUB .952 13 85.10 .000 35.7426 -4.6725 .3258 -.0078

El modelo de estimación cúbico queda como sigue:

Ŷ = 0 + 1X + 2X^2 + 3X^3 Ŷ = 35.7426 - 4.6725X + 0.3258X^2 - 0.0078X^3

10.00

15.00

20.00

25.00

30.00

35.00

0.00 5.00 10.00 15.00 20.00

X

Observada

Cúbico

Y


Manual de SPSS Básico

Documents