Manual SPSS

MINI-MANUAL DE USO DEL PROGRAMA SPSS PARA WINDOWS

ESPECIALMENTE DISEÑADO PARA LOS ALUMNOS DEL CURSO TEÓRICO-PRÁCTICO DE ESTADÍSTICA BÁSICA

Facultad de Medicina (UCLM) Albacete, abril 2008

Gema Vega 2

Gema Vega 3

ELEMENTOS DE LA VENTANA SPSS - VENTANA DE LA APLICACIÓN: contiene la aplicación SPSS - VENTANAS SECUNDARIAS: el SPSS utiliza cinco tipos de ventanas secundarias: la que contiene los datos (New data), la de resultados (Output), la de instrucciones (syntax), la de los gráficos utilizados durante la sesión y la de edición de éstos (chart carousel window y chart window). - DATA EDITOR WINDOW (NEW DATA): contiene el archivo de los datos activo y permite modificarlos. * Esta ventana se abre automáticamente al iniciar la sesión. * La información de esta ventana se guarda con extensión “.SAV”

- OUTPUT WINDOW: contiene el resultado de los análisis estadísticos, así como otras informaciones que presenta el sistema, como son los mensajes de error, por ej. * Esta ventana se abre automáticamente al iniciar la sesión. * La información de esta ventana se guarda con extensión .SPO

Gema Vega 4

- CHART CAROUSEL WINDOW: contiene los gráficos que se realizan durante una sesión. * Esta ventana se abre automáticamente la primera vez que se genera un gráfico. * La información de esta ventana se guarda con extensión .CHT

Gema Vega 5

- CHART WINDOW: permite editar los datos de la ventana carousel. * Esta ventana se abre a través de la ventana carousel de gráficos. * La información de esta ventana se guarda con extensión .CHT

- SYNTAX WINDOW: contiene instrucciones y procedimientos que permiten manipular el contenido de la ventana de datos y generar la información que aparece en la ventana de resultados. * El sistema permite configurar la apertura automática de la ventana de instrucciones al iniciar la sesión (EDIT/ PREFERENCES) * La información de esta ventana se guarda con extensión .SPS

Gema Vega 6

** Pueden tenerse abiertas simultáneamente una ventana de datos, una ventana de carousel de gráficos y varias de resultados, de sintaxis y de editor de gráficos. * Recomendamos que las ventanas secundarias se organicen en mosaico (MAYUS + F4) - BARRA DE MENUS: casi todas las acciones que realiza la aplicación pueden activarse a partir de un sistema de barra de menús y menús desplegables. - BARRA DE HERRAMIENTAS: permite ejecutar rápidamente las funciones de uso más frecuentes.

- BARRAS DE DESPLAZAMIENTO: desplazan el texto de las ventanas secundarias de instrucciones y resultados. - LINEA DE ESTADO: informa sobre el estado en el que se halla el proceso de datos y si existe alguna restricción relativa a los casos que intervienen (por ejemplo si se han seleccionado algunos que cumplan una condición, vendrá un texto con "filter on" indicándonos que los análisis que realicemos sólo se efectuarán en esos casos). Además cuando se posiciona el puntero del ratón sobre una función de la barra de herramientas, en la línea de estado aparece una descripción de la función que realiza.

Gema Vega 7

- File: permite crear, recuperar y grabar archivos. También contiene la opción Exit que sirve

para salir de la aplicación.

- Edit: permite editar el texto de la ventana de resultados y de instrucciones, realizar funciones de

búsqueda y cambio. También contiene el menú de REFERENCES que permite personalizar diferentes aspectos del funcionamiento del programa.

Barra de Desplazamiento

Barra de Estado

Barra de Herramientas Barra de Menús

Caso NO Seleccionado

Barra de Desplazamiento

Gema Vega 8

- Data: permite definir variables y realizar cambios globales en la ventana de datos.

- Transform: contiene procedimientos de creación y modificación de variables.

- Statistics: contiene los diferentes procedimientos de análisis estadístico.

- Graph: contiene opciones de representación gráfica.

Gema Vega 9

- Utilities: permite configurar diferentes aspectos de la aplicación (por ej. Tipo de letra), crear y activar grupos de variables, obtener información sobre los datos y consultar y seleccionar variables a instrucciones.

- Window: permite controlar diferentes atributos de las ventanas de la aplicación (por ej. disposición

en cascada o en mosaico) y cambiar la ventana activa.

- Help: proporciona información sobre diferentes aspectos del funcionamiento del programa.

Gema Vega 10

CUADROS DE DIÁLOGO El programa solicita información del usuario a través de los Cuadros de Diálogo que a parecen cuando se selecciona un elemento del menú. Existe un conjunto de botones de comando y cuadros de lista que aparecen en la mayor parte de los cuadros de diálogo: 1. OK: Ejecuta las opciones del cuadro del diálogo que se ha seleccionado. Directamente pasaremos a la ventana de resultados donde nos mostrará la orden y el resultado correspondiente si es un análisis o un gráfico. Si fuera una orden de definir o de transformar una variable sólo aparecerá la orden en dicha ventana. 2. PASTE: Inserta la orden en la ventana de sintaxis. ¡NO LA EJECUTA! 3. RESET: Elimina las especificaciones que se han hecho en la utilización previa de dicho cuadro de diálogo. 4. CLOSE: Cierra el cuadro de diálogo sin ejecutar ninguna orden. 5. HELP: Abre una ventana de ayuda específica para la realización de las órdenes de ese cuadro de diálogo.

Además de los botones de comando en el cuadro de diálogo existen dos Cuadros de Lista. Estos cuadros suelen contener listas de archivos o de variables. Existen dos tipos de cuadros de lista de variables: los que contiene a todas las variables y los que sólo contiene las variables seleccionadas. Las variables se seleccionan del primer cuadro al "picar" una o varias a la vez con el ratón y, posteriormente volver a hacer "clic" sobre el botón con la flecha. Pasarán de una ventana a la otra. También es posible quitar alguna variable de la lista de variables seleccionadas realizando la misma operación pero en sentido inverso. *** Las opciones de los cuadros aparecen atenuadas cuando no tiene sentido seleccionarlas. Casi siempre es porque la orden no está completa. * Los puntos suspensivos "... " a continuación de un texto de un botón indican que si se pulsa dicho botón aparecerá otro nuevo cuadro de diálogo con más opciones. **** Os recomiendo que os acostumbréis a utilizar la opción PASTE y de esa manera tendréis la posibilidad de guardar en distintos ficheros o archivos de instrucciones con extensión .SPS, que pueden ser muy útiles en distintas ocasiones.

Según esto, la propuesta de modo de trabajo es: 1º seleccionar un menú de la barra de menús (por ejemplo: statistics), 2º elegir un elemento de la ventana que se despliega al seleccionar el menú (summarize, frecuencies). 3º configurar el cuadro de diálogo y finalizar con PASTE y 4º después de pulsar PASTE, la instrucción aparece en la ventana de sintaxis, pero no ha sido ejecutada. Para ser ejecutada habrá que seleccionarla si hay otras ("ennegrecerla con el ratón") y posteriormente hacer "clic" sobre el botón con una flecha que aparece en la barra de herramientas de esta ventana.

Botones de Comando Cuadro de Lista

Cuadro de Lista

Gema Vega 11

*** El único cuadro de diálogo que no ofrece la opción PASTE es el de DEFINE VARIABLE. Si queréis guardar la orden, la única opción que a mi se me ocurre es seleccionándola con el ratón ("ennegreciéndola" hasta el último punto) en la ventana de resultados (OUTPUT) y con el menú EDIT de la barra de menús dais la orden de COPY. Posteriormente os vais a la ventana de sintaxis (haciendo "clic" directamente sobre la barra de herramientas o a través del menú Window donde os da la opción de cambiar la ventana activa). Una vez en esa ventana, nuevamente entráis en el menú EDIT y ponéis PASTE, teniendo en cuenta que os copiará dicha orden en el punto donde esté el cursor. (Para que la orden se pueda ejecutar hay que quitar las "flechas" que aparecen al principio de cada línea). LECTURA DE DATOS La lectura de los datos se realiza con el menú FILE de la barra de menús. Dentro de la ventana que se despliega al elegir este menú tenemos varias opciones. Utilizaremos la opción OPEN y posteriormente DATA. Dentro de este cuadro de diálogo existen varias opciones: nombre del fichero (donde sale una lista de nombres de ficheros que tiene la condición de tener la extensión .sav, que por defecto es la que aparece), tipo de fichero (donde por defecto siempre aparece los ficheros de SPSS con extensión .sav), directorios (donde aparece la posición de directorio y subdirectorio de donde "cuelgan" los ficheros que aparecen en la ventana de nombre de fichero) y unidades (donde te da la opción de leer de distintos discos: c:\, a:\,...etc.). Si lo que se quiere es abrir una base de datos con extensión .SAV del SPSS, no hace falta modificar nada de la ventana desplegable de tipo de fichero y lo único es que hay que hacer "clic" para seleccionar el fichero que queramos

Pero si queremos abrir ficheros con otra extensión habrá que elegir primero en esta ventana desplegable la extensión de los ficheros que queremos. Si queremos ficheros de la versión de MS_DOS de SPSS, la extensión es .SYS, si es de DBASE la extensión es .DBF y de Excel, la extensión es .XLS.

Se activa aquí

Gema Vega 12

En el caso de que el fichero que queramos abrir sea ASCII, directamente en el menú FILE da la opción de leer datos desde ASCII ("Read ASCII Data"). Aquí la orden será distinta:

Se elige en FILE

Se localiza el archivo y se escoge arrastrándolo con el ratón de izquierda a derecha

Gema Vega 13

GUARDAR EL TRABAJO DE CADA SESIÓN Hay que distinguir entre las distintas posibles ventanas que disponemos en el programa. Podremos guardar la matriz de datos (con extensión .sav), el fichero de órdenes (con extensión .sps), el fichero de resultados ( con extensión .lst) y los gráficos (con extensión .cht). Para guardar estos distintos ficheros tenemos que tener activa dicha ventana y entrar en el menú FILE y hacer clic sobre SAVE FILE si ya lo hemos guardado con anterioridad, con lo que guardará el archivo con el mismo nombre que estaba antes. En el caso de que sea la primera vez que se vaya a guardar dicho fichero, te abrirá una ventana de diálogo donde se deberá escoger el directorio y subdirectorio oportuno, además de ponerle un nombre a dicho fichero, al cual le añadirá la extensión oportuna dependiendo del fichero que se esté guardando. Otra posibilidad, es que queramos guardar el fichero en otro disco o otro directorio/subdirectorio, para lo cual habrá que hacer "clic" en SAVE AS, donde se abrirá una ventana de diálogo igual a la comentada anteriormente. Como sabéis, ventana de matriz de datos sólo hay una en activo; pero de las demás ventanas es posible tener varias abiertas al mismo tiempo. Os recomiendo que, tanto la ventana de resultados como la de sintaxis tengáis "unas de sucio" que será la que por defecto os abre el programa al inicializarlo y donde expresará todas las órdenes y resultados que se realicen durante la sesión y, "otras de limpio" donde iréis copiando las órdenes y resultados que queráis guardar. También os recomiendo que cada vez que copies un resultado o una orden en dichos ficheros, lo guardéis; pues pudiera ser que se fuera la luz o que alguien tocara en vuestro ordenador y perdierais lo que habéis hecho. Una buena práctica es que cada vez que uno modifica algo o, se levanta de la silla, se guarde lo que ha hecho, pues ¡se puede tropezar con el cable! ¿no?

DEFINICION Y ATRIBUTOS DE UNA VARIABLE Se accede al menú en "DATA" / "DEFINE VARIABLE" o "picando" dos veces en la columna de la variable en la matriz de datos. ATRIBUTOS: 1. NOMBRE: para asignar un nombre a una variable hay que seguir una serie de normas:* LONGITUD: entre 1- 8 caracteres * 1er CARACTER: una letra de A-Z (NO Ñ) * CARACTERES RESTANTES: letras: A-Z; nº: del 0-9;signos:_ . $ * PALABRAS PROHIBIDAS: ALL,BY,TO,WITH,EQ,NE,LT,LE,GT,AND,OR,NOT 2. ESCALA DE MEDIDA: Categórica o Numérica 3. FORMATO: Numérica: Se indica como (Fa.d), siendo "F" la indicación de que es un número real, la "a" el número total de caracteres que ocupará la variable cuando se escriban (con el punto y decimales) y la "d" indicaría el número de decimales. Siempre tener en cuenta que se deben de poner el mínimo nº de decimales posible. Alfanumérica (string). Acordaros que en los listados de cada cuadro de diálogo las variables string vendrán indicadas por un signo ">" ó Fecha/hora (hay distintas modalidades de poner las fechas). 4. ETIQUETAS: Descripción de la variable. Si es numérica, se debe de poner la escala de medida. Si la variable es categórica, además de poner la etiqueta a la variable, hay que etiquetar cada valor o código de las distintas categorías de la variable. (Por ejemplo en la variable Raza: el valor "0" le corresponde la etiqueta "raza blanca", al "1" "la raza negra" y al "2" "la raza amarilla") 5. VALORES MISSING: códigos asignados a los valores desconocidos o a los valores no evaluables. A veces el contenido de un caso en una variable no es un valor válido. Esto puede ser por

Gema Vega 14

varias razones: porque sea un error en la transcripción de los datos, porque no se haya recogido el valor que toma esa variable en ese caso o porque realmente no se pueda saber dicho valor. En cualquiera de estas circunstancias la realidad es que se desconoce ese valor y, por tanto no se puede utilizar para realizar los análisis. El programa tiene que reconocer a estos valores como "missing values". Para ello tenemos dos posibilidades: 1ª dejar el espacio en blanco y el programa por defecto lo reconoce como missing (posibilidad que no os recomiendo porque nunca sabremos si es que se te ha olvidado poner ese valor por error o realmente reconoces dicho valor como perdido). Y 2ª: darle un valor en concreto que el programa reconozca como missing una vez informado de ello. Ese valor se codifica al definir la variable y tiene que cumplir la condición de que sea un valor tal, que la variable en cuestión nunca pueda tomar.(Por ejemplo en el caso de la variable edad el número "-9"). A pesar de lo que os he dicho en el manual del programa recomiendan que se dejen los espacios en blanco antes que darles un valor a los missing.

CODIFICACION DE LAS VARIABLES CUALITATIVAS: El objetivo de codificar una variable es representar de forma simplificada las diferentes categorías de las variables cualitativas (dicotómicas o no dicotómicas: nominales y ordinales). Los códigos que se asignan a cada categoría son arbitrarios pero deben de cumplir dos condiciones: simplificar su representación e identificarle de manera inequívoca. Así pues una variable cualitativa se puede codificar como numérica o alfabética (string) en función del tipo de códigos que queramos poner a cada categoría; aunque como ya os dije, habría que acostumbrarse ya a codificarles como numéricas o, más bien os recomiendo que lo hagáis. Si son dicotómicas (0/1) y las no dicotómicas con las categorías a partir del "0" en adelante. Por supuesto, tenéis que tener presente que aunque la variable la codifiquéis como numérica, tal número no expresa ninguna cantidad. Por ejemplo, la variable sexo se puede codificar como string M/V o numérica 0/1.

APPLY DATA DICTIONARY Dentro del menú FILE, existe una posibilidad que es APPLY DATA DICTIONARY, que es una forma alternativa de definir variables. Aplica el diccionario de un archivo SPSS de datos al archivo de datos que se tenga en activo. Esta operación se realiza solo para variables cuyo nombre y formato es igual en ambos archivos. La orden quedará así: APPLY DICTIONARY FROM = 'NOMBRE.SAV'.

SELECT CASES A esta orden se accede desde la barra de menús haciendo clic en el menú DATA y luego seleccionando SELECT CASES. Se abrirá una ventana de diálogo donde aparecen diferentes formas de seleccionar los datos para realizar los siguientes análisis. Estas opciones son: 1- Seleccionar todos los casos (que es la que aparece por defecto): ALL CASES 2- Seleccionar una submuestra de los casos de forma aleatoria: RANDOM SAMPLE OF CASES. Tenemos la opción de elegir un número determinado de casos o una proporción de ellos. 3- Seleccionar una submuestra según el valor o rango de una variable: BASED ON TIME OR CASE RANGE 4- Seleccionar una submuestra según un valor de una variable ya existente: USE FILTER VARIABLE 5- Seleccionar una submuestra si cumplen alguna condición: IF CONDITION IS SATISFIED. Esta condición la expresamos en otra ventana que entraremos al hacer clic sobre la orden IF, donde tendremos que crear la expresión lógica de la condición que ponemos (ver la parte correspondiente a elementos que constituyen una expresión lógica). Una vez que ya hemos construido la orden para seleccionar los casos, tenemos que especificar si los no seleccionados queremos que los borre de la matriz de datos (UNSELECTED

Gema Vega 15

CASES ARE DEJETED: orden poco o nada recomendable) o por el contrario, simplemente que no los tenga en cuenta de forma temporal para los futuros análisis que realicemos (UNSELECTED CASES ARE FILTERED). A esta última posibilidad la denominamos FILTRADO DE CASOS, cuando simplemente queremos excluir temporalmente del análisis a los sujetos que no cumplen determinada condición. Para ello es necesario: 1º Disponer de una variable de selección que tome el valor "0" para los sujetos que no cumplen la condición (los excluidos) y un valor diferente del "0" (1 por ejemplo) para aquellos que si la cumplen, es decir, para los sujetos que realmente queremos seleccionar. 2º Se activa un filtro para seleccionar solo aquellos pacientes que en la anterior variable creada tomen el valor "1". Esto lo realiza el programa simplemente conque nosotros pongamos la condición en la ventana correspondiente y posteriormente demos a OK. Una vez ejecutada la orden, en la barra de estado aparecerá un mensaje "FILTER ON", indicando que sólo trabajará a partir de ese momento con los casos seleccionados. Además en la matriz de datos aparecerá el número de registro tachado en los casos no seleccionados. Cuando se quiera volver a seleccionar a todos los casos volveremos a DATA/SELCT CASES/ y pondremos ALL CASES. En este momento la orden que aparecerá ejecutada será "FILTER OFF" y desaparecerá el mensaje de la barra de estado.

SORT CASES A esta orden se accede escogiendo el menú DATA de la barra de menús y sirve para ordenar los datos según los valores de la variable o variables criterio que se establezcan. Si se especifica una lista de variables, primero se ordenan según los valores de la primera variable, a continuación según los de la 2ª y así sucesivamente. Por defecto la ordenación es ascendente, para ordenarlo de forma descendente, hay que especificarlo.

VENTANA UTILITIES Esta ventana tiene varias opciones que son muy útiles (¡de ahí su nombre claro!). 1- VARIABLES: donde se puede ver las distintas variables (formato, etiquetas y missing values) de la base de datos activa. 2- FORMAT: da la opción de cambiar el tipo de letra 3- OUTPUT PAGE TITLE: pone un título al trabajo que aparecerá en la primera línea de cada hoja del "output". El texto del título puede tener una longitud máxima de 58 caracteres. 4- OUTPUT PAGE SUBTITLE: pone un subtítulo al trabajo que aparecerá en la segunda línea de cada hoja del "output". El texto del subtítulo puede tener una longitud máxima de 64 caracteres. 5- *(Coment): permite insertar un texto entre las instrucciones SPSS con objeto de documentar el trabajo.

ELEMENTOS, ESTRUCTURA Y ORDEN DE EJECUCION DE UNA EXPRESION LOGICA Consideramos expresiones lógicas cuando queremos dar una información condicionada. Normalmente las utilizamos en las órdenes de transformar variables o cuando seleccionamos datos que cumplan una condición. Vamos a comentar los elementos que constituyen una expresión lógica: Expresión Aritmética: Constantes Variables Operadores aritméticos (ver COMPUTE) Funciones (ver COMPUTE)

Gema Vega 16

Operadores de relación: " = " -->Igual " <> " -->Diferente " < " -->Menor que " > " -->Mayor que " <= " -->Menor o igual " >= " -->Mayor o igual Operadores Lógicos: " AND " --> y (inserción) " OR " --> o ( reunión) " NOT " --> no (negación) Estructura de una expresión lógica: (exp.arit. ope.rel. exp.arit.) [op. lógico (exp.arit. op.rel. exp.arit)...] Orden de ejecución de una expresión lógica: 1º Expresiones situadas en paréntesis 2º Expresiones aritméticas 3º Operadores de relación 4º Operador lógico NOT 5º Operador lógico AND 6º Operador lógico OR Ejemplo: SELECT IF (SEXO = 1 AND EDAD <= 40 AND PESO/TALLA**2 > 25). Donde sexo, edad, peso y talla son diferentes variables, el "=", "<=" y ">" son expresiones de relación, la división peso/talla**2 es una expresión matemática y "AND" es un operador lógico. Lo que queremos seleccionar son los varones con edad menor o igual a 40 años y que además tengan una masa corporal inferior a 25 Kg/m2 TRANSFORMACION DE DATOS

COMPUTE Dentro del menú "Transform" existe una posibilidad que es "COMPUTE". Esta orden permite crear una variable o modifica el valor de una variable ya creada, a partir de una expresión en la que puede intervenir: variables existentes, constantes, operadores aritméticos y funciones. -->Dentro de los operadores aritméticos tenemos: sumar (+), restar(-), multiplicar (*), dividir (/) y elevar a una potencia (**) que habrá que poner detrás el número de la potencia a la que se eleva. Orden en que se procesa una expresión aritmética: 1º Las expresiones situadas en paréntesis 2º Las funciones 3º Las operaciones con la siguiente jerarquía: 1) Exponenciación (**) 2) Producto (*) y Cociente (/) 3) Suma (+) y Resta (-) Cuando dos operadores tiene una misma jerarquía el Sistema efectúa las operaciones de izquierda a derecha. Ejemplos: 4 + 3*2 - 6/2 =7 -->Primero la multiplicación,2º la división 3º la suma y 4º la resta (4+3)*2 - 6/2 = 11 --> Primero la suma del paréntesis, 2º la multiplicación,

Gema Vega 17

3º la división y 4º la resta -->Dentro de las funciones, se dispone de un amplio grupo de ellas, entre otras, las más frecuentemente utilizadas son: *Funciones aritméticas: - ABS (arg) Valor absoluto - RND(arg) Redondeo - TRUNC(arg) Parte entera - SQR(arg) Raíz cuadrada - EXP(arg) Exponencial del número "E" - LG10(arg) Logaritmo Decimal - LN(arg) Logaritmo Neperiano,...etc. *Funciones Estadísticas: - SUM[.n](arg) Suma de diferentes variables - MEAN[.n](arg) Media - SD[.n](arg) Desviación Estándar - VAR[.n](arg) Varianza - MIN[.n](arg) Mínimo, ...etc. *Funciones Fecha: Saber que las fechas se almacenan internamente como el número de segundos transcurridos desde las 0 horas del día 14/10/1581, con formato de 20 caracteres - DATE.DMY(d,m,a) A partir del día, mes y año retorna la fecha. - CTIME.DAYS(arg) Transforma en días la diferencia entre dos fechas - XDATE.MDAY(arg) Retorna el día del mes - XDATE.MONTH(arg) Retorna el mes del año - XDATE.YEAR(arg) Retorna el año en cuatro dígitos, ... etc. *Funciones de valor missing: - NVALID (agr) Retorna el número de valores validos de una lista de variables - MISSING(arg) Retorna el valor 1 (verdadero) si la variable es missing y el valor 0 cuando tiene missing, ... etc. Vamos a poner ejemplos de alguna de las funciones anteriormente expuestas: --> Tratamiento de Fechas: Supongamos que tenemos dos variables FI (fecha de ingreso) y FA (fecha de alta) y queremos calcular el número de segundos, días y semanas transcurridas entre esas dos fechas. Para ello tendremos que crear otras tres variables nuevas: SEGHOSP, DIAHOSP y SEMHOSP. Lo haremos de la siguiente forma: COMPUTE SEGHOSP= FA - FI. COMPUTE DIAHOSP= CTIME.DAYS(FA-FI). COMPUTE SEMHOSP= TRUNC((CTIME.DAYS(FA-FI))/7). Luego, tendréis que poner las etiquetas respectivas a cada variable con DEFINE VARIABLE --> Cálculo de la edad de un sujeto que contestó a un cuestionario el día 6 de Octubre de 1991, suponiendo que tenemos la fecha de nacimiento (FN): Podemos hallar la edad en días, semanas, meses o años, creando las variables EDAD_DIA, EDAD_SEM, EDAD_MES Y EDAD_ANO. Lo haremos de la siguiente forma: COMPUTE EDAD_DIA=CTIME.DAYS(DATE.DMY(6,10,91)-FN). COMPUTE EDAD_SEM=TRUNC(CTIME.DAYS(DATE.DMY(6,10,91)-FN)/7). COMPUTE EDAD_MES=TRUNC(CTIME.DAYS(DATE.DMY(6,10,91)-FN)/30). COMPUTE EDAD_ANO=TRUNC(CTIME.DAYS(DATE.DMY(6,10,91)-FN)/365). La orden TRUNC se utiliza para tomar sólo los números enteros. Dentro de la orden COMPUTE tenemos la opción IF que sirve para poner una condición a la

Gema Vega 18

ejecución de esta orden, es decir, la orden de COMPUTE sólo se ejecutará cuando se cumpla dicha condición que se expresará como una "expresión lógica" (mirar el apartado de expresión lógica). Al final la orden quedará: IF (expresión lógica) NOMBRE DE NUEVA VARIABLE= EXPRESION ARITMETICA. Por ejemplo: IF (PESO > 65) MASA=PESO/TALLA**2. Queremos decir que sólo cree la nueva variable masa corporal para aquellos pacientes que pesen más de 65 Kg

RECODE A esta orden se llega por el menú Transform, haciendo clic sobre recode. Tenemos dos posibilidades en esta recodificación. Uno, recodificando en la misma variable y el segundo, hacer la recodificación creando otra variable. Para ello hay que escoger la correspondiente orden en la ventana desplegable que aparece al hacer clic sobre recode. Os recomiendo que siempre mantengáis la información original en la variable original, pues luego la podéis utilizar para nuevas recodificaciones o para otros análisis que se os ocurran posteriormente. Por ejemplo, si tenéis la variable edad en años y la queréis clasificar en distintas categorías, lo haréis con esta orden; pero es importante que mantengas la información de la edad "intacta" para nuevas categorizaciones o para otros análisis. Por eso os recomiendo que utilicéis la opción de "INTO DIFFERENT VARIABLE". En este tipo de orden que trata de cambiar unos valores por otros, tendréis que dar la información correspondiente al valor antiguo (el actual) y el valor nuevo (el que queréis que tome en la nueva variable). Para ello existe una opción que pone "OLD AND NEW VALUE", en la cual tenéis que entrar para dar esta información. Si estáis utilizando la opción de recodificar en la misma variable, al poner el "new value" tiene que ser en el mismo formato que la variable de partida; pero si por el contrario estáis utilizando la opción de "different variable", el nuevo valor puede ser en formato diferente. En el caso de las variables numéricas, tenemos una serie de claves que se pueden utilizar para facilitar la orden que queremos dar para el "old-value": LO: Valor más bajo de la variable HI: Valor más alto de la variable THRU: Permite especificar el intervalo de valores MISSING: Valor missing de cada variable. La palabra clave missing, hace referencia tanto a los user-missing como a los system-missing SYSMIS: Simboliza sólo el valor de system-missing ELSE: Simboliza el resto de los valores no especificados, incluso los missing. En el caso de las variables categóricas, esta clave es la única que podría utilizarse. Tenemos un problema en las variables creadas por la orden COMPUTE en función de otras variables, pues la precisión de esta nueva variable es muy alta. Por ejemplo si creamos la variable MASA CORPORAL a partir del peso y la talla (nos aparecerán muchos decimales) y posteriormente queremos codificar esta nueva variable para definir obesos y no obesos, diferenciando en el valor 25. En este caso deberemos poner la orden desde el menor hasta el 25 será 0 y a partir de 25 será 1 (LO THRU 25 = 0)(25 THRU HI = 1), en este caso todos los enfermos con masa corporal inferior o igual a 25 serán codificados con el "0" y cualquier valor mayor de 25 (25,00003 por ejemplo) será codificado como "1". Para codificar el nuevo valor ("new-value"), en el caso de las numéricas la clave SYSMIS, sustituye los old values en missing. Y la clave COPY, replica los valores originales (old) en los nuevos sin codificarlos. En las variables string, esta clave es la única que se puede utilizar. La orden de recodificar la variable en diferente variable se puede ejecutar para varias variables al mismo tiempo, poniendo para cada variable el nuevo nombre de la variable y su etiqueta correspondiente; pero siempre con la salvedad de que la recodificación será en todas las variables igual. Por ejemplo, imaginaros que tenéis varias variables categóricas codificadas en alfanumérico S/N (SI/NO), como por ejemplo HTA (hipertensión arterial), DM (Diabetes Mellitus), ACVA (Accidente cerebro vascular) y CI (cardiopatía Isquémica) y, queréis cambiarlas a numéricas 1/0; pues entrareis en TRANSFORM/RECODE/IN DIFFERENT VARIABLE y una vez en el cuadro de diálogo vais

Gema Vega 19

escogiendo HTA y le dais el nuevo nombre que puede ser por ejemplo HTAN (de numérica) y le ponéis la etiqueta "HTA en números" y le dais al CHANGE. Luego escogéis DM y le dais el nuevo nombre DMN y ponéis la etiqueta "DM numérica" y así con las otras dos ACV-->ACVAN y CI-->CIN y CHANGE cada vez. Veréis que en la ventana se van quedando las órdenes de crear las nuevas variables. Ahora hay que darle la orden del cambio, de la recodificación. Para ello entramos en OLD AND NEW VALUES y ponemos que al old value "S" le corresponde el new value 1 y hacemos clic en ADD, comprobando que la orden aparece reflejada en la ventana de abajo. Posteriormente ponemos que el old value "N" le corresponde el new value 2 y volvemos a dar a ADD. Antes de cerrar la ventana de diálogo con CONTINUE, decimos que queremos pasar las variables de string a numéricas (abajo a la derecha). AUTOMATIC RECODE Cambia los valores de una variable (numérica o alfanumérica) por valores numéricos consecutivos y asigna los valores de la variable recodificada a una nueva variable. No hace falta darle formato, siempre empieza a codificar desde el número 1 y siempre arrastra las etiquetas que hubiera en el "old value" de la variable original. Por ejemplo imaginaros que tenemos una variable con las distintas provincias españolas, pero codificadas por el código postal y a cada código se le puso su etiqueta del nombre de la provincia correspondiente. Si recodificamos esta variable de forma automática aparecerá una nueva variable desde el valor 1 hasta el total de provincias y a cada valor mantendrá la etiqueta del nombre de la provincia.

COUNT Cuenta el número de veces que se presenta un valor o un conjunto de valores en una lista de variables y asigna el valor del recuento a una nueva variable. Las variables generadas mediante esta orden se inicializan con el valor "0", a diferencia de las variables numéricas generadas con COMPUTE y AUTORRECODE, que se inicializan con el valor system missing. Vamos a poner un ejemplo que me parece que no os habéis enterado de nada. Imaginaros que tenemos 6 variables que expresan distintos hábitos de salud, tres hábitos positivos y 3 negativos. Los positivos serán H1(Práctica de deporte), H2 (Dieta equilibrada) y H3 (Descanso regular), estas variables son categóricas, pero están codificadas como numéricas con valores 0(nunca), 1(Ocasionalmente) y 2(Habitualmente). Los 3 hábitos negativos son H4 (Consumo de alcohol), H5 (Consumo de cafeína) y H6 (Consumo de Tabaco), para estas variables que también son categóricas, pero que también están codificadas como numéricas, los valores 0,1 y 2 corresponden a Nulo (0), Moderado (1) y Alto (2). Pues bien, hemos recogido estos 6 hábitos de salud y ahora nos interesa saber en general cuantos practican hábitos positivos habitualmente, cuantos ocasional o habitualmente y cuantos no han contestado a las preguntas de los seis hábitos en general, por ejemplo. Para ello creamos tres nuevas variables (HPOS_H, HPOS_OH y HPOS_M) y daremos la siguiente orden: COUNT HPOS_H= H1 TO H3 (3). COUNT HPOS_OH= H1 TO H3 (2,3). COUNT HPOS_M= H1 TO H6 (MISSING). Hay que tener cuidado al dar la orden COUNT con los valores missing de las variables de donde se quieren contar los resultados, pues al hacer count esta orden no crea missing aunque lo sean.

Gema Vega 20

RESUMEN DE INSTRUCCIONES Y MENUS DE LA LECTURA DE DATOS, DEFINICION DE VARIABLES Y CREACION DE ARCHIVOS SPSS: INSTRUCCION MENU DATA LIST File /Read ASCII GET TRANSLATE File / Open / Data LIST Statistics /Summarize / List Cases VARIABLE LABEL Data /Define Variable VALUE LABEL Data /Define Variable MISSING VALUES Data /Define Variable DISPLAY DICTIONARY Utilities / File Info SAVE File / Save as (tipo SPSS) GET FILE File / Open / Data (tipo SPSS) APPLY DICTIONARY File / Apply Data Dictinary TITLE,SUBTITLE Utilities / Output Page Titles

RESUMEN DE INSTRUCCIONES Y MENUS:TRANSFORMACION DE DATOS INSTRUCCION MENU COMPUTE Transform / Compute FORMATS Data / Define Variables RECODE Transform / Recode AUTORECODE Transform / Automatic Recode COUNT Transform / Count

Gema Vega 21

ESTADÍSTICA DESCRIPTIVA

CUANTITATIVA Como ya sabeis, las variables cuantitativas vienen definidas por la "n", una medida de centralización y una medida de dispersión. Dentro de las medidas de centralización dijimos que la mejor es la media, siempre y cuando la variable se distribuyera como una distribución normal de campana de Gauss; pero que también existían otras medidas de centralización como la mediana (el valor que divide la muestra dejando el 50% a cada lado) y la moda (el valor más repetido). Como medidas de dispersión teníamos: el rango, la varianza y la desviación típica (siendo esta última la mejor). Además también podíamos saber si la distribución era simétrica o asimétrica al relacionar la media con la mediana y ver como se distribuían los casos según los percentiles. En la orden STATISTICS/SUMMARIZE/EXPLORE: se examinan los datos con técnicas de "Análisis de datos" entre las que incluyen gráficos, los principales estadísticos de centralización y dispersión, además de los percentiles. Dentro de los gráficos puedes representar la variable como BOXPLOT, histogramas (HISTOGRAM) y como tronco y hojas (STEM-AND-LEAF). También realiza las pruebas de normalidad de Shapiro-Wilks y de Kolmogorov-Smirnov (NPPLOT). No os he hablado de estas pruebas estadísticas, pero simplemente sirven para demostrar que la distribución sigue una distribución normal de Gauss y por tanto podemos atribuirle todas sus propiedades. En estos test la H0 sería que se distribuye según una normal y si la rechazamos con una seguridad >= al 95% (es decir con una probabilidad de equivocarnos menor o igual que el 5% o 0,05), es que estamos demostrando que no se distribuye según una normal y por tanto no podemos manejarla como tal. Esta orden también da la opción de hacer estas funciones pero en submuestras, para ello hay que darle la orden de que te describa por ejemplo la variable edad según los sexos y te dará toda la información que le hayamos pedido para sexo=1 (hombre, por ejemplo) y posteriormente para sexo=0 (mujer).

DESCRIPTIVES Esta orden también se despliega del menú STATISTICS y describe las variables cuantitativas con índices estadísticos. Al acceder a esta ventana existen varias posibilidades: - FORMAT: Donde se puede modificar el formato de la tabla. Cuando la información que se pide sobrepasa una línea en el output de salida, es mejor poner format=serial, pues te expone la información correspondiente a cada variable en varias columnas - MISSING: INCLUDED Incluye los valores missing LISTWISE Excluye del análisis los casos que tengan algún valor missing en cualquiera de las variables especificadas. - STATISTICS: MEAN: media SEMEAN: error estandart de la media STDDEV: desviación standart VARIANCE: varianza KURTOSIS: apuntamiento SKEWNESS: asimetría RANGE: amplitud. Rango MINIMUN: mínimo valor que toma la variable MAXIMUN: máximo valor que toma la variable SUM: suma de todos los valores DEFAULT: media, desv. standart, mínimo y máximo ALL: calcula todos los estadísticos anteriores - SORT: Permite manipular el orden de presentación de la información, en función del nombre de las variables o del valor de los diferentes estadísticos. En ambos casos la ordenación puede ser de tipo ascendente (A) o descendente (D).

Gema Vega 22

CUALITATIVA-CATEGORICA

FRECUENCIES Esta orden es otra opción que da el menú STATISTICS /SUMMARIZE. Se utiliza para las variables cualitativas fundamentalmente, aunque también son útiles para sacar listados de tablas de frecuencias en las variables cuantitativas y además te da la opción de hacer alguna estadística de centralización y dispersión. Con respecto a las variables cualitativas, ordenas los distintos valores y te da las tablas de frecuencias, porcentajes simples, válidos (sin los missing) y los acumulados (bastante útiles) y además te da opciones de representaciones gráficas (tipo diagrama de barras o histograma) CROSSTABS Construye tablas de contingencia que representa la distribución conjunta de dos o más variables categóricas. Se accede a esta orden, nuevamente con el menú STATISTICS/SUMMARIZE. Dentro de la ventana de diálogo tenemos varias opciones: tenemos que elegir la variable que formará las columnas y la que formará las filas. Si elegimos varias, aparecerá una tabla para cada variable de las columnas con cada una de las variables de las filas. Además tenemos distintas opciones para modificar o completar la orden de CROSSTABS: - CELLS: Permite manipular la información que aparece en las casillas de la tabla: tenemos la opción que en la tabla aparezca el valor real de cada casilla (el experimental u observado), el valor esperado (teórico), el porcentaje de filas (la incidencia de enfermedad y no enfermedad en expuestos y no expuestos), el porcentaje de columnas (la prevalencia de exposición y no exposición en enfermos y no enfermos) y el porcentaje del total de casos (probabilidad condicionada). - FORMATS: Permite manipular algunos aspectos relacionados con el formato de la presentación de la tabla. Acordaros que solo podremos cambiar el orden de colocación de los distintos valores que tomen las variables de las filas y no de las columnas que siempre aparecerán en orden creciente de izq. a derecha. Por lo tanto, tenéis que tener muy claro que para poder hallar el Riesgo Relativo bien, en la casilla de arriba a la izquierda de la tabla de 2x2 hay que poner los expuestos enfermos. - STATISTICS: Con esta opción escogemos el estadístico que consideramos para realizar en cada caso. Dentro de las más utilizadas están - CHISQ: Prueba de independencia de ji cuadrado y de tendencia lineal. En tablas de 2x2 efectúa la corrección de Yates (la de sumar o restar 0,5 a la diferencia del numerador de la ecuación de la ji cuadrado (O - E)2/E ¡os acordabais! ¿no?) y, en caso de que fuera necesario aplicar también da los resultados del test exacto de Fischer (cuando al menos el 20% de las celdas tienen un valor esperado igual o inferior a 5, ¡os acordabais también! ¿no?) - CORR: coeficiente de correlación de Pearson (r) y de Spearman, para dos variables medidas en escalas de intervalo. - KAPPA: coeficiente de correlación de Kappa: para variables que tengan las mismas categorías. - RISK: Cálculo del riesgo relativo y de la odds ratio en las tablas 2x2. ¡Acordaros que para que salgan bien los resultados en la casilla de arriba a la izquierda tienen que estar los expuestos y enfermos (incidencia de expuestos). Para que os salga bien tenéis que codificar correctamente las variables. También nos aporta el intervalo de confianza al 95% (IC95%) de estos dos parámetros que, aunque estoy casi segura de que sabéis lo que significa, os lo voy a repetir sin que os ofendáis por ello. El IC95% del RR por ejemplo, significa que aunque en la muestra nos haya salido un RR con un valor "X", en la población podemos asegurar con una seguridad del 95% que el valor no será seguro el "X" pero que estará comprendido en ese intervalo IC95%.

Para las variables con varias categorías de niveles distintos de exposición se debe de hacer la ji cuadrado de tendencia (que si es estadísticamente significativo quiere decir que además de existir

Gema Vega 23

una relación entres esas variables, la proporción de expuestos y enfermos aumenta según va aumentando el nivel de exposición) y los riesgos relativos entre los distintos niveles de exposición teniendo una categoría como nivel de referencia que normalmente es la categoría con exposición nula o de menor exposición). Esto no lo da el programa y hay que construir varias tablas de 2x2 con cada nivel de exposición y el de referencia para hacer los RR de dos en dos. (Insisto tener en cuenta que arriba a la izquierda tienen que aparecer los expuestos y enfermos, o por el contrario el RR que os de no es el correcto). Todo esto os lo hace el EPIINFO más cómodamente. ¡Os lo recomiendo!

RELACION ENTRE UNA VARIABLE CUALITATIVA Y UNA CUANTITATIVA

COMPARACIÓN DE MEDIAS En este caso estamos midiendo una misma variable cuantitativa (la edad por ejemplo) en dos submuestras distintas (según el sexo: mujeres/hombres) y lo que queremos saber es si la media de esa variable es distinta en cada una de las submuestras (si la edad media de los hombres es distinta de la edad media de las mujeres). Para ello primero tenemos que saber si dicha variable se comporta como una distribución normal de Gauss y así saber si tenemos que hacer test paramétricos o no paramétricos. La comprobación de la normalidad lo hacemos a través de dos ventanas de diálogo: - STATISTISC/SUMMARIZE/EXPLORE: donde nos da la posibilidad de ver por gráficos la distribución de la dicha variable según las submuestra de las categorías de otra variables (la distribución de la edad según sean mujeres o hombres) y los estadísticos oportunos (Kosmogorov-Smirnov y Shapiro-Wilks) -STATISTICS/NPARAMETRICS/K-S: donde podemos hacer la prueba de Kosmogorov-Smirnov de la edad, pero previamente tendremos que seleccionar las distintas categorías con SELECT CASES (los hombres por un lado y las mujeres por otro).

Gema Vega 24

CLASIFICACION DE LOS PROCEDIMIENTOS SPSS DE DESCRIPCION DE VARIABLES

¡Error! Marcador no definido.

CATEGORICAS CUANTITATIVAS

EN LA MUESTRA TOTAL FRECUENCIES EXAMINE; DESCRITIVES

EN SUBMUESTRAS CROSSTABS EXAMINE ..BY..; MEANS

Manual SPSS

Documents