-
Lloren Badiella. Director del Servei dEstadstica Aplicada Anabel
Blasco. Asesora estadstica del Servei dEstadstica Aplicada
Ester Boixadera. Asesora estadstica del Servei dEstadstica
Aplicada Anna Espinal. Asesora estadstica del Servei dEstadstica
Aplicada Oliver Valero. Asesor estadstico del Servei dEstadstica
Aplicada Ana Vzquez. Asesora estadstica del Servei dEstadstica
Aplicada
Manual de Introduccin a Deducer: una interfaz
grfica para usuarios de R
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
2 de 73
Manual de Introduccin a Deducer
Servei dEstadstica Aplicada Universitat Autnoma de Barcelona
Campus UAB - Edifici D
08193 Cerdanyola del Valls (Barcelona)
Tel. 93.581.13.47 [email protected]
http://serveis.uab.cat/estadistica
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
3 de 73
Publicado por el Servei dEstadstica Aplicada de la UAB 3 edicin,
Noviembre 2013 Este documento puede ser copiado y libremente
distribuido, siempre y cuando sea preservada su integridad,
referenciado su origen y comunicado su uso al Servei dEstadstica
Aplicada de la UAB. No est permitido aadir, borrar o cambiar
ninguna de sus partes, o extraer pginas para su uso en otros
documentos.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
4 de 73
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
5 de 73
CONTENIDOS
1 PRESENTACIN
...............................................................................................
72 INTRODUCCIN A DEDUCER
......................................................................
92.1 Ventanas de trabajo
.............................................................................................................
92.1.1 LA CONSOLA
..............................................................................................................
92.1.2 EL VISOR DE DATOS
.............................................................................................
102.2 Crear y abrir ficheros
.........................................................................................................
112.2.1 CREAR UNA NUEVA BASE DE DATOS
.......................................................... 112.3
Importar bases de datos
....................................................................................................
152.3.1 IMPORTAR DATOS DE TEXTO
.........................................................................
152.3.2 IMPORTAR FICHEROS DE EXCEL
...................................................................
162.3.3 IMPORTAR FICHEROS DE SPSS
........................................................................
162.4 Guardar bases de datos
.....................................................................................................
163 GESTIN DE BASES DE DATOS
...................................................................
173.1 Recodificar variables
.........................................................................................................
173.2 Fundir archivos
..................................................................................................................
183.2.1 AADIR CASOS
........................................................................................................
193.2.2 AADIR VARIABLES
.............................................................................................
203.3 Transformar variables
.......................................................................................................
214 VALIDACIN DE LA BASE DE DATOS
....................................................... 225 ANLISIS
DESCRIPTIVO
...............................................................................
235.1 Introduccin
.......................................................................................................................
235.2 Estadsticos resumen
.........................................................................................................
235.2.1 VARIABLES CUALITATIVAS
...............................................................................
245.2.2 VARIABLES CUANTITATIVAS
...........................................................................
265.3 La representacin grfica ms adecuada
........................................................................
295.3.1 VARIABLES CUALITATIVAS
...............................................................................
305.3.2 VARIABLES CUANTITATIVAS
...........................................................................
335.4 Medidas de asociacin
......................................................................................................
355.4.1 DOS VARIABLES CUALITATIVAS
.....................................................................
365.4.2 DOS VARIABLES CUANTITATIVAS
.................................................................
396 INFERENCIA PARA UNA POBLACIN
...................................................... 426.1
Introduccin
.......................................................................................................................
426.2 Variables aleatorias
............................................................................................................
436.3 Estimacin de parmetros
................................................................................................
446.3.1 ESTIMACIN PUNTUAL
......................................................................................
456.3.2 INTERVALOS DE CONFIANZA
.........................................................................
466.4 Pruebas de hiptesis
..........................................................................................................
496.5 Relacin entre IC y Test de hiptesis
.............................................................................
516.6 Pruebas de normalidad
.....................................................................................................
51
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
6 de 73
7 INFERENCIA PARA DOS POBLACIONES
.................................................. 537.1
Introduccin
.......................................................................................................................
537.2 Comparar medias
...............................................................................................................
547.2.1 MUESTRAS INDEPENDIENTES
........................................................................
547.2.2 PRUEBA DE IGUALDAD DE VARIANZAS
.................................................... 567.2.3
INFERENCIA NO PARAMTRICA
....................................................................
577.2.4 MUESTRAS RELACIONADAS
.............................................................................
587.3 Variables categricas
.........................................................................................................
598 INFERENCIA PARA K POBLACIONES
......................................................... 618.1
Introduccin
.......................................................................................................................
618.2 Comparar medias
...............................................................................................................
618.2.1 MUESTRAS INDEPENDIENTES: PRUEBA ANOVA
................................... 618.2.2 PRUEBA DE HOMOGENEIDAD
DE VARIANZAS ..................................... 658.2.3
COMPARACIONES MLTIPLES 2 A 2
..............................................................
668.2.4 INFERENCIA NO PARAMTRICA: PRUEBA DE KRUSKAL-WALLIS..
688.2.5 MUESTRAS RELACIONADAS
.............................................................................
698.3 Variables categricas
.........................................................................................................
709 RESUMEN METODOLGICO
.......................................................................
7110 BIBLIOGRAFA
................................................................................................
73
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
7 de 73
1 PRESENTACIN Este manual de introduccin a Deducer pretende ser
una primera aproximacin al uso del programa R para aquellas
personas que deseen adquirir conocimientos de Estadstica, y que
deseen introducirse en el uso de este software para aplicarlo en su
rea de conocimiento y trabajo. Deducer es un programa libre diseado
como alternativa al software comercial para el anlisis de datos
tales como SPSS, JMP y Minitab. Cuenta con un sistema de mens para
gestionar y manipular bases de datos y analizarlos, y un editor de
datos tipo excel para ver y editar bases de datos. El objetivo del
proyecto es doble:
1. Provee una interfaz grfica para usuarios de R (GUI) para la
investigacin, alentando a los usuarios no tcnicos para aprender y
realizar anlisis sin necesidad de conocer el lenguaje de
programacin de R.
2. Aumentar la eficiencia de los usuarios expertos de R al
realizar las tareas comunes mediante la sustitucin de cientos de
combinaciones de teclas con unos pocos clics del ratn, adems de
permitir utilizar el lenguaje de programacin.
Aade la funcionalidad de la interfaz grfica para llevar a cabo
las siguientes tareas:
o Cargar datos de varios formatos (txt, CSV, SPSS, etc.). o
Visualizar los datos y los tipos de variables en el visor de datos
por separado. o Realizar transformaciones de los datos
(recodificacin, editar funciones,
transformaciones, transponer, fusionar).
o Anlisis estadstico (comparacin de medias, tablas de
contingencia, anlisis de regresin).
o Una interfaz grfica de usuario para la creacin de grficos
utilizando el paquete de ggplot2.
El programa se puede descargar gratuitamente desde la pgina web
de Deducer: http://www.deducer.org Seleccionar el sistema operativo
(Windows, MacOS X o Linux) y seguir las instrucciones
correspondientes.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
8 de 73
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
9 de 73
2 INTRODUCCIN A DEDUCER
2.1 Ventanas de trabajo El programa est estructurado en dos
ventanas diferentes:
La consola: Esta ventana recoge todos los mens para trabajar con
los datos y realizar los anlisis estadsticos, y donde se vern los
resultados de los anlisis. Tambin se pueden introducir los comandos
manualmente.
El visor de datos: Deducer proporciona un editor de datos
parecido a una hoja de clculo de Excel muy fcil de usar, donde se
pueden ver y editar los datos y las variables con los que vamos a
trabajar.
2.1.1 La consola Al abrir el programa la consola o ventana de
comandos de R carga todos los paquetes necesarios para el anlisis
de los datos:
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
10 de 73
Los paquetes son colecciones de funciones de R, datos, y cdigo
compilado en un formato definido. Se pueden instalar ms paquetes
desde el men Packages & Data Package Manager.
2.1.2 El visor de datos El visor de datos permite crear una
nueva base de datos (New Data), abrir una base de datos (Open Data)
o consultar el tutorial:
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
11 de 73
2.2 Crear y abrir ficheros Para analizar datos lo primero es
crear o abrir un archivo de trabajo. Se pueden introducir datos
creando una nueva base de datos e introduciendo los datos
manualmente, abriendo un fichero de R existente o importando un
fichero procedente de otra aplicacin.
2.2.1 Crear una nueva base de datos Para comenzar a introducir
datos se puede seleccionar la opcin New Data e indicarle el nombre
que tendr la nueva base de datos:
Existen diversas formas de introducir datos:
o Crear nuevas filas y columnas e introducir datos manualmente.
o Copiar datos de otras aplicaciones y pegarlas en la tabla. o
Importar datos de otras aplicaciones.
Si hay varias bases de datos cargadas en la sesin de R se pueden
visualizar seleccionndolas desde la lista de Data Set. Se pueden
cargar datos en la sesin de R haciendo clic en el botn Open Data en
la esquina superior izquierda, se pueden guardar con el botn Save
Data o se pueden cerrar haciendo clic en Remove from Workspace. El
Visor de datos dispone de dos pestaas: Vista de datos (Data View) y
Vista de variables (Variable View).
Vista de datos: est dividida en columnas y filas dando lugar a
celdas o casillas donde se recogen los datos. Cada columna tiene
asignado un nombre de variable, ya sea especificado por el usuario
o bien por el propio programa. Las filas, a su vez, estn numeradas
de forma correlativa.
Al hacer clic en las filas o en las columnas se pueden insertar,
copiar y borrar filas o columnas respectivamente.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
12 de 73
Vista de variables: recoge las caractersticas de las variables
(columnas). Informa sobre el Nombre de la variable, el Tipo
(Numrico, Cadena, Fecha,..), y etiquetas para los valores de las
variables categricas (Factor Levels).
Observacin: los nombres de las variables no pueden tener acentos
ni espacios.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
13 de 73
2.2.1.1 Tipos de variables Las variables tal y como hemos dicho
definen las columnas del fichero de datos y son caractersticas de
los individuos. Pueden ser diferenciadas segn:
o Cualitativas o Categricas: etiquetas (numrica o no) que
representan el grupo o categora a la cual pertenece un individuo.
Se puede diferenciar entre nominales (por ejemplo el sexo) y
ordinales (nivel de estudios).
o Cuantitativas: valores numricos para los que tiene sentido
realizar aritmtica. Se puede diferenciar entre continuas (ndice de
masa corporal) y discretas (nmero de hijos).
El paquete estadstico Deducer clasifica las variables en:
o Character: variables de cadena (texto) o Factor: variables
categricas (nominales u ordinales) o Double: variables
cuantitativas continuas o Integer: variables cuantitativas
discretas o Logical: variables lgicas o Date: variables de fecha o
Time: variables de tiempo
Los niveles de las variables categricas (factores) se muestran
en la columna Factor Levels, y se pueden editar haciendo clic en la
celda apropiada:
Cuando las categoras de la variable (Levels) puedan tomar
distintos valores ordenados siguiendo una escala establecida
(variable ordinal) marcaremos la casilla Ordered.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
14 de 73
Ejercicio Crear una base de datos con la siguiente
informacin:
Cuestionario En estos estudios es fundamental la opinin y la
participacin del personal implicado. Es por eso, que os pedimos que
rellenis esta encuesta (vuestros datos personales sern
confidenciales).
1. Nombre ___________________
2. Sexo Hombre Mujer
3. Ao de nacimiento ____________
4. Nivel de estudios
Sin estudios Estudios secundarios Estudios primarios Estudios
superiores NS/NC
5. Est trabajando en la actualidad?
S No NS/NC
6. En caso de haber contestado negativamente la pregunta
anterior, recibe alguna prestacin por desempleo?
S No NS/NC
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
15 de 73
2.3 Importar bases de datos Podemos abrir una base de datos
utilizando el men File Open Data. Con esta opcin podemos abrir
datos que se encuentren en formato de R, en formato texto u otros
tipos de formato como por ejemplo Excel o SPSS. Observacin: la ruta
fsica donde se encuentran los ficheros de datos no puede contener
acentos.
2.3.1 Importar datos de texto Al seleccionar la opcin Text file
(.txt) aparece la siguiente ventana donde podemos especificar qu
carcter separa las variables (tabulador, espacio, coma...), si hay
un delimitador especfico para las variables de cadena (Quote) y si
el fichero incluye los nombres de las variables (Header).
Observacin: en Deducer el separador de decimales es el
punto.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
16 de 73
2.3.2 Importar ficheros de Excel Para importar directamente
archivos de Excel debemos tener instalado el paquete XLConnect.
Como solucin alternativa debemos abrir el archivo en Excel y luego
usar "Guardar como" para crear un archivo de tipo CSV (delimitado
por comas).
2.3.3 Importar ficheros de SPSS Al seleccionar un fichero de
SPSS (.sav) la base de datos se abre automticamente. Las variables
que tienen etiquetas definidas se guardan como factores. Ejercicio
Abrir los ficheros ADL1.txt, ADL2.xls y ADL3.sav. El fichero ADL1
contiene informacin sobre 70 pacientes que han tenido una accidente
cerebrovascular. El fichero ADL2 contiene la misma informacin sobre
30 pacientes que han sido ingresados en otro centro. El fichero
ADL3 contiene informacin adicional sobre los mismos pacientes.
2.4 Guardar bases de datos Las bases de datos pueden ser
guardadas en los siguientes formatos:
o R workspace (extensin .rda y .rdata) o R object (extensin
.robj) o Comma seperated (extensin .csv) o Tab delimited (extensin
.txt) o DBase (extensin .dbf) o Stata (extensin .dta) o ARFF
(extensin .arff)
Tambin podemos guardar todas las bases de datos abiertas en un
solo archivo utilizando el men Workspace Save as
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
17 de 73
3 GESTIN DE BASES DE DATOS El men Data permite gestionar y
manipular las bases de datos. En particular permite editar los
factores de las variables categricas, recodificar y transformar
variables, ordenar y transponer bases de datos, fundir archivos y
seleccionar un subconjunto de datos.
3.1 Recodificar variables Recodificar una variable consiste en
asignar una nueva codificacin a sus valores originales, o agrupar
rangos de valores existentes en nuevos valores, de manera que se
modifica su codificacin original. Las variables se recodifican
desde el men Data Recode Variables. Se pueden recodificar en las
mismas variables o en variables nuevas (Target).
En la pestaa Define Recode podemos definir cmo queremos hacer la
recodificacin:
El panel de la izquierda muestra informacin sobre las variables
que puede ser til para la recodificacin. Para las variables
numricas se muestra una tabla de percentiles y para las variables
categricas una tabla de frecuencias.
En el panel de la derecha (Code) se especifica la
recodificacin.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
18 de 73
Un valor se puede recodificar como dato faltante (missing)
indicando NA en el campo correspondiente.
3.2 Fundir archivos Podemos encontrarnos en la situacin de tener
recogidos los datos en bases diferentes y deseamos unificar toda
esta informacin en una sola. Se pueden dar dos situaciones:
Los individuos (filas) estn en bases diferentes, o bien
Las variables (columnas) estn en bases de datos diferentes.
En ambos casos lo que se pretende hacer es fusionar los
archivos. En el primer caso se aadirn nuevas filas de individuos.
Para ello es necesario que el nuevo individuo tenga las mismas
caractersticas (variables) que el resto de individuos. En caso
contrario se imputar un valor perdido en aquellas variables en las
que difiera. En el segundo caso se crearn nuevas columnas de datos.
Si las nuevas columnas son de diferente longitud a las ya
existentes, se rellenar los espacios en blanco con valores
faltantes (missings) hasta obtener una matriz de datos
rectangular.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
19 de 73
3.2.1 Aadir casos Consiste en combinar archivos que contienen
las mismas variables pero casos diferentes. A partir del men Data
Merge Data podemos seleccionar las dos bases de datos que queremos
combinar (tienen que ser bases de datos abiertas).
La siguiente pantalla nos indica las variables que aparecen en
las dos bases de datos y las que estn desemparejadas. La opcin
Auto-Pair nos permite emparejar variables que no tienen el mismo
nombre. Para aadir casos debemos seleccionar todas las variables
comunes y ponerlas en el recuadro Match Cases By.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
20 de 73
Observacin: las variables que aparecen en las dos bases de datos
tienen que ser del mismo tipo.
3.2.2 Aadir variables Para aadir variables resulta interesante
tener una variable que sirva de identificador dentro de cada base
de datos. A partir del men Data Merge Data podemos seleccionar las
bases de datos que vamos a fusionar, el nombre de la nueva base de
datos y en la siguiente ventana indicar cul es nuestra variable
clave:
Identificacin de variables comunes en las dos bases de datos
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
21 de 73
3.3 Transformar variables El men Data Transform proporciona una
gran variedad de opciones para transformar y reescalar
variables:
o Center: Reescala las variables para que tengan media 0. o
Standardize: Reescala las variables para que tengan media 0 y
desviacin estndar 1. o Robust Standardize: Reescala las variables
para que tengan media 0 y desviacin
absoluta mediana 1.
o Range: Transforma la variable para que tome valores entre 0 y
1. o Box-cox: Transforma la variable para intentar obtener una
distribucin normal. o Rank: Reemplaza los valores por su rango. o
Log: Devuelve el logaritmo neperiano (para valores mayores que 0).
o Square root: Devuelve la raz cuadrada. o Absolute value: Devuelve
el valor absoluto. o Quantiles: Divide la variable en grupos con el
mismo nmero de observaciones. o Equal width: Divide la variable en
grupos con intervalos de la misma amplitud. o Custom: Permite
definir transformaciones personalizadas.
Parte relativa a la Base de
Datos ADL2Parte relativa a la Base de
Datos ADL1
Variable identificadora
de casos
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
22 de 73
4 VALIDACIN DE LA BASE DE DATOS Antes de realizar cualquier
anlisis hace falta hacer un ejercicio de validacin de la base de
datos.
En primer lugar hace falta detectar si hay variables que toman
el mismo valor para todos los individuos, as como variables que no
contienen valores.
En segundo lugar hace falta detectar posibles errores en las
variables, esto quiere
decir encontrar rangos de valores y algunos estadsticos
descriptivos para las variables cuantitativas, y tablas de
frecuencias para las variables cualitativas.
Finalmente hara falta validar la consistencia interna de los
datos. As, por
ejemplo, en datos de encuesta es validar la congruencia de las
respuestas en el sentido que si un individuo responde una
determinada opcin en una pregunta, entonces slo puede responder
unas opciones concretas de otras.
Para poder llevar a cabo este proceso hace falta conocer bien la
encuesta de donde provienen los datos. Ejercicios Ajuntar las bases
de datos ADL1, ADL2 y ADL3 en una misma base de datos (ADL123) y
validar la nueva base de datos. Definir correctamente el tipo de
variables en la pestaa Type de Variable View y crear etiquetas para
las variables categricas:
o Hospital (A y B) o Group (1=Control, 2=Treatment) o Gender
(1=Male, 2=Female) o Risc factors (1=Yes, 2=No)
Crear una variable indicadora del nmero de factores de riesgo
por individuo.
Cdigo en R para generar la variable nmero de factores de
riesgo:
ADL123$ RiskFactors
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
23 de 73
5 ANLISIS DESCRIPTIVO
5.1 Introduccin Plantearse algunas preguntas preliminares puede
ayudar a distinguir qu tiene sentido y qu no:
Conocer la fuente de donde provienen los datos nos puede
informar de su calidad.
Saber si la informacin de que disponemos es completa en el
sentido que sea posible extraer conclusiones y no slo impresiones.
La base de datos ms fina puede inducir a error si no estn
actualizados los posibles cambios de medida en la obtencin de los
datos.
Plantear qu pueden ilustrar los datos.
La ESTADSTICA DESCRIPTIVA es un conjunto de mtodos e ideas para
organizar y describir los datos mediante grficos y medidas de
resumen numricas.
5.2 Estadsticos resumen Como hemos visto en los apartados
previos, las variables pueden ser diferenciadas segn:
o CUALITATIVAS o CATEGRICAS
o CUANTITATIVAS Las variables tambin las clasificamos en funcin
del papel que tenga en el anlisis:
o Variable Respuesta (variable de inters, Y). Mide el resultado
del estudio.
o Variables Explicativas (X). Variables de control que
contribuyen a explicar su comportamiento.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
24 de 73
5.2.1 Variables cualitativas Para resumir una variable
cualitativa o cuantitativa de valores enteros utilizaremos las
Tablas de Frecuencias.
El nmero de veces que se repite un valor en una variable es la
frecuencia absoluta, fa. Si n es el total de individuos, entonces
fa / n es su frecuencia relativa.
La frecuencia acumulada es la suma de frecuencias absolutas
hasta un
determinado valor una vez ordenados de forma creciente los
valores de la variable (ordinal o cuantitativa con valores
enteros).
La distribucin de una variable es el conjunto de valores
juntamente con sus frecuencias (absolutas o relativas). En Deducer
podemos obtener las frecuencias a travs del men Analysis
Frequencies:
El botn de opciones permite modificar el nmero de dgitos para
los porcentajes que aparecern en los resultados (el valor
predeterminado es una cifra decimal).
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
25 de 73
Tras aceptar los resultados aparecen en la consola en formato de
texto: $group
------------------------------------------------------------ --
Frequencies -- -- -- Value # of Cases % Cumulative % 1 Control 46
46 46 2 Treatment 54 54 100 -- -- -- Case Summary -- -- -- Valid
Missing Total # of cases 100 0 100 -- --
------------------------------------------------------------ Para
cada variable seleccionada obtenemos la tabla de frecuencias con
las frecuencias absolutas (# of Cases) y relativas (%) y las
frecuencias absolutas acumuladas (Cumulative %). Tambin aparece una
tabla resumen con el nmero total de casos vlidos y de valores
perdidos (missing). Por defecto el formato de los resultados no es
fcilmente exportable. Es aconsejable instalar el paquete Deducer
Richoutput que genera resultados en formato HTML. Para instalar
este paquete ejecutar el siguiente cdigo:
install.packages("DeducerRichOutput",
repos="http://R-Forge.R-project.org") y cargar el paquete desde el
men Package Manager.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
26 de 73
5.2.2 Variables cuantitativas Para las variables cuantitativas,
en las que puede haber un gran nmero de valores observados
distintos, se ha de optar por un mtodo de anlisis distinto,
respondiendo a las siguientes preguntas:
1. Alrededor de qu valor se agrupan los datos?
2. Supuesto que se agrupan alrededor de un nmero, cmo lo hacen?
muy concentrados? muy dispersos?
5.2.2.1 Medidas de localizacin Se utilizan para resumir las
caractersticas ms relevantes de los datos. Podemos utilizar:
o Media ( X ): centro de masas o Mediana: punto medio o Moda: el
valor ms repetido
La media se sita en el punto de equilibrio del histograma de una
variable cuantitativa: La Media y la Mediana coinciden si la
distribucin es simtrica. Si no coinciden, es preferible la mediana
(es menos sensible a datos extremos). Otras medidas de resumen son
los Cuartiles, tres valores que dividen la distribucin en cuatro
partes.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
27 de 73
5.2.2.2 Medidas de dispersin Sirven para resumir la dispersin.
Las ms habituales son:
o Rango = max min o Rango Intercuartil = Q3 Q1 o Varianza (S2):
una medida de la dispersin entorno de la media. o Desviacin estndar
(S)
Otra medida que se suele utilizar es el coeficiente de variacin
(CV). Es una medida relativa de variabilidad. Se define para
variables cuantitativas no negativas como el cociente entre la
desviacin estndar y la media:
XSCV
Este coeficiente es invariante para cambios de escala. En
Deducer podemos obtener los estadsticos de resumen a travs del men
Analysis Descriptives:
En el recuadro Stratify By podemos indicar una variable
categrica para obtener los estadsticos para cada una de las
categoras de esta variable.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
28 de 73
Al hacer clic en Continue aparece una nueva ventana donde
podemos seleccionar los estadsticos deseados:
En caso de desear un estadstico que no aparece en la lista se
puede solicitar mediante programacin en la pestaa Custom. Ejemplo:
Funcin para calcular el Coeficiente de Variacin (CV).
Observacin: Las funciones personalizadas no funcionan cuando
tenemos activado el DeducerRichOutput.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
29 de 73
5.3 La representacin grfica ms adecuada Los grficos se
encuentran en el men Plots. La manera ms sencilla de representar
grficos es a partir del generador de grficos (Plot Builder). Al
seleccionar esta opcin aparece una ventana interactiva que nos
permite ver una presentacin preliminar del aspecto que tendr un
grfico. Desde el mismo generador de grficos se pueden guardar los
grficos a partir del men File Save. Tambin se pueden crear Nuevas
plantillas (Templates) para ser compartidas entre usuarios sin la
necesidad de hacer ningn tipo de codificacin. Observacin: Es
recomendable tener instalado el paquete ggplot2 para poder acceder
a una mayor variedad de templates. Algunos de los grficos se pueden
construir de manera interactiva a travs del men Plots Interactive.
Este tipo de grficos permite editar algunos aspectos de grfico
(colores, ejes, etc.) de forma interactiva.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
30 de 73
5.3.1 Variables cualitativas Se representan las frecuencias o
porcentajes de las diferentes categoras. Se pueden utilizar
diagramas de barras o grficos de sectores.
5.3.1.1 Diagrama de barras A partir del generador de grficos
(Plot Builder) podemos seleccionar el tipo de grfico deseado:
Al seleccionar el grfico de barras se abre una nueva ventana
donde indicaremos la variable categrica que queremos representar.
El grfico de barras para la variable travel es el siguiente:
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
31 de 73
Si utilizamos el men de grficos interactivos podremos convertir
el grfico resultante en un grfico de espinas (spine plot):
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
32 de 73
5.3.1.2 Grficos de sectores En un grfico de sectores el rea de
cada sector es proporcional a su frecuencia. Este tipo de grfico no
se puede obtener de manera automtica en la versin de Deducer para
Windows, pero s mediante cdigo:
slices
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
33 de 73
5.3.2 Variables cuantitativas Para las variables cuantitativas
se describe el patrn general de la distribucin de las variables y
permiten detectar outliers.
5.3.2.1 Histograma El histograma permite representar variables
cuantitativas una vez agrupados los valores en clases. Representa
las frecuencias y las clases de una variable cuantitativa. Las
clases deben formar un sistema exhaustivo y excluyente. Al
seleccionar la opcin histogram del generador de grficos (o a partir
del men Plot Proc Templates Histogram) obtenemos la siguiente
representacin de la variable edad:
Seleccionando la opcin simple dotplot obtenemos un grfico
similar donde las barras del histograma estn formadas por
bolas.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
34 de 73
5.3.2.2 Diagrama de caja Un diagrama de caja es un grfico basado
en los valores mnimo y mximo y los cuartiles (Q1, Q2 o mediana y
Q3). Informa sobre la existencia de valores atpicos y la simetra de
la distribucin:
5.3.2.3 Grfico de serie temporal Un grfico de serie temporal
representa la evolucin de una variable a lo largo del tiempo. Para
una mejor interpretacin en grficos de series temporales es mejor
poner la variable temporal en el eje horizontal:
Mnimo
Mximo
Mediana
Q1
Q3
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
35 de 73
5.4 Medidas de asociacin El principal objetivo cuando se tienen
dos o ms variables est en medir la posible asociacin entre ellas.
La relacin Causa-Efecto Muchas veces es fuente de interpretaciones
errneas de los resultados. En estadstica, generalmente, se busca
analizar si ciertos factores presentan un efecto sobre una
determinada variable respuesta. No siempre se puede asegurar que la
causa de este efecto sea el factor. Ejemplo: Tenemos dos grupos de
personas en situacin de paro. El primer grupo realiza un curso de
formacin y la mayora de ellos consigue un trabajo. En el segundo
grupo no se realiza el curso y la mayora no consigue un trabajo.
Podemos afirmar que hacer el curso mejora las condiciones a la hora
de encontrar trabajo? Depende del entorno de recogida de datos.
Para poder afirmar esta implicacin se necesitara que las dos
muestras fuesen homogneas, en un sentido socio-econmico. Esto es,
ambos grupos deberan ser iguales de emprendedores, con iniciativa y
con un perfil sociolgico similar. Por ejemplo, podra ser el caso
que en el primer grupo todos sus componentes fueran jvenes con
muchas ganas de trabajar; el segundo grupo sin embargo podra estar
formado por personas mayores poco motivadas y sin estudios.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
36 de 73
Establecer una relacin causal no es nada simple. Raramente A es
la causa de B. Fumar, por ejemplo, es slo una causa que contribuye
a desarrollar cncer de pulmn; es una de las causas que aumenta la
probabilidad de cncer. Freedman remarc que las demostraciones
estadsticas de causa-efecto estaban basadas en hiptesis que a
menudo no estaban validadas correctamente. Freedman, D. (1999).
"From Association to Causation: Some Remarks on the History of
Statistics," Statistical Science, 14, 243-258.
5.4.1 Dos variables cualitativas Para variables CUALITATIVAS la
asociacin entre ellas se analiza a partir de la Tabla de
Contingencia (men Analysis Contingency Tables). Ejemplo: relacin
entre el nmero de factores de riesgo y el sexo.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
37 de 73
female male
Marginal fila
0 11 5 16 n1.
1 18 19 37 n2.
2 21 14 35 n3.
3 4 8 12 n4.
Marginal columna 54 46 100
n.1 n.2 N
A partir de esta tabla se definen los perfiles fila y
columna:
o Frecuencia relativa conjunta = nij / n o Perfil fila i = {nij
/ ni. per j=1,..J} o Perfil columna j = {nij / n.j per i=1,..I}
Para obtener estos perfiles debemos seleccionar los porcentajes
fila (Row) o columna (Column) en el botn Cells:
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
38 de 73
Perfil fila
Perfil columna
Representacin grfica: grfico de barras agrupado.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
39 de 73
5.4.2 Dos variables cuantitativas Un primer paso es la
representacin grfica de ambas variables simultneamente. Para
variables CUANTITATIVAS se utiliza el Diagrama de dispersin:
Una medida numrica para la asociacin lineal entre variables
QUANTITATIVAS es el coeficiente de correlacin ():
XX
XY
SSS
donde Sxy es la covarianza entre las variables. El coeficiente
de correlacin mide el grado de asociacin lineal entre
variables.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
40 de 73
Relacin entre los valores del coeficiente de correlacin y el
grfico de dispersin de las variables:
R = 0.00 R = 0.10
X1
13121110987
Y
3
2
1
0
-1
-2
-3
-4
X2
13121110987
Y
3
2
1
0
-1
-2
-3
-4
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
41 de 73
R = 0.20
R = 0.50
R = 0.90
R = 0.99
R = 0.60
R = 0.01
X3
13121110987
Y
3
2
1
0
-1
-2
-3
-4
X4
14121086
Y
3
2
1
0
-1
-2
-3
-4
X5
20100
Y
3
2
1
0
-1
-2
-3
-4
X6
403020100-10-20-30
Y
3
2
1
0
-1
-2
-3
-4
X7
222018161412108
Y
3
2
1
0
-1
-2
-3
-4
X8
222018161412108
Y
3
2
1
0
-1
-2
-3
-4
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
42 de 73
6 INFERENCIA PARA UNA POBLACIN
6.1 Introduccin Despus de llevar a cabo un anlisis descriptivo
de los datos el objetivo es poder generalizar los resultados para
conjuntos ms grandes de individuos as como poder sacar conclusiones
a partir de los datos. La PROBABILIDAD permite calibrar el poder de
nuestras conclusiones. Poblacin: conjunto completo de individuos
para los cuales se desea obtener informacin. Muestra: subconjunto
de individuos de la poblacin para los cuales realmente se obtiene
la informacin de inters. OBSERVACIN: la poblacin est definida a
partir de nuestro deseo de conocimiento. Los resultados obtenidos
en una muestra sern extrapolables a la poblacin de referencia si la
muestra cumple dos caractersticas fundamentales:
Fiabilidad (Precisin): la fiabilidad de una muestra est
vinculada a la precisin de sus resultados, es decir, al tamao de
muestra.
Validez (Sesgo): la validez de una muestra se refiere a que la
muestra no
presente sesgos, es decir errores de medida sistemticos
atribuibles a otra causa distinta del azar.
Un buen diseo del experimento permitir controlar las posibles
fuentes de sesgo y asegurar la validez del estudio.
o Una muestra representativa debe ser fiable y vlida. o No
confundir muestra significativa con muestra representativa. o Una
muestra de 20.000 individuos no tiene porque ser representativa de
nada a no
ser que se compruebe su validez, aunque seguramente sea
suficientemente fiable.
o En una muestra de 10 individuos los resultados sern poco
fiables aunque seguramente la muestra sea suficientemente
vlida.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
43 de 73
La Estadstica es una herramienta que permite describir y
cuantificar las evidencias observadas en una muestra intentando
diferenciar entre lo que podra haber sucedido por azar y lo que
podra atribuirse a otras causas (de inters). Inferir significa
sacar conclusiones de los datos teniendo en cuenta la variacin
debida al azar.
6.2 Variables aleatorias Los datos que habitualmente se analizan
provienen de un experimento aleatorio:
Un experimento aleatorio o estocstico es aquel que bajo las
mismas condiciones puede producir resultados diferentes pero con
una distribucin regular de resultados para un nmero grande de
repeticiones. Un ejemplo de experimento aleatorio es el lanzamiento
de un dado.
Un experimento es no aleatorio o determinista si bajo las mismas
condiciones
siempre conduce a un mismo resultado. Un ejemplo son las frmulas
fsicas: Fuerza = Masa * Aceleracin.
Las variables aleatorias son aplicaciones que transforman los
resultados de un experimento aleatorio en nmeros con el fin de
poder realizar las operaciones ms usuales, luego todos los
resultados de un experimento aleatorio quedan recogidos en una
variable aleatoria. Antes de realizar cualquier inferencia
estadstica es necesario identificar la distribucin de probabilidad
(la forma) de la variable aleatoria que se pretende analizar.
Algunos instrumentos para ello son:
o Histograma, diagrama de caja, rango de la variable. o Grficos
de cuartiles (Q-Q plot) o grfico de probabilidades (P-P plot). o
Pruebas de ajuste a una distribucin (Test de Shapiro Wilk /
Kolmogorov-
Smirnoff).
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
44 de 73
6.3 Estimacin de parmetros Un parmetro es un nmero que describe
una caracterstica de la poblacin. En la prctica los valores de los
parmetros son desconocidos. Un estadstico es un nmero que se
calcula a partir de los datos de una muestra de la poblacin. En la
prctica se utilizan los estadsticos para estimar los parmetros de
la poblacin. Un estimador es cualquier funcin de una muestra, esto
es un estadstico es un estimador puntual. Debemos observar que un
estimador es una variable aleatoria mientras que una estimacin es
un valor del estimador.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
45 de 73
6.3.1 Estimacin puntual Una estimacin puntual es el valor del
estimador dada una muestra concreta. Los estimadores puntuales ms
frecuentemente utilizados son:
o Media muestral:
o Variancia muestral:
o Proporcin: A los estimadores bsicamente se les requiere dos
propiedades:
Sin sesgo, es decir que no se encuentren muy alejados del valor
real del parmetro que estiman, y
de mnima varianza posible, es decir que las distintas
estimaciones estn prximas
entre s.
n
XiX
n
i 1
1
1
2
2
n
XXS
n
ii
p
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
46 de 73
6.3.2 Intervalos de confianza En inferencia estadstica uno de
los instrumentos ms comunes para estimar el valor de un parmetro de
la poblacin son los intervalos de confianza. Un intervalo de
confianza del C% para un parmetro es un intervalo de valores
calculado a partir de los datos de la muestra utilizando un mtodo
que tiene una probabilidad C de que dicho intervalo contenga el
verdadero valor del parmetro. El parmetro poblacional pertenece al
intervalo calculado con una confianza del C%. La media muestral y
la desviacin estndar son buenos estimadores puntuales de la media y
la desviacin estndar de la poblacin. Dado que los datos son las
observaciones de una variable aleatoria, estos estimadores son a la
vez variables aleatorias. Por lo tanto tienen una determinada
distribucin, que en el caso de la media es la distribucin Normal.
As pues podemos calcular un intervalo de valores [a,b] tales que
Grficamente: para una normal tipificada (media = 0 y desviacin =
1), un intervalo de confianza del 95% se puede representar
como:
La probabilidad de que una variable normal tipificada tome
valores en el intervalo [-1.96, 1.96] es del 95%.
cbXaP )(
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
47 de 73
Para realizar inferencia estadstica debemos interpretar los
intervalos de confianza para un parmetro a partir del siguiente
grfico:
Si repetimos el experimento 100 veces o tomamos 100 muestras, en
95 ocasiones el parmetro pertenecer al Intervalo de Confianza del
95% y en 5 ocasiones caer fuera del intervalo. Intervalo de
confianza para la media: Intervalo de confianza para una
proporcin:
,~ NXi
n
Nn
XX
n
i i ,~1
n
Xn
XCI 96.1,96.1:%)95.(.
)(~ pBernoulliYi
pYPpYP
i
i
1)0()1(
npppN
nY
Ypn
i i 1, 1
n
pppn
ppppCI 196.1,196.1:%)95.(.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
48 de 73
Para obtener intervalos de confianza en Deducer debemos
seleccionar el men Analysis One Sample Test y seleccionar el Test
One-sample t-test.
Observacin: Para obtener el intervalo de confianza de una
proporcin debemos instalar el paquete DeducerExtras. Ejercicio
Calcular pos intervalos de confianza para las proporciones de las
variables indicadoras de cada uno de los factores de riesgo.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
49 de 73
6.4 Pruebas de hiptesis Un segundo bloque de instrumentos para
la inferencia estadstica son las pruebas de hiptesis. Estas evalan
la evidencia de una afirmacin sobre la poblacin. En estadstica una
afirmacin sobre la poblacin se plantea en forma de hiptesis de
trabajo. Las dos hiptesis complementarias se llaman: Hiptesis nula
(H0) Hiptesis alternativa o de investigacin (H1) La hiptesis nula
corresponde a la hiptesis que creemos cierta por defecto y la
alternativa corresponde a la hiptesis que se desea probar. Las
hiptesis hacen siempre referencia a los parmetros de la poblacin.
Una prueba de hiptesis es un procedimiento que especifica:
1. Para que valores muestrales la decisin ser no rechazar la
hiptesis nula. 2. Para que valores muestrales la hiptesis nula ser
rechazada a favor de la alternativa.
P-valor: probabilidad que, bajo H0, el estadstico de contraste
tome un valor al menos tan alejado como el realmente obtenido.
Cuanto ms pequeo sea el p-valor mayor es la evidencia en contra
de H0.
Se rechazar la hiptesis nula si el p-valor es menor que el nivel
de significacin adoptado (en general 0,05).
En un contraste de hiptesis, debemos rechazar o no la hiptesis
nula a favor de la
alternativa. Deseamos que nuestra decisin sea correcta, pero a
veces no lo ser. Hay dos tipos de decisiones incorrectas: Rechazar
H0 cuando de hecho es cierta: error de tipo I
NO rechazar H0 cuando realmente es cierta H1: error de tipo II
Observacin: el error de tipo I = nivel de significacin =
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
50 de 73
En siguiente cuadro resume los tipos de errores que se pueden
cometer en un contraste de hiptesis:
El error de Tipo I es ms grave que el error de Tipo II.
Resumiendo, el esquema a seguir es:
Para llevar a cabo un contraste de hiptesis para la media
debemos volver al men anterior y definir como valor de prueba el
valor que deseamos contrastar (botn de opciones del t-test, ).
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
51 de 73
6.5 Relacin entre IC y Test de hiptesis Cuando en una prueba
estadstica se pretende comparar dos medias, el IC proporciona
informacin paralela a la proporcionada por el test de hiptesis
correspondiente. Es necesario que el nivel de confianza sea 1-,
siendo el nivel de significacin del test aplicado.
o Si el IC no contiene el 0, se rechaza H0: Diferencia=0.
o Si el IC no contiene el valor 2, se rechaza H0: Diferencia=2.
NOTA: Esta similitud es aplicable para pruebas T, o basadas en la
distribucin Normal.
6.6 Pruebas de normalidad Para llevar a cabo un contraste de
normalidad debemos seleccionar la prueba de Shapiro-Wilk en el men
de One Sample Test.
El contraste de hiptesis que realiza esta prueba es el
siguiente: H0: la distribucin es Normal H1: la distribucin NO es
Normal En este ejemplo hemos obtenido un nivel de significacin
(p-valor) de 0,001. Si fijamos el lmite en 0,05 rechazaramos la H0
(no podramos considerar que la distribucin de la variable los es
Normal).
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
52 de 73
La sumisin de los investigadores al p-valor La utilizacin
sistemtica del p-valor puede llevar a resultados engaosos. EJEMPLO:
Se quiere analizar la estancia en das de los turistas en Catalunya.
En concreto se desea comparar las estancias de los europeos y los
procedentes de pases asiticos. Un contraste en trminos de las
diferencias se plantea como: H0: d = 0 (no hay diferencia) H1: d 0
El p-valor del test estadstico resulta ser p=0,02, con lo que se
concluye que hay diferencias. Es suficiente? Necesitamos medir el
tamao del efecto realizando un intervalo de confianza para la
diferencia ya que podra ser, por ejemplo, que la diferencia se
situara en el intervalo (0,5 - 1) o bien en el intervalo (10 - 15).
QUE ES UNA DIFERENCIA ESTADSTICAMENTE SIGNIFICATIVA? (en un
contraste de diferencias)
Si se obtiene un p-valor
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
53 de 73
7 INFERENCIA PARA DOS POBLACIONES
7.1 Introduccin La Inferencia Estadstica para dos poblaciones
pretende generalizar los resultados y comparar los datos de una o
diversas variables respuesta medidas en dos muestras, sin tener en
cuenta otras variables (factores de riesgo). Dos muestras
independientes son aquellas para las cuales no existe ningn vnculo
entre ellas. Provienen de poblaciones independientes. Dos muestras
relacionadas son aquellas que se refieren a la misma poblacin y han
medido la misma variable respuesta. PLANTEAMIENTO DEL PROBLEMA En
primer lugar el investigador debe identificar la naturaleza de las
variables que desea estudiar. Es decir:
Variable Respuesta: Distribucin (continua, ordinal,
categrica).
Variable Explicativa: Nmero de grupos o niveles.
As cmo la idoneidad del tipo de prueba: Homogeneidad Basal,
Grupos bien balanceados.
EJEMPLO: Se ha realizado un estudio incluyendo a 100 pacientes
que han tenido una accidente cerebrovascular. Se asigna de forma
aleatoria a los pacientes, a cada uno de los dos tratamientos. Se
desea comparar la estancia de los pacientes en el hospital. Se ha
recogido la siguiente informacin: Grupo de tratamiento, sexo, edad,
das de estancia en el hospital, peso inicial y final, diabetes,
hipertensin, fibrilacin arterial, antecedente cardiovascular, fuma,
presin sistlica elevada, hbitos de viaje, hbitos de cocina y
realiza tareas domsticas.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
54 de 73
7.2 Comparar medias
7.2.1 Muestras independientes Para comparar una variable
respuesta entre dos muestras independientes cuando dicha variable
sigue una distribucin normal se utiliza la prueba T de Student
(T-Test) para muestras independientes. La hiptesis que contrasta
es:
H0: 1= 2 las medias son iguales H1: 1 2 las medias son
diferentes
EJEMPLO (continuacin): Deseamos estudiar hay diferencias entre
la estancia media de los hombres y de las mujeres. En primer lugar
debemos contrastar si podemos asumir que la distribucin de la
variable estancia es Normal (para cada grupo). Para llevar a cabo
estos contrates debemos ir al men Analysis One Sample Test y
seleccionar la prueba de Normalidad. En el recuadro Subset
indicaremos el grupo para el cual queremos realizar el contraste y
repetiremos el anlisis para el resto de grupos.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
55 de 73
Gender==male
Gender==female
No rechazamos la hiptesis nula (p-valor > 0,05) por lo tanto
podemos aceptar que la variable los sigue una distribucin normal en
cada uno de los grupos. EJEMPLO (continuacin): La hiptesis que
deseamos contrastar es:
H0: H= M La estancia en el hospital es igual H1: H M La estancia
en el hospital es diferente
Para llevar a cabo dicha prueba seleccionamos la prueba T-Test
del cuadro de dilogo anterior y obtenemos el siguiente
resultado:
NOTA: La prueba realizada considera que las varianzas son
distintas en los dos grupos. En caso que querer realizar el test
asumiendo que estas son iguales se puede seleccionar la opcin Equal
variance dentro de la pestaa de opciones del T-Test.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
56 de 73
7.2.2 Prueba de igualdad de varianzas Para determinar si las
varianzas son iguales podemos realizar el siguiente contraste de
hiptesis:
H0: 1 = 2 Las variancias son iguales H1: 1 2 Las variancias no
son iguales
EJEMPLO (continuacin): Para llevar a cabo este contrate debemos
ir al men Extras k-sample variance test y seleccionar la prueba de
Levene.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
57 de 73
En caso de no tener el men Extras instalado este debe cargarse
desde el men Packages and Data Package Manager y seleccionar el
paquete DeducerExtras.
7.2.3 Inferencia no paramtrica A la prctica, muchas veces no
podemos aceptar la hiptesis de normalidad en los datos. En estas
situaciones se puede hacer uso de mtodos no paramtricos que no
suponen ninguna hiptesis sobre la distribucin de los datos. Para
comparar una variable respuesta entre dos muestras independientes
cuando dicha variable es continua (no-normal) o bien ordinal se
utiliza la prueba de suma de rangos Wilcoxon (tambin llamada prueba
U de Mann-Whitney o prueba de Mann-Whitney-Wilcoxon). La hiptesis
que contrastan es:
H0: La mediana del grupo 1 es igual a la mediana del grupo 2.
H1: La mediana del grupo 1 NO es igual a la mediana del grupo
2.
Este test se encuentra en el mismo men Analysis Two Sample Test
seleccionando la opcin Wilcoxon.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
58 de 73
7.2.4 Muestras relacionadas Para comparar una variable respuesta
entre dos muestras relacionadas cuando dicha variable sigue una
distribucin normal se utiliza la prueba T de Student (T-Test) para
muestras relacionadas. La hiptesis que contrasta es:
H0: 1= 2 las medias son iguales H1: 1 2 las medias son
diferentes
EJEMPLO (continuacin): A los pacientes del estudio anterior se
les ha pesado antes y despus de salir del hospital. Deseamos
contrastar si hay diferencias entre el peso inicial y el peso
final. La hiptesis que deseamos contrastar es:
H0: 1= 2 los pesos son iguales H1: 1 2 los pesos son
distintos
Para llevar a cabo dicha prueba con Deducer seleccionamos el men
Analysis Paired Test:
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
59 de 73
Para realizar una prueba no paramtrica deberamos seleccionar la
opcin Wilcoxon Signed Rank.
7.3 Variables categricas Para comparar una variable respuesta
entre dos muestras independientes cuando dicha variable es
categrica se utilizan las pruebas 2, prueba exacta de Fisher o
prueba de Razn de verosimilitud (Likelihood Ratio Test). La
hiptesis que contrastan es:
H0: La variable respuesta es independiente de la variable
explicativa (Los grupos de tratamiento son homogneos). H1: La
variable respuesta NO es independiente de la variable explicativa
(Los grupos de tratamiento no son homogneos).
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
60 de 73
EJEMPLO (continuacin): Deseamos estudiar si la distribucin de
los factores de riesgo es homognea en hombres y mujeres. La
hiptesis que deseamos contrastar es:
H0: La distribucin de los factores de riesgo es homognea en
hombres y mujeres. H1: La distribucin de los factores de riesgo NO
es homognea en hombres y mujeres.
Para llevar a cabo dicha prueba con Deducer seleccionamos
Analysis Contingency Tables. En el botn Statistics seleccionamos
las opciones Chi-cuadrado y Likelihood:
Y obtenemos el siguiente resultado:
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
61 de 73
8 INFERENCIA PARA K POBLACIONES
8.1 Introduccin La Inferencia Estadstica para k poblaciones
generalizar los mtodos estadsticos vistos en el apartado anterior.
Se dispone de una variable Respuesta (continua, categrica, ordinal)
y una variable Explicativa que define k grupos o categoras.
8.2 Comparar medias
8.2.1 Muestras independientes: prueba ANOVA El anlisis de la
varianza (ANOVA: Analysis of Variance) es un procedimiento
estadstico que tiene como objetivo descomponer la variabilidad
observada en un ensayo experimental en funcin de los posibles
factores que han podido influir en el resultado. Esta tcnica se
utiliza en las situaciones en las que se desea analizar una
variable continua medida bajo ciertas condiciones experimentales
identificadas por uno o ms factores cualitativos. Cada factor
identifica 2 o ms situaciones experimentales complementarias, y por
lo tanto distingue grupos o niveles. Cuando hay un nico factor
estudiado, el anlisis recibe el nombre de ANOVA de un factor. La
prueba ANOVA de un factor generaliza la prueba T para dos muestras
independientes. La hiptesis que contrasta es:
H0: 1= 2 = = k las medias son iguales H1: Al menos una de las
medias no es igual al resto
La prueba ANOVA se sustenta en los supuestos de normalidad,
homocedasticidad, independencia y aleatoriedad.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
62 de 73
EJEMPLO (continuacin): Deseamos estudiar si existen diferencias
entre la estancia media segn el grupo de edad al cual pertenecen.
Como en el caso de comparar dos medias, en primer lugar debemos
contrastar si podemos asumir que la distribucin de la variable
estancia es Normal dentro de cada grupo de edad. Para ello,
seleccionamos la preuba de normalidad de Shapiro-Wilk en el men
Analysis One Sample Test. En el recuadro Subset indicaremos el
grupo para el cual queremos realizar el contraste y repetiremos el
anlisis para el resto de grupos.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
63 de 73
age_cat ==
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
64 de 73
Dado el p_valor obtenido, se rechaza la hiptesis nula. Existen
diferencias en las estancias medias de los diferentes grupos de
edad.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
65 de 73
NOTA: La prueba realizada considera que las varianzas son
iguales en todos los grupos. En caso que querer realizar el test
asumiendo que son diferentes se ha de seleccionar la opcin One-Way
ANOVA(Welch).
Se observa que la conclusin de la prueba no ha variado. No
obstante, es obvio que se debe validar la hiptesis de homogeneidad
de varianzas a priori.
8.2.2 Prueba de homogeneidad de varianzas Para determinar si las
varianzas son iguales podemos realizar el siguiente contraste de
hiptesis:
H0: Las variancias son iguales en todos los grupos H1: Al menos
un grupo presenta una variabilidad diferente al resto
En este caso utilizaremos la misma prueba que se ha visto para
el caso de dos variancias la prueba de Levene: men Extras k-sample
variance test. EJEMPLO (continuacin): Veamos para el ejemplo
anterior si exista homogeneidad de variancias:
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
66 de 73
Se observa que efectivamente no se rechaza la igualdad de
variancias (p_valor > 0,05). Luego, existe homoscedasticidad en
los grupos.
8.2.3 Comparaciones mltiples 2 a 2 Hemos visto que el
procedimiento ANOVA permite determinar si existen diferencias entre
ms de dos grupos pero no informa sobre qu grupo o grupos son los
que difieren. Por ello, tras la realizacin de la prueba ANOVA es
interesante realizar las llamadas comparaciones mltiples a
posteriori o 2 a 2.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
67 de 73
Las comparaciones mltiples consisten en contrastar
simultneamente todas las parejas dos a dos que se puedan dar. Las
hiptesis que se contrastan son:
H0: 1= 2 las medias son iguales H1: 1 2 las medias no son
iguales H0: 1= 3 las medias son iguales H1: 1 3 las medias no son
iguales H0: 1= k las medias son iguales H1: 1 k las medias no son
iguales . . . H0: k-1 = k las medias son iguales H1: k-1 k las
medias no son iguales
La realizacin de todas las comparaciones 2 a 2 conduce
habitualmente a un elevado nmero de comparaciones. Dichas
comparaciones no son independientes las unas de las otras y ello es
necesario aplicar correcciones por multiplicidad de contrastes para
garantizar que el nivel de significacin conjunto no sea superior al
5%: Los contrastes mltiples se encuentran dentro del men K-Sample
Test en la pestaa Pairwise.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
68 de 73
Las comparaciones mltiples indican que las diferencias entre los
grupos de edad detectados en la prueba ANOVA anterior se dan entre
el grupo de
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
69 de 73
Dado el p_valor obtenido, se rechaza la hiptesis nula. Existen
diferencias entre las medianas de los tiempos de estancia en el
hospital de los diferentes grupos de edad.
8.2.5 Muestras relacionadas Para comparar una variable respuesta
entre ms de dos muestras relacionadas se utiliza la prueba de
Friedman alternativa no paramtrica a la prueba ANOVA de medidas
repetidas. La hiptesis que contrasta es:
H0: Los rangos esperados en todas las muestras son iguales entre
s H1: Existe por lo menos una muestra con rango diferente al
resto
Para llevar a cabo dicha prueba con Deducer seleccionamos el men
Analysis Extras Ranking analysis:
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
70 de 73
8.3 Variables categricas Para comparar una variable respuesta
categrica entre dos o ms muestras independientes se utilizan las
pruebas vistas en la seccin 7.3: 2, prueba exacta de Fisher o
prueba de Razn de verosimilitud (Likelihood Ratio Test).
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
71 de 73
9 RESUMEN METODOLGICO Los datos (variables) son caractersticas
observables de los individuos de una poblacin. Pueden ser:
CUALITATIVAS o CATEGRICAS: etiquetas (numrica o no) que
representan el grupo o categora a la cual pertenece un
individuo.
CUANTITATIVAS: valores numricos para los que tiene sentido
realizar aritmtica.
En estadstica, las variables tambin las clasificamos en funcin
del papel que tienen dentro del anlisis de un determinado
proyecto:
Variable Respuesta: variable que queremos explicar en el
anlisis. Variables Explicativas: variables que explican la variable
respuesta.
Cmo determinar qu prueba es la idnea? Variable respuesta
categrica y variable explicativa categrica:
o En general, prueba 2 o Si el nmero de casillas de la tabla de
contingencia con frecuencia esperada < 5
es superior al 25 %: Si la tabla es 2x2: Test Exacto de Fisher
Si la tabla no es 2x2: Prueba de Razn de verosimilitud
Variable respuesta continua y variable explicativa categrica (2
grupos):
o Si la distribucin de la respuesta en cada grupo es Normal:
T-Test. o Si la distribucin de la respuesta en cada grupo es Normal
y no hay
homogeneidad de varianzas: T-Test con la correccin de Welch. o
Si la distribucin no es normal pero es continua y simtrica: Prueba
U de
Mann-Whitney. Variable respuesta continua y variable explicativa
categrica (k grupos):
o Si la distribucin de la respuesta en cada grupo es Normal:
ANOVA. o Si la distribucin de la respuesta en cada grupo es Normal
y no hay homogeneidad
de varianzas: ANOVA con la correccin de Welch. o Si la
distribucin no es normal pero es continua y simtrica: Prueba de
Kruskal-
Wallis.
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
72 de 73
Cmo determinar si las pruebas T-Test o ANOVA son correctas?
Normalidad de la variable respuesta en cada grupo:
o Estudio grfico o Prueba de Shapiro-Wilk
Homogeneidad de varianzas:
o Estudio grfico o Prueba de Levene
-
Manual de Introduccin a Deducer
_______________________________________________________________
______________________________________________________________________
Servei dEstadstica Aplicada, Universitat Autnoma de Barcelona Pgina
73 de 73
10 BIBLIOGRAFA Fellows I (2012). Deducer: An R Graphical User
Interface (GUI) for Everyone. Version 2012-01-05, URL
www.Deducer.org/manual.html Wickham H (2009). ggplot2: Elegant
Graphics for Data Analysis. Springer-Verlag, New York. En la
siguiente pgina web se puede encontrar ayuda sobre ejemplos de
cdigo en R para usuarios de R que se pueden implementar en Deducer.
www.statmethods.net