Top Banner
1 Pruebas de Hip´otesis con R Commander Profesor  : Ren´ e Iral Palomino Oficina  : 43 320 Correo  :  riral @unal.edu.co Pruebas de Normalidad para muestras aleatorias En el an´alisis de un conjunto de datos, es crucial conocer la distribuci´ on de proba bilida d de la cual pro viene n. Esta carac ter ´ ıstica es importa nte en el desarrollo, no solo de las pruebas de hip´ otesis, sino del c´alculo de otras medi das de inter´ es. En particular, el supuesto m´ as usado en el planteamiento de pruebas de hip´ otesis se reere a determinar si dicho conjunto de datos continuos provie- nen de una distribuci´ on normal. Existe un n´ umero importante de pruebas reportadas en la literatura propuestas para probar si unos datos se compor- tan normalmente o no. Entre las pruebas m´as usadas est´ an: Shapiro-Wilks, Kolmogorov-Smirnov, KS-Lilliefors, Cramer Von Misses, Jarque-Bera, D’Agostino’s K-squared test, AndersonDarling, Pearson’s chi-squared, ShapiroFrancia, entre otros. Se emplearan para efectos de este documento el test de Shapiro-Wilks y el Test KS-Lilliefor. El primero funciona bien en tama˜ nos de muestra no muy grandes. El segundo requiere de muestras grandes para funcionar mejor. Sea  X 1 , ... ,X  n  una m.a. de una poblaci´ on con media  µ  y varianza  σ 2 . Se desea probar el juego de hip´ otesis: H 0  : La muestra proviene de una  N (µ, σ 2 ) vs H a  : La muestra no proviene de una Normal  .
32

PH Con R Comander

Jul 07, 2018

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 1/32

1

Pruebas de Hipotesis con R

Commander

Profesor   : Rene Iral Palomino

Oficina   : 43 − 320

Correo   :   [email protected]

Pruebas de Normalidad para muestras

aleatorias

En el analisis de un conjunto de datos, es crucial conocer la distribucionde probabilidad de la cual provienen. Esta caracterıstica es importante enel desarrollo, no solo de las pruebas de hipotesis, sino del calculo de otrasmedidas de interes.En particular, el supuesto mas usado en el planteamiento de pruebas dehipotesis se refiere a determinar si dicho conjunto de datos continuos provie-nen de una distribucion normal. Existe un numero importante de pruebasreportadas en la literatura propuestas para probar si unos datos se compor-

tan normalmente o no.

Entre las pruebas mas usadas estan: Shapiro-Wilks, Kolmogorov-Smirnov,KS-Lilliefors, Cramer Von Misses, Jarque-Bera, D’Agostino’s K-squared test,AndersonDarling, Pearson’s chi-squared, ShapiroFrancia, entre otros.Se emplearan para efectos de este documento el test de Shapiro-Wilks y elTest KS-Lilliefor. El primero funciona bien en tamanos de muestra no muygrandes. El segundo requiere de muestras grandes para funcionar mejor.

Sea  X 1, . . . , X  n  una m.a. de una poblacion con media  µ  y varianza  σ2. Se

desea probar el juego de hipotesis:H 0  : La muestra proviene de una  N (µ, σ2)

vsH a : La muestra no proviene de una Normal  .

Page 2: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 2/32

2

Shapiro-Wilks. Este test fue propuesto por Samuel Sanford Shapiro

y Martin Wilk y publicado en 1965. Sea  X 

(1), . . . , X  

(n), la muestraordenada de menor a mayor. Estas nuevas variables se conocen comoEstadısticos de Orden .El estadıstico de prueba es:

W   =

  ni=1

ai X (i)

2

ni=1

(X i −  x ) 2,

donde  a1, a2, . . . , an  son tales que

(a1, a2, . . . , an) =  mT  V −1

(mT  V −1 V −1 m)1

2.

m = (m1, . . . , mn)T  es el vector de valores esperados de los estadısticosde orden de una muestra aleatoria que proviene de una distribucionnormal estandar y  V  es la respectiva matriz de covarianzas de dichosestadısticos de orden. Se rechaza la hipotesis nula de Normalidad si  W 

es inferior a un valor crıtico de la distribucion empırica de   W   o si elValor p es pequeno.

Kolmogorov-Smirnov o prueba KS. Este test fue sugerido por AndreiNikolayevich Kolmogorov en 1933 y por Stanislav Konstantınovich Smir-nov 1939. Es un test no-parametrico para probar la igualdad de dosdistribuciones continuas unidimensionales, el cual puede ser usado paracomparar una muestra aleatoria con una distribucion de probabilidadde referencia. Este estadıstico calcula la distancia entre la distribucionemprırica de una muestra y la distribucion acumulada de una distribu-cion de referencia.

Dada una muestra aleatoria  X 1, . . . , X  n, la Distribuci´ on Empırica  dela muestra se define como:

F n(x) =  1

n

ni=1

I [−∞, x](X i) ,

donde

I [−∞, x]  =

  0 ;   X i  > x

1 ;   X i ≤ x

Page 3: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 3/32

3

Bajo la hipotesis nula de que la distribucion acumulada de la muestra

es F 

0(x

), el estadıstico de prueba es:Dn =  S upx |F n(x) − F 0(x) |   .

Para determinar la region de rechazo del test, se usan los valores crıticosde la distribucion asintotica de   Dn. Para un  α  dado la hipotesis nulase rechaza si  Dn  >   kα√ 

n, donde  kα  se encuentra de la ecuacion

P (K  ≤ kα) = 1 − α .

La siguiente tabla muestra algunos valores crıticos para el estadısticode Kolmogorov-Smirnov:

Fig. 1: Valores Crıticos prueba KS

En el caso de una prueba de normalidad, Lilliefors propuso una modifi-cacion a la Prueba KS cuando los parametros de la distribucion normalson desconocidos y deben ser estimados previamente. La tabla con loscuantiles corregidos se muestra en la figura 2.

Page 4: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 4/32

4

Fig. 2: Valores Crıticos prueba KS-Lilliefors

Usando el paquete R se tiene acceso a estas dos pruebas. Los comandosa ser usados son:Para la prueba de Shapiro-Wilks:   shapiro.test(datos)Para la prueba KS-Lilliefors:   lillie.test(datos)

Usando R-Commander se tiene acceso a la Prueba Shapiro-Wilks atraves del menu:Estadısticos - Resumenes - Test de normalidad de Shapiro-Wilk:

Fig. 3: Test Shapiro-Wilk en R Commander

Page 5: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 5/32

5

Ejemplo 1

Se tiene informacion sobre un grupo de 200 estudiantes de cierta uni-versidad. A cada sujeto se le indago por 10 varibles de interes: GE-NERO(Hombre o Mujer), ESTATURA(en cms), MASA(en Kgr), HO-RAS(dedicadas semanalmente a estudiar fuera de clases), EDAD(enanos), TIEMPO(requerido para llegar de su residencia a la Universidaden min), PAPA(del semestre anterior), VMATRI(valor de matrıcula enmiles de pesos), ESTRATO(de la residencia donde habita) y TRAB(SIo NO). UN analisis descriptivo de las variables continuas se muestra acontiacion.

> summary(datos[,c(2,3,5,6,7,8)])

ESTATURA MASA EDAD

Min. :143.4 Min. :41.10 Min. :16.00

1st Qu.:161.7 1st Qu.:60.27 1st Qu.:19.20

Median :167.8 Median :67.35 Median :21.25

Mean :168.3 Mean :65.62 Mean :21.34

3rd Qu.:174.4 3rd Qu.:71.90 3rd Qu.:23.02

Max. :196.9 Max. :87.40 Max. :30.60

TIEMPO PAPA VMATRI

Min. : 2.200 Min. :3.000 Min. : 54.3

1st Qu.: 9.825 1st Qu.:3.600 1st Qu.: 461.3

Median :20.600 Median :3.700 Median :1074.5

Mean :27.537 Mean :3.763 Mean :1144.0

3rd Qu.:38.600 3rd Qu.:4.000 3rd Qu.:1638.2

Max. :97.400 Max. :4.500 Max. :3644.7

Los Graficos de estas mismas variables se muestran en la figura 4.

De la figura 4 se puede levemente evidenciar que las variables Estatu-ra, Masa y Papa tienen formas aproximadamente simetricas y podrıanprovenir de distribuciones normales. Mientras de las demas tienen for-mas poco simetricas.

Page 6: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 6/32

6

Fig. 4: Histogramas de variables Continuas

Suponga que se desea probar si las estaturas de los estudiantes se com-portan aproximadamente normales. Las hipotesis a probar son:H 0: Las Estaturas se distribuyen Normalmente vsH a: Las Estaturas no se distribuyen Normalmente.Usando el Test de Shapiro-Wilks se tiene:

Fig. 5: Resultado prueba Shapiro-Wilk para Estatura

Page 7: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 7/32

7

Shapiro-Wilk normality test

data: ESTATURA

W = 0.9922, p-value = 0.36

El Valor p indica que no se puede rechazar H 0 y por lo tanto la evidenciamuestral es acorde con que las estaturas se distribuyen normalmente.Usando el Test de KS-Lilliefors:

> lillie.test(ESTATURA)

Lilliefors (Kolmogorov-Smirnov) normality test

data: ESTATURA

D = 0.042, p-value = 0.5266

La conclusion es la misma. Ambas pruebas permiten concluir que lasestaturas provienen de una distribucion normal.

Para la variable tiempo:H 0: Los Tiempos se distribuyen Normalmente vsH a: Los Tiempos no se distribuyen Normalmente.Usando Shapiro-Wilks:

Fig. 6: Resultado prueba Shapiro-Wilk para Tiempo

> with(datos, shapiro.test(TIEMPO))

Shapiro-Wilk normality test

data: TIEMPO

W = 0.8736, p-value = 7.053e-12

Page 8: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 8/32

8

Usando KS-Lilliefors:

> lillie.test(TIEMPO)

Lilliefors (Kolmogorov-Smirnov) normality test

data: TIEMPO

D = 0.1446, p-value = 5.753e-11

Ambos valores p son extremadamente pequenos, lo que indica que lahipotesis nula se rechazara con mucha seguridad (el error es casi nulo).

Esto permite concluir que los tiempos de desplazamiento NO se distri-buyen normalmente.

Para la variable EDAD:

> with(datos, shapiro.test(EDAD))

Shapiro-Wilk normality test

data: EDAD

W = 0.9688, p-value = 0.0002023

En este caso se rechaza la hipotesis nula de que las Edades se distri-buyen Normalmente y se concluye que las Edades NO se distribuyenNormalmente.

Debido a que existen muchos Test para probar Normalidad, una alter-nativa es construyendo un grafico especial conocido como QQplot . Estegrafica los cuantiles muestrales de los datos versus los cuantiles teoricos

de una distribucion Normal. Si en efecto los datos prvienen de una dis-tribucion Normal, se debe evidenciun grafico muy lineal, posiblementeno en los extremos. Si el grafico se aleja mucho de dicha lınea, es evi-dencia de No normalidad. Para la variable Edad, en R-Commaner lospasos se muestran en la figura 7. El QQplot se muestra en la figura 8.

Page 9: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 9/32

9

Fig. 7: Pasos para obtener el QQplot de la Edad

Fig. 8: QQplot para la variable Edad

Page 10: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 10/32

10

Para efectos de mantener una notacion estandar en todo el documento,

se supone que se tienen una muestra aleatoria  X 

1, X 

2, . . . , X  

n  de unapoblacion con media  µX  y varianza  σ2X .

Pruebas de Hipotesis para la media de una

Poblacion Normal

Para un valor praticular de  µX ,  µ0, se plantean tres tipos de hipotesis:

H 0 :  µX  = µ0   vs H a  :

µX  < µ0

µX  > µ0

µX  = µ0

.

El estadıstico de prueba dependera de si se conoce la varianza pobla-cional o no.

a)   σ2X  es conocida. En este caso el estadıstico de prueba es:

Z C  =X − µ0

σX√ n

∼   N (0, 1) .

La region de rechazo y los respectivos valores p se muestran a

continuacion:

R.C. =

Z C  |Z C   < − z αZ C  |Z C  > z α

Z C  | |Z C | > z α2

;   V p =

P (Z < Z C )P (Z > Z C )

2 P (Z > |Z C |)

b)   σ2X  es desconocida. En este caso el estadıstico de prueba es:

T C  =X − µ0

S X√ n

∼   t(n − 1) .

La region de rechazo y los respectivos valores p se muestran a

continuacion:

R.C. =

T C  |T C  < − tα(n − 1)T C  |T C  > tα((n − 1)T C  | |T C | > tα

2(n − 1)

;   V p =

P (t(n − 1) < T C )P (t(n − 1) > T C )

2 P (t(n − 1) > |T C |).

Page 11: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 11/32

11

Ejemplo 2

Considere los datos del ejemplo 1. Se desea establecer si la estaturapromedio de los estudiantes es superior a 168 cms. Si   X   representala estatura de un estudiante de dicha Universidad, sedesea probar siµX   > 168. Previamente se probo que las Estaturas se distribuyen Nor-malmente. Con esto en mente las hipotesis a probar son:

H 0  :  µX  = 168   vs H a :  µX  > 168  .

El estadıstico de prueba es:

T C  =X − 168

S X√ n ∼

  t(n

−1) .

De la muestra se obtienen los siguientes resultados:

n = 200   ,   X  = 168.3   , S X  = 10.212 .

T C  = 0.407 y V p =  P (t(199) >  0.407) = 0.342 . Usando R-Commander:

Fig. 9: Prueba T con RC ommander

Fig. 10: Especificacion de  H 0   y  H a

Page 12: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 12/32

12

Fig. 11: Valor p de la prueba

El resultado mostrado en la figura 11 indica que no hay suficiente evi-dencia para afirmar que la estatura media es superior a 168 cms, porlo tanto se asume que la estatura media de los estudiantes es inferior o

igual a 168 (Esto se concluye porque el valor p es 0.342, es decir, el errorque se comete al rechazar H 0  con la informacion recopilada asumiendoque fuera cierta es muy grande y no debe rechazarse.

Pruebas de Hipotesis para la media de una

Poblacion No-Normal

Para un valor praticular de  µX ,  µ0, se plantean tres tipos de hipotesis:

H 0 :  µX  = µ0   vs H a  :

µX  < µ0

µX  > µ0

µX  = µ0

.

El estadıstico de prueba es:

a) Si  σ2X  es conocida

Z C  =X − µ0

σX√ n

aprox   N (0, 1) .

b) Si  σ2X   es desconocida

Z C  =X − µ0

S X√ n

aprox   N (0, 1) .

Page 13: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 13/32

13

region de rechazo y Valor p:

R.C. =

Z C  |Z C  < − z αZ C  |Z C  > z α

Z C  | |Z C | > z α2

;   V p =

P (Z < Z C )P (Z > Z C )

2 P (Z > |Z C |)

Ejemplo 3

Con los datos de los estudiantes, se tiene la creencia de que el tiempomedio requerido para llegar a la universidad es menor a 20 min. Primeroes necesario determinar si la muestra proviene de una poblacion normal.

H 0 : Los tiempos de desplazamiento son normales

vsH a  : Los tiempos de desplazamiento NO son normales

Usando el test de Shapiro-Wilks se tiene:

Fig. 12: Prueba de Normalidad para Tiempos

El Valor p registrado en esta prueba indica que se debe rechazar  H 0  y

concluir que los tiempos de desplazamientos no son normales. Sea  µX 

el tiempo medio requerido para ir de casa o del trabajo a la universidady sea  σ2

X  la varianza de dichos tiempos. Se desea probar las hipotesis:

H 0  :  µX  = 20   H a :  µX  < 20  .

Page 14: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 14/32

14

Estadıstico de prueba:

Z C  =X − 20

S X√ n

aprox   N (0, 1) .

Las estadısticas descriptivas basicas para esta variable:

Var Tiempo

 mean sd n

26.45714 20.85432 70

Con estos datos se tiene que:

Z C  = 2.591   V p =  P (Z < 2.591) = 0.9952 .Como el Valor P es tan grande, no se puede rechazar  H 0, es decir, segunlos datos registrados, el tiempo medio de desplazamiento es mayor oigual a 20 min.

Ejemplo 4

Se desea establecer si la Masa propedio de los estudiantes de la univer-sidad es superior a 63 kgr. Las hipotesis a probar son:

H 0 :  µX  = 63   vs H a :  µX   > 63  .

Para determinar el estadıstico de prueba, es necesario establecer si lasmasas se comportan normalmente o no. En este caso se desean probarlas hipotesis:

H 0 : Las masas tienen una distribucion normal

vsH 0  : Las masas NO tienen una distribucion normal

Usando el Test Shapiro-Wilks

> with(datos, shapiro.test(MASA))

Shapiro-Wilk normality test

data: MASA

W = 0.982, p-value = 0.01159

Page 15: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 15/32

15

El Valor P de esta prueba es pequeno, por lo cual se puede rechazarH 

0  y concluir que las Masas NO se distribuyen normalmente. Asi lascosas, el estadıstico de prueba es:

Z C  =X − 63

S X√ 200

aprox   N (0, 1) .

Los resultados muestrales son:

n = 200   ,   X  = 65.619   , S X  = 8.897 .

Z C  = 4.163   y V p =  P (Z > 4.163) = 0.0000157

Dado que el Valor P es extremadamente pequeno, puede rechazarse H 0con mucha seguridad y concluir que, segun la informacion recolectada,la masa media de los estudiantes supera los 63 Kgr.

Pruebas de Hipotesis para la diferencias

de medias de poblaciones normales

Sea X 1, X 2, . . . , X  n una muestra aleatoria tal que X i ∼ N (µX , σ2X ) y sea

Y 1, Y 2, . . . , Y  m   otra muestra aleatoria tal que   Y  j ∼   N (µY  , σ2Y   ), ambas

muestras aleatorias independientes entre si. El interes en este caso escomparar las medias de ambas distribuciones. Una manera practica dehacerlo es considerando la diferencia µX −µY   . Sea δ 0 un valor conocido.Las hipotesis a probar respecto a la diferencia  µX  − µY    son:

H 0 :  µX  − µY    = δ 0   vs H a :

µX  − µY    < δ 0µX  − µY    > δ 0µX  − µY   = δ 0

.

El estadıstico de prueba dependera de como son las varianzas pobla-cionales.

1.   σ2X   y  σ2

Y    son conocidas . En este caso el estadıstico de prueba es:

Z C  =X −  Y  − δ 0 

σ2X

n  +

  σ2X

m

∼   N (0, 1) .

Page 16: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 16/32

16

Region de rechazo y Valor p:

R.C. =

Z C  |Z C   < − z αZ C  |Z C  > z α

Z C  | |Z C | > z α2

;   V p =

P (Z < Z C )P (Z > Z C )

2 P (Z > |Z C |)

2.   σ2X  y  σ2

Y   son desconocidas . En este caso la obtencion del estadısticode prueba dependera de la relacion entre las varianzas poblaciona-les de ambas muestras. Una manera de establecer la relacion entrelas varianzas de dos poblaciones es a traves de un procedimientode Prueba de Hipotesis.

Pruebas de Hipotesis para Cociente de Varianzas

Bajo los supuestos antes descritos, se desean probar las hipotesis:

H 0 :  σ2

σ2Y  

= λ0   vs H a  :

σ2X 

σ2Y  

< λ0

σ2X 

σ2Y  

> λ0

σ2X 

σ2Y  

= λ0

,

donde  λ0  es un valor conocido. El estadıstico de prueba es:

F C  =  1

λ0

S 2X 

S 2X 

∼   f (n − 1, m − 1) .

Region Crıtica

F C  |F C   <   1f α(m−1,n−1)

F C  |F C  > f α(n − 1, m − 1)F C  |F C  <

  1f α2

(m−1,n−1)  o F C  > f α

2(n − 1, m − 1)

.

El caso mas usado se tiene cuando  λ0 = 1, que corresponde a pro-

bar si  σ2X

σ2

Y  

= 1. Si se rechaza  H 0

 se concluye que  σ2

X  = σ2

Y  

 , en caso

contrario que  σ2X  = σ 2

Y   .

Superado este paso, se consideran dos casos para el estadıstico deprueba para la hipotesis de diferencia de medias.

Page 17: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 17/32

17

a)   σ2X  = σ 2

Y   . En este caso el estadıstico de prueba es:

T C  = X −  Y  − δ 0

S  p

 1n

 +   1m

∼ t (n+m−2) ;   S 2 p   = (n − 1)S 2X  + (m − 1)S 2Y  n + m − 2

  .

Region Crıtica y Valor p:

T C  | T C  < −tα(n + m − 2)T C  | T C   > tα(n + m − 2)

T C  | |T C | > tα2

(n + m − 2);

P (t(n + m − 2) < T C )P (t(n + m − 2) > T C )

2 P (t(n + m − 2) > |T C |).

b)   σ2X  = σ 2

Y   . En este caso el estadıstico de prueba es:

T C  = X −  Y  − δ 0 S 2X

n  +

  S 2X

m

∼   t(ν ) ;   ν  =S 2

X

n

  +  S 2

Y  

m

2

S 2

Xn

2

n + 1   +

S 2

Y  m

2

m + 1

−   2 .

La region de rechazo y el calculo del Valor p estan dados por:

T C  | T C  < −tα(ν )T C  | T C   > tα(ν )

T C  | |T C | > tα2

(ν );

P (t(ν ) < T C )P (t(ν ) > T C )

2 P (t(ν ) > |T C |).

Ejemplo 5

Retomando la base de datos de los estudiantes de la universidad, setiene la creencia de que la estatura media en los hombres es superiora la estatura media en la mujeres. Primero se verifica si las Estaturasse distribuyen Normalmente discriminando por genero. Para lograrlose deben separar las muestras por Genero. Usando R se utilizan loscomandos:

> est_muj <- Datos[Datos[,1]=="MUJER",]

> est_hom <- Datos[Datos[,1]=="HOMBRE",]

Luego se prueba si ambas muestras provienen de poblaciones norma-

les. En la figura 13 se ilustra el uso de la Prueba Shapiro-Wilks enR-Commander.

Con un procedimiento similar se realiza la prueba para las estaturas delas mujeres. Los resultados se muestran a continuacion:

Page 18: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 18/32

18

> with(est_hom, shapiro.test(ESTATURA))

Prueba de Normalidad para Estaturas de los Hombres

Shapiro-Wilk normality test

data: ESTATURA

W = 0.9918, p-value = 0.9926

> with(est_muj, shapiro.test(ESTATURA))

Prueba de Normalidad para Estaturas de las Mujeress

Shapiro-Wilk normality test

data: ESTATURAW = 0.9789, p-value = 0.7679

Fig. 13: Prueba de Normalidad para Estaturas en Hombres

Page 19: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 19/32

19

Usando la prueba KS-Lilliefor

> lillie.test(est_muj[,2])

Lilliefors (Kolmogorov-Smirnov) normality test

data: est_muj[, 2]

D = 0.056658, p-value = 0.6699

> lillie.test(est_hom[,2])

Lilliefors (Kolmogorov-Smirnov) normality test

data: est_hom[, 2]

D = 0.056208, p-value = 0.5422

Ambas pruebas indican que la distribucion de las estaturas es Normal,sin importar el Genero. Con esto en mente lo que se tienen es un parde muestras aleatorias independientes que provienen de poblacionesnormales. Estas muestras representan las Estaturas de los estudiantes(Hombres y Mujeres).

Sean µ

X   y  σ2

X   la media y varianza poblacionales de las Estaturas pa-ra los hombres y sea   µY    y   σ2Y    la media y varianza poblacionales de

las Estaturas para las Mujeres. Los resultados muestrales para ambasmuestras son:

Fig. 14: Resumenes Descriptivos

Page 20: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 20/32

20

 mean sd data:n

HOMBRE 171.3184 10.036470 38

MUJER 163.2344 8.754634 32

Las hipotesis a probar son:

H 0 :  µX  − µY    = 0   vs H a :  µX  − µY    > 0  .

Para determinar el estadıstico de prueba, es necesario establecer comoson las varianzas poblacionales. Las hipotesis a probar son:

H 0  :  σ2

σ2

Y  

= 1   vs H a :  σ2

σ2

Y  

= 1 .

El estadıstico de prueba es

F C  = S 2X 

S 2Y  ∼ f (n − 1, m − 1) .

Usando R-Commander:

Fig. 15: Prueba de Hipotesis para Cociente de Varianzas

Los resultados de esta prueba son:

Page 21: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 21/32

21

F test to compare two variances

data: ESTATURA by GENERO

F = 1.3143, num df = 37, denom df = 31, p-value = 0.4393

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.6546239 2.5838951

sample estimates:

ratio of variances

1.314274

Debido a que se tiene un Valor P grande, no se puede rechazar   H 0   yse cuncluye que la informacion esta mas acorde con asumir que las va-

rianzas poblacionales de ambas muestras son iguales, es decir, σ2X  = σ 2Y   .

Con esto presente, el estadıstico de prueba para la hıpotesis acerca dela diferencia de medias es:

T C  =X −  Y  − δ 0

S  p

 1n

 +   1m

∼ t  (n + m − 2) ,

donde

n = 38,  x = 171.318, sX  = 10.036 ;   m = 32,   y = 163.234, sY    = 8.755 .

Usando R-Commander:

Fig. 16: Prueba de Hipotesis para Diferencia entre las estaturas Medias

Page 22: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 22/32

22

Two Sample t-test

data: ESTATURA by GENERO

t = 3.5566, df = 68, p-value = 0.0003448

alternative hypothesis: true difference in means is greater than 0

95 percent confidence interval:

4.293657 Inf

sample estimates:

 mean in group HOMBRE mean in group MUJER

171.3184 163.2344

Debido a que se tiene un Valor P muy pequeno, se rechaza   H 0   y se

concluye que la informacion muestral apoya la afirmacion de que laEstatura media de los hombres es superior a la de las mujeres. En elsiguiente grafico se evidencia esta conclusion.

Fig. 17: BoxPlot para estaturas discriminado por Genero

Page 23: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 23/32

23

Pruebas de Hipotesis para la diferencias

de medias de poblaciones NO normales

Sea X 1, X 2, . . . , X  n  una muestra aleatoria tal que  E [X i] = µX   yV ar[X i] = σ2

X ; sea Y 1, Y 2, . . . , Y  m otra muestra aleatoria tal que E [Y  j ] =µY    y  V ar[Y  j] = σ2

Y   , ambas muestras aleatorias independientes entre si.El interes en este caso es comparar las medias de ambas distribuciones.Una manera practica de hacerlo es considerando la diferencia µX −µY   .Sea δ 0 un valor conocido. Las hipotesis a probar respecto a la diferenciaµX  − µY    son:

H 0 :  µX  − µY    = δ 0   vs H a :

µX 

 −µY    < δ 0

µX  − µY    > δ 0µX  − µY   = δ 0

.

El estadıstico de prueba tiene una distribucion aproximadamente Nor-mal, cuando  n y  m son grandes(TLC):

a) Si las varianzas poblacionales son conocidas, entonces:

Z C  =X −  Y  − δ 0 

σ2X

n  +

  σ2Y  

m

aprox  N (0, 1) .

b) Si las varianzas poblacionales no son conocidas, entonces:

Z C  =X −  Y  − δ 0 

S 2X

n  +

  S 2Y  

m

aprox  N (0, 1) .

La region de rechazo y Valor p de la prueba se calculan de manerasimilar:

R.C. =

Z C  |Z C  < − z αZ C  |Z C  > z α

Z C | |

Z C |

> z α2

;   V p =

P (Z < Z C )P (Z > Z C )

2 P (Z >

|Z C 

|)

Ejemplo 6

Usando la misma base de datos de los estudiantes, se desea establecer

Page 24: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 24/32

24

si las personas que no trabajan emplean en promedio mas tiempo en

desplazamiento a la universidad que los que trabajan. Sea µ

X  el tiem-po medio requerido por un estudiante que no trabaja para llegar a launiversidad y sea  σ2

X  la varianza poblacional de dichos tiempos. Adic-cionalmente sea   µY    el tiempo medio requerido por un estudiante quetrabaja para llegar a la universidad y sea  σ 2

Y    la varianza poblacional dedichos tiempos. Ambas muestras aleatorias son independientes entre si.Un resumen descriptivo de ambas muestras se muestra a continuacion.

 mean sd data:n

NO 27.07826 20.4698 46

SI 25.26667 21.9693 24

Observe que en este caso se desconocen las varianzas poblacionales paraambas muestras. Las hipotesis a probar son:

H 0 :  µX  − µY    = 0   vs H a :  µX  − µY    > 0  .

Para probar este par de hipotesis se requiere saber si los tiempos paralos que trabajan y para los que no trabajan se distribuyen normal-mente. Primero se separan los datos para los que trabajan y los queno-trabajan:

> tiem_trab <- data[data[,10]=="SI", ]

> tiem_ntrab <- data[data[,10]=="NO", ]

H 0  : Los tiempos de desplazamiento para los que no trabajan son normales

vs

H a  : Los tiempos de desplazamiento para los que no trabajan NO son normales

Usando R-Commander:

Page 25: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 25/32

25

Fig. 18: Prueba de Normalidad para Tiempos discriminado por TRAB

El Valor P encontrado en ambas pruebas permite concluir que los tiem-pos de desplazamiento, tanto para los que no trabajan como para losque trabajan, NO son normales. Retomando las hipotesis iniciales, elestadıstico de prueba sera:as hipotesis a probar son:

Z C  =X −  Y  − 0 

S 2X

n  +

  S 2Y  

m

aprox N (0, 1) .

De los resultados muestrales se tiene que:

X  = 27.078 S X  = 20.4698 n  = 46 ;   X  = 25.267 S X  = 21.9693 m  = 24 .

Con esto se tiene que:

Z C  = 0.335   y V p =  P (Z > 0.335) = 0.3688125 .

Este Valor P no permite rechazar  H 0  y por lo tanto la evidencia mues-

tral no es suficiente para afirmar que el tiempo medio empleado por losque No trabajan es superior al tiempo medio empleado por los que tra-bajan; por lo tanto el tiempo medio empleado por los que no trabajanes inferior o igual al tiempo medio de los que trabajan. Un diagramade Box-Plot permite evidenciar graficamente esta afirmacion.

Page 26: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 26/32

26

Fig. 19: BoxPlot para Tiempos discriminados por TRAB

Pruebas de Hipotesis para una proporcion

Sea X una variable aleatoria que representa el numero de exitos en nensayos. Sea sabe que  X  ∼  Bin(n, p). Sea  p0  un valor particular para

 p. Las hipotesss a probar son:

H 0 :  p  =  p0   vs H a  :

 p < p0

 p > p0

 p = p0

.

Si n  es grande, el estadıstico de prueba se basa en el TLC. En este casoel estadıstico de prueba es:

Z C  =  ˆ p − p0 

 p0 (1− p0)n

aprox  N (0, 1) .

Ejemplo 7Se tiene la creencia de que el porcentaje de estudiantes que no trabajanes superioral 60 %. ¿Es esta afirmacion coherente con los datos recopila-dos? Sea X  la variable aleatoria nque representa el numero de estudian-tes que no trabajan en la muestra de 70. Se tiene que  X  ∼ Bin(70, p).

Page 27: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 27/32

27

Las hipotesis a probar son:

H 0 :  p  = 0.6   vs H a :  p > 0.6

Aca,  p0 = 0.6. Como  n = 70 es grande, el estadıstico de pruebe es:

Z C  =  ˆ p − 0.6 

0.6 (1−0.6)70

aprox  N (0, 1) .

Usando R-Commander, se obtienen los siguiente resultados:

Fig. 20: Prueba de Hipotesis para proporcion de estudiantes que no trabajan.

De la figura anterior se tiene que

Z C  = √ 0.95238 = 0.9759   y V p =  P (Z > 0.9759) = 0.1646 .

Este Valor P indica que la Hipotesis nula No puede ser rechazada yconcluir que el procentaje de estudiantes que No trabajan es inferior oigual al 60 %.

Page 28: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 28/32

28

La justificacion por la cual en el R-Commander aparece un estadıstico

diferente 

X-square

, es debido al hecho de que:

Z 2C  =

ˆ p − p0 

 p0 (1− p0)n

 aprox   χ2(1) .

El Valor P que aparece alli registrado se calcula como:

V p =  P (χ2(1) >  0.95238) = 0.1646 .

Las pruebas son equivalentes.

Pruebas de Bondad de Ajuste

Suponga que se tiene una experimento multinomial, es decir una seriede ensayos (n  ensayos) identicos e independientes y   k   posibles cate-gorıas o clases. Sea   p i   la probabilidad de clasificar en la categorıa   i  ysea N i  el numero de ensayos que caen en la categorıa i  de los n  ensayos.Se tiene que  N 1 + · · · + N k  =  n. Cada  N i   sera una v.a. binomial conparametros n y  pi   ,  i = 1,  2

 · · ·  , k. El numero esperado de ensayos en

la categorıa  i  es  E [N i] = n pi ;   i = 1, 2 · · ·  , k

Se desea establecer si los datos observados provienen de cierta distri-bucion especial con c.d.f.  F 0(x). Las hipotesis a probar son:

H 0  :  F (x) = F 0(x) vs  H a :  F 0(x) no es la c.d.f. asociada a la muestra.

Si   F 0  esta claramente especificada, es posible conocer valores particu-lares para los  pi ;  i = 1, 2, . . . , k  y asi obtener  E [N i]. En otro caso, los pi   deberan ser estimados y en vez de tener  E [N i], se estima con  n ˆ pi,i = 1, 2, . . . , k.

En resumen se tiene:

Page 29: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 29/32

29

clase 1 2 k totalFrec observada   n1   n2   . . . nk   n

Probabilidad   p1   p2   . . . pk   1Frec esperada   n p1   n p2   n pk   n

Si  n pi ≥   5 ;  i = 1,  2  . . . , k  , la v.a.

X  =ki=1

(N i − n pi)2

n pi∼   χ 2(k − 1) .

Observe que

X  =ki=1

(N i − n pi) 2

n pi=

todas las celdas

(f.obs − f.esp) 2

f.esp  ∼   χ2(k − 1) .

Suponga que se desea establecer valores particulares para los  p i, es de-cir, se quieren probar las hipotesis:

H 0  :  p i =  pi 0 ;   i = 1,  2  . . . , k   vs   H a  : ∃ j  tal que p j = p j 0  .

Estadıstico de Prueba:

X C  =

ki=1

(ni − n pi)2

n pi∼ χ 2(k − 1) .

El Valor P de esta prueba se calcula como:

P (χ2(k − 1) > X C ) .

Si alguna de las categorıas no cumple con el supuesto de que  n pi ≥ 5debe unirse a otra adyacente y formar una nueva categorıa. Esto cla-ramente reduce los grados de libertad de la  χ2.

Ejemplo 8

Con base en un estudio realizado el semestre pasado, se encontro quelos estudiantes estaban distribuıdos en los seis estratos en los siguientesporcentajes:

Page 30: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 30/32

30

Estrato  1 2 3 4 5 6Proporcion   0.08 0.15 0.37 0.30 0.06 0.04

Se desea establecer si la informacion recopilada en el siguiente semes-tre permite corroborar si estas proporciones se mantienen igual o hancambiado. Se desea probrar las hipotesis:

H 0  :  p1  = 0.08, p2 = 0.15, p3 = 0.37, p4  = 0.30, p5 = 0.06, p6 = 0.04

vs

H a : Alguna de las proporciones ha cambiado

Usando el R-Commander se obtiene una tabla de frecuencias:

counts:

ESTRATO

1 2 3 4 5 6

10 5 25 21 5 4

Bajo  H 0  se obtienen las frecuencias esperadas como  n pi0. Con base enla muestra se registra la siguiente informacion:

Clase   1 2 3 4 5 6Frec − Obs   10 5 25 21 5 4Frec − Esp   5.6 10.5 25.9 21 4.2 2.8

Si no se tiene en cuenta la condicion sobre las frecuencias esperadas, elestadıstico de prueba es:

X C  =6

i=1

(N i − ei)2

ei∼   χ2(5) .

Usando R-Commander:

Page 31: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 31/32

31

Fig. 21: Prueba de Bondad de Ajuste para Estrato.

Se obtiene los siguientes resultados:

X C  = 7.036 ;   V p =  P (χ2(5) >  7.036) = 0.218 .

El Valor P indica que no se puede rechazar   H 0, por lo que se asumeque las proporciones por estratos NO han cambiado.

Sinembargo, esta prueba tiene un error, y es que el supuesto de quenpi ≥ 5 no se cumple para las ultimas dos categorıas. Para hacer bienesta prueba se requiere agrupar las categorıas Estratos 5 y 6 en unasola, digamos 5+. El codigo en R para hacerlo es el siguiente:

> ndata <- data

> ndata[,9] <- Recode(data[,9],’1=1; 2=2; 3=3; 4=4; 5:6=5’,as.factor.result=T)

Usamos el nuevo conjunto de datos llamado   ndata . Las hipotesis nulahan cambiado a la siguiente:

H 0 :  p1 = 0.08, p2 = 0.15, p3  = 0.37, p4 = 0.30, p5 = 0.10

Usando el R-Commander se obtiene una nueva tabla de frecuencias:

Page 32: PH Con R Comander

8/18/2019 PH Con R Comander

http://slidepdf.com/reader/full/ph-con-r-comander 32/32

32

counts:

ESTRATO

1 2 3 4 5

10 5 25 21 9

Bajo  H 0  se obtienen las frecuencias esperadas como  n pi0. Con base enla muestra se registra la siguiente informacion:

Clase   1 2 3 4 5Frec − Obs   10 5 25 21 9Frec − Esp   5.6 10.5 25.9 21 7

Estadıstico de prueba:

X C  =5

i=1

(N i − ei)2

ei∼   χ2(4) .

Usando R-Commander:

Fig. 22: Prueba de Bondad de Ajuste para Estrato Recodificado.

El Valor Pindica que no se debe rechazar H 0 y por lo tanto la conclusiones que las proporciones por estratos no han cambiado en comparacioncon las del semestre pasado.