1 Pruebas de Hip´otesis con R Commander Profesor : Ren´ e Iral Palomino Oficina : 43 − 320 Correo : riral @unal.edu.co Pruebas de Normalidad para muestras aleatorias En el an´alisis de un conjunto de datos, es crucial conocer la distribuci´ on de proba bilida d de la cual pro viene n. Esta carac ter ´ ıstica es importa nte en el desarrollo, no solo de las pruebas de hip´ otesis, sino del c´alculo de otras medi das de inter´ es. En particular, el supuesto m´ as usado en el planteamiento de pruebas de hip´ otesis se refiere a determinar si dicho conjunto de datos continuos provie- nen de una distribuci´ on normal. Existe un n´ umero importante de pruebas reportadas en la literatura propuestas para probar si unos datos se compor- tan normalmente o no. Entre las pruebas m´as usadas est´ an: Shapiro-Wilks, Kolmogorov-Smirnov, KS-Lilliefors, Cramer Von Misses, Jarque-Bera, D’Agostino’s K-squared test, AndersonDarling, Pearson’s chi-squared, ShapiroFrancia, entre otros. Se emplearan para efectos de este documento el test de Shapiro-Wilks y el Test KS-Lilliefor. El primero funciona bien en tama˜ nos de muestra no muy grandes. El segundo requiere de muestras grandes para funcionar mejor. Sea X1 , ... ,X n una m.a. de una poblaci´ on con media µ y varianza σ 2 . Se desea probar el juego de hip´ otesis: H0 : La muestra proviene de una N(µ, σ 2 ) vs Ha : La muestra no proviene de una Normal .
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
En el analisis de un conjunto de datos, es crucial conocer la distribucionde probabilidad de la cual provienen. Esta caracterıstica es importante enel desarrollo, no solo de las pruebas de hipotesis, sino del calculo de otrasmedidas de interes.En particular, el supuesto mas usado en el planteamiento de pruebas dehipotesis se refiere a determinar si dicho conjunto de datos continuos provie-nen de una distribucion normal. Existe un numero importante de pruebasreportadas en la literatura propuestas para probar si unos datos se compor-
tan normalmente o no.
Entre las pruebas mas usadas estan: Shapiro-Wilks, Kolmogorov-Smirnov,KS-Lilliefors, Cramer Von Misses, Jarque-Bera, D’Agostino’s K-squared test,AndersonDarling, Pearson’s chi-squared, ShapiroFrancia, entre otros.Se emplearan para efectos de este documento el test de Shapiro-Wilks y elTest KS-Lilliefor. El primero funciona bien en tamanos de muestra no muygrandes. El segundo requiere de muestras grandes para funcionar mejor.
Sea X 1, . . . , X n una m.a. de una poblacion con media µ y varianza σ2. Se
desea probar el juego de hipotesis:H 0 : La muestra proviene de una N (µ, σ2)
Shapiro-Wilks. Este test fue propuesto por Samuel Sanford Shapiro
y Martin Wilk y publicado en 1965. Sea X
(1), . . . , X
(n), la muestraordenada de menor a mayor. Estas nuevas variables se conocen comoEstadısticos de Orden .El estadıstico de prueba es:
W =
ni=1
ai X (i)
2
ni=1
(X i − x ) 2,
donde a1, a2, . . . , an son tales que
(a1, a2, . . . , an) = mT V −1
(mT V −1 V −1 m)1
2.
m = (m1, . . . , mn)T es el vector de valores esperados de los estadısticosde orden de una muestra aleatoria que proviene de una distribucionnormal estandar y V es la respectiva matriz de covarianzas de dichosestadısticos de orden. Se rechaza la hipotesis nula de Normalidad si W
es inferior a un valor crıtico de la distribucion empırica de W o si elValor p es pequeno.
Kolmogorov-Smirnov o prueba KS. Este test fue sugerido por AndreiNikolayevich Kolmogorov en 1933 y por Stanislav Konstantınovich Smir-nov 1939. Es un test no-parametrico para probar la igualdad de dosdistribuciones continuas unidimensionales, el cual puede ser usado paracomparar una muestra aleatoria con una distribucion de probabilidadde referencia. Este estadıstico calcula la distancia entre la distribucionemprırica de una muestra y la distribucion acumulada de una distribu-cion de referencia.
Dada una muestra aleatoria X 1, . . . , X n, la Distribuci´ on Empırica dela muestra se define como:
Bajo la hipotesis nula de que la distribucion acumulada de la muestra
es F
0(x
), el estadıstico de prueba es:Dn = S upx |F n(x) − F 0(x) | .
Para determinar la region de rechazo del test, se usan los valores crıticosde la distribucion asintotica de Dn. Para un α dado la hipotesis nulase rechaza si Dn > kα√
n, donde kα se encuentra de la ecuacion
P (K ≤ kα) = 1 − α .
La siguiente tabla muestra algunos valores crıticos para el estadısticode Kolmogorov-Smirnov:
Fig. 1: Valores Crıticos prueba KS
En el caso de una prueba de normalidad, Lilliefors propuso una modifi-cacion a la Prueba KS cuando los parametros de la distribucion normalson desconocidos y deben ser estimados previamente. La tabla con loscuantiles corregidos se muestra en la figura 2.
Usando el paquete R se tiene acceso a estas dos pruebas. Los comandosa ser usados son:Para la prueba de Shapiro-Wilks: shapiro.test(datos)Para la prueba KS-Lilliefors: lillie.test(datos)
Usando R-Commander se tiene acceso a la Prueba Shapiro-Wilks atraves del menu:Estadısticos - Resumenes - Test de normalidad de Shapiro-Wilk:
Se tiene informacion sobre un grupo de 200 estudiantes de cierta uni-versidad. A cada sujeto se le indago por 10 varibles de interes: GE-NERO(Hombre o Mujer), ESTATURA(en cms), MASA(en Kgr), HO-RAS(dedicadas semanalmente a estudiar fuera de clases), EDAD(enanos), TIEMPO(requerido para llegar de su residencia a la Universidaden min), PAPA(del semestre anterior), VMATRI(valor de matrıcula enmiles de pesos), ESTRATO(de la residencia donde habita) y TRAB(SIo NO). UN analisis descriptivo de las variables continuas se muestra acontiacion.
> summary(datos[,c(2,3,5,6,7,8)])
ESTATURA MASA EDAD
Min. :143.4 Min. :41.10 Min. :16.00
1st Qu.:161.7 1st Qu.:60.27 1st Qu.:19.20
Median :167.8 Median :67.35 Median :21.25
Mean :168.3 Mean :65.62 Mean :21.34
3rd Qu.:174.4 3rd Qu.:71.90 3rd Qu.:23.02
Max. :196.9 Max. :87.40 Max. :30.60
TIEMPO PAPA VMATRI
Min. : 2.200 Min. :3.000 Min. : 54.3
1st Qu.: 9.825 1st Qu.:3.600 1st Qu.: 461.3
Median :20.600 Median :3.700 Median :1074.5
Mean :27.537 Mean :3.763 Mean :1144.0
3rd Qu.:38.600 3rd Qu.:4.000 3rd Qu.:1638.2
Max. :97.400 Max. :4.500 Max. :3644.7
Los Graficos de estas mismas variables se muestran en la figura 4.
De la figura 4 se puede levemente evidenciar que las variables Estatu-ra, Masa y Papa tienen formas aproximadamente simetricas y podrıanprovenir de distribuciones normales. Mientras de las demas tienen for-mas poco simetricas.
Suponga que se desea probar si las estaturas de los estudiantes se com-portan aproximadamente normales. Las hipotesis a probar son:H 0: Las Estaturas se distribuyen Normalmente vsH a: Las Estaturas no se distribuyen Normalmente.Usando el Test de Shapiro-Wilks se tiene:
Fig. 5: Resultado prueba Shapiro-Wilk para Estatura
El Valor p indica que no se puede rechazar H 0 y por lo tanto la evidenciamuestral es acorde con que las estaturas se distribuyen normalmente.Usando el Test de KS-Lilliefors:
> lillie.test(ESTATURA)
Lilliefors (Kolmogorov-Smirnov) normality test
data: ESTATURA
D = 0.042, p-value = 0.5266
La conclusion es la misma. Ambas pruebas permiten concluir que lasestaturas provienen de una distribucion normal.
Para la variable tiempo:H 0: Los Tiempos se distribuyen Normalmente vsH a: Los Tiempos no se distribuyen Normalmente.Usando Shapiro-Wilks:
Ambos valores p son extremadamente pequenos, lo que indica que lahipotesis nula se rechazara con mucha seguridad (el error es casi nulo).
Esto permite concluir que los tiempos de desplazamiento NO se distri-buyen normalmente.
Para la variable EDAD:
> with(datos, shapiro.test(EDAD))
Shapiro-Wilk normality test
data: EDAD
W = 0.9688, p-value = 0.0002023
En este caso se rechaza la hipotesis nula de que las Edades se distri-buyen Normalmente y se concluye que las Edades NO se distribuyenNormalmente.
Debido a que existen muchos Test para probar Normalidad, una alter-nativa es construyendo un grafico especial conocido como QQplot . Estegrafica los cuantiles muestrales de los datos versus los cuantiles teoricos
de una distribucion Normal. Si en efecto los datos prvienen de una dis-tribucion Normal, se debe evidenciun grafico muy lineal, posiblementeno en los extremos. Si el grafico se aleja mucho de dicha lınea, es evi-dencia de No normalidad. Para la variable Edad, en R-Commaner lospasos se muestran en la figura 7. El QQplot se muestra en la figura 8.
Considere los datos del ejemplo 1. Se desea establecer si la estaturapromedio de los estudiantes es superior a 168 cms. Si X representala estatura de un estudiante de dicha Universidad, sedesea probar siµX > 168. Previamente se probo que las Estaturas se distribuyen Nor-malmente. Con esto en mente las hipotesis a probar son:
H 0 : µX = 168 vs H a : µX > 168 .
El estadıstico de prueba es:
T C =X − 168
S X√ n ∼
t(n
−1) .
De la muestra se obtienen los siguientes resultados:
n = 200 , X = 168.3 , S X = 10.212 .
T C = 0.407 y V p = P (t(199) > 0.407) = 0.342 . Usando R-Commander:
El resultado mostrado en la figura 11 indica que no hay suficiente evi-dencia para afirmar que la estatura media es superior a 168 cms, porlo tanto se asume que la estatura media de los estudiantes es inferior o
igual a 168 (Esto se concluye porque el valor p es 0.342, es decir, el errorque se comete al rechazar H 0 con la informacion recopilada asumiendoque fuera cierta es muy grande y no debe rechazarse.
Pruebas de Hipotesis para la media de una
Poblacion No-Normal
Para un valor praticular de µX , µ0, se plantean tres tipos de hipotesis:
Con los datos de los estudiantes, se tiene la creencia de que el tiempomedio requerido para llegar a la universidad es menor a 20 min. Primeroes necesario determinar si la muestra proviene de una poblacion normal.
H 0 : Los tiempos de desplazamiento son normales
vsH a : Los tiempos de desplazamiento NO son normales
Usando el test de Shapiro-Wilks se tiene:
Fig. 12: Prueba de Normalidad para Tiempos
El Valor p registrado en esta prueba indica que se debe rechazar H 0 y
concluir que los tiempos de desplazamientos no son normales. Sea µX
el tiempo medio requerido para ir de casa o del trabajo a la universidady sea σ2
X la varianza de dichos tiempos. Se desea probar las hipotesis:
Las estadısticas descriptivas basicas para esta variable:
Var Tiempo
mean sd n
26.45714 20.85432 70
Con estos datos se tiene que:
Z C = 2.591 V p = P (Z < 2.591) = 0.9952 .Como el Valor P es tan grande, no se puede rechazar H 0, es decir, segunlos datos registrados, el tiempo medio de desplazamiento es mayor oigual a 20 min.
Ejemplo 4
Se desea establecer si la Masa propedio de los estudiantes de la univer-sidad es superior a 63 kgr. Las hipotesis a probar son:
H 0 : µX = 63 vs H a : µX > 63 .
Para determinar el estadıstico de prueba, es necesario establecer si lasmasas se comportan normalmente o no. En este caso se desean probarlas hipotesis:
H 0 : Las masas tienen una distribucion normal
vsH 0 : Las masas NO tienen una distribucion normal
El Valor P de esta prueba es pequeno, por lo cual se puede rechazarH
0 y concluir que las Masas NO se distribuyen normalmente. Asi lascosas, el estadıstico de prueba es:
Z C =X − 63
S X√ 200
aprox N (0, 1) .
Los resultados muestrales son:
n = 200 , X = 65.619 , S X = 8.897 .
Z C = 4.163 y V p = P (Z > 4.163) = 0.0000157
Dado que el Valor P es extremadamente pequeno, puede rechazarse H 0con mucha seguridad y concluir que, segun la informacion recolectada,la masa media de los estudiantes supera los 63 Kgr.
Pruebas de Hipotesis para la diferencias
de medias de poblaciones normales
Sea X 1, X 2, . . . , X n una muestra aleatoria tal que X i ∼ N (µX , σ2X ) y sea
Y 1, Y 2, . . . , Y m otra muestra aleatoria tal que Y j ∼ N (µY , σ2Y ), ambas
muestras aleatorias independientes entre si. El interes en este caso escomparar las medias de ambas distribuciones. Una manera practica dehacerlo es considerando la diferencia µX −µY . Sea δ 0 un valor conocido.Las hipotesis a probar respecto a la diferencia µX − µY son:
H 0 : µX − µY = δ 0 vs H a :
µX − µY < δ 0µX − µY > δ 0µX − µY = δ 0
.
El estadıstico de prueba dependera de como son las varianzas pobla-cionales.
1. σ2X y σ2
Y son conocidas . En este caso el estadıstico de prueba es:
Y son desconocidas . En este caso la obtencion del estadısticode prueba dependera de la relacion entre las varianzas poblaciona-les de ambas muestras. Una manera de establecer la relacion entrelas varianzas de dos poblaciones es a traves de un procedimientode Prueba de Hipotesis.
Pruebas de Hipotesis para Cociente de Varianzas
Bajo los supuestos antes descritos, se desean probar las hipotesis:
H 0 : σ2
X
σ2Y
= λ0 vs H a :
σ2X
σ2Y
< λ0
σ2X
σ2Y
> λ0
σ2X
σ2Y
= λ0
,
donde λ0 es un valor conocido. El estadıstico de prueba es:
F C = 1
λ0
S 2X
S 2X
∼ f (n − 1, m − 1) .
Region Crıtica
F C |F C < 1f α(m−1,n−1)
F C |F C > f α(n − 1, m − 1)F C |F C <
1f α2
(m−1,n−1) o F C > f α
2(n − 1, m − 1)
.
El caso mas usado se tiene cuando λ0 = 1, que corresponde a pro-
bar si σ2X
σ2
Y
= 1. Si se rechaza H 0
se concluye que σ2
X = σ2
Y
, en caso
contrario que σ2X = σ 2
Y .
Superado este paso, se consideran dos casos para el estadıstico deprueba para la hipotesis de diferencia de medias.
∼ t (n+m−2) ; S 2 p = (n − 1)S 2X + (m − 1)S 2Y n + m − 2
.
Region Crıtica y Valor p:
T C | T C < −tα(n + m − 2)T C | T C > tα(n + m − 2)
T C | |T C | > tα2
(n + m − 2);
P (t(n + m − 2) < T C )P (t(n + m − 2) > T C )
2 P (t(n + m − 2) > |T C |).
b) σ2X = σ 2
Y . En este caso el estadıstico de prueba es:
T C = X − Y − δ 0 S 2X
n +
S 2X
m
∼ t(ν ) ; ν =S 2
X
n
+ S 2
Y
m
2
S 2
Xn
2
n + 1 +
S 2
Y m
2
m + 1
− 2 .
La region de rechazo y el calculo del Valor p estan dados por:
T C | T C < −tα(ν )T C | T C > tα(ν )
T C | |T C | > tα2
(ν );
P (t(ν ) < T C )P (t(ν ) > T C )
2 P (t(ν ) > |T C |).
Ejemplo 5
Retomando la base de datos de los estudiantes de la universidad, setiene la creencia de que la estatura media en los hombres es superiora la estatura media en la mujeres. Primero se verifica si las Estaturasse distribuyen Normalmente discriminando por genero. Para lograrlose deben separar las muestras por Genero. Usando R se utilizan loscomandos:
> est_muj <- Datos[Datos[,1]=="MUJER",]
> est_hom <- Datos[Datos[,1]=="HOMBRE",]
Luego se prueba si ambas muestras provienen de poblaciones norma-
les. En la figura 13 se ilustra el uso de la Prueba Shapiro-Wilks enR-Commander.
Con un procedimiento similar se realiza la prueba para las estaturas delas mujeres. Los resultados se muestran a continuacion:
Ambas pruebas indican que la distribucion de las estaturas es Normal,sin importar el Genero. Con esto en mente lo que se tienen es un parde muestras aleatorias independientes que provienen de poblacionesnormales. Estas muestras representan las Estaturas de los estudiantes(Hombres y Mujeres).
Sean µ
X y σ2
X la media y varianza poblacionales de las Estaturas pa-ra los hombres y sea µY y σ2Y la media y varianza poblacionales de
las Estaturas para las Mujeres. Los resultados muestrales para ambasmuestras son:
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
4.293657 Inf
sample estimates:
mean in group HOMBRE mean in group MUJER
171.3184 163.2344
Debido a que se tiene un Valor P muy pequeno, se rechaza H 0 y se
concluye que la informacion muestral apoya la afirmacion de que laEstatura media de los hombres es superior a la de las mujeres. En elsiguiente grafico se evidencia esta conclusion.
Fig. 17: BoxPlot para estaturas discriminado por Genero
Sea X 1, X 2, . . . , X n una muestra aleatoria tal que E [X i] = µX yV ar[X i] = σ2
X ; sea Y 1, Y 2, . . . , Y m otra muestra aleatoria tal que E [Y j ] =µY y V ar[Y j] = σ2
Y , ambas muestras aleatorias independientes entre si.El interes en este caso es comparar las medias de ambas distribuciones.Una manera practica de hacerlo es considerando la diferencia µX −µY .Sea δ 0 un valor conocido. Las hipotesis a probar respecto a la diferenciaµX − µY son:
H 0 : µX − µY = δ 0 vs H a :
µX
−µY < δ 0
µX − µY > δ 0µX − µY = δ 0
.
El estadıstico de prueba tiene una distribucion aproximadamente Nor-mal, cuando n y m son grandes(TLC):
a) Si las varianzas poblacionales son conocidas, entonces:
Z C =X − Y − δ 0
σ2X
n +
σ2Y
m
aprox N (0, 1) .
b) Si las varianzas poblacionales no son conocidas, entonces:
Z C =X − Y − δ 0
S 2X
n +
S 2Y
m
aprox N (0, 1) .
La region de rechazo y Valor p de la prueba se calculan de manerasimilar:
R.C. =
Z C |Z C < − z αZ C |Z C > z α
Z C | |
Z C |
> z α2
; V p =
P (Z < Z C )P (Z > Z C )
2 P (Z >
|Z C
|)
Ejemplo 6
Usando la misma base de datos de los estudiantes, se desea establecer
si las personas que no trabajan emplean en promedio mas tiempo en
desplazamiento a la universidad que los que trabajan. Sea µ
X el tiem-po medio requerido por un estudiante que no trabaja para llegar a launiversidad y sea σ2
X la varianza poblacional de dichos tiempos. Adic-cionalmente sea µY el tiempo medio requerido por un estudiante quetrabaja para llegar a la universidad y sea σ 2
Y la varianza poblacional dedichos tiempos. Ambas muestras aleatorias son independientes entre si.Un resumen descriptivo de ambas muestras se muestra a continuacion.
mean sd data:n
NO 27.07826 20.4698 46
SI 25.26667 21.9693 24
Observe que en este caso se desconocen las varianzas poblacionales paraambas muestras. Las hipotesis a probar son:
H 0 : µX − µY = 0 vs H a : µX − µY > 0 .
Para probar este par de hipotesis se requiere saber si los tiempos paralos que trabajan y para los que no trabajan se distribuyen normal-mente. Primero se separan los datos para los que trabajan y los queno-trabajan:
> tiem_trab <- data[data[,10]=="SI", ]
> tiem_ntrab <- data[data[,10]=="NO", ]
H 0 : Los tiempos de desplazamiento para los que no trabajan son normales
vs
H a : Los tiempos de desplazamiento para los que no trabajan NO son normales
Fig. 18: Prueba de Normalidad para Tiempos discriminado por TRAB
El Valor P encontrado en ambas pruebas permite concluir que los tiem-pos de desplazamiento, tanto para los que no trabajan como para losque trabajan, NO son normales. Retomando las hipotesis iniciales, elestadıstico de prueba sera:as hipotesis a probar son:
Z C =X − Y − 0
S 2X
n +
S 2Y
m
aprox N (0, 1) .
De los resultados muestrales se tiene que:
X = 27.078 S X = 20.4698 n = 46 ; X = 25.267 S X = 21.9693 m = 24 .
Con esto se tiene que:
Z C = 0.335 y V p = P (Z > 0.335) = 0.3688125 .
Este Valor P no permite rechazar H 0 y por lo tanto la evidencia mues-
tral no es suficiente para afirmar que el tiempo medio empleado por losque No trabajan es superior al tiempo medio empleado por los que tra-bajan; por lo tanto el tiempo medio empleado por los que no trabajanes inferior o igual al tiempo medio de los que trabajan. Un diagramade Box-Plot permite evidenciar graficamente esta afirmacion.
Fig. 19: BoxPlot para Tiempos discriminados por TRAB
Pruebas de Hipotesis para una proporcion
Sea X una variable aleatoria que representa el numero de exitos en nensayos. Sea sabe que X ∼ Bin(n, p). Sea p0 un valor particular para
p. Las hipotesss a probar son:
H 0 : p = p0 vs H a :
p < p0
p > p0
p = p0
.
Si n es grande, el estadıstico de prueba se basa en el TLC. En este casoel estadıstico de prueba es:
Z C = ˆ p − p0
p0 (1− p0)n
aprox N (0, 1) .
Ejemplo 7Se tiene la creencia de que el porcentaje de estudiantes que no trabajanes superioral 60 %. ¿Es esta afirmacion coherente con los datos recopila-dos? Sea X la variable aleatoria nque representa el numero de estudian-tes que no trabajan en la muestra de 70. Se tiene que X ∼ Bin(70, p).
Aca, p0 = 0.6. Como n = 70 es grande, el estadıstico de pruebe es:
Z C = ˆ p − 0.6
0.6 (1−0.6)70
aprox N (0, 1) .
Usando R-Commander, se obtienen los siguiente resultados:
Fig. 20: Prueba de Hipotesis para proporcion de estudiantes que no trabajan.
De la figura anterior se tiene que
Z C = √ 0.95238 = 0.9759 y V p = P (Z > 0.9759) = 0.1646 .
Este Valor P indica que la Hipotesis nula No puede ser rechazada yconcluir que el procentaje de estudiantes que No trabajan es inferior oigual al 60 %.
La justificacion por la cual en el R-Commander aparece un estadıstico
diferente
X-square
, es debido al hecho de que:
Z 2C =
ˆ p − p0
p0 (1− p0)n
aprox χ2(1) .
El Valor P que aparece alli registrado se calcula como:
V p = P (χ2(1) > 0.95238) = 0.1646 .
Las pruebas son equivalentes.
Pruebas de Bondad de Ajuste
Suponga que se tiene una experimento multinomial, es decir una seriede ensayos (n ensayos) identicos e independientes y k posibles cate-gorıas o clases. Sea p i la probabilidad de clasificar en la categorıa i ysea N i el numero de ensayos que caen en la categorıa i de los n ensayos.Se tiene que N 1 + · · · + N k = n. Cada N i sera una v.a. binomial conparametros n y pi , i = 1, 2
· · · , k. El numero esperado de ensayos en
la categorıa i es E [N i] = n pi ; i = 1, 2 · · · , k
Se desea establecer si los datos observados provienen de cierta distri-bucion especial con c.d.f. F 0(x). Las hipotesis a probar son:
H 0 : F (x) = F 0(x) vs H a : F 0(x) no es la c.d.f. asociada a la muestra.
Si F 0 esta claramente especificada, es posible conocer valores particu-lares para los pi ; i = 1, 2, . . . , k y asi obtener E [N i]. En otro caso, los pi deberan ser estimados y en vez de tener E [N i], se estima con n ˆ pi,i = 1, 2, . . . , k.
Probabilidad p1 p2 . . . pk 1Frec esperada n p1 n p2 n pk n
Si n pi ≥ 5 ; i = 1, 2 . . . , k , la v.a.
X =ki=1
(N i − n pi)2
n pi∼ χ 2(k − 1) .
Observe que
X =ki=1
(N i − n pi) 2
n pi=
todas las celdas
(f.obs − f.esp) 2
f.esp ∼ χ2(k − 1) .
Suponga que se desea establecer valores particulares para los p i, es de-cir, se quieren probar las hipotesis:
H 0 : p i = pi 0 ; i = 1, 2 . . . , k vs H a : ∃ j tal que p j = p j 0 .
Estadıstico de Prueba:
X C =
ki=1
(ni − n pi)2
n pi∼ χ 2(k − 1) .
El Valor P de esta prueba se calcula como:
P (χ2(k − 1) > X C ) .
Si alguna de las categorıas no cumple con el supuesto de que n pi ≥ 5debe unirse a otra adyacente y formar una nueva categorıa. Esto cla-ramente reduce los grados de libertad de la χ2.
Ejemplo 8
Con base en un estudio realizado el semestre pasado, se encontro quelos estudiantes estaban distribuıdos en los seis estratos en los siguientesporcentajes:
Se desea establecer si la informacion recopilada en el siguiente semes-tre permite corroborar si estas proporciones se mantienen igual o hancambiado. Se desea probrar las hipotesis:
El Valor P indica que no se puede rechazar H 0, por lo que se asumeque las proporciones por estratos NO han cambiado.
Sinembargo, esta prueba tiene un error, y es que el supuesto de quenpi ≥ 5 no se cumple para las ultimas dos categorıas. Para hacer bienesta prueba se requiere agrupar las categorıas Estratos 5 y 6 en unasola, digamos 5+. El codigo en R para hacerlo es el siguiente:
Fig. 22: Prueba de Bondad de Ajuste para Estrato Recodificado.
El Valor Pindica que no se debe rechazar H 0 y por lo tanto la conclusiones que las proporciones por estratos no han cambiado en comparacioncon las del semestre pasado.