-
BIOESTADSTICAParaAntroplogosFsicos
JosLuisCastrejnyDianaTroncoso
[Seleccionarfecha]
NotasparaelcursodeBioestadstica impartidoenelsegundosemestrede
la
licenciaturaenAntropologaFsicadelaEscuelaNacionaldeAntropologaeHistoria.Versinpreliminar.
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
2
UNIDAD I Introduccin Como su nombre lo dice, el objetivo
principal de la ESTADSTICA INFERENCIAL es inferir los PARMETROS
POBLACIONALES; es decir, a partir de una muestra aleatoria,
establecer con la mayor probabilidad posible los valores
desconocidos de la poblacin estudiada; por ejemplo; la media ,
proporcin p o varianza 2 . Generalmente, el investigador puede
plantear hiptesis sobre los parmetros; por ejemplo:
HIPTESIS LITERAL DEL INVESTIGADOR
HIPTESIS ESTADSTICA DEL INVESTIGADOR
La proporcin de personas en la ENAH que usan lentes es menor a
0.2 20.0: : La media de la estatura en las mujeres estudiantes de
la ENAH es menor a 165 cm. 165: : Empero, es tarea de la estadstica
inferencial determinar si estas hiptesis son vlidas o no, mediante
alguna de las siguientes tcnicas: 1. ESTIMACIN:
a) Puntual: En la cual, a partir de los datos de una muestra y
la distribucin probabilstica de la variable, se estima un valor
para el parmetro.
b) Por intervalos: A travs de la cual, partiendo de la
informacin de la muestra y la distribucin probabilstica de la
variable, se define un rango de valores entre los cuales
probablemente se encuentra el del parmetro.
2. PRUEBAS O CONTRASTES DE HIPTESIS: Estrategia que, utilizando
los datos
de la muestra y la distribucin probabilstica de la variable,
define la probabilidad de cometer un error en la estimacin y se
determina una regin de rechazo para la hiptesis.
ESTIMACIN PUNTUAL Sea la letra con la que se denota un parmetro
poblacional. Si se toma una muestra aleatoria de tamao n ( )nXXXX
,...,,, 321 , es una funcin de los valores de la muestra: ( )nXXXXf
,...,,, 321= ; es decir, es un estimador puntual de . A. MTODO PARA
HALLAR ESTIMADORES PUNTUALES Existen diversos procedimientos para
encontrar estimadores puntuales de los parmetros poblacionales ;
por ejemplo: el mtodo de momentos, el de mnimos
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
3
cuadrados y el de funcin de verosimilitud. Por el momento,
revisemos slo ste ltimo: A.1) MTODO DE FUNCIN DE VEROSIMILITUD Si
nXXXX ,...,,, 321 son los datos de una muestra aleatoria que se
obtuvo de cierta poblacin cuya funcin de probabilidad es ( )xP , la
funcin de verosimilitud de la muestra es ( ) ( ) ( ) ( ) ( )nn
XPXPXPXPXXXXL ...,...,,, 321321 = . Por ello, este mtodo de
estimacin consiste en encontrar el valor del parmetro donde la
funcin ( )nXXXXL ,...,,, 321 alcance su mximo; es decir, hay que
calcular la derivada de d
dL, igualarla a cero y despejar . Veamos, algunos ejemplos de
esto:
A.1.1) Estimador del parmetro Sean nXXXX ,...,,, 321 los datos
de una muestra aleatoria que se obtuvo de cierta poblacin donde la
variable X tiene distribucin poisson con parmetro [X~P( )]. Cul es
el mejor estimador de ste parmetro? Sabemos que la distribucin de
la variable X es:
( )!x
exPx=
Por ende, cada iX tiene tal distribucin:
( )!1
1
1
xexP
x= , ( ) !222
xexP
x= , ( )!3
3
3
xexP
x= ,, ( )!n
x
n xexP
n=
Siguiendo la expresin ( ) ( ) ( ) ( ) ( )nn XPXPXPXPXXXXL
...,...,,, 321321 = , la funcin de verosimilitud de esta variable
es:
( )!!!!
,...,,,321
321
321
n
xxxx
n xe
xe
xe
xeXXXXL
n =
Lo cual puede abreviarse a:
!...321
...321
n
xxxxn
xxxxeL
n
=
++++
Y ello reducirse en:
!
1
i
xn
xeL
n
ii
= =
Porque =
=++++n
iin xXXXX
1321 ... in xXXXX = ...321
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
4
Ahora hay que maximizar la funcin. Si sta es una funcin
cualquiera, los puntos crticos de ( )xf son los mismos que los
valores crticos del logaritmo natural ( )xf : ( ) 0ln =
dxxfd
= =
!lnln
1
i
xn
xeL
n
ii
Como: baba lnlnln =
( )!lnlnln 1 ixn xeLn
ii
= =
Como: ( ) baba lnlnln += : ( ) ( )!lnlnlnln 1 ixn xeL
n
ii
+= =
Como: xe x =ln xyx y lnln = ( )!lnlnln
1i
n
ii xxnL +=
=
Y obtener la derivada: ( )
dxd
ddx
ddn
dLd in
ii
!lnlnln1
+= =
Como: ( ) ( )
dxxcdf
dxxdcf =
xdxxd 1ln = 0=
dxdc
011
+= =
n
iixnd
dL
Igualando a cero, el parmetro se convierte en estimador y resta
despejarlo:
01 =+=
n
iix
n
nx
n
ii
==1
1
nxn
ii =
= 1 =
=n
xn
ii
=x
Y as sabemos que al tener una variable aleatoria con distribucin
poisson [X~P( )], el estimador de mxima verosimilitud del parmetro
es la media muestral x .
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
5
A.1.2) Estimador del parmetro p Sean nXXXX ,...,,, 321 los datos
de una muestra aleatoria que se obtuvo de cierta poblacin, donde la
variable X tiene distribucin bernoulli con parmetro p [X~Be( p )].
Cul es el mejor estimador de ste parmetro? Sabemos que la
distribucin de la variable X es:
( ) ( ) 1,0;1 1 == xppxP xx Por ende, cada iX tiene tal
distribucin: ( ) ( ) 11 11 1 xx ppxP = , ( ) ( ) 22 12 1 xx ppxP =
, ( ) ( ) 33 13 1 xx ppxP = , ( ) ( ) nn xxn ppxP = 11
Siguiendo la expresin ( ) ( ) ( ) ( ) ( )nn XPXPXPXPXXXXL
...,...,,, 321321 = , la
funcin de verosimilitud de esta variable es: ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) nn xxnxxxxxx ppxPppxPppxPppxPL ===== 1131211 1111
332211
Lo cual puede abreviarse a:
( ) nnxxxx xxxxppL ++++= ++++ 1...111 321...321 1 Y ello
reducirse en:
( ) = == n
ii
n
ii xn
x
ppL 11 1
Porque =
=++++n
iin xXXXX
1321 ... in xXXXX = ...321
Ahora hay que maximizar la funcin. Si sta es una funcin
cualquiera, los
puntos crticos de ( )xf son los mismos que los valores crticos
del logaritmo natural ( )xf : ( ) 0ln =
dxxfd
( )
= == n
ii
n
ii xn
x
ppL 11 1lnln
Como: ( ) baba lnlnln += ( ) += ==
n
ii
n
ii xn
x
ppL 11 1lnlnln Como: xyx y lnln =
( )pxnpxL ni
i
n
ii
+=
==1lnlnln
11
Y obtener la derivada:
( )pxnpxdpLd n
ii
n
ii
+=
== 111ln
11
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
6
( )pxn
p
x
dpLd
n
ii
n
ii
+=
==
1ln 11
Y se multiplica por menos 1, por ende
( )pxn
p
x
dpLd
n
ii
n
ii
=
==
1ln 11
Igualando a cero, el parmetro p se convierte en estimador p y
resta despejarlo:
( ) 0111 =
==p
xn
p
xn
ii
n
ii
( )pxn
p
xn
ii
n
ii
111
=
==
( )
= ==
n
ii
n
ii xnpxp
111
===
=n
ii
n
ii
n
ii xpnpxpx
111
npxn
ii
1=
=
pn
xn
ii
1 ==
px =
Y as tambin descubrimos que al tener una variable aleatoria con
distribucin bernoulli [X~Be( p )], el estimador de mxima
verosimilitud del parmetro p es la media muestral x . B.
PROPIEDADES PARA DETERMINAR EL MEJOR ESTIMADOR B.1) PROPIEDADES
GENERALES a) INSESGAMIENTO
Si es un estimador del parmetro poblacional , se dice que es
insegado si ( ) =E . Por el contrario, si es un estimador sesgado
de , se define el sesgo de como ( ) ( ) = ESesgo .
b) SUFICIENCIA
Se dice que un estimador de es suficiente cuando su clculo
involucra toda la informacin de una muestra.
c) MNIMA VARIANZA
Se dice que 1 es un estimador de mnima varianza de si para
cualquier otro estimador 2 se cumple que la varianza del primero es
menor que la del segundo: ( ) ( )21 VarVar < .
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
7
d) EFICIENCIA Siendo 1 y 3 dos estimadores insesgados de , se
dice que 1 es ms eficiente si su varianza es menor a la de 3 : ( )
( )31 VarVar < .
e) CONSISTENCIA
Se dice que un estimador de es consistente si, cuando n es
grande ( )Nn , tender a ( ) , siendo su diferencia muy pequea. Esto
debido a que si 0>E , E es muy pequeo y ( ) 1 =
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
8
INSESGAMIENTO ( ) =E ( ) ( )( ) ( )[ ] [ ] [ ]
===+=+
=+=
+=
222
21
21
21
21
2
1
11
2
n
nn
xExE
xxExx
EE
2 es un estimador insesgado de porque su esperanza es ( ) =2E .
SUFICIENCIA ( )nXXXX ++++ ...321 2 12 n
xx += 2 no es un estimador suficiente, pues su clculo slo echa
mano de slo 2 datos de
la muestra aleatoria y no del resto de la informacin
obtenida.
PROPIEDAD ESTIMADOR 3
INSESGAMIENTO ( ) =E
( )( )( ) ( ) ( ) ( )[ ]
[ ][ ]
===
++++=
++++=
++++=
++++=
nnn
n
n
xExExExEn
xxxxn
E
nxxxxEE
n
n
n
1
...1
...1
...1
...
321
321
3213
3 es un estimador insesgado de pues su esperanza es ( ) =3E .
SUFICIENCIA ( )nXXXX ++++ ...321 n
XXXX n++++= ... 3213 Asimismo, 3 es un estimador suficiente ya
que utiliza todos los datos de la muestra aleatoria. Ahora bien,
comparemos algunas varianzas de tres parmetros:
PROPIEDAD VARIANZA DE ESTIMADORES MNIMA VARIANZA ( ) ( )21
VarVar <
La varianza del estimador 1 es menor que la del estimador 2 ,
razn por la cual 1 tiene una mnima varianza.
EFICIENCIA ( ) ( )31 VarVar <
1
2 3
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
9
Siendo los dos insesgados, la varianza del estimador 1 es menor
que la del estimador 3 , razn por la cual 1 cumple con las
propiedades de mnima varianza y eficiencia. C. ESTIMADORES
APROPIADOS MS COMUNES Aunque es recomendable encontrar el estimador
adecuado a travs de un mtodo y comprobar que cumpla con todas las
propiedades, la teora estadstica afirma que los mejores estimadores
para los siguientes parmetros son:
PARMETRO ESTIMADOR
MEDIA POBLACIONAL
N
XN
ii
== 1 MEDIA
MUESTRAL n
Xx
n
ii
== 1
VARIANZA POBLACIONAL
( )N
xN
ii
=
= 12
2
VARIANZA MUESTRAL
( )1
1
2
2
==
n
xxs
n
ii
Pues este
estimador es sesgado:
( )n
xxs
n
ii
=
= 12
2
PROPORCIN POBLACIONAL N
Mp = PROPORCIN MUESTRAL nmp = INTERVALOS DE CONFIANZA y
CONTRASTE DE HIPTESIS A. INTERVALOS DE CONFIANZA A comparacin de la
estimacin puntual, la construccin de intervalos es una tcnica que
permite al investigador proponer un rango de valores entre los
cuales puede hallarse, con cierto grado de confianza (y por ende,
de error) el del parmetro poblacional . Otra ventaja de esta
metodologa es que, para calcular los valores L1 y L2 del
intervalo
21 LL
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
10
NULA 0H , que siempre incluye en su planteamiento algn signo de
igualdad ( )= ,, y que es casi siempre opuesta a lo que plantea la
hiptesis del investigador invH :
HIPTESIS DEL INVESTIGADOR HIPTESIS NULA
HIPTESIS ALTERNATIVA
0: invH 00 : =H 0: aH 0: aH
Si bien en los intervalos de confianza basta comparar el valor
hipottico 0 propuesto en la hiptesis del investigador invH contra
el intervalo de confianza obtenido con ( )1 por ciento de
confianza, la tcnica de contraste de hiptesis consiste, ya no en
confirmar o no la hiptesis del investigador invH , sino en
contrastar el resultado con la hiptesis nula 0H . B.2) ERRORES
POSIBLES Y SU CONTROL Dada una hiptesis nula 0H que puede ser
verdadera o falsa (no lo sabemos), el procedimiento de contraste de
hiptesis nos lleva a rechazarla o no. Sin duda alguna, como
investigadores quisiramos rechazar una hiptesis nula 0H falsa y no
rechazar una hiptesis nula 0H verdadera, pero existen las
posibilidades contrarias, a las cuales se denominan errores:
HIPTESIS NULA 0H VERDADERA FALSA SE RECHAZA ERROR TIPO I 9
NO SE RECHAZA 9 ERROR TIPO II La probabilidad de cometer el
ERROR TIPO I es conocido como la SIGNIFICANCIA de la prueba y se
denota por . A partir de ello tenemos que:
P= (error tipo I)
P= (rechazar 0H dado que 0H es verdadera )
P= (rechazar 0H | 0H es verdadera ) En general, la significancia
es desconocida, as que el investigador la fija. Como de ella
depende la probabilidad de cometer el error tipo I, se busca que
sea pequea; de ah que los valores ms comunes para la significancia
sean:
VALOR DE PROBABILIDAD DE ERROR TIPO I RAMA DE USO MS COMN 001.0=
%1.0 Medicina y campo experimental. 01.0= %0.1 Antropologa fsica.
05.0= %0.5 Antropologa fsica. 1.0= %0.10 Ciencias sociales.
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
11
Ahora bien, se define al ERROR TIPO II como la POTENCIA de la
prueba y se le denota con la letra , segn lo cual:
P= (error tipo II)
P= (no rechazar 0H dado que 0H es falsa )
P= (no rechazar 0H | 0H es falsa ) A diferencia de , el valor de
est fuera del control del investigador y slo puede reducrsele
aumentando el tamao de la muestra. Por ello es que, como veremos ms
adelante, se sabe que las pruebas no paramtricas son menos potentes
que las pruebas paramtricas, cuyo valor de es ms pequeo. B.3)
HIPTESIS NULAS Y SU REGIN DE RECHAZO Con respecto a la
significancia , cabe mencionar que su valor tambin determina la
regin de rechazo de la hiptesis nula 0H . Si sta incluye una
igualdad 00 : =H , la regin de rechazo, como en los intervalos de
confianza, se divide en dos, motivo por el cual se le denomina
prueba de dos colas o bilateral. Por el contrario, si la hiptesis
nula 0H contiene los signos o , ( 00 : H , 00 : H ), la regin de
rechazo queda slo de un lado, contrario al que seala el signo de
mayor o menor: ESTIMACIN DE LA MEDIA POBLACIONAL A. INTERVALO DE
CONFIANZA A.1) EN POBLACIONES CON DISTRIBUCIN NORMAL Si la variable
aleatoria tiene una distribucin normal con media y varianza 2 ,
sabemos que la expresin para estandarizarla es:
n
xZ = ~ N (0,1)
De acuerdo a esta frmula, el intervalo estara entre dos valores:
Z y Z , rodeados por un rea, denotada por , que delimita la
confianza del intervalo. Si 1 es el rea debajo de la curva,
entonces el intervalo de confianza puede especificarse como 1 y el
de cada cola es igual a 2 .
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
12
Partiendo de esto tenemos que la probabilidad del valor del
parmetro estandarizado Z est entre
21 Z y 21 Z :
=
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
13
El problema de esta expresin para determinar el intervalo de es
que supone conocer ; valor cuyo clculo, por s mismo, requiere el
dato de que estamos estimando:
( )N
xN
ii
=
= 12
Ante esta incoherencia, la opcin es sustituir por su estimador
puntual s :
( )1
1
2
==
n
xxs
n
ii
Pero ese simple detalle, cuando la poblacin es pequea ( )30n ,
de acuerdo al Teorema Central de Lmite puede asumirse que la
variable tiene una distribucin aproximadamente normal. Debido a
ello, la expresin para calcular el intervalo al ( )1 por ciento de
confianza para cuando se tiene una muestra grande de una poblacin
con distribucin desconocida es:
EXPRESIN PARA ENCONTRAR UN INTERVALO AL ( )1 POR CIENTO DE
CONFIANZA PARA CUANDO LA POBLACIN TIENE DISTRIBUCIN DESCONOCIDA
PERO 30>n
nsZxi
21
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
14
Donde x es la media muestral, 21
Z es el valor en tablas de la distribucin normal
con ( )21 por ciento de confianza, s la desviacin estndar de la
muestra y n es el tamao de la muestra. A.3) EJEMPLOS DE ESTIMACIN
1. Supongamos que la variable estatura de las mujeres estudiantes
de la ENAH sigue una distribucin aproximadamente normal. Los
siguientes datos (en centmetros) corresponden a una muestra
aleatoria de la poblacin: 160.5 181 158 152 170 164 160 167 160 152
160 153 157 155 155 156 170 158
Es posible concluir que la media de la poblacin es menor a 165
cm? Construir un intervalo de confianza para al 95%.
DATOS GENERALES X~N(,) 18=n 47.160=x 52.7=s
HIPTESIS 165:
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
15
b) Contestar: Qu se puede concluir respecto a la hiptesis?
DATOS GENERALES X~N(,) 16=n 44.63=x 96.34=s
HIPTESIS 60: >invH
CONFIABILIDAD Y SIGNIFICANCIA 05.0= 025.02 = 975.021 =
EXPRESIN
PARA INTERVALO
( )
nstx ni
1
21
VALOR DE ( )121
nt ( ) ( ) ..15116..1 lglgn == ( ) 1315.215975.1
21== tt n
APLICACIN ( )07.82,81.441696.341315.244.63 =
COMPARACIN CON LA
HIPTESIS ( )07.82,81.44 vs. 60: >invH
a) , Con un 95% de confianza se puede afirmar que la media del
tiempo de recorrido de los estudiantes de la ENAH a casa se halla
entre los 44.81 y los 82.07 minutos. b) , Como este intervalo
contiene valores menores a los 60 minutos, de acuerdo a la muestra
no hay evidencia estadstica que permita inferir, con un 5% de
error, que la hiptesis del investigador sea verdadera. 3. Los
siguientes datos corresponden a la circunferencia craneal en
centmetros de 15 nios recin nacidos:
33.38 34.34 33.46 32.15 33.95 34.13 33.99 33.85 34.45 34.10
34.23 34.19 33.97 32.73 34.05
Suponiendo que la poblacin tiene una distribucin normal, es
posible afirmar que la media sea menor a 35 cm? Comprobar esta
hiptesis construyendo un intervalo al 90% de confianza.
DATOS GENERALES X~N(,) 15=n 80.33=x 63.0=s
HIPTESIS 35:
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
16
APLICACIN ( )09.34,51.331563.07613.180.33 =
COMPARACIN CON LA
HIPTESIS ( )09.34,51.33 vs. 35:
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
17
REGIN DE RECHAZO DE
0H
Pero saber dnde se encuentra la regin de rechazo no basta; es
necesario conocer el valor de donde parte. Este dato se obtiene
reconociendo el tipo de distribucin probabilstica de la poblacin y
hallando en sus tablas el valor que comprenda tal confiabilidad.
Para una poblacin con distribucin normal, el valor de la regin de
rechazo se busca en las tablas para la distribucin t mediante la
expresin )1(
21
nt si la prueba es bilateral
o )1(1
nt si es unilateral. Basta buscar en las tablas de la
distribucin t los grados de
libertad e intersectarlo con la confiabilidad, que depende del
tipo de prueba. Finalmente, se agrega un signo negativo si la regin
de rechazo (o una parte) se encuentra en la seccin inferior del eje
de las X . Mientras tanto, para poblaciones cuya distribucin es
desconocida pero el tamao de la muestra es grande ( )30>n , el
valor donde inicia la regin de rechazo depende de las
expresiones
21Z (pruebas bilaterales) o 1Z (pruebas unilaterales). Por ende,
en
este caso hay que acudir a las tablas de distribucin normal y
buscar el valor de Z que tenga la probabilidad que indica la
confianza de la prueba y agregar un signo negativo si la regin de
rechazo est en la seccin inferior del eje de las X . B.2)
PROCEDIMIENTO PARA EL CONTRASTE DE HIPTESIS
1. Teniendo la hiptesis del investigador invH , plantear la
hiptesis nula 0H y la hiptesis alternativa aH .
2. Reconocer la distribucin probabilstica de la variable de
inters. 3. Determinar el ESTADSTICO DE PRUEBA y su distribucin
probabilstica. Es
decir, encontrar la expresin que contiene la comparacin del
estadstico muestral o estimador del parmetro con el valor hipottico
y la variabilidad muestral.
EXPRESIN PARA EL ESTADSTICO DE PRUEBA ct EN POBLACIONES
CON DISTRIBUCIN NORMAL ns
xtc 0=
EXPRESIN PARA EL ESTADSTICO DE PRUEBA cZ EN POBLACIONES
CON DISTRIBUCIN DESCONOCIDA PERO 30>n n
sxZc 0
=
4. Calcular el estadstico de prueba. 5. Determinar el nivel de
significancia de la prueba, as como la ubicacin y el
valor de la regin de rechazo de la hiptesis nula 0H .
1-
1/ Zt
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
18
6. Ubicar el estadstico de prueba con respecto a la regin de
rechazo de la hiptesis nula 0H ; si est dentro de ella, rechazar la
hiptesis nula 0H . Si est fuera, concluir con qu significancia o
confiabilidad no se rechaza.
B.3) EJEMPLOS DE CONTRASTE DE HIPTESIS 1. En una investigacin
sobre el rendimiento acadmico de los estudiantes de la ENAH, una
variable de inters fue el tiempo que tardan los alumnos para
trasladarse de su casa a la escuela, el cual se calcula menor a 90
minutos. Suponiendo que la poblacin tiene una distribucin normal y
a partir de los siguientes datos que se tomaron de una muestra
aleatoria:
40 75 60 120 70 90 180 80 60 5 30 5 60 45 15 75 100 45 85 40
100
a) Contrastar la hiptesis con un nivel de significancia de 0.05.
b) Construir un intervalo al 95% de confianza para la media de la
poblacin. Ante un problema as, lo primero que debemos hacer es
hacer explcitas las hiptesis:
HIPTESIS 90:
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
19
REGIN DE RECHAZO DE 90:0 H
05.0= 95.01 = 7247.1)20( 95.0)121( 05.01)1(1 === ttt n
Por ltimo, hay que ubicar el estadstico de prueba ct con
respecto a esta regin de rechazo y concluir:
UBICACIN DE ESTADSTICO DE PRUEBA ct CON RESPECTO A REGIN DE
RECHAZO DE 0H
a) , Como podemos ver, el estadstico de prueba 73.2=ct se
encuentra dentro de la regin de rechazo. Por ende, la hiptesis nula
90:0 H se rechaza y puede afirmarse que existe evidencia estadstica
que indica que la media del tiempo que hacen los estudiantes de su
casa a la ENAH es significativamente ( )05.0
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
20
variable es menor a 90. 2. Asumamos que la variable gasto diario
en relacin a estudios de la poblacin estudiantil de la ENAH es una
variable que sigue una distribucin aproximadamente normal. Si
suponemos que los siguientes datos corresponden a una muestra
aleatoria de estudiantes del turno vespertino:
100 50 35 40 60 25 20 15 30 70 20 75 30 12 50 35 40 30
a) Es posible afirmar que el gasto diario es mayor de $70.00?
Considrese una
significancia de 0.05. b) Encuentre el intervalo al 95% de
confianza para la media de la poblacin.
DATOS GENERALES X~N(,) 18=n 94.40=x 13.23=s
HIPTESIS 70: >invH 70:0 H 70: >aH
REGIN DE RECHAZO DE 0H 05.0= 95.01 = 7396.1)17( 95.0)118(
05.01)1(1 === ttt n
EXPRESIN PARA EL ESTADSTICO DE PRUEBA ct
ns
xt ic 0=
CLCULO DEL ESTADSTICO DE PRUEBA ct
33.5
1813.23
7094.40 ==ct
UBICACIN DE ESTADSTICO DE PRUEBA ct CON RESPECTO A REGIN DE
RECHAZO DE 0H
a) , El estadstico de prueba 33.5=ct se halla fuera de la regin
de rechazo, motivo por el cual la hiptesis nula 70:0 H no se
rechaza. De esta forma, no se tiene evidencia estadstica que
soporte la afirmacin del investigador de que la media del gasto
diario estudiantil sea significativamente ( )05.0>p mayor a
$70.00.
DATOS GENERALES X~N(,) 18=n 94.40=x 13.23=s
HIPTESIS 70: >invH 70:0 H 70: >aH
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
21
CONFIABILIDAD Y SIGNIFICANCIA 05.0= 025.02 = 975.021 =
EXPRESIN
PARA INTERVALO
( )
nstx ni
1
21
VALOR DE ( )121
nt ( ) ( ) ..17118..1 lglgn == 1098.2)17( 975.0)118(
025.01)1(
21=== ttt n
APLICACIN ( )44.52,44.291813.231098.294.40 =
COMPARACIN CON LA
HIPTESIS ( )44.52,44.29 vs. 70: >invH
b) , Con un 95% de confianza se puede inferir que la media del
gasto diario de la poblacin de la ENAH se encuentra entre los 29.44
y 52.44 pesos. Debido a ello, con un 5% de error, puede afirmarse
que la hiptesis del investigador era incorrecta al decir que el
promedio de este gasto era superior a los $70.00. PRUEBA DE
NORMALIDAD A fin de comprobar si la poblacin estudiada de la cual
se ha obtenido una muestra tiene distribucin normal, existen varios
mtodos para contrastar las siguientes hiptesis:
:oH La muestra procede de una poblacin con distribucin normal.
:aH La muestra no procede de una poblacin con distribucin
normal.
Dos de las ms utilizadas son la prueba de Kolmogorov-Smirnofv y
la prueba de Shapiro-Wilks, pero aqu slo revisaremos la segunda ya
que es ms potente. A. PRUEBA DE SHAPIRO-WILKS El procedimiento de
esta prueba consiste en obtener los estadsticos de orden
( ) ( ) ( ) ( )nXXXX ,...,,, 321 A.1) TEORA Teniendo una muestra
de tamao n con datos nXXXX ,...,,, 321 , lo primero que debe
hacerse es ordenarlos en forma ascendente para ubicar los
estadsticos de prueba
( ) ( ) ( ) ( )nXXXX ,...,,, 321 . Realizado esto, se obtienen
los siguientes datos:
DATOS
n Nmero total de datos de la muestra. 2s Varianza de la
muestra.
h Nmero total de sumandos que se harn en el estadstico de prueba
cW . Datos que se calcula de la siguiente forma:
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
22
Si n es un nmero par: 2nh = Si n es un nmero non:
21= nh
Ahora bien, se calcula el estadstico de prueba cW
EXPRESIN PARA EL ESTADSTICO DE PRUEBA
cW
( ) ( ) ( )( )2
11
,211
= += jjn
h
jnjc XXasn
W
Donde nja , es un valor en tablas de Coeficiente 1+ina
y ( )1+ jnX y ( )jX son los estadsticos de orden.
Como puede verse en la expresin, la sumatoria empieza con el 1=j
, por lo cual el primer ( )jX corresponde al primer estadstico de
orden, el segundo ( )jX al segundo estadstico de orden y as
sucesivamente. Mientras tanto, el primer valor de corresponde al
ltimo estadstico de orden, el segundo al penltimo, etc. Por tal
motivo, lo que se hace en cada expresin ( ) ( )[ ]21 jjn XX + es
restar los opuestos estadsticos de orden y elevarlos al cuadrado.
Siguiendo la expresin, tales valores se multiplican despus por el
nja , que se encontrar intersectando la fila con el nmero de j que
se utiliz en ese sumando contra la columna que tiene el valor de la
n muestral en las tablas de Coeficiente
1+ina . Por ltimo, la suma de esos productos se divide entre
producto de la varianza de la muestra 2s por ( )1n . Si el
estadstico de prueba cW es menor a
nW que se encuentra intersectando el dato de n contra la
significancia en las tablas de Percentiles para W , la hiptesis
nula
oH se rechaza. Esto es:
TIPO DE HIPTESIS oH oH SE RECHAZA SI:
:oH La muestra procede de una poblacin con distribucin
normal.
nc WW <
A.2) EJEMPLO Dados los siguientes datos encontrados:
6.951 =X 2.654 =X 5.757 =X 1.292 =X 9.755 =X 0.728 =X
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
23
5.283 =X 5.986 =X 4.429 =X Decir si la poblacin de donde
proviene esta muestra tiene o no distribucin normal con una
significancia de 0.05.
HIPTESIS :oH La muestra procede de una poblacin con distribucin
normal. :aH La muestra no procede de una poblacin con distribucin
normal.
ESTADSTICOS DE ORDEN
( ) 5.281 =X ( ) 2.654 =X ( ) 9.757 =X ( ) 1.292 =X ( ) 0.725 =X
( ) 6.958 =X ( ) 4.423 =X ( ) 5.756 =X ( ) 5.989 =X
DATOS
9=n (impar) 49.683/30.683
2 =s 428
219 ===h
Clculo del estadstico de prueba cW :
( ) ( ) ( )( )2
10
4
1,28
1
= = jjj
njc XXasW
( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( )[ ]{
}2469,4379,3289,2199,1281 XXaXXaXXaXXasWc +++=
( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( )[ ]{ }2463728192
0947.01976.03244.05888.081 XXXXXXXXsWc +++=
( ) ( ) ( ) ( ) ( )[ ]{ }22
2.655.750947.04.429.751976.01.296.953244.05.285.985888.081 +++=
sWc
( ) { }85.495381
2sWc =
( ) 2885.4953
sWc =
906.040.546685.4953 ==cW 906.092.5467
85.4953 ==cW
CONTRASTE DE HIPTESIS TIPO DE HIPTESIS oH :oH La muestra procede
de una poblacin con
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
24
distribucin normal. EXPRESIN PARA CONTRASTE DE
HIPTESIS n
c WW < VALORES FINALES A
CONTRASTAR 906.0=cW 829.0905.0 =W
, Como el valor del estadstico de prueba 83.0=cW no es menor a
829.0905.0 =W sino mayor, la hiptesis nula :oH La muestra procede
de una poblacin con distribucin normal no se rechaza y se puede
asumir que la poblacin de la que fue tomada esta muestra tiene una
distribucin normal. PRUEBAS NO PARAMTRICAS PARA LA MEDIA
POBLACIONAL Cuando la poblacin estudiada no tiene distribucin
normal y la muestra que de ella hemos obtenido es pequea ( )30
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
25
Teniendo eso, y de acuerdo al tipo de hiptesis nula oH
planteada, se aplica la siguiente frmula para calcular el
estadstico de prueba:
TIPO DE HIPTESIS oH 0: =oH 0: oH 0: oH EXPRESIN PARA EL
ESTADSTICO DE PRUEBA p n
n
niin C
p
=
=2
2 n
n
niin C
p
=
+=2
n
n
niin C
p
=
=2
En todos los casos, si el valor resultante del estadstico de
prueba p es menor a la significancia determinada por el
investigador ( )
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
26
9.1011 =X ( ) 1.1129.1011 ==d 9 3.1212 =X ( ) 3.0123.1212 ==d 9
5.1113 =X ( ) 5.0125.1113 ==d 9 5.1114 =X ( ) 5.0125.1114 ==d 9
6.1215 =X ( ) 6.0126.1215 ==d 9
TOTALES 5 9
DATOS 5=+n 9=n { } 99,5 =n 1495 =+=n
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS oH
12: oH EXPRESIN
PARA CALCULAR EL ESTADSTICO DE PRUEBA p n
n
niin C
p
=
=2
CLCULO DE p 14
14
914
2
== i
iCp
21.0163843473
1638414141314121411141014914 ==+++++= CCCCCCp
EXPRESIN PARA
CONTRASTE DE HIPTESIS
( )p menor a 12 onzas, as que las demandas interpuestas ante la
PROFECO no tienen sustento. B. PRUEBA DE RANGOS DE WILCOXON Prueba
no paramtrica cuyo contraste de hiptesis es ms potente que la del
signo, ya que no slo toma en cuenta las diferencias del valor de
cada dato de la muestra con el valor hipottico, sino tambin
considera los rangos asignados al valor absoluto de tales
diferencias. B.1) TEORA Al igual que en la prueba del signo,
teniendo una muestra de tamao n con datos
nXXXX ,...,,, 321 , lo primero que debe hacerse aqu es calcular
las diferencias id de estos datos con respecto al valor hipottico 0
a travs de la frmula ( )0= ii Xd .
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
27
De ello se obtiene el valor absoluto id de cada id , pero se
marca si su origen fue positivo o negativo.
iX ( )0= ii Xd id signo 1X ( )011 = Xd 2X ( )022 = Xd 3X ( )033
= Xd ( )... ( )... nX ( )0= nn Xd
A continuacin, tales valores se ordenan de menor a mayor.
Asimismo, descontando los id cuyo valor fue cero, se empieza a
numerar el resto de los datos para asignarles un lugar y un rango,
el cual se deduce del lugar que tiene (si hay slo un dato con tal
valor) o promediando los lugares que ocupan los datos con igual
valor.
EJEMPLO
id id ordenados
ascendentemente Lugar
Valor de
rango
Rangos de id que provienen de
id positivo
Rangos de id que provienen de
id negativo 1+ 0 3+ 1+ 1 1 1 3- 2- 2 2.5 2.5 0 2+ 3 2.5 2.5 4-
3+ 4 5 5 2- 3- 5 5 5 3+ 3+ 6 5 5 2+ 4- 7 7 7
Posteriormente, se distinguen los rangos de id que provienen de
id positivo o negativo a fin de poder obtener todos los siguientes
datos:
DATOS +T Suma de los valores de los rangos de id que provienen
de id positivo T Suma de los valores de los rangos de id que
provienen de id negativo. T Valor menor entre +T y T .
De acuerdo al tipo de hiptesis nula oH es que se utilizar una de
estas T y se le comparar con una T de las tablas de Wilcoxon.
TIPO DE HIPTESIS oH 0: =oH 0: oH 0: oH T DE TABLAS
CORRESPONDIENTE PARA ESTADSTICO DE PRUEBA
nT2
nT nT
Donde n es el nmero total de 0id y
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
28
o 2 es el valor de la significancia En todos los casos, si la T
de los datos es menor o igual a la T de tablas, la hiptesis nula oH
se rechaza. En otras palabras:
TIPO DE HIPTESIS oH oH SE RECHAZA SI:
0: =oH nTT 2
0: oH nTT 0: oH nTT +
B.2) EJEMPLO 1. Una compaa surte botellas de refresco que se
etiquetan con 12 onzas. Cuando la Procuradura Federal del
Consumidor (PROFECO) prueba una muestra aleatoria de botellas,
obtiene las siguientes cantidades:
4.111 =X 2.124 =X 5.127 =X 9.1110 =X 5.1113 =X 8.112 =X 9.115 =X
0.128 =X 9.1011 =X 5.1114 =X 7.113 =X 0.116 =X 1.129 =X 3.1212 =X
6.1215 =X
Si utilizamos un nivel de significancia de 0.05, existe
suficiente evidencia para documentar la acusacin denunciada a la
PROFECO de que la compaa embotelladora est engaando a los
consumidores dando cantidades menores de 12 onzas?
HIPTESIS 12:
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
29
5.1113 =X ( ) 5.0125.1113 ==d 0.5 - 5.1114 =X ( ) 5.0125.1114
==d 0.5 - 6.1215 =X ( ) 6.0126.1215 ==d 0.6 +
id id ordenados
ascendentemente Lugar
Valor de
rango
Rangos de id que provienen de
id positivo
Rangos de id que provienen de
id negativo 0.6 - 0 0.2 - 0.1 - 1
2.0 2.0
0.3 - 0.1 + 2 2.0 0.2 + 0.1 - 3 2.0 0.1 - 0.2 - 4 4.5 4.5 1.0 -
0.2 + 5 4.5 0.5 + 0.3 - 6 6.5 6.5 0 0.3 + 7 6.5 0.1 + 0.5 + 8
9.0 9
0.1 - 0.5 - 9 9 1.1 - 0.5 - 10 9 0.3 + 0.6 - 11 11.5 11.5 0.5 -
0.6 + 12 11.5 0.5 - 1.0 - 13 13 13 0.6 + 1.1 - 14 14 14
DATOS 5.33=+T 50.71=T { } 5.3350.71,5.33 =T 14=n
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS oH
12: oH T DE TABLAS
CORRESPONDIENTE PARA ESTADSTICO
DE PRUEBA
nT
EXPRESIN PARA CONTRASTE DE
HIPTESIS nTT +
VALORES FINALES A CONTRASTAR 5.33=+T 26
1405.0 == TT n
, Para este caso, el valor de 5.33=+T no es menor a la T de
tablas 261405.0 =T , motivo por el cual la hiptesis nula 12: oH no
se rechaza. Debido a ello corroboramos la conclusin obtenida con la
prueba del signo: no siendo el contenido promedio envasado por la
embotelladora significativamente ( )05.0>p menor a 12 onzas, se
puede afirmar que las demandas interpuestas ante la PROFECO no
tienen sustento.
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
30
ESTIMACIN DE LA PROPORCIN POBLACIONAL p A. FUNDAMENTOS Cuando se
tiene una variable cualitativa que toma dos valores { }( )1,0=x y
que se repite n veces en una poblacin de tamao N , M es el nmero de
eventos que presentan la caracterstica de inters ( )1=x . Por ende,
dividiendo M entre N obtenemos la proporcin poblacional: N
Mp = No obstante, la proporcin poblacional p , como el resto de
los parmetros, es un valor desconocido, razn por la cual a menudo
es de inters estimar su valor mediante un intervalo de confianza y
una prueba de hiptesis contra un valor hipottico 0p . B.
CONDICIONES PARA SU ESTIMACIN Se puede aplicar una prueba de
hiptesis sobre la proporcin muestral p siempre y cuando acorde al
Teorma Central de Lmite se tenga una muestra de tamao n con una
proporcin muestral n
mp = que cumpla con los siguientes tres supuestos:
1. 5 >= mpn 2. ( ) 51 >= mnpn 3. 30>n Cuando tales
condiciones no se cumplen, es necesario tomar una muestra ms
grande. C. INTERVALO DE CONFIANZA La expresin para encontrar el
intervalo de confianza para la proporcin poblacional p es:
EXPRESIN PARA ENCONTRAR UN INTERVALO
AL ( )1 POR CIENTO DE CONFIANZA PARA p CUANDO LA POBLACIN TIENE
DISTRIBUCIN
APROXIMADAMENTE NORMAL ESTNDAR
( )
n
ppZpp 121
D. CONTRASTE DE HIPTESIS D.1) HIPTESIS NULAS Y SU REGIN DE
RECHAZO Cuando se quiere estimar el valor de la proporcin
poblacional p se pueden plantear las siguientes hiptesis:
HIPTESIS DEL INVESTIGADOR HIPTESIS NULA
HIPTESIS ALTERNATIVA
0: ppH inv 00 : ppH = 0: ppH a 0: ppH inv < 00 : ppH 0: ppH a
< 0: ppH inv > 00 : ppH 0: ppH a >
Segn sea el caso y de acuerdo a la significancia , la regin de
rechazo para la hiptesis nula 0H ser:
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
31
HIPTESIS
PRUEBA BILATERAL O
DE DOS COLAS
21
0: ppH inv 00 : ppH = 0: ppH a
REGIN DE RECHAZO DE
0H
PRUEBA UNILATERAL
O DE UNA COLA
1
0: ppH inv < 00 : ppH 0: ppH a <
REGIN DE RECHAZO DE
0H
0: ppH inv > 00 : ppH 0: ppH a >
REGIN DE RECHAZO DE
0H
Cabe mencionar que, al igual que en el contraste de hiptesis
sobre , en esta prueba es necesario encontrar el valor donde inicia
la regin de rechazo. Al depender del Teorema Central de Lmite, los
valores para esta prueba dependen de una distribucin
aproximadamente normal estndar y se encontrarn en su respectiva
tabla mediante las expresiones
21Z o 1Z , segn sea la prueba (bilateral o unilateral).
Esto es, hay que buscar el valor de Z que tenga la probabilidad
que indica la confianza de la prueba y agregar un signo negativo si
la regin de rechazo est en la seccin inferior del eje de las X .
D.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPTESIS
7. Comprobar los supuestos de la muestra para verificar la
factibilidad de la prueba.
8. Si tales condiciones se cumplen, explicitar la hiptesis del
investigador invH , la hiptesis nula 0H y la hiptesis alternativa
aH .
9. Calcular el estadstico de prueba que compara el estimador con
el valor hipottico y su variabilidad:
/2 /2
1-
1-
1-
1Z
1Z
21Z 21
Z
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
32
EXPRESIN PARA CALCULAR EL ESTADSTICO DE PRUEBA cZ EN POBLACIONES
CON DISTRIBUCIN
APROXIMADAMENTE NORMAL ESTNDAR ( )
npp
ppZc00
0
1
=
10. Determinar el nivel de significancia de la prueba, as como
la ubicacin y el
valor de la regin de rechazo de la hiptesis nula 0H . 11. Ubicar
el estadstico de prueba con respecto a la regin de rechazo de
la
hiptesis nula 0H ; si est dentro de ella, rechazar la hiptesis
nula 0H . Si est fuera, concluir con qu significancia o
confiabilidad no se rechaza.
D.3) P-VALOR Calculado como significancia en el software
estadstico, el P-VALOR es al rea bajo la curva delimitada por el
estadstico de prueba cZ con la misma direccin que la regin de
rechazo de la hiptesis nula 0H . Esta rea o probabilidad se obtiene
tambin mediante los datos en tablas y si su valor es menor a la
significancia de la prueba de hiptesis, la hiptesis nula 0H se
rechaza. He aqu la forma para encontrar su valor: REA DEL
P-VALOR
PROBABILIDAD DE P-VALOR
BSQUEDA DE P-VALOR
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
33
1. 5 >pn 2. ( ) 51 > pn 3. 30>n
( )( ) 85.20635.0591 = ( ) 15.38465.0591 = 591=n 585.206 >
515.384 > 30591 >
Comprobado ello, podemos plantear las hiptesis para
contrastar:
HIPTESIS 30.0: >pH inv 30.0:0 pH 30.0: >aH
Ahora bien, hay que calcular el estadstico de prueba:
EXPRESIN PARA EL ESTADSTICO DE PRUEBA cZ ( )n
ppppZc
00
0
1
=
APLICACIN ( ) ( ) 65.2591
70.030.030.035.0
59130.0130.0
30.035.0 ==== cc ZZ
Teniendo ese dato, falta reconocer la significancia , su valor
en tablas y la regin de rechazo que delimita:
REGIN DE RECHAZO DE 30.0:0 pH 05.0= 95.01 = 645.195.01 == ZZ
Para concluir el contraste de hiptesis resta ubicar el
estadstico de prueba cZ con respecto a esta regin de rechazo y
concluir:
UBICACIN DE ESTADSTICO DE PRUEBA cZ CON RESPECTO A REGIN DE
RECHAZO DE 0H
a) , El estadstico de prueba 65.2=cZ cae dentro de la regin de
rechazo, razn por la cual la hiptesis nula 30.0:0 pH se rechaza y
se infiere que la proporcin poblacional de internos que usaron
marihuana es significativamente ( )05.0
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
34
REA DEL P-VALOR
PROBABILIDAD DE P-VALOR
BSQUEDA DE P-VALOR
De 65.2=cZ
a ( )65.2>cZP ( ) ( )65.265.2 cc ZPZP ( ) 0040.065.2 =pH
inv
c) , Con un 95% de confiabilidad es posible inferir que la
proporcin poblacional de personas internadas que alguna vez fumaron
marihuana est entre 0.31 y 0.39. Tal intervalo da sustento
estadstico a la hiptesis del investigador, que la estima en un
valor mayor a 0.30. ESTIMACIN DE LA VARIANZA POBLACIONAL 2 A.
FUNDAMENTOS Cuando en una poblacin se tiene una variable continua
con distribucin normal y se desea estimar su variabilidad, es
posible tambin estimar un intervalo de confianza y hacer un
contraste de hiptesis sobre la varianza y la desviacin estndar. B.
INTERVALO DE CONFIANZA A continuacin se presenta la expresin para
encontrar el intervalo de confianza de la varianza y la desviacin
estndar de una poblacin:
EXPRESIN PARA ENCONTRAR UN INTERVALO AL ( )1 POR CIENTO DE
CONFIANZA PARA 2 CUANDO LA POBLACIN TIENE DISTRIBUCIN
NORMAL
( )( )
( )( )
12
2
2
12
21
22 1,1 nn
snsn
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
35
EXPRESIN PARA ENCONTRAR UN INTERVALO AL ( )1 POR CIENTO DE
CONFIANZA PARA CUANDO LA POBLACIN TIENE DISTRIBUCIN
NORMAL
( )( )
( )( )
12
2
2
12
21
2 1,1 nnsnsn
Ntese que en estas expresiones los valores mnimo y mximo del
intervalo no se encuentran simplemente restando o sumando el valor
que se halla en tablas, sino que hay que buscar cada uno. C.
CONTRASTE DE HIPTESIS C.1) HIPTESIS NULAS Y SU REGIN DE RECHAZO
Igual que en las estimaciones anteriores, las hiptesis posibles
para contrastar el valor de la varianza poblacional 2 son:
HIPTESIS DEL INVESTIGADOR HIPTESIS NULA
HIPTESIS ALTERNATIVA
20
2: invH 2020 : =H 202: aH 20
2: aH Segn sea el caso y de acuerdo a la significancia , la
regin de rechazo para la hiptesis nula 0H ser:
HIPTESIS
PRUEBA BILATERAL O
DE DOS COLAS
202: invH 2020 : =H 202: aH
REGIN DE RECHAZO DE
0H
PRUEBA UNILATERAL
O DE UNA COLA
202: aH
1-/2 /2
( )122
n ( )12
21
n
( )12 n
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
36
REGIN DE RECHAZO DE
0H
Puede verse aqu, al igual que en una parte de la expresin para
el intervalo de confianza de la varianza 2 , que las reas de la
significancia no son iguales. Ello se debe, como se ver en el
siguiente punto, a que el estadstico de prueba tiene una
distribucin ji-cuadrada 2 , cuya grfica no tiene una curva
simtrica. Por tal motivo, es necesario consultar en esas tablas los
valores de ( )12
2
n y ( )12
21
n si la prueba es
bilateral y ( )12 n o ( )121 n si es unilateral. Como en otras
ocasiones, esto implica buscar los grados de libertad e intersectar
este rengln con la columna de la significancia o confiabilidad
requerida. C.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPTESIS
12. Comprobar que la variable tenga una distribucin normal. 13.
Dado el caso, hacer explcitas la hiptesis del investigador invH ,
la hiptesis
nula 0H y la hiptesis alternativa aH . 14. Calcular el
estadstico de prueba que compara el estimador con el valor
hipottico y su variabilidad:
EXPRESIN PARA CALCULAR EL ESTADSTICO DE PRUEBA 2c EN POBLACIONES
CON DISTRIBUCIN
NORMAL
( )20
22 1
sn
c=
15. Determinar el nivel de significancia de la prueba, as como
la ubicacin y el
valor de la regin de rechazo de la hiptesis nula 0H . 16. Ubicar
el estadstico de prueba con respecto a la regin de rechazo de
la
hiptesis nula 0H ; si est dentro de ella, rechazar la hiptesis
nula 0H . Si est fuera, concluir con qu significancia o
confiabilidad no se rechaza.
D. EJEMPLOS DE ESTIMACIN 1. Los siguientes datos corresponden a
las edades de conductores que ocupan el carril para rebasar
mientras conducen a 25 millas por hora con la luz intermitente
direccional izquierda funcionando. Suponga distribucin normal en
esta poblacin. f) Es posible inferir que la varianza de esta
poblacin es menor a 27 aos2?
Realizar una prueba de hiptesis con una significancia 05.0= . g)
Estimar el intervalo para la varianza con una confianza de 95%.
DATOS GENERALES
1-( )12
1
n
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
37
X~N(,) 27=n 5.80=x 6.4=s Sabiendo que la poblacin cumple con una
distribucin normal, planteemos las hiptesis a contrastar:
HIPTESIS 27: 2
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
38
VALORES DE ( )122
n y ( )12
21
n
( ) ( ) ( ) 923.41262975.01272 025.011221
=== n ( ) ( ) ( ) 844.13262025.01272025.0122
=== n
APLICACIN ( ) ( ) ( )70.39,12.13
844.136.4127,
923.416.4127 2222 =
COMPARACIN CON LA
HIPTESIS ( )70.39,12.132 vs. 27: 2
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
39
, Como el estadstico de prueba 84.32 =c cae en la regin de
rechazo de la hiptesis nula 25.6: 20 H , sta se rechaza y puede
inferirse que la varianza de las mujeres supermodelos es
significativamente ( )05.0
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
40
ESQUEMA FINAL PARA REALIZAR INFERENCIAS SOBRE LA MEDIA
POBLACIONAL
00 : =H vs. 0: aH 00 : H vs. 0: aH
La poblacin tiene
distribucin normal?
La muestra es mayor a 30?
PRUEBAS NO PARAMTRICAS
a) Signo b) Wilcoxon
( )
nstx ni
1
21
ns
xtc 0=
nsZxi
21
ns
xZc 0=
(TCL)
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
41
TAMAO DE MUESTRA REQUERIDO PARA ESTIMACIN Cuando deseamos
contrastar hiptesis sobre un parmetro poblacional que tiene
distribucin normal, una cuestin fundamental es conocer el tamao de
la muestra necesario para realizar tal procedimiento. Sabiendo que
el mejor estimador puntual de es x , definiremos como d el error
muestral:
PARA MEDIAS PARA PROPORCIONES = xd ppd =
A. TAMAO DE MUESTRA PARA ESTIMAR MEDIAS POBLACIONALES A.1)
POBLACIONES CUYO TAMAO TOTAL N ES DESCONOCIDO Como la variable
tiene distribucin normal, podemos estandarizarlo de la siguiente
forma:
Z
n
x
n
d ==
Que grficamente es:
Y como deseamos que el error de muestreo sea pequeo, si delimita
la regin de rechazo de la hiptesis nula 0H , para que
n
d se encuentre en esta rea se debe
concluir que:
21
> Zn
d
Por ende, para saber el tamao de la muestra, de ello es
necesario despejar n :
Si tenemos 21 > Zn
d
Aplicamos la ley de los extremos 21 >
Zdn
Dejamos sola a n > d
Zn 2
1
Y para despejarla la elevamos al cuadrado 2
22
21
d
Zn
> A ello debemos la siguiente expresin:
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
42
EXPRESIN PARA CALCULAR EL TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES CON TAMAO DESCONOCIDO
2
22
21
d
Zn
>
La cual nos indica que para conocer el tamao n de la muestra
requerida necesitamos fijar una confiabilidad 1 de estimacin y
encontrar el valor de Z que le corresponde; adems, establecer una
magnitud de error de estimacin 2d y conocer el valor de 2 , que
puede estimarse con ayuda de investigaciones previas o mediante
muestras piloto. Claro est que, por su relacin, a mayor confianza 1
, una mayor muestra se necesitar; mientras que a mayor error de
estimacin 2d , menor ser la muestra requerida. A.2) POBLACIONES
CUYO TAMAO TOTAL N ES CONOCIDO A diferencia de la expresin
anterior, si el tamao total N de la poblacin es conocido, la
expresin para calcular el tamao de muestra requerido es:
EXPRESIN PARA CALCULAR EL TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES CUYO TAMAO SE CONOCE
( ) 2221
2
22
21
1
+
>
ZNd
ZNn
B. TAMAO DE MUESTRA PARA ESTIMAR PROPORCIONES POBLACIONALES B.1)
POBLACIONES CUYO TAMAO TOTAL N ES DESCONOCIDO Como en proporciones
la varianza equivale a ( )pp = 12 , la expresin para calcular el
tamao de muestra requerido es:
EXPRESIN PARA CALCULAR EL TAMAO DE MUESTRA PARA ESTIMAR
PROPORCIONES DE
POBLACIONES CON TAMAO DESCONOCIDO
( )2
2
211
d
ppZn
>
B.2) POBLACIONES CUYO TAMAO TOTAL N ES CONOCIDO Por ltimo, si lo
que se desea es calcular el tamao de muestra necesario para estimar
proporciones de una poblacin cuyo tamao N se conoce, se utiliza la
siguiente expresin:
EXPRESIN PARA CALCULAR EL TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES CUYO TAMAO SE CONOCE
( )( ) ( )ppZNd
ppZNn +
>
11
12
212
2
21
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
43
C. EJEMPLO DE APLICACIN 1. Jayr desea hacer una encuesta sobre
las preferencias que existen en la escuela para las prximas
elecciones de director de la ENAH y ha planeado realizar su
estimacin con un 95% de confianza y un 5% de error. Sabiendo que (
)pp 1 es mximo cuando 5.0=p y hay tres candidatos, supone una
proporcin de 33.0=p .
DATOS GENERALES 95.01 = 05.0= 025.02 = 975.021 = 96.1
21=Z 05.0=d 33.0=p 67.01 = p
a) Qu tamao de muestra necesitar Jayr para hacer estimaciones
sobre las proporciones de este fenmeno?
EXPRESIN PARA CALCULAR EL TAMAO DE MUESTRA PARA ESTIMAR
PROPORCIONES DE
POBLACIONES CON TAMAO DESCONOCIDO
( )2
2
211
d
ppZn
>
APLICACIN ( ) ( )
( ) 75.33905.067.033.096.1
2
2
=>n , Para realizar una estimacin sobre las proporciones de
preferencia sobre el prximo director de la ENAH, Jayr necesita una
muestra mayor a 339.75; lo cual, hablando de personas, implica
encuestar alrededor de 340 personas. b) Previendo los costos y
tiempo que se llevar encuestar a 340 personas, Jayr decide
encuestar slo a los estudiantes. Sabiendo que hay aproximadamente
2000 alumnos en la ENAH, es que con este cambio reducir su
muestra?, a cunto?.
EXPRESIN PARA CALCULAR EL TAMAO DE MUESTRA PARA
ESTIMAR MEDIAS DE POBLACIONES CUYO TAMAO SE CONOCE
( )( ) ( )ppZNd
ppZNn +
>
11
12
212
2
21
APLICACIN ( ) ( )
( ) ( ) ( ) ( ) 54.29067.033.096.11200005.067.033.096.12000
22
2
=+>n
, Si slo encuestara alumnos, el tamao de la muestra que Jayr
requerira para hacer estimaciones sobre las preferencias para
director de la ENAH sera de 290.54; es decir, 251 estudiantes.
EJERCICIOS DE REPASO I. Define los siguientes conceptos: 1.
Hiptesis 2. Hiptesis estadstica 3. Error tipo I 4. Error tipo II 5.
Significancia estadstica 6. Regin de rechazo 7. Estadstico de
prueba
8. Parmetro 9. Qu es x ? qu es ? 10. Qu es ? Qu es s?
11. Qu es p ? Qu es p ?
12. Potencia de la prueba
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
44
II. Resolver los siguientes problemas, interpretando los
resultados encontrados.
1. En un estudio realizado por Herrera y Lpez1 sobre una
poblacin infantil de la regin de la sierra norte de Puebla se
obtuvo, entre otros resultados, que la estatura promedio de 25
hombres de 13 aos en Zacapoaxtla, Puebla fue de 140.38 cm. con una
desviacin estndar de 7.89cm. Suponiendo distribucin normal en la
poblacin
a) Existe evidencia para afirmar que la estatura de la poblacin
de nios de 13 aos en esta regin es menor de 143 cm.? Sea =0.1
b) Encontrar un intervalo al 90% de confianza para la media de
estatura de la poblacin.
2. En un estudio sobre crecimiento y desarrollo realizado por
Villanueva, Sanz y Serrano2 entre otras medidas, se consider la
estatura sentado de nios entre 9 y 12 aos en la comunidad de La
Villa de las Margaritas, Chiapas. En 34 nios que estaban en el
rango de 11.6 y 12.5 aos de edad se obtuvo una media de 72.31 cm. y
una desviacin estndar de 37.6.
a) Proporcionan estos datos evidencia para afirmar que la
poblacin tiene una estatura sentado menor de 70 cm.? Sea =0.05 b)
Estimar por intervalo al 95% de confianza la media de la estatura
sentado en la poblacin.
3. En un departamento de carnes de una cadena de supermercados
se empaca carne molida de res en recipientes que se supone contiene
un kilogramo. Una muestra aleatoria de 42 paquetes dio peso
promedio de 1.09 kilos con una desviacin estndar de 0.18 kilos.
a) Si usted fuera el gerente de control de calidad y quisiera
tener la certeza de que la cantidad promedio de carne molida es en
verdad de 1 kilogramo, qu hiptesis probara?
b) Determine el valor de p para la prueba del inciso a)
c) Establecer un intervalo al 95% de confianza para la media de
la poblacin.
d) De qu manera dara a conocer los resultados de su estudio a un
grupo de consumidores interesados?
Los problemas 4 al 10 se refieren a los datos sobre percepcin,
iniciacin sexual y antropometra que fueron recolectados en el grupo
(si ya no los tienes puedes bajarlos en la direccin:
http://enah.cursos.estadistica.googlepages.com/home. Contrastar la
hiptesis correspondiente y elaborar un intervalo de confianza donde
sea pertinente. En todos los casos considerar =0.05 e intervalos al
95% de confianza e interpretar todos los resultados.
1 Herrera Bautista, Rebeca y Lpez Alonso Sergio (1995)
Distribucin de talla y peso en poblacin infantil de la regin de la
sierra norte de Puebla, Mxico Estudios de antropologa bilolgica V
Coloquio de Antropologa Fsica Juan Comas, Mxico, IIA, UNAM. 2
VILLANUEVA MARA, SANZ MA. ELENA Y SERRANO CARLOS. (1982)
Crecimiento y desarrollo en escolares de la Villa de las
Margaritas, Chiapas Mxico. En II Coloquo de Antropologa Fsica Juan
Comas, IIA, UNAM. pp. 427-452
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
45
4. Se puede suponer distribucin normal en la estatura
antropomtrica de hombres?
5. Se puede asumir distribucin normal en altura de rodilla en
mujeres del turno vespertino?
6. Suponiendo que la variable permetro de cintura en mujeres no
se distribuye normal, es posible inferir que toma un valor mayor de
800 mm.?
7. La media de estatura en la poblacin de hombres es menor de
1650 mm.?
8. La media de la altura de la rodilla de mujeres es diferente
de 500mm.?
9. La varianza poblacional de la estatura total en mujeres es de
2500 mm ?
10. La proporcin de mujeres que han tenido relaciones sexuales
es mayor de 0.65?
11. la proporcin de mujeres que se autopercibieron como la
figura 6 es menor de 0.15?
12. Las autoridades de una universidad consideran que el nivel
de acreditacin debera ser mayor al 65%. En un curso de
bioestadstica tomado por 35 alumnos 28 acreditan.
a) Proporcionan estos datos para confirmar que el curso se
encuentra de acuerdo con lo pronosticado por las autoridades. Sea
=0.05. b) Determinar un intervalo al 95% de confianza para la
proporcin de alumnos que acreditan.
13. El siguiente cuestionario fue respondido por una muestra de
250 gineclogos. Los nmeros de la derecha son las frecuencias de
respuesta de cada opcin:
1. Ha revisado durante el ao pasado a una o ms mujeres
embarazadas con altas concentraciones de plomo en la sangre?
a) Si 175 b) No 75
2. Acostumbra como rutina poner al tanto a sus pacientes
embarazadas de que el fumar es riesgoso para el feto?
a) Si 238 b) No 12
a) Es posible concluir que, de la poblacin muestreada menos del
15% de los gineclogos ha atendido a una o ms mujeres embarazadas
con altas concentraciones de plomo en la sangre? Sea =0.01.
Construir intervalo al 99% de confianza para la proporcin
poblacional.
b) es posible concluir que ms del 90% de los mdicos pone al
tanto a sus pacientes de que fumar es riesgoso para el feto? Sea
=0.05. Construir intervalo al 95% de confianza para la proporcin
poblacional.
14. En una escuela se est planeando la construccin de canchas de
basketball pues se cree que ms de 2/3 de la poblacin estudiantil lo
practican. Una encuesta realizada detect que, de 48 alumnos
elegidos al azar, 33 preferan como deporte el basketball. Se puede
inferir lo planteado? Sea =0.05. Con 95% de confiabilidad calcular
un intervalo para estimar la proporcin de alumnos de toda la
escuela que prefieren basketball. Interprete su resultado.
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
46
15. Un antroplogo fsico ha medido la capacidad del crneo de 38
fsiles de adultos de un tipo androide ya extinto. Obtuvo una media
muestral de 820 cm3 con s = 90 cm3. Calcule un intervalo de
confianza a nivel 95% para la capacidad promedio del crneo de este
antropoide.
16. Datos de la Encuesta Nacional de Alimentacin y Nutricin en
el medio rural 1996 muestran que el estado de Guerrero presenta la
mayor proporcin de nios desnutridos del pas en medios rurales segn
el peso para la edad con un valor de 0.63. Si la muestra
considerada fue de 390 nios en el estado.
a) se puede afirmar que la proporcin de nios en Guerrero es
mayor de 0.60? Sea =0.0895 b) Construir un intervalo al 90% de
confianza para la proporcin poblacional.
17. La productividad de un sistema que fabrica discos compactos
vrgenes es, segn los empresarios ms de 150 discos por hora. De
resultar cierto esto, una compaa disquera comprar dicho sistema.
Tomando el sistema a prueba, lo activan en 28 horas (cada hora es
una muestra) y obtienen una media de 155.8 con una desviacin
estndar de 7.18. Comprarn el sistema en cuestin? Responder esta
pregunta suponiendo distribucin normal en la poblacin, con las dos
metodologas de inferencia:
a) Mediante una prueba de hiptesis con =0.1. b) Con un intervalo
al 90% de confianza.
18. En un estudio sobre los efectos de la contaminacin ambiental
se midieron las concentraciones de hemoglobina en 15 personas que
habitan en la zona colindante con la zona industrial de Naucalpan,
obteniendo los siguientes valores: 15.6, 14.8, 14.4, 16.6, 13.8,
14.0, 17.3, 18.6, 16.2, 14.7, 15.7, 16.4, 13.9, 14.6 y 12.8.
Suponiendo que la poblacin de la cual se extrae la muestra no se
distribuye aproximadamente normal, es posible concluir que la
concentracin de hemoglobina en esta regin es mayor de 16?
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
47
UNIDAD II COMPARACIN DE DOS MEDIAS POBLACIONALES Cuando lo que
se desea es comparar dos poblaciones a travs de su media, lo
primero que debe reconocerse es si la variable a comparar tiene o
no distribucin normal aplicando la prueba de Shapiro-Wilks. A.
COMPARACIN EN POBLACIONES CON DISTRIBUCIN NORMAL Si bien es posible
suponer distribucin normal en la variable de ambas poblaciones, las
expresiones para construir intervalos de confianza y comparar las
medias dependen an de otro requisito: si puede asumirse que sus
varianzas son iguales o no, lo cual se verifica a travs de la
prueba de Leveane. 1) PRUEBA DE LEVEANE Se trata de una prueba para
comparar las varianzas 21 y 22 de una variable con distribucin
normal en dos poblaciones de tamao 1N y 2N , con medias 1 y 2 .
a) Hiptesis nula y regin de rechazo
Como el fin es simplemente inferir si las varianzas de ambas
poblaciones son estadsticamente iguales o no, las hiptesis de esta
prueba son:
HIPTESIS NULA HIPTESIS ALTERNATIVA
22
210 : =H 2221: aH
REGIN DE RECHAZO
El valor donde comienza la regin de rechazo se encuentra
acudiendo a las tablas F de Fisher mediante la expresin )1,1(1
21
nnF , donde los grados de libertad son ( )11 n en el numerador y
( )12 n en el denominador.
b) Procedimiento para el contraste de hiptesis 1. Tomar una
muestra de cada poblacin y obtener sus varianzas muestrales. 2.
Definir a la muestra con varianza mayor con el nmero 1 y a la menor
con el nmero dos; es decir, la muestra 1n tiene una varianza
21s , que es mayor que la
varianza 22s de la muestra 2n . 3. Gracias a ello, puede
calcularse el estadstico de prueba:
)1,1(1
21 nnF
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
48
EXPRESIN PARA CALCULAR EL ESTADSTICO DE PRUEBA cF EN
POBLACIONES CON DISTRIBUCIN NORMAL
22
21
ssFc =
donde el numerador es siempre mayor que el denominador y el
resultado tiene una distribucin F de Fisher con ( )11 n grados de
libertad en el numerador y ( )12 n grados de libertad en el
denominador. 4. Determinar el nivel de significancia de la prueba,
as como la ubicacin y el valor de la regin de rechazo de la
hiptesis nula 0H . 5. Ubicar el estadstico de prueba con respecto a
la regin de rechazo de la hiptesis nula 0H ; si est dentro de ella,
rechazar la hiptesis nula 0H . Si est fuera, concluir con qu
significancia o confiabilidad no se rechaza.
Una vez que se concluye si las varianzas de ambas poblaciones
son estadsticamente iguales o diferentes, se tienen elementos
construir intervalos de confianza y hacer pruebas sobre sus medias.
2) INTERVALOS DE CONFIANZA Como ya se ha dicho, la expresin para
construir un intervalo de confianza para la diferencia entre las
medias de dos poblaciones depende del resultado de la prueba de
Leveane. De acuerdo a ella:
VARIANZAS IGUALES 22
21 =
VARIANZAS DIFERENTES 22
21
( )
+ +21
2
212121
1121
nnSptxx nn ( )
+ +
2
22
1
212
212121
21
ns
nstxx nn
Y sus resultados se interpretan de la siguiente forma:
VALORES RESULTANTES INTERPRETACIN Valores negativos 21 <
Valores positivos 21 >
Valores negativos y positivos (que incluyen al cero) 21 =
3) PRUEBA t Cubiertos los anteriores requisitos, es est la
prueba que debe utilizarse para comparar dos poblaciones a travs de
sus medias:
a) Hiptesis nula y regin de rechazo La comparacin de medias
poblacionales que esta prueba realiza permite no slo establecer si
son diferentes, sino tambin si alguna es mayor que otra, motivo por
el cual las hiptesis que pueden plantearse son:
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
49
HIPTESIS DEL INVESTIGADOR HIPTESIS NULA
HIPTESIS ALTERNATIVA
21: invH 210 : =H 21: aH 21: aH
Segn sea el caso y de acuerdo a la significancia , la regin de
rechazo para la hiptesis nula 0H ser:
HIPTESIS
PRUEBA BILATERAL O
DE DOS COLAS
21
21: invH 210 : =H 21: aH
REGIN DE RECHAZO DE
0H
PRUEBA UNILATERAL
O DE UNA COLA
1
21: aH
REGIN DE RECHAZO DE
0H
El valor en donde inicia la regin de rechazo se obtiene mediante
las expresiones
)2(
2121 +
nnt si es bilateral o
)2(1
21 +nnt si es unilateral. Para encontrarlo, se busca en
las tablas de la distribucin t los grados de libertad3 y se
intersecta con la confiabilidad buscada, que depende del tipo de
prueba. Finalmente, se agrega un signo negativo si la regin de
rechazo (o una parte) se encuentra en la seccin inferior del eje de
las X .
3 Como puede verse, los grados de libertad es igual a la suma de
los dos tamaos de muestra menos dos.
/2 /2
1-
1-
1-
)2(1
21 +nnt
)2(1
21 + nnt
)2(
2121 +
nnt )2( 2121 +
nnt
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
50
b) Procedimiento para el contraste de hiptesis 1. Teniendo las
muestras de tamao 1n y 2n , obtener sus medias muestrales 1x y 2x .
2. Dependiendo del resultado de la prueba de Leveane, calcular el
estadstico de prueba:
VARIANZAS IGUALES
22
21 =
VARIANZAS DIFERENTES 22
21
21
21
11nn
Sp
xxtc+
=
2
22
1
21
21
ns
ns
xxtc+= Donde Sp es un promedio de las
varianzas muestrales 21s y 22s , ponderado
por los tamaos de las muestras 1n y 2n que se calcula de la
siguiente forma:
( ) ( )2
11
21
222
211
++=
nnsnsnSp
que tiene una distribucin t de student con 221 + nn grados de
libertad. 3. Determinar el nivel de significancia de la prueba, as
como la ubicacin y el valor de la regin de rechazo de la hiptesis
nula 0H . 4. Ubicar el estadstico de prueba con respecto a la regin
de rechazo de la hiptesis nula 0H ; si est dentro de ella, rechazar
la hiptesis nula 0H . Si est fuera, concluir con qu significancia o
confiabilidad no se rechaza.
3) EJEMPLOS DE APLICACIN 1. Los siguientes datos de estatura en
centmetros pertenecen a dos muestras aleatorias (femenina y
masculina) de estudiantes de la ENAH. Suponga distribucin normal en
sus poblaciones.
MUJERES 157 181 158 152 160 160 163 155 156 153 170 152 160 170
170 158
HOMBRES 173 182 165 165 176 173 180
Con una significancia de 05.0= : a) es posible inferir que la
varianza de estatura femenina es diferente a la masculina en los
estudiantes de la ENAH? b) es posible concluir que la estatura
media femenina es menor que la masculina en estas poblaciones? c)
construir un intervalo para la diferencia de medias al 95% de
confianza.
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
51
DATOS GENERALES MUJERES 16=n 94.160=x 05.8=s , Poblacin 1HOMBRES
7=n 43.173=x 65.6=s , Poblacin 2
HIPTESIS
22
21: invH 22210 : =H 2221: aH
REGIN DE RECHAZO DE 22
210 : =H
05.0= 94.3)6,15(95.0)17,116( 05.01)1,1(1 21 === FFF nn
EXPRESIN PARA ESTADSTICO DE PRUEBA cF 22
21
ssFc =
CLCULO DEL ESTADSTICO DE PRUEBA cF
( )( ) 47.165.6
05.82
2
==cF
UBICACIN DE ESTADSTICO DE PRUEBA cF CON RESPECTO A REGIN DE
RECHAZO DE 0H
a) , Como el estadstico de prueba 47.1=cF est fuera de la regin
de rechazo que inicia en 27.5)6,15(975.0 =F , la hiptesis nula
22210 : =H no se rechaza y puede inferirse que la varianza de la
estatura en estas dos poblaciones no es significativamente (
)05.0>p diferente. Teniendo el resultado de la prueba de
Leveane, es posible comparar las medias con la prueba t :
HIPTESIS 21:
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
52
RESULTADO P. LEVEANE 22210 : =H
EXPRESIN PARA ESTADSTICO DE PRUEBA ct
21
21
11nn
Sp
xxtc+
=
CLCULO DE Sp
( ) ( )2
11
21
222
211
++=
nnsnsnSp
( )( ) ( )( ) 68.72716
65.61705.8116 22 =++=Sp
CLCULO DEL ESTADSTICO DE PRUEBA ct
59.3
71
16186.7
43.17394.160 =+
=ct
UBICACIN DE ESTADSTICO DE PRUEBA ct CON RESPECTO A REGIN DE
RECHAZO DE 0H
b) , Como el estadstico de prueba 59.3=ct cae en la regin de
rechazo que parte de 7207.1)21( 95.0 = t , la hiptesis nula 210 : H
se rechaza y puede inferirse que estatura femenina es
significativamente ( )05.0
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
53
2. Los siguientes datos pertenecen a dos muestras aleatorias de
personas mayores, fumadores y no fumadores, e indican el ndice de
destruccin de pulmn que presentaron al morir (el cual es ms grande
a mayor deterioro pulmonar).
NO FUMADORES 18.1 6.0 10.8 11.0 7.7 17.9 8.5 13.0 18.9
FUMADORES 16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3 18.6 12.0 24.1
16.5 21.8 16.3 23.4 18.8
Suponga distribucin normal y conteste: a) Es posible inferir que
las varianzas poblacionales son diferentes? b) Es posible afirmar
que la destruccin pulmonar es mayor en personas mayores fumadoras?
c) Construya un intervalo al 95% de confianza para la diferencia de
medias.
DATOS GENERALES NO
FUMADORES 9=n 43.12=x 85.4=s , Poblacin 1FUMADORES 16=n 54.17=x
48.4=s , Poblacin 2
HIPTESIS 22
21: invH 22210 : =H 2221: aH
REGIN DE RECHAZO DE 22
210 : =H
05.0= 64.2)15,8(95.0)116,19( 05.01)1,1(1 21 === FFF nn
EXPRESIN PARA ESTADSTICO DE PRUEBA cF 22
21
ssFc =
CLCULO DEL ESTADSTICO DE PRUEBA cF
( )( ) 17.148.4
85.42
2
==cF
UBICACIN DE ESTADSTICO DE PRUEBA cF CON RESPECTO A REGIN DE
RECHAZO DE 0H
a) , Como el estadstico de prueba 17.1=cF est fuera de la regin
de rechazo que inicia en 20.3)15,8(975.0 =F , la hiptesis nula
22210 : =H no se rechaza y puede inferirse que la varianza de la
estatura en estas dos poblaciones no es significativamente (
)05.0>p diferente.
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
54
HIPTESIS 21:
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
55
APLICACIN [ ]14.1,08.9
161
9161.40687.254.1743.12
21
21
=
+
INTERPRETACIN Valores negativos 21 < c) , Con un 95% de
confianza es posible inferir que la media de la poblacin 1 es menor
que la de la poblacin 2; por lo cual se puede afirmar que la
destruccin pulmonar es ms grande en personas mayores fumadoras. 3.
Los siguientes de datos de permetro craneal (mm.) en neonatos (0-24
horas) fueron obtenidos durante una investigacin (1968-1970) en el
Valle de Cholula:
HOMBRES 351 365 339 330 335 354 350 356 350 322 331
MUJERES 331 317 330 321 335 329 340 332 320 345 327 335 330
320
Con una significancia de 05.0= , es posible inferir que existen
diferencias por sexo en el permetro craneal de estas
poblaciones?
HIPTESIS 21: invH 210 : =H 21: aH
HOMBRES: ESTADSTICOS DE ORDEN.
( ) 3221 =X ( ) 3302 =X ( ) 3313 =X ( ) 3354 =X ( ) 3395 =X ( )
3506 =X ( ) 3507 =X ( ) 3518 =X ( ) 3549 =X ( ) 35610 =X ( ) 36511
=X
DATOS 91.343=x 27.13=s 09.1762 =s 11=n (impar) 52111 ==h
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA cW ( ) ( ) ( )( )
2
11
,211
= += jjn
h
jnjc XXasn
W
( ) ( ) ( )( )2
5
111,210
1
= =
j
jjnjc XXasW
( )( ) ( ) ( )( ) ( )
2
2
3393500695.03353511429.03313542260.03303563315.03223655601.0
101
++++=
sWc
( ) [ ]08.167709.176101=cW 952.093.1760
08.1677 ==cW
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
56
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS oH :oH La muestra procede de una poblacin
con
distribucin normal. EXPRESIN PARA CONTRASTE DE
HIPTESIS n
c WW < VALORES FINALES A
CONTRASTAR 952.0=cW 850.01105.0 =W
, El estadstico de prueba 948.0=cW no es menor a 850.01105.0 =W
. Por tal motivo, la hiptesis nula no se rechaza y se infiere que,
en la poblacin masculina de la cual procede esta muestra, la
variable anchura biacromial tiene una distribucin normal.
MUJERES: ESTADSTICOS DE ORDEN. ( ) 3171 =X ( ) 3202 =X ( ) 3203
=X ( ) 3214 =X ( ) 3275 =X ( ) 3296 =X ( ) 3307 =X ( ) 3308 =X ( )
3319 =X ( ) 33210 =X ( ) 33511 =X ( ) 33512 =X ( ) 34013 =X ( )
34514 =X
DATOS 42.329=x 02.8=s 32.642 =s 14=n (par) 7214 ==h
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA cW ( ) ( ) ( )( )
2
11
,211
= += jjn
h
jnjc XXasn
W
( ) ( ) ( )( )2
7
114,213
1
= =
j
jjnjc XXasW
( )( ) ( ) ( )( ) ( ) ( )( )
2
2
3303300240.03293310727.03273321240.03213351802.0
3203352460.03203403318.03173455251.0
131
++++
++=
sWc
( ) [ ]85.80132.64131=cW 959.017.813
85.801 ==cW
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS oH :oH La muestra procede de una poblacin
con
distribucin normal. EXPRESIN PARA CONTRASTE DE
HIPTESIS n
c WW < VALORES FINALES A
CONTRASTAR 959.0=cW 874.01405.0 =W
, El estadstico de prueba 961.0=cW no es menor a 874.01405.0 =W
. Por tal motivo, la hiptesis nula no se rechaza y se infiere que,
en la poblacin femenina de la cual procede esta muestra, la
variable permetro craneal tiene una distribucin normal.
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
57
Comprobado que ambas poblaciones tienen distribucin normal para
esta variable, hacemos la prueba de Leveane:
DATOS GENERALES HOMBRES 11=n 91.343=x 27.13=s , Poblacin
1MUJERES 14=n 42.329=x 01.8=s , Poblacin 2
HIPTESIS
22
21: invH 22210 : =H 2221: aH
REGIN DE RECHAZO DE 22
210 : =H
05.0= 67.2)13,10(95.0)114,111( 05.01)1,1(1 21 === FFF nn
EXPRESIN PARA ESTADSTICO DE PRUEBA cF 22
21
ssFc =
CLCULO DEL ESTADSTICO DE PRUEBA cF
( )( ) 74.201.8
27.132
2
==cF
UBICACIN DE ESTADSTICO DE PRUEBA cF CON RESPECTO A REGIN DE
RECHAZO DE 0H
, Como el estadstico de prueba 74.2=cF cae en la regin de
rechazo que inicia en 67.2)13,10(95.0 =F . Por tal motivo, la
hiptesis nula 22210 : =H se rechaza y puede
inferirse que la varianza del permetro craneal en estas dos
poblaciones es significativamente ( )05.0
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
58
RESULTADO P. LEVEANE 2221: aH
EXPRESIN PARA ESTADSTICO DE PRUEBA ct
2
22
1
21
21
ns
ns
xxtc+=
CLCULO DEL ESTADSTICO DE PRUEBA ct
19.3
1401.8
1127.13
42.32991.34322=
+=ct
UBICACIN DE ESTADSTICO DE PRUEBA ct CON RESPECTO A REGIN DE
RECHAZO DE 0H
b) , Como el estadstico de prueba 19.3=ct cae en la regin de
rechazo que parte de 0687.2)23( 975.0 =t , la hiptesis nula 210 :
=H se rechaza y puede inferirse que existen diferencias
significativas ( )05.0 c) , Con un 95% de confianza es posible
inferir que la media de la poblacin 1 es menor que la de la
poblacin 2; por lo cual se puede afirmar que el permetro craneal de
hombres es mayor que el de mujeres entre los neonatos de esa
localidad. B. COMPARACIN EN POBLACIONES CON DISTRIBUCIN DESCONOCIDA
B.1) UTILIZANDO DOS MUESTRAS GRANDES Si de acuerdo a la prueba de
Shapiro Wilks no es posible suponer distribucin normal en al menos
una de las dos poblaciones, pero las muestras obtenidas de ellas
son mayores a 20 ( )20,20 21 >> nn , gracias al Teorema
Central de Lmite pueden utilizarse las siguientes expresiones para
construir intervalos de confianza y comparar sus medias:
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
59
EXPRESIN PARA ENCONTRAR UN INTERVALO AL ( )1 POR CIENTO
DE CONFIANZA PARA 21 CUANDO LA POBLACIN TIENE
DISTRIBUCIN DESCONOCIDA PERO ( )20,20 21 >> nn
+
2
22
1
21
212121 n
snsZxx
EXPRESIN PARA EL ESTADSTICO DE PRUEBA cZ EN POBLACIONES
CON DISTRIBUCIN DESCONOCIDA PERO ( )20,20 21 >> nn 2
22
1
21
21
ns
ns
xxZc+=
Como es posible ver, el estadstico de prueba es una cZ , el cual
tiene una distribucin normal estndar. Debido a ello es que se
recurre, una vez ms, a las tablas de distribucin normal para
obtener los valores correspondientes a la significancia y
confiabilidad de la prueba. B.2) UTILIZANDO DOS MUESTRAS PEQUEAS En
caso de que al menos una de las muestras no sea suficientemente
grande ( )20 210 : MMH 21: MMH a >
Cuyas regiones de rechazo, respectivamente, son las
siguientes:
HIPTESIS
PRUEBA BILATERAL O
DE DOS COLAS
21
21: MMH inv 210 : MMH = 21: MMH a
REGIN DE RECHAZO DE
0H
PRUEBA 21: MMH inv < 210 : MMH 21: MMH a <
1-/2 /2 ( )21 ,2
nnU ( )21 ,
21nnU
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
60
UNILATERAL O DE UNA
COLA 1 REGIN DE
RECHAZO DE 0H
21: MMH inv > 210 : MMH 21: MMH a >
REGIN DE RECHAZO DE
0H
Debe dejarse en claro que la forma de la grfica de esta
distribucin no es especficamente tal y acercarse de ella slo puede
afirmarse que no es simtrica. Los valores que delimitan tales
regiones, empero, pueden encontrarse utilizando las tablas para la
prueba de Mann-Whitney mediante las expresiones ( )21 ,
2
nnU y ( )21 ,
21nnU si la prueba es bilateral y con ayuda de
( )21 ,nnU o ( )21 ,1 nnU si la prueba es unilateral. Los
valores que tienen una alfa directa se encuentran buscando en los
renglones de n el valor de 1n , posteriormente la significancia de
la prueba y por ltimo intersectar ello con la columna de m, que es
el valor de 2n . Empero, los que implican encontrar la regin de
rechazo a la derecha ( )21,1 deben calcularse a partir de los
anteriores mediante la siguiente frmula:
EXPRESIN PARA HALLAR EL VALOR DE INICIO DE REGIONES DE RECHAZO
EN EL EJE SUPERIOR DE LAS X
PRUEBAS BILATERALES ( ) ( )2121 ,
221
,
21nnnn UnnU =
PRUEBAS UNILATERALES ( ) ( )2121 ,21,1 nnnn UnnU = b)
Procedimiento de contraste de hiptesis 1. Teniendo los datos nXXXX
,...,,, 321 como muestra de la poblacin 1 y a los datos nYYYY
,...,,, 321 como muestra de la poblacin 2, se asignan rangos a
todos los datos considerando como slo una a ambas muestras. 2. A
partir de ello se obtienen los siguientes datos:
DATOS
1- ( )21 ,1
nnU
( )21 ,nnU
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
61
1n Tamao de la muestra 1.
2n Tamao de la muestra 2. 1R Suma de los rangos de la muestra 1.
2R Suma de los rangos de la muestra 2.
3. Teniendo eso se calcula el estadstico de prueba:
EXPRESIN PARA EL ESTADSTICO DE PRUEBA cU EN POBLACIONES
CON DISTRIBUCIN DESCONOCIDA PERO Y MUESTRAS PEQUEAS
( )2
11 11 += nnRU c
4. El valor obtenido se compara con la regin de rechazo
delimitada por el valor de U que se obtuvo en las tablas de
Mann-Whitney y que depende de la significancia y los tamaos de las
muestras. 5. Finalmente se ubica el estadstico de prueba con
respecto a la regin de rechazo de la hiptesis nula 0H ; si est
dentro de ella, rechazar la hiptesis nula
0H . Si est fuera, concluir con qu significancia o confiabilidad
no se rechaza.
c) Ejemplos de aplicacin 1. Los siguientes datos corresponden a
la altura basion-bregma de crneos masculinos y femeninos
pertenecientes a los restos seos hallados en la Cueva de la
Candelaria, Coahuila.
CRNEOS MASCULINOS (POBLACIN 1) 139 135 146 143 137 147 134 137
142
CRNEOS FEMENINOS (POBLACIN 2) 131 129 133 127 123 138 129
Si ninguna de las poblaciones tiene distribucin normal y
utilizamos una significancia de 05.0= , es posible inferir que la
altura basion-bregma es menor en los crneos femeninos?
CRNEOS MASCULINOS RANGO CRNEOS FEMENINOS RANGO139 12 131 5 135 8
129 3.5 146 15 133 6 143 14 127 2 137 9.5 123 1 147 16 138 11 134 7
129 3.5 137 9.5 2R 32 142 13 72 =n
1R 104 91 =n
HIPTESIS
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
62
21: MMH inv > 210 : MMH 21: MMH a >
REGIN DE RECHAZO DE 210 : MMH 05.0= 95.01 =
( ) ( ) 167,905.0, 21 ==UU nn ( ) ( ) 4716797,995.0,1 21 === UU
nn
EXPRESIN PARA EL ESTADSTICO DE PRUEBA cU EN
POBLACIONES CON DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
( )2
11 11 += nnRU c
CLCULO DEL ESTADSTICO DE PRUEBA ct
( ) 592
199104 =+=cU
UBICACIN DE ESTADSTICO DE PRUEBA cU CON RESPECTO A REGIN DE
RECHAZO DE 0H
, El estadstico de prueba 59=cU cae en la regin de rechazo que
parte de ( ) 477,995.0 =U . Por ende, la hiptesis nula 210 : MMH se
rechaza y puede inferirse que
la altura basion-bregma es significativamente ( )05.0
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
63
53 12.5 51 9.5 48 5 2R 37 47 3.5 72 =n 54 14
1R 116 101 =n
HIPTESIS
21: MMH inv > 210 : MMH 21: MMH a >
REGIN DE RECHAZO DE 210 : MMH 05.0= 95.01 =
( ) ( ) 187,1005.0, 21 ==UU nn ( ) ( ) 52187107,1095.0,1 21 ===
UU nn
EXPRESIN PARA EL ESTADSTICO DE PRUEBA cU EN
POBLACIONES CON DISTRIBUCIN DESCONOCIDA
PERO Y MUESTRAS PEQUEAS
( )2
11 11 += nnRU c
CLCULO DEL ESTADSTICO DE PRUEBA ct
( ) 612
11010116 =+=cU
UBICACIN DE ESTADSTICO DE PRUEBA cU CON RESPECTO A REGIN DE
RECHAZO DE 0H
, El estadstico de prueba 61=cU cae en la regin de rechazo que
parte de ( ) 527,1095.0 =U . Por ende, la hiptesis nula 210 : MMH
se rechaza y puede inferirse que
la altura de la nariz es significativamente ( )05.0
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
64
Con una significancia de 05.0= , es posible inferir que existen
diferencias por sexo en la anchura biacromial de estas
poblaciones?
HIPTESIS 21: invH 210 : =H 21: aH
Pero como no sabemos si hay distribucin normal en ambas
poblaciones, las hiptesis tambin podran ser:
21: MMH inv 210 : MMH = 21: MMH a Por ende, primero hay que
comprobar eso con ayuda de la prueba de Shapiro-Wilks para saber qu
prueba aplicar:
HOMBRES: ESTADSTICOS DE ORDEN. ( ) 1001 =X ( ) 1002 =X ( ) 1023
=X ( ) 1044 =X ( ) 1055 =X ( ) 1096 =X ( ) 1117 =X ( ) 1128 =X ( )
1149 =X ( ) 11510 =X ( ) 11711 =X ( ) 12012 =X ( ) 12113 =X ( )
12214 =X
DATOS 86.110=x 72.7=s 60.592 =s 14=n (par) 7214 ==h
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA cW ( ) ( ) ( )( )
2
11
,211
= += jjn
h
jnjc XXasn
W
( ) ( ) ( )( )2
7
114,213
1
= =
j
jjnjc XXasW
( )( ) ( ) ( )( ) ( ) ( )( )
2
2
1111120240.01091140727.01051151240.01041171802.0
1021202460.01001213318.01001225251.0
131
++++
++=
sWc
( ) [ ]58.72460.59131=cW 935.080.774
58.724 ==cW
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS oH :oH La muestra procede de una poblacin
con
distribucin normal. EXPRESIN PARA CONTRASTE DE
HIPTESIS n
c WW < VALORES FINALES A
CONTRASTAR 935.0=cW 874.01405.0 =W
-
Bioestadstica: material preliminarJL Castrejn, DL Troncoso
Antropologa Fsica-ENAH
65
, El estadstico de prueba 935.0=cW no es menor a 874.01405.0 =W
. Por tal motivo, la hiptesis nula no se rechaza y se infiere que,
en la poblacin masculina de la cual procede esta muestra, la
variable anchura biacromial tiene una distribucin normal.
MUJERES: ESTADSTICOS DE ORDEN. ( ) 901 =X ( ) 932 =X ( ) 1033 =X
( ) 1054 =X ( ) 1055 =X ( ) 1056 =X ( ) 1057 =X ( ) 1058 =X ( )
1099 =X ( ) 11010 =X ( ) 11011 =X ( ) 11012 =X ( ) 11113 =X ( )
11214 =X ( ) 11515 =X ( ) 11616 =X
DATOS 5.106=x 7=s 492 =s 16=n (par) 8216 ==h
EXPRESIN PARA EL
ESTADSTICO DE PRUEBA cW ( ) ( ) ( )( )
2
11
,211
= += jjn
h
jnjc XXasn
W
( ) ( ) ( )( )2
8
116,215
1
= =
j
jjnjc XXasW
( )( ) ( ) ( )( ) ( ) ( )( ) ( )
2
2
1051090196.01051100593.01051101005.01051101447.01051111939.0
1031122521.0931153290.0901165056.0
151
+++++
++=
sWc
( ) [ ]01.64649151=cW 879.0735
01.646 ==cW
CONTRASTE DE HIPTESIS
TIPO DE HIPTESIS oH :oH La muestra procede de una poblacin
con
distribucin normal. EXPRESIN PARA CONTRASTE DE
HIPTESIS n
c WW < VALORES FINALES A
CONTRASTA