BIOMETRÍA 242203 242317 22 de mayo de 2012 Sergio Neira – Hugo Arancibia
BIOMETRÍA
242203 242317
22 de mayo de 2012
Sergio Neira – Hugo Arancibia
Hipótesis para dos muestras
Inferencia sobre la varianza poblacional
Entre los procedimientos estadísticos más comúnmente
aplicados se encuentra la comparación de dos muestras. Su
fin es inferir si existen diferencias entre dos poblaciones
muestreadas.
El objetivo de la mayoría de las hipótesis sobre dos muestras
es realizar inferencia sobre parámetros poblacionales
mediante el examen de estadígrafos de la muestra.
Prueba para la diferencia entre dos medias
Supongamos un experimento en que 13 personas fueron separadas
al azar en dos grupos, un grupo de seis y uno de siete.
Los miembros del primer grupo recibieron una droga (B), y los
miembros del segundo grupo recibieron otra droga (G). Se extrae
sangre de cada persona y se registra el tiempo (en minutos) que
toma la sangre en coagular.
La hipótesis de dos colas puede proponerse para preguntar si el
promedio del tiempo de coagulación de la sangre de las personas
tratadas con la droga B es igual al tiempo de coagulación en la
sangre de las personas tratadas con la droga G.
Droga B Droga G
8.8 9.9
8.4 9.0
7.9 11.1
8.7 9.6
9.1 8.7
9.6 10.4
9.5
Si ambas muestras vienen de poblaciones normales, y si las dos
poblaciones tienen igual varianza, entonces podemos calcular un
valor t en forma análoga al test-t que ya conocimos anteriormente.
El valor t para probar la hipótesis del ejemplo anterior y que
concierne a la diferencia de dos medias poblacionales es:
Es la diferencia entre las dos
medias
Es el error estándar de la
diferencia entre las medias
muestrales.
Es la varianza de la diferencia
entre las medias
Estadígrafos muestrales Parámetros poblacionales
La varianza de la diferencia entre dos variables independientes es igual a la
suma de las varianzas de las dos variables. Entonces,
Como
Escribimos
La prueba t para dos muestras requiere que
Podemos escribir
Entonces, para calcular el estimado de
Necesitamos un estimador de σ2
Se supone son buenos estimados de σ2
Calculamos la varianza conjunta:
Y
Entonces,
La ecuación
Que para muestras de igual tamaño (n1=n2) nos da
n1=6 n2=7
v1=5 v1=6
Media1 =8.75 min Media2=9.74 min
SS1 =1.6950 min2 SS1 =4.0171 min2
Consideremos los siguientes datos:
= 2.201
Talla plantas (cm)
Fertilizador 1
Talla plantas (cm)
Fertilizador 2
48.2 52.3
54.6 54.4
58.3 55.6
47.8 53.2
51.4 61.3
52.0 58.0
55.2 59.8
49.1 54.8
49.9
52.6
La prueba para dos muestras discutida en la sección anterior
aplica cuando las dos muestras son independientes.
Independencia implica que cada dato de la primera muestra no
está asociado de ninguna manera con cualquier dato
específico de la segunda muestra.
Sin embargo, hay situaciones cuando cada observación en la
muestra 1 está correlacionada de alguna forma con una
observación en la muestra 2.
En este caso, decimos que la data ocurre en pares.
Por ejemplo, podríamos probar la hipótesis de que la pierna
delantera izquierda y la pierna trasera izquierda de los venados
son iguales.
Tomamos estas dos medidas en un número de venados, pero
debemos recordar que la variación en la muestra se puede
deber a dos factores posibles:
1. La hipótesis nula puede ser falsa, existiendo de hecho una
diferencia entre las patas delanteras y las traseras.
2. Los venados tienen distintas tallas y para cada venado el largo de
la pierna trasera está correlacionada con el largo de la pierna
delantera (esto es, un venado con una pierna delantera larga es
probable que tenga una pierna trasera larga.
El tipo de hipótesis planteado en la hipótesis anterior (que la longitud
de las piernas delanteras y traseras es igual), son:
210 : H
21: AH
Como vimos anteriormente, también podría establecerse como:
0: 210 H
0: 21 AH
Podríamos establecer una diferencia poblacional
promedio, µd, como:
0:0 dH
0: dAH
Podemos escribir las hipótesis como:
21 d
El estadístico para la hipótesis nula es:
ds
dt
Entonces, no usamos las medidas originales para
las dos muestras, sino que sólo la diferencia
entre cada par de medidas.
Media
Varianza
Desviación estándar
Error estándar
Trabajamos entonces con una muestra de dj
valores, cuyos descriptores son:
d2
ds
ds
ds
Entonces, una prueba-t pareada es esencialmente
una prueba-t de una muestra, análoga a la que ya
hemos visto.
En el t-test pareado,
n = el número de diferencias (i.e., el número de pares
de datos), y
v = n-1
Venado
(j) Pierna trasera (cm)
(X1j) Pierna delantera (cm)
(X2j) Diferencia (cm) (dj = X1j - X2j)
1 142 138 4 2 140 136 4 3 144 147 -3 4 144 139 5 5 142 143 -1 6 146 141 5 7 149 143 6 8 150 145 5 9 142 136 6
10 148 146 2
En el caso de una hipótesis de una cola con
muestras pareadas, podemos probar:
00 : dH
0: dAH00 : dH
0: dAH
En la Tabla siguiente se presenta datos de un experimento diseñado
para probar si un fertilizante nuevo resulta en un incremento de más
de 250 kg/ha de cosecha con respecto al fertilizante antiguo.
Parcela (j)
Con fertilizante nuevo (X1j)
Con el fertilizante antiguo (X2j)
Diferencia (dj = X1j- X2j)
1 2250 1920 330 2 2410 2020 390 3 2260 2060 200 4 2200 1960 240 5 2360 1960 400 6 2320 2140 180 7 2240 1980 260 8 2300 1940 360 9 2090 1790 300
hakgH d /250:0
hakgH dA /250:
Las pruebas-t para muestras pareadas requieren que
cada dato en una muestra esté correlacionado con
un (pero sólo un), dato en la otra muestra.
Entonces, en el ejemplo anterior, cada cosecha
usando el nuevo fertilizante es pareada con solo una
cosecha usando el fertilizante antiguo.
Las pruebas-t para muestras pareadas requieren
que cada dato en una muestra esté correlacionado
con un, pero sólo uno, dato en la otra muestra.
Entonces, en el ejemplo anterior, cada cosecha
usando el nuevo fertilizante es pareada con solo
una cosecha usando el fertilizante antiguo.
Habría sido inapropiado haber tenido algunos tracks
de suelo suficientemente grandes para colectar dos
o más cosechas usando cada uno de los
fertilizantes
Las pruebas-t para muestras pareadas no tiene
requieren los supuestos de normalidad e igualdad de
varianzas como las pruebas de dos muestras.
Sin embargo, supone que las diferencias, dj, vengan
de una población de diferencias distribuidas
normalmente.
Si existe efectivamente correlación pareada de los
datos desde las dos muestras, entonces la prueba-t
para muestras pareadas será más poderosa que el la
prueba-t para dos muestras.
Probar la hipótesis
hakgH d /250:0
hakgH dA /250:
Usando una prueba-t para dos muestras en vez de una
para muestras pareadas
Es posible determinar intervalos de confianza para muchos
parámetros (para expresar la precisión de los estimados de
esos parámetros).
Como vimos, la distribución de las medias es una distribución
simétrica, que se aproxima a la normal cuando n se
incrementa.
Sin embargo, la distribución de las varianzas no es simétrica, y
ni la distribución normal ni la t-Student pueden emplearse para
establecer intervalos de confianza alrededor de σ2 o para
probar hipótesis sobre σ2.
Sin embargo, la teoría establece que
donde 2 representa una distribución estadística que,
como t, varía con los grados de libertad, v.
Mediante el uso de la distribución 2 podemos definir un
intervalo de confianza dentro del cual hay 1-
posibilidades de incluir σ2.
La tabla 2 que veremos más adelante, nos informa la
probabilidad de calcular 2 mayor que el de la tabla.
Si deseamos conocer los dos valores que encierran 1-
de la curva chi-cuadarado, deseamos la porción de
la curva entre
2 1-/2, v y 2
/2, v
(para un intervalo de confianza del 95%, esto
significaría el área 2 0.975, v y 2
0.025, v).
A partir de la ecuación anterior,
Como vs2=SS, también podemos escribir la expresión
anterior como:
Calcule el intervalo de confianza del 95% para σ2 como
sigue:
v=24;
s2=1.80 (°C),
SS=v s2 =43.20 (°C)2 .
Si 2 0.025, 24 =39.364 y 2
0.975,24=12.401.
Para obtener el intervalo de confianza 1- para la
desviación estándar de la población, simplemente
usamos las raíces cuadradas de los límites de confianza
para σ2, entonces:
Los procedimientos para probar hipótesis sobre la
varianza poblacional vienen de considerar que vs2/σ2 es
un valor chi-cuadrado (donde v = n-1).
Consideremos el par de hipótesis de dos colas:
Donde σ02 puede ser cualquier varianza poblacional o
hipotética. Entonces, simplemente calculamos
Y si el valor calculado 2 2 /2,v o 2 ≤ 2
1-/2,v,
Entonces se rechaza H0 al nivel de significancia.
v = 24;
s2 = 1.80 (°C),
SS = v s2 = 43.20 (°C)2 .
= 0.05
Si 2 0.025, 24 =39.364 y 2
0.975,24=12.401.
20.43)(0.1
)(2.432
2
2
0
2
2
0
2
C
CvsSSX
Valores críticos 2 0.025, 24 =39.364 y 2
0.975,24=12.401
Como el valor 2 calculado es más extremo que uno de los
valores críticos, entonces rechazamos H0.
Sin embargo, cuando se trata de varianzas, es más
común que probemos hipótesis de una cola. Para la
hipótesis:
H0: σ2 ≤ σ0
2 , HA: σ2 > σ02 ,
H0 se rechaza si el valor 2 calculado 2 , v .
Para la hipótesis:
H0: σ2 σ0
2 , HA: σ2 < σ02 ,
H0 se rechaza si el valor 2 calculado desde la ecuación
es < 2 , v .
SS= 18.8288
v=7
s2= 2.6898 seg2
=0.05
Tiempo que demora una droga en disolverse en el jugo gástrico.
Tiempo que demora una droga en disolverse en el jugo gástrico.
553.125.1
8288.182
2
2
0
2 seg
segSSX
Valores críticos 2 0.05, 7 =14.067
Como el valor 2 <14.067, entonces no rechazamos H0.