Biometria clase 9

BIOMETRÍA

242203 242317

22 de mayo de 2012

Sergio Neira – Hugo Arancibia

Hipótesis para dos muestras

Inferencia sobre la varianza poblacional

Entre los procedimientos estadísticos más comúnmente

aplicados se encuentra la comparación de dos muestras. Su

fin es inferir si existen diferencias entre dos poblaciones

muestreadas.

El objetivo de la mayoría de las hipótesis sobre dos muestras

es realizar inferencia sobre parámetros poblacionales

mediante el examen de estadígrafos de la muestra.

Prueba para la diferencia entre dos medias

Supongamos un experimento en que 13 personas fueron separadas

al azar en dos grupos, un grupo de seis y uno de siete.

Los miembros del primer grupo recibieron una droga (B), y los

miembros del segundo grupo recibieron otra droga (G). Se extrae

sangre de cada persona y se registra el tiempo (en minutos) que

toma la sangre en coagular.

La hipótesis de dos colas puede proponerse para preguntar si el

promedio del tiempo de coagulación de la sangre de las personas

tratadas con la droga B es igual al tiempo de coagulación en la

sangre de las personas tratadas con la droga G.

Droga B Droga G

8.8 9.9

8.4 9.0

7.9 11.1

8.7 9.6

9.1 8.7

9.6 10.4

9.5

Si ambas muestras vienen de poblaciones normales, y si las dos

poblaciones tienen igual varianza, entonces podemos calcular un

valor t en forma análoga al test-t que ya conocimos anteriormente.

El valor t para probar la hipótesis del ejemplo anterior y que

concierne a la diferencia de dos medias poblacionales es:

Es la diferencia entre las dos

medias

Es el error estándar de la

diferencia entre las medias

muestrales.

Es la varianza de la diferencia

entre las medias

Estadígrafos muestrales Parámetros poblacionales

La varianza de la diferencia entre dos variables independientes es igual a la

suma de las varianzas de las dos variables. Entonces,

Como

Escribimos

La prueba t para dos muestras requiere que

Podemos escribir

Entonces, para calcular el estimado de

Necesitamos un estimador de σ2

Se supone son buenos estimados de σ2

Calculamos la varianza conjunta:

Y

Entonces,

La ecuación

Que para muestras de igual tamaño (n1=n2) nos da

n1=6 n2=7

v1=5 v1=6

Media1 =8.75 min Media2=9.74 min

SS1 =1.6950 min2 SS1 =4.0171 min2

Consideremos los siguientes datos:

= 2.201

Talla plantas (cm)

Fertilizador 1

Talla plantas (cm)

Fertilizador 2

48.2 52.3

54.6 54.4

58.3 55.6

47.8 53.2

51.4 61.3

52.0 58.0

55.2 59.8

49.1 54.8

49.9

52.6

La prueba para dos muestras discutida en la sección anterior

aplica cuando las dos muestras son independientes.

Independencia implica que cada dato de la primera muestra no

está asociado de ninguna manera con cualquier dato

específico de la segunda muestra.

Sin embargo, hay situaciones cuando cada observación en la

muestra 1 está correlacionada de alguna forma con una

observación en la muestra 2.

En este caso, decimos que la data ocurre en pares.

Por ejemplo, podríamos probar la hipótesis de que la pierna

delantera izquierda y la pierna trasera izquierda de los venados

son iguales.

Tomamos estas dos medidas en un número de venados, pero

debemos recordar que la variación en la muestra se puede

deber a dos factores posibles:

1. La hipótesis nula puede ser falsa, existiendo de hecho una

diferencia entre las patas delanteras y las traseras.

2. Los venados tienen distintas tallas y para cada venado el largo de

la pierna trasera está correlacionada con el largo de la pierna

delantera (esto es, un venado con una pierna delantera larga es

probable que tenga una pierna trasera larga.

El tipo de hipótesis planteado en la hipótesis anterior (que la longitud

de las piernas delanteras y traseras es igual), son:

210 : H

21: AH

Como vimos anteriormente, también podría establecerse como:

0: 210 H

0: 21 AH

Podríamos establecer una diferencia poblacional

promedio, µd, como:

0:0 dH

0: dAH

Podemos escribir las hipótesis como:

21 d

El estadístico para la hipótesis nula es:

ds

dt

Entonces, no usamos las medidas originales para

las dos muestras, sino que sólo la diferencia

entre cada par de medidas.

Media

Varianza

Desviación estándar

Error estándar

Trabajamos entonces con una muestra de dj

valores, cuyos descriptores son:

d2

ds

ds

ds

Entonces, una prueba-t pareada es esencialmente

una prueba-t de una muestra, análoga a la que ya

hemos visto.

En el t-test pareado,

n = el número de diferencias (i.e., el número de pares

de datos), y

v = n-1

Venado

(j) Pierna trasera (cm)

(X1j) Pierna delantera (cm)

(X2j) Diferencia (cm) (dj = X1j - X2j)

1 142 138 4 2 140 136 4 3 144 147 -3 4 144 139 5 5 142 143 -1 6 146 141 5 7 149 143 6 8 150 145 5 9 142 136 6

10 148 146 2

En el caso de una hipótesis de una cola con

muestras pareadas, podemos probar:

00 : dH

0: dAH00 : dH

0: dAH

En la Tabla siguiente se presenta datos de un experimento diseñado

para probar si un fertilizante nuevo resulta en un incremento de más

de 250 kg/ha de cosecha con respecto al fertilizante antiguo.

Parcela (j)

Con fertilizante nuevo (X1j)

Con el fertilizante antiguo (X2j)

Diferencia (dj = X1j- X2j)

1 2250 1920 330 2 2410 2020 390 3 2260 2060 200 4 2200 1960 240 5 2360 1960 400 6 2320 2140 180 7 2240 1980 260 8 2300 1940 360 9 2090 1790 300

hakgH d /250:0

hakgH dA /250:

Las pruebas-t para muestras pareadas requieren que

cada dato en una muestra esté correlacionado con

un (pero sólo un), dato en la otra muestra.

Entonces, en el ejemplo anterior, cada cosecha

usando el nuevo fertilizante es pareada con solo una

cosecha usando el fertilizante antiguo.

Las pruebas-t para muestras pareadas requieren

que cada dato en una muestra esté correlacionado

con un, pero sólo uno, dato en la otra muestra.

Entonces, en el ejemplo anterior, cada cosecha

usando el nuevo fertilizante es pareada con solo

una cosecha usando el fertilizante antiguo.

Habría sido inapropiado haber tenido algunos tracks

de suelo suficientemente grandes para colectar dos

o más cosechas usando cada uno de los

fertilizantes

Las pruebas-t para muestras pareadas no tiene

requieren los supuestos de normalidad e igualdad de

varianzas como las pruebas de dos muestras.

Sin embargo, supone que las diferencias, dj, vengan

de una población de diferencias distribuidas

normalmente.

Si existe efectivamente correlación pareada de los

datos desde las dos muestras, entonces la prueba-t

para muestras pareadas será más poderosa que el la

prueba-t para dos muestras.

Probar la hipótesis

hakgH d /250:0

hakgH dA /250:

Usando una prueba-t para dos muestras en vez de una

para muestras pareadas

Es posible determinar intervalos de confianza para muchos

parámetros (para expresar la precisión de los estimados de

esos parámetros).

Como vimos, la distribución de las medias es una distribución

simétrica, que se aproxima a la normal cuando n se

incrementa.

Sin embargo, la distribución de las varianzas no es simétrica, y

ni la distribución normal ni la t-Student pueden emplearse para

establecer intervalos de confianza alrededor de σ2 o para

probar hipótesis sobre σ2.

Sin embargo, la teoría establece que

donde 2 representa una distribución estadística que,

como t, varía con los grados de libertad, v.

Mediante el uso de la distribución 2 podemos definir un

intervalo de confianza dentro del cual hay 1-

posibilidades de incluir σ2.

La tabla 2 que veremos más adelante, nos informa la

probabilidad de calcular 2 mayor que el de la tabla.

Si deseamos conocer los dos valores que encierran 1-

de la curva chi-cuadarado, deseamos la porción de

la curva entre

2 1-/2, v y 2

/2, v

(para un intervalo de confianza del 95%, esto

significaría el área 2 0.975, v y 2

0.025, v).

A partir de la ecuación anterior,

Como vs2=SS, también podemos escribir la expresión

anterior como:

Calcule el intervalo de confianza del 95% para σ2 como

sigue:

v=24;

s2=1.80 (°C),

SS=v s2 =43.20 (°C)2 .

Si 2 0.025, 24 =39.364 y 2

0.975,24=12.401.

Para obtener el intervalo de confianza 1- para la

desviación estándar de la población, simplemente

usamos las raíces cuadradas de los límites de confianza

para σ2, entonces:

Los procedimientos para probar hipótesis sobre la

varianza poblacional vienen de considerar que vs2/σ2 es

un valor chi-cuadrado (donde v = n-1).

Consideremos el par de hipótesis de dos colas:

Donde σ02 puede ser cualquier varianza poblacional o

hipotética. Entonces, simplemente calculamos

Y si el valor calculado 2 2 /2,v o 2 ≤ 2

1-/2,v,

Entonces se rechaza H0 al nivel de significancia.

v = 24;

s2 = 1.80 (°C),

SS = v s2 = 43.20 (°C)2 .

= 0.05

Si 2 0.025, 24 =39.364 y 2

0.975,24=12.401.

20.43)(0.1

)(2.432

2

2

0

2

2

0

2

C

CvsSSX

Valores críticos 2 0.025, 24 =39.364 y 2

0.975,24=12.401

Como el valor 2 calculado es más extremo que uno de los

valores críticos, entonces rechazamos H0.

Sin embargo, cuando se trata de varianzas, es más

común que probemos hipótesis de una cola. Para la

hipótesis:

H0: σ2 ≤ σ0

2 , HA: σ2 > σ02 ,

H0 se rechaza si el valor 2 calculado 2 , v .

Para la hipótesis:

H0: σ2 σ0

2 , HA: σ2 < σ02 ,

H0 se rechaza si el valor 2 calculado desde la ecuación

es < 2 , v .

SS= 18.8288

v=7

s2= 2.6898 seg2

=0.05

Tiempo que demora una droga en disolverse en el jugo gástrico.

Tiempo que demora una droga en disolverse en el jugo gástrico.

553.125.1

8288.182

2

2

0

2 seg

segSSX

Valores críticos 2 0.05, 7 =14.067

Como el valor 2 <14.067, entonces no rechazamos H0.

Biometria clase 9

Engineering