Contraste de hipótesis

PRUEBAS PARAMÉTRICAS

Realizar contrastes de hipótesis sobre la

media de una y dos poblaciones.

Realizar contrastes de hipótesis sobre la

proporción en una y dos poblaciones.

Realizar contrastes de hipótesis sobre

varianzas en dos poblaciones.

Dentro del estudio de la inferencia estadística, sedescribe como se puede tomar una muestra aleatoriay a partir de esta muestra estimar el valor de unparámetro poblacional en la cual se puede emplear elmétodo de muestreo y el teorema del valor central loque permite explicar como a partir de una muestra sepuede inferir algo acerca de una población, lo cualnos lleva a definir y elaborar una distribución demuestreo de medias muestrales que nos permiteexplicar el teorema del limite central y utilizar esteteorema para encontrar las probabilidades deobtener las distintas medias maestrales de unapoblación.

Pero es necesario tener conocimiento de ciertosdatos de la población como la media, la desviaciónestándar o la forma de la población, pero a veces nose dispone de esta información.

Consideremos el estudio de la media de una

población en la que se dispone de una

muestra aleatoria simple de tamaño n.

Aunque en el caso, poco frecuente, de que

se conozca la varianza de la población se

podría utilizar la distribución Normal, y

cuando el tamaño de la muestra sea grande

(n≥50) la distribución t de student se puede

reemplazar por la N (0, 1), en general se

empleará la propia t de student.

Consideremos el fichero: Datos → Conjunto de

datos en paquete → Leer conjunto de datos

desde paquete adjunto →car→Davis→Aceptar

Este conjunto de datos es una muestra

(n=1000) aleatoria simple de la población

adulta de un municipio de Andaluz. Las

variables con las que vamos a trabajar son:

peso(height), altura(weight), sex(M)

PROBLEMA:

Se desea probar con un nivel de confianza

del 95% que el promedio de la altura no es

significativamente diferente al promedio

poblacional µ=175.

Solución.

Ya que n>30 no necesitamos la hipótesis de

normalidad de los datos. Utilizamos una

distribución t student, y un contraste

bilateral.

1. Planteamiento de la hipótesis

H1: µ≠175

H0: µ=175

2. Nivel de significancia

α=0,05

3. Criterio

Rechazar H0 si p_valor<α

4. Cálculos

Elegimos la opción del menú: Estadísticos

→Medias →Test t para una muestra, con

esta opción se abre una ventana

Debemos elegir una sola variable, seleccionamosweight (altura)

Indicamos cuál es la hipótesis alternativa. En nuestrocaso elegimos la opción de un test bilateral.

Especificamos el valor hipotético con el que estamoscomparando la media, en nuestro caso 175.

Por último especificamos el nivel de confianza.

Hacemos clic en Aceptar.

Los resultados se muestran en la ventana deresultados.

Análisis:

Primero nos recuerda que estamos analizando lavariable Davis $weight

El estadístico de contraste es t=-102.3067, los gradosde libertad df=199 y el p_valor (tc)<2.2e-16

5. Decisión

Ya que p_valor<α rechazamos H0, es decir “La alturapromedio del grupo no es significativamentediferente de 175 ”

One Sample t-test

data: Davis$weight

t = -102.3067, df = 199, p-value < 2.2e-16

alternative hypothesis: true mean is not equal to 175

95 percent confidence interval:

63.69518 67.90482

sample estimates:

mean of x

65.8

Sea X1, X2,..., Xn una muestra de tamaño n procedente de una distribución normal

X ≈N(μx,σx) y sea Y1, Y2,..., Ym una muestra de tamaño m de otra población normal Y

≈N(μy,σy) , independiente de la anterior. Para contrastar la igualdad de medias, el

estadístico cambia dependiendo de que se asuman varianzas poblacionales desconocidas pero iguales o que se asuman desiguales. De forma general ambos casos se pueden formular de la forma siguiente:

1. H0 :μx – μy ( = d0 )

2. 𝐸 =𝑋 −𝑌 −(𝑑0)

𝜎(𝑋 −𝑌 )~𝑡𝑐 si H0 es cierta

En el caso de varianzas iguales v=n+m-2.

En el caso de varianzas distintas v, además de depender de n y m, depende de las

varianzas muestrales: 𝑆𝑋2 = (𝑋𝑖 − 𝑋 )/(𝑛 − 1) y 𝑆𝑌

2 = (𝑌𝑖 − 𝑌 )/(𝑚 − 1)

3. En función de la hipótesis alternativa H1 y del nivel de significación α que elija el

investigador, se determina la región crítica o de rechazo. La hipótesis alternativa

puede ser bilateral (H1: μx – μy ≠ 0), unilateral a la derecha (H1: μx – μy > 0) o

unilateral a la izquierda (H1: μx – μy < 0) e indica qué cola o colas de la

distribución de E se eligen. La probabilidad de dicha cola o colas debe ser igual a

α.

4. Se calcula el valor de E en la muestra y se rechaza H0 si ese valor pertenece a la

región crítica. Alternativamente, para el valor de E en la muestra, e, se calcula su

p-valor y se rechaza si es menor que α.

Consideremos el fichero: Datos → Conjunto dedatos en paquete → Leer conjunto de datosdesde paqueteadjunto→car→Leinhardt→Aceptar

Este conjunto de datos representan informaciónsobre la mortalidad infantil en diversos paísesdel mundo.

PROBLEMA:

Se desea probar con un nivel de confianza del95% que los promedios entre las variables“income” y “oil” son significativamentediferentes.

Solución.

Utilizamos una distribución t student, para ladiferencia de medias de poblacionesindependiente mediante un contrate bilateral.


H1: µoil≠ µincome

H0: µoil=µincome


α=0,05

3. Criterio

Rechazar H0 si p_valor <α

4. Cálculos

Elegimos la opción del menú: Estadísticos→Medias →Test t para muestrasindependientes, con esta opción se abre unaventana

Resultados:

Welch Two Sample t-test

data: income by oil

t = 0.1349, df = 12.03, p-value = 0.8949

alternative hypothesis: true difference in means is not

equal to 0


-704.0573 797.0504

sample estimates:

mean in group no mean in group yes

1002.0521 955.5556

Análisis:

Primero nos recuerda que estamos

analizando las variables income y oil

El estadístico de contraste es t= 0.1349, los

grados de libertad df=12.03 y el p_valor

(tc)=0,8949

5. Decisión

Ya que p_valor>α aceptamos H0, es decir “El

promedio de la variable oil no es diferente al

promedio de la variable income ”

En este caso se considera una muestra X1, X2,..., Xn de tamaño n procedente de una

distribución normal N(μx,σx) y una muestra Y1, Y2,..., Yn de tamaño también n, de otra

población normal Y ≈N(μy,σy), no necesariamente independientes. En este caso se

pueden reducir los datos a una sola muestra D1, D2,..., Dn , donde cada Di =Xi - Yi , que

tendrá también distribución normal con media μD = μX−μY .

Este caso es habitual cuando se toman medidas repetidas en los mismos individuos de una población, por ejemplo, antes y después de someterlos a un tratamiento.

Para contrastar: H0: μX−μY. ( μD = d0 =0) se utiliza el estadístico de contraste 𝐸 =𝐷 −𝑑0𝑆𝐷

𝑛

que sigue una distribución t con n-1 grados de libertad, si H0 es cierta.

De modo que, por ejemplo, para un contraste unilateral a la derecha, se rechaza H0 con

un nivel de significación α si P( tn- 1 >e)< α siendo e el valor de E en la muestra observada.

El encargado de formación de una empresa

pretende mejorar el rendimiento de los

trabajadores. Para comprobar la eficacia realiza

un curso, para ello elige al azar una muestra de

30 trabajadores y para cada uno contabiliza el

tiempo medio (en segundos) que tardan ejecutar

una tarea.

Basándose en los datos de la muestra, ¿puede

concluir el encargado que el curso es efectivo?

Considerar un nivel de significancia del 5%.

La información recabada es la siguiente:ANTES DESPUES

97 96

99 98

100 99

97 94

102 100

109 100

95 92

97 95

101 100

98 98

100 94

94 93

98 92

98 98

101 100

110 99

109 95

96 92

108 101

107 102

95 93

99 97

100 94

109 106

97 94

107 104

95 90

93 92

109 104

103 97

Solución.

Utilizamos una distribución t student, para datosrelacionados y un contrate unilateral.

Denotemos por µDC al promedio de los tiempos medios quetardan los trabajadores en realizar la tarea después delcurso y µAC al mismo promedio antes del curso.


H1: µDC < µAC

H0: µDC = µAC


α=0,05

3. Criterio


4. Cálculos

Antes de realizar los cálculos, introducimos lainformación recabada por el formador. Para ellosseguimos los siguientes pasos.

Elegimos la opción del menú: Estadísticos Datos

→ Nuevo conjunto de datos.

Se muestra una ventana donde nos piden

Introducir el nombre del conjunto de datos:

EJERCICIO

Posteriormente se despliega una ventana

como una hoja de excel: Editor de datos

Se definen las variables: ANTES, DESPUES y se

ingresan los datos.

Antes de realizar el análisis, se cierra la ventana

del editor de datos, pues por defecto R

almacena la información.

Cálculos


→Medias →Test t para datos relacionados, con

esta opción se abre la ventana:

Seleccionamos la primera y segunda variable;

así como el contraste unilateral.

Resultados:

Paired t-test

data: EJERCICIO$DESPUES and EJERCICIO$ANTES

t = -6.2972, df = 29, p-value = 3.535e-07

alternative hypothesis: true difference in means is less

than 0


-Inf -2.774681

sample estimates:

mean of the differences

-3.8

Análisis:

Primero nos recuerda que estamos

analizando las variables DESPUES y ANTES.

El estadístico de contraste es t=-6.2972, los

grados de libertad df=29 y el p_valor (tc)=

3.535e-07

5. Decisión

Ya que p_valor<α rechazamos H0, es decir “El

curso no disminuye el promedio que tardan

los trabajadores en realizar la tarea.”

2

Es una prueba (de significación para análisis no paramétrico) estadística que se utiliza

para evaluar hipótesis correlacionales que relacionan dos variables categóricas. El nivel

de medición de las variables es nominal u ordinal (aplicada a sujetos).

La 2 se calcula utilizando una tabla cruzada de dos dimensiones, cada dimensión

contiene una variable y cada variable se subdivide a la vez en dos o más categorías.

El 2

calculado se obtiene con la siguiente fórmula : 2 =

(f o f e ) fe

PROBLEMA:

Mediante un estudio se desea determinar si

el voto de apoyo o no al gobierno depende

del género en más de un 75% de las veces.

Para lo cual se ha encuestado a 76 personas.

Los resultados se han ingresado a través del

editor de r-commander, tal como muestra

la figura

VARIABLES

Solución.

Por ser un estudio de tipo correlacional, la prueba se

realiza con la Chi Cuadrado.


H0: p=0.75

H1: p>0.75


α=0,05

3. Criterio


4. Cálculos


→Proporciones →Test de proporciones para una

muestra, con esta opción se abre una ventana; en la

seleccionamos la variable sexo, la hipótesis nula

0,75, el nivel de significancia, la prueba a una cola.

1-sample proportions test without continuity correction

data: rbind(.Table), null probability 0.75

X-squared = 43.8596, df = 1, p-value = 1

alternative hypothesis: true p is greater than 0.75


0.332186 1.000000

sample estimates:

p

0.4210526

Resultados:

Análisis:

Primero nos recuerda que es una test para la

proporción de una muestra.

Especifica el valor hipotético en la hipótesis

nula 0.75

Proporciona el valor del estadístico chi y el

p_valor (Xc)= 1

5. Decisión

Ya que p_valor>α aceptamos H0, es decir “El

porcentaje de resultados no está por encima

de 75%”

Se utiliza para analizar (sobre una variable) si dos proporciones de dos grupos difieren

significativamente entre sí.

La variable de los grupos debe ser medida en proporciones o porcentajes. Se aplica la

siguiente fórmula de puntuación z para proporciones:

z p1 p 2

p1 q1 p 2 q 2

donde:

n1 n 2

p1 proporción del primer grupo y n 1 el número de sus elementos

p 2 proporción del segundo grupo y n 2 el número de sus elementos

PROBLEMA:

Se realizó una prueba de rendimiento a dosgrupos A y B de 30 y 27 alumnosrespectivamente.

Se desea probar que el porcentaje de muybuenos del grupo A es significativamentesuperior al porcentaje de muy buenos delgrupo B.

Solución.

Utilizamos una prueba de diferencia deproporciones para dos muestras.


H1: π1 > π2

H0: π1 = π2


α=0,05

3. Criterio

Rechazar H0 si p_valor >1.64

4. Cálculos

Antes de realizar los cálculos, introducimos

la información en el editor de r-

commander.


→Proporciones →Test de proporciones

para dos muestra, con esta opción se abre

una ventana; en la seleccionamos: grupos

grupo1, variable explicada grupo2; la

hipótesis nula 0,75, el nivel de confianza

y el tipo de prueba (una cola.)

2-sample test for equality of proportions without

continuity correction

data: .Table

X-squared = 5.5588, df = 1, p-value = 0.009194

alternative hypothesis: greater


0.3160998 1.0000000

sample estimates:

prop 1 prop 2

1.0 0.5

Resultados:

Análisis:

Primero nos recuerda que es una test para la

proporción de dos muestras.

Proporciona el valor de p_valor (Xc)=

0.009194

5. Decisión

Ya que p_valor<1.64 rechazamos H0, es decir

“El promedio de rendimiento del grupo A es

significativamente diferente al promedio de

rendimiento del grupo B”

Contraste de hipótesis

Documents