PRUEBAS PARAMÉTRICAS
PRUEBAS PARAMÉTRICAS
Realizar contrastes de hipótesis sobre la
media de una y dos poblaciones.
Realizar contrastes de hipótesis sobre la
proporción en una y dos poblaciones.
Realizar contrastes de hipótesis sobre
varianzas en dos poblaciones.
Dentro del estudio de la inferencia estadística, sedescribe como se puede tomar una muestra aleatoriay a partir de esta muestra estimar el valor de unparámetro poblacional en la cual se puede emplear elmétodo de muestreo y el teorema del valor central loque permite explicar como a partir de una muestra sepuede inferir algo acerca de una población, lo cualnos lleva a definir y elaborar una distribución demuestreo de medias muestrales que nos permiteexplicar el teorema del limite central y utilizar esteteorema para encontrar las probabilidades deobtener las distintas medias maestrales de unapoblación.
Pero es necesario tener conocimiento de ciertosdatos de la población como la media, la desviaciónestándar o la forma de la población, pero a veces nose dispone de esta información.
Consideremos el estudio de la media de una
población en la que se dispone de una
muestra aleatoria simple de tamaño n.
Aunque en el caso, poco frecuente, de que
se conozca la varianza de la población se
podría utilizar la distribución Normal, y
cuando el tamaño de la muestra sea grande
(n≥50) la distribución t de student se puede
reemplazar por la N (0, 1), en general se
empleará la propia t de student.
Consideremos el fichero: Datos → Conjunto de
datos en paquete → Leer conjunto de datos
desde paquete adjunto →car→Davis→Aceptar
Este conjunto de datos es una muestra
(n=1000) aleatoria simple de la población
adulta de un municipio de Andaluz. Las
variables con las que vamos a trabajar son:
peso(height), altura(weight), sex(M)
PROBLEMA:
Se desea probar con un nivel de confianza
del 95% que el promedio de la altura no es
significativamente diferente al promedio
poblacional µ=175.
Solución.
Ya que n>30 no necesitamos la hipótesis de
normalidad de los datos. Utilizamos una
distribución t student, y un contraste
bilateral.
1. Planteamiento de la hipótesis
H1: µ≠175
H0: µ=175
2. Nivel de significancia
α=0,05
3. Criterio
Rechazar H0 si p_valor<α
4. Cálculos
Elegimos la opción del menú: Estadísticos
→Medias →Test t para una muestra, con
esta opción se abre una ventana
Debemos elegir una sola variable, seleccionamosweight (altura)
Indicamos cuál es la hipótesis alternativa. En nuestrocaso elegimos la opción de un test bilateral.
Especificamos el valor hipotético con el que estamoscomparando la media, en nuestro caso 175.
Por último especificamos el nivel de confianza.
Hacemos clic en Aceptar.
Los resultados se muestran en la ventana deresultados.
Análisis:
Primero nos recuerda que estamos analizando lavariable Davis $weight
El estadístico de contraste es t=-102.3067, los gradosde libertad df=199 y el p_valor (tc)<2.2e-16
5. Decisión
Ya que p_valor<α rechazamos H0, es decir “La alturapromedio del grupo no es significativamentediferente de 175 ”
One Sample t-test
data: Davis$weight
t = -102.3067, df = 199, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 175
95 percent confidence interval:
63.69518 67.90482
sample estimates:
mean of x
65.8
Sea X1, X2,..., Xn una muestra de tamaño n procedente de una distribución normal
X ≈N(μx,σx) y sea Y1, Y2,..., Ym una muestra de tamaño m de otra población normal Y
≈N(μy,σy) , independiente de la anterior. Para contrastar la igualdad de medias, el
estadístico cambia dependiendo de que se asuman varianzas poblacionales desconocidas pero iguales o que se asuman desiguales. De forma general ambos casos se pueden formular de la forma siguiente:
1. H0 :μx – μy ( = d0 )
2. 𝐸 =𝑋 −𝑌 −(𝑑0)
𝜎(𝑋 −𝑌 )~𝑡𝑐 si H0 es cierta
En el caso de varianzas iguales v=n+m-2.
En el caso de varianzas distintas v, además de depender de n y m, depende de las
varianzas muestrales: 𝑆𝑋2 = (𝑋𝑖 − 𝑋 )/(𝑛 − 1) y 𝑆𝑌
2 = (𝑌𝑖 − 𝑌 )/(𝑚 − 1)
3. En función de la hipótesis alternativa H1 y del nivel de significación α que elija el
investigador, se determina la región crítica o de rechazo. La hipótesis alternativa
puede ser bilateral (H1: μx – μy ≠ 0), unilateral a la derecha (H1: μx – μy > 0) o
unilateral a la izquierda (H1: μx – μy < 0) e indica qué cola o colas de la
distribución de E se eligen. La probabilidad de dicha cola o colas debe ser igual a
α.
4. Se calcula el valor de E en la muestra y se rechaza H0 si ese valor pertenece a la
región crítica. Alternativamente, para el valor de E en la muestra, e, se calcula su
p-valor y se rechaza si es menor que α.
Consideremos el fichero: Datos → Conjunto dedatos en paquete → Leer conjunto de datosdesde paqueteadjunto→car→Leinhardt→Aceptar
Este conjunto de datos representan informaciónsobre la mortalidad infantil en diversos paísesdel mundo.
PROBLEMA:
Se desea probar con un nivel de confianza del95% que los promedios entre las variables“income” y “oil” son significativamentediferentes.
Solución.
Utilizamos una distribución t student, para ladiferencia de medias de poblacionesindependiente mediante un contrate bilateral.
1. Planteamiento de la hipótesis
H1: µoil≠ µincome
H0: µoil=µincome
2. Nivel de significancia
α=0,05
3. Criterio
Rechazar H0 si p_valor <α
4. Cálculos
Elegimos la opción del menú: Estadísticos→Medias →Test t para muestrasindependientes, con esta opción se abre unaventana
Resultados:
Welch Two Sample t-test
data: income by oil
t = 0.1349, df = 12.03, p-value = 0.8949
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
-704.0573 797.0504
sample estimates:
mean in group no mean in group yes
1002.0521 955.5556
Análisis:
Primero nos recuerda que estamos
analizando las variables income y oil
El estadístico de contraste es t= 0.1349, los
grados de libertad df=12.03 y el p_valor
(tc)=0,8949
5. Decisión
Ya que p_valor>α aceptamos H0, es decir “El
promedio de la variable oil no es diferente al
promedio de la variable income ”
En este caso se considera una muestra X1, X2,..., Xn de tamaño n procedente de una
distribución normal N(μx,σx) y una muestra Y1, Y2,..., Yn de tamaño también n, de otra
población normal Y ≈N(μy,σy), no necesariamente independientes. En este caso se
pueden reducir los datos a una sola muestra D1, D2,..., Dn , donde cada Di =Xi - Yi , que
tendrá también distribución normal con media μD = μX−μY .
Este caso es habitual cuando se toman medidas repetidas en los mismos individuos de una población, por ejemplo, antes y después de someterlos a un tratamiento.
Para contrastar: H0: μX−μY. ( μD = d0 =0) se utiliza el estadístico de contraste 𝐸 =𝐷 −𝑑0𝑆𝐷
𝑛
que sigue una distribución t con n-1 grados de libertad, si H0 es cierta.
De modo que, por ejemplo, para un contraste unilateral a la derecha, se rechaza H0 con
un nivel de significación α si P( tn- 1 >e)< α siendo e el valor de E en la muestra observada.
El encargado de formación de una empresa
pretende mejorar el rendimiento de los
trabajadores. Para comprobar la eficacia realiza
un curso, para ello elige al azar una muestra de
30 trabajadores y para cada uno contabiliza el
tiempo medio (en segundos) que tardan ejecutar
una tarea.
Basándose en los datos de la muestra, ¿puede
concluir el encargado que el curso es efectivo?
Considerar un nivel de significancia del 5%.
La información recabada es la siguiente:ANTES DESPUES
97 96
99 98
100 99
97 94
102 100
109 100
95 92
97 95
101 100
98 98
100 94
94 93
98 92
98 98
101 100
110 99
109 95
96 92
108 101
107 102
95 93
99 97
100 94
109 106
97 94
107 104
95 90
93 92
109 104
103 97
Solución.
Utilizamos una distribución t student, para datosrelacionados y un contrate unilateral.
Denotemos por µDC al promedio de los tiempos medios quetardan los trabajadores en realizar la tarea después delcurso y µAC al mismo promedio antes del curso.
1. Planteamiento de la hipótesis
H1: µDC < µAC
H0: µDC = µAC
2. Nivel de significancia
α=0,05
3. Criterio
Rechazar H0 si p_valor <α
4. Cálculos
Antes de realizar los cálculos, introducimos lainformación recabada por el formador. Para ellosseguimos los siguientes pasos.
Elegimos la opción del menú: Estadísticos Datos
→ Nuevo conjunto de datos.
Se muestra una ventana donde nos piden
Introducir el nombre del conjunto de datos:
EJERCICIO
Posteriormente se despliega una ventana
como una hoja de excel: Editor de datos
Se definen las variables: ANTES, DESPUES y se
ingresan los datos.
Antes de realizar el análisis, se cierra la ventana
del editor de datos, pues por defecto R
almacena la información.
Cálculos
Elegimos la opción del menú: Estadísticos
→Medias →Test t para datos relacionados, con
esta opción se abre la ventana:
Seleccionamos la primera y segunda variable;
así como el contraste unilateral.
Resultados:
Paired t-test
data: EJERCICIO$DESPUES and EJERCICIO$ANTES
t = -6.2972, df = 29, p-value = 3.535e-07
alternative hypothesis: true difference in means is less
than 0
95 percent confidence interval:
-Inf -2.774681
sample estimates:
mean of the differences
-3.8
Análisis:
Primero nos recuerda que estamos
analizando las variables DESPUES y ANTES.
El estadístico de contraste es t=-6.2972, los
grados de libertad df=29 y el p_valor (tc)=
3.535e-07
5. Decisión
Ya que p_valor<α rechazamos H0, es decir “El
curso no disminuye el promedio que tardan
los trabajadores en realizar la tarea.”
2
Es una prueba (de significación para análisis no paramétrico) estadística que se utiliza
para evaluar hipótesis correlacionales que relacionan dos variables categóricas. El nivel
de medición de las variables es nominal u ordinal (aplicada a sujetos).
La 2 se calcula utilizando una tabla cruzada de dos dimensiones, cada dimensión
contiene una variable y cada variable se subdivide a la vez en dos o más categorías.
El 2
calculado se obtiene con la siguiente fórmula : 2 =
(f o f e ) fe
PROBLEMA:
Mediante un estudio se desea determinar si
el voto de apoyo o no al gobierno depende
del género en más de un 75% de las veces.
Para lo cual se ha encuestado a 76 personas.
Los resultados se han ingresado a través del
editor de r-commander, tal como muestra
la figura
VARIABLES
Solución.
Por ser un estudio de tipo correlacional, la prueba se
realiza con la Chi Cuadrado.
1. Planteamiento de la hipótesis
H0: p=0.75
H1: p>0.75
2. Nivel de significancia
α=0,05
3. Criterio
Rechazar H0 si p_valor <α
4. Cálculos
Elegimos la opción del menú: Estadísticos
→Proporciones →Test de proporciones para una
muestra, con esta opción se abre una ventana; en la
seleccionamos la variable sexo, la hipótesis nula
0,75, el nivel de significancia, la prueba a una cola.
1-sample proportions test without continuity correction
data: rbind(.Table), null probability 0.75
X-squared = 43.8596, df = 1, p-value = 1
alternative hypothesis: true p is greater than 0.75
95 percent confidence interval:
0.332186 1.000000
sample estimates:
p
0.4210526
Resultados:
Análisis:
Primero nos recuerda que es una test para la
proporción de una muestra.
Especifica el valor hipotético en la hipótesis
nula 0.75
Proporciona el valor del estadístico chi y el
p_valor (Xc)= 1
5. Decisión
Ya que p_valor>α aceptamos H0, es decir “El
porcentaje de resultados no está por encima
de 75%”
Se utiliza para analizar (sobre una variable) si dos proporciones de dos grupos difieren
significativamente entre sí.
La variable de los grupos debe ser medida en proporciones o porcentajes. Se aplica la
siguiente fórmula de puntuación z para proporciones:
z p1 p 2
p1 q1 p 2 q 2
donde:
n1 n 2
p1 proporción del primer grupo y n 1 el número de sus elementos
p 2 proporción del segundo grupo y n 2 el número de sus elementos
PROBLEMA:
Se realizó una prueba de rendimiento a dosgrupos A y B de 30 y 27 alumnosrespectivamente.
Se desea probar que el porcentaje de muybuenos del grupo A es significativamentesuperior al porcentaje de muy buenos delgrupo B.
Solución.
Utilizamos una prueba de diferencia deproporciones para dos muestras.
1. Planteamiento de la hipótesis
H1: π1 > π2
H0: π1 = π2
2. Nivel de significancia
α=0,05
3. Criterio
Rechazar H0 si p_valor >1.64
4. Cálculos
Antes de realizar los cálculos, introducimos
la información en el editor de r-
commander.
Elegimos la opción del menú: Estadísticos
→Proporciones →Test de proporciones
para dos muestra, con esta opción se abre
una ventana; en la seleccionamos: grupos
grupo1, variable explicada grupo2; la
hipótesis nula 0,75, el nivel de confianza
y el tipo de prueba (una cola.)
2-sample test for equality of proportions without
continuity correction
data: .Table
X-squared = 5.5588, df = 1, p-value = 0.009194
alternative hypothesis: greater
95 percent confidence interval:
0.3160998 1.0000000
sample estimates:
prop 1 prop 2
1.0 0.5
Resultados:
Análisis:
Primero nos recuerda que es una test para la
proporción de dos muestras.
Proporciona el valor de p_valor (Xc)=
0.009194
5. Decisión
Ya que p_valor<1.64 rechazamos H0, es decir
“El promedio de rendimiento del grupo A es
significativamente diferente al promedio de
rendimiento del grupo B”