Maestría en Sistemas de Información Mención Inteligencia de Negocios Módulo: Estadística Avanzada Ph.D. Sandra García Enero, 2018
Maestría en Sistemas de Información Mención Inteligencia de Negocios
Módulo: Estadística Avanzada
Ph.D. Sandra García
Enero, 2018
Objetivo de aprendizaje del Capítulo 4
• Realizar inferencias de poblaciones mediante estimaciones puntual, por intervalo y contraste de hipótesis..
Contenido del Capítulo 3
• Estimación puntual y por intervalo de parámetros poblacionales más usados.
• -Selección del tamaño muestral para realizar una estimación.
• Contrastes de Hipótesis paramétrico
• Contrastes de Hipótesis no paramétrico
.
¿Qué es una Prueba de Hipótesis?Es una declaración relativa a una población, sobre la cual se utilizan datos para verificar surazonabilidad. En el análisis estadístico se establece una afirmación, una hipótesis, se recogen datosque posteriormente se utilizan para probar la aserción. Entonces una hipótesis estadística es unaafirmación relativa a un parámetro sujeta a verificación.
Una prueba de hipótesis es el procedimiento basado en evidencia de la muestra y la teoría deprobabilidad para determinar si la hipótesis es una afirmación razonable. El razonamientoempleado es similar al proceso en un tribunal. Al procesar a una persona por robo, el tribunal debedecidir entre inocencia y culpabilidad.
Cuando el juicio se inicia, se supone que la persona acusada es inocente. El proceso recaba ypresenta toda evidencia disponible en un intento para contradecir la hipótesis de inocencia y portanto obtener una condena. Si existe evidencia suficiente contra inocencia, el tribunal rechazará lahipótesis de inocencia y declarará culpable al demandado.
Si el proceso no presente suficiente evidencia para demostrar que el demandado es culpable, eltribunal le hallará no culpable. Observe que esto no demuestra que el demandado es inocente, sinosólo que no hubo evidencia suficiente para concluir que el demandado era culpable por suacusación.
Comprobación de una Prueba de Hipótesis
La hipótesis nula, denotada por Ho
La hipótesis alternativa, denotada por Ha
El estadístico de prueba y su valor p
La región de rechazo
La conclusión o decisión final
Elementos de una Prueba de Hipótesis
Región de Rechazo y Aceptación PH2C
Región de Rechazo y Aceptación PH1C
Poder de una Prueba de HipótesisComo hay dos opciones en una prueba estadística, también hay dos tipos de errores que se puedencometer. En la sala de juzgado, el demandado podría ser considerado no culpable cuando enrealidad es culpable, o viceversa; lo mismo es cierto en una prueba estadística.
De hecho la hipótesis nula puede ser verdadera o falsa, cualquiera que sea la decisión que tome elexperimentador. Estas dos posibilidades, junto con las dos decisiones que puede considerar elinvestigador, se observan a continuación:
Función para prueba de una media con valor p
• zprueba=function(mediam, mediaH0,varianzaH0,n,tipo){
• z=(mediam-mediaH0)/sqrt(varianzaH0/n)
• if(tipo=="mayor"){
• p=pnorm(z,0,1,lower.tail=FALSE)
• }
• if(tipo=="menor"){
• p=pnorm(z,0,1,lower.tail=TRUE)
• }
• if(tipo=="diferente"){
• p=min((2*pnorm(z,0,1,lower.tail=FALSE)),(2*pnorm(z,0,1,lower.tail=TRUE)))
• }
• return(p)
• }
• zprueba(725,670,(102)^2,40,"mayor")
• [1] 0.000324458
Calculo del Valor pEl valor p o nivel de significancia observado de una prueba estadística es el valor más pequeñode α para el cual Ho se puede rechazar. Es el riesgo real de cometer un error tipo I, si Ho esrechazada con base en el valor observado del estadístico de prueba.
El valor p mide la fuerza de la evidencia contra Ho. Si el valor p es menor o igual a un nivel designificancia α, entonces la hipótesis nula puede ser rechazada y se puede informar que losresultados son estadísticamente significativos al nivel de α.
• Si el valor p es menor a 0.01, Ho se rechaza, es decir, que los resultados son altamentesignificativos.
• Si el valor p está entre 0.01 y 0.05, Ho se rechaza. Los resultados son estadísticamentesignificativos
• Si el valor p está entre 0.05 y 0.10, Ho se rechaza. Los resultados son sólo tendentes haciasignificancia estadística.
• Si el valor p es mayor a 0.10, Ho no es rechazada. Los resultados no son estadísticamentesignificativos
Calculo del Valor p
Los estándares establecidos por dependencias del gobierno indican que los ciudadanos no debenexceder una ingesta diaria de sodio con promedio de 3300 miligramos (mg).
Para averiguar si estos habitantes se encuentran excediendo este límite, se seleccionó unamuestra de cien de ellos y se encontró que la media y desviación estándar de ingesta diaria desodio era de 3400 mg y 1100 mg, respectivamente.
Use α = 0.05 para efectuar una prueba de hipótesis
Prueba de Muestra Grande sobre µ1 - µ2
Hay evidencia insuficiente para declarar una diferencia en el promedio de los rendimientos
académicos para los dos grupos
Código en R
• zprueba2=function(mediam1,mediam2, difH0,varianzaH01,varianzaH02,n1,n2,tipo){
• z=((mediam1-mediam2)-difH0)/sqrt(varianzaH01/n1+varianzaH02/n2)
• if(tipo=="mayor"){
• p=pnorm(z,0,1,lower.tail=FALSE)
• }
• if(tipo=="menor"){
• p=pnorm(z,0,1,lower.tail=TRUE)
• }
• if(tipo=="diferente"){
• p=min((2*pnorm(z,0,1,lower.tail=FALSE)),(2*pnorm(z,0,1,lower.tail=TRUE)))
• }
• return(p)}
zprueba2(2.70,2.54,0,0.36,0.40,100,100,"diferente")[1] 0.06645742
Prueba de Muestra Grande sobre pA cualquier edad, alrededor de 20% de ciudadanos adultos participan en actividades deacondicionamiento físico al menos dos veces a la semana. No obstante, estas actividades cambian amedida que las personas envejecen y, ocasionalmente, los participantes se convierten en noparticipantes.
En una encuesta local de n = 100 adultos de más de 40 años, un total de 15 personas indicaron queparticiparon en estas actividades al menos dos veces a la semana. ¿Estos datos indican que elporcentaje de participación para adultos de más de 40 años de edad es considerablemente menora la cifra de 20%? Calcule el valor p y úselo para sacar las conclusiones apropiadas.
Función en R
• zpruebap=function(p, pH0,n,tipo){
• z=(p-pH0)/sqrt((pH0*(1-pH0))/n)
• if(tipo=="mayor"){
• p=pnorm(z,0,1,lower.tail=FALSE)
• }
• if(tipo=="menor"){
• p=pnorm(z,0,1,lower.tail=TRUE)
• }
• if(tipo=="diferente"){
• p=min((2*pnorm(z,0,1,lower.tail=FALSE)),(2*pnorm(z,0,1,lower.tail=TRUE)))
• }
• return(p)
• }
• zpruebap(0.15,0.2,100,"menor")
• [1] 0.1056498
Función en R
• tprueba=function(mediam, mediaH0,varianza,n,tipo){
• z=(mediam-mediaH0)/sqrt(varianza/n)
• if(tipo=="mayor"){
• p=pt(z,n-1,lower.tail=FALSE)
• }
• if(tipo=="menor"){
• p=pt(z,n-1,lower.tail=TRUE)
• }
• if(tipo=="diferente"){
• p=min((2*pt(z,n-1,lower.tail=FALSE)),(2*pt(z,n-1,lower.tail=TRUE)))
• }
• return(p)}
tprueba(0.53,0.5,0.559^2,6,"mayor")
• [1] 0.4502696
Prueba de Muestra Pequeña sobre µ
Observe que el límite superior de esteintervalo es muy cercano al valor de 400 piescuadrados, que es la cobertura marcada en laleyenda de la lata.
Función en R
• tprueba2=function(me1,me2, difH0,var1,var2,n1, n2,tipo){
• varc=((n1-1)*var1+(n2-1)*var2)/(n1+n2-2)
• z=((me1-me2)-difH0)/sqrt(varc*(1/n1+1/n2))
• if(tipo=="mayor"){
• p=pt(z,n1+n2-2,lower.tail=FALSE)
• }
• if(tipo=="menor"){
• p=pt(z,n1+n2-2,lower.tail=TRUE)
• }
• if(tipo=="diferente"){
• p=min((2*pt(z,n1+n2-2,lower.tail=FALSE)),(2*pt(z,n-1,lower.tail=TRUE)))
• }
• return(p)}
• tprueba2(35.22,31.56,0,4.94^2,4.475^2,9,9,"mayor")
• [1] 0.05949795
Función en R
• jiprueba=function(s2,varH0, n,tipo){
• ji=((n-1)*s2)/varH0
• if(tipo=="mayor"){
• p=pchisq(ji,n-1,lower.tail=FALSE)
• }
• if(tipo=="menor"){
• p=pchisq(ji,n-1,lower.tail=TRUE)
• }
• if(tipo=="diferente"){
• p=min((2*pchisq(ji,n-1,lower.tail=FALSE)),(2*pchisq(ji,n-1,lower.tail=TRUE)))
• }
• return(p)}
• jiprueba(195, 100, 10,"mayor")
• [1] 0.04076816
Cálculo en R
• fprueba=function(s12,s22,n1,n2,tipo){
• f=s12/s22
• if(tipo=="mayor"){
• p=pf(f,n1-1,n2-1,lower.tail=FALSE)
• }
• if(tipo=="menor"){
• p=pf(f,n1-1,n2-1,lower.tail=TRUE)
• }
• if(tipo=="diferente"){
• p=min((2*pf(f,n1-1,n2-1,lower.tail=FALSE)),(2*pf(f,n1-1,n2-1,lower.tail=TRUE)))
• }
• return(p)}
• fprueba(1.04,0.51,25,25,"mayor")
• [1] 0.04365515
Pruebas no Paramétricas: Prueba de rangos de Wilcoxon
La prueba de rangos con signo de Wilcoxon es una prueba no paramétrica utilizada en lugar de la t deStudent cuando los datos no cumplen el requisito de normalidad. Se utiliza para comprobar si latendencia central de dos muestras (la mediana) es la misma o no. También para comprobar si la mediana
de una muestra se corresponde con una teórica.
Uso de función en R
• wilcox.test(x, y = NULL,
• alternative = c("two.sided", "less", "greater"),
• mu = 0, paired = FALSE)
s1=c(235,225,190,188)
s2=c(180,169,180,185,178,182)
>wilcox.test(s1,s2,alternative="two.sided")
Wilcoxon rank sum test with continuity correction
data: s1 and s2
W = 24, p-value = 0.01392
alternative hypothesis: true location shift is not equal to 0