Act 8 Trabajo Final2 Grupo 100403 99

5/16/2018 Act 8 Trabajo Final2 Grupo 100403 99 - slidepdf.com

http://slidepdf.com/reader/full/act-8-trabajo-final2-grupo-100403-99 1/15

Universidad nacional abierta y a distancia - Unad

ACTIVIDAD 8

TRABAJO COLABORATIVO 2

DIANA MILENA LARA RODRIGUEZ

YULY ANDRÉA HERNÁNDEZ

KAREN YISETH ALARCON HERNANDEZ

GERLEIN YESITH GOMEZ BELTRAN

INFERENCIA ESTADÍSTICA

DANYS BRITOTutor

GRUPO 100403_99

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNADMAYO DE 2011




INTRODUCCION

Luego de abordar varios contenidos relacionados con inferencia estadística, ahora estudiaremos temas

como la prueba de hipótesis como una técnica para analizar diferencias y tomar decisiones evaluandolos riesgos que se tendrán al tomar dichas decisiones, el análisis de varianza como constituyente del

primer paso para el estudio de resultados y la estadística no paramétrica en relación con todas aquellas

pruebas cuyas hipótesis se formulan independientemente de las distribuciones de probabilidad que

siguen las variables




OBJETIVOS

1. Distinguir entre hipótesis nula y alternativa.

2. Distinguir entre los riesgos de cometer un error del tipo I y un error del tipo II.

3. Aplicar la metodología de la prueba de hipótesis.

4. Analizar el alcance de la técnica del análisis de varianza (ANOVA).

5. Saber generar los datos necesarios para la aplicación de pruebas no paramétricas.

6. Conocer los pasos para la aplicación de las pruebas estadísticas no paramétricas




DESARROLLO DE ACTIVIDADES

1. Establezca la diferencia entre: Nivel de significación y potencia de una prueba; pruebas paramétricas

y pruebas No paramétricas

La diferencia entre Nivel de significancia y la potencia de una prueba es que el Nivel de

Significación es la probabilidad de error que estamos dispuestos aceptar, mientras en la Potenciaestá la probabilidad de rechazar la hipótesis nula cuando es falsa.

En la potencia de una prueba el complemento de la probabilidad de cometer un error del tipo II seconoce como potencia de una prueba estadística. La potencia de una prueba es la probabilidad de

rechazar la hipótesis nula cuando de hecho esta es falsa y debería ser rechazada.

En el nivel de significación un parámetro, es decir una constante que puede ser determinada con

ayuda de los modelos de probabilidad de una o varias poblaciones univariantes o multivariantes, ypretendemos desarrollar el siguiente contraste de hipótesis estadística

Las pruebas no paramétricas son aplicables a casi todos los casos, mientras que las pruebasparamétricas solo son aplicables bajo ciertas condiciones.

En las pruebas paramétricas su cálculo implica una estimación de los parámetros de la poblacióncon base en muestras estadísticas. Mientras más grande sea la muestra más exacta será la

estimación, mientras más pequeña, más distorsionada será la media de las muestras por los valores

raros extremos.

En las pruebas no paramétrica su distribución no puede ser definida a priori, pues son los datosobservados los que la determinan. La utilización de estos métodos se hace recomendable cuando no

se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida

empleado no sea, como mínimo, de intervalo.

2. El tamaño de una muestra para realizar inferencia estadística depende de unos factores, (la

confiabilidad, la varianza y el error de estimación), que la determinan. Explique los criterios que tiene

un investigador para la determinación de estos factores.

Al seleccionar una muestra, si se sabe que ésta constituye un subconjunto de la población, debemostener cuidado que la misma tenga las mismas propiedades de la población y que obedezca a

determinados argumentos, desde el punto de vista estadístico, para decir que la misma es una

muestra representativa.En este sentido se considera una muestra al subconjunto representativo de la población, que ha sido

seleccionada de manera técnica mediante un procedimiento denominado diseño de muestreo, para

garantizar que dicha muestra es representativa de la población, es decir, que las unidadesseleccionadas en la muestra mediante un proceso aleatorio, hayan tenido igual probabilidad de

haber sido seleccionadas para el análisis.




3. Qué significan el error tipo I y el error tipo II. Explique su interpretación con un ejemplo

Error de tipo I (α): Al realizar el test estadístico, podríamos correr el riesgo de equivocarnos al

rechazar la hipótesis nula. La probabilidad de rechazar la hipótesis nula cuando en realidad es

verdadera (error de tipo I) se le denomina nivel de significación y es la "p". Esta probabilidad de

rechazar la hipótesis nula cuando es verdadera se le conoce también como error alfa. La "p" no es

por tanto un indicador de fuerza de la asociación ni de su importancia.

La significación estadística es por tanto una condición resultante del rechazo de una hipótesis nula

mediante la aplicación de una prueba estadística de significación. El nivel de significación es el

riesgo o la probabilidad que voluntariamente asume el investigador de equivocarse al rechazar la

hipótesis nula, cuando en realidad es cierta. Este riesgo se establece normalmente en 0.05 ó 0.01.

El proceso de poner a prueba una hipótesis involucra una toma de decisiones para rechazar o no la

hipótesis nula. Aunque los valores de la "p" son los de una variable continua, se utiliza para forzaruna decisión cualitativa, tomando partido por una u otra hipótesis. Si p < 0.05 se considera

significativo, en cuyo caso se rechaza la hipótesis nula y no significativo si p> 0.05 en cuyo caso no

se rechaza. Una "p" pequeña significa que la probabilidad de que los resultados obtenidos se deban

al azar es pequeña. Los sinónimos de la expresión estadísticamente significativos se muestran en la

tabla uno.

Recomendaciones para disminuir el error de tipo I:

Disponer de una teoría que guíe la investigación, evitando el "salir de pesca" con el ordenador

buscando asociaciones entre variables.

Disminuir el número de test estadísticos llevados a cabo en el estudio.

Depurar la base de datos para evitar errores de valores extremos que puedan producir hallazgos

significativos.

Utilizar valores de alfa más reducidos (0.01 ó 0.001).

Reproducir el estudio. Si al reproducir el estudio se obtienen resultados similares, estaremos más

seguros de no estar cometiendo el error de tipo I.

Error de tipo II (β): El riesgo alfa a ("p") indica la probabilidad de cometer un error de tipo I

(falso positivo). El error de tipo I, es por lo tanto rechazar la Ho cuando en realidad es verdadera.

Se podría considerar que para evitar este tipo de error deberíamos de elegir un nivel de confianza

más elevado, sin embargo al aumentar el nivel de confianza aumenta la probabilidad de cometer el

error de tipo II. El error de tipo II consiste en aceptar la hipótesis nula cuando es falsa y esto se

conoce como el error de tipo II o Beta (b ) (falso negativo).




En la ejecución de un estudio determinado no es posible saber si estamos cometiendo el error de

tipo I o error de tipo II, sin embargo hay una serie de recomendaciones que podríamos seguir para

disminuir dichos errores.

Recomendaciones para disminuir el error de tipo II:

Incrementar el tamaño de la muestra.Estimar el poder estadístico del estudio.

Incrementar el tamaño del efecto a detectar.

Incrementar el valor de alfa.

Utilizar test paramétricos (más potentes) en lugar de test no paramétricos

EJEMPLO ERROR TIPO I EROR TIPO II

El buen hábito de higiene bucal que deben tener las personas para una dentadura saludable es el

tema de tesis que realiza un alumno de la carrera de Odontología de la Universidad de Talca, y para

ello, su estudio se centra en niños de 7 años de edad que asisten a dos colegios A y B en la zona

urbana de Talca, registrando la cantidad de cepillados diarios que realizan los niños:

Pero el alumno cuando completa sus fichas, no siempre registra el nombre del colegio al cual asiste

el niño, y con la información previa propone el siguiente test de hipótesis:

H0: El niño asiste al colegio A.

H1: El niño asiste al colegio B.

Para concluir, establece la siguiente regla de decisión:

Rechazar H0




Si el niño realiza a lo más 1 cepillado diario.

a. Probabilidad de cometer error tipo 1.

Interprete.

Respuesta:

_ = P(rechazar H0/H0 es verdadera).

_ = P(el niño realiza a lo más 1 cepillado diario y que asiste al colegio A).

_ = (2+3)/(2+3+7+9+10+14+16) = 5/61.

_ = 0.0820.

Existe una probabilidad del 8.20% de afirmar que el niño asiste al colegio B cuando en verdad

asiste al colegio A.

b. Probabilidad de cometer error tipo 2

Interprete.

Respuesta:

_ = P(aceptar H0/H1 es verdadera).

_ = P(al niño realiza más de 1 cepillado diario y que asiste al colegio B). _ =

(11+8+5+4+1)/(15+13+11+8+5+4+1) = 29/57

4. Explique cuáles son los supuestos de homogeneidad, homocedasticidad, independencia y

Normalidad, que deben cumplirse para validar un análisis de varianzas.

El Supuesto de Homogeneidad: se valida gráficamente en un diagrama de dispersión de entre los

residuales del eje (y), y si se cumple algún valor entonces no se cumple el supuesto de

homogeneidad. El supuesto de homocedasticidad: es una propiedad fundamental del modelo de regresión lineal, y

existe cuando la varianza de los errores estocásticos de la regresión es la misma para cada

observación.

El Supuesto de independencia: se puede representar mediante un gráfico de los residuales contra elorden en que se tomaron las observaciones.

El supuesto de Normalidad: ocurre cuando el muestreo se realiza en poblaciones normales, y que

exista evidencia de que se realizaron la prueba de Hartley, Cochran y Bartlet y son sensibles a lanormalidad.




5. Comprueben a partir de dos muestras independientes de igual tamaño de hombres y mujeres, la

opinión de acuerdo o desacuerdo con algún tema de su interés, a través del contraste de una hipótesis,

en la se establezca si existen diferencias de opinión entre los hombres y mujeres sobre el tema de

interés consultado. Interprete los resultados a que diere lugar este caso. Para dar respuesta a este caso

utilice los pasos para el contraste de una hipótesis.

En una prueba general realizada por todo el pueblo de un nivel de enseñanza se han detectado

diferencias que parecen significativas entre dos grupos, mujeres y hombres. El primero, de 67

mujeres, ha obtenido una media en la calificación de 5,23, con una desviación típica de 1,78. En los

hombres, compuesto de 58 pruebas realizadas, la media ha sido de 4,78 y la desviación típica de

1,60. No se tiene información sobre las características de la población, ni de sus parámetros. ¿Puede

ser significativa la diferencia de rendimiento entre los dos generos, al 95% de nivel de confianza?

Los contrastes de media presentan bastantes variantes, por lo que el mayor problema en ellos eselegir los supuestos y estadísticos más adecuados.

En este caso las muestras no están relacionadas. Como además son grandes, se puede suponer la

normalidad de la población. No se conoce la varianza de la población y por tanto tampoco sabemos

si las varianzas en ambos colectivos se pueden considerar iguales. Así, estamos en el caso: Dos

muestras independientes con varianzas de la población desconocidas y sin que nos conste su

igualdad.

Si consultas la teoría, el estimador en este caso es

Se supone que las dos desviaciones típicas de la población se sustituyen por sus estimadores

insesgados, las cuasidesviaciones típicas. En ese caso la distribución del estadístico es

aproximadamente normal.

Acudimos a la hoja tmedia.ods y escribimos los datos (El modelo está preparado para aceptar la

desviación típica, y no la cuasidesviación) y supuestos en la hoja Dos medias

(independientes): Elegimos un contraste bilateral porque no suponemos a priori que un grupo




deba tener mejor rendimiento que otro. Después marcamos "Son desconocidas y supuestas

distintas"

Y obtenemos este resultado

Por tanto, las diferencias observadas entre los dos grupos no son significativas, pero por poco,

porque el p-valor es muy pequeño 0,0699. Estaríamos en un caso a revisar si se vuelve a pasar

la misma prueba. Bastaría que hubiéramos decidido un contraste unilateral para que hubiéramos

rechazado la hipótesis.

6. Establezca las consideraciones que deben hacerse para seleccionar entre un modelo paramétrico o su

correspondiente No paramétrico.

Consideraciones de las pruebas no paramétricas: Por lo general, son fáciles de usar y entender,

eliminan la necesidad de suposiciones restrictivas de las pruebas paramétricas, se pueden usar con

muestras pequeñas y se pueden usar con datos cualitativos.




Consideraciones de las pruebas paramétricas: A veces ignoran, desperdician o pierden información,

no son tan eficientes como las paramétricas y llevan a una mayor probabilidad de no rechazar una

hipótesis nula falsa (incurriendo en un error de tipo II).

7. Una de las opciones que tiene la estadística para realizar inferencia sobre los parámetros de una

población es la prueba de hipótesis. Explique las ventajas y desventajas con respecto al otro método de

estimación.

El problema que presenta la estimación puntual de un parámetro reside en que no garantiza ni mide

la precisión de la estimación. Sólo la bondad de ajuste y el tamaño de la muestra pueden

proporcionar una mayor o menor confianza en la estimación obtenida.

Por esta razón es necesario dar, junto a la estimación, una medida del grado de confianza que se

merece, la cual se consigue mediante un intervalo de confianza que proporcione unos límites dentro

de los cuales se confía esté el valor desconocido del parámetro. Esta confianza de inclusión se mide

mediante un porcentaje.

En estadística muchos problemas exigen construir conjuntos (intervalos) que contengan el

verdadero valor del parámetro en estudio con una probabilidad dada generalmente alta. Si por

ejemplo X representa los grados de grasa de una margarina se puede estar interesado en encontrar

los límites bajos y altos aceptables para este tipo de producto; pero no se puede asegurar con

probabilidad de uno que el verdadero valor se encuentre entre estos dos límites, lo máximo que se

puede lograr es elegir un número uno menos alfa (1- té muy próximo a uno (recuerde quealfa es el nivel de significación o error tipo uno) tal que la probabilidad que el verdadero valor se

encuentre entre estos dos límites inferior y superior sea mayor o igual a uno menos alfa.

En casos relacionados con situaciones especiales en las cuales se desea comprobar la efectividad de

estándares preestablecidos, la técnica de prueba de hipótesis resultaba bastante apropiada, por

cuanto permite comprobar con bastante certeza el grado de acierto en la fijación de éstos.

Una hipótesis estadística se define como un supuesto hecho sobre algún parámetro de la población

y consiste en aplicar técnicas estadísticas que permitan aceptar o rechazar una hipótesis. Este

procedimiento se conoce como contraste de hipótesis La prueba de hipótesis consiste en aplicar

técnicas estadísticas que permitan aceptar o rechazar una hipótesis. Este procedimiento se conoce

como contraste de hipótesis.




8. Los dos métodos No paramétrico para realizar una bondad de ajuste de los datos de una variable conrespecto a una distribución de probabilidad son: El de Chi-cuadrado y el de Kolmogorov - Smirnov.

Explique en qué condiciones debe usarse cada uno de ellos.

Chi – Cuadrado: Cuando los datos puntualizan a las escalas nominal u ordinal.

Se utiliza solo la frecuencia y con poblaciones pequeñas. Cuando se desconocen los parámetros media, moda, etc.

Cuando los datos son independientes y se requiere contrastar o comparar hipótesis.

Investigaciones de tipo social - muestras pequeñas no representativas >5.

Cuando se requiere de establecer el nivel de confianza o significatividad en las diferencias.

Cuando la muestra es seleccionada no probabilísticamente.

X2 permite establecer diferencias entre f y se utiliza solo en escala nominal.

Kolmogorov – Smirnov:

Se aplica a distribuciones de tipo ordinal.

Se usa para probar hipótesis acerca de distribuciones discretas.

Se basa en calcular las diferencias, en valor absoluto, entre las frecuencias acumuladas relativasobservadas y las esperadas, en cada clase.

9. El análisis de varianza es una técnica estadística utilizada para medir el efecto que tiene cada uno de

los niveles en que se clasifica una variable sobre otra variable que representa las repuestas a las

mediciones realizadas una experimentación. Explique las condiciones que se deben imponer a las dosvariables y los supuestos que deben cumplirse para que tenga validez el uso de esta técnica.

ANOVA:

Cada conjunto de datos debe ser independiente del resto.

Los resultados obtenidos para cada conjunto deben seguir una distribución normal. Las varianzas de cada conjunto de datos no deben diferir de forma significativa.

Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio, a partir

de poblaciones normalmente distribuidas.

La varianza de los subgrupos debe ser homogénea.

Las muestras que constituyen los grupos deben ser independientes. A menos de que las muestras

sean independientes, y que por lo tanto, generen estimaciones de varianza independientes, la razónde las varianzas inter e intra no adoptará la distribución F

10. Existen dos tipos de modelo de análisis de varianza: de efectos fijos y de efectos aleatorios.

Explique el significado cada uno de ellos en un análisis de varianza.

Como su nombre lo indica, el ANALISIS DE VARIANZA, consiste en comparar tres o más medias

de una muestra para identificar su homogeneidad o variabilidad.

Del análisis de varianza, podemos decir que esta técnica estadística, normalmente es utilizada paraanalizar resultados en la investigación con diseños experimentales y cuasi-experimentales; muchas

veces necesitamos comparar dos o más distribuciones que corresponden a variaciones de una

misma variable dependiente, afectada por una o más variables independientes.Teóricamente es posible dividir la variabilidad del resultado de un experimento en dos partes: la

originada por factores o tratamientos que influyen directamente en el resultado del experimento, y




la producida por el resto de factores desconocidos o no controlables, que se conoce con el nombrede error experimental.

Un modelo de análisis de varianza es de efectos fijos cuando los resultados obtenidos sólo son

válidos para esos determinados niveles del factor estudiado y lo que ocurra a otros niveles del factor

puede ser diferente.Es decir el Modelo de efectos fijos asume que los datos provienen de poblaciones normales las

cuales podrían diferir únicamente en sus medias.Un modelo de análisis de varianza es de efectos aleatorios cuando los resultados obtenidos sonválidos para cualquier nivel del factor estudiado.

El Modelo de efectos aleatorios asume que los datos describen una jerarquía de diferentes

poblaciones cuyas diferencias quedan restringidas por la jerarquía.

Modelos de análisis de la varianza

El anova permite distinguir dos modelos para la hipótesis alternativa:modelo I o de efectos fijos en

el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas.modelo II ode efectos aleatorios en el que se supone que las k muestras, se hanseleccionado aleatoriamente de

un conjunto de m>k poblaciones.

Un ejemplo de modelo I de anova es el Ejemplo 1, porque en él se asume que existen cinco

poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extraído las

muestras.

Un ejemplo de modelo II sería: un investigador está interesado en determinar el contenido, y susvariaciones, de grasas en las células hepáticas de cobayas; toma del animalario 5 cobayas al azar y

les realiza, a cada una, 3 biopsias hepáticas.

La manera más sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio

un tiempo después, en un modelo I las muestras serían iguales (no los individuos que las forman) es

decir corresponderían a la misma situación, mientras que en un modelo II las muestras serían

distintas.

Modelo I o de efectos fijos

Un valor individual se puede escribir en este modelo como m es la media global, ai es la constante

del efecto, o efecto fijo, que diferencia a las k poblaciones. También se puede escribir: representa la

desviación de la observación j-ésima de la muestra i-ésima, con respecto a su media. A este términose le suele llamar error aleatorio y, teniendo en cuenta las asunciones iniciales del análisis de la

varianza son k variables (una para cada muestra), todas con una distribución normal de media 0 y

varianza s2.

La hipótesis nula en este análisis es que todas las medias son iguales que puede escribirse en

términos del modelo como: Como en H0 se cumplen las condiciones del apartado anterior se trataráde ver como se modifican las estimaciones de la varianza en H1.

En H0 MSA y MSE son estimadores centrados de s2, es decir y usando el superíndice 0 para

indicar el valor de las variables en H0

E[MSA0] = s2

E[MSE0] = s2




Se puede ver que MSE es igual en la hipótesis nula que en la alternativa. Por lo tanto:

E[MSE] = E[MSE0] = s2

Sin embargo al valor esperado de MSA en la hipótesis alternativa se le añade un término con

respecto a su valor en la hipótesis nula

Al segundo sumando dividido por n se le llama componente de la varianza añadida por eltratamiento, ya que tiene forma de varianza, aunque estrictamente no lo sea pues ai no es una

variable aleatoria.

La situación, por lo tanto, es la siguiente: en H0, MSA y MSE estiman s2; en H1, MSE estima s2

pero MSA estima . Contrastar la H0 es equivalente a contrastar la existencia de la componente

añadida o, lo que es lo mismo, que MSE y MSA estimen, o no, la misma varianza.

El estadístico de contraste es F=MSA/MSE que, en la hipótesis nula, se distribuye según una F con

k - 1 y (n - 1)k grados de libertad. En caso de rechazar la H0, MSA - MSE estima

Modelo II o de efectos aleatorios

En este modelo se asume que las k muestras son muestras aleatorias de k situaciones distintas y

aleatorias. De modo que un valor aislado Yij se puede escribir como: donde m es la media global,

eij son variables (una para cada muestra) distribuidas normalmente, con media 0 y varianza s2

(como en el modelo I) y Ai es una variable distribuida normalmente, independiente de las eij, con

media 0 y varianza.

La diferencia con respecto al modelo I es que en lugar de los efectos fijos ai ahora se consideran

efectos aleatorios Ai.

Igual que en el modelo I se encuentra que MSE no se modifica en la H1 y que al valor esperado de

MSA se le añade el término de componente añadida (que aquí es una verdadera varianza ya que Ai

es una variable aleatoria):

Para llegar a este resultado se utiliza la asunción de independencia entre Ai y eij y es, por tanto,muy importante en el modelo y conviene verificar si es correcta en cada caso. En el ejemplo de las

cobayas significaría que las variaciones de grasa en el hígado de cada cobaya son independientes de

las variaciones entre cobayas. Esta asunción se violaría si, por ejemplo, en el animalario existieran2 cepas genéticas tales que en una de ellas la concentración de grasa en las células hepáticas fuera

mayor y más variable que en la otra.




CONCLUSIONES

Fuerza al investigador a profundizar en el conocimiento y dominio de las técnicas de pruebas de

hipótesis, instrumento muy utilizado en la actualidad. La ganancia en este respecto es considerable

Se amplían en forma técnica, los criterios de decisión evitando con ello el utilizar uno solo con elconsecuente problema de convertirlo en una norma absoluta que no se analiza ni se discute. Esto

reviste singular interés en el momento presente en que se analizan y discuten diferentes temas de

actualidad.

Con este trabajo nos Permitió identificar cada uno de los componentes que contiene un trabajo de

investigación y sus diferentes matices en cuanto su utilización en el entorno que se utilice.

Los diferentes modelos y su desarrollo nos permite tener una concepción global de lo que es

realmente el tema de la investigación y su implementación en cuanto a las hipótesis a manejar ya

que es un componente que se puede incluir en cualquier aspecto de la vida cotidiana.

El uso de la estadística es de gran importancia en la investigación científica.

Casi todas las investigaciones aplicadas requieren algún tipo de análisis estadístico para que sea

posible evaluar sus resultados.

En algunos casos, para resolver un problema de carácter empírico, es preciso llevar a cabo un

análisis bastante complejo, otras veces, basta con efectuar un análisis muy simple y directo.

La elección de uno u otro tipo de análisis estadístico depende del problema que se plantee en el

estudio así como la naturaleza de los datos.

La estadística constituye un instrumento de investigación y no un producto final.




BIBLIOGRAFÍA

Modulo de Inferencia Estadística, UNIVERSIDAD NACIONAL ABIERTA Y A

DISTANCIA- UNAD

Inferencia Estadística, MIGUEL ÁNGEL GÓMEZ VILLEGAS

Elementos de Inferencia Estadística, CARLOS QUINTANA

Act 8 Trabajo Final2 Grupo 100403 99

Documents