Universidad nacional abierta y a distancia - UnadACTIVIDAD 8 TRABAJO COLABORATIVO 2 DIANA MILENA LARA RODRIGUEZ YULY ANDRÉA HERNÁNDEZ KAREN YISETH ALARCON HERNANDEZ GERLEIN YESITH GOMEZ BELTRAN INFERENCIA ESTADÍSTICA DANYS BRITO Tutor GRUPO 100403_99 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA–UNAD MAYO DE 2011
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
5/16/2018 Act 8 Trabajo Final2 Grupo 100403 99 - slidepdf.com
Luego de abordar varios contenidos relacionados con inferencia estadística, ahora estudiaremos temas
como la prueba de hipótesis como una técnica para analizar diferencias y tomar decisiones evaluandolos riesgos que se tendrán al tomar dichas decisiones, el análisis de varianza como constituyente del
primer paso para el estudio de resultados y la estadística no paramétrica en relación con todas aquellas
pruebas cuyas hipótesis se formulan independientemente de las distribuciones de probabilidad que
siguen las variables
5/16/2018 Act 8 Trabajo Final2 Grupo 100403 99 - slidepdf.com
1. Establezca la diferencia entre: Nivel de significación y potencia de una prueba; pruebas paramétricas
y pruebas No paramétricas
La diferencia entre Nivel de significancia y la potencia de una prueba es que el Nivel de
Significación es la probabilidad de error que estamos dispuestos aceptar, mientras en la Potenciaestá la probabilidad de rechazar la hipótesis nula cuando es falsa.
En la potencia de una prueba el complemento de la probabilidad de cometer un error del tipo II seconoce como potencia de una prueba estadística. La potencia de una prueba es la probabilidad de
rechazar la hipótesis nula cuando de hecho esta es falsa y debería ser rechazada.
En el nivel de significación un parámetro, es decir una constante que puede ser determinada con
ayuda de los modelos de probabilidad de una o varias poblaciones univariantes o multivariantes, ypretendemos desarrollar el siguiente contraste de hipótesis estadística
Las pruebas no paramétricas son aplicables a casi todos los casos, mientras que las pruebasparamétricas solo son aplicables bajo ciertas condiciones.
En las pruebas paramétricas su cálculo implica una estimación de los parámetros de la poblacióncon base en muestras estadísticas. Mientras más grande sea la muestra más exacta será la
estimación, mientras más pequeña, más distorsionada será la media de las muestras por los valores
raros extremos.
En las pruebas no paramétrica su distribución no puede ser definida a priori, pues son los datosobservados los que la determinan. La utilización de estos métodos se hace recomendable cuando no
se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida
empleado no sea, como mínimo, de intervalo.
2. El tamaño de una muestra para realizar inferencia estadística depende de unos factores, (la
confiabilidad, la varianza y el error de estimación), que la determinan. Explique los criterios que tiene
un investigador para la determinación de estos factores.
Al seleccionar una muestra, si se sabe que ésta constituye un subconjunto de la población, debemostener cuidado que la misma tenga las mismas propiedades de la población y que obedezca a
determinados argumentos, desde el punto de vista estadístico, para decir que la misma es una
muestra representativa.En este sentido se considera una muestra al subconjunto representativo de la población, que ha sido
seleccionada de manera técnica mediante un procedimiento denominado diseño de muestreo, para
garantizar que dicha muestra es representativa de la población, es decir, que las unidadesseleccionadas en la muestra mediante un proceso aleatorio, hayan tenido igual probabilidad de
haber sido seleccionadas para el análisis.
5/16/2018 Act 8 Trabajo Final2 Grupo 100403 99 - slidepdf.com
3. Qué significan el error tipo I y el error tipo II. Explique su interpretación con un ejemplo
Error de tipo I (α): Al realizar el test estadístico, podríamos correr el riesgo de equivocarnos al
rechazar la hipótesis nula. La probabilidad de rechazar la hipótesis nula cuando en realidad es
verdadera (error de tipo I) se le denomina nivel de significación y es la "p". Esta probabilidad de
rechazar la hipótesis nula cuando es verdadera se le conoce también como error alfa. La "p" no es
por tanto un indicador de fuerza de la asociación ni de su importancia.
La significación estadística es por tanto una condición resultante del rechazo de una hipótesis nula
mediante la aplicación de una prueba estadística de significación. El nivel de significación es el
riesgo o la probabilidad que voluntariamente asume el investigador de equivocarse al rechazar la
hipótesis nula, cuando en realidad es cierta. Este riesgo se establece normalmente en 0.05 ó 0.01.
El proceso de poner a prueba una hipótesis involucra una toma de decisiones para rechazar o no la
hipótesis nula. Aunque los valores de la "p" son los de una variable continua, se utiliza para forzaruna decisión cualitativa, tomando partido por una u otra hipótesis. Si p < 0.05 se considera
significativo, en cuyo caso se rechaza la hipótesis nula y no significativo si p> 0.05 en cuyo caso no
se rechaza. Una "p" pequeña significa que la probabilidad de que los resultados obtenidos se deban
al azar es pequeña. Los sinónimos de la expresión estadísticamente significativos se muestran en la
tabla uno.
Recomendaciones para disminuir el error de tipo I:
Disponer de una teoría que guíe la investigación, evitando el "salir de pesca" con el ordenador
buscando asociaciones entre variables.
Disminuir el número de test estadísticos llevados a cabo en el estudio.
Depurar la base de datos para evitar errores de valores extremos que puedan producir hallazgos
significativos.
Utilizar valores de alfa más reducidos (0.01 ó 0.001).
Reproducir el estudio. Si al reproducir el estudio se obtienen resultados similares, estaremos más
seguros de no estar cometiendo el error de tipo I.
Error de tipo II (β): El riesgo alfa a ("p") indica la probabilidad de cometer un error de tipo I
(falso positivo). El error de tipo I, es por lo tanto rechazar la Ho cuando en realidad es verdadera.
Se podría considerar que para evitar este tipo de error deberíamos de elegir un nivel de confianza
más elevado, sin embargo al aumentar el nivel de confianza aumenta la probabilidad de cometer el
error de tipo II. El error de tipo II consiste en aceptar la hipótesis nula cuando es falsa y esto se
conoce como el error de tipo II o Beta (b ) (falso negativo).
5/16/2018 Act 8 Trabajo Final2 Grupo 100403 99 - slidepdf.com
Consideraciones de las pruebas paramétricas: A veces ignoran, desperdician o pierden información,
no son tan eficientes como las paramétricas y llevan a una mayor probabilidad de no rechazar una
hipótesis nula falsa (incurriendo en un error de tipo II).
7. Una de las opciones que tiene la estadística para realizar inferencia sobre los parámetros de una
población es la prueba de hipótesis. Explique las ventajas y desventajas con respecto al otro método de
estimación.
El problema que presenta la estimación puntual de un parámetro reside en que no garantiza ni mide
la precisión de la estimación. Sólo la bondad de ajuste y el tamaño de la muestra pueden
proporcionar una mayor o menor confianza en la estimación obtenida.
Por esta razón es necesario dar, junto a la estimación, una medida del grado de confianza que se
merece, la cual se consigue mediante un intervalo de confianza que proporcione unos límites dentro
de los cuales se confía esté el valor desconocido del parámetro. Esta confianza de inclusión se mide
mediante un porcentaje.
En estadística muchos problemas exigen construir conjuntos (intervalos) que contengan el
verdadero valor del parámetro en estudio con una probabilidad dada generalmente alta. Si por
ejemplo X representa los grados de grasa de una margarina se puede estar interesado en encontrar
los límites bajos y altos aceptables para este tipo de producto; pero no se puede asegurar con
probabilidad de uno que el verdadero valor se encuentre entre estos dos límites, lo máximo que se
puede lograr es elegir un número uno menos alfa (1- té muy próximo a uno (recuerde quealfa es el nivel de significación o error tipo uno) tal que la probabilidad que el verdadero valor se
encuentre entre estos dos límites inferior y superior sea mayor o igual a uno menos alfa.
En casos relacionados con situaciones especiales en las cuales se desea comprobar la efectividad de
estándares preestablecidos, la técnica de prueba de hipótesis resultaba bastante apropiada, por
cuanto permite comprobar con bastante certeza el grado de acierto en la fijación de éstos.
Una hipótesis estadística se define como un supuesto hecho sobre algún parámetro de la población
y consiste en aplicar técnicas estadísticas que permitan aceptar o rechazar una hipótesis. Este
procedimiento se conoce como contraste de hipótesis La prueba de hipótesis consiste en aplicar
técnicas estadísticas que permitan aceptar o rechazar una hipótesis. Este procedimiento se conoce
como contraste de hipótesis.
5/16/2018 Act 8 Trabajo Final2 Grupo 100403 99 - slidepdf.com
8. Los dos métodos No paramétrico para realizar una bondad de ajuste de los datos de una variable conrespecto a una distribución de probabilidad son: El de Chi-cuadrado y el de Kolmogorov - Smirnov.
Explique en qué condiciones debe usarse cada uno de ellos.
Chi – Cuadrado: Cuando los datos puntualizan a las escalas nominal u ordinal.
Se utiliza solo la frecuencia y con poblaciones pequeñas. Cuando se desconocen los parámetros media, moda, etc.
Cuando los datos son independientes y se requiere contrastar o comparar hipótesis.
Investigaciones de tipo social - muestras pequeñas no representativas >5.
Cuando se requiere de establecer el nivel de confianza o significatividad en las diferencias.
Cuando la muestra es seleccionada no probabilísticamente.
X2 permite establecer diferencias entre f y se utiliza solo en escala nominal.
Kolmogorov – Smirnov:
Se aplica a distribuciones de tipo ordinal.
Se usa para probar hipótesis acerca de distribuciones discretas.
Se basa en calcular las diferencias, en valor absoluto, entre las frecuencias acumuladas relativasobservadas y las esperadas, en cada clase.
9. El análisis de varianza es una técnica estadística utilizada para medir el efecto que tiene cada uno de
los niveles en que se clasifica una variable sobre otra variable que representa las repuestas a las
mediciones realizadas una experimentación. Explique las condiciones que se deben imponer a las dosvariables y los supuestos que deben cumplirse para que tenga validez el uso de esta técnica.
ANOVA:
Cada conjunto de datos debe ser independiente del resto.
Los resultados obtenidos para cada conjunto deben seguir una distribución normal. Las varianzas de cada conjunto de datos no deben diferir de forma significativa.
Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio, a partir
de poblaciones normalmente distribuidas.
La varianza de los subgrupos debe ser homogénea.
Las muestras que constituyen los grupos deben ser independientes. A menos de que las muestras
sean independientes, y que por lo tanto, generen estimaciones de varianza independientes, la razónde las varianzas inter e intra no adoptará la distribución F
10. Existen dos tipos de modelo de análisis de varianza: de efectos fijos y de efectos aleatorios.
Explique el significado cada uno de ellos en un análisis de varianza.
Como su nombre lo indica, el ANALISIS DE VARIANZA, consiste en comparar tres o más medias
de una muestra para identificar su homogeneidad o variabilidad.
Del análisis de varianza, podemos decir que esta técnica estadística, normalmente es utilizada paraanalizar resultados en la investigación con diseños experimentales y cuasi-experimentales; muchas
veces necesitamos comparar dos o más distribuciones que corresponden a variaciones de una
misma variable dependiente, afectada por una o más variables independientes.Teóricamente es posible dividir la variabilidad del resultado de un experimento en dos partes: la
originada por factores o tratamientos que influyen directamente en el resultado del experimento, y
5/16/2018 Act 8 Trabajo Final2 Grupo 100403 99 - slidepdf.com
la producida por el resto de factores desconocidos o no controlables, que se conoce con el nombrede error experimental.
Un modelo de análisis de varianza es de efectos fijos cuando los resultados obtenidos sólo son
válidos para esos determinados niveles del factor estudiado y lo que ocurra a otros niveles del factor
puede ser diferente.Es decir el Modelo de efectos fijos asume que los datos provienen de poblaciones normales las
cuales podrían diferir únicamente en sus medias.Un modelo de análisis de varianza es de efectos aleatorios cuando los resultados obtenidos sonválidos para cualquier nivel del factor estudiado.
El Modelo de efectos aleatorios asume que los datos describen una jerarquía de diferentes
poblaciones cuyas diferencias quedan restringidas por la jerarquía.
Modelos de análisis de la varianza
El anova permite distinguir dos modelos para la hipótesis alternativa:modelo I o de efectos fijos en
el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas.modelo II ode efectos aleatorios en el que se supone que las k muestras, se hanseleccionado aleatoriamente de
un conjunto de m>k poblaciones.
Un ejemplo de modelo I de anova es el Ejemplo 1, porque en él se asume que existen cinco
poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extraído las
muestras.
Un ejemplo de modelo II sería: un investigador está interesado en determinar el contenido, y susvariaciones, de grasas en las células hepáticas de cobayas; toma del animalario 5 cobayas al azar y
les realiza, a cada una, 3 biopsias hepáticas.
La manera más sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio
un tiempo después, en un modelo I las muestras serían iguales (no los individuos que las forman) es
decir corresponderían a la misma situación, mientras que en un modelo II las muestras serían
distintas.
Modelo I o de efectos fijos
Un valor individual se puede escribir en este modelo como m es la media global, ai es la constante
del efecto, o efecto fijo, que diferencia a las k poblaciones. También se puede escribir: representa la
desviación de la observación j-ésima de la muestra i-ésima, con respecto a su media. A este términose le suele llamar error aleatorio y, teniendo en cuenta las asunciones iniciales del análisis de la
varianza son k variables (una para cada muestra), todas con una distribución normal de media 0 y
varianza s2.
La hipótesis nula en este análisis es que todas las medias son iguales que puede escribirse en
términos del modelo como: Como en H0 se cumplen las condiciones del apartado anterior se trataráde ver como se modifican las estimaciones de la varianza en H1.
En H0 MSA y MSE son estimadores centrados de s2, es decir y usando el superíndice 0 para
indicar el valor de las variables en H0
E[MSA0] = s2
E[MSE0] = s2
5/16/2018 Act 8 Trabajo Final2 Grupo 100403 99 - slidepdf.com
Se puede ver que MSE es igual en la hipótesis nula que en la alternativa. Por lo tanto:
E[MSE] = E[MSE0] = s2
Sin embargo al valor esperado de MSA en la hipótesis alternativa se le añade un término con
respecto a su valor en la hipótesis nula
Al segundo sumando dividido por n se le llama componente de la varianza añadida por eltratamiento, ya que tiene forma de varianza, aunque estrictamente no lo sea pues ai no es una
variable aleatoria.
La situación, por lo tanto, es la siguiente: en H0, MSA y MSE estiman s2; en H1, MSE estima s2
pero MSA estima . Contrastar la H0 es equivalente a contrastar la existencia de la componente
añadida o, lo que es lo mismo, que MSE y MSA estimen, o no, la misma varianza.
El estadístico de contraste es F=MSA/MSE que, en la hipótesis nula, se distribuye según una F con
k - 1 y (n - 1)k grados de libertad. En caso de rechazar la H0, MSA - MSE estima
Modelo II o de efectos aleatorios
En este modelo se asume que las k muestras son muestras aleatorias de k situaciones distintas y
aleatorias. De modo que un valor aislado Yij se puede escribir como: donde m es la media global,
eij son variables (una para cada muestra) distribuidas normalmente, con media 0 y varianza s2
(como en el modelo I) y Ai es una variable distribuida normalmente, independiente de las eij, con
media 0 y varianza.
La diferencia con respecto al modelo I es que en lugar de los efectos fijos ai ahora se consideran
efectos aleatorios Ai.
Igual que en el modelo I se encuentra que MSE no se modifica en la H1 y que al valor esperado de
MSA se le añade el término de componente añadida (que aquí es una verdadera varianza ya que Ai
es una variable aleatoria):
Para llegar a este resultado se utiliza la asunción de independencia entre Ai y eij y es, por tanto,muy importante en el modelo y conviene verificar si es correcta en cada caso. En el ejemplo de las
cobayas significaría que las variaciones de grasa en el hígado de cada cobaya son independientes de
las variaciones entre cobayas. Esta asunción se violaría si, por ejemplo, en el animalario existieran2 cepas genéticas tales que en una de ellas la concentración de grasa en las células hepáticas fuera
mayor y más variable que en la otra.
5/16/2018 Act 8 Trabajo Final2 Grupo 100403 99 - slidepdf.com
Fuerza al investigador a profundizar en el conocimiento y dominio de las técnicas de pruebas de
hipótesis, instrumento muy utilizado en la actualidad. La ganancia en este respecto es considerable
Se amplían en forma técnica, los criterios de decisión evitando con ello el utilizar uno solo con elconsecuente problema de convertirlo en una norma absoluta que no se analiza ni se discute. Esto
reviste singular interés en el momento presente en que se analizan y discuten diferentes temas de
actualidad.
Con este trabajo nos Permitió identificar cada uno de los componentes que contiene un trabajo de
investigación y sus diferentes matices en cuanto su utilización en el entorno que se utilice.
Los diferentes modelos y su desarrollo nos permite tener una concepción global de lo que es
realmente el tema de la investigación y su implementación en cuanto a las hipótesis a manejar ya
que es un componente que se puede incluir en cualquier aspecto de la vida cotidiana.
El uso de la estadística es de gran importancia en la investigación científica.
Casi todas las investigaciones aplicadas requieren algún tipo de análisis estadístico para que sea
posible evaluar sus resultados.
En algunos casos, para resolver un problema de carácter empírico, es preciso llevar a cabo un
análisis bastante complejo, otras veces, basta con efectuar un análisis muy simple y directo.
La elección de uno u otro tipo de análisis estadístico depende del problema que se plantee en el
estudio así como la naturaleza de los datos.
La estadística constituye un instrumento de investigación y no un producto final.
5/16/2018 Act 8 Trabajo Final2 Grupo 100403 99 - slidepdf.com