Beatriz Lacruz Casaucau ([email protected]) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 1: INTRODUCCIÓN Y CONCEPTOS FUNDAMENTALES 1
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 1:
INTRODUCCIÓN Y CONCEPTOS FUNDAMENTALES
1
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 1: INTRODUCCIÓN Y CONCEPTOS FUNDAMENTALES
1.1 Conceptos fundamentales de estadística
1.2 Estadística descriptiva
1.3 Conceptos elementales de probabilidad
2
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 1: INTRODUCCIÓN Y CONCEPTOS FUNDAMENTALES
1.1 Conceptos fundamentales de estadística• Situaciones deterministas y aleatorias. • El modelo matemático. Concepto de probabilidad y estadística. • Aplicaciones a las Ciencias Experimentales• ¿Cómo se resuelve un problema utilizando la Estadística? Ejemplo:
Leyes de Mendel.• Población y muestra. Cómo seleccionar una muestra aleatoria.
3
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Situaciones deterministas y aleatorias
¿Podrías predecir con certeza qué ocurrirá con el agua cuando alcance los 100º C?
¿Sabrías determinar el tiempo que le costará a un caballito de un tiovivo dar una vuelta completa?
¿Podrías predecir el sexo de un niño en el primer mes de gestación?
Se está experimentando una nueva planta de tomate ¿podrías determinar el número de frutos que dará cada una de las plantas en una temporada?
4
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Situaciones deterministas y aleatorias
Los fenómenos determinísticos son aquellos tales que, dado el estado inicial y las condiciones de realización, se puede predecir el estado final.
Los fenómenos aleatorios o estocásticos son aquellos tales que, dado el estado inicial y las condiciones de realización, no se puede predecir el estado final.
5
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Situaciones deterministas y aleatorias
Para los fenómenos determinísticos es posible encontrar modelos que los representen de forma exacta dado un conjunto de condiciones iniciales a la realización del experimento.
EL CÁLCULO DE PROBABILIDADES Y LA ESTADÍSTICA MATEMÁTICA SON LAS CIENCIAS QUE ESTUDIAN LOS FENÓMENOS ALEATORIOS.
Para los fenómenos aleatorios o estocásticos es necesario especificar en el modelo, de alguna forma, la incertidumbre de la aparición de los resultados.
tiempo velocidad recorrido espacio
6
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
El modelo matemático: Concepto de probabilidad
¿Cuál es la probabilidad de acertar 6 en la Lotería Primitiva?
MODELO MATEMÁTICO: El concepto de probabilidad.
El Cálculo de Probabilidades es la disciplina que permite estudiar las posibilidades de realización de los fenómenos aleatorios.
7
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
El modelo matemático: Concepto de Estadística
¿Qué experimento realizarías para poder predecir el número esperado de tomates que dará cada una de las plantas?
MODELO MATEMÁTICO: Concepto de Estadística.
La Estadística es la rama de las matemáticas que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en
el cálculo de probabilidades.
¿Con qué seguridad puedes realizar la predicción anterior?
8
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Aplicaciones a las Ciencias Experimentales
• Determinar el contenido de una determinada sustancia.Determinar la cantidad de ion
nitrato en una muestra
concreta de agua
Estudiar el rendimiento de un fertilizante de plantas de tomate.
• Estudiar el rendimiento de una determinada sustancia. Comparar su efecto con otros existentes.
Determinar la concentración de anticuerpos de inmunoglobulina M en suero de varones.
Comparar el efecto de un nuevo medicamento con otros existentes. 9
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Aplicaciones a las Ciencias Experimentales
• Comprobar la eficacia de un instrumento de medidaComparar un método nuevo para la determinación de la demanda de oxígeno en aguas residuales con el método estándar de sales de mercurio.
Comparar la concentración de albúmina en suero sanguíneo de los individuos sanos con los que padecen una determinada enfermedad.
• Comparar los resultados de un experimento realizado en diferentes condiciones.
10
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Aplicaciones a las Ciencias Experimentales
• Reconocimiento de pautas.Determinar si un derramamiento de aceite proviene de una fuente concreta.
En una plantación en la que se ha detectado la aparición de unos determinados parásitos se desea estimar el efecto en la producción.
• Estudiar el alcance de una enfermedad o de una medida para prevenirla.
Análisis del efecto de una campaña publicitaria para prevenir el cáncer de próstata.
11
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Ejemplo: Leyes de Mendel
Mendel
(1865) estudió
el cruce de una variedad de guisantes amarillos y otra de verdes. Observó
que:
•
Los guisantes verdes al reproducirse dan siempre verdes.•
Los amarillos dan unos sólo amarillos y otros amarillos
y verdes, formando los primeros una raza pura.•
Si se cruzan verdes con amarillos de raza pura se
obtiene una primera raza de híbridos amarillos.•
Si los híbridos amarillos se cruzan entre sí, se obtiene
guisantes amarillos y verdes ¿se puede establecer en qué
proporción?
12
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Ejemplo: Leyes de Mendel
Recogida de datos
Se seleccionan al azar 10 plantas de guisantes en la plantación disponible o se usan 10 plantas de laboratorio.Se cuenta cuántos guisantes amarillos y cuántos verdes hay en cada una de las plantas.
TEORÍA DE MUESTREO y DISEÑO DE EXPERIMENTOS
13
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Ejemplo: Leyes de Mendel
Descripción
Se calcula la proporción de guisantes amarillos y verdes en cada una de las plantas y se presentan en una tabla de frecuencias.
ESTADÍSTICA DESCRIPTIVA o ANÁLISIS EXPLORATORIO DE DATOS
14
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Ejemplo: Leyes de Mendel
Amarillos Verdes
CantidadCantidadPlanta
Prop. Prop.Totales
12345
789
10
6
25321470212032445044
.69
.82
.74
.72
.62
.77.71.83.78.71
1175
271361391418
.31
.18.26.28.38.23.29.17.22.29
36391997342645536462
/10 = 0.7415
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Ejemplo: Leyes de Mendel
Análisis estadístico
Se observa que en cada una de las plantas la proporción de guisantes amarillos es próxima a 3/4.
La proporción promedio de guisantes amarillos por planta es de 0.74.
Se debe contrastar, utilizando herramientas estadísticas si este valor se puede considerar igual a 0.75.
ESTIMACIÓN
CONTRASTE DE HIPÓTESIS16
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Población y muestra
Se entiende por población el conjunto de todos los elementos de interés en la realización de un estudio estadístico.En un estudio de las características antropométricas de jóvenes aragoneses, la población es el conjunto de alumnos entre 13 y 16 años matriculados en alguno de los institutos o colegios de la población aragonesa.
El conjunto de mujeres españolas mayores de 18 años en un estudio sobre la incidencia del cáncer de mama.El conjunto de todos los árboles de una plantación en el estudio de la eficiencia de un nuevo fertilizante.
17
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Población y muestra
Una muestra es un subconjunto representativo de la población, es decir, un subconjunto que refleja las características esenciales de la población de la cual se obtuvo.
En el estudio de las características antropométricas de los jóvenes aragoneses, la muestra se ha obtenido seleccionando
aleatoriamente
un subconjunto de colegios
e institutos y tomando medidas sobre cada uno de los alumnos de los colegios e institutos seleccionados.
Una muestra aleatoria de árboles se obtiene seleccionando uno al azar entre los cinco primeros y, a continuación, uno de cada cinco.
18
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
Cómo seleccionar una muestra aleatoria
Es importante garantizar que la muestra se ha seleccionado aleatoriamente. De cómo seleccionar una muestra aleatoria se encarga la teoría de muestreo.
• Scheaffer, R.L.; Mendenhall, W.; Ott, L. (1986) Elementos de muestreo. Grupo Editorial Iberoamérica (un texto sencillo con buenos comentarios desde el punto de vista práctico)
• Lohr, S. L. (2000) Muestreo: Diseño y análisis. International Thompson Editores. (un texto de un nivel más alto que el anterior muy claro y muy práctico)
19
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA
Resumen de información:numérica y gráfica
PROBABILIDAD+INFERENCIA ESTADÍSTICA
Problemareal
Modelo
ConclusionesTeoría probabilidad
espe
cifica
do
no especificado
Recogida datosInferencia estadística
20
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
En esta práctica aprenderemos a:
• Acceder al programa SPSS.
• Crear ficheros de datos.
• Abrir ficheros de datos existentes.
PRÁCTICA 1: INTRODUCCIÓN AL PROGRAMA ESTADÍSTICO SPSS
21
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
22
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 1: ESTADÍSTICA DESCRIPTIVA
1.2 Estadística descriptiva• Introducción.• Unidad estadística o individuo. Caracteres y modalidades. Tipos de
variables estadísticas. • Representación de variables.• Medidas de una distribución de frecuencias. Medidas de posición:
media, mediana y moda. Cuantiles. Propiedades de las medidas.• Medidas de dispersión: recorridos y varianza. El coeficiente de
variación. • Medidas de forma: asimetría y curtosis.• El diagrama de caja.• Representación de variables multidimensionales.
23
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Introducción
La Estadística Descriptiva se encarga de acumular información, presentarla, criticarla, analizarla y sintetizarla. Pretende descubrir las regularidades o características existentes en un conjunto de datos.
La Estadística Descriptiva proporciona:
• Métodos para detectar valores atípicos o errores en la recogida de la información.
• Herramientas para presentar la información.• Medidas para resumir la información.
24
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Unidad estadística o individuo
Se denomina unidad estadística o individuo a cada uno de los componentes de la población en estudio.En un estudio de las características antropométricas de los jóvenes aragoneses se han considerado
estudiantes
entre 13 y 16 años; éstos son los individuos de la poblaciónCada uno de los árboles de una plantación es un individuo en el estudio de la eficiencia de un nuevo fertilizante.Cada porción de agua de un río es un individuo en el estudio del contenido en lindano.
25
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Caracteres y modalidades
Cada uno de los individuos de la población puede describirse según una o varias características que denominaremos caracteres o variables.De cada alumno se han recogido las siguientes características: peso, talla, cantidad de grasa en los pliegues cutáneos del bíceps, tríceps, subescapular, suprailíaco, abdomen y muslo, sexo y edad. De cada árbol se ha medido la altura, el volumen, el tipo de suelo en el que se encuentra, el número de frutos y su tamaño medio.
26
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Caracteres y modalidades
Cada una de las variables en estudio puede presentar una o varias categorías denominadas modalidades o valores que toma la variable.
La variable edad en este estudio toma cuatro valores distintos 13, 14, 15 y 16.
La variable altura puede tomar muchos valores distintos. Razonablemente se espera que dichos valores estén entre 1.50 y 2.00 m.
Las modalidades de la variable sexo son hombre y mujer.
El rango de valores dependerá de la población en estudio. 27
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Tipos de variables estadísticas
Nominales, si sus diversas modalidades no se pueden ordenar.Cualitativas, si sus diversas
modalidades no son asociables a un número real. Ordinales, si sus modalidades se
pueden ordenar.
La variable sexo es una variable cualitativa nominal El grado de satisfacción en el trato con el personal sanitario es una variable cualitativa ordinal. Sus modalidades podrían ser: muy satisfecho, satisfecho, poco satisfecho.
28
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Tipos de variables estadísticas
Discretas, si toma valores en el conjunto de los números enteros.Cuantitativas, si cada
modalidad tiene asociado un número. Continuas, si sus valores posibles
están en un intervalo.
El número de frutos es una variable cuantitativa discreta. Toma valores entre 0 y 100, por ejemplo.
La variable altura es cuantitativa continua. Puede tomar cualquier valor entre, por ejemplo, 150 y 200 cm.
29
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Tipos de variables estadísticas
Variablecuantitativa
discreta
Variablescuantitativas
continuas
Variablecualitativa
nominal
30
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Representación de variables estadísticas
Para la representación de las variables estadísticas se utilizan las tablas de frecuenciasPara la representación de las variables estadísticas se utilizan las tablas de frecuencias y las representaciones gráficas.
Diagrama de sectores
Chicas
Chicos
Variables cualitativas
Sexo
775 51,6 51,6 51,6726 48,4 48,4 100,0
1501 100,0 100,0
ChicosChicasTotal
VálidosFrecuencia Porcentaje
Porcentajeválido
Porcentajeacumulado
31
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Representación de variables estadísticas
Diagrama de barras
Edad
Edad
16151413
Porc
enta
je
30
20
10
0
Edad
387 25,8 25,8 25,8368 24,5 24,5 50,3371 24,7 24,7 75,0375 25,0 25,0 100,0
1501 100,0 100,0
13141516Total
VálidosFrecuenciaPorcentaje
Porcentajeválido
Porcentajeacumulado
Variables cuantitativas con muchas observaciones y pocos valores distintos.
32
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Representación de variables estadísticas
Histograma
Peso agrupado
11010090807060504030
Peso agrupado
Frec
uenc
ia
600
500
400
300
200
100
0
Peso agrupado
24 1,6 1,6244 16,3 17,9551 36,7 54,6440 29,3 83,9170 11,3 95,255 3,7 98,913 ,9 99,73 ,2 99,91 ,1 100,0
1501 100,0
menor que 3535-4545-5555-6565-7575-8585-9595-105mayor que 105Total
VálidosFrecuencia Porcentaje
Porcentajeacumulado
Valores agrupados en intervalos
Variables cuantitativas con muchas observaciones y muchos valores distintos.
33
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
¿Cómo se determinan las clases?
Se recomienda que el número de clases esté entre 5 y 15. Habrá más clases cuanto mayor sea el número de observaciones.
El rango de valores considerados debe cubrir todas las observaciones y que la primera y última clases no queden vacías. Así, el primer intervalo tiene que contener al mínimo valor observado y el último, al máximo.
Los intervalos pueden tener idéntica o distinta amplitud. SPSS no contempla la posibilidad de dibujar histogramas con clases de distinta amplitud.
34
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
¿Cómo se determinan las clases?
El mínimo peso observado es de 29 kg
y el máximo de 107.5 kg. Por comodidad, se han fijado nueve intervalos, cuyos extremos son números enteros que van de 25 a 110 kg. El número de observaciones es 1501, lo que permite fijar un gran número de clases.
Se han medido las concentraciones de succinato deshidrogenasa
en una muestra de células de individuos
sanos obteniéndose los siguientes resultados: 2.37, 3.45, 1.91, 4.02, 1.42, 3.78, 2.51, 3.13, 2.85, 1.98.
35
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
¿Cómo se determinan las clases?
Concentración de sucinato
4,003,503,002,502,001,50
Concentración de sucinato
Frec
uenc
ia
2,5
2,0
1,5
1,0
,5
0,0
Concentración de sucinato
4,103,803,503,202,902,602,302,001,701,40
Concentración de sucinato
Frec
uenc
ia
2,5
2,0
1,5
1,0
,5
0,0
Si el estudio consta de muy pocas observaciones no se considerará ni el uso de tablas ni las representación gráfica de las variables.
36
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de una distribución de frecuencias
Son medidas para resumir la información contenida en los datos y cuya interpretación permite detectar ciertas regularidades en el comportamiento de la población.
Son de tres tipos:• Medidas de tendencia central o de posición: dan idea de en
torno a qué valores se encuentra la población• Medidas de dispersión: miden la separación de los datos
respecto a la medida de posición.• Medidas de forma: Estudian la simetría y el apuntamiento de la
distribución.37
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y modaLa media aritmética de la distribución es la suma de todas las observaciones dividida por el número de individuos en la población.
La cantidad media de albúmina por litro es:(42.5 + 41.6 + 42.1 + 41.9 + 41.1 + 42.2)/6 = 41.9 gr. por litro
La edad media de los estudiantes es:(13·387 + 14·368 + 15·371 + 16·375)/1501 =14.5 años
Una muestra de suero sanguíneo de un individuo sano debe contener 42 gramos de albúmina por litro. Se ha medido en seis individuos sanos: 42.5, 41.6, 42.1, 41.9, 41.1, 42.2
38
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
A partir de las tablas con los datos agrupados, la media se calcula utilizando como valores de la variable los puntos medios de los intervalos.
El peso medio de los estudiantes es:
30·24 + 40·244 + 50·551 + 60·440 + 70·170 + 80·55 + 90·13 + 100·3 + 110·11501
=54.83 kilos
Observa que el cálculo de la media sólo tiene sentido para variables cuantitativas.
39
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
Una vez ordenadas las observaciones de menor a mayor, la mediana es el valor que divide a la población en dos mitades.
Una vez ordenadas las concentraciones de albúmina:41.1, 41.6, 41.9, 42.1, 42.2, 42.5.
La mediana es: 41.9 y 42.1 gr
por litro, es decir, el 50% de los individuos tiene una concentración de albúmina menor o igual que 41.9 gr/l (ó 42.1) y el otro 50% mayor o igual.La edad mediana de los estudiantes es 14 años. El 50% tiene 14 años o menos (exactamente el 50.3%) y resto más.
40
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
El peso mediano de los estudiantes es 53.9 kg., es decir, el 50% de los estudiantes pesan menos de 53.9 kg. y el resto más.En la tabla de datos agrupados se observa que el valor mediano debe ser una valor entre 45 y 55 kg
(intervalo
mediano). En particular, se tiene que el 54.6% de los estudiantes pesan menos de 55 kg.
Observa que el cálculo de la mediana sólo requiere que las modalidades se puedan ordenar, por tanto, su cálculo tiene sentido
tanto para variables cuantitativas como cualitativas ordinales.41
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
La moda es el valor más frecuente.
La edad más frecuente es 13 años, aunque en este ejemplo se observa que la muestra se ha seleccionado tratando de conseguir grupos de edad del mismo tamaño.
El peso modal está entre los 45 y 55 kilos. A este intervalo se le denomina intervalo modal.
Cuando la variable toma muchos valores distintos la moda sólo tiene sentido si se obtiene a partir de los datos agrupados.
42
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
Observa que el cálculo de la moda sólo utiliza el valor de las frecuencias, por tanto, su cálculo tiene sentido
para cualquier tipo de variable.
En la población de estudiantes aragoneses son algo más frecuentes los chicos que las chicas, 51.6% frente al 48.4%, aunque la diferencia es muy pequeña.
43
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Peso agrupado
11010090807060504030
Peso agrupadoFr
ecue
ncia
600
500
400
300
200
100
0
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: media, mediana y moda
Media = 54.83 kgMediana = 53.9 kg
Intervalo modal
44
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: cuantiles
Un cuantil de orden
es el valor de la variable por debajo del cual se encuentra el ·100% de la población.Casos especiales de cuantiles son los percentiles, que dividen a la población en 100 partes iguales, y los cuartiles, que dividen a la población en 4 partes iguales.
Así, el percentil de orden 1 deja por debajo al 1% de la población; el de orden 15, al 15% y el 80 al 80%.
El primer cuartil deja por debajo al 25% de la población; el segundo al 50% (coincide con la mediana) y el tercero, al 75%.
45
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: cuantiles
Estadísticos
Peso1501
042,20045,90048,90051,20053,90056,60059,20062,96068,500
VálidosPerdidos
N
102030405060708090
Percentiles
En la población de estudiantes aragoneses se tiene que el 10% pesan menos de 42.2 kg.; el 20% menos de 45.9 kg.,...,el 50% menos de 53.9 kg., el 70% menos de 59.2 kg.,..., el 90% menos de 68.5 kg. y el 10% restante más de 68.5 kg.
46
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: cuantiles
Peso agrupado
11010090807060504030
Peso agrupadoFr
ecue
ncia
600
500
400
300
200
100
0
Percentil 10 = 42.2 kg
Suma de las áreas de los rectángulos = 10%
47
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: propiedades
La media es sensible a valores extremos.La concentración de albúmina media es 41.9 gr. por l.
41.1 41.6 41.9 42.1
42.2
42.5 46.5
42.6
Si le añadimos una observación igual a 46.5, la media pasa a ser 42.6.
La mediana no lo es.
En el primer caso, la mediana es 41.9 gramos por litro y en el segundo pasa a ser 42.1.
48
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de posición: propiedades
Tanto la media como la mediana pueden no representar bien el comportamiento de la variable.
41.1 41.6 41.9 42.1
42.2
42.5 46.2
46.5
46.4
46.3
43.7
¿Podrías decir qué está ocurriendo con estas observaciones?
49
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
El recorrido, rango o amplitud es la diferencia entre el mayor y el menor valor de la variable.
Un valor pequeño del recorrido indica poca dispersión, puesto que la variable toma valores en un intervalo pequeño. Sin embargo, un valor grande puede indicar mucha dispersión o la existencia de valores extremos.La concentración de albúmina máxima observada es de 42.5 gr/l y la mínima de 41.1 gr/l siendo la media de 41.9 gr/l. El recorrido es de 42.5 -
41.1 = 1.4 gr/l indicando
poca dispersión en los datos.
41.1
41.6
41.9
42.1
42.2
42.5
50
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
En otra muestra la concentraciones de albúmina han sido41.1, 41.6, 49.1, 42.1, 42.2, 42.5.
La media aumenta a 43.1 gr/l, afectada por el valor máximo observado y la mediana es 42.1 gr/l, que está menos afectada por los valores extremos.El valor del recorrido es 49.1 -
41.1 = 8 gr/l indicando
mucha dispersión o existencia de valores extremos.
41.1
41.6
49.142.1 42.5
42.2
51
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
En una tercera muestra la concentraciones de albúmina observadas han sido
41.1, 42.6, 49.1, 45.1, 47.2, 43.5.
Ahora la media es 44.8 gr/l y la mediana es 43.5 gr/l.El valor del recorrido es 49.1 -
41.1 = 8 gr/l indicando
mucha dispersión o existencia de valores extremos.
41.1 42.6 49.145.1 47.243.5
52
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
El recorrido intercuartílico es la diferencia entre tercer y primer cuartiles.
Un valor pequeño del recorrido intercuartílico indica poca dispersión. Sin embargo, un valor grande puede indicar mucha dispersión.Como los cuartiles están poco afectados por la existencia de valores extremos, un recorrido intercuartílico pequeño frente a un recorrido grande indicará la existencia de valores extremos. Si ambos son grandes, podemos asegurar que existe dispersión.
53
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
RI = 42.2 -
41.6 = 0.6 gr/l., que indica poca dispersión. (R=1.4)
RI = 47.2 -
42.6 = 4.6 gr/l, un valor alto, y R=8 que indica que hay dispersión.
RI = 42.5 -
41.6 = 0.9 gr/l, pequeño y R=8, lo que indica la existencia de valores extremos.
41.1
41.6
41.9
42.1
42.2
42.5
41.1
41.6
49.142.1 42.5
42.2
41.1 42.6 49.145.1 47.243.5 54
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
41.1 41.6 42.1 42.2 42.541.9
42.5-41.9=0.6
41.6-41.9=-0.3
41.9-41.9=0
42.1-41.9=0.2
42.2-41.9=0.3
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
La varianza es la media las distancias de las observaciones a la media elevadas al cuadrado.•
Calculamos las distancias de las cantidades de albúmina a su media 41.9 en el primer ejemplo:
41.1-41.9=-0.855
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
•
¿Qué ocurre si sumamos las distancias? (-
0.8) + (-
0.3) + 0 + 0.2 + 0.3 + 0.6 = 0
Al compensarse las distancias positivas con las negativas la suma de las distancias no proporciona una
buena medida de dispersión.
La suma de las distancias de las observaciones a la media es siempre cero, por ello, se dice que la media es
el centro de gravedad de la distribución.
56
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
•
¿Cómo se podrían medir las distancias eliminando el efecto del signo?
(-
0.8)2
+ (-
0.3)2
+ 0 2
+ 0.2 2
+ 0.3 2
+ 0.6 2
= 1.22
•
La varianza es, por tanto, 1.22/6=0.203 (gr/l)2
En la segunda muestra el valor de la varianza es 7.4 (gr/l) 2.
En la tercera muestra el valor de la varianza es también 7.4 (gr/l) 2.
57
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
El inconveniente de la varianza es que no se mide en las mismas unidades de medida que la variable y, por tanto, es difícil de
interpretar. La solución consiste en definir la desviación típica o desviación estándar como la raíz cuadrada de la varianza.
En la primera muestra el valor de la desviación típica es 0.45 gr/l, un valor pequeño que indica poca dispersión.
En la segunda y tercera muestras el valor de la varianza es 2.7 gr/l, un valor alto que indica dispersión o existencia de valores extremos.
58
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
Ninguna de las tres medidas de dispersión presentadas permite, por sí sola, determinar si la variable está dispersa o no. Se
recomienda el uso de las tres medidas simultáneamente para poder describir esta característica de la variable.
Además, el histograma o el diagrama de barras, nos permitirán determinar la existencia o no de dispersión y la
posible existencia de valores atípicos.
Si la suma de los cuadrados de las distancias se dividen por n-1, la medida resultante se denomina cuasivarianza. Y su raíz cuadrada es la cuasidesviación típica. El interés de estas medidas se verá en el capítulo de inferencia.
59
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: recorridos y varianza
Talla
190,0
185,0
180,0
175,0
170,0
165,0
160,0
155,0
150,0
145,0
140,0
135,0
Talla
Frec
uenc
ia
200
100
0
Descriptivos
162,9651162,7000
80,5988,9776133,80193,1059,30
11,8000
MediaMedianaVarianzaDesv. típ.MínimoMáximoRangoAmplitud intercuartil
Estadístico
60
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: el coeficiente de variación
Las medidas anteriores tienen las unidades de las variables y, por tanto, dependen de la magnitud de las mismas. Para evitar esta dependencia se define el coeficiente de variación como el cociente entre la desviación típica y la media.
El coeficiente de variación es adimensional y permite comparar la dispersión de poblaciones distintas.
Sólo se define para variables con valores positivos.
61
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: el coeficiente de variación
El peso de las chicas es de 52.66 kg. con una desviación típica de 8.94 kg. y el de los chicos de 56.91 kg. con una desviación típica de 11.91 kg. Para comparar la dispersión entre las dos poblaciones calculamos el coeficiente de variación:
0.20956.9111.91CVChicos 0.170
52.668.94CVChicas
62
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de dispersión: el coeficiente de variación
Peso
105
100
9590858075706560555045403530
Chicos
Frec
uenc
ia
120
100
80
60
40
20
0
Peso
105
100
9590858075706560555045403530
Chicas
Frec
uenc
ia
120
100
80
60
40
20
0
63
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de forma: asimetría y curtosisPara estudiar la simetría o asimetría de una distribución se utiliza el eje que pasa por la media aritmética.
Una forma de medir la asimetría de una distribución de frecuencias es mediante el coeficiente de Fisher, aunque esta característica suele evidenciarse en su representación gráfica.
Peso agrupado
11010090807060504030
Peso agrupadoFr
ecue
ncia
600
500
400
300
200
100
0
Media = 54.83 kg
64
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de forma: asimetría y curtosis
Distribución simétrica
Coef. asimetría=0
Distribución asimétrica positiva Coef. asimetría>0
Distribución asimétrica negativa Coef. asimetría<0
65
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de forma: asimetría y curtosis
Cantidad de grasa en el abdomen
464034282216104
Cantidad de grasa en el abdomen
Frec
uenc
ia
200
150
100
50
0
Distribución campaneiforme y
asimétrica positiva.
Talla
190,0
185,0
180,0
175,0
170,0
165,0
160,0
155,0
150,0
145,0
140,0
135,0
Talla
Frec
uenc
ia
200
100
0
Distribución campaneiforme
simétrica.
66
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de forma: asimetría y curtosis
Las medidas de apuntamiento o de curtosis se aplican a distribuciones en forma de campana, es decir, unimodales, simétricas o con ligera asimetría.
El apuntamiento se mide con respecto a una curva de referencia, la curva normal, que es simétrica, tiene forma de campana, la mayoría de los valores están alrededor de la media y los valores alejados de la media son poco numerosos.
Las medidas de curtosis tratan de estudiar la distribución de frecuencias en la zona central. La mayor o menor concentración de frecuencias alrededor de la media dará lugar a distribuciones más o menos apuntadas.
67
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de forma: asimetría y curtosis
Media = Mediana = Moda
CURVA NORMAL
68
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de forma: asimetría y curtosis
Talla
190185180175170165160155150145140135
Talla
Frec
uenc
ia
200
100
0
Aproximadamente, igual de apuntada
que la normal. Mesocúrtica (curtosis = 0)
Más apuntada que la normal.
Leptocúrtica (curtosis > 0)
Cantidad de grasa en el subescapular
4240383634323028262422201816141210864
Cantidad de grasa en el subescapular
Frec
uenc
ia
400
300
200
100
0
Menos apuntada que la normal.
Platicúrtica (curtosis < 0)
Cantidad de grasa en el tríceps
44403632282420161284
Cantidad de grasa en el tríceps
Frec
uenc
ia
160
140
120
100
80
60
40
20
0
69
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
El diagrama de cajaEl diagrama de caja es una representación gráfica muy útil que combina medidas de posición y dispersión y que nos ayudará también a detectar la existencia de valores extremos.
1501N =
Talla
200
190
180
170
160
150
140
130
917
924
635599110013087891068768740696
Valor mínimo
Valor máximo
Extremos entre los que se espera encontrar los valores de la variable
Cuartiles, la caja contiene al 50% de las observaciones
70
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
El diagrama de caja
El diagrama de caja representa el recorrido y el recorrido intercuartílico, así como los límites entre los que se espera
encontrar a la mayor parte de las observaciones. Los valores que quedan fuera de los límites se representan con un círculo si
quedan, relativamente cerca de lo que se considera “normal” y con un asterisco si se pueden considerar datos atípicos.
Ante la existencia de valores extremos se debe estudiar su procedencia: pueden ser errores de transcripción a la hora de
almacenar los datos, individuos que no pertenecen a la población en estudio o simplemente datos atípicos.
71
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
666N =
MUESTRA3MUESTRA2MUESTRA1
50
48
46
44
42
40
3
ESTADÍSTICA DESCRIPTIVA
El diagrama de caja
Mucha dispersión
Aparecen valores extremos
Poca dispersión 72
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
En esta práctica aprenderemos a:
• Construir tablas de frecuencias y representaciones gráficas.• Recodificar las variables para poder construir tablas con los
datos agrupados. • Calcular las medidas de posición, dispersión y forma,
interpretando los resultados.• Detectar valores extremos.• Analizar subgrupos.• Eliminar casos.
PRÁCTICA 2 y 3: ESTADÍSTICA DESCRIPTIVA
73
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
19 4 1 134 72 29 9138 160 149 10474 97 126 14316 27 49 785 6 14 301 2 2 8
1 2 1
menor que 3535-4545-5555-6565-7575-8585-9595-105mayor que 105
Pesoagrupado
13 14 15 16Edad
Tabla bidimensional de frecuencias absolutas74
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
Tabla bidimensional de frecuencias relativas
1,3% ,3% ,1% 8,9% 4,8% 1,9% ,6%9,2% 10,7% 9,9% 6,9%4,9% 6,5% 8,4% 9,5%1,1% 1,8% 3,3% 5,2%
,3% ,4% ,9% 2,0%,1% ,1% ,1% ,5%
,1% ,1% ,1%
menor que 3535-4545-5555-6565-7575-8585-9595-105mayor que 105
Pesoagrupado
% tabla13
% tabla14
% tabla15
% tabla16
Edad
75
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
Tabla bidimensional de frecuencias relativas por filas
% de Peso agrupado
79.2% 16.7% 4.2% 100.0%54.9% 29.5% 11.9% 3.7% 100.0%25.0% 29.0% 27.0% 18.9% 100.0%16.8% 22.0% 28.6% 32.5% 100.0%
9.4% 15.9% 28.8% 45.9% 100.0%9.1% 10.9% 25.5% 54.5% 100.0%7.7% 15.4% 15.4% 61.5% 100.0%
33.3% 66.7% 100.0%100.0% 100.0%
25.8% 24.5% 24.7% 25.0% 100.0%
Menor que 3535-4545-5555-6565-7575-8585-9595-105Mayor que 105
Pesoagrupado
Total
13.00 14.00 15.00 16.00Edad
Total
76
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
Tabla bidimensional de frecuencias relativas por columnas
% de Edad
4.9% 1.1% .3% 1.6%34.6% 19.6% 7.8% 2.4% 16.3%35.7% 43.5% 40.2% 27.7% 36.7%19.1% 26.4% 34.0% 38.1% 29.3%4.1% 7.3% 13.2% 20.8% 11.3%1.3% 1.6% 3.8% 8.0% 3.7%.3% .5% .5% 2.1% .9%
.3% .5% .2%.3% .1%
100.0% 100.0% 100.0% 100.0% 100.0%
Menor que 3535-4545-5555-6565-7575-8585-9595-105Mayor que 105
Pesoagrupado
Total
13.00 14.00 15.00 16.00Edad
Total
77
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Gráficos para variables cualitativas o cuantitativas agrupadas
Gráficos de barras bidimensional
Edad
16.0015.0014.0013.00
Frec
uenc
ia
200
100
0
Peso agrupado
Menor que 35
35-45
45-55
55-65
65-75
75-85
85-95
95-105
Mayor que 105
Edad
16.0015.0014.0013.00
Frec
uenc
ia
500
400
300
200
100
0
Peso agrupado
Mayor que 105
95-105
85-95
75-85
65-75
55-65
45-55
35-45
Menor que 35
78
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
Paradoja de Simpson
Global Solici- tudes
Admi- siones
%
Mujeres 2000 1136 56.8
Hombres 2000 955 47.7
Letras Solici- tudes
Admi- siones
%
Mujeres 800 560 70
Hombres 300 225 75
Ingenie-ría
Solici- tudes
Admi- siones
%
Mujeres 200 36 18
Hombres 700 140 20
Econó-micas
Solici- tudes
Admi- siones
%
Mujeres 1000 540 54
Hombres 1000 590 59
79
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
Tabla tridimensional de frecuencias absolutas
10 9 3 1 1 75 59 35 37 10 19 1 869 69 67 93 46 103 34 7037 37 59 38 73 53 74 6912 4 17 10 33 16 63 15
2 3 6 11 3 25 5 1 1 1 2 6 2 1 2 1
menor que 3535-4545-5555-6565-7575-8585-9595-105mayor que 105
Pesoagrupado
RecuentoChicos
RecuentoChicas
Sexo13
RecuentoChicos
RecuentoChicas
Sexo14
RecuentoChicos
RecuentoChicas
Sexo15
RecuentoChicos
RecuentoChicas
Sexo16
Edad
80
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Tablas
Tablas bidimensionales según los valores de una tercera variable
Sexo Chicos
10 3 75 35 10 169 67 46 3437 59 73 7412 17 33 63
2 6 11 25 1 2 6 1 2 1
menor que 3535-4545-5555-6565-7575-8585-9595-105mayor que 105
Pesoagrupado
13 14 15 16Edad
Sexo Chicas
9 1 1 59 37 19 869 93 103 7037 38 53 69
4 10 16 153 3 51 1 2
menor que 3535-4545-5555-6565-7575-8585-9595-105mayor que 105
Pesoagrupado
13 14 15 16Edad
81
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Representación de dos o más variables: Diagrama de dispersión
Diagrama de dispersión o nube de puntos
Talla
200190180170160150140130
Peso
120
100
80
60
40
20
Talla
200190180170160150140130
Peso
120
100
80
60
40
20
Sexo
Chicas
Chicos
82
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de asociación
La medida de asociación lineal más simple entre dos variables cuantitativas es la covarianza.
X
3210-1-2-3
Y
6
4
2
0
-2
-4
X
3210-1-2-3
Y
4
3
2
1
0
-1
-2
-3
-4
0s XY 0s XY
83
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de asociación
X
3210-1-2-3
Y
3
2
1
0
-1
-2
-3
0sXY X
3210-1-2-3
Y4
1
0
-1
-2
-3
-4
-5
-6
0sXY Por definición la covarianza entre X e Y es igual a la covarianza entre Y y X.
YXXY ss 84
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Medidas de asociación
El coeficiente de correlación lineal es:
YX
XYXY ss
sr
• Es un valor entre -1 y 1.
• Si existe una relación lineal exacta entre X e Y, Y = aX + b, el coeficiente de correlación valdrá 1 si a > 0 y -1, si a < 0.
• Cuanto más próximo a 1 o -1 se encuentre el coeficiente de correlación lineal, más fuerte será la relación lineal entre las variables. Si está próximo a 0, no existe relación lineal entre las variables.
85
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
ESTADÍSTICA DESCRIPTIVA
Bibliografía
• Martín Pliego, F. J. (1994) Introducción a la Estadística Económica y Empresarial. (Teoría y práctica). Editorial AC. (Aunque es un libro dedicado a la economía y a las ciencias empresariales en lo que se refiere a los ejemplos que utiliza, los conceptos estadísticos están claramente ordenados y definidos.)
• Lacruz, B.; Pérez-Palomares, A.; Del Pozo, L.; Sánchez- Valverde, B. (1999) Estadística Elemental con SPSS. Universidad de Zaragoza. (Este libro contiene varias colecciones de datos, la mayoría de ellas han sido analizadas desde el punto de vista de la Estadística Descriptiva, por lo que proporciona una visión práctica de ésta.)
86
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
En esta práctica aprenderemos a:
• Construir tablas de frecuencias con dos o más variables.• Representar nubes de puntos. • Calcular las medidas de asociación entre dos variables: la
covarianza y el coeficiente de correlación.
PRÁCTICA 4: ESTADÍSTICA DESCRIPTIVA
87
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
88
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 1: CONCEPTOS ELEMENTALES DE PROBABILIDAD
1.3 Conceptos elementales de probabilidad• Introducción. Concepto de probabilidad. Propiedades.• Probabilidad condicionada. Sucesos independientes.• Teorema de la probabilidad total. Teorema de Bayes. • Variables aleatorias.• Distribuciones discretas de probabilidad: binomial, hipergeométrica y Poisson.• Distribuciones continuas de probabilidad: Normal.• Distribuciones multivariantes: multinomial y Normal• Distribuciones relacionadas con la normal: chi-cuadrado, F de Snedecor y t de
Student.• Otras distribuciones discretas: geométrica o de Pascal y binomial negativa.• Otras distribuciones continuas: lognormal, uniforme, exponencial, beta, gamma
y Weibull. 89
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Introducción
La Estadística es la rama de las matemáticas que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de probabilidades.
El Cálculo de Probabilidades es la disciplina que permite estudiar las posibilidades de realización de los fenómenos aleatorios.
90
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Concepto de probabilidad• Un experimento aleatorio es aquél en el que, con la información que tenemos, no podemos predecir con seguridad el resultado. • El conjunto de todos los resultados se llama espacio muestral.• Llamaremos suceso a aquel conjunto del espacio muestral del que se puede afirmar si ha sucedido o no, una vez realizado el experimento.• Los posibles resultados de un experimento aleatorio se denominan “sucesos elementales”. La unión de sucesos elementales da lugar a “sucesos compuestos”.
• Experimento: Sacar una carta de una baraja española• Suceso elemental: As de copas• Suceso compuesto: Copas
91
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Concepto de probabilidadEl cálculo de probabilidades se encarga de obtener las probabilidades de sucesos compuestos a partir del conocimiento de las probabilidades de los sucesos elementales y unas reglas de cálculo.Interpretación de la probabilidad: si el experimento se puede repetir un gran número de veces
probabilidad~proporción de ocurrenciaEjemplo: Se sacan 4 cartas de una baraja española. La probabilidad de que las 4 sean de distinto palo es
1000/9139=0.10942Si se realiza el experimento un número grande de veces, un 11% de las veces (aproximadamente) las cartas serán de distintos palos
92
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDADReglas del cálculo de probabilidades
• Suceso seguro (ocurre siempre) = unión de todos los posibles resultados. Coincide con el espacio muestral.
“Sale una carta”• Suceso imposible (no puede ocurrir) “Sale 13 de bastos”• Unión de sucesos (ocurre al menos uno de ellos)
A=“Sale rey” B =“Sale copas” A B =“Sale rey o copas”
• Intersección de sucesos (ocurren todos ellos) A=“Sale rey” B =“Sale copas” A B =“Sale rey de copas”
• Suceso complementario o contrario. A=“Sale rey”, =“No sale rey”
A
• A B (si ocurre A, entonces ocurre B) A=“Sale rey”B=“Sale figura”
93
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Reglas del cálculo de probabilidades
1p(A)0 • La probabilidad de cualquier suceso está entre 0 y 1.
1)p( • La probabilidad del suceso seguro es 1.
• La probabilidad de que ocurra un suceso A o un suceso B, siendo ambos excluyentes, es la suma de las probabilidades.
BAsip(B)p(A)B)p(A
• Notación: p(A) es la probabilidad de que ocurra el suceso A.
94
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDADPropiedades (conclusiones de las reglas)
• Probabilidad del complementario p(A)1)Ap( • Probabilidad del suceso imposible 0)p( • La probabilidad de que ocurra un suceso A o un suceso B, si no
son mutuamente excluyentes, es la suma de las probabilidades de A y B menos la probabilidad de que ocurran los dos a la vez.
B)p(A-p(B)p(A)B)p(A
A = rey, B = copas BA
• Si el suceso A está incluido en B entonces p(B)p(A)
95
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDADModelos de Probabilidad
Modelo clásico: número finito de resultados equiprobables (cartas de la baraja)
posiblescasosfavorablescasos
)cardinal()cardinal(Ap(A)
Modelo geométrico: espacio muestral = figura geométrica acotadaresultados “equiprobables”
)medida(medida(A)p(A)
Modelo finito: número finito de resultados (dado trucado)
Ai ipp(A)
96
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Probabilidad condicionadaLa probabilidad de un suceso A sabiendo que ha ocurrido un suceso B, esto es, la probabilidad de A condicionado a B, es igual a la probabilidad de que sucedan simultáneamente A y B, dividido por la probabilidad de B.
0Bp con ,p(B)
B)p(A)Bp(A
Ejemplo: Si sabemos que la carta que ha salido es una figura, ¿cuál es la probabilidad de que sea un caballo?
31
40/1240/4
p(figura)
figura)yp(caballo)figurap(caballo
97
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDADSucesos independientes
Simetría en A y BLa dependencia de A y B no implica necesariamente relación causa-efecto
p(B)p(A)B)p(A Dos sucesos A y B son independientes si p(A))Bp(A
el conocimiento de que ha ocurrido el suceso B no modifica nuestras creencias sobre la posibilidad de que ocurra A.
Es decir, si p(B)>0, son independientes si
Ejemplo: A=“sacar rey”, B=“sacar copas” p(A B)=p(sacar rey de copas)=1/40=p(rey)·p(copas)
)Bp(. cumple las reglas de la probabilidad
98
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDADRegla de la multiplicación (teorema de la probabilidad compuesta)
Ejemplo: Se sacan 4 cartas, ¿cuál es la probabilidad de que sean los 4 reyes? A1 =“la primera carta es rey”, A2 =“la segunda carta es rey”, A3 =“la tercera carta es rey”, A4 =“la cuarta carta es rey”
Si son sucesos cualesquiera (con probabilidad positiva), la probabilidad de que ocurran todos ellos puede ponerse como
k1 A,...,A
)A...A|p(A)·...·AA|p(A)·A|p(A)·p(A)A...p(A
1-k1k213
121k1
000011.091390
1371
382
393
404)AAAp(A 4321
99
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Probabilidad condicionada: Ejemplo
0.009110010
999)p(P)Pp(P)Pp(P 11221
En una caja con 100 peces hay 10 que tienen una malformación. Se escogen 2 al azar, ¿cuál es la probabilidad de que ambos sufran malformación?
P1
= el primer pez sufre malformaciónP2
= el segundo pez sufre malformación
100
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Teorema de la probabilidad total
))p(AAp(B))p(AAp(B))p(AAp(B)Ap(B)Ap(B)Ap(Bp(B)
kk2211
k21
A1 A2 Ak...
B
jiAA ji ,
1)p(A1j
i
k
101
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Teorema de la probabilidad total: Ejemplo
El test
de alcoholemia, que realiza la policía en la carretera, es fiable en un 80% de las ocasiones (en los dos sentidos). Se sabe que el 5% de los conductores detenidos por la policía está embriagado, ¿qué proporción de conductores detenidos dará positivo?
p(E)=0.05
E No E
Positivo
0.230.950.8)-(10.050.8p(nE))nEp( p(E))Ep(nE)p(E)p()p(
0.8)nEp(
0.8)Ep(
102
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Teorema de Bayes
))p(AAp(B
))p(AAp(Bp(B)
)Ap(B)Bp(Ajj
k
1j
iiii
Ejemplo: si un conductor ha dado positivo, ¿cuál es la probabilidad de que esté embriagado?
174.023.004.0
095.0·2.005.0·8.005.0·8.0
)()|()()|()()|()|p(E
nEpnEpEpEpEpEp
103
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Teorema de Bayes: EjemploLa sensibilidad del test
RIA-PAP para detectar el cáncer de
próstata, es decir, la proporción de resultados positivos en pacientes con cáncer, es de 0.7. Su especificación, esto es, la proporción de resultados negativos en individuos sanos, es 0.94. La
prevalencia
de la enfermedad en varones blancos es
de 35 por 100.000. ¿Qué probabilidad tiene un paciente de tener cáncer de próstata si el resultado del test
RIA-PAP ha
sido positivo?C = tener cáncer de próstata, p(C) = 0.00035
P = test
positivo, p(P|C) = 0.7, p(no P|no C) = 0.94
)Cp()CPp(p(C))Cp(Pp(C)C)Pp(
p(P)P)p(C)Pp(C
0.00410.00035)(10.94)(10.000350.7
0.000350.7
104
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatoriasEn todo proceso de observación o experimento aleatorio se puede definir una variable aleatoria asignando a cada resultado del experimento un número.Ejemplo: Lanzamiento de un dado. X= "Puntuación del dado". Si en el experimento se miden varias características, se obtienen varias variables aleatorias. Ejemplo: Lanzamientos de dos dados. X="Puntuación del primer dado",Y="Puntuación del segundo dado". Las variables pueden tener alguna relación entre sí o, por el contrario, ser independientes, es decir, cuando los sucesos asociados a las mismas son sucesos independientes. Ejemplo: P(X=2 Y=3)=1/36=P(X=2)P(Y=3) (todos sucesos de este tipo son independientes por lo que X e Y son independientes).
105
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias discretas
Las variables aleatorias discretas toman valores en un conjunto contable.
Si en un invernadero se mezclan semillas de rosas rojas y blancas y se sabe que el 25% de las rosas de segunda generación son blancas, ¿cuál es la probabilidad de que entre 400 rosas de segunda generación más de 115 sean blancas?
106
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias discretasUna variable aleatoria discreta tiene asociada una función, llamada de probabilidad o de masa, que asocia a cada resultado su probabilidad.Un paciente sufre una enfermedad que tiene dos posibles tratamientos. Uno de ellos debe administrarse durante 15 días y al término debe elegirse si prolongarlo por 20 días más (en un 50% de las ocasiones) o intentar el otro tratamiento durante 30 días (en el otro 50%). Otra posibilidad es comenzar con el segundo tratamiento y prolongarlo durante 60 días. Este segundo tratamiento es más económico por lo que se elige en el 60% de los casos. ¿Cómo es la distribución de probabilidad de la variable “tiempo que dura el tratamiento de la enfermedad?” 107
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias discretas: Ejemplo
X = tiempo que dura el tratamientoX = 15 + 20 = 35, si se elige administrar el primer
tratamiento y continuar con él;X = 15 + 30 = 45, si se elige administrar el primer
tratamiento y después cambiar; y,X = 60,
si se elige administrar solo el segundo tratamiento.
p(X = 60) = p(elegir el segundo tratamiento) = 0.6p(X = 35) = p(elegir el primero y continuar) = (1 -
0.6)·0.5
p(X = 45) = p(elegir el primero y cambiar) = (1 -
0.6)·0.5108
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias discretas: ejemplo
0.6
45 6035
0.2 0.2
Xp
1
0.6
0.2
35 45 60
0.80.60.245)p(X
¿Cuál es la probabilidad de que el tratamiento dure un mes y medio o más?
10.60.20.2)xp(Xi
i
109
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias discretas
La media o esperanza de una variable aleatoria discreta es:
La desviación típica de una variable aleatoria discreta es:
)xp(XxE[X] i
k
1ii
)xp(X)(x i2
k
1ii
días520.6600.2450.235E[X]
El número medio de días que dura un tratamiento es
con una desviación típica de 10.3 días. 110
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias continuas
Las variables aleatorias continuas toman valores en un conjunto infinito no numerable (un intervalo).
La distribución de probabilidad de una variable continua viene dada a través de una función denominada función de densidad.
Propiedades de la función de densidad (se denota f) :
• Es una función positiva.
• El área encerrada bajo la función de densidad es 1.• La función de densidad proporciona el medio para determinar la
probabilidad de que la variable aleatoria tome un valor en un intervalo determinado. 111
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias continuas
f(X)
Xa b
• La probabilidad de que la variable aleatoria esté entre dos valores a y b es igual al área que encierra la función de densidad en este intervalo. p(a
X
b)
b
adxxf )(
112
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias continuas
La media o esperanza de una variable aleatoria continua es:
La desviación típica de una variable aleatoria continua es:
f(x)dxxE[X]
f(x)dx)-(x 2
113
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias continuas: Ejemplo
La vida de un virus en horas es una variable aleatoria con función de densidad
¿Cuál es el tiempo medio de vida de dicho virus? ¿Y su desviación típica?
¿Cuál es la probabilidad de que un virus tomado al azar viva más de cinco horas?
hora1xsi
x3
hora1xsi0f(x)
4
114
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias continuas: Ejemplo
El tiempo medio de vida de dicho virus es
La probabilidad de que un virus tomado al azar viva más de cinco horas es
horas51x23-
xdx3xf(x)dxxE[X] 21 4 .
1
y su desviación típica es 0.9 horas.
0.008x33-
xdx3f(x)dx5)p(X 35 4
5
5
115
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Importancia de la esperanza
La importancia del concepto de esperanza se sigue de las denominadas Leyes de los Grandes Números
• Si son variables independientes con la misma distribución y media
entonces, para n grande
n21 X,,X,X
XXX n21 n
116
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Variables aleatorias continuas: Relación entre histograma y función de densidad
X
6,305,524,753,973,20
600
500
400
300
200
100
0
X
6,115,334,563,783,01
600
500
400
300
200
100
0
X
6,405,825,234,654,073,492,91
600
500
400
300
200
100
0
El histograma tiende a una curva suave que es la función de densidad.Como la suma de las áreas de los rectángulos del histograma es la unidad (suma de las frecuencias relativas), el área que encierra la función de densidad es la unidad.
117
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones de probabilidad
Algunas distribuciones específicas de probabilidad han demostrado, empíricamente, que son modelos útiles para diversos problemas prácticos.
Tales distribuciones presentan también un carácter teórico en el sentido de que sus funciones de probabilidad o de densidad se deducen matemáticamente, basándose en ciertas hipótesis que se suponen válidas para ciertos fenómenos aleatorios.
La elección de una distribución de probabilidad para representar un fenómeno de interés práctico debe estar motivada tanto por la comprensión de la naturaleza del fenómeno en sí, como por la posible verificación de la distribución seleccionada a través de la evidencia empírica. 118
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad
Supongamos que un experimento aleatorio en el que• En cada prueba del experimento sólo son posibles dos resultados:
la presencia de una determinada característica ‘A’ (éxito) o su ausencia ‘no A’ (fracaso).
• El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente.
• La probabilidad del suceso A es constante, la representamos por p, y no varía de una prueba a otra. La probabilidad de ‘no A’ es 1- p.
• El experimento consta de un número n de pruebas.
119
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad
•
En
cada muestra de hielo observamos si es válida (éxito) o no lo es (fracaso).
•
Cada muestra es observada de forma independiente.•
La probabilidad de que una muestra sea válida es p = 0.1 y de que no sea 1 –
p = 0.9.
•
El experimento lo repetimos para cada una de las n = 20 muestras de hielo.
En la Antártida
se está realizando una toma de muestras de hielo para determinar su contenido de oxígeno. Dadas las difíciles condiciones de muestreo, solo el 10% de las muestras extraídas resultan válidas para el análisis. Para un experimento se necesita disponer de 6 muestras válidas. Si se recogen 20, ¿cuál es la probabilidad de que se pueda realizar el experimento?
120
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Binomial
La distribución binomial cuenta el número de éxitos en n repeticiones independientes de un experimento aleatorio.
Los valores que toma la variable son: 0, 1, 2, ..., n, siendo n el número total de observaciones.La probabilidad de que se presente el suceso al observar un individuo de la población es p.
n0,...,r ,rnp1rprn
rXp
La probabilidad de que se presente r veces el suceso al observar n individuos es:
121
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Binomial
X = número de muestras válidasn = 20 p = 0.1
20)p(X7)p(X6)p(X6)p(X
0.0110.1)(10.12020
0.1)(10.16
20 2020206206
0.01130.988715)p(X16)p(X16)p(X
La distribución binomial se encuentra tabulada según los valores de n y p.
0.01131)AL(5,20,0.CDF.BINOMI15)p(X16)p(X 122
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Binomial
La media de la distribución binomial es:
Y su varianza:
pnE[X]μ
p)-(1pnVar[X]2
El número de muestras válidas esperado es
Con una desviación típica igual a
válidasmuestras20.120E[X]μ
válidasmuestras1.31.80.90.120 123
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Binomial
Bi(10,0.2) Bi(10,0.8)
Bi(10,0.5)
124
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Hipergeométrica
Si en un conjunto de N unidades hay k que tienen una determinada característica y se extrae una muestra con reemplazamiento de tamaño n, el número de unidades en la muestra con la característica es Bin(n,k/N) ya que en cada extracción la probabilidad de obtener un individuo con la característica se mantiene constante y cada extracción es independiente de las demás.
Si la muestra se extrae sin reemplazamiento, las extracciones no son independientes (el resultado de cada una depende de las anteriores). En esta situación se define la distribución Hipergeométrica.
125
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Hipergeométrica
Sea una población de tamaño N en la que hay k unidades que verifican una determinada característica. Se extrae una muestra de n unidades seleccionadas sin reemplazamiento. El número de veces que se observa la característica en la muestra sigue una distribución hipergeométrica.
N
n
126
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Hipergeométrica
Nk
nE[X] )1(N)(k)-(NknVar[X] 2
2
N
nN
,
nN
r-nkN
rk
r)p(X
La distribución hipergeométrica viene dada por:
Si N es muy grande, n pequeño y k/N=p, entonces la distribución hipergeométrica se aproxima a una Binomial(n,p)
0
r
k y 0
n-r
N-k
127
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Hipergeométrica
Se tiene una población de 100 muestras de hielo de las que 10 son válidas. Se seleccionan 20 para la realización de un experimento, ¿cuál es la probabilidad de que 6 de ellos sean válidas?
0.0003
20100
62010100
610
6)p(X
El número esperado de muestras válidas en una muestra de tamaño 20 es 2 con una desviación típica de 1.2 muestras válidas. 128
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Hipergeométrica
100N
10n
20k 50k
80k
129
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Poisson
La distribución de Poisson cuenta el número de veces que se presenta un suceso en un intervalo de longitud uno, cuando el promedio de ocurrencias en cada intervalo de longitud t es t, las ocurrencias del suceso están igualmente repartidas en todo el intervalo y son independientes de un intervalo a otro.
...2,1,0r!
er)p(Xr-
r
E[X] Var[X]2
donde
es una constante.
130
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Poisson
Para un volumen fijo, el número de células sanguíneas rojas es una variable aleatoria que se presenta con frecuencia constante. Si el número medio para un volumen dado es 9 células en personas normales, ¿cuál es la probabilidad de que una persona se encuentre dentro de una desviación típica del valor promedio?
)99X9-p(9)X-p(
6)p(X-12)p(X12)Xp(6
0.76010.1157-0.87585)p(X-12)p(X
131
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Poisson
La distribución binomial se aproxima a la de Poisson cuando el número de observaciones n es muy grande y la probabilidad de que ocurra el suceso de interés p es muy pequeña, con =np. Por esto, la ley de Poisson se denomina ley de los sucesos raros.
La distribución Poisson se encuentra tabulada según los valores de .
Número de casos de gripe en una ciudad en una semanaNúmero de mutaciones en una raza en un mes
Número de plantas de musgo por metro cuadrado en una ladera
Número de señales que recibe un receptor en un minuto
132
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Poisson
Mediante estudios recientes se ha determinado que la probabilidad de morir por causa de una vacuna contra la gripe es de 2 casos de cada 100.000 personas. Si se administra la vacuna a 100.000 personas, ¿cuál es la probabilidad de que mueran no más de dos personas a causa de la vacuna?
•
Se considera que el que una persona muera por efecto de la vacuna es independiente de lo que le ocurra al resto.
•
El número de personas que muere por causa de la vacuna es una variable binomial
con n=100.000 personas y
probabilidad de morir p=0.00002. 133
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Poisson
1 2
4 8
134
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones discretas de probabilidad: Poisson
20.00002100.000pn
Debido a que la probabilidad es muy pequeña y el número de individuos sobre el que se realiza el experimento es muy grande, se aproxima la distribución binomial
por la Poisson
con
2)p(X1)p(X0)p(X2)p(X
0.67672!e2
1!e2
0!e2 -22-21-20
135
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones discretas: Geométrica o de Pascal
La distribución geométrica cuenta el número de repeticiones necesarias hasta que se presenta un éxito por primera vez en realizaciones independientes del experimento.
..1,2,.r ,p1-rp)(1r)p(X
La probabilidad de que se necesiten r intentos hasta que se presente el suceso de interés, cuya probabilidad de aparecer es p, es:
p1E[X] 2
2
pp)-(1Var[X]
136
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones discretas: Geométrica o de Pascal
X = número de muestras de hielo hasta encontrar la primera válida, p=0.1
0.01350.10.1)(120)p(X 19
¿Cuál es la probabilidad de tener que tomar 20 muestras de hielo hasta encontrar la primera válida?
El número medio de observaciones que se deben realizar hasta encontrar la primera muestra válida es 10 con una desviación típica de 9.5 intentos.
137
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
0.3p
0.7p
0.5p
Otras distribuciones discretas: Geométrica o de Pascal
138
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
La distribución binomial negativa cuenta el número de fracasos que se presentan antes de que se produzcan k éxitos en realizaciones independientes del experimento.
0,1,...r ,rp)(1kpr
1rkr)p(X
La probabilidad de que se presenten r fracasos antes de que se produzcan k éxitos, (donde p es la probabilidad de éxito), es:
p
p1kE[X] 2
2
pp)-(1kVar[X]
Otras distribuciones discretas: Binomial negativa
139
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
X = número de muestras de hielo no válidas para encontrar dos válidas, p=0.1
¿Cuál es la probabilidad de tener que observar 20 muestras para disponer de dos válidas?
0.02850.1)(10.118
118218)p(X 182
El número medio de muestras no válidas que se deberán encontrar antes de conseguir dos válidas es 18 con una desviación típica de 13.4 muestras.
Otras distribuciones discretas: Binomial negativa
140
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
4k 0.3p
0.7p 0.5p
Otras distribuciones discretas: Binomial negativa
141
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones discretas : Ejemplo
0.02950.150.15)(111)p(X 10
Un biólogo desea capturar un ejemplar de una clase de mariposa que se encuentra en un porcentaje del 15%. ¿Qué posibilidades tiene de tener que cazar 10 mariposas de una clase no deseada antes de encontrar un ejemplar de la clase deseada?
¿Y antes de conseguir 3 ejemplares de la clase deseada?
0.04390.15)(10.1510
110310)p(X 103
142
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
La distribución Normal es la distribución continua más importante y usada. Puede tomar cualquier valor entre -
y +.
2
2
2)(x
e21f(x)
donde
y
son constantes que coinciden con la media y la desviación típica, respectivamente, y determinan la posición y la forma de la distribución.
Su función de densidad es
Esta función es simétrica, con forma de campana y alcanza su valor máximo en .
143
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
N(0,1)
N(-2,1) N(2,1)
Se encuentra tabulada la distribución normal estándar, es decir, la distribución normal con media 0 y desviación típica 1.
144
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
N(0,2)
N(0,1)
145
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
2.5)p(X2.5)p(X
146
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
Propiedades: • Si X es una variable normal con media
y desviación típica ,
entonces se distribuye según una normal estándar.• Si son variables aleatorias independientes y normales con media , y desviación típica ,
/)-(XZ
n
1i
2i
2i
n
1iiinn2211 c,cN es XcXcXc
),N(nXXX n21 n
n21 X,,X,X i i
• Si son independientes con la misma distribución, media
, y desviación típica
, entonces, para n grande (Teorema
central del límite)
n21 X,,X,X
147
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de GaussLa longitud de las alas de mosca común se distribuye normalmente con media 4.55 mm.
y desviación típica 3.9 mm.
¿Cuál es la probabilidad de encontrar una mosca que tenga una longitud de ala superior a 5 mm.? ¿E inferior a 3 mm.?
4)0p(Z4)0p(Z
3.94.55-3Zp3)p(X ..
0.34460.65544)0p(Z-1 1.
0.45220.5478-10.12)p(Z1
0.12)p(Z3.94.55-5
3.94.55-Xp5)p(X
148
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
El peso en kilos de los recién nacidos de un hospital está distribuido normalmente con media 3 kg.
¿Cuál es la
desviación típica, si el 98% de los bebés tiene un peso comprendido entre los 2.5 y los 3.5 kilos?
0.5-Zp-0.5Zp3-3.5Z3-2.5p3.5)Xp(2.50.98
X = peso en kilos de un recién nacido
10.5Zp20.5Zp-10.5Zp0.5Zp0.5Zp
gr.0.212.330.50.992
10.980.5Zp
149
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
p)np(1np,Np)Bi(n,
La distribución binomial se aproxima por la normal cuando el número de observaciones n es grande y la probabilidad de que ocurra el suceso de interés no está próximo ni a 0 ni a 1.
En la población de mosquitos en los que el 40% están infectados se observa una muestra de 100 mosquitos, ¿cuál es la probabilidad de que la mitad o menos estén sanos? Sanos =
0.0210.9791-2.02)p(Z0.40.61000.610050Zp50)p(X
0.40.61000.6,100N100,0.6Bi~X
150
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
Bi(5,0.2) Bi(10,0.2)
Bi(30,0.2)Bi(20,0.2)
151
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
107k0.8575100-k
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de GaussEn un invernadero se mezclan las semillas de dos clases de rosas: rojas y blancas. La proporción de descendientes de segunda generación blancos puros es 25 de cada 100, ¿cuál es la probabilidad de que entre 400 rosas de segunda generación, más de 115 sean blancas?
0.04181.73)p(Z11.73)p(Z0.25)-(10.25400
0.25400-115Zp115)p(X
¿Podrías dar un límite superior del número de rosas blancas con una probabilidad del 80%?
75100-kZp1
75100-kZpk)p(X0.2
0.750.254000.25,400N400,0.25Bi~X
152
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
,N)P(
La distribución Poisson se aproxima por la normal cuando el promedio
es mayor que 5.
5 3010
153
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de Gauss
El número de casos de cáncer de vejiga en hombres entre 35 y 40 años en un hospital es aproximadamente de 15 por año, ¿cuál es la probabilidad de que en un año determinado aparezcan más de 10 casos?
0.90151.29)p(Z1.29)p(Z1515-10Zp10)p(X
1515,N15P~X
154
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones continuas de probabilidad: Normal o de GaussEl número de piezas defectuosas en una caja de 100 unidades de un producto es 0, 1, 2 ó 3 con probabilidades respectivas 0.3, 0.3, 0.3 y 0.1. En un total de 1000 cajas, ¿cuál es la probabilidad de que haya más de 1250 piezas defectuosas?
1.20.130.320.313.00
Número total de piezas defectuosas
054.061.1Zp98.3012001250
98.301200p1250Sp
S
1200,30.98N1000,1000N~S
kX
96.00.1)2.13(0.3)2.12(0.3)2.11(3.0)2.10( 22222
1000
1k kXS
Número piezas defectuosas en la caja k
155
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas : Lognormal
El tamaño de elementos se suele distribuir según una distribución lognormal.
Cuando una variable aleatoria X se transforma mediante la función logarítmica, ln X, y esta nueva variable se distribuye según una normal, se dice que X tiene distribución lognormal.
Es útil para comparar distribuciones asimétricas con variabilidades muy distintas.
156
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Lognormal
X
3230282624222018161412108642
50
40
30
20
10
0
Ln X
3,43,12,92,62,42,11,91,61,41,1,9,6
50
40
30
20
10
0
157
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones relacionadas con la normal: Chi-cuadrado
Si Z1 ,...,Zn son variables aleatorias independientes e igualmente distribuidas con distribución N(0,1), la variable
sigue una distribución 2 con n grados de libertad.
222
21 nZZZ
La distribución 2 es asimétrica y se encuentra tabulada según los valores de n.Es una distribución asociada al concepto de distancia, puesto que
222
21 nZZZ
representa la distancia del vector (Z1 , Z2 ,..., Zn ) a su media (0,0,...,0).
158
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones relacionadas con la normal: Chi-cuadrado
2n
4n
8n
159
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones relacionadas con la normal: F de Snedecor
Cuando se compara la longitud de dos vectores aleatorios de variables normales independientes de dimensiones n y m, respectivamente, surge la distribución F de Snedecor con n y m grados de libertad.
Si X=(X1 ,...,Xn ) e Y=(Y1 ,...,Ym ) son vectores de variables aleatorias N(0,1), todas independientes entre sí
m,nm
n
m
n
F
m
n
mYYY
nXXX
2
2
222
21
222
21
La F se encuentra tabulada según los valores de n y m. 160
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones relacionadas con la normal: F de Snedecor
16,16F
4,2F
161
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones relacionadas con la normal: t de Student
La distribución t de Student con n grados de libertad compara una variable N(0,1) con la longitud promedio de un conjunto de n variables independientes.
Es una distribución simétrica, con forma de campana, con más dispersión que la distribución normal estándar y que tiende a ésta cuando n crece.
n2n
t
n
Z
La t es un caso particular de la F: n,n Ft 12
Se encuentra tabulada según los valores de n. 162
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones relacionadas con la normal: t de Student
N(0,1)3n
1n
163
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
a b
b-a1
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Uniforme
La distribución uniforme toma cualquier valor en un intervalo finito, de forma que los valores se encuentran distribuidos igualmente sobre el intervalo.
resto0
bxasiab
1f(x)
2ba
12
a)(b 22
b]U[a,
164
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Uniforme
La concentración de un contaminante se encuentra distribuida uniformemente en el intervalo de 4 a 20 partes por millón. Si se considera tóxico cuando aparecen 15 ppm
o
más, ¿cuál es la probabilidad de que al tomarse una muestra la concentración de ésta sea tóxica?
0.3125165
1615-20
16x
420dx15)p(X
20
15
20
15
165
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Exponencial
Toma valores entre 0 y +. Suele usarse para modelar tiempos de vida o tiempos de espera.
Una distribución exponencial cuenta el tiempo entre la ocurrencia de dos sucesos consecutivos de Poisson o el tiempo que transcurre hasta el primer suceso de Poisson.
0xsief(x) x
12
2 1
166
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Exponencial
La vida de un tipo de insecto se distribuye según una exponencial con media 8 meses, ¿cuál es la probabilidad de que un insecto cualquiera viva entre 3 y 12 meses?
0.4642e-dx8
e12)Xp(312
3
8x12
3
8x
¿Cuál es la probabilidad de que un insecto que ha vivido 10 meses, viva 15 meses más?
0.153310)p(X25)p(X
10)p(X10)X25p(X)10X25p(X
167
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Otras distribuciones continuas: Beta
La distribución beta sirve para modelizar magnitudes físicas cuyos parámetros se encuentran restringidos a un intervalo de longitud fija.
Beta(1,1))Beta(0.5,1
)Beta(1,0.5
Beta(2,3)
Beta(2,1)
Beta(2,2)
168
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
La distribución gamma y la Weibull sirven para modelizar tiempos de vida. La variable gamma cuenta el tiempo transcurrido hasta la ocurrencia del suceso de Poisson k-ésimo.
Gamma(1,1)
Gamma(2,1)Gamma(2,2)
1)Weibull(1,
1)Weibull(2,
2)Weibull(2,
Otras distribuciones continuas: Gamma y Weibull
169
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones multivariantes
Cuando sobre cada individuo se miden varias variables se tiene una variable multidimensional.
Las dimensiones de una red de alcantarillado, que resuelva los problemas de evacuación de aguas pluviales, depende de la duración de las tormentas y de la precipitación total de ellas para lo que se requiere la distribución conjunta de ambas variables.
170
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones multivariantes: Multinomial
La variable aleatoria X=(X1 ,..., Xk ) donde Xi cuenta el número de elementos en la clase i-ésima es la variable multinomial.
La distribución multinomial es la generalización multivariante de la distribución binomial.
Sea un experimento que consiste en observar individuos al azar de forma independiente y clasificarlos en uno de entre k grupos, siendo pi la probabilidad de pertenecer al grupo i-ésimo.
k21 nk
n2
n1
k21kk2211 ppp
!n!n!nn!)nx,,nx,np(x
nn
k
1ii
1pk
1ii
171
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones multivariantes: Multinomial
En el servicio de urgencias de un hospital se atiende a los enfermos clasificándolos en sanos, de carácter leve y de carácter grave. Se sabe que el 70% de los pacientes que acuden a este servicio están sanos, el 20% con enfermedades leves y el resto graves. Si en un momento dado entran 3 pacientes a la vez, ¿qué probabilidad hay de que sea uno de cada tipo?
084.01.02.07.0!1!1!1
!31)x1,x1,p(x 111321
172
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones multivariantes: Normal
Un vector X=(X1 ,..., Xk ) sigue una distribución Normal multivariante si su función de densidad es:
)-()(21
2nk21
-1
e)(2det
1)x,,x,f(xXX
2k2kk1
2k2221
1k1221
k21 ,,,
es la matriz de varianzas-covarianzas.
es el vector de medias.
173
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
Distribuciones multivariantes: Normal
174
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CONCEPTOS ELEMENTALES DE PROBABILIDAD
• W. Feller (1991) Introducción a la Teoría de Probabilidades y sus Aplicaciones (7ª edición), Ed. Limusa.
• S. Ross (1994) A first course in probability, Fourth Edition, Prentice Hall.
• N. L. Johnson, S. Kotz y A. W. Kemp (1992) Univariate Discrete Distributions, Wiley.
• N. L. Johnson, S. Kotz y N. Balakrishnan (1994 y 95, respectivamente) Continuous univariate distributions, Vol. 1 y 2, Wiley (Estos libros proporcionan una recopilación exahustiva de los modelos de distribuciones de probabilidad.)
Bibliografía
175
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2:
INFERENCIA ESTADÍSTICA
176
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2.1 Introducción a la inferencia estadística
2.2 Estimación paramétrica puntual y por intervalos
2.3 Contrastes de hipótesis paramétricas
2.4 Crítica del modelo
2.5 Contrastes de hipótesis no paramétricas para dos muestras
2.6 Análisis de tablas de contingencia
177
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción a la inferencia estadística
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La Inferencia Estadística:
• permite inducir características de una población a partir de las características obtenidas de los datos de una muestra, y
• proporciona una medida del grado de confianza, medido en términos de probabilidad, que debe atribuirse a las características inducidas a través de los valores de la muestra.
178
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción a la inferencia estadística
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Los métodos paramétricos suponen que los datos provienen de una distribución que se caracteriza por cierto número de parámetros que se estiman a partir de los datos.
Los métodos no paramétricos suponen aspectos muy generales de la distribución (que es continua, simétrica, etc.) y tratan de estimar su forma o contrastar su estructura.
El número de chicos en una familia es una binomial
de parámetros n y p.
Los procedimientos de inferencia estadística pueden clasificarse en:
179
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Métodos de inferencia basados en muestras
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La naturaleza de la inferencia estadística requiere una muestra aleatoria que proporcione los medios adecuados para poder estimar o contrastar los parámetros desconocidos.La población de la que proviene la muestra puede consistir en:
Un conjunto infinito de posibles resultados para alguna característica medible de interés.La muestra aleatoria se elige repitiendo el experimento (la medición) en las mismas condiciones hasta obtener varias observaciones de dicha característica.Ejemplo: El número de caras al lanzar 20 veces una moneda.
180
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Métodos de inferencia basados en muestras
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Un conjunto finito de individuos de los que interesa cierta característica cualitativa o cuantitativa.
Del conjunto de mujeres mayores de 40 años se estudia la edad y si padecen cáncer de mama.La muestra se puede elegir aleatoriamente de forma que:
cada elemento de la población tenga la misma probabilidad de ser elegido, y
en cada extracción se devuelve el elemento seleccionado a la población (muestreo con reemplazamiento o con reposición) o se seleccionan uno tras otro sin reemplazo (muestreo sin reemplazamiento o sin reposición) .
181
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Métodos de inferencia basados en muestras
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
• Una muestra aleatoria simple corresponde a la extracción de n individuos en una población infinita o en una población finita con reemplazamiento y selección equiprobable.• Si el tamaño de la población es finito pero muy grande, una muestra tomada sin reemplazamiento se asimila a una con reemplazamiento, con lo que puede considerarse también una muestra aleatoria simple.• Las muestras aleatorias simples son las más utilizadas en estadística.
Una muestra aleatoria simple (m.a.s.) es una muestra donde cada observación es independiente de las demás y su distribución es la misma que la de la población.
182
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estadísticos
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Un estadístico es una cantidad numérica que se obtiene a partir de los valores de la muestra.
Se ha realizado estudio sobre la presión sanguínea medida en 10 mujeres entre 30 y 35 años. Los resultados en mm
Hg. son:
88, 84, 85, 80, 82, 87, 84, 86, 83, 81La media muestral, 84 mm
Hg, y la desviación típica,
2.75 mm
Hg., son estadísticos.
Una muestra aleatoria simple es una colección de variables aleatorias independientes. Cada una tiene la misma distribución que la característica poblacional en estudio.
183
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de un estadístico en el muestreo
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Un estadístico es una variable aleatoria. La probabilidad de que un estadístico tome un determinado valor depende de la probabilidad de seleccionar la muestra o muestras que lo determinan.
Para determinar qué tipo de enfermedad padece un individuo se utiliza un conjunto de 5 síntomas. El individuo puede no padecer ninguno de los síntomas, 1, 2, 3, 4 o todos, indistintamente.
síntomas2.5E(X)
2.92Var(X)2
0 1 2 3 4 5
1/6
184
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de un estadístico en el muestreo
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
0 1 2 3 4 5
0
1
2
3
4
5
Media
0 0.5
1
2
0.5
1
1
1.5
1.5
1.5
1.5
2
2
2
2
3
2.5
2.5
2.5
2.5
2.5
2.5
3.53
3
3
3
3.5
3.5
3.5 4.5
4.5
4
4
4 5
Paciente 1
Paci
ente
2
0 1 2 3 4 5
0
1
2
3
4
5
Varianza
0 0.25
1
4
0.25
1
0
2.25
0.25
0.25
1
0
1
4
4
6.25
0.25
0.25
6.25
1
0
1
4
0.25
0.25
0.25
0.25
1
0
1 0
2.25
2.25
2.25
2.25
2.25
Paciente 1
Paci
ente
2
185
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de un estadístico en el muestreo
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
0 0.5 21 1.5 32.5 3.5 4
p(X) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 1/362/36
4.5 5X
Las distribuciones de probabilidad de la media y varianza muestrales
son
2.5)XE( 2n,n
1,46)XVar(2
0 0.25 41 2.25 6.25
p(s ) 6/36 10/36 8/36 6/36 4/36 2/36
s2
2
22 1,46)E(m
2,90)Var(m2 186
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de un estadístico en el muestreo
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
MEDIA
5,04,54,03,53,02,52,01,51,0,5,0
Porc
enta
je
30
20
10
0
Distribución simétrica, con forma de campana, centrada en el valor =2.5
Distribución asimétrica cuya media es 1.46 2
VARIANZA
6,254,002,251,00,25,00Po
rcen
taje
30
20
10
0
187
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de la media muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
MEDIA MUESTRAL:
μ)XE( n
2σ)XVar(
Si la muestra se extrae sin reposición en una población de tamaño N
μ)XE( n
2σ1NnN)XVar(
Si la característica poblacional tiene media
y varianza 2, entonces
Se observa que si el tamaño de la población N es infinito o muy grande con respecto a n, las dos situaciones son equivalentes.
n
nX2X1XX
188
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de la media muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Si la variable es normal con media
y varianza 2, entonces
n,N~X
La desviación típica n se denomina error estándar de la media.
Esta expresión permite obtener el tamaño de la muestra, fijado el error que se desea cometer en la estimación de la media.
El error estándar disminuye al aumentar el tamaño de la muestra.
189
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de la media muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
TEOREMA CENTRAL DEL LÍMITEDada una población con media
y varianza 2 finita, y se extrae de
dicha población una muestra aleatoria simple de tamaño n, entonces la media muestral tiene una distribución con media
y
varianza 2/n, que tiende hacia la distribución normal cuando n tiende a infinito.
)n,N(~X
Este resultado es muy importante en la práctica porque no se requiere que la distribución de la población sea conocida.
190
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Medias de muestras de tamaño 10 de una U(0,1)
,79,71,63,55,47,39,31,23
120
110
100
90
80
70
60
50
40
30
20
10
0
Medias de muestras de tamaño 100 de una Poisson(2)
3,022,722,412,101,801,491,18,88
100
80
60
40
20
0
Medias de muestras de tamaño 10 de una Poisson(2)
3,072,752,432,111,791,471,15,83
100
90
80
70
60
50
40
30
20
10
0
Distribución de la media muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
1,96Media 0,51Media
Medias de muestras de tamaño 100 de una U(0,1)
,79,71,63,55,47,39,31,23
120
100
80
60
40
20
0
0,5Media 2,01Media
191
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de la media muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Para una muestra relativamente grande, se espera que el valor de la media muestral esté muy próximo al verdadero valor de la media poblacional.
Las muestras grandes son difíciles y caras de conseguir. Además, en general, el aumento en precisión no se compensa con el aumento excesivo del tamaño de la muestra.
Tamaño de la muestra
50403020100
Erro
r de
estim
ació
n de
la m
edia
50
40
30
20
10
0
502
102
192
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de la proporción muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Donde x representa el número de veces que aparece la característica. La media muestral representa la proporción muestral de individuos que poseen la característica.
Supongamos que en una población, la proporción de individuos que presentan una determinada característica es P. Se selecciona una muestra aleatoria simple de tamaño n, donde cada observación es 1 indicando que el individuo posee la característica, o bien 0 indicando que el individuo no la posee. En este caso, la media muestral es:
nxp proporción muestral
193
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de la proporción muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
son la media y la varianza de la distribución de la proporción muestral.
Si n es grande, entonces p es una variable aleatoria normal con media P y varianza P·(1-P)/n
Puesto que x mide el número de veces que aparece una característica en n repeticiones independientes, x tiene una distribución binomial cuya media es n·P y cuya varianza es n·P·(1-P). Así,
PE(p) n
P)-P(1Var(p)
194
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de la varianza muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2σn
1-n)2E(m
CUASIVARIANZA MUESTRAL
Las distribuciones de la varianza y cuasivarianza muestrales son asimétricas.
n
1i
2XiX1n
12s
La esperanza de la cuasivarianza muestral coincide con 2.
VARIANZA MUESTRAL:
n
1i
2XiXn1
2m
2σ)2E(s
195
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CUASIVARIANZA
12,58,04,52,0,5,0
Porc
enta
je
30
20
10
0
Distribución de la cuasivarianza muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
0 0.5 82 4.5 12.5
p(s ) 6/36 10/36 8/36 6/36 4/36 2/36
s2
2
22 2.92)E(s
11,62)Var(s2
0 1 2 3 4 5
0
1
2
3
4
5
Cuasivar.
0 0.5
2
8
0.5
2
0
4.5
0.5
0.5
4.5
2
0
2
8
8
12.5
4.5
0.5
0.5
4.5
12.5
4.52
0
2
8
0.5
0.5
4.5 0.5
0.5
2
0
2 0
Paciente 1
Paci
ente
2
196
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de la cuasivarianza muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
21nχ2σ
2s1)(n ~
En una distribución normal,
22)E(s 1-n
2)Var(s4
2
En una distribución normal, la media y la cuasivarianza muestrales son variables aleatorias independientes.
197
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Distribución de la cuasivarianza muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La distribución del espesor de un material plástico es normal con una desviación estándar de 0.01 cm. La variación en el espesor influye en los resultados del control de calidad. Una muestra aleatoria de 25 piezas tiene una (cuasi)desviación
estándar de 0.015 cm, ¿cuál es la probabilidad de que una muestra presente una (cuasi)desviación
típica igual o mayor
que 0.015? ¿Qué se puede concluir con respecto a la variación de este proceso?
2
2
2
222 0.0151)-(ns1)-(np)0.015p(s
054)p(-1)0.01
0.0151)-(25p( 21252
22
125
198
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación puntual
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
En estadística paramétrica, un estimador puntual es un estadístico que nos sirve para estimar el valor de un parámetro desconocido.
Algunas característicasEstimador insesgado: su esperanza es el valor del parámetro.Sesgo: diferencia entre el verdadero valor del parámetro y la esperanza del estimador.Error cuadrático medio: sesgo al cuadrado más la varianza del estimador.Estimador consistente: su error cuadrático medio tiende a 0 cuando el tamaño muestral tiende a infinito.Estimador suficiente: utiliza toda la información que hay en la muestra sobre el parámetro.
199
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación puntual
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Hay diversos métodos para la construcción de estimadoresEl método de sustitución consiste en estimar los valores poblacionales (media, varianza, mediana…) por sus correspondientes muestrales.
Ejemplo: media muestral para media poblacional es insesgado, consistente y (en muchas ocasiones) suficiente.
m2 no es insesgado para la varianza poblacional, sí es consistentes2 es insesgado y consistente.
200
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación por intervalos
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La información que proporciona un estimador puntual de un parámetro desconocido es sólo un valor. Interesa, en general, conocer también alguna medida de la incertidumbre de la estimación.
Una posibilidad consiste en obtener, utilizando los datos de la muestra, dos estadísticos que representen un nivel inferior y un nivel superior entre los que se encuentre el verdadero valor del parámetro desconocido, de forma que el intervalo contenga dicho valor con una cierta probabilidad o nivel de confianza.
El intervalo será aleatorio puesto que, para cada muestra los estadísticos podrán tomar valores distintos.
201
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación por intervalos
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
En la estimación por intervalos se consideran tanto el estimador puntual como su distribución en el muestreo con el propósito de determinar un intervalo que, con cierta seguridad, contendrá al verdadero valor del parámetro.El intervalo, llamado intervalo de confianza, permite precisar la incertidumbre existente en la estimación.
Un intervalo de confianza para el parámetro
con nivel de confianza 1 -
es un intervalo de la forma:
(a,b)donde los límites a y b son estadísticos de forma que la probabilidad de que contengan al verdadero valor de
es al menos
1 -
. 202
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación por intervalos
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La interpretación de un intervalo a nivel 1
es la siguiente. Si construimos, utilizando los estadísticos a y b, un número grande de intervalos de confianza, al menos un 100(1)% de ellos contendrá al verdadero valor del parámetro.
Si observamos una muestra y calculamos un intervalo de confianza a nivel 0.95 (por ejemplo) y obtenemos los límites numéricos 2.5 y 4.1, esto no podemos interpretarlo como que “hay una probabilidad de al menos el 95% de que el parámetro esté entre 2.5 y 4.1”, sino en el sentido frecuentista anterior.
203
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación por intervalos
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Para construir el intervalo de confianza para un parámetro desconocido se puede utilizar el método del pivote que consiste en:
encontrar una función (pivote) que dependa del parámetro desconocido y del estadístico elegido como estimador
que no contenga cantidades desconocidas, excepto el parámetro en cuestión, y
cuya distribución sea conocida y no dependa de parámetros desconocidos.
Dada la distribución de dicha función elegir los valores a y b tales que p(a b) = 1-.
204
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza para la media de una población normal
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Si la varianza de la población es conocida, se tiene
n,N~X
que 0,1N~n
X
2
2
21z 21z
12α12α1 zn
Xzp205
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza para la media de una población normal
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
El intervalo de confianza para la media
de una variable normal con varianza 2 conocida, con nivel de confianza 1- , es
n
zX,n
zX 2121
donde z1-
/2 es el valor de una variable normal estándar tal que p(z < z1-
/2 )= 1-/2.
206
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza para la media de una población normal
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Para determinar el nivel de alcohol en la sangre que produce parada respiratoria en ratas, se les inyecta cantidades de alcohol hasta que se les produce la parada respiratoria.
9.4454)(8.9832,0.11791.969.21430.1179z9.2143 0.975
El nivel de alcohol en la sangre en esta población se distribuye según una normal de desviación típica 0.2795 mg/mL.Se seleccionan 7 ratas al azar y se observan las siguientes cantidades de alcohol: 9.0, 9.7, 9.4, 9.3, 9.2, 8.9 y 9.0. La media de la muestra es 9.21 mg/mL. con un error de estimación de 0.117970.2795
Al 95% de confianza la media de la población está entre 207
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza para la media de una población normal
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Si la varianza de la población es desconocida, se tiene que
El intervalo de confianza para la media
de una variable normal con
desconocida, con nivel de confianza 1- , es
n
stX,nstX 2-1,1n2-1,1n
donde tn-1,1-
/2 es el valor de una variable t de Student con n-1 grados de libertad tal que p(t < tn-1,1-
/2 ) = 1 - /2.
1-n2
1n2
2t~
1-n
0,1N
1)-(ns1)-(n
nX
nsX
puesto que numerador y
denominador son independientes.
208
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza para la media de una población normal
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
A 9 personas que padecen neurosis de ansiedad se les mide la presión sanguínea en mm
Hg
antes de tomar un fármaco
(propanol) y 4 horas después. Se calcula la diferencia de presión Antes-Después con los siguientes resultados: +1, -1, +20, -10, +19, +8, +6, -1, y +3.La diferencia media es 5 mm
Hg
y la (cuasi)desviación
típica
9.6695 mm
Hg.
Si se supone que las diferencias en la presión sanguínea se distribuyen según una normal, entonces al 95% de confianza la diferencia media en la población estará entre
12.446)(-2.446,3.22322.31599.6695t5 0.9751,9 209
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza para la media
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Se observa que para muestras pequeñas de poblaciones normales con varianza desconocida, el intervalo que resulta es más ancho que el que resulta cuando la varianza es conocida.
Los niveles de confianza más usuales dan lugar a los siguientes percentiles:
210
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza para la media: Caso general
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Cuando la muestra proviene de una población cualquiera, si el tamaño de la muestra n es grande, se tiene que
N(0,1)~ns
X
El intervalo de confianza para la media
con
desconocida con nivel de confianza 1- , cuando tamaño de la muestra grande, es
nszX,
nszX 2121
donde z1-
/2 es el valor de una variable normal estándar tal que p(z < z1-
/2 )=1 - /2.211
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza para la media: Caso general
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Los errores de redondeo que se cometen al tomar un solo dígito decimal en la medición de la concentración de una sustancia en la sangre sigue una distribución desconocida en [-0.05, 0.05]. Nos interesa conocer el error medio que se comete para ver si este procedimiento tiene sesgo. Se realizan 100 mediciones obteniéndose un error medio de 0.001 con una (cuasi)desviación
típica de 0.03.
La estimación de la media es por tanto 0.001 con un error de estimación de 0.0031000.03
Al 95% de confianza el error medio estará en el intervalo
0.007)(-0.005,1000.039610010 ..212
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza para la proporción
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Cuando el tamaño de la muestra es grande, la proporción muestral p es una variable aleatoria normal con media P y varianza P·(1-P)/n
El intervalo de confianza para la proporción P con nivel de confianza 1- , cuando el tamaño de la muestra n es grande, es
n
p)(1pzp,n
p)(1pzp 2121
donde z1-
/2 es el valor de la normal estándar tal que p(z < z1- /2 )= 1 - /2.
213
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza para la proporción
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
En una medicación proporcionada a 100 pacientes con una enfermedad cardiaca se ha observado que diez de ellos han sufrido efectos secundarios.
La estimación del porcentaje de pacientes que sufren efectos secundarios es, por tanto, del 10% con un error de estimación del 3%.
0.031000.1)-(10.1
Al 95% de confianza la proporción de pacientes que sufre efectos secundarios estará en el intervalo
0.16)(0.04,0.0396110 ..214
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza. Tamaño muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Para un nivel de confianza dado, cuanto más grande es el tamaño de la muestra, más pequeño es el intervalo, puesto que, al aumentar el tamaño de la muestra, disminuye el error de estimación.
Para un tamaño de la muestra dado, cuanto más alto es el nivel de confianza 1-, más ancho es el intervalo, puesto que la probabilidad de que el parámetro quede fuera de los límites del intervalo es menor.
215
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza. Tamaño muestral
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Para estimar la media de una población, utilizando el intervalo (normal) si se conoce la varianza (o se tiene una cota superior suya), el error que se comete es con lo que si se quiere que el error no sea mayor que E, el tamaño muestral debe ser
con
conocida, estimada o acotada.
n/z 21
221z
En
Para estimar una proporción P, utilizando el intervalo (aprox. normal) el error que se comete es de con lo que si se quiere que el error no sea mayor que E, el tamaño muestral debe ser al menos o, como no se conoce p antes de tomar los datos,
npp /)1(z 21
221 /z)1( Eppn
221
2z
En
216
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza para la varianza: Poblaciones normales
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Para la varianza de una población normal, se sabe que
El intervalo de confianza para la varianza 2 con nivel de confianza 1- , es
2
21,n
2
221,1n
2 s1)(n,s1)(n
donde 2
21,n y 221,1n son los valores de la distribución chi-
cuadrado con n - 1 g.l. que dejan a su izquierda una probabilidad igual a /2 y 1-/2, respectivamente.
21-n2
2
~)1(
sn
217
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Intervalos de confianza para la varianza: Poblaciones normales
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La longitud del ala de la mosca común se distribuye según una normal. De una muestra de 30 moscas se ha obtenido una longitud media del ala de 4.55 mm
y una desviación
estándar de 0.37 mm.La estimación de la variabilidad de la longitud en la población es de 0.372 = 0.137.
Al 95% de confianza la varianza de la población de moscas comunes estará en el intervalo
)25.0(0.087,16
0.371)(30,45.7
0.371)(30,0.371)(30,0.371)(30 22
20.0251,-30
2
20.9751,-30
2
218
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
I.C. para la diferencia de medias. Poblaciones normales independientes: Varianzas iguales y tamaños de la muestra n y m
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Se tiene una m.a.s. de tamaño n de una normal de media 1 y varianza 2 y otra de tamaño m, independiente de la anterior, de media 1 y varianza 2 (igual a la anterior). El intervalo de confianza para
a nivel 1-
es
m
1n1st,
m1
n1st 2-1 2,mn2-1 2,mn YXYX
21
donde
2mns1)(ms1)(ns
2Y
2X2
219
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
En un grupo de enfermos que sufren esquizofrenia paranoica se ha estudiado la edad en que se produjo el primer ataque.
Hombres: 24, 33, 23, 20, 26, 32, 35, 21 y 25.Mujeres: 22, 34, 26, 31, 26, 35, 25, 38, 36, 22, 23 y 37.Calcula un intervalo de confianza para la diferencia de medias de la edad entre hombres y mujeresEs necesario suponer que la edad en la que se produce el primer ataque se distribuye tanto para los hombres como para las mujeres según una normal con la misma varianza. En otro caso, serían necesarias muestras más grandes.
I.C. para la diferencia de medias. Poblaciones normales independientes: Varianzas iguales y tamaños de la muestra n y m
220
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
El intervalo de confianza a nivel 0.95 será
29.78s 26.56,X 9,n :Hombres 2X 38.45s 29.58,Y 12,m :Mujeres 2
Y
5.934.8s 34.8,2129
38.451)(1229.781)(9s2
12
1915.9t58.2956.26,
121
915.9t58.2956.26 0.975 2,1290.975 2,129
2.38),42.8(
I.C. para la diferencia de medias. Poblaciones normales independientes: Varianzas iguales y tamaños de la muestra n y m
221
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
I.C. para la diferencia de medias. Poblaciones normales independientes: Varianzas distintas y tamaños de la muestra n y m
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
En el caso de que no se pueda suponer que las varianzas de las dos poblaciones son iguales, se puede utilizar el siguiente intervalo aproximado
ms
nst,
ms
nst
2Y
2X
2-1 ,
2Y
2X
2-1 , gg YXYX
donde g son los grados de libertad calculados de forma aproximada.
222
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICAI.C. para la diferencia de medias. Poblaciones normales
independientes: Varianzas distintas y tamaños de la muestra n y m
el intervalo queda
Si no se puede suponer que las varianzas son iguales29.78s 26.56,X 9,n :Hombres 2
X 38.45s 29.58,Y 12,m :Mujeres 2Y
1238.45
929.78t78.2956.26,
1238.45
929.78t78.2956.26 0.975 18,0.975 18,
2.32)(-8.38,
223
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2.3 Contrastes de hipótesis paramétricos•
Introducción a los contrastes de hipótesis.
•
La hipótesis nula y la hipótesis alternativa. Errores de tipo I y de tipo II.
•
La medida de discrepancia. Valor crítico y región de rechazo. Elección del nivel de significación.
•
Relación entre los contrastes de hipótesis y los intervalos de confianza.
•
Etapas del contraste.•
Contrastes de hipótesis para la media, la proporción y la varianza poblacionales. Contrastes para la diferencia de medias y proporciones, y para el cociente de varianzas. 224
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción a los contrastes de hipótesis
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Una hipótesis estadística es una conjetura sobre alguna característica desconocida de la población de interés.
Se sabe que el tiempo medio que duerme una rata tratada con 80 mg/kg
de hexobarbital
es 26 min. Se sospecha que
un tratamiento posterior con iproniácido
aumenta el tiempo de sueño. Para analizar esta hipótesis se eligen nueve ratas tratadas con hexobarbital
y se les aplica un tratamiento con
iproniácido. Su tiempo de sueño es: 25, 31, 24, 28, 29, 30, 31, 33 y 35. El tiempo medio para esta muestra es 29.6 min. Con estos datos, ¿se puede afirmar que este tratamiento aumenta el tiempo de sueño?
225
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción a los contrastes de hipótesis
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Probar una hipótesis estadística consiste en decidir si la afirmación se encuentra apoyada por la evidencia experimental que se obtiene de los datos que proporciona una muestra aleatoria.
Para ello, y con la información obtenida de la muestra, nos planteamos la pregunta “¿sería razonable el tiempo medio de 29.6
obtenido en la muestra si el iproniácido no tuviera ningún efecto?”Si la respuesta es NO, habremos obtenido una evidencia a partir de los datos de que el iproniácido
aumenta el tiempo de sueño.
226
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
La hipótesis nula y la hipótesis alternativa
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
En un contraste de hipótesis intervienen:
H0
:
= 26, el tiempo medio de sueño en ratas tratadas con hexobarbital e iproniácido es 26 minutos,H1
: 26, el tiempo de sueño es distinto en ratas tratadas además con iproniácido
la hipótesis nula H0
sobre la que buscamos evidencias en contra, y
la hipótesis alternativa H1
, la complementaria de H0
227
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
La hipótesis nula y la hipótesis alternativa
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Se parte del hecho de que la hipótesis nula es cierta a menos que los datos de la muestra proporcionen suficiente evidencia en contra.
Se presentan las siguientes situaciones:
Rechazar H0
H0
es cierta
H0
es falsaAceptar H0
H0
es cierta
H0
es falsa
Un contraste de hipótesis analiza si los datos observados permiten rechazar la hipótesis nula, comprobando si éstos tienen una probabilidad de aparecer lo suficientemente pequeña cuando es cierta dicha hipótesis.
228
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Errores de tipo I y de tipo II
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
El error que se comete cuando se rechaza la hipótesis nula siendo esta cierta se denomina error de tipo I o nivel de significación.
El error que se comete cuando se acepta la hipótesis nula siendo esta falsa se denomina error de tipo II.
Hay, pues, dos situaciones en las que la decisión sería incorrecta: rechazar la hipótesis nula cuando es cierta o aceptarla cuando es falsa.
)cierta es HH p(rechazar I) tipo de p(Error 00
)falsa es HH p(aceptar II) tipo de p(Error 00Estas probabilidades son condicionales, debido a que no se puede
saber a ciencia cierta cuál es la hipótesis verdadera.229
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
La medida de discrepancia
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La medida constituirá un estadístico de prueba. Para ciertos valores de dicho estadístico, la decisión será rechazar la hipótesis nula.
Para determinar si los datos observados proporcionan o no evidencia para rechazar la hipótesis nula, se construye una medida de discrepancia entre los datos de la muestra y la hipótesis nula.
H0
:
= 26 = tiempo medio de sueño en ratas tratadas con hexobarbital e iproniácido es 26 minMedida de discrepancia: Se rechazará la hipótesis nula si el tiempo medio que se observa en la muestra es mayor que 28.Estadístico de prueba: El tiempo medio en la muestra de ratas tratadas con iproniácido
es 29.6 min.
230
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Valor crítico y región de rechazo
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Valor crítico
Región de rechazo
Función de densidad de la media muestral
cuando H0
es cierta. )2628Xp(
231
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Valor crítico y región de rechazo
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Por tanto, si en estas condiciones la muestra nos da un valor mayor que el valor crítico, debe rechazarse la hipótesis nula.
Si la hipótesis nula fuese realmente cierta y se tomasen varias muestras de tamaño n, un ·100% de las veces se encontrará un valor mayor que el dado por el valor crítico.
El tiempo medio de sueño en la muestra de ratas tratadas con iproniácido, 29.6 min., es un valor que se encuentra en la región crítica, por tanto, se rechaza la hipótesis de que sea igual al tiempo de sueño de las ratas tratadas sólo con hexobarbital.Discrepancias demasiado grandes tienen una probabilidad
pequeña
de ocurrir, si H0
es cierta.232
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Valor crítico y región de rechazo
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
En general, se suele trabajar en el sentido contrario; se fija de antemano una P(error de tipo I) y se busca el valor crítico k para obtenerla. En este caso, donde la región de rechazo es del tipo “Rechazar H0
si la media muestral es mayor que k”, si queremos tener una P(error de tipo I)=0.05, el valor de k sería 28.2.
¿Por qué hemos elegido el valor 28 como valor crítico? Con este valor 28, la probabilidad de error de tipo I es igual a 0.064.
Notemos que podemos hacer P(error de tipo I) tan pequeño como queramos, pero esto implicará aumentar P(error de tipo II), por lo que hay que mantener un compromiso entre ellos; normalmente, se suele trabajar con niveles fijos de P(error tipo I)=0.1, 0.05 ó 0.01.Si nos interesa disminuir ambos tipos de error, la solución es aumentar el tamaño muestral.
233
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Valor crítico y región de rechazo
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
)falsa es HH p(aceptar 00)cierta es HH p(rechazar 00
Valor crítico: 28 min
Función de densidad de la media muestral
cuando H0 es cierta.
Función de densidad de la media muestral
cuando H0
es falsa.
234
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Valor crítico y región de rechazo
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
)falsa es HH p(aceptar 00)cierta es HH p(rechazar 00
Valor crítico: 30 min 235
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Valor crítico y región de rechazo
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Cuando la discrepancia observada entre la hipótesis nula y los datos de la muestra pertenece a la región de rechazo, se dice que se ha producido una diferencia significativa.La diferencia en el tiempo medio de sueño de ratas tratadas con iproniácido, 29.6 min., y las tratadas sólo con hexobarbital, 26 min., se considera una diferencia significativa, según el criterio establecido.La decisión de aceptar la hipótesis nula no implica que sea verdadera, sólo que falta evidencia sustancial para considerarla falsa.
236
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Selección del nivel de significación
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
El resultado del test
puede depender del nivel de significación prefijado.
Si el valor de la discrepancia es mayor que el valor crítico pero está cerca de él (se rechaza la hipótesis nula), un nivel de significación menor llevaría a la aceptación de la hipótesis nula.
Tomando como valor crítico 30 se aceptaría que el tiempo medio de sueño es el mismo con los dos tratamientos.
237
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Selección del nivel de significación
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Si el tamaño de la muestra es grande y se rechaza H0
, siendo el valor de la hipótesis nula cercano al valor del estadístico que se usa para contrastar, se recomienda estudiar la precisión en la selección de la muestra y la naturaleza del problema.
•
Otra forma de medir la evidencia para aceptar o rechazar H0
consiste en utilizar el nivel crítico o p-valor de la muestra, que se calcula como la probabilidad de obtener una discrepancia mayor que la obtenida, dado que la hipótesis nula es cierta.•
Tiene la ventaja de que su cálculo no depende de la decisión “arbitraria” del valor de .•
El p-valor coincide con el mínimo
que lleva a rechazar H0 con mi muestra. Así, si trabajo a un nivel , rechazaré H0
si p-valor<
P-valor
238
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción a los contrastes de hipótesis
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
29.6X
)2629.6Xp(valorp
239
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Etapas del contraste
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Definir la hipótesis nula H0
y la hipótesis alternativa H1
.
Definir la medida de discrepancia entre los datos
muestrales
y la hipótesis nula.
Decidir a partir de qué valor de la discrepancia se asume que la diferencia no puede ser debida al azar, es decir, se detectan
diferencias significativas.
Calcular el valor del estadístico a partir de los datos de la muestra que se va a comparar con el valor dado por la hipótesis nula.
Calcular la discrepancia y decidir.240
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Tipos de contrastes
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La hipótesis nula H0
suele ser que el parámetro es igual a un valor concreto que se toma como referencia.
Se desconoce en qué dirección H0
puede ser falsa y se especifica H1 como que el parámetro o vector de parámetros es distinto del valor especificado en la hipótesis nula (contraste bilateral).
La hipótesis alternativa H1
puede ser de dos tipos:
El parámetro toma concretamente valores mayores o menores que el especificado en la hipótesis nula (contraste unilateral).
00H :
0 :1H
0θθ :1H 0: 1H241
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Relación entre los contrastes de hipótesis y los intervalos de confianza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Contrastar una hipótesis nula con un determinado nivel de signifi- cación
frente a una alternativa bilateral es lo mismo que comprobar
si el valor del estadístico de prueba está dentro del intervalo de confianza al nivel 1-
para el valor dado por la hipótesis nula.
Suponiendo que el tiempo de sueño se distribuye según una normal de varianza 9, el intervalo de confianza para el tiempo medio de sueño de ratas tratadas con iproniácido
es
56)(27.64,31.931.9629.6
El tiempo medio teórico es 26, que no pertenece al intervalo. 242
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la media de una variable normal con 2 conocida
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Hipótesis nula: 00H : Hipótesis alternativa: 01H :
Estadístico de prueba: n
X 0
La región de rechazo al nivel de significación
es
n
z,n
z..zn 210210210
XeiX
donde z1-
/2
es el valor de una variable normal estándar tal que p(z < z1-
/2
) = 1 -
/2.
Si la muestra es una m.a.s. que
proviene de una normal con varianza conocida y H0
es cierta, el estadístico de prueba se distribuye según una N(0,1).
243
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la media de una variable normal con 2 conocida
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
24 28
0.0252 0.0252
29.6
26H0 :
26H1 :
)93N(26,~medio Tiempo
624.04,27.9931.9626 244
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la media de una variable normal con 2
conocida
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Hipótesis nula: 00H : Hipótesis alternativa: 01H :
La región de rechazo al nivel de significación
es:
nzX..znX
1010
ei
donde z1-
es el valor de una variable normal estándar tal que p(z < z1-
) = 1 -
Si la hipótesis alternativa es 01H : la región de rechazo es
nzX..-znX
1010
ei245
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la media de una variable normal con 2 conocida
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
27.7
0.05
29.6
26H0 :
26H1 :)93N(26,~medio Tiempo
246
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la media de una variable normal con 2 desconocida
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Hipótesis nula: 00H : Hipótesis alternativa: 01H :
Estadístico de prueba: ns
X 0
La región de rechazo al nivel de significación
es
nst,
nst..tn 211,n0211,n0211,n
0
Xei
sX
donde tn-1,1-
/2
es el valor de una variable t de Student con n-1
grados de libertad tal que p(t < tn-1,1-
/2
) = 1 -
/2.
Si la muestra es una m.a.s. que
proviene de una normal con varianza desconocida y H0
es cierta, el estadístico de prueba se distribuye según una tn-1
.
247
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la media de una variable normal con 2 desconocida
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
23.3 28.7
0.0252 0.0252
260 29.6
26H0 :
26H1 :
28.7) (23.3,9
3.542.3126
248
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la media de una variable normal con 2
desconocida
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Hipótesis nula: 00H : Hipótesis alternativa: 01H :
La región de rechazo al nivel de significación
es:
donde tn-1,1-
es el valor de una variable t de Student con n-1
grados de libertad tal que p(t < tn-1,1-
) = 1 -
Si la hipótesis alternativa es 01H : la región de rechazo es
nstX..tnX
11,n011,n0
ei
s
nstX..tnX
11,n011,n0
ei
s 249
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la media: Caso general
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Hipótesis nula: 00H : Hipótesis alternativa: 01H :
Estadístico de prueba: N(0,1)~ns
X 0
La región de rechazo al nivel de significación
es el intervalo
donde z1-
/2
es el valor de una variable normal estándar tal que p(z < z1-
/2
) = 1 -
/2.
si la muestra es m.a.s. de una distribución cualquiera con n
grande y H0
es cierta.
nz,
nz..zn 21021021
0 ssXeis
X
250
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la diferencia de medias de muestras normales e independientes: Varianzas iguales y tamaños de la muestra n y m
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Si las muestras provienen de distribuciones normales y H0
es cierta, el estadístico de prueba se distribuye según una t de Student
con n+m-2.
m1
n1s
YX
210H :
La región de rechazo es:2-1 2,mnt
11
mns
YX
211H :
Estadístico de prueba:2mn
s1)(ms1)(ns2Y
2X2
251
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
En un grupo de enfermos que sufren esquizofrenia paranoica se ha estudiado la edad en que se produjo el primer ataque.
Hombres: 24, 33, 23, 20, 26, 32, 35, 21 y 25.Mujeres: 22, 34, 26, 31, 26, 35, 25, 38, 36, 22, 23 y 37.¿Se podría afirmar que la edad media es la misma para los hombres que para las mujeres?Es necesario suponer que la edad en la que se produce el primer ataque se distribuye tanto para los hombres como para las mujeres según una normal con la misma varianza. En otro caso, serían necesarias muestras más grandes.
Contraste para la diferencia de medias de muestras normales e independientes: Varianzas iguales y tamaños de la muestra n y m
252
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
El valor del estadístico de prueba es:
Se contrasta H0
: 1
=
2
contra H1
: 1
2
.29.78s 26.56,X 9,n :Hombres 2
X 38.45s 29.58,Y 12,m :Mujeres 2Y
5.934.8s 34.8,2129
38.451)(1229.781)(9s2
161.1
121
919.5
58.2956.26
m1
n1
s
YX
El valor t9+12-2,0.975
es 2.09. Como 1.161<2.09, no hay evidencia para rechazar H0 a nivel del 5%. De hecho p-valor=0.26.
Contraste para la diferencia de medias de muestras normales e independientes: Varianzas iguales y tamaños de la muestra n y m
253
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
-1 2,mnt
m1
n1s
Y-X211H :
211H :
-1 2,mnt
m1
n1s
Y-X
Hipótesis alternativa Región de rechazo
Contraste para la diferencia de medias de muestras normales e independientes: Varianzas iguales y tamaños de la muestra n y m
254
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la diferencia de medias de muestras normales e independientes: Varianzas distintas y tamaños n y m
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
ms
ns
YX2Y
2X
La región de rechazo es aproximadamente:
2-1 ,2Y
2X
t
ms
ns
g
YX
Estadístico de prueba:
donde g
son los grados de libertad calculados de forma aproximada.
donde sX
y sY
son las cuasivarianzas
muestrales.
255
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICAContraste para la diferencia de medias de muestras independientes
Varianzas distintas y tamaños n y m
El valor del estadístico es:
Se contrasta H0
: 1
=
2
contra H1
: 1
2
.29.78s 26.56,X 9,n :Hombres 2
X 38.45s 29.58,Y 12,m :Mujeres 2Y
183.1
1238.45
929.78
58.2956.26
ns
ms 2
Y2X
YX
El valor t18.4,0.975
es 2.09. Como 1.183<2.1, no hay evidencia para rechazar H0 a nivel del 5%. De hecho p-valor=0.25.
256
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la diferencia de medias de muestras independientes
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
N(0,1)~
ms
ns
YX2Y
2X
La región de rechazo es:
2-1 2Y
2X
z
ms
ns
YX
Caso general
Estadístico de prueba:
Si las muestras provienen de distribuciones cualesquiera, pero grandes, y H0
es cierta,
257
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la diferencia de medias de muestras emparejadas
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La región de rechazo es
2-1 1,-n D
tns YX
Estadístico de prueba:
0 ó H DYX0 : 0 ó H DYX1 :
nsYX
D
n
1i
2ii
2D YXYX
1n1s
),N(~YXD DD
258
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la diferencia de medias de muestras emparejadas
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
55.1967.95
A 9 personas que padecen neurosis de ansiedad se les mide la presión sanguínea en mm
Hg
antes de tomar un fármaco
(propanol) y 4 horas después. Se calcula la diferencia de presión Antes-Después con los siguientes resultados: +1, -1, +20, -10, +19, +8, +6, -1, y +3. La diferencia media es 5 mm
Hg
y la (cuasi)desviación
típica 9.6695 mm
Hg.Si se supone que las diferencias en la presión sanguínea se distribuyen según una normal, el estadístico de prueba es
259
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la diferencia de medias de muestras emparejadas
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Si la hipótesis alternativa es que la presión media ha disminuido, el estadístico hay que compararlo (a nivel 5%) con t9-1,0.95
= 1. 86, con lo que se mantiene la hipótesis nula al 5% también en esta situación.
Si se quiere comparar contra la hipótesis alternativa de que las medias son distintas, el valor de t9-1,0.975
es 2.31, con lo que no se rechaza a nivel del 5%.
260
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la varianza de una población normal
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Hipótesis nula: 20
20H : Hipótesis alternativa:
Estadístico de prueba: 21-n2
0
2~s1)-(n
La región de rechazo al nivel de significación
es
22-1,1n2
0
22
21,n20
2
σ1)(n
σ1)(n
sós
donde los extremos inferior y superior son los valores de la chi- cuadrado que dejan a su izquierda una probabilidad /2 y 1-/2,
respectivamente.
20
21H :
si la muestra es una m.a.s que proviene de una normal y H0
es cierta.
261
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la varianza de una población normal
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Las regulaciones del gobierno prescriben que la dosis estándar de un determinado preparado debería ser de 600 unidades por cm3 con una variabilidad de 10 unidades por cm3. Se preparan 10 muestras obteniéndose una media de 592.5 unidades por cm3
con una desviación típica de 11.2
unidades por cm3. ¿Es la variabilidad obtenida en la muestra diferente que la exigida por el gobierno?
Es necesario suponer que la dosis estándar se distribuye según una normal de media 600 y varianza 100.
Se contrasta H0
: 2
= 100 contra H1
: 2
100.262
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la varianza de una población normal
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
11.2910
11.21)(102
2
Con significación 0.05, como el estadístico de prueba está en:
El estadístico de prueba es:
19.03) (2.7,, 21,0.97510
21,0.02510
se acepta que no existen diferencias significativas.
263
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la varianza de una población normal
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Se rechaza la hipótesis nula si: 21 1,n2
0
2s1)(n
20
21H :
¿Es la variabilidad obtenida en la muestra mayor que la exigida por el gobierno?
16.9311.29 20.95 1,-10 No se detectan diferencias
significativas.
20
21H :
Se rechaza la hipótesis nula si: 2 1,n2
0
2s1)(n
264
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Comparación de varianzas de poblaciones normales
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Se rechaza la hipótesis nula si:
2-1 1,-m1,-n 2
2
2-1 1,-n1,-m 2
2
FF
1
Y
X
Y
X
ssó
ss
Estadístico de prueba:
2Y
2X0H : 2
Y2X1H :
1m1,n2Y
2X F~
ss
si H0
es cierta
265
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Comparación de varianzas de poblaciones normales
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2Y
2X0H : 2
Y2X1H : -1 1,m1,n2
Y
2X F
ss
Se rechaza H0
si:
1m1,nF
2Y
2XRechazar
2Y
2X Aceptar
266
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Comparación de varianzas de poblaciones normales
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2Y
2X0H : 2
Y2X1H :
-1 1,n1,m2Y
2X
F1
ss
Se rechaza H0
si:
29 adultos alcohólicos que sufren hipertensión han sido utilizados para estudiar el efecto de un antihipertensivo. Han sido asignados aleatoriamente
a un grupo tratado con un
placebo o a un grupo tratado con el medicamento.
Placebo: 105, 107, 110, 117, 124, 153, 137, 174, 109, 119, 143, 162, 91, 146 y 109.Medicamento: 92, 96, 104, 119, 106, 100, 93, 90, 98, 109, 106, 88 y 94.
267
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Comparación de varianzas de poblaciones normales
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Para contrastar el efecto del medicamento en la tensión arterial media debemos primero determinar si las muestras provienen de poblaciones con la misma varianza o no.
La varianza en el grupo tratado con un placebo es 579.8 y en el grupo tratado con el medicamento es 77.7.
7.577.7579.8
2.55F 0.95 1,1,1415 2.51F 0.95 1,1,1514
55.27.5 por lo que se rechaza que las varianzas son iguales (al 10%).
268
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la proporción
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Hipótesis nula: 00 pP:H Hipótesis alternativa: 01 pP:H
Estadístico de prueba: N(0,1)~n)p-(1p
pp
00
0
La región de rechazo al nivel de significación
es
2100
0 z)p-(1p
p-p
n
donde z1-
/2
es el valor de una variable normal estándar tal que p(z < z1-
/2
) = 1 -
/2.
si el tamaño de la muestra n
es grande y
H0
es cierta.
Si n es pequeño, la zona de aceptación se obtiene, fijado , por la distribución binomial. 269
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para la diferencia de proporciones
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
m1
n1p)(1p
pp 21
210 PP:H
Para
muestras grandes, se rechaza la hipótesis nula si:
2-1 21 z
m1
n1p)(1p
pp
211 PP:H
Estadístico de prueba:mn
pmpnp 21
270
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Bibliografía
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
•
ROBERT F. WOOLSON, (1987), Statistical
Methods
for
the Analysis
of
Biomedical
Data, John
Wiley
and
sons.
271
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
En esta práctica aprenderemos a:
•
Calcular los estimadores de la media, la proporción y la varianza de la población.
•
Construir intervalos de confianza para la media y para la diferencia de medias.
•
Calcular los estadísticos necesarios para el contraste de hipótesis de la media y la proporción, para la diferencia de medias y el cociente de varianzas.
PRÁCTICA 5: ESTIMADORES, INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS
272
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2.4 Crítica del modelo
• Introducción: La importancia de las hipótesis.
• Contrastes de normalidad.
• Influencia de los valores atípicos.
273
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción: La importancia de las hipótesis
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Al estimar los parámetros del modelo se ha supuesto que los datos constituyen una muestra aleatoria de una distribución, que salvo sus parámetros, es conocida.
Cuando se extrae una muestra de una distribución distinta de la supuesta, el procedimiento de inferencia deja, en general, de ser óptimo. Es decir, los estimadores no tienen por qué tener las buenas propiedades que se les suponían.
Algunas técnicas están más influidas que otras por el fallo en las hipótesis. Por ejemplo, el contraste de hipótesis para las medias no está muy influido cuando falla la hipótesis de normalidad, si se trabaja con muestras grandes. En cambio, la inferencia con respecto a la varianza son muy dependientes de esta hipótesis. 274
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contrastes de normalidad
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
GRÁFICOS
Con muestras grandes, dibujar el histograma.
Con muestras pequeñas, gráfico Q-Q.
Concentración de SO2
110100908070605040302010
Frec
uenc
ia
16
14
12
10
8
6
4
2
0
Gráfico Q-Q normal de Concentración de SO2
Valor observado
120100806040200-20
Nor
mal
esp
erad
o
3
2
1
0
-1
-2
-3
41n
275
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Gráfico Q-Q normal de Concentración de sucinato
Para TIPO= Sano
Valor observado
4,54,03,53,02,52,01,51,0
Nor
mal
esp
erad
o
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
Gráfico Q-Q normal de Concentración de sucinato
Para TIPO= Enfermo
Valor observado
3,53,02,52,01,51,0,5
Nor
mal
esp
erad
o
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
Concentración de sucinato
3,02,52,01,51,0,5
Para TIPO= Enfermo
Frec
uenc
ia
3,5
3,0
2,5
2,0
1,5
1,0
,5
0,0
Contrastes de normalidad
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Concentración de sucinato
4,03,53,02,52,01,5
Para TIPO= Sano
Frec
uenc
ia
3,5
3,0
2,5
2,0
1,5
1,0
,5
0,0
10n
276
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contrastes de normalidad
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
CONTRASTES
Con muestras grandes, test de Kolmogorov-Smirnov-Lilliefors.
Con muestras pequeñas, test de Shapiro-Wilk.
Pruebas de normalidad
,216 41 ,000 ,811 41 ,010**Concentración de SO2Estadístico gl Sig. Estadístico gl Sig.
Kolmogorov-Smirnova Shapiro-Wilk
Se contrasta la hipótesis nula de que la muestra proviene de una población normal.
277
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contrastes de normalidad
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Pruebas de normalidad
,193 10 ,200* ,943 10 ,555,113 10 ,200* ,974 10 ,916
Tipo de individuoEnfermoSano
Concentraciónde sucinato
Estadístico gl Sig. Estadístico gl Sig.Kolmogorov-Smirnova Shapiro-Wilk
278
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Influencia de los valores atípicos
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Cuando una pequeña fracción de la muestra (entre el 1% y el 10% de los valores) aparece como atípica, debemos preguntarnos cuáles son las causas:
se han cometido errores de medición o de transcripción de los datos,
ha habido cambios en los instrumentos de medida, u
La variable que se está midiendo es razonable que tome este tipo de valores extremos, o bien
otras alteraciones en la recogida de datos.
279
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Influencia de los valores atípicos
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
El efecto de la existencia de valores atípicos puede ser muy grave. Por ejemplo, el valor de la media está afectado por un valor grande que ha aparecido en la muestra y, además, como la varianza de la muestra también será grande, también lo será el error de estimación.
Cambiar el estimador por otro que no se vea tan afectado. Por ejemplo, usar la mediana o la media recortada en vez de la media. O suponer que los datos provienen de una distribución más general, que permita la existencia de estos datos.
Identificar los valores extremos, indagar las causas que los motivan y eliminarlos, si se confirma que son realmente atípicos.
Existen dos soluciones para el tratamiento de los datos atípicos:
280
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
En esta práctica aprenderemos a:
• Representar el gráfico Q-Q para contrastar la hipótesis de normalidad.
• Calcular los estadísticos y los p-valores de los test S-W y K-S- L.
• Detectar y eliminar datos atípicos.
PRÁCTICA 6: CRÍTICA DEL MODELO
281
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2.5 Contrastes no paramétricos para dos muestras
• Introducción
• Contraste para muestras independientes: U de Mann-Whitney y Wald-Wolfowitz.
• Contrastes para muestras emparejadas: prueba de los rangos con signo de Wilcoxon
282
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Los contrastes no paramétricos requieren menos hipótesis sobre la la distribución de la que proceden los datos que los paramétricos.
En estas condiciones puede parecer que sean preferidos a los contrastes paramétricos. Pero, si se conoce la distribución de la que provienen las observaciones, estos últimos son, en general, más eficientes que aquellos.
Los contrastes no paramétricos que se van a estudiar en este capítulo son comparables con los métodos paramétricos para el contraste de medias.
283
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Los contrastes no paramétricos son particularmente útiles cuando las muestras son pequeñas, y/o las observaciones están medidas en escala ordinal.
Un laboratorio está interesado en si su medicamento para la gripe es preferido a uno de la competencia. Elige al azar 7 consumidores y les pide que den su opinión con respecto a cada uno de los productos según una escala de 1=Poca aceptación a 5=Mucha aceptación.
1 2 5 5 4 3 5
2 2 1 1 3 1 2
Propio
Competidor284
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Prueba U de Mann-Whitney
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La prueba U de Mann-Whitney contrasta la hipótesis de que dos muestras independientes que provienen de poblaciones continuas con la misma forma tienen la misma localización, que se mide por el valor de la mediana.
La hipótesis alternativa es que las medianas son distintas, es decir, la localización es distinta. Esto es, se supone que las dos muestras provienen de distribuciones continuas con la misma forma, pero una de ellas está trasladada hacia la derecha o hacia la izquierda de la otra.
285
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Prueba U de Mann-Whitney
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Un investigador ha estudiado las respuestas a la glucosa oral en pacientes con la enfermedad de Huntington
y en un
grupo de control.
Los datos correspondientes al porcentaje de glucosa son:Pacientes: 85, 89, 86, 91, 77, 93, 100, 82, 92, 86 y 86.
Controles: 83, 73, 65, 65, 90, 77, 78, 97, 85 y 75.
286
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Prueba U de Mann-Whitney
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Si las dos muestras provienen de la misma población, las observaciones de una y otra se hallarán bien mezcladas. En otro caso, cabe esperar que las observaciones de una y otra muestras se encuentren juntas en los extremos.
287
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Prueba U de Mann-Whitney
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La prueba consiste en:
Ordenar de menor a mayor las observaciones de las dos muestras combinadas.
Asignar a cada observación un número de orden. En caso de empate, se asigna el promedio de los números de orden de las observaciones empatadas.
65 77 89868583 9077 7865 8582
PC
73
C
75
C PC C C P P P P P P
8686 91 92 93 97 100
CCCC PPP
1.5 1.5 3 4 5.55.5 7 8 9 10.5 10.5 131313 15 16 17 18 19 20 21288
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Prueba U de Mann-Whitney
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Sumar los números de orden de las observaciones de las dos muestras y dividir por el número de elementos en cada muestra (rango promedio) .
Pacientes: (5.5+8+10.5+13+13+13+15+17+18+19+21)/11=13.9,Controles: (1.5+1.5+3+4+5.5+7+9+10.5+16+20)/10=7.8.
Si una de las muestras está más a la derecha que la otra, el rango promedio de sus observaciones será mayor que el de la otra muestra.
289
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Prueba U de Mann-Whitney
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Construir el estadístico que permita determinar cuando una de las sumas es suficientemente grande o suficientemente pequeña.
Estadísticos de contrasteb
23,00078,000-2,259
,024,024a
U de Mann-WhitneyW de WilcoxonZSig. asintót. (bilateral)Sig. exacta [2*(Sig. unilateral)]
GLUCOSA
No corregidos para los empates.a.
Variable de agrupación: Tipo de individuob.
Rangos
11 13,91 153,0010 7,80 78,0021
Tipo de individuoPacienteCasoTotal
GLUCOSAN
Rangopromedio
Suma derangos
290
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Prueba de Wilcoxon
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La prueba de rangos con signo de Wilcoxon contrasta la hipótesis de que dos muestras emparejadas provienen de poblaciones con la misma distribución.
De un conjunto de 8 pacientes que sufren anemia crónica se ha calculado el índice de riesgo de padecer una enfermedad coronaria antes y después de un tratamiento.
56 44 55 40 62 46 49
Antes
Después
109 57 53 57 68 72
41
51 65
291
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Prueba de Wilcoxon
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
La prueba consiste en:
Calcular las diferencias y ordenarlas de menor a mayor sin importar el signo. Si alguna diferencia es 0, se elimina del estudio.
Asignar a cada diferencia su número de orden con el signo correspondiente. Si hay empates, se asigna la media de los números de orden.
(+)2 (-)6 (-)13 (-)17 (-)53(-)24
-81.5 -1.5 -3 -4 -5 -6
(-)26
-7
(-)2
292
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Prueba de Wilcoxon
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Sumar los números de orden positivos y los negativos, por separado.
S+=1.5, S-=-34.5
Si las muestras provienen de la misma población, se espera encontrar el mismo número de rangos con signo positivo que con signo negativo. Por tanto, se espera que, en magnitud, ambas sumas sean aproximadamente iguales.
Construir el estadístico que permita determinar cuando las sumas se pueden considerar iguales.
293
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Prueba de Wilcoxon
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Rangos
7a 4,93 34,501b 1,50 1,500c
8
Rangos negativosRangos positivosEmpatesTotal
DESPUES - ANTESN
Rangopromedio
Suma derangos
DESPUES < ANTESa.
DESPUES > ANTESb.
ANTES = DESPUESc. Estadísticos de contrasteb
-2,313a
,021ZSig. asintót. (bilateral)
DESPUES - ANTES
Basado en los rangos positivos.a.
Prueba de los rangos con signo de Wilcoxonb.
294
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
• WAYNE W. DANIEL, (1990), Applied Nonparametric Statistics (2ª Ed.), The Duxbury Advanced Series in Statistics and Decision Sciences. PWS-KENT Publishing Company.
• SHESKIN, D. J. (2000), Handbook of Parametric and Nonparametric Statistical Procedures, (2ª Ed.), Chapman and Hall/CRC.
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Bibliografía
295
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
En esta práctica aprenderemos a:
• Aplicar contrastes no paramétricos.
• Elegir si aplicar un contraste paramétrico o uno no paramétrico.
PRÁCTICA 7: CONTRASTES NO PARAMÉTRICOS
296
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2.6 Análisis de tablas de contingencia
• Test de la chi-cuadrado
297
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Test de la chi-cuadrado
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
El test de la chi-cuadrado permite analizar si existe alguna relación entre dos características diferentes en las que una población ha sido clasificada, donde cada una de ellas se encuentra dividida en varias categorías.
¿Existe relación entre ser fumador y desarrollar cáncer de pulmón?
Las dos características se representan en una tabla de frecuencias, denominada tabla de contingencia.
298
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Test de la chi-cuadrado
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
H0 : Las variables son independientes pij = pi pj , i,jH1 : Las variables son dependientes pij
pi pj
El estadístico del test compara las frecuencias observadas con las esperadas bajo la hipótesis de independencia.
Tabla de contingencia SEXO * ¿Sufre enfermedad crónica?
Recuento
19 77 9633 61 9452 138 190
HombreMujer
SEXO
Total
Sí No¿Sufre enfermedad crónica?
Total
¿Existe relación entre sufrir una enfermedad crónica y el sexo?
299
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Test de la chi-cuadrado
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
2
1k1h
grandenh
1i
k
1i ji
2ji
ijh
1i
k
1i i
2ii
nnnnnn
n
EsperadasEsperadasObservadas
χ
donde h y k son el número de categorías de cada una de las variables.
Región crítica
300
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Test de la chi-cuadrado
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
Tabla de contingencia SEXO * ¿Sufre enfermedad crónica?
Recuento
19 77 9633 61 9452 138 190
HombreMujer
SEXO
Total
Sí No¿Sufre enfermedad crónica?
Total
(2-1)(2-1),0.95
=3.84
y el p-valor asociado de 0.018. Al 95% de confianza se rechaza que las variables sean independientes.
5.604
19094138
1909413861
1909452
190945233
19013896190
1389677
1909652
190965219
2222
301
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Test de la chi-cuadrado
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
En un estudio sobre el número de veces que un paciente ha sufrido estrés en un periodo de 40 años y su influencia en el tipo de enfermedad psiquiátrica que padece se han obtenido los siguientes datos
Tabla de contingencia Tipo de enfermedad * Número de veces que ha sufrido estrés
Recuento
23 39 46 21 21 13 9 2 1747 10 28 42 75 34 15 3 214
30 49 74 63 96 47 24 5 388
EsquizofreniaDesórdenes afectivos
Tipo de enfermedad
Total
0 1 2 3 4 5 6 7Número de veces que ha sufrido estrés
Total
El p-valor asociado al estadístico de prueba es 0.00. Se rechaza la hipótesis de que las variables sean independientes.
302
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Test de la chi-cuadrado
CAPÍTULO 2: INFERENCIA ESTADÍSTICA
En el test de la chi-cuadrado las frecuencias de la tabla se comparan con las frecuencias esperadas, calculadas bajo la hipótesis de que las variables son independientes.
Las frecuencias esperadas deben ser mayores que 1 en todas las celdas y no más del 20% de las celdas deben tener valores esperados menores que 5.
En caso de no cumplirse se recomienda utilizar el test exacto de Fisher, si la tabla es 22; o, combinar categorías, en otro caso.
Se recomienda, además, utilizar muestras mayores que 30.
303
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
En esta práctica aprenderemos a:
• Construir tablas de contingencia.
• Aplicar el contraste chi-cuadrado para la independencia.
• Otros contrastes.
PRÁCTICA 8: ANÁLISIS DE TABLAS DE CONTINGENCIA
304
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3:
ANÁLISIS DE LA VARIANZA
305
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
3.1 Introducción al diseño de experimentos
3.2 Análisis de la varianza de un factor: El modelo de efectos fijos
3.3 Contrastes no paramétricos para varias muestras independientes
3.4 Otros diseños experimentales
306
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción al diseño de experimentos
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
El objetivo de un experimento es estudiar el efecto que sobre
la variable de interés, llamada respuesta o variable dependiente,
tienen la o las variables que pueden influir en la variabilidad de la respuesta, llamados factores o variables independientes.
Se dispone de cinco medios para el cultivo de la vacuna B.C.G. y se desea saber si, en conjunto, los medios son equivalentes entre sí o, por el contrario, unos favorecen más la aparición de colonias que otros.La variable respuesta es el número de colonias y el factor es el tipo de cultivo .
307
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción al diseño de experimentos
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Se supone que la variable respuesta es continua o puede tomar muchos valores distintos y que los factores se fijan durante el experimento a ciertos niveles determinados.
Se consideran cinco tipos de cultivo o cinco niveles o tratamientos.
Todos los factores externos distintos de los considerados que puedan influir en la respuesta deben eliminarse o controlarse.No existe ninguna característica distinta de la que define el tipo de cultivo que afecte al crecimiento.
Un nivel o tratamiento del factor es un valor o condición de éste bajo el cual se medirá la respuesta.
308
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción al diseño de experimentos
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Se sospecha que, en los pacientes con úlcera péptica que han seguido un tratamiento, el tiempo que tarda en reaparecer la sintomatología ulcerosa está relacionado con el tiempo que tarda el paciente en responder al tratamiento.Se somete a un conjunto de pacientes con úlcera péptica al tratamiento, siendo todos ellos fumadores, y cada dos semanas, se comprueba si la sintomatología ulcerosa persiste o ha desaparecido.Una vez desaparecida, el paciente sigue sometido a revisiones mensuales para comprobar el tiempo que tarda en reaparecer.
309
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción al diseño de experimentos
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Teniendo en cuenta que, en la mayoría de los casos, los síntomas han desaparecido al cabo de ocho semanas, se descartarán todos los pacientes en los que, pasadas ocho semanas, la enfermedad aún persiste.Antes de comenzar el tratamiento algunos pacientes han decidido dejar de fumar, por lo que se sospecha que en la reaparición de los síntomas, además del tiempo de respuesta al tratamiento, puede influir el efecto del abandono del tabaco.
310
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción al diseño de experimentos
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Respuesta: Tiempo que tardan en reaparecer los síntomasFactores: El paciente ha dejado de fumar y tiempo que ha
tardado en responder al tratamientoNiveles del primer factor: Ha dejado de fumar-No ha
dejado de fumarNiveles del segundo factor:
2, 4, 6 y 8 semanas
Se asume que no existe ningún otro factor importante que influya en el tiempo que tardan en reaparecer los síntomas.
311
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción al diseño de experimentos
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Los individuos en estudio deben estar asignados aleatoriamente a cada uno de los niveles de los factores. El proceso aleatorio protege contra el sesgo sistemático y tiende a neutralizar los efectos de todos aquellos factores externos que no se encuentran bajo el control del experimentador.
Los niveles de los factores pueden fijarse a priori, dando lugar a un modelo de efectos fijos, o pueden seleccionarse aleatoriamente entre el conjunto de posibles niveles, dando lugar a un modelo de efectos aleatorios. En el caso en el que se fijen unos factores y se seleccionen aleatoriamente otros, aparece el denominado modelo mixto.
312
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción al diseño de experimentos
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Existen tres caminos para eliminar el efecto de una variable:
mantenerla fija durante toda la realización del experimento,
reorganizar la estructura del experimento de manera que las comparaciones de interés se efectúen para distintos valores fijos de dicha variable, lo que supone eliminar estadísticamente su efecto, y
aleatorizar su aparición en los niveles o tratamientos.Los dos primeros caminos se utilizan para variables controladas por el experimentador. El tercero se reserva para eliminar el efecto de variables fuera de control y de poca influencia esperada, cuyos efectos se englobarán dentro del error experimental.
313
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción al diseño de experimentos
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Un laboratorio quiere comparar el efecto de dos fertilizantes para lo cual dispone de un terreno dividido en parcelas sembradas de alfalfa, ¿cómo debe asignar las parcelas al tratamiento?
314
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción al diseño de experimentos
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
¿Depende la fertilidad del suelo de su ubicación? ¿Depende el grado de humedad de su ubicación?¿Tienen todas las parcelas el mismo microclima?
¿Podría esta selección sistemática dar lugar a dos grupos sistemáticamente diferentes?
¿En qué aspectos debería cambiar el experimento si las parcelas estuvieran sembradas con cultivos diferentes?
315
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
3.2 Análisis de la varianza de un factor: El modelo de efectos fijos
• Introducción
• Descomposición de la variabilidad de la respuesta
• Análisis de las diferencias entre medias
• Consideraciones finales
316
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
El análisis de la varianza consiste en descomponer la variabilidad de una magnitud en sus posibles causas.
En el análisis de la varianza de un factor con efectos fijos se parte de un conjunto de observaciones clasificadas según un factor cuyos niveles han sido fijados por el experimentador.
El objetivo del estudio es comprobar si existen diferencias entre los grupos definidos por el factor.
¿Son todos los medios de cultivo equivalentes entre sí o, por el contrario, unos favorecen más la aparición de colonias que otros?
317
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Para cada nivel del factor se obtienen varias réplicas con el propósito de medir el error experimental.
Se han inseminado, a partir de una misma suspensión de B.C.G., 10 tubos por cada medio de cultivo.El número de colonias en cada réplica de cada cultivo son:Cultivo 1: 10, 12, 8, 10, 6, 13, 9, 10, 8 y 9.Cultivo 2: 11, 18, 12, 15, 13, 8, 15, 16, 9 y 13.Cultivo 3: 7, 14, 10, 11, 9, 10, 9, 11, 7 y 9.Cultivo 4: 12, 9, 11, 10, 7, 8, 13, 14, 10 y 11.Cultivo 5: 7, 6, 10, 7, 7, 5, 6, 7, 9 y 6.
318
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
La hipótesis nula es H0 : 1 =2 =...=k =
siendo k el número de niveles del factor considerado.
La hipótesis alternativa es H1 : No todas las medias son iguales.
Nivel 1 Nivel 3Nivel 2Nivel 1 Nivel 3Nivel 2
0H 1H
319
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Las hipótesis sobre los datos son:
Las k muestras provienen de una población normal con la misma varianza 2.
Las k muestras son independientes.
Las técnicas a usar se denominan ANOVA, usando las siglas en inglés de (ANalysis Of VAriance) o ADEVA, usando las siglas en español de (Analisis DE la VArianza)
El método consiste en descomponer la variabilidad de la respuesta en dos componentes, una debida al factor y otra dentro del factor.
320
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
..Y es el estimador de la media poblacional
NOTACIÓN
ijY es la j-ésima observación correspondiente al nivel o tratamiento i
Y11
=10 es la primera observación en el cultivo 1
Estadísticos
Número de colonias50
9,948,38
VálidosNMediaVarianza
321
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
NOTACIÓN
iY es el estimador de la media poblacional en el nivel o tratamiento i-ésimo
Estadísticos
Número de colonias
9,50 13,00 9,70 10,50 7,00Media Media Media Media Media
1 2 3 4 5Tipo de cultivo
322
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Los datos recogidos deben tener el siguiente aspecto:Factor Observaciones Media
Nivel 1
Nivel 2
Nivel k
...
1n1211 YYY
2n2221 YYY
knk2k1 YYY
1Y
2Y
kY
323
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Descomposición de la variabilidad de la respuesta
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
k
1i
n
1j
2..iiij
k
1i
n
1j
2..ij YYYYYY
k
1i
2..i
k
1i
n
1j
2iij
k
1i
n
1j
2..i
k
1i
n
1j
2iij YYnYYYYYY
donde k es el número de niveles o tratamientos considerados y n el número de observaciones efectuadas dentro de cada tratamiento.
Observa que el doble producto no aparece porque es nulo.
324
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Descomposición de la variabilidad de la respuesta
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
k
1i
n
1j
2..ijT YYSC
k
1i
n
1j
2iijE YYSC
k
1i
2..iF YYnSC
es la variabilidad dentro del tratamiento, llamada variabilidad no explicada o residual. Cuanto más grande sea, mayor es la variación que puede atribuirse a un error aleatorio.
es la variabilidad total.
es la variabilidad debida al factor, entre tratamientos o variabilidad explicada. Si todas las muestras provienen de la misma población SCF =0. Cuanto más grande sea, mayor es la diferencia entre los tratamientos.
SUMAS DE CUADRADOS
325
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Descomposición de la variabilidad de la respuesta
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
1)(nk
YY
1n
YY
k1CM
k
1i
n
1j
2iijk
1i
n
1j
2iij
E
La estimación de la varianza dentro de cada nivel o tratamiento es:
1n
YYn
1j
2iij
y el promedio de estas varianzas es un estimador insesgado de la varianza poblacional 2.
326
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Descomposición de la variabilidad de la respuesta
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
La estimación de la varianza dentro de cada tipo de cultivo es:
Estadísticos
Número de colonias
4,06 9,78 4,23 4,72 2,22Varianza Varianza Varianza Varianza Varianza
1 2 3 4 5Tipo de cultivo
5.0022.22)4.724.239.78(4.0651CME
327
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Descomposición de la variabilidad de la respuesta
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
1k
YYk
1i
2..i
es un estimador insesgado de 2/n y, por tanto,
Como se parte de la hipótesis de que las muestras provienen de poblaciones con idéntica varianza 2 y la varianza de la media es 2/n; si se supone que la hipótesis nula es cierta, es decir, que las medias de las poblaciones son iguales, entonces la varianza de las medias de cada muestra
1k
YYnCM
k
1i
2..i
F
es también un estimador insesgado de 2. 328
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Descomposición de la variabilidad de la respuesta
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
La varianza de las medias es:
4.6431-5
9.94)-(9.59.94)-(7.09.94)-(10.59.94)-(9.79.94)-(13.09.94)-(9.5 222222
46.434.64310CMF
En cambio, si la hipótesis nula es falsa,entonces CMF es un estimador sesgado y mayor que CME . Y, cuanto mayor sea la diferencia entre las medias de los tratamientos y la media global, mayor será CMF .
Además, 1)-(nk1,k21)-(nk
21k
E
F F~CMCM
329
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Descomposición de la variabilidad de la respuesta
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
9.35.00246.43
CMCM
E
F
que ha de compararse con el valor de la F5-1, 5·(10-1)
= F4, 45
Al 95% de confianza F4, 45 = 2.59.
Como 9.3 es mayor que 2.59, se rechaza la hipótesis nula de que todos los cultivos se comporten del mismo modo.
Al 99% de confianza F4, 45 = 5.6, obteniéndose la misma conclusión.
330
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Tabla ANOVA
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
variación cuadradosFuente de Suma de
mediosCuadrados
libertadGrados de F
Factor
Error
Total
k-1
k·(n-1)
k·n-1
k
1i
n
1j
2..ij YY
k
1i
n
1j
2iij YY
k
1i
2..i YYn
1)(nk
YYk
1i
n
1j
2iij
1k
YYnk
1i
2..i
E
FCMCM
331
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Tabla ANOVA
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
ANOVA
Número de colonias
185,720 4 46,430 9,282 ,000225,100 45 5,002410,820 49
Inter-gruposIntra-gruposTotal
Suma decuadrados gl
Mediacuadrática F Sig.
332
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de las diferencias entre medias
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Si se rechaza la hipótesis nula de que las medias son iguales para todos los grupos, será interesante determinar entre qué parejas existen diferencias significativas.Un posible método consistiría en contrastar todas las posibles parejas dos a dos con los contrastes para la diferencia de medias de dos muestras independientes vistas en el capítulo 2. Pero, si cada contraste se realiza con un nivel de significación del 5%, ¿cuál es el nivel de significación para el conjunto de comparaciones?En el caso más simple en el que se consideran tres niveles, cuando se compara el primero con el segundo y el segundo con el tercero, ¿cuál es la probabilidad de que uno o los dos rechacen la hipótesis nula cuando es verdadera?
333
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de las diferencias entre medias
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Existen diversos procedimientos para resolver este problema. Entre otros:• la prueba de Bonferroni y
• el método de Scheffé.
PRUEBA DE BONFERRONI
Se realiza cada contraste individual al nivel /número de contrastes, de forma que se garantiza que el contraste conjunto se realiza al nivel al menos 1-.
Es un prueba apropiada cuando se trata de comparar pocas parejas de medias.
334
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de las diferencias entre medias
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
MÉTODO DE SCHEFFÉ DE COMPARACIONES MÚLTIPLES
Se realizan los contrastes individuales de forma que la región de confianza depende del número de niveles del factor y del número de observaciones y no del número de contrastes que se desee realizar.
335
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Consideraciones finales
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
• Las muestras en cada grupo pueden tener tamaños diferentes.
• Aunque una hipótesis de partida ha sido que las muestras provengan de poblaciones normales, el análisis de la varianza es una técnica robusta frente a desviaciones de normalidad y, por tanto, válida para pequeñas desviaciones.
• La otra hipótesis de partida es que las muestras provengan de poblaciones con la misma varianza. Si las varianzas son muy diferentes, pero los tamaños de la muestra son iguales o muy parecidos, el contraste es igualmente exacto. En cambio, si los tamaños de las muestras son muy diferentes, las diferencias entre las varianzas pueden ser graves.
336
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Consideraciones finales
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
• Si se considera que los datos provienen de distribuciones normales, se puede contrastar la igualdad de varianzas antes de efectuar el análisis de la varianza. Dado que el contraste para la igualdad de varianzas que proporciona SPSS es robusto con respecto a la hipótesis de normalidad, se puede contrastar incluso cuando los datos muestren ligera falta de normalidad.
• En el caso de que falle la hipótesis de igualdad de varianzas (se dice que los datos presentan heterocedasticidad), los datos pueden transformarse para conseguir homocedasticidad (veáse, por ejemplo, Peña, Vol. 2, pág. 59, 1999) o aplicar contrastes específicos de ANOVA que no suponen homocedasticidad (SPSS).
• Es necesario asegurarse de que la falta de normalidad o heterocedasticidad no es debida a la existencia de datos atípicos.337
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Pruebas no paramétricas para varias muestras independientes
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
La prueba de Kruskal-Wallis para dos muestras independientes es la análoga no paramétrica del análisis de varianza de un factor y una extensión de la prueba paramétrica U de Mann-Whitney para dos muestras independientes.
Contrasta la hipótesis nula de que las muestras provienen de la misma población contra la hipótesis alternativa de las distribuciones presentan diferencias en cuanto a su localización.
338
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
DUNN, O. J. y CLARK, V. A. (1987)Applied Statistics: Analysis of Variance and Regression, (2ª Ed.), John Wiley and Sons.
CAPÍTULO 3: ANÁLISIS DE LA VARIANZA
Bibliografía
339
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
En esta práctica aprenderemos a:
• Aplicar el test del análisis de la varianza para un factor de efectos fijos.
• Aplicar los contrastes a posteriori de igualdad de medias dos a dos cuando se rechaza la hipótesis nula de que todas la medias son iguales.
• Aplicar el contraste no paramétrico de Kruskal-Wallis para varias muestras independientes.
PRÁCTICA 9: ANÁLISIS DE LA VARIANZA
340
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4:
ANÁLISIS DE LA REGRESIÓN
341
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
4.1 Introducción
4.2 El modelo de regresión simple
4.3 El modelo lineal general
4.4 Diagnosis y validación del modelo lineal
4.5 Extensiones del modelo de regresión
342
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Los modelos estadísticos que explican la dependencia de una variable respecto de una o varias variables se denominan modelos de regresión.
El interés recae en determinar una función matemática sencilla que describa, de forma razonable, el comportamiento de la variable respuesta, dados los valores de las variables explicativas, por ejemplo: Y ~
0 + 1 X1 + 2 X2 +... + k
Xk
La variable que se desea explicar se denomina variable respuesta, endógena, dependiente
o explicada
(Y) y las variables que aportan
la información se denominan variables predictoras, exógenas, independientes
o explicativas (X1 , X2 ,...,Xk
).
343
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Cuando el conocimiento de una variable determina totalmente el valor de la otra se dice que existe una relación funcional entre ambas.
Por el contrario, si el conocimiento de una variable no aporta información sobre el valor de la otra, se dice que son variables independientes.
Si un objeto se mueve a una velocidad constante de 20 metros por segundo, conocido el tiempo que lleva en movimiento se puede determinar con exactitud el espacio que ha recorrido mediante la función
Espacio = Velocidad
Tiempo, siendo la velocidad igual a 20m/s.
344
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Existe un tipo de relación intermedia que se da cuando el conocimiento de una variable permite determinar con cierto grado de exactitud el valor de la otra. Se dice, entonces, que existe una relación estadística
o estocástica
entre las variables.
Los modelos de regresión analizan este tipo de relaciones.
¿Cuál es la presión sanguínea esperada en un animal para un determinado nivel de concentración en la sangre de un medicamento?¿Se puede determinar la polución anual media en una ciudad conocidas la medias anuales de la temperatura, la velocidad del viento y la precipitación?
345
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Los objetivos del análisis de la regresión son:
La relación entre la polución anual media en una ciudad y la medias anuales de la temperatura (T), la velocidad del viento (V) y la precipitación (P) viene explicada por la ecuación
Polución ~
130.2 -
1.9 · T -
1.7 · V + 0.6 · P
Obtener un modelo que explique el comportamiento conjunto de dos o más variables
Evaluar la importancia relativa de una de las variables independientes y analizar su efecto en la variable dependiente
Si la temperatura aumenta un grado, la polución disminuye 1.9 microgramos por centímetro cúbico.
346
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Para una ciudad cuyos valores anuales medios de la temperatura, velocidad del viento y precipitación son 50º Fahrenheit, 6 millas por hora y 7 pulgadas, respectivamente, la polución esperada es:
130.2 -
1.9 · 50 -
1.7 · 6 + 0.6 · 7 = 29.2 gr. por cm3
Predecir los valores de la variable respuesta para valores conocidos de las variables independientes.
347
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
4.1 El modelo de regresión simple
• Introducción
• Hipótesis del modelo
• Estimación de los parámetros
• Inferencias respecto a los parámetros
• Coeficiente de determinación y coeficiente de correlación lineal
• Análisis de los residuos
• Predicción
• Comentarios finales348
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
En el modelo de regresión lineal simple se considera que existe una única variable que explica el comportamiento de la variable respuesta y que dicho comportamiento puede representarse mediante una recta.
TIEMPO
6050403020100
VIR
US
300
200
100
0
La representación gráfica de la variable respuesta (Virus) sobre la variable explicativa (Tiempo) ayuda a determinar si la relación entre ambas es lineal o de otro tipo.
349
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
TIEMPO
6050403020100
VIR
US
240
220
200
180
160
140
120
100
80
En algunas ocasiones la representación gráfica nos sugerirá otro tipo de funciones o ninguna en particular.
Población en miles
40003000200010000
Con
cent
raci
ón d
e S
O2
120
100
80
60
40
20
0
350
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Si estamos dispuestos a admitir que la relación entre las variables es lineal, el siguiente paso es encontrar la ecuación de la recta (Y=aX+b) que mejor se ajusta al conjunto de observaciones disponible. Dicha recta es la que más cerca pasa de todos los puntos a la vez para lo cual es necesario determinar el criterio que representa la distancia.
Y=0.5·X+0.5
X
Y
1
1
2
3
n=2
Y=aX+b
X
Y
x
1y
1 x
y
2
2 Y=cX+d
Y=eX+f
x3
y3
351
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
X
Y
X
Y
352
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Hipótesis del modelo
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
En el modelo de regresión lineal simple se considera que todos los factores que influyen en el comportamiento de la variable respuesta Y
pueden dividirse en dos grupos:
el primero contiene a la variable explicativa X, y
el segundo es una perturbación aleatoria.
Por tanto: ,...,ni 1 ,iix10iy
donde xi
son valores de la variable X conocidos (fijos, no aleatorios), yi
representa la variable respuesta dado el valor xi
(yi
son variables aleatorias observables) i
son los errores del modelo (variables aleatorias NO observables) y 0 y 1 son parámetros desconocidos, que se desean estimar.
353
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Hipótesis del modelo
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Se desea estudiar el número de virus en un cultivo al cabo del tiempo (en horas).Se ha dejado actuar el cultivo durante 6 horas y se ha medido el número de virus cada hora. Así, tenemos xi=i, i=1,…6. Yi=número de virus al cabo de i horas. (yi
no es un número fijo, ya que no observaremos siempre el mismo número de virus)
354
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Hipótesis del modelo
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
1.- E[i]=0 i=1,..,n. 2.- Var[i]= 2 , i=1,..,n. La varianza de los errores es constante. Esta propiedad se denomina homocedasticidad.3.- Los errores i son variables aleatorias independientes y normalmente distribuidas.Las condiciones sobre los errores son equivalentes a:1.- La esperanza de la respuesta depende linealmente de X
2.- La varianza de la respuesta es constante 3.- yi
son variables aleatorias independientes y normalmente distribuidas.
i10i x]E[y 2
i]Var[y
355
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Interpretación de los coeficientes
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
El parámetro 0 representa la respuesta media cuando xi=0 (si este valor tiene sentido)
1 representa el incremento medio que experimenta la variable explicada o respuesta cuando la variable X
aumenta en una
unidad.Al estudiar el número de virus en un cultivo al cabo del tiempo (en horas), el parámetro 0
representa el número
de virus que hay al inicio del experimento.El parámetro 1
representa el incremento del número medio de virus que aparecen al cabo de una hora.
356
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación de los parámetrosCAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Para estimar los parámetros se utiliza el criterio de los mínimos cuadrados que consiste en minimizar la suma de los cuadrados de las distancias entre los valores observados de la variable respuesta y los valores sobre la recta. Es decir, encontrar que minimicen la suma de los cuadrados de los errores:
n
1i
2
i10i xˆˆy
2X
XY1 s
s
Se obtienen los siguientes estimadores:
xssy 2
X
XY0
La obtención de los estimadores con este método no requiere ninguna hipótesis. Sin embargo, si se desea que sus propiedades sean buenas hemos de imponer las hipótesis mencionadas.
10ˆ,ˆ
357
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación de los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Por tanto, la ecuación del modelo es de la forma
xXssyY 2
X
XY
que se denomina recta de regresión de Y sobre X.
Si se asume que los errores son variables aleatorias normales, se tiene que
2X
2
11 snN~ ,ˆ
2
X
22
00 sx
nN~ 1,ˆ
358
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación de los parámetrosCAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Además, un estimador insesgado de la varianza 2 es la varianza residual
2-n2-n
xys
n
1i
2i
n
1i
2 i10i
2R
eˆˆ
)ix10ˆ(i y
)ix10ˆ(iyiyiyi e
Valores ajustados
Residuos: Error cometido en cada observación
359
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
X
Y
Inferencias respecto a los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
y
yyi iy
iy
ix
yyiˆii yy ˆ
360
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación de los parámetrosCAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Así, los intervalos de confianza para los parámetros son
X
R2-n2,11 sn
st
ˆ
2X
2R
2-n2,1-0 sx
nst 1ˆ
22n2
n
1i
2i
~
eSe tiene:
211
n
ββ
Xt~
)sn(sˆ
R
Además, un pivote para construir intervalos de confianza para la pendiente es:
361
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Inferencias respecto a los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
El contraste de la hipótesis nula 0:H 10 contra la hipótesis
alternativa 0:H 11 equivale a contrastar la falta de relación lineal
entre las variables.
que se distribuye según una)sn(s XR
1
El estadístico de prueba es
t de Student con n-2
grados de libertad, si la hipótesis nula es cierta.
El contraste más habitual para el parámetro 0 es 00 :H
contra 01 :H . El estadístico de prueba también se distribuye segúnt con n-2
grados de libertad, si la hipótesis nula es cierta. 362
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Inferencias respecto a los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Para estudiar la pérdida de agua del escarabajo Tribolium confusum se han mantenido nueve grupos de 25 escarabajos
en nueve medios con diferente humedad relativa y se ha medido la pérdida de peso después de seis días de ayuno.El objetivo es establecer si la relación entre el nivel de humedad y la pérdida de peso pueden ser explicadas mediante una ecuación lineal.La humedad relativa es una variable controlada por el experimentador, por tanto se busca una ecuación de la forma:
Pérdida de peso = 0
+ 1
·Humedad relativa.363
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Inferencias respecto a los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
La nube de puntos muestra que una relación lineal es razonable y además, que la pérdida de peso disminuye al aumentar el porcentaje de humedad relativa.
Coeficientesa
8,704 ,192 45,437 ,000 8,251 9,157
-5,32E-02 ,003 -,987 -16,346 ,000 -,061 -,046
(Constante)Porcentaje dehumedad relativa
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizados
t Sig.Límiteinferior
Límitesuperior
Intervalo de confianzapara B al 95%
Variable dependiente: Pérdida de pesoa.
Porcentaje de humedad relativa
100806040200-20
Pér
dida
de
peso
10
9
8
7
6
5
4
3
364
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Inferencias respecto a los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
La ecuación de la recta de regresión esPérdida de peso = 8.704 -
0.053·Humedad relativa.
Al 95% de confianza se acepta que existe una relación lineal entre las variables consideradas, puesto que el p-valor asociado al coeficiente 1
es menor que 0.05.Al 95% de confianza se espera que valor de 1
esté
entre -0.061 y -0.046 y el de 0
entre 8.251 y 9.157. Es decir,
si la humedad relativa es del 0%, la pérdida de peso esperada está entre de 8.251 y 9.157 mg. Si la humedad relativa aumenta en un 1%, el peso esperado disminuye entre 0.046 y 0.061 mg.
365
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Descomposición de la variabilidad total
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
n
i
n
i
n
i 1
2
1
2
1
2 yiyiyiyyiy
n
1i
2i yyVT es la variabilidad total
n
1i
2i yyVE ˆ es la variabilidad explicada por la regresión
n
1i
2ii yyVNE ˆ es la variabilidad no
explicada o residual
VT = VNE + VE 366
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Inferencias respecto a los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
La hipótesis de que existe una relación lineal entre Y
y X
debería aceptarse cuando la variación explicada por la recta de regresión (VE) sea muy parecida a la total (VT) (es decir, la regresión es capaz de explicar una gran parte de la incertidumbre de los datos) o equivalentemente, cuando VE sea grande en comparación con VNE.Se tiene que, bajo la hipótesis de normalidad,
21n2 ~VT
212 ~VE
2n2 ~VNE
2 2-n1,2
R2
2F~
sVE
2-nVNE
1VE
24.1300.61623.514VT 23.514VE 0.616VNE
267.1830.08823.514
2)(90.61623.514
sVE
2R
5.59F 0.95 2;1,9
367
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Inferencias respecto a los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
ANOVAb
23,514 1 23,514 267,183 ,000a
,616 7 8,801E-0224,131 8
RegresiónResidualTotal
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), Porcentaje de humedad relativaa.
Variable dependiente: Pérdida de pesob.
t2 = 16.3462
=267.192
Además, en regresión lineal simple el valor del estadístico t
del contraste H0 : 1 =0 al cuadrado coincide con el estadístico F.
368
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Coeficiente de determinación y coeficiente de correlación lineal
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Se define el coeficiente de determinación del modelo como la proporción de variabilidad total de la variable respuesta Y
explicada
por la variable X.
n
1i
2i
n
1i
2i
2
yy
yy
VTVER
ˆ
Es una medida de la bondad del ajuste que toma valores entre 0 y 1.
Si el ajuste lineal es perfecto, es decir, ii yy ˆ , entonces R2=1.
Si no existe ajuste lineal entre las variables, entonces yyi ˆ y R2=0. 369
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Coeficiente de determinación y coeficiente de correlación lineal
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Además, el coeficiente de determinación coincide con el cuadrado del coeficiente de correlación lineal
2Y
2X
2XY22
sssrR
El porcentaje de humedad relativa explica el 97.4% de la variabilidad de la pérdida de peso.
Resumen del modelob
,987a ,974 ,971 ,2967Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Porcentaje de humedadrelativa
a.
Variable dependiente: Pérdida de pesob.
370
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de los residuos
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Todos los resultados obtenidos para el análisis de la regresión se han basado en un conjunto de hipótesis sobre los residuos.Un valor alto de R2 o test de la t
significativo no son suficientes para
asegurar la bondad del ajuste.
Aunque el método utilizado para la obtención de los estimadores es robusto cuando se detectan pequeñas desviaciones de las hipótesis de partida, desviaciones grandes pueden distorsionar las conclusiones.
El análisis de los residuos puede ayudar a detectar dichas violaciones del modelo.
371
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de los residuos
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
X1
161412108642
Y1
11
10
9
8
7
6
5
4
X2
161412108642
Y2
10
9
8
7
6
5
4
3
X3
161412108642
Y3
14
12
10
8
6
4
X4
20181614121086
Y4
14
12
10
8
6
4
372
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de los residuos
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Resumen del modelob
,816a ,667 ,629 1,2366Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), X1a.
Variable dependiente: Y1b. ANOVAb
27,510 1 27,510 17,990 ,002a
13,763 9 1,52941,273 10
RegresiónResidualTotal
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), X1a.
Variable dependiente: Y1b.
Coeficientesa
3,000 1,125 2,667 ,026,500 ,118 ,816 4,241 ,002
(Constante)X1
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientes
estandarizados
t Sig.
Variable dependiente: Y1a.
El valor de R2, la tabla del análisis de la varianza, los estimadores de los
coeficientes y los test
de la t para los
coeficientes son
idénticos para los cuatro conjuntos de datos.
373
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de los residuos
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
El análisis de los residuos consiste en determinar:• Si su distribución es aproximadamente normal.
• Si su variabilidad es constante y son independientes.• Si presentan evidencia de una relación no lineal entre las variables.
• Si existen observaciones atípicas o heterogéneas.
Para contrastar la normalidad de los residuos, se utilizan las representaciones gráficas y los contrastes vistos en el capítulo 2.
La heterodasticidad (varianza no constante) puede detectarse con el gráfico de los residuos en función de los valores predichos.
374
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de los residuos
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Este gráfico permite detectar una posible relación no lineal entre las variables y la existencia de valores atípicos.
Variable dependiente: Pérdida de peso
Regresión Valor pronosticado tipificado
2,01,51,0,50,0-,5-1,0-1,5
Reg
resi
ón R
esid
uo ti
pific
ado
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Se espera que los residuos: • se encuentren entre los
valores -2 y 2,• estén aleatoriamente
distribuidos alrededor del 0, y
• que no muestren ningún patrón.
375
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de los residuos
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Variable dependiente: Y4
Regresión Valor pronosticado tipificado
3,53,02,52,01,51,0,50,0-,5
Reg
resi
ón R
esid
uo ti
pific
ado
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
Variable dependiente: Y3
Regresión Valor pronosticado tipificado
2,01,51,0,50,0-,5-1,0-1,5-2,0
Reg
resi
ón R
esid
uo ti
pific
ado
3
2
1
0
-1
Variable dependiente: Y2
Regresión Valor pronosticado tipificado
2,01,51,0,50,0-,5-1,0-1,5-2,0
Reg
resi
ón R
esid
uo ti
pific
ado
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Variable dependiente: Y1
Regresión Valor pronosticado tipificado
2,01,51,0,50,0-,5-1,0-1,5-2,0
Reg
resi
ón R
esid
uo ti
pific
ado
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Falta de linealidad
Datos atípicosObservaciones influyentes
376
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Porcentaje de humedad relativa
100806040200-20
Pér
dida
de
peso
10
9
8
7
6
5
4
3
Predicción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Cuando el modelo obtenido explica bien el comportamiento de las dos variables consideradas, la ecuación sirve para predecir la respuesta esperada para otros valores conocidos de la variable explicativa.
¿Cuál es la pérdida de peso esperada si el porcentaje de humedad relativa es del 100%?Pérdida de peso = 8.704 -
0.053·100 = 3.404mg
7.644
377
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Predicción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Para predecir hay que tener en cuenta que:
el ajuste represente bien el comportamiento conjunto de las dos variables.
los valores de la variable independiente deben sustituirse en las mismas unidades de medida en las que se ha obtenido el ajuste.
los valores para los que se desea predecir deben estar próximos a los utilizados para estimar el modelo.
sólo se puede predecir la variable respuesta conocida la variable explicativa y no en el otro sentido.
378
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Comentarios finales
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
En resumen, la metodología para construir un modelo de regresión consiste en:
Representar gráficamente las observaciones para obtener una idea intuitiva de la relación entre las variables.
Estimar los parámetros del modelo.
Construir intervalos de confianza para los parámetros y contrastar la hipótesis de linealidad.
Contrastar las hipótesis de partida mediante el análisis de los residuos. Si se detectan problemas, replantear el modelo.
379
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Comentarios finales
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Para la interpretación del modelo regresión es importante tener en cuenta que:
Una alta correlación entre dos variables no implica causalidad. A veces, es debida a la existencia de una tercera variable que actúa sobre Y
y X
moviéndolas en la misma dirección.
La falta de relación significativa no implica ausencia de relación. Puede ser debida a una relación no lineal o a que el rango de variación de la variable X sea pequeño y el error experimental alto.
Si los datos provienen de un experimento es posible evitar el efecto de variables no incluidas en el modelo mediante aleatorización. Además, si se controlan los valores de la variable explicativa es posible observar relaciones causa-efecto. 380
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
En esta práctica aprenderemos a:
• Dibujar nubes de puntos.
• Dibujar una recta, una parábola o una cúbica sobre la nube de puntos.
• Obtener el valor del coeficiente de determinación general.
PRÁCTICA 10 : ANÁLISIS DE LA REGRESIÓN: ANÁLISIS GRÁFICO
381
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
En esta práctica aprenderemos a:
• Obtener la ecuación de la recta de regresión y los intervalos de confianza asociados a los parámetros.
• Obtener el test t
para la significatividad de los parámetros.
• Calcular el test F
del análisis de la varianza.
• Calcular el coeficiente de determinación lineal.
• Representar y analizar gráficamente los residuos.
PRÁCTICA 11 : ANÁLISIS DE LA REGRESIÓN: REGRESIÓN SIMPLE
382
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
4.3 El modelo lineal general
• Introducción
• Hipótesis básicas
• Estimación de los parámetros
• Contrastes para los parámetros
• El coeficiente de determinación y el coeficiente de correlación lineal
• Métodos de selección de variables explicativas
383
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
El modelo general de regresión es la extensión para k variables explicativas del modelo de regresión simple para una.
Cada observación de la variable respuesta puede representarse en función de los valores de las variables explicativas mediante la ecuación:
ikik2i21i10i xxxy
donde y y
son variables aleatorias, x1 , x2 ,..., xk son variables fijas con valores conocidos y 0 , 1 ,...,k son los parámetros del modelo.
384
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Hipótesis básicas
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Los errores deben verificar las mismas propiedades que en el caso de regresión simple:
su media es 0,
su varianza es constante,
son independientes entre sí, y
su distribución es normal.
El valor de 0 es el valor medio de la respuesta cuando todas las variables explicativas son iguales a 0. El valor de j es el cambio medio en la respuesta cuando Xj aumenta en una unidad y el resto de las variables permanecen fijas.
385
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Hipótesis básicas
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Además, se asume que:
para cualquier conjunto de valores de las variables explicativas que caen dentro del rango de observación, la ecuación lineal proporciona una aproximación razonable de la verdadera relación entre las variables,
el número de observaciones es mayor que el número de variables explicativas incluidas en el modelo, es decir, mayor que el número de parámetros, y
las variables explicativas tienen valores conocidos, están medidas sin error y son linealmente independientes entre sí.
386
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación de los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
En un estudio sobre la relación entre el crecimiento y la composición mineral del follaje de alerces japoneses, se plantaron una serie de árboles en suelo de diferentes tipos. Se seleccionaron 26 árboles. Para cada uno de ellos se midió la altura en centímetros y la concentración de nitrógeno (N), fósforo (F), potasio (P) y cenizas residuales (C) en los nudos de un vástago en partes por millón.
Si se asume una relación lineal entre las variables, la ecuación que se desea estimar es
Alturai
= 0
+ 1
·Ni
+ 2
·Fi
+ 3
·Pi
+ 4
·Ci
+ i
387
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación de los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
n
1i
2
kik1i10i xˆxˆˆy
Para estimar los parámetros se utiliza el criterio de los mínimos cuadrados, que consiste en encontrar que minimicen:
Altura = -185.330 + 97.764·N + 256.975·F +
126.573·P + 40.277·C
Coeficientesa
-185,330 36,298 -260,816 -109,84497,764 24,572 46,664 148,864
256,975 169,905 -96,363 610,312126,573 46,429 30,019 223,127
40,277 36,615 -35,867 116,421
(Constante)NitrógenoFósforoPotasioCenizas residuales
Modelo1
B Error típ.
Coeficientes noestandarizados
Límite inferiorLímite
superior
Intervalo de confianza paraB al 95%
Variable dependiente: Altura en cma.
k10ˆ,,ˆ,ˆ
388
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Estimación de los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Así como en regresión lineal simple, el modelo se representa mediante una recta, en regresión lineal múltiple con dos variables el modelo se representa mediante un plano y con tres o más variables con un hiperplano.
389
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contrastes para los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
El primer contraste que se plantea es:
frente a
0:H 210 k
Es decir, la hipótesis nula es que ninguna variable explicativa influye en la respuesta (no existe relación lineal) frente a la alternativa de que al menos una de las variables es influyente.
0algún:H i1
390
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contrastes para los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Como en regresión simple, la variabilidad total de la respuesta puede descomponerse como suma de la variabilidad recogida por el modelo más la variabilidad residual por lo que, si todos los parámetros son simultáneamente iguales a 0, tenemos
1-k-nk,2R
F~s
kVE
donde k es el número de variables explicativas en el modelo y
1-k-ns
n
1i
2i
2R
ees la varianza residual.
391
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contraste para los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
ANOVAb
197832,430 4 49458,107 34,481 ,000a
30121,916 21 1434,377227954,346 25
RegresiónResidualTotal
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), Cenizas residuales, Nitrógeno , Potasio,Fósforo
a.
Variable dependiente: Altura en cmb.
Se rechaza la hipótesis nula H0 : 1 = 2 = 3 = 4 =0, esto es, que alguna de las variables consideradas explica la altura de los árboles. Al menos una de ellas influye en la respuesta.
392
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contrastes para los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Sobre cada parámetro asociado a una variable independiente se realiza el contraste j = 0, que implica que la variable Xj no afecta a la respuesta y no debería aparecer en la ecuación.
Para cada parámetro el estadístico de prueba se distribuye según una t de Student con n-k-1 grados de libertad.
Coeficientesa
-185,330 36,298 -5,106 ,00097,764 24,572 ,436 3,979 ,001
256,975 169,905 ,188 1,512 ,145126,573 46,429 ,330 2,726 ,013
40,277 36,615 ,137 1,100 ,284
(Constante)NitrógenoFósforoPotasioCenizas residuales
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizados
t Sig.
Variable dependiente: Altura en cma. 393
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Contrastes para los parámetros
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
CONTRASTE CONJUNTO
Significativo
CONTRASTES INDIVIDUALES
Todos significativos
Algunos significativos
Verificar las hipótesis
Multicolinealidad
Ninguno significativo
Eliminar variables394
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Coeficiente de determinación y coeficiente de correlación lineal
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Se define el coeficiente de determinación múltiple R2 como la proporción de variabilidad total de la variable respuesta Y explicada por las variables independientes X1 , X2 ,..., Xk .
Su raíz cuadrada se denomina coeficiente de correlación múltiple.
R2 no sirve por sí solo para comparar la eficacia de distintas regresiones puesto que, siempre aumenta al introducir nuevas variables, aunque su efecto no sea significativo.
Si el modelo contiene muchos parámetros y la muestra es pequeña, R2 será alto.
Hay que tener en cuenta que:
395
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Coeficiente de determinación y coeficiente de correlación lineal
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Para poder comparar la bondad de modelos con distinto número de variables explicativas, se utiliza el coeficiente de determinación corregido por los grados de libertad.
2Y
2R2
ss1corregido R
Resumen del modelob
,932a ,868 ,843 37,87Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Cenizas residuales,Nitrógeno , Potasio, Fósforo
a.
Variable dependiente: Altura en cmb. 396
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Métodos de selección de variablesCAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Cuando tenemos muchos potenciales predictores (es decir, k es grande) es difícil determinar cuáles deben estar en el modelo de regresión ya que muchas de ellas pueden tener relación con Y (coeficiente de correlación entre las variables X y la variable Y significativo) y las variables tener mucha relación entre sí.
Si se ajusta el modelo con todas las X saldrán muchos coeficientes no significativos y no está claro la forma de proceder para quedarse con el mejor subconjunto de las variables X para explicar Y.Hay métodos iterativos implementados en los programas de ordenador que utilizan criterios de R cuadrado, R cuadrado ajustado o errores de predicción para obtener un buen subconjunto de las X.
397
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Métodos de selección de variablesCAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Se suele trabajar de 3 formas alternativas:• Selección hacia delante (forward): se parte con un modelo sin ninguna X y en cada iteración se introduce la variable X más importante que no esté en el modelo hasta que de las que quedan fuera ninguna aporta nada significativo.• Selección hacia atrás (backward): se parte con un modelo con todas las potenciales variables explicativas X y en cada iteración se quita la menos importante, hasta que todas las que quedan en el modelo son importantes.• Selección paso a paso (stepwise): mezcla de los anteriores donde en un paso se introduce una variable y en el siguiente se saca otra.Ha de entenderse que estos métodos son una ayuda pero no siempre proporcionan el mejor modelo, que ha de basarse en el conocimiento del problema, el chequeo de las hipótesis, etc. 398
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
4.4 Diagnosis y validación del modelo de regresión múltiple
• Introducción
• Análisis de los residuos
• La hipótesis de normalidad
• Heterocedasticidad
• Multicolinealidad
• Observaciones influyentes y observaciones atípicas
• Autocorrelación
• Error de especificación399
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Introducción
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
El fallo de algunas de las hipótesis necesarias para la construcción del modelo afectará a sus propiedades.
Multicolinealidad: las variables explicativas son muy dependientes entre sí.
Los problemas frecuentes son:
Error de especificación: la relación entre las variables no es lineal, faltan o sobran variables en el modelo.
Falta de normalidad.
Heterocedasticidad: la varianza de los residuos no es constante.
Autocorrelación: los residuos no son independientes.
Existencia de valores extremos que influyen en la estimación.
400
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de los residuos
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Los residuos aportan información sobre si se cumplen las hipótesis de linealidad, normalidad, homocedasticidad e independencia y permiten detectar observaciones influyentes y/o atípicas.
El histograma y el gráfico P-P (Q-Q) para comprobar la hipótesis de normalidad y detectar valores atípicos.
Regresión Residuo tipificado
1,881,25,62-,02-,65-1,28
Histograma
Variable dependiente: Altura en cm
Frec
uenc
ia
12
10
8
6
4
2
0
Desv. típ. = ,92 Media = 0,00
N = 26,00
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: Altura en cm
Prob acum observada
1,00,75,50,250,00
Pro
b ac
um e
sper
ada
1,00
,75
,50
,25
0,00
Para comenzar esta fase, debemos tener un modelo ajustado en el que las variables incluidas sean significativas.
401
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de los residuos
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
El gráfico de los residuos sobre los valores predichos para detectar falta de linealidad, heterocedasticidad y valores atípicos.
Gráfico de dispersión
Variable dependiente: Altura en cm
Regresión Valor pronosticado tipificado
3210-1-2
Reg
resi
ón R
esid
uo ti
pific
ado
3
2
1
0
-1
-2
Los residuos se encuentran aleatoriamente distribuidos alrededor del cero, no muestran ningún patrón ni la existencia de valores atípicos.
402
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de los residuos
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
X
706050403020
Res
iduo
s
10
0
-10
-20
X
4,03,53,02,52,01,51,0,5
Res
iduo
s
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
Heterocedasticidad Falta de linealidad
403
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de los residuos
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Los gráficos de residuos parciales sobre cada una de las variables explicativas ayudan a comprobar la importancia de cada variable en el modelo y a identificar si la falta de linealidad o heterocedasticidad, en su caso, es debida a alguna variable explicativa.
El gráfico de residuos parcial de la variable Xj muestra el diagrama de dispersión de la variable Y frente a Xj una vez quitada la influencia de las demás variables explicativas.
Si el gráfico muestra relación, esa variable aporta información para el conocimiento de la respuesta.
404
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Análisis de los residuos
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Gráfico de regresión parcial
Variable dependiente: Altura en cm
Potasio
,4,3,2,1-,0-,1-,2-,3
Altu
ra e
n cm
200
100
0
-100
Gráfico de regresión parcial
Variable dependiente: Altura en cm
Cenizas residuales
,5,4,3,2,1-,0-,1-,2-,3
Altu
ra e
n cm
100
80
60
40
20
0
-20
-40
-60
-80
Gráfico de regresión parcial
Variable dependiente: Altura en cm
Nitrógeno
,6,4,2-,0-,2-,4-,6
Altu
ra e
n cm
80
60
40
20
0
-20
-40
-60
-80
-100
Gráfico de regresión parcial
Variable dependiente: Altura en cm
Fósforo
,2,10,0-,1
Altu
ra e
n cm
80
60
40
20
0
-20
-40
-60
-80
La altura aumenta al aumentar las cantidades de nitrógeno y potasio.
Las cantidades de fósforo y cenizas residuales no parecen aportar mucha información.
405
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
La hipótesis de normalidad
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
La hipótesis de normalidad es necesaria para realizar contrastes de significación y obtener intervalos de confianza para los parámetros.
La ligera falta de normalidad hace que los resultados de los contrastes sean sólo aproximados y las estimaciones de los parámetros poco eficientes, con lo que no se extraerá la máxima información posible de la muestra.
Si la desviación de la normalidad es importante, entonces muchas de las propiedades (en particular los tests de hipótesis y los intervalos) dejan de ser válidos.
406
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
La hipótesis de normalidad
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
La falta de normalidad puede ser debida a:
La presencia de unas pocas observaciones atípicas o una distribución fuertemente asimétrica.
Observaciones heterogéneas que producen una distribución más apuntada que la normal y que pueden ser debidas a una mala especificación del modelo.
Las soluciones al problema de falta de normalidad son:
Transformar los datos.
Plantear un modelo con distribución de los errores distinta de la normal (modelos lineales generalizados).
407
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Heterocedasticidad
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
La heterocedasticidad es el fallo en la hipótesis de que la varianza de los residuos sea constante.Los estimadores serán insesgados, pero dejarán de ser eficientes. Los errores de estimación no son válidos y los contrastes dejan de ser aplicables.
Los gráficos de los residuos sobre los valores predichos o los gráficos de residuos parciales permiten detectar el problema.
Las posibles soluciones son:
transformar las variables, o
aplicar la técnica de mínimos cuadrados ponderados.
408
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Multicolinealidad
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Las estimaciones de los parámetros asociados a las variables relacionadas serán poco precisas y muy dependientes entre sí. Por tanto, pequeñas modificaciones en la muestra o en el modelo, afectarán mucho a los valores de los estimadores y a sus varianzas. Además, en ocasiones se pueden obtener estimaciones de los parámetros con signo cambiado.Correlaciones altas entre parejas de variables explicativas son signo de multicolinealidad, puesto que muestran un alto grado de asociación entre las variables dos a dos. Pero si una de ellas es función de dos o más de las otras, no será detectado por el coeficiente de correlación lineal. Existen otros estadísticos para determinar la colinealidad en este caso.
409
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Multicolinealidad
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Correlaciones
,602**,001
26,546** ,704**,004 ,000
26 26,651** ,671** ,671**,000 ,000 ,000
26 26 26
Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)N
Nitrógeno
Fósforo
Potasio
Cenizas residuales
Nitrógeno Fósforo PotasioCenizas
residuales
La correlación es significativa al nivel 0,01 (bilateral).**.
La matriz de correlaciones muestra valores altos y significativamente no nulos para todas las parejas de variables.
Si en la ecuación de regresión se incluyen, por ejemplo, el fósforo y el potasio, parte de la variación explicada por una de ellas en un ajuste con una sola de las variables, será explicada por la otra cuando se incluyan las dos. 410
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Multicolinealidad
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Los errores de estimación de los parámetros aumentan al aumentar el número de variables incluidas en el modelo.
Las estimaciones son dependientes entre sí porque los valores de los coeficientes cambian mucho según las variables que se hayan incluido.
-185.330
Constante
97.764
Nitrógeno PotasioFósforo Cenizas
256.975 126.573 40.277
(24.572) (196.905) (46.429) (36.615)
-193.070 107.797 304.235 143.129
(22.925) (165.167) (44.131)
-180.868 123.264 188.685
(22.414) (38.404)
R cuadradocorregida
Coeficiente
Error
Coeficiente
Error
Coeficiente
Error
0.841
0.825
0.843
411
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Multicolinealidad
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Nitrógeno
Fósforo
Potasio
Cenizas residuales
Altura en cm
Las variables explicativas son muy dependientes dos a dos, por tanto existe el problema de multicolinealidad
al menos de este orden.
412
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Multicolinealidad
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
¿Se necesitan las cuatro variables independientes para explicar la altura de los árboles?
¿Se detectan valores atípicos?
413
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Multicolinealidad
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Las variables explicativas son muy dependientes.
Observa que la cantidad de cenizas residuales aumenta al aumentar las cantidades del resto de componentes.
414
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Observaciones influyentes y observaciones atípicas
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Una observación influyente puede determinar por sí sola el modelo y no tiene por qué ser atípica.
X4
20181614121086
Y4
14
12
10
8
6
4
Cuando se utilizan varias variables explicativas es más difícil detectar estos valores.El gráfico de los residuos sobre los valores predichos no sirve para detectar valores influyentes, porque sus residuos serán pequeños, aunque sí valores atípicos.
Para detectar valores influyentes pueden utilizarse medidas de influencia como la distancia de Cook.
415
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Autocorrelación
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
La dependencia entre los residuos del modelo es un problema frecuente cuando se estudian variables que evolucionan en el tiempo (y en el espacio: geoestadística).
Los efectos de la dependencia son estimadores y predicciones ineficientes, y contrastes no válidos.
Para identificar el problema se utiliza el gráfico de los residuos sobre el tiempo para identificar autocorrelación de primer orden y el análisis de series temporales para modelos más complejos.
416
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Autocorrelación
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
El contenido de hierro en las escorias producidas por los altos hornos pueden determinarse mediante un test
químico o estimarse mediante un test
magnético más barato y rápido de aplicar. El objetivo es estudiar si los resultados del test
químico pueden predecirse a partir de
los obtenidos con el test
magnético y la naturaleza de la relación entre estas dos cantidades. Las observaciones se muestran en el orden en el que han sido recogidas ¿tiene esto algún efecto?
417
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
tiempo
6050403020100
Stan
dard
ized
Res
idua
l
2
1
0
-1
-2
Autocorrelación
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
El gráfico de los residuos respecto del instante en el que ha sido tomada la observación muestra un patrón de autocorrelación
negativa, por lo que se confirma que el tiempo influye en la medición.
418
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
Error de especificación
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN
Se comete error de especificación cuando los errores del modelo no tienen esperanza nula, es decir, se establece una relación errónea de la respuesta en función de las variables explicativas:
Incluir variables irrelevantes (aumenta el error de estimación y la posibilidad de multicolinealidad).
Excluir variables relevantes (estimadores sesgados, contrastes no adecuados, residuos con malas propiedades).
Error en la transformación de las variables.
Afecta al sesgo de los estimadores, al error de estimación, a los contrastes sobre los parámetros y a los residuos.La estructura de los residuos cambiará al excluir variables relevantes y cuando no se elige la transformación adecuada.
419
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN4.5 Extensiones del modelo de regresión
Regresión con variables explicativas cualitativas.
El análisis de la covarianza para analizar la posible interacción entre variables cualitativas y cuantitativas de un modelo de regresión.
Regresión con variable respuesta cualitativa: Modelo logístico o modelo Logit y modelo Probit que se utilizan, por ejemplo, para ajustar la relación entre la dosis administrada de un medicamento y la respuesta al tratamiento y para estimar las dosis que inducen niveles específicos de respuesta.
Modelos polinómicos.
Regresión no lineal.
420
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
• SAMPRIT CHATTERJEE, ALI S. HADI y BERTRAM PRICE (2000), Regression Analysis by example(3ª Ed.), John Wiley and Sons.
CAPÍTULO 3: ANÁLISIS DE LA REGRESIÓN
Bibliografía
421
Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza
En esta práctica aprenderemos a:
• Obtener la ecuación de la recta de regresión y los intervalos de confianza asociados a los parámetros.
• Obtener el test t para la significatividad de los parámetros.
• Calcular el test F del análisis de la varianza.
• Calcular el coeficiente de determinación lineal.
• Representar y analizar gráficamente los residuos.
PRÁCTICA 12 : ANÁLISIS DE LA REGRESIÓN: REGRESIÓN MÚLTIPLE
422