CAPÍTULO 1: INTRODUCCIÓN Y CONCEPTOS FUNDAMENTALES · CAPÍTULO 1: ESTADÍSTICA DESCRIPTIVA. 1.2 Estadística descriptiva • Introducción. • Unidad estadística o individuo.

Beatriz Lacruz Casaucau ([email protected])Dpto. Métodos Estadísticos. Universidad de Zaragoza

CAPÍTULO 1:

INTRODUCCIÓN Y CONCEPTOS FUNDAMENTALES

1


CAPÍTULO 1: INTRODUCCIÓN Y CONCEPTOS FUNDAMENTALES

1.1 Conceptos fundamentales de estadística

1.2 Estadística descriptiva

1.3 Conceptos elementales de probabilidad

2


CAPÍTULO 1: INTRODUCCIÓN Y CONCEPTOS FUNDAMENTALES

1.1 Conceptos fundamentales de estadística• Situaciones deterministas y aleatorias. • El modelo matemático. Concepto de probabilidad y estadística. • Aplicaciones a las Ciencias Experimentales• ¿Cómo se resuelve un problema utilizando la Estadística? Ejemplo:

Leyes de Mendel.• Población y muestra. Cómo seleccionar una muestra aleatoria.

3


CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA

Situaciones deterministas y aleatorias

¿Podrías predecir con certeza qué ocurrirá con el agua cuando alcance los 100º C?

¿Sabrías determinar el tiempo que le costará a un caballito de un tiovivo dar una vuelta completa?

¿Podrías predecir el sexo de un niño en el primer mes de gestación?

Se está experimentando una nueva planta de tomate ¿podrías determinar el número de frutos que dará cada una de las plantas en una temporada?

4




Los fenómenos determinísticos son aquellos tales que, dado el estado inicial y las condiciones de realización, se puede predecir el estado final.

Los fenómenos aleatorios o estocásticos son aquellos tales que, dado el estado inicial y las condiciones de realización, no se puede predecir el estado final.

5




Para los fenómenos determinísticos es posible encontrar modelos que los representen de forma exacta dado un conjunto de condiciones iniciales a la realización del experimento.

EL CÁLCULO DE PROBABILIDADES Y LA ESTADÍSTICA MATEMÁTICA SON LAS CIENCIAS QUE ESTUDIAN LOS FENÓMENOS ALEATORIOS.

Para los fenómenos aleatorios o estocásticos es necesario especificar en el modelo, de alguna forma, la incertidumbre de la aparición de los resultados.

tiempo velocidad recorrido espacio

6



El modelo matemático: Concepto de probabilidad

¿Cuál es la probabilidad de acertar 6 en la Lotería Primitiva?

MODELO MATEMÁTICO: El concepto de probabilidad.

El Cálculo de Probabilidades es la disciplina que permite estudiar las posibilidades de realización de los fenómenos aleatorios.

7



El modelo matemático: Concepto de Estadística

¿Qué experimento realizarías para poder predecir el número esperado de tomates que dará cada una de las plantas?

MODELO MATEMÁTICO: Concepto de Estadística.

La Estadística es la rama de las matemáticas que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en

el cálculo de probabilidades.

¿Con qué seguridad puedes realizar la predicción anterior?

8



Aplicaciones a las Ciencias Experimentales

• Determinar el contenido de una determinada sustancia.Determinar la cantidad de ion

nitrato en una muestra

concreta de agua

Estudiar el rendimiento de un fertilizante de plantas de tomate.

• Estudiar el rendimiento de una determinada sustancia. Comparar su efecto con otros existentes.

Determinar la concentración de anticuerpos de inmunoglobulina M en suero de varones.

Comparar el efecto de un nuevo medicamento con otros existentes. 9




• Comprobar la eficacia de un instrumento de medidaComparar un método nuevo para la determinación de la demanda de oxígeno en aguas residuales con el método estándar de sales de mercurio.

Comparar la concentración de albúmina en suero sanguíneo de los individuos sanos con los que padecen una determinada enfermedad.

• Comparar los resultados de un experimento realizado en diferentes condiciones.

10




• Reconocimiento de pautas.Determinar si un derramamiento de aceite proviene de una fuente concreta.

En una plantación en la que se ha detectado la aparición de unos determinados parásitos se desea estimar el efecto en la producción.

• Estudiar el alcance de una enfermedad o de una medida para prevenirla.

Análisis del efecto de una campaña publicitaria para prevenir el cáncer de próstata.

11



Ejemplo: Leyes de Mendel

Mendel

(1865) estudió

el cruce de una variedad de guisantes amarillos y otra de verdes. Observó

que:

•

Los guisantes verdes al reproducirse dan siempre verdes.•

Los amarillos dan unos sólo amarillos y otros amarillos

y verdes, formando los primeros una raza pura.•

Si se cruzan verdes con amarillos de raza pura se

obtiene una primera raza de híbridos amarillos.•

Si los híbridos amarillos se cruzan entre sí, se obtiene

guisantes amarillos y verdes ¿se puede establecer en qué

proporción?

12




Recogida de datos

Se seleccionan al azar 10 plantas de guisantes en la plantación disponible o se usan 10 plantas de laboratorio.Se cuenta cuántos guisantes amarillos y cuántos verdes hay en cada una de las plantas.

TEORÍA DE MUESTREO y DISEÑO DE EXPERIMENTOS

13




Descripción

Se calcula la proporción de guisantes amarillos y verdes en cada una de las plantas y se presentan en una tabla de frecuencias.

ESTADÍSTICA DESCRIPTIVA o ANÁLISIS EXPLORATORIO DE DATOS

14




Amarillos Verdes

CantidadCantidadPlanta

Prop. Prop.Totales

12345

789

10

6

25321470212032445044

.69

.82

.74

.72

.62

.77.71.83.78.71

1175

271361391418

.31

.18.26.28.38.23.29.17.22.29

36391997342645536462

/10 = 0.7415




Análisis estadístico

Se observa que en cada una de las plantas la proporción de guisantes amarillos es próxima a 3/4.

La proporción promedio de guisantes amarillos por planta es de 0.74.

Se debe contrastar, utilizando herramientas estadísticas si este valor se puede considerar igual a 0.75.

ESTIMACIÓN

CONTRASTE DE HIPÓTESIS16



Población y muestra

Se entiende por población el conjunto de todos los elementos de interés en la realización de un estudio estadístico.En un estudio de las características antropométricas de jóvenes aragoneses, la población es el conjunto de alumnos entre 13 y 16 años matriculados en alguno de los institutos o colegios de la población aragonesa.

El conjunto de mujeres españolas mayores de 18 años en un estudio sobre la incidencia del cáncer de mama.El conjunto de todos los árboles de una plantación en el estudio de la eficiencia de un nuevo fertilizante.

17



Población y muestra

Una muestra es un subconjunto representativo de la población, es decir, un subconjunto que refleja las características esenciales de la población de la cual se obtuvo.

En el estudio de las características antropométricas de los jóvenes aragoneses, la muestra se ha obtenido seleccionando

aleatoriamente

un subconjunto de colegios

e institutos y tomando medidas sobre cada uno de los alumnos de los colegios e institutos seleccionados.

Una muestra aleatoria de árboles se obtiene seleccionando uno al azar entre los cinco primeros y, a continuación, uno de cada cinco.

18



Cómo seleccionar una muestra aleatoria

Es importante garantizar que la muestra se ha seleccionado aleatoriamente. De cómo seleccionar una muestra aleatoria se encarga la teoría de muestreo.

• Scheaffer, R.L.; Mendenhall, W.; Ott, L. (1986) Elementos de muestreo. Grupo Editorial Iberoamérica (un texto sencillo con buenos comentarios desde el punto de vista práctico)

• Lohr, S. L. (2000) Muestreo: Diseño y análisis. International Thompson Editores. (un texto de un nivel más alto que el anterior muy claro y muy práctico)

19



ESTADÍSTICA DESCRIPTIVA

Resumen de información:numérica y gráfica

PROBABILIDAD+INFERENCIA ESTADÍSTICA

Problemareal

Modelo

ConclusionesTeoría probabilidad

espe

cifica

do

no especificado

Recogida datosInferencia estadística

20


En esta práctica aprenderemos a:

• Acceder al programa SPSS.

• Crear ficheros de datos.

• Abrir ficheros de datos existentes.

PRÁCTICA 1: INTRODUCCIÓN AL PROGRAMA ESTADÍSTICO SPSS

21



22


CAPÍTULO 1: ESTADÍSTICA DESCRIPTIVA

1.2 Estadística descriptiva• Introducción.• Unidad estadística o individuo. Caracteres y modalidades. Tipos de

variables estadísticas. • Representación de variables.• Medidas de una distribución de frecuencias. Medidas de posición:

media, mediana y moda. Cuantiles. Propiedades de las medidas.• Medidas de dispersión: recorridos y varianza. El coeficiente de

variación. • Medidas de forma: asimetría y curtosis.• El diagrama de caja.• Representación de variables multidimensionales.

23



Introducción

La Estadística Descriptiva se encarga de acumular información, presentarla, criticarla, analizarla y sintetizarla. Pretende descubrir las regularidades o características existentes en un conjunto de datos.

La Estadística Descriptiva proporciona:

• Métodos para detectar valores atípicos o errores en la recogida de la información.

• Herramientas para presentar la información.• Medidas para resumir la información.

24



Unidad estadística o individuo

Se denomina unidad estadística o individuo a cada uno de los componentes de la población en estudio.En un estudio de las características antropométricas de los jóvenes aragoneses se han considerado

estudiantes

entre 13 y 16 años; éstos son los individuos de la poblaciónCada uno de los árboles de una plantación es un individuo en el estudio de la eficiencia de un nuevo fertilizante.Cada porción de agua de un río es un individuo en el estudio del contenido en lindano.

25



Caracteres y modalidades

Cada uno de los individuos de la población puede describirse según una o varias características que denominaremos caracteres o variables.De cada alumno se han recogido las siguientes características: peso, talla, cantidad de grasa en los pliegues cutáneos del bíceps, tríceps, subescapular, suprailíaco, abdomen y muslo, sexo y edad. De cada árbol se ha medido la altura, el volumen, el tipo de suelo en el que se encuentra, el número de frutos y su tamaño medio.

26



Caracteres y modalidades

Cada una de las variables en estudio puede presentar una o varias categorías denominadas modalidades o valores que toma la variable.

La variable edad en este estudio toma cuatro valores distintos 13, 14, 15 y 16.

La variable altura puede tomar muchos valores distintos. Razonablemente se espera que dichos valores estén entre 1.50 y 2.00 m.

Las modalidades de la variable sexo son hombre y mujer.

El rango de valores dependerá de la población en estudio. 27



Tipos de variables estadísticas

Nominales, si sus diversas modalidades no se pueden ordenar.Cualitativas, si sus diversas

modalidades no son asociables a un número real. Ordinales, si sus modalidades se

pueden ordenar.

La variable sexo es una variable cualitativa nominal El grado de satisfacción en el trato con el personal sanitario es una variable cualitativa ordinal. Sus modalidades podrían ser: muy satisfecho, satisfecho, poco satisfecho.

28




Discretas, si toma valores en el conjunto de los números enteros.Cuantitativas, si cada

modalidad tiene asociado un número. Continuas, si sus valores posibles

están en un intervalo.

El número de frutos es una variable cuantitativa discreta. Toma valores entre 0 y 100, por ejemplo.

La variable altura es cuantitativa continua. Puede tomar cualquier valor entre, por ejemplo, 150 y 200 cm.

29




Variablecuantitativa

discreta

Variablescuantitativas

continuas

Variablecualitativa

nominal

30



Representación de variables estadísticas

Para la representación de las variables estadísticas se utilizan las tablas de frecuenciasPara la representación de las variables estadísticas se utilizan las tablas de frecuencias y las representaciones gráficas.

Diagrama de sectores

Chicas

Chicos

Variables cualitativas

Sexo

775 51,6 51,6 51,6726 48,4 48,4 100,0

1501 100,0 100,0

ChicosChicasTotal

VálidosFrecuencia Porcentaje

Porcentajeválido

Porcentajeacumulado

31




Diagrama de barras

Edad

Edad

16151413

Porc

enta

je

30

20

10

0

Edad

387 25,8 25,8 25,8368 24,5 24,5 50,3371 24,7 24,7 75,0375 25,0 25,0 100,0

1501 100,0 100,0

13141516Total

VálidosFrecuenciaPorcentaje

Porcentajeválido

Porcentajeacumulado

Variables cuantitativas con muchas observaciones y pocos valores distintos.

32




Histograma

Peso agrupado

11010090807060504030

Peso agrupado

Frec

uenc

ia

600

500

400

300

200

100

0

Peso agrupado

24 1,6 1,6244 16,3 17,9551 36,7 54,6440 29,3 83,9170 11,3 95,255 3,7 98,913 ,9 99,73 ,2 99,91 ,1 100,0

1501 100,0

menor que 3535-4545-5555-6565-7575-8585-9595-105mayor que 105Total

VálidosFrecuencia Porcentaje

Porcentajeacumulado

Valores agrupados en intervalos

Variables cuantitativas con muchas observaciones y muchos valores distintos.

33



¿Cómo se determinan las clases?

Se recomienda que el número de clases esté entre 5 y 15. Habrá más clases cuanto mayor sea el número de observaciones.

El rango de valores considerados debe cubrir todas las observaciones y que la primera y última clases no queden vacías. Así, el primer intervalo tiene que contener al mínimo valor observado y el último, al máximo.

Los intervalos pueden tener idéntica o distinta amplitud. SPSS no contempla la posibilidad de dibujar histogramas con clases de distinta amplitud.

34




El mínimo peso observado es de 29 kg

y el máximo de 107.5 kg. Por comodidad, se han fijado nueve intervalos, cuyos extremos son números enteros que van de 25 a 110 kg. El número de observaciones es 1501, lo que permite fijar un gran número de clases.

Se han medido las concentraciones de succinato deshidrogenasa

en una muestra de células de individuos

sanos obteniéndose los siguientes resultados: 2.37, 3.45, 1.91, 4.02, 1.42, 3.78, 2.51, 3.13, 2.85, 1.98.

35




Concentración de sucinato

4,003,503,002,502,001,50


Frec

uenc

ia

2,5

2,0

1,5

1,0

,5

0,0


4,103,803,503,202,902,602,302,001,701,40


Frec

uenc

ia

2,5

2,0

1,5

1,0

,5

0,0

Si el estudio consta de muy pocas observaciones no se considerará ni el uso de tablas ni las representación gráfica de las variables.

36



Medidas de una distribución de frecuencias

Son medidas para resumir la información contenida en los datos y cuya interpretación permite detectar ciertas regularidades en el comportamiento de la población.

Son de tres tipos:• Medidas de tendencia central o de posición: dan idea de en

torno a qué valores se encuentra la población• Medidas de dispersión: miden la separación de los datos

respecto a la medida de posición.• Medidas de forma: Estudian la simetría y el apuntamiento de la

distribución.37



Medidas de posición: media, mediana y modaLa media aritmética de la distribución es la suma de todas las observaciones dividida por el número de individuos en la población.

La cantidad media de albúmina por litro es:(42.5 + 41.6 + 42.1 + 41.9 + 41.1 + 42.2)/6 = 41.9 gr. por litro

La edad media de los estudiantes es:(13·387 + 14·368 + 15·371 + 16·375)/1501 =14.5 años

Una muestra de suero sanguíneo de un individuo sano debe contener 42 gramos de albúmina por litro. Se ha medido en seis individuos sanos: 42.5, 41.6, 42.1, 41.9, 41.1, 42.2

38



Medidas de posición: media, mediana y moda

A partir de las tablas con los datos agrupados, la media se calcula utilizando como valores de la variable los puntos medios de los intervalos.

El peso medio de los estudiantes es:

30·24 + 40·244 + 50·551 + 60·440 + 70·170 + 80·55 + 90·13 + 100·3 + 110·11501

=54.83 kilos

Observa que el cálculo de la media sólo tiene sentido para variables cuantitativas.

39




Una vez ordenadas las observaciones de menor a mayor, la mediana es el valor que divide a la población en dos mitades.

Una vez ordenadas las concentraciones de albúmina:41.1, 41.6, 41.9, 42.1, 42.2, 42.5.

La mediana es: 41.9 y 42.1 gr

por litro, es decir, el 50% de los individuos tiene una concentración de albúmina menor o igual que 41.9 gr/l (ó 42.1) y el otro 50% mayor o igual.La edad mediana de los estudiantes es 14 años. El 50% tiene 14 años o menos (exactamente el 50.3%) y resto más.

40




El peso mediano de los estudiantes es 53.9 kg., es decir, el 50% de los estudiantes pesan menos de 53.9 kg. y el resto más.En la tabla de datos agrupados se observa que el valor mediano debe ser una valor entre 45 y 55 kg

(intervalo

mediano). En particular, se tiene que el 54.6% de los estudiantes pesan menos de 55 kg.

Observa que el cálculo de la mediana sólo requiere que las modalidades se puedan ordenar, por tanto, su cálculo tiene sentido

tanto para variables cuantitativas como cualitativas ordinales.41




La moda es el valor más frecuente.

La edad más frecuente es 13 años, aunque en este ejemplo se observa que la muestra se ha seleccionado tratando de conseguir grupos de edad del mismo tamaño.

El peso modal está entre los 45 y 55 kilos. A este intervalo se le denomina intervalo modal.

Cuando la variable toma muchos valores distintos la moda sólo tiene sentido si se obtiene a partir de los datos agrupados.

42




Observa que el cálculo de la moda sólo utiliza el valor de las frecuencias, por tanto, su cálculo tiene sentido

para cualquier tipo de variable.

En la población de estudiantes aragoneses son algo más frecuentes los chicos que las chicas, 51.6% frente al 48.4%, aunque la diferencia es muy pequeña.

43


Peso agrupado

11010090807060504030

Peso agrupadoFr

ecue

ncia

600

500

400

300

200

100

0



Media = 54.83 kgMediana = 53.9 kg

Intervalo modal

44



Medidas de posición: cuantiles

Un cuantil de orden

es el valor de la variable por debajo del cual se encuentra el ·100% de la población.Casos especiales de cuantiles son los percentiles, que dividen a la población en 100 partes iguales, y los cuartiles, que dividen a la población en 4 partes iguales.

Así, el percentil de orden 1 deja por debajo al 1% de la población; el de orden 15, al 15% y el 80 al 80%.

El primer cuartil deja por debajo al 25% de la población; el segundo al 50% (coincide con la mediana) y el tercero, al 75%.

45




Estadísticos

Peso1501

042,20045,90048,90051,20053,90056,60059,20062,96068,500

VálidosPerdidos

N

102030405060708090

Percentiles

En la población de estudiantes aragoneses se tiene que el 10% pesan menos de 42.2 kg.; el 20% menos de 45.9 kg.,...,el 50% menos de 53.9 kg., el 70% menos de 59.2 kg.,..., el 90% menos de 68.5 kg. y el 10% restante más de 68.5 kg.

46




Peso agrupado

11010090807060504030

Peso agrupadoFr

ecue

ncia

600

500

400

300

200

100

0

Percentil 10 = 42.2 kg

Suma de las áreas de los rectángulos = 10%

47



Medidas de posición: propiedades

La media es sensible a valores extremos.La concentración de albúmina media es 41.9 gr. por l.

41.1 41.6 41.9 42.1

42.2

42.5 46.5

42.6

Si le añadimos una observación igual a 46.5, la media pasa a ser 42.6.

La mediana no lo es.

En el primer caso, la mediana es 41.9 gramos por litro y en el segundo pasa a ser 42.1.

48



Medidas de posición: propiedades

Tanto la media como la mediana pueden no representar bien el comportamiento de la variable.

41.1 41.6 41.9 42.1

42.2

42.5 46.2

46.5

46.4

46.3

43.7

¿Podrías decir qué está ocurriendo con estas observaciones?

49



Medidas de dispersión: recorridos y varianza

El recorrido, rango o amplitud es la diferencia entre el mayor y el menor valor de la variable.

Un valor pequeño del recorrido indica poca dispersión, puesto que la variable toma valores en un intervalo pequeño. Sin embargo, un valor grande puede indicar mucha dispersión o la existencia de valores extremos.La concentración de albúmina máxima observada es de 42.5 gr/l y la mínima de 41.1 gr/l siendo la media de 41.9 gr/l. El recorrido es de 42.5 -

41.1 = 1.4 gr/l indicando

poca dispersión en los datos.

41.1

41.6

41.9

42.1

42.2

42.5

50




En otra muestra la concentraciones de albúmina han sido41.1, 41.6, 49.1, 42.1, 42.2, 42.5.

La media aumenta a 43.1 gr/l, afectada por el valor máximo observado y la mediana es 42.1 gr/l, que está menos afectada por los valores extremos.El valor del recorrido es 49.1 -

41.1 = 8 gr/l indicando

mucha dispersión o existencia de valores extremos.

41.1

41.6

49.142.1 42.5

42.2

51




En una tercera muestra la concentraciones de albúmina observadas han sido

41.1, 42.6, 49.1, 45.1, 47.2, 43.5.

Ahora la media es 44.8 gr/l y la mediana es 43.5 gr/l.El valor del recorrido es 49.1 -

41.1 = 8 gr/l indicando

mucha dispersión o existencia de valores extremos.

41.1 42.6 49.145.1 47.243.5

52




El recorrido intercuartílico es la diferencia entre tercer y primer cuartiles.

Un valor pequeño del recorrido intercuartílico indica poca dispersión. Sin embargo, un valor grande puede indicar mucha dispersión.Como los cuartiles están poco afectados por la existencia de valores extremos, un recorrido intercuartílico pequeño frente a un recorrido grande indicará la existencia de valores extremos. Si ambos son grandes, podemos asegurar que existe dispersión.

53




RI = 42.2 -

41.6 = 0.6 gr/l., que indica poca dispersión. (R=1.4)

RI = 47.2 -

42.6 = 4.6 gr/l, un valor alto, y R=8 que indica que hay dispersión.

RI = 42.5 -

41.6 = 0.9 gr/l, pequeño y R=8, lo que indica la existencia de valores extremos.

41.1

41.6

41.9

42.1

42.2

42.5

41.1

41.6

49.142.1 42.5

42.2

41.1 42.6 49.145.1 47.243.5 54


41.1 41.6 42.1 42.2 42.541.9

42.5-41.9=0.6

41.6-41.9=-0.3

41.9-41.9=0

42.1-41.9=0.2

42.2-41.9=0.3



La varianza es la media las distancias de las observaciones a la media elevadas al cuadrado.•

Calculamos las distancias de las cantidades de albúmina a su media 41.9 en el primer ejemplo:

41.1-41.9=-0.855




•

¿Qué ocurre si sumamos las distancias? (-

0.8) + (-

0.3) + 0 + 0.2 + 0.3 + 0.6 = 0

Al compensarse las distancias positivas con las negativas la suma de las distancias no proporciona una

buena medida de dispersión.

La suma de las distancias de las observaciones a la media es siempre cero, por ello, se dice que la media es

el centro de gravedad de la distribución.

56




•

¿Cómo se podrían medir las distancias eliminando el efecto del signo?

(-

0.8)2

+ (-

0.3)2

+ 0 2

+ 0.2 2

+ 0.3 2

+ 0.6 2

= 1.22

•

La varianza es, por tanto, 1.22/6=0.203 (gr/l)2

En la segunda muestra el valor de la varianza es 7.4 (gr/l) 2.

En la tercera muestra el valor de la varianza es también 7.4 (gr/l) 2.

57




El inconveniente de la varianza es que no se mide en las mismas unidades de medida que la variable y, por tanto, es difícil de

interpretar. La solución consiste en definir la desviación típica o desviación estándar como la raíz cuadrada de la varianza.

En la primera muestra el valor de la desviación típica es 0.45 gr/l, un valor pequeño que indica poca dispersión.

En la segunda y tercera muestras el valor de la varianza es 2.7 gr/l, un valor alto que indica dispersión o existencia de valores extremos.

58




Ninguna de las tres medidas de dispersión presentadas permite, por sí sola, determinar si la variable está dispersa o no. Se

recomienda el uso de las tres medidas simultáneamente para poder describir esta característica de la variable.

Además, el histograma o el diagrama de barras, nos permitirán determinar la existencia o no de dispersión y la

posible existencia de valores atípicos.

Si la suma de los cuadrados de las distancias se dividen por n-1, la medida resultante se denomina cuasivarianza. Y su raíz cuadrada es la cuasidesviación típica. El interés de estas medidas se verá en el capítulo de inferencia.

59




Talla

190,0

185,0

180,0

175,0

170,0

165,0

160,0

155,0

150,0

145,0

140,0

135,0

Talla

Frec

uenc

ia

200

100

0

Descriptivos

162,9651162,7000

80,5988,9776133,80193,1059,30

11,8000

MediaMedianaVarianzaDesv. típ.MínimoMáximoRangoAmplitud intercuartil

Estadístico

60



Medidas de dispersión: el coeficiente de variación

Las medidas anteriores tienen las unidades de las variables y, por tanto, dependen de la magnitud de las mismas. Para evitar esta dependencia se define el coeficiente de variación como el cociente entre la desviación típica y la media.

El coeficiente de variación es adimensional y permite comparar la dispersión de poblaciones distintas.

Sólo se define para variables con valores positivos.

61




El peso de las chicas es de 52.66 kg. con una desviación típica de 8.94 kg. y el de los chicos de 56.91 kg. con una desviación típica de 11.91 kg. Para comparar la dispersión entre las dos poblaciones calculamos el coeficiente de variación:

0.20956.9111.91CVChicos 0.170

52.668.94CVChicas

62




Peso

105

100

9590858075706560555045403530

Chicos

Frec

uenc

ia

120

100

80

60

40

20

0

Peso

105

100

9590858075706560555045403530

Chicas

Frec

uenc

ia

120

100

80

60

40

20

0

63



Medidas de forma: asimetría y curtosisPara estudiar la simetría o asimetría de una distribución se utiliza el eje que pasa por la media aritmética.

Una forma de medir la asimetría de una distribución de frecuencias es mediante el coeficiente de Fisher, aunque esta característica suele evidenciarse en su representación gráfica.

Peso agrupado

11010090807060504030

Peso agrupadoFr

ecue

ncia

600

500

400

300

200

100

0

Media = 54.83 kg

64



Medidas de forma: asimetría y curtosis

Distribución simétrica

Coef. asimetría=0

Distribución asimétrica positiva Coef. asimetría>0

Distribución asimétrica negativa Coef. asimetría<0

65




Cantidad de grasa en el abdomen

464034282216104

Cantidad de grasa en el abdomen

Frec

uenc

ia

200

150

100

50

0

Distribución campaneiforme y

asimétrica positiva.

Talla

190,0

185,0

180,0

175,0

170,0

165,0

160,0

155,0

150,0

145,0

140,0

135,0

Talla

Frec

uenc

ia

200

100

0

Distribución campaneiforme

simétrica.

66




Las medidas de apuntamiento o de curtosis se aplican a distribuciones en forma de campana, es decir, unimodales, simétricas o con ligera asimetría.

El apuntamiento se mide con respecto a una curva de referencia, la curva normal, que es simétrica, tiene forma de campana, la mayoría de los valores están alrededor de la media y los valores alejados de la media son poco numerosos.

Las medidas de curtosis tratan de estudiar la distribución de frecuencias en la zona central. La mayor o menor concentración de frecuencias alrededor de la media dará lugar a distribuciones más o menos apuntadas.

67




Media = Mediana = Moda

CURVA NORMAL

68




Talla

190185180175170165160155150145140135

Talla

Frec

uenc

ia

200

100

0

Aproximadamente, igual de apuntada

que la normal. Mesocúrtica (curtosis = 0)

Más apuntada que la normal.

Leptocúrtica (curtosis > 0)

Cantidad de grasa en el subescapular

4240383634323028262422201816141210864

Cantidad de grasa en el subescapular

Frec

uenc

ia

400

300

200

100

0

Menos apuntada que la normal.

Platicúrtica (curtosis < 0)

Cantidad de grasa en el tríceps

44403632282420161284

Cantidad de grasa en el tríceps

Frec

uenc

ia

160

140

120

100

80

60

40

20

0

69



El diagrama de cajaEl diagrama de caja es una representación gráfica muy útil que combina medidas de posición y dispersión y que nos ayudará también a detectar la existencia de valores extremos.

1501N =

Talla

200

190

180

170

160

150

140

130

917

924

635599110013087891068768740696

Valor mínimo

Valor máximo

Extremos entre los que se espera encontrar los valores de la variable

Cuartiles, la caja contiene al 50% de las observaciones

70



El diagrama de caja

El diagrama de caja representa el recorrido y el recorrido intercuartílico, así como los límites entre los que se espera

encontrar a la mayor parte de las observaciones. Los valores que quedan fuera de los límites se representan con un círculo si

quedan, relativamente cerca de lo que se considera “normal” y con un asterisco si se pueden considerar datos atípicos.

Ante la existencia de valores extremos se debe estudiar su procedencia: pueden ser errores de transcripción a la hora de

almacenar los datos, individuos que no pertenecen a la población en estudio o simplemente datos atípicos.

71


666N =

MUESTRA3MUESTRA2MUESTRA1

50

48

46

44

42

40

3


El diagrama de caja

Mucha dispersión

Aparecen valores extremos

Poca dispersión 72



• Construir tablas de frecuencias y representaciones gráficas.• Recodificar las variables para poder construir tablas con los

datos agrupados. • Calcular las medidas de posición, dispersión y forma,

interpretando los resultados.• Detectar valores extremos.• Analizar subgrupos.• Eliminar casos.

PRÁCTICA 2 y 3: ESTADÍSTICA DESCRIPTIVA

73



Representación de dos o más variables: Tablas

19 4 1 134 72 29 9138 160 149 10474 97 126 14316 27 49 785 6 14 301 2 2 8

1 2 1

menor que 3535-4545-5555-6565-7575-8585-9595-105mayor que 105

Pesoagrupado

13 14 15 16Edad

Tabla bidimensional de frecuencias absolutas74




Tabla bidimensional de frecuencias relativas

1,3% ,3% ,1% 8,9% 4,8% 1,9% ,6%9,2% 10,7% 9,9% 6,9%4,9% 6,5% 8,4% 9,5%1,1% 1,8% 3,3% 5,2%

,3% ,4% ,9% 2,0%,1% ,1% ,1% ,5%

,1% ,1% ,1%


Pesoagrupado

% tabla13

% tabla14

% tabla15

% tabla16

Edad

75




Tabla bidimensional de frecuencias relativas por filas

% de Peso agrupado

79.2% 16.7% 4.2% 100.0%54.9% 29.5% 11.9% 3.7% 100.0%25.0% 29.0% 27.0% 18.9% 100.0%16.8% 22.0% 28.6% 32.5% 100.0%

9.4% 15.9% 28.8% 45.9% 100.0%9.1% 10.9% 25.5% 54.5% 100.0%7.7% 15.4% 15.4% 61.5% 100.0%

33.3% 66.7% 100.0%100.0% 100.0%

25.8% 24.5% 24.7% 25.0% 100.0%

Menor que 3535-4545-5555-6565-7575-8585-9595-105Mayor que 105

Pesoagrupado

Total

13.00 14.00 15.00 16.00Edad

Total

76




Tabla bidimensional de frecuencias relativas por columnas

% de Edad

4.9% 1.1% .3% 1.6%34.6% 19.6% 7.8% 2.4% 16.3%35.7% 43.5% 40.2% 27.7% 36.7%19.1% 26.4% 34.0% 38.1% 29.3%4.1% 7.3% 13.2% 20.8% 11.3%1.3% 1.6% 3.8% 8.0% 3.7%.3% .5% .5% 2.1% .9%

.3% .5% .2%.3% .1%

100.0% 100.0% 100.0% 100.0% 100.0%

Menor que 3535-4545-5555-6565-7575-8585-9595-105Mayor que 105

Pesoagrupado

Total

13.00 14.00 15.00 16.00Edad

Total

77



Gráficos para variables cualitativas o cuantitativas agrupadas

Gráficos de barras bidimensional

Edad

16.0015.0014.0013.00

Frec

uenc

ia

200

100

0

Peso agrupado

Menor que 35

35-45

45-55

55-65

65-75

75-85

85-95

95-105

Mayor que 105

Edad

16.0015.0014.0013.00

Frec

uenc

ia

500

400

300

200

100

0

Peso agrupado

Mayor que 105

95-105

85-95

75-85

65-75

55-65

45-55

35-45

Menor que 35

78




Paradoja de Simpson

Global Solici- tudes

Admi- siones

%

Mujeres 2000 1136 56.8

Hombres 2000 955 47.7

Letras Solici- tudes

Admi- siones

%

Mujeres 800 560 70

Hombres 300 225 75

Ingenie-ría

Solici- tudes

Admi- siones

%

Mujeres 200 36 18

Hombres 700 140 20

Econó-micas

Solici- tudes

Admi- siones

%

Mujeres 1000 540 54

Hombres 1000 590 59

79




Tabla tridimensional de frecuencias absolutas

10 9 3 1 1 75 59 35 37 10 19 1 869 69 67 93 46 103 34 7037 37 59 38 73 53 74 6912 4 17 10 33 16 63 15

2 3 6 11 3 25 5 1 1 1 2 6 2 1 2 1


Pesoagrupado

RecuentoChicos

RecuentoChicas

Sexo13

RecuentoChicos

RecuentoChicas

Sexo14

RecuentoChicos

RecuentoChicas

Sexo15

RecuentoChicos

RecuentoChicas

Sexo16

Edad

80




Tablas bidimensionales según los valores de una tercera variable

Sexo Chicos

10 3 75 35 10 169 67 46 3437 59 73 7412 17 33 63

2 6 11 25 1 2 6 1 2 1


Pesoagrupado

13 14 15 16Edad

Sexo Chicas

9 1 1 59 37 19 869 93 103 7037 38 53 69

4 10 16 153 3 51 1 2


Pesoagrupado

13 14 15 16Edad

81



Representación de dos o más variables: Diagrama de dispersión

Diagrama de dispersión o nube de puntos

Talla

200190180170160150140130

Peso

120

100

80

60

40

20

Talla

200190180170160150140130

Peso

120

100

80

60

40

20

Sexo

Chicas

Chicos

82



Medidas de asociación

La medida de asociación lineal más simple entre dos variables cuantitativas es la covarianza.

X

3210-1-2-3

Y

6

4

2

0

-2

-4

X

3210-1-2-3

Y

4

3

2

1

0

-1

-2

-3

-4

0s XY 0s XY

83




X

3210-1-2-3

Y

3

2

1

0

-1

-2

-3

0sXY X

3210-1-2-3

Y4

1

0

-1

-2

-3

-4

-5

-6

0sXY Por definición la covarianza entre X e Y es igual a la covarianza entre Y y X.

YXXY ss 84




El coeficiente de correlación lineal es:

YX

XYXY ss

sr

• Es un valor entre -1 y 1.

• Si existe una relación lineal exacta entre X e Y, Y = aX + b, el coeficiente de correlación valdrá 1 si a > 0 y -1, si a < 0.

• Cuanto más próximo a 1 o -1 se encuentre el coeficiente de correlación lineal, más fuerte será la relación lineal entre las variables. Si está próximo a 0, no existe relación lineal entre las variables.

85



Bibliografía

• Martín Pliego, F. J. (1994) Introducción a la Estadística Económica y Empresarial. (Teoría y práctica). Editorial AC. (Aunque es un libro dedicado a la economía y a las ciencias empresariales en lo que se refiere a los ejemplos que utiliza, los conceptos estadísticos están claramente ordenados y definidos.)

• Lacruz, B.; Pérez-Palomares, A.; Del Pozo, L.; Sánchez- Valverde, B. (1999) Estadística Elemental con SPSS. Universidad de Zaragoza. (Este libro contiene varias colecciones de datos, la mayoría de ellas han sido analizadas desde el punto de vista de la Estadística Descriptiva, por lo que proporciona una visión práctica de ésta.)

86



• Construir tablas de frecuencias con dos o más variables.• Representar nubes de puntos. • Calcular las medidas de asociación entre dos variables: la

covarianza y el coeficiente de correlación.

PRÁCTICA 4: ESTADÍSTICA DESCRIPTIVA

87


CONCEPTOS ELEMENTALES DE PROBABILIDAD

88


CAPÍTULO 1: CONCEPTOS ELEMENTALES DE PROBABILIDAD

1.3 Conceptos elementales de probabilidad• Introducción. Concepto de probabilidad. Propiedades.• Probabilidad condicionada. Sucesos independientes.• Teorema de la probabilidad total. Teorema de Bayes. • Variables aleatorias.• Distribuciones discretas de probabilidad: binomial, hipergeométrica y Poisson.• Distribuciones continuas de probabilidad: Normal.• Distribuciones multivariantes: multinomial y Normal• Distribuciones relacionadas con la normal: chi-cuadrado, F de Snedecor y t de

Student.• Otras distribuciones discretas: geométrica o de Pascal y binomial negativa.• Otras distribuciones continuas: lognormal, uniforme, exponencial, beta, gamma

y Weibull. 89



Introducción

La Estadística es la rama de las matemáticas que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de probabilidades.

El Cálculo de Probabilidades es la disciplina que permite estudiar las posibilidades de realización de los fenómenos aleatorios.

90



Concepto de probabilidad• Un experimento aleatorio es aquél en el que, con la información que tenemos, no podemos predecir con seguridad el resultado. • El conjunto de todos los resultados se llama espacio muestral.• Llamaremos suceso a aquel conjunto del espacio muestral del que se puede afirmar si ha sucedido o no, una vez realizado el experimento.• Los posibles resultados de un experimento aleatorio se denominan “sucesos elementales”. La unión de sucesos elementales da lugar a “sucesos compuestos”.

• Experimento: Sacar una carta de una baraja española• Suceso elemental: As de copas• Suceso compuesto: Copas

91



Concepto de probabilidadEl cálculo de probabilidades se encarga de obtener las probabilidades de sucesos compuestos a partir del conocimiento de las probabilidades de los sucesos elementales y unas reglas de cálculo.Interpretación de la probabilidad: si el experimento se puede repetir un gran número de veces

probabilidad~proporción de ocurrenciaEjemplo: Se sacan 4 cartas de una baraja española. La probabilidad de que las 4 sean de distinto palo es

1000/9139=0.10942Si se realiza el experimento un número grande de veces, un 11% de las veces (aproximadamente) las cartas serán de distintos palos

92


CONCEPTOS ELEMENTALES DE PROBABILIDADReglas del cálculo de probabilidades

• Suceso seguro (ocurre siempre) = unión de todos los posibles resultados. Coincide con el espacio muestral.

“Sale una carta”• Suceso imposible (no puede ocurrir) “Sale 13 de bastos”• Unión de sucesos (ocurre al menos uno de ellos)

A=“Sale rey” B =“Sale copas” A B =“Sale rey o copas”

• Intersección de sucesos (ocurren todos ellos) A=“Sale rey” B =“Sale copas” A B =“Sale rey de copas”

• Suceso complementario o contrario. A=“Sale rey”, =“No sale rey”

A

• A B (si ocurre A, entonces ocurre B) A=“Sale rey”B=“Sale figura”

93



Reglas del cálculo de probabilidades

1p(A)0 • La probabilidad de cualquier suceso está entre 0 y 1.

1)p( • La probabilidad del suceso seguro es 1.

• La probabilidad de que ocurra un suceso A o un suceso B, siendo ambos excluyentes, es la suma de las probabilidades.

BAsip(B)p(A)B)p(A

• Notación: p(A) es la probabilidad de que ocurra el suceso A.

94


CONCEPTOS ELEMENTALES DE PROBABILIDADPropiedades (conclusiones de las reglas)

• Probabilidad del complementario p(A)1)Ap( • Probabilidad del suceso imposible 0)p( • La probabilidad de que ocurra un suceso A o un suceso B, si no

son mutuamente excluyentes, es la suma de las probabilidades de A y B menos la probabilidad de que ocurran los dos a la vez.

B)p(A-p(B)p(A)B)p(A

A = rey, B = copas BA

• Si el suceso A está incluido en B entonces p(B)p(A)

95


CONCEPTOS ELEMENTALES DE PROBABILIDADModelos de Probabilidad

Modelo clásico: número finito de resultados equiprobables (cartas de la baraja)

posiblescasosfavorablescasos

)cardinal()cardinal(Ap(A)

Modelo geométrico: espacio muestral = figura geométrica acotadaresultados “equiprobables”

)medida(medida(A)p(A)

Modelo finito: número finito de resultados (dado trucado)

Ai ipp(A)

96



Probabilidad condicionadaLa probabilidad de un suceso A sabiendo que ha ocurrido un suceso B, esto es, la probabilidad de A condicionado a B, es igual a la probabilidad de que sucedan simultáneamente A y B, dividido por la probabilidad de B.

0Bp con ,p(B)

B)p(A)Bp(A

Ejemplo: Si sabemos que la carta que ha salido es una figura, ¿cuál es la probabilidad de que sea un caballo?

31

40/1240/4

p(figura)

figura)yp(caballo)figurap(caballo

97


CONCEPTOS ELEMENTALES DE PROBABILIDADSucesos independientes

Simetría en A y BLa dependencia de A y B no implica necesariamente relación causa-efecto

p(B)p(A)B)p(A Dos sucesos A y B son independientes si p(A))Bp(A

el conocimiento de que ha ocurrido el suceso B no modifica nuestras creencias sobre la posibilidad de que ocurra A.

Es decir, si p(B)>0, son independientes si

Ejemplo: A=“sacar rey”, B=“sacar copas” p(A B)=p(sacar rey de copas)=1/40=p(rey)·p(copas)

)Bp(. cumple las reglas de la probabilidad

98


CONCEPTOS ELEMENTALES DE PROBABILIDADRegla de la multiplicación (teorema de la probabilidad compuesta)

Ejemplo: Se sacan 4 cartas, ¿cuál es la probabilidad de que sean los 4 reyes? A1 =“la primera carta es rey”, A2 =“la segunda carta es rey”, A3 =“la tercera carta es rey”, A4 =“la cuarta carta es rey”

Si son sucesos cualesquiera (con probabilidad positiva), la probabilidad de que ocurran todos ellos puede ponerse como

k1 A,...,A

)A...A|p(A)·...·AA|p(A)·A|p(A)·p(A)A...p(A

1-k1k213

121k1

000011.091390

1371

382

393

404)AAAp(A 4321

99



Probabilidad condicionada: Ejemplo

0.009110010

999)p(P)Pp(P)Pp(P 11221

En una caja con 100 peces hay 10 que tienen una malformación. Se escogen 2 al azar, ¿cuál es la probabilidad de que ambos sufran malformación?

P1

= el primer pez sufre malformaciónP2

= el segundo pez sufre malformación

100



Teorema de la probabilidad total

))p(AAp(B))p(AAp(B))p(AAp(B)Ap(B)Ap(B)Ap(Bp(B)

kk2211

k21

A1 A2 Ak...

B

jiAA ji ,

1)p(A1j

i

k

101



Teorema de la probabilidad total: Ejemplo

El test

de alcoholemia, que realiza la policía en la carretera, es fiable en un 80% de las ocasiones (en los dos sentidos). Se sabe que el 5% de los conductores detenidos por la policía está embriagado, ¿qué proporción de conductores detenidos dará positivo?

p(E)=0.05

E No E

Positivo

0.230.950.8)-(10.050.8p(nE))nEp( p(E))Ep(nE)p(E)p()p(

0.8)nEp(

0.8)Ep(

102



Teorema de Bayes

))p(AAp(B

))p(AAp(Bp(B)

)Ap(B)Bp(Ajj

k

1j

iiii

Ejemplo: si un conductor ha dado positivo, ¿cuál es la probabilidad de que esté embriagado?

174.023.004.0

095.0·2.005.0·8.005.0·8.0

)()|()()|()()|()|p(E

nEpnEpEpEpEpEp

103



Teorema de Bayes: EjemploLa sensibilidad del test

RIA-PAP para detectar el cáncer de

próstata, es decir, la proporción de resultados positivos en pacientes con cáncer, es de 0.7. Su especificación, esto es, la proporción de resultados negativos en individuos sanos, es 0.94. La

prevalencia

de la enfermedad en varones blancos es

de 35 por 100.000. ¿Qué probabilidad tiene un paciente de tener cáncer de próstata si el resultado del test

RIA-PAP ha

sido positivo?C = tener cáncer de próstata, p(C) = 0.00035

P = test

positivo, p(P|C) = 0.7, p(no P|no C) = 0.94

)Cp()CPp(p(C))Cp(Pp(C)C)Pp(

p(P)P)p(C)Pp(C

0.00410.00035)(10.94)(10.000350.7

0.000350.7

104



Variables aleatoriasEn todo proceso de observación o experimento aleatorio se puede definir una variable aleatoria asignando a cada resultado del experimento un número.Ejemplo: Lanzamiento de un dado. X= "Puntuación del dado". Si en el experimento se miden varias características, se obtienen varias variables aleatorias. Ejemplo: Lanzamientos de dos dados. X="Puntuación del primer dado",Y="Puntuación del segundo dado". Las variables pueden tener alguna relación entre sí o, por el contrario, ser independientes, es decir, cuando los sucesos asociados a las mismas son sucesos independientes. Ejemplo: P(X=2 Y=3)=1/36=P(X=2)P(Y=3) (todos sucesos de este tipo son independientes por lo que X e Y son independientes).

105



Variables aleatorias discretas

Las variables aleatorias discretas toman valores en un conjunto contable.

Si en un invernadero se mezclan semillas de rosas rojas y blancas y se sabe que el 25% de las rosas de segunda generación son blancas, ¿cuál es la probabilidad de que entre 400 rosas de segunda generación más de 115 sean blancas?

106



Variables aleatorias discretasUna variable aleatoria discreta tiene asociada una función, llamada de probabilidad o de masa, que asocia a cada resultado su probabilidad.Un paciente sufre una enfermedad que tiene dos posibles tratamientos. Uno de ellos debe administrarse durante 15 días y al término debe elegirse si prolongarlo por 20 días más (en un 50% de las ocasiones) o intentar el otro tratamiento durante 30 días (en el otro 50%). Otra posibilidad es comenzar con el segundo tratamiento y prolongarlo durante 60 días. Este segundo tratamiento es más económico por lo que se elige en el 60% de los casos. ¿Cómo es la distribución de probabilidad de la variable “tiempo que dura el tratamiento de la enfermedad?” 107



Variables aleatorias discretas: Ejemplo

X = tiempo que dura el tratamientoX = 15 + 20 = 35, si se elige administrar el primer

tratamiento y continuar con él;X = 15 + 30 = 45, si se elige administrar el primer

tratamiento y después cambiar; y,X = 60,

si se elige administrar solo el segundo tratamiento.

p(X = 60) = p(elegir el segundo tratamiento) = 0.6p(X = 35) = p(elegir el primero y continuar) = (1 -

0.6)·0.5

p(X = 45) = p(elegir el primero y cambiar) = (1 -

0.6)·0.5108



Variables aleatorias discretas: ejemplo

0.6

45 6035

0.2 0.2

Xp

1

0.6

0.2

35 45 60

0.80.60.245)p(X

¿Cuál es la probabilidad de que el tratamiento dure un mes y medio o más?

10.60.20.2)xp(Xi

i

109



Variables aleatorias discretas

La media o esperanza de una variable aleatoria discreta es:

La desviación típica de una variable aleatoria discreta es:

)xp(XxE[X] i

k

1ii

)xp(X)(x i2

k

1ii

días520.6600.2450.235E[X]

El número medio de días que dura un tratamiento es

con una desviación típica de 10.3 días. 110



Variables aleatorias continuas

Las variables aleatorias continuas toman valores en un conjunto infinito no numerable (un intervalo).

La distribución de probabilidad de una variable continua viene dada a través de una función denominada función de densidad.

Propiedades de la función de densidad (se denota f) :

• Es una función positiva.

• El área encerrada bajo la función de densidad es 1.• La función de densidad proporciona el medio para determinar la

probabilidad de que la variable aleatoria tome un valor en un intervalo determinado. 111




f(X)

Xa b

• La probabilidad de que la variable aleatoria esté entre dos valores a y b es igual al área que encierra la función de densidad en este intervalo. p(a

X

b)

b

adxxf )(

112




La media o esperanza de una variable aleatoria continua es:

La desviación típica de una variable aleatoria continua es:

f(x)dxxE[X]

f(x)dx)-(x 2

113



Variables aleatorias continuas: Ejemplo

La vida de un virus en horas es una variable aleatoria con función de densidad

¿Cuál es el tiempo medio de vida de dicho virus? ¿Y su desviación típica?

¿Cuál es la probabilidad de que un virus tomado al azar viva más de cinco horas?

hora1xsi

x3

hora1xsi0f(x)

4

114



Variables aleatorias continuas: Ejemplo

El tiempo medio de vida de dicho virus es

La probabilidad de que un virus tomado al azar viva más de cinco horas es

horas51x23-

xdx3xf(x)dxxE[X] 21 4 .

1

y su desviación típica es 0.9 horas.

0.008x33-

xdx3f(x)dx5)p(X 35 4

5

5

115



Importancia de la esperanza

La importancia del concepto de esperanza se sigue de las denominadas Leyes de los Grandes Números

• Si son variables independientes con la misma distribución y media

entonces, para n grande

n21 X,,X,X

XXX n21 n

116



Variables aleatorias continuas: Relación entre histograma y función de densidad

X

6,305,524,753,973,20

600

500

400

300

200

100

0

X

6,115,334,563,783,01

600

500

400

300

200

100

0

X

6,405,825,234,654,073,492,91

600

500

400

300

200

100

0

El histograma tiende a una curva suave que es la función de densidad.Como la suma de las áreas de los rectángulos del histograma es la unidad (suma de las frecuencias relativas), el área que encierra la función de densidad es la unidad.

117



Distribuciones de probabilidad

Algunas distribuciones específicas de probabilidad han demostrado, empíricamente, que son modelos útiles para diversos problemas prácticos.

Tales distribuciones presentan también un carácter teórico en el sentido de que sus funciones de probabilidad o de densidad se deducen matemáticamente, basándose en ciertas hipótesis que se suponen válidas para ciertos fenómenos aleatorios.

La elección de una distribución de probabilidad para representar un fenómeno de interés práctico debe estar motivada tanto por la comprensión de la naturaleza del fenómeno en sí, como por la posible verificación de la distribución seleccionada a través de la evidencia empírica. 118



Distribuciones discretas de probabilidad

Supongamos que un experimento aleatorio en el que• En cada prueba del experimento sólo son posibles dos resultados:

la presencia de una determinada característica ‘A’ (éxito) o su ausencia ‘no A’ (fracaso).

• El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente.

• La probabilidad del suceso A es constante, la representamos por p, y no varía de una prueba a otra. La probabilidad de ‘no A’ es 1- p.

• El experimento consta de un número n de pruebas.

119



Distribuciones discretas de probabilidad

•

En

cada muestra de hielo observamos si es válida (éxito) o no lo es (fracaso).

•

Cada muestra es observada de forma independiente.•

La probabilidad de que una muestra sea válida es p = 0.1 y de que no sea 1 –

p = 0.9.

•

El experimento lo repetimos para cada una de las n = 20 muestras de hielo.

En la Antártida

se está realizando una toma de muestras de hielo para determinar su contenido de oxígeno. Dadas las difíciles condiciones de muestreo, solo el 10% de las muestras extraídas resultan válidas para el análisis. Para un experimento se necesita disponer de 6 muestras válidas. Si se recogen 20, ¿cuál es la probabilidad de que se pueda realizar el experimento?

120



Distribuciones discretas de probabilidad: Binomial

La distribución binomial cuenta el número de éxitos en n repeticiones independientes de un experimento aleatorio.

Los valores que toma la variable son: 0, 1, 2, ..., n, siendo n el número total de observaciones.La probabilidad de que se presente el suceso al observar un individuo de la población es p.

n0,...,r ,rnp1rprn

rXp

La probabilidad de que se presente r veces el suceso al observar n individuos es:

121




X = número de muestras válidasn = 20 p = 0.1

20)p(X7)p(X6)p(X6)p(X

0.0110.1)(10.12020

0.1)(10.16

20 2020206206

0.01130.988715)p(X16)p(X16)p(X

La distribución binomial se encuentra tabulada según los valores de n y p.

0.01131)AL(5,20,0.CDF.BINOMI15)p(X16)p(X 122




La media de la distribución binomial es:

Y su varianza:

pnE[X]μ

p)-(1pnVar[X]2

El número de muestras válidas esperado es

Con una desviación típica igual a

válidasmuestras20.120E[X]μ

válidasmuestras1.31.80.90.120 123




Bi(10,0.2) Bi(10,0.8)

Bi(10,0.5)

124



Distribuciones discretas de probabilidad: Hipergeométrica

Si en un conjunto de N unidades hay k que tienen una determinada característica y se extrae una muestra con reemplazamiento de tamaño n, el número de unidades en la muestra con la característica es Bin(n,k/N) ya que en cada extracción la probabilidad de obtener un individuo con la característica se mantiene constante y cada extracción es independiente de las demás.

Si la muestra se extrae sin reemplazamiento, las extracciones no son independientes (el resultado de cada una depende de las anteriores). En esta situación se define la distribución Hipergeométrica.

125




Sea una población de tamaño N en la que hay k unidades que verifican una determinada característica. Se extrae una muestra de n unidades seleccionadas sin reemplazamiento. El número de veces que se observa la característica en la muestra sigue una distribución hipergeométrica.

N

n

126




Nk

nE[X] )1(N)(k)-(NknVar[X] 2

2

N

nN

,

nN

r-nkN

rk

r)p(X

La distribución hipergeométrica viene dada por:

Si N es muy grande, n pequeño y k/N=p, entonces la distribución hipergeométrica se aproxima a una Binomial(n,p)

0

r

k y 0

n-r

N-k

127




Se tiene una población de 100 muestras de hielo de las que 10 son válidas. Se seleccionan 20 para la realización de un experimento, ¿cuál es la probabilidad de que 6 de ellos sean válidas?

0.0003

20100

62010100

610

6)p(X

El número esperado de muestras válidas en una muestra de tamaño 20 es 2 con una desviación típica de 1.2 muestras válidas. 128




100N

10n

20k 50k

80k

129



Distribuciones discretas de probabilidad: Poisson

La distribución de Poisson cuenta el número de veces que se presenta un suceso en un intervalo de longitud uno, cuando el promedio de ocurrencias en cada intervalo de longitud t es t, las ocurrencias del suceso están igualmente repartidas en todo el intervalo y son independientes de un intervalo a otro.

...2,1,0r!

er)p(Xr-

r

E[X] Var[X]2

donde

es una constante.

130




Para un volumen fijo, el número de células sanguíneas rojas es una variable aleatoria que se presenta con frecuencia constante. Si el número medio para un volumen dado es 9 células en personas normales, ¿cuál es la probabilidad de que una persona se encuentre dentro de una desviación típica del valor promedio?

)99X9-p(9)X-p(

6)p(X-12)p(X12)Xp(6

0.76010.1157-0.87585)p(X-12)p(X

131




La distribución binomial se aproxima a la de Poisson cuando el número de observaciones n es muy grande y la probabilidad de que ocurra el suceso de interés p es muy pequeña, con =np. Por esto, la ley de Poisson se denomina ley de los sucesos raros.

La distribución Poisson se encuentra tabulada según los valores de .

Número de casos de gripe en una ciudad en una semanaNúmero de mutaciones en una raza en un mes

Número de plantas de musgo por metro cuadrado en una ladera

Número de señales que recibe un receptor en un minuto

132




Mediante estudios recientes se ha determinado que la probabilidad de morir por causa de una vacuna contra la gripe es de 2 casos de cada 100.000 personas. Si se administra la vacuna a 100.000 personas, ¿cuál es la probabilidad de que mueran no más de dos personas a causa de la vacuna?

•

Se considera que el que una persona muera por efecto de la vacuna es independiente de lo que le ocurra al resto.

•

El número de personas que muere por causa de la vacuna es una variable binomial

con n=100.000 personas y

probabilidad de morir p=0.00002. 133




1 2

4 8

134




20.00002100.000pn

Debido a que la probabilidad es muy pequeña y el número de individuos sobre el que se realiza el experimento es muy grande, se aproxima la distribución binomial

por la Poisson

con

2)p(X1)p(X0)p(X2)p(X

0.67672!e2

1!e2

0!e2 -22-21-20

135



Otras distribuciones discretas: Geométrica o de Pascal

La distribución geométrica cuenta el número de repeticiones necesarias hasta que se presenta un éxito por primera vez en realizaciones independientes del experimento.

..1,2,.r ,p1-rp)(1r)p(X

La probabilidad de que se necesiten r intentos hasta que se presente el suceso de interés, cuya probabilidad de aparecer es p, es:

p1E[X] 2

2

pp)-(1Var[X]

136




X = número de muestras de hielo hasta encontrar la primera válida, p=0.1

0.01350.10.1)(120)p(X 19

¿Cuál es la probabilidad de tener que tomar 20 muestras de hielo hasta encontrar la primera válida?

El número medio de observaciones que se deben realizar hasta encontrar la primera muestra válida es 10 con una desviación típica de 9.5 intentos.

137



0.3p

0.7p

0.5p


138



La distribución binomial negativa cuenta el número de fracasos que se presentan antes de que se produzcan k éxitos en realizaciones independientes del experimento.

0,1,...r ,rp)(1kpr

1rkr)p(X

La probabilidad de que se presenten r fracasos antes de que se produzcan k éxitos, (donde p es la probabilidad de éxito), es:

p

p1kE[X] 2

2

pp)-(1kVar[X]

Otras distribuciones discretas: Binomial negativa

139



X = número de muestras de hielo no válidas para encontrar dos válidas, p=0.1

¿Cuál es la probabilidad de tener que observar 20 muestras para disponer de dos válidas?

0.02850.1)(10.118

118218)p(X 182

El número medio de muestras no válidas que se deberán encontrar antes de conseguir dos válidas es 18 con una desviación típica de 13.4 muestras.


140



4k 0.3p

0.7p 0.5p


141



Otras distribuciones discretas : Ejemplo

0.02950.150.15)(111)p(X 10

Un biólogo desea capturar un ejemplar de una clase de mariposa que se encuentra en un porcentaje del 15%. ¿Qué posibilidades tiene de tener que cazar 10 mariposas de una clase no deseada antes de encontrar un ejemplar de la clase deseada?

¿Y antes de conseguir 3 ejemplares de la clase deseada?

0.04390.15)(10.1510

110310)p(X 103

142



Distribuciones continuas de probabilidad: Normal o de Gauss

La distribución Normal es la distribución continua más importante y usada. Puede tomar cualquier valor entre -

y +.

2

2

2)(x

e21f(x)

donde

y

son constantes que coinciden con la media y la desviación típica, respectivamente, y determinan la posición y la forma de la distribución.

Su función de densidad es

Esta función es simétrica, con forma de campana y alcanza su valor máximo en .

143




N(0,1)

N(-2,1) N(2,1)

Se encuentra tabulada la distribución normal estándar, es decir, la distribución normal con media 0 y desviación típica 1.

144




N(0,2)

N(0,1)

145




2.5)p(X2.5)p(X

146




Propiedades: • Si X es una variable normal con media

y desviación típica ,

entonces se distribuye según una normal estándar.• Si son variables aleatorias independientes y normales con media , y desviación típica ,

/)-(XZ

n

1i

2i

2i

n

1iiinn2211 c,cN es XcXcXc

),N(nXXX n21 n

n21 X,,X,X i i

• Si son independientes con la misma distribución, media

, y desviación típica

, entonces, para n grande (Teorema

central del límite)

n21 X,,X,X

147



Distribuciones continuas de probabilidad: Normal o de GaussLa longitud de las alas de mosca común se distribuye normalmente con media 4.55 mm.

y desviación típica 3.9 mm.

¿Cuál es la probabilidad de encontrar una mosca que tenga una longitud de ala superior a 5 mm.? ¿E inferior a 3 mm.?

4)0p(Z4)0p(Z

3.94.55-3Zp3)p(X ..

0.34460.65544)0p(Z-1 1.

0.45220.5478-10.12)p(Z1

0.12)p(Z3.94.55-5

3.94.55-Xp5)p(X

148




El peso en kilos de los recién nacidos de un hospital está distribuido normalmente con media 3 kg.

¿Cuál es la

desviación típica, si el 98% de los bebés tiene un peso comprendido entre los 2.5 y los 3.5 kilos?

0.5-Zp-0.5Zp3-3.5Z3-2.5p3.5)Xp(2.50.98

X = peso en kilos de un recién nacido

10.5Zp20.5Zp-10.5Zp0.5Zp0.5Zp

gr.0.212.330.50.992

10.980.5Zp

149




p)np(1np,Np)Bi(n,

La distribución binomial se aproxima por la normal cuando el número de observaciones n es grande y la probabilidad de que ocurra el suceso de interés no está próximo ni a 0 ni a 1.

En la población de mosquitos en los que el 40% están infectados se observa una muestra de 100 mosquitos, ¿cuál es la probabilidad de que la mitad o menos estén sanos? Sanos =

0.0210.9791-2.02)p(Z0.40.61000.610050Zp50)p(X

0.40.61000.6,100N100,0.6Bi~X

150




Bi(5,0.2) Bi(10,0.2)

Bi(30,0.2)Bi(20,0.2)

151


107k0.8575100-k


Distribuciones continuas de probabilidad: Normal o de GaussEn un invernadero se mezclan las semillas de dos clases de rosas: rojas y blancas. La proporción de descendientes de segunda generación blancos puros es 25 de cada 100, ¿cuál es la probabilidad de que entre 400 rosas de segunda generación, más de 115 sean blancas?

0.04181.73)p(Z11.73)p(Z0.25)-(10.25400

0.25400-115Zp115)p(X

¿Podrías dar un límite superior del número de rosas blancas con una probabilidad del 80%?

75100-kZp1

75100-kZpk)p(X0.2

0.750.254000.25,400N400,0.25Bi~X

152




,N)P(

La distribución Poisson se aproxima por la normal cuando el promedio

es mayor que 5.

5 3010

153




El número de casos de cáncer de vejiga en hombres entre 35 y 40 años en un hospital es aproximadamente de 15 por año, ¿cuál es la probabilidad de que en un año determinado aparezcan más de 10 casos?

0.90151.29)p(Z1.29)p(Z1515-10Zp10)p(X

1515,N15P~X

154



Distribuciones continuas de probabilidad: Normal o de GaussEl número de piezas defectuosas en una caja de 100 unidades de un producto es 0, 1, 2 ó 3 con probabilidades respectivas 0.3, 0.3, 0.3 y 0.1. En un total de 1000 cajas, ¿cuál es la probabilidad de que haya más de 1250 piezas defectuosas?

1.20.130.320.313.00

Número total de piezas defectuosas

054.061.1Zp98.3012001250

98.301200p1250Sp

S

1200,30.98N1000,1000N~S

kX

96.00.1)2.13(0.3)2.12(0.3)2.11(3.0)2.10( 22222

1000

1k kXS

Número piezas defectuosas en la caja k

155



Otras distribuciones continuas : Lognormal

El tamaño de elementos se suele distribuir según una distribución lognormal.

Cuando una variable aleatoria X se transforma mediante la función logarítmica, ln X, y esta nueva variable se distribuye según una normal, se dice que X tiene distribución lognormal.

Es útil para comparar distribuciones asimétricas con variabilidades muy distintas.

156



Otras distribuciones continuas: Lognormal

X

3230282624222018161412108642

50

40

30

20

10

0

Ln X

3,43,12,92,62,42,11,91,61,41,1,9,6

50

40

30

20

10

0

157



Distribuciones relacionadas con la normal: Chi-cuadrado

Si Z1 ,...,Zn son variables aleatorias independientes e igualmente distribuidas con distribución N(0,1), la variable

sigue una distribución 2 con n grados de libertad.

222

21 nZZZ

La distribución 2 es asimétrica y se encuentra tabulada según los valores de n.Es una distribución asociada al concepto de distancia, puesto que

222

21 nZZZ

representa la distancia del vector (Z1 , Z2 ,..., Zn ) a su media (0,0,...,0).

158



Distribuciones relacionadas con la normal: Chi-cuadrado

2n

4n

8n

159



Distribuciones relacionadas con la normal: F de Snedecor

Cuando se compara la longitud de dos vectores aleatorios de variables normales independientes de dimensiones n y m, respectivamente, surge la distribución F de Snedecor con n y m grados de libertad.

Si X=(X1 ,...,Xn ) e Y=(Y1 ,...,Ym ) son vectores de variables aleatorias N(0,1), todas independientes entre sí

m,nm

n

m

n

F

m

n

mYYY

nXXX

2

2

222

21

222

21

La F se encuentra tabulada según los valores de n y m. 160



Distribuciones relacionadas con la normal: F de Snedecor

16,16F

4,2F

161



Distribuciones relacionadas con la normal: t de Student

La distribución t de Student con n grados de libertad compara una variable N(0,1) con la longitud promedio de un conjunto de n variables independientes.

Es una distribución simétrica, con forma de campana, con más dispersión que la distribución normal estándar y que tiende a ésta cuando n crece.

n2n

t

n

Z

La t es un caso particular de la F: n,n Ft 12

Se encuentra tabulada según los valores de n. 162



Distribuciones relacionadas con la normal: t de Student

N(0,1)3n

1n

163


a b

b-a1


Otras distribuciones continuas: Uniforme

La distribución uniforme toma cualquier valor en un intervalo finito, de forma que los valores se encuentran distribuidos igualmente sobre el intervalo.

resto0

bxasiab

1f(x)

2ba

12

a)(b 22

b]U[a,

164



Otras distribuciones continuas: Uniforme

La concentración de un contaminante se encuentra distribuida uniformemente en el intervalo de 4 a 20 partes por millón. Si se considera tóxico cuando aparecen 15 ppm

o

más, ¿cuál es la probabilidad de que al tomarse una muestra la concentración de ésta sea tóxica?

0.3125165

1615-20

16x

420dx15)p(X

20

15

20

15

165



Otras distribuciones continuas: Exponencial

Toma valores entre 0 y +. Suele usarse para modelar tiempos de vida o tiempos de espera.

Una distribución exponencial cuenta el tiempo entre la ocurrencia de dos sucesos consecutivos de Poisson o el tiempo que transcurre hasta el primer suceso de Poisson.

0xsief(x) x

12

2 1

166



Otras distribuciones continuas: Exponencial

La vida de un tipo de insecto se distribuye según una exponencial con media 8 meses, ¿cuál es la probabilidad de que un insecto cualquiera viva entre 3 y 12 meses?

0.4642e-dx8

e12)Xp(312

3

8x12

3

8x

¿Cuál es la probabilidad de que un insecto que ha vivido 10 meses, viva 15 meses más?

0.153310)p(X25)p(X

10)p(X10)X25p(X)10X25p(X

167



Otras distribuciones continuas: Beta

La distribución beta sirve para modelizar magnitudes físicas cuyos parámetros se encuentran restringidos a un intervalo de longitud fija.

Beta(1,1))Beta(0.5,1

)Beta(1,0.5

Beta(2,3)

Beta(2,1)

Beta(2,2)

168



La distribución gamma y la Weibull sirven para modelizar tiempos de vida. La variable gamma cuenta el tiempo transcurrido hasta la ocurrencia del suceso de Poisson k-ésimo.

Gamma(1,1)

Gamma(2,1)Gamma(2,2)

1)Weibull(1,

1)Weibull(2,

2)Weibull(2,

Otras distribuciones continuas: Gamma y Weibull

169



Distribuciones multivariantes

Cuando sobre cada individuo se miden varias variables se tiene una variable multidimensional.

Las dimensiones de una red de alcantarillado, que resuelva los problemas de evacuación de aguas pluviales, depende de la duración de las tormentas y de la precipitación total de ellas para lo que se requiere la distribución conjunta de ambas variables.

170



Distribuciones multivariantes: Multinomial

La variable aleatoria X=(X1 ,..., Xk ) donde Xi cuenta el número de elementos en la clase i-ésima es la variable multinomial.

La distribución multinomial es la generalización multivariante de la distribución binomial.

Sea un experimento que consiste en observar individuos al azar de forma independiente y clasificarlos en uno de entre k grupos, siendo pi la probabilidad de pertenecer al grupo i-ésimo.

k21 nk

n2

n1

k21kk2211 ppp

!n!n!nn!)nx,,nx,np(x

nn

k

1ii

1pk

1ii

171



Distribuciones multivariantes: Multinomial

En el servicio de urgencias de un hospital se atiende a los enfermos clasificándolos en sanos, de carácter leve y de carácter grave. Se sabe que el 70% de los pacientes que acuden a este servicio están sanos, el 20% con enfermedades leves y el resto graves. Si en un momento dado entran 3 pacientes a la vez, ¿qué probabilidad hay de que sea uno de cada tipo?

084.01.02.07.0!1!1!1

!31)x1,x1,p(x 111321

172



Distribuciones multivariantes: Normal

Un vector X=(X1 ,..., Xk ) sigue una distribución Normal multivariante si su función de densidad es:

)-()(21

2nk21

-1

e)(2det

1)x,,x,f(xXX

2k2kk1

2k2221

1k1221

k21 ,,,

es la matriz de varianzas-covarianzas.

es el vector de medias.

173



Distribuciones multivariantes: Normal

174



• W. Feller (1991) Introducción a la Teoría de Probabilidades y sus Aplicaciones (7ª edición), Ed. Limusa.

• S. Ross (1994) A first course in probability, Fourth Edition, Prentice Hall.

• N. L. Johnson, S. Kotz y A. W. Kemp (1992) Univariate Discrete Distributions, Wiley.

• N. L. Johnson, S. Kotz y N. Balakrishnan (1994 y 95, respectivamente) Continuous univariate distributions, Vol. 1 y 2, Wiley (Estos libros proporcionan una recopilación exahustiva de los modelos de distribuciones de probabilidad.)

Bibliografía

175


CAPÍTULO 2:

INFERENCIA ESTADÍSTICA

176


CAPÍTULO 2: INFERENCIA ESTADÍSTICA

2.1 Introducción a la inferencia estadística

2.2 Estimación paramétrica puntual y por intervalos

2.3 Contrastes de hipótesis paramétricas

2.4 Crítica del modelo

2.5 Contrastes de hipótesis no paramétricas para dos muestras

2.6 Análisis de tablas de contingencia

177


Introducción a la inferencia estadística


La Inferencia Estadística:

• permite inducir características de una población a partir de las características obtenidas de los datos de una muestra, y

• proporciona una medida del grado de confianza, medido en términos de probabilidad, que debe atribuirse a las características inducidas a través de los valores de la muestra.

178


Introducción a la inferencia estadística


Los métodos paramétricos suponen que los datos provienen de una distribución que se caracteriza por cierto número de parámetros que se estiman a partir de los datos.

Los métodos no paramétricos suponen aspectos muy generales de la distribución (que es continua, simétrica, etc.) y tratan de estimar su forma o contrastar su estructura.

El número de chicos en una familia es una binomial

de parámetros n y p.

Los procedimientos de inferencia estadística pueden clasificarse en:

179


Métodos de inferencia basados en muestras


La naturaleza de la inferencia estadística requiere una muestra aleatoria que proporcione los medios adecuados para poder estimar o contrastar los parámetros desconocidos.La población de la que proviene la muestra puede consistir en:

Un conjunto infinito de posibles resultados para alguna característica medible de interés.La muestra aleatoria se elige repitiendo el experimento (la medición) en las mismas condiciones hasta obtener varias observaciones de dicha característica.Ejemplo: El número de caras al lanzar 20 veces una moneda.

180




Un conjunto finito de individuos de los que interesa cierta característica cualitativa o cuantitativa.

Del conjunto de mujeres mayores de 40 años se estudia la edad y si padecen cáncer de mama.La muestra se puede elegir aleatoriamente de forma que:

cada elemento de la población tenga la misma probabilidad de ser elegido, y

en cada extracción se devuelve el elemento seleccionado a la población (muestreo con reemplazamiento o con reposición) o se seleccionan uno tras otro sin reemplazo (muestreo sin reemplazamiento o sin reposición) .

181




• Una muestra aleatoria simple corresponde a la extracción de n individuos en una población infinita o en una población finita con reemplazamiento y selección equiprobable.• Si el tamaño de la población es finito pero muy grande, una muestra tomada sin reemplazamiento se asimila a una con reemplazamiento, con lo que puede considerarse también una muestra aleatoria simple.• Las muestras aleatorias simples son las más utilizadas en estadística.

Una muestra aleatoria simple (m.a.s.) es una muestra donde cada observación es independiente de las demás y su distribución es la misma que la de la población.

182


Estadísticos


Un estadístico es una cantidad numérica que se obtiene a partir de los valores de la muestra.

Se ha realizado estudio sobre la presión sanguínea medida en 10 mujeres entre 30 y 35 años. Los resultados en mm

Hg. son:

88, 84, 85, 80, 82, 87, 84, 86, 83, 81La media muestral, 84 mm

Hg, y la desviación típica,

2.75 mm

Hg., son estadísticos.

Una muestra aleatoria simple es una colección de variables aleatorias independientes. Cada una tiene la misma distribución que la característica poblacional en estudio.

183


Distribución de un estadístico en el muestreo


Un estadístico es una variable aleatoria. La probabilidad de que un estadístico tome un determinado valor depende de la probabilidad de seleccionar la muestra o muestras que lo determinan.

Para determinar qué tipo de enfermedad padece un individuo se utiliza un conjunto de 5 síntomas. El individuo puede no padecer ninguno de los síntomas, 1, 2, 3, 4 o todos, indistintamente.

síntomas2.5E(X)

2.92Var(X)2

0 1 2 3 4 5

1/6

184




0 1 2 3 4 5

0

1

2

3

4

5

Media

0 0.5

1

2

0.5

1

1

1.5

1.5

1.5

1.5

2

2

2

2

3

2.5

2.5

2.5

2.5

2.5

2.5

3.53

3

3

3

3.5

3.5

3.5 4.5

4.5

4

4

4 5

Paciente 1

Paci

ente

2

0 1 2 3 4 5

0

1

2

3

4

5

Varianza

0 0.25

1

4

0.25

1

0

2.25

0.25

0.25

1

0

1

4

4

6.25

0.25

0.25

6.25

1

0

1

4

0.25

0.25

0.25

0.25

1

0

1 0

2.25

2.25

2.25

2.25

2.25

Paciente 1

Paci

ente

2

185




0 0.5 21 1.5 32.5 3.5 4

p(X) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 1/362/36

4.5 5X

Las distribuciones de probabilidad de la media y varianza muestrales

son

2.5)XE( 2n,n

1,46)XVar(2

0 0.25 41 2.25 6.25

p(s ) 6/36 10/36 8/36 6/36 4/36 2/36

s2

2

22 1,46)E(m

2,90)Var(m2 186




MEDIA

5,04,54,03,53,02,52,01,51,0,5,0

Porc

enta

je

30

20

10

0

Distribución simétrica, con forma de campana, centrada en el valor =2.5

Distribución asimétrica cuya media es 1.46 2

VARIANZA

6,254,002,251,00,25,00Po

rcen

taje

30

20

10

0

187


Distribución de la media muestral


MEDIA MUESTRAL:

μ)XE( n

2σ)XVar(

Si la muestra se extrae sin reposición en una población de tamaño N

μ)XE( n

2σ1NnN)XVar(

Si la característica poblacional tiene media

y varianza 2, entonces

Se observa que si el tamaño de la población N es infinito o muy grande con respecto a n, las dos situaciones son equivalentes.

n

nX2X1XX

188




Si la variable es normal con media

y varianza 2, entonces

n,N~X

La desviación típica n se denomina error estándar de la media.

Esta expresión permite obtener el tamaño de la muestra, fijado el error que se desea cometer en la estimación de la media.

El error estándar disminuye al aumentar el tamaño de la muestra.

189




TEOREMA CENTRAL DEL LÍMITEDada una población con media

y varianza 2 finita, y se extrae de

dicha población una muestra aleatoria simple de tamaño n, entonces la media muestral tiene una distribución con media

y

varianza 2/n, que tiende hacia la distribución normal cuando n tiende a infinito.

)n,N(~X

Este resultado es muy importante en la práctica porque no se requiere que la distribución de la población sea conocida.

190


Medias de muestras de tamaño 10 de una U(0,1)

,79,71,63,55,47,39,31,23

120

110

100

90

80

70

60

50

40

30

20

10

0

Medias de muestras de tamaño 100 de una Poisson(2)

3,022,722,412,101,801,491,18,88

100

80

60

40

20

0

Medias de muestras de tamaño 10 de una Poisson(2)

3,072,752,432,111,791,471,15,83

100

90

80

70

60

50

40

30

20

10

0



1,96Media 0,51Media

Medias de muestras de tamaño 100 de una U(0,1)

,79,71,63,55,47,39,31,23

120

100

80

60

40

20

0

0,5Media 2,01Media

191




Para una muestra relativamente grande, se espera que el valor de la media muestral esté muy próximo al verdadero valor de la media poblacional.

Las muestras grandes son difíciles y caras de conseguir. Además, en general, el aumento en precisión no se compensa con el aumento excesivo del tamaño de la muestra.

Tamaño de la muestra

50403020100

Erro

r de

estim

ació

n de

la m

edia

50

40

30

20

10

0

502

102

192


Distribución de la proporción muestral


Donde x representa el número de veces que aparece la característica. La media muestral representa la proporción muestral de individuos que poseen la característica.

Supongamos que en una población, la proporción de individuos que presentan una determinada característica es P. Se selecciona una muestra aleatoria simple de tamaño n, donde cada observación es 1 indicando que el individuo posee la característica, o bien 0 indicando que el individuo no la posee. En este caso, la media muestral es:

nxp proporción muestral

193


Distribución de la proporción muestral


son la media y la varianza de la distribución de la proporción muestral.

Si n es grande, entonces p es una variable aleatoria normal con media P y varianza P·(1-P)/n

Puesto que x mide el número de veces que aparece una característica en n repeticiones independientes, x tiene una distribución binomial cuya media es n·P y cuya varianza es n·P·(1-P). Así,

PE(p) n

P)-P(1Var(p)

194


Distribución de la varianza muestral


2σn

1-n)2E(m

CUASIVARIANZA MUESTRAL

Las distribuciones de la varianza y cuasivarianza muestrales son asimétricas.

n

1i

2XiX1n

12s

La esperanza de la cuasivarianza muestral coincide con 2.

VARIANZA MUESTRAL:

n

1i

2XiXn1

2m

2σ)2E(s

195


CUASIVARIANZA

12,58,04,52,0,5,0

Porc

enta

je

30

20

10

0

Distribución de la cuasivarianza muestral


0 0.5 82 4.5 12.5

p(s ) 6/36 10/36 8/36 6/36 4/36 2/36

s2

2

22 2.92)E(s

11,62)Var(s2

0 1 2 3 4 5

0

1

2

3

4

5

Cuasivar.

0 0.5

2

8

0.5

2

0

4.5

0.5

0.5

4.5

2

0

2

8

8

12.5

4.5

0.5

0.5

4.5

12.5

4.52

0

2

8

0.5

0.5

4.5 0.5

0.5

2

0

2 0

Paciente 1

Paci

ente

2

196




21nχ2σ

2s1)(n ~

En una distribución normal,

22)E(s 1-n

2)Var(s4

2

En una distribución normal, la media y la cuasivarianza muestrales son variables aleatorias independientes.

197




La distribución del espesor de un material plástico es normal con una desviación estándar de 0.01 cm. La variación en el espesor influye en los resultados del control de calidad. Una muestra aleatoria de 25 piezas tiene una (cuasi)desviación

estándar de 0.015 cm, ¿cuál es la probabilidad de que una muestra presente una (cuasi)desviación

típica igual o mayor

que 0.015? ¿Qué se puede concluir con respecto a la variación de este proceso?

2

2

2

222 0.0151)-(ns1)-(np)0.015p(s

054)p(-1)0.01

0.0151)-(25p( 21252

22

125

198


Estimación puntual


En estadística paramétrica, un estimador puntual es un estadístico que nos sirve para estimar el valor de un parámetro desconocido.

Algunas característicasEstimador insesgado: su esperanza es el valor del parámetro.Sesgo: diferencia entre el verdadero valor del parámetro y la esperanza del estimador.Error cuadrático medio: sesgo al cuadrado más la varianza del estimador.Estimador consistente: su error cuadrático medio tiende a 0 cuando el tamaño muestral tiende a infinito.Estimador suficiente: utiliza toda la información que hay en la muestra sobre el parámetro.

199


Estimación puntual


Hay diversos métodos para la construcción de estimadoresEl método de sustitución consiste en estimar los valores poblacionales (media, varianza, mediana…) por sus correspondientes muestrales.

Ejemplo: media muestral para media poblacional es insesgado, consistente y (en muchas ocasiones) suficiente.

m2 no es insesgado para la varianza poblacional, sí es consistentes2 es insesgado y consistente.

200


Estimación por intervalos


La información que proporciona un estimador puntual de un parámetro desconocido es sólo un valor. Interesa, en general, conocer también alguna medida de la incertidumbre de la estimación.

Una posibilidad consiste en obtener, utilizando los datos de la muestra, dos estadísticos que representen un nivel inferior y un nivel superior entre los que se encuentre el verdadero valor del parámetro desconocido, de forma que el intervalo contenga dicho valor con una cierta probabilidad o nivel de confianza.

El intervalo será aleatorio puesto que, para cada muestra los estadísticos podrán tomar valores distintos.

201




En la estimación por intervalos se consideran tanto el estimador puntual como su distribución en el muestreo con el propósito de determinar un intervalo que, con cierta seguridad, contendrá al verdadero valor del parámetro.El intervalo, llamado intervalo de confianza, permite precisar la incertidumbre existente en la estimación.

Un intervalo de confianza para el parámetro

con nivel de confianza 1 -

es un intervalo de la forma:

(a,b)donde los límites a y b son estadísticos de forma que la probabilidad de que contengan al verdadero valor de

es al menos

1 -

. 202




La interpretación de un intervalo a nivel 1

es la siguiente. Si construimos, utilizando los estadísticos a y b, un número grande de intervalos de confianza, al menos un 100(1)% de ellos contendrá al verdadero valor del parámetro.

Si observamos una muestra y calculamos un intervalo de confianza a nivel 0.95 (por ejemplo) y obtenemos los límites numéricos 2.5 y 4.1, esto no podemos interpretarlo como que “hay una probabilidad de al menos el 95% de que el parámetro esté entre 2.5 y 4.1”, sino en el sentido frecuentista anterior.

203




Para construir el intervalo de confianza para un parámetro desconocido se puede utilizar el método del pivote que consiste en:

encontrar una función (pivote) que dependa del parámetro desconocido y del estadístico elegido como estimador

que no contenga cantidades desconocidas, excepto el parámetro en cuestión, y

cuya distribución sea conocida y no dependa de parámetros desconocidos.

Dada la distribución de dicha función elegir los valores a y b tales que p(a b) = 1-.

204


Intervalos de confianza para la media de una población normal


Si la varianza de la población es conocida, se tiene

n,N~X

que 0,1N~n

X

2

2

21z 21z

12α12α1 zn

Xzp205




El intervalo de confianza para la media

de una variable normal con varianza 2 conocida, con nivel de confianza 1- , es

n

zX,n

zX 2121

donde z1-

/2 es el valor de una variable normal estándar tal que p(z < z1-

/2 )= 1-/2.

206




Para determinar el nivel de alcohol en la sangre que produce parada respiratoria en ratas, se les inyecta cantidades de alcohol hasta que se les produce la parada respiratoria.

9.4454)(8.9832,0.11791.969.21430.1179z9.2143 0.975

El nivel de alcohol en la sangre en esta población se distribuye según una normal de desviación típica 0.2795 mg/mL.Se seleccionan 7 ratas al azar y se observan las siguientes cantidades de alcohol: 9.0, 9.7, 9.4, 9.3, 9.2, 8.9 y 9.0. La media de la muestra es 9.21 mg/mL. con un error de estimación de 0.117970.2795

Al 95% de confianza la media de la población está entre 207




Si la varianza de la población es desconocida, se tiene que


de una variable normal con

desconocida, con nivel de confianza 1- , es

n

stX,nstX 2-1,1n2-1,1n

donde tn-1,1-

/2 es el valor de una variable t de Student con n-1 grados de libertad tal que p(t < tn-1,1-

/2 ) = 1 - /2.

1-n2

1n2

2t~

1-n

0,1N

1)-(ns1)-(n

nX

nsX

puesto que numerador y

denominador son independientes.

208




A 9 personas que padecen neurosis de ansiedad se les mide la presión sanguínea en mm

Hg

antes de tomar un fármaco

(propanol) y 4 horas después. Se calcula la diferencia de presión Antes-Después con los siguientes resultados: +1, -1, +20, -10, +19, +8, +6, -1, y +3.La diferencia media es 5 mm

Hg

y la (cuasi)desviación

típica

9.6695 mm

Hg.

Si se supone que las diferencias en la presión sanguínea se distribuyen según una normal, entonces al 95% de confianza la diferencia media en la población estará entre

12.446)(-2.446,3.22322.31599.6695t5 0.9751,9 209


Intervalos de confianza para la media


Se observa que para muestras pequeñas de poblaciones normales con varianza desconocida, el intervalo que resulta es más ancho que el que resulta cuando la varianza es conocida.

Los niveles de confianza más usuales dan lugar a los siguientes percentiles:

210


Intervalos de confianza para la media: Caso general


Cuando la muestra proviene de una población cualquiera, si el tamaño de la muestra n es grande, se tiene que

N(0,1)~ns

X


con

desconocida con nivel de confianza 1- , cuando tamaño de la muestra grande, es

nszX,

nszX 2121

donde z1-

/2 es el valor de una variable normal estándar tal que p(z < z1-

/2 )=1 - /2.211


Intervalos de confianza para la media: Caso general


Los errores de redondeo que se cometen al tomar un solo dígito decimal en la medición de la concentración de una sustancia en la sangre sigue una distribución desconocida en [-0.05, 0.05]. Nos interesa conocer el error medio que se comete para ver si este procedimiento tiene sesgo. Se realizan 100 mediciones obteniéndose un error medio de 0.001 con una (cuasi)desviación

típica de 0.03.

La estimación de la media es por tanto 0.001 con un error de estimación de 0.0031000.03

Al 95% de confianza el error medio estará en el intervalo

0.007)(-0.005,1000.039610010 ..212


Intervalos de confianza para la proporción


Cuando el tamaño de la muestra es grande, la proporción muestral p es una variable aleatoria normal con media P y varianza P·(1-P)/n

El intervalo de confianza para la proporción P con nivel de confianza 1- , cuando el tamaño de la muestra n es grande, es

n

p)(1pzp,n

p)(1pzp 2121

donde z1-

/2 es el valor de la normal estándar tal que p(z < z1- /2 )= 1 - /2.

213


Intervalos de confianza para la proporción


En una medicación proporcionada a 100 pacientes con una enfermedad cardiaca se ha observado que diez de ellos han sufrido efectos secundarios.

La estimación del porcentaje de pacientes que sufren efectos secundarios es, por tanto, del 10% con un error de estimación del 3%.

0.031000.1)-(10.1

Al 95% de confianza la proporción de pacientes que sufre efectos secundarios estará en el intervalo

0.16)(0.04,0.0396110 ..214


Intervalos de confianza. Tamaño muestral


Para un nivel de confianza dado, cuanto más grande es el tamaño de la muestra, más pequeño es el intervalo, puesto que, al aumentar el tamaño de la muestra, disminuye el error de estimación.

Para un tamaño de la muestra dado, cuanto más alto es el nivel de confianza 1-, más ancho es el intervalo, puesto que la probabilidad de que el parámetro quede fuera de los límites del intervalo es menor.

215


Intervalos de confianza. Tamaño muestral


Para estimar la media de una población, utilizando el intervalo (normal) si se conoce la varianza (o se tiene una cota superior suya), el error que se comete es con lo que si se quiere que el error no sea mayor que E, el tamaño muestral debe ser

con

conocida, estimada o acotada.

n/z 21

221z

En

Para estimar una proporción P, utilizando el intervalo (aprox. normal) el error que se comete es de con lo que si se quiere que el error no sea mayor que E, el tamaño muestral debe ser al menos o, como no se conoce p antes de tomar los datos,

npp /)1(z 21

221 /z)1( Eppn

221

2z

En

216


Intervalos de confianza para la varianza: Poblaciones normales


Para la varianza de una población normal, se sabe que

El intervalo de confianza para la varianza 2 con nivel de confianza 1- , es

2

21,n

2

221,1n

2 s1)(n,s1)(n

donde 2

21,n y 221,1n son los valores de la distribución chi-

cuadrado con n - 1 g.l. que dejan a su izquierda una probabilidad igual a /2 y 1-/2, respectivamente.

21-n2

2

~)1(

sn

217


Intervalos de confianza para la varianza: Poblaciones normales


La longitud del ala de la mosca común se distribuye según una normal. De una muestra de 30 moscas se ha obtenido una longitud media del ala de 4.55 mm

y una desviación

estándar de 0.37 mm.La estimación de la variabilidad de la longitud en la población es de 0.372 = 0.137.

Al 95% de confianza la varianza de la población de moscas comunes estará en el intervalo

)25.0(0.087,16

0.371)(30,45.7

0.371)(30,0.371)(30,0.371)(30 22

20.0251,-30

2

20.9751,-30

2

218


I.C. para la diferencia de medias. Poblaciones normales independientes: Varianzas iguales y tamaños de la muestra n y m


Se tiene una m.a.s. de tamaño n de una normal de media 1 y varianza 2 y otra de tamaño m, independiente de la anterior, de media 1 y varianza 2 (igual a la anterior). El intervalo de confianza para

a nivel 1-

es

m

1n1st,

m1

n1st 2-1 2,mn2-1 2,mn YXYX

21

donde

2mns1)(ms1)(ns

2Y

2X2

219



En un grupo de enfermos que sufren esquizofrenia paranoica se ha estudiado la edad en que se produjo el primer ataque.

Hombres: 24, 33, 23, 20, 26, 32, 35, 21 y 25.Mujeres: 22, 34, 26, 31, 26, 35, 25, 38, 36, 22, 23 y 37.Calcula un intervalo de confianza para la diferencia de medias de la edad entre hombres y mujeresEs necesario suponer que la edad en la que se produce el primer ataque se distribuye tanto para los hombres como para las mujeres según una normal con la misma varianza. En otro caso, serían necesarias muestras más grandes.


220



El intervalo de confianza a nivel 0.95 será

29.78s 26.56,X 9,n :Hombres 2X 38.45s 29.58,Y 12,m :Mujeres 2

Y

5.934.8s 34.8,2129

38.451)(1229.781)(9s2

12

1915.9t58.2956.26,

121

915.9t58.2956.26 0.975 2,1290.975 2,129

2.38),42.8(


221


I.C. para la diferencia de medias. Poblaciones normales independientes: Varianzas distintas y tamaños de la muestra n y m


En el caso de que no se pueda suponer que las varianzas de las dos poblaciones son iguales, se puede utilizar el siguiente intervalo aproximado

ms

nst,

ms

nst

2Y

2X

2-1 ,

2Y

2X

2-1 , gg YXYX

donde g son los grados de libertad calculados de forma aproximada.

222


CAPÍTULO 2: INFERENCIA ESTADÍSTICAI.C. para la diferencia de medias. Poblaciones normales

independientes: Varianzas distintas y tamaños de la muestra n y m

el intervalo queda

Si no se puede suponer que las varianzas son iguales29.78s 26.56,X 9,n :Hombres 2

X 38.45s 29.58,Y 12,m :Mujeres 2Y

1238.45

929.78t78.2956.26,

1238.45

929.78t78.2956.26 0.975 18,0.975 18,

2.32)(-8.38,

223



2.3 Contrastes de hipótesis paramétricos•

Introducción a los contrastes de hipótesis.

•

La hipótesis nula y la hipótesis alternativa. Errores de tipo I y de tipo II.

•

La medida de discrepancia. Valor crítico y región de rechazo. Elección del nivel de significación.

•

Relación entre los contrastes de hipótesis y los intervalos de confianza.

•

Etapas del contraste.•

Contrastes de hipótesis para la media, la proporción y la varianza poblacionales. Contrastes para la diferencia de medias y proporciones, y para el cociente de varianzas. 224


Introducción a los contrastes de hipótesis


Una hipótesis estadística es una conjetura sobre alguna característica desconocida de la población de interés.

Se sabe que el tiempo medio que duerme una rata tratada con 80 mg/kg

de hexobarbital

es 26 min. Se sospecha que

un tratamiento posterior con iproniácido

aumenta el tiempo de sueño. Para analizar esta hipótesis se eligen nueve ratas tratadas con hexobarbital

y se les aplica un tratamiento con

iproniácido. Su tiempo de sueño es: 25, 31, 24, 28, 29, 30, 31, 33 y 35. El tiempo medio para esta muestra es 29.6 min. Con estos datos, ¿se puede afirmar que este tratamiento aumenta el tiempo de sueño?

225




Probar una hipótesis estadística consiste en decidir si la afirmación se encuentra apoyada por la evidencia experimental que se obtiene de los datos que proporciona una muestra aleatoria.

Para ello, y con la información obtenida de la muestra, nos planteamos la pregunta “¿sería razonable el tiempo medio de 29.6

obtenido en la muestra si el iproniácido no tuviera ningún efecto?”Si la respuesta es NO, habremos obtenido una evidencia a partir de los datos de que el iproniácido

aumenta el tiempo de sueño.

226


La hipótesis nula y la hipótesis alternativa


En un contraste de hipótesis intervienen:

H0

:

= 26, el tiempo medio de sueño en ratas tratadas con hexobarbital e iproniácido es 26 minutos,H1

: 26, el tiempo de sueño es distinto en ratas tratadas además con iproniácido

la hipótesis nula H0

sobre la que buscamos evidencias en contra, y

la hipótesis alternativa H1

, la complementaria de H0

227


La hipótesis nula y la hipótesis alternativa


Se parte del hecho de que la hipótesis nula es cierta a menos que los datos de la muestra proporcionen suficiente evidencia en contra.

Se presentan las siguientes situaciones:

Rechazar H0

H0

es cierta

H0

es falsaAceptar H0

H0

es cierta

H0

es falsa

Un contraste de hipótesis analiza si los datos observados permiten rechazar la hipótesis nula, comprobando si éstos tienen una probabilidad de aparecer lo suficientemente pequeña cuando es cierta dicha hipótesis.

228


Errores de tipo I y de tipo II


El error que se comete cuando se rechaza la hipótesis nula siendo esta cierta se denomina error de tipo I o nivel de significación.

El error que se comete cuando se acepta la hipótesis nula siendo esta falsa se denomina error de tipo II.

Hay, pues, dos situaciones en las que la decisión sería incorrecta: rechazar la hipótesis nula cuando es cierta o aceptarla cuando es falsa.

)cierta es HH p(rechazar I) tipo de p(Error 00

)falsa es HH p(aceptar II) tipo de p(Error 00Estas probabilidades son condicionales, debido a que no se puede

saber a ciencia cierta cuál es la hipótesis verdadera.229


La medida de discrepancia


La medida constituirá un estadístico de prueba. Para ciertos valores de dicho estadístico, la decisión será rechazar la hipótesis nula.

Para determinar si los datos observados proporcionan o no evidencia para rechazar la hipótesis nula, se construye una medida de discrepancia entre los datos de la muestra y la hipótesis nula.

H0

:

= 26 = tiempo medio de sueño en ratas tratadas con hexobarbital e iproniácido es 26 minMedida de discrepancia: Se rechazará la hipótesis nula si el tiempo medio que se observa en la muestra es mayor que 28.Estadístico de prueba: El tiempo medio en la muestra de ratas tratadas con iproniácido

es 29.6 min.

230


Valor crítico y región de rechazo


Valor crítico

Región de rechazo

Función de densidad de la media muestral

cuando H0

es cierta. )2628Xp(

231




Por tanto, si en estas condiciones la muestra nos da un valor mayor que el valor crítico, debe rechazarse la hipótesis nula.

Si la hipótesis nula fuese realmente cierta y se tomasen varias muestras de tamaño n, un ·100% de las veces se encontrará un valor mayor que el dado por el valor crítico.

El tiempo medio de sueño en la muestra de ratas tratadas con iproniácido, 29.6 min., es un valor que se encuentra en la región crítica, por tanto, se rechaza la hipótesis de que sea igual al tiempo de sueño de las ratas tratadas sólo con hexobarbital.Discrepancias demasiado grandes tienen una probabilidad

pequeña

de ocurrir, si H0

es cierta.232




En general, se suele trabajar en el sentido contrario; se fija de antemano una P(error de tipo I) y se busca el valor crítico k para obtenerla. En este caso, donde la región de rechazo es del tipo “Rechazar H0

si la media muestral es mayor que k”, si queremos tener una P(error de tipo I)=0.05, el valor de k sería 28.2.

¿Por qué hemos elegido el valor 28 como valor crítico? Con este valor 28, la probabilidad de error de tipo I es igual a 0.064.

Notemos que podemos hacer P(error de tipo I) tan pequeño como queramos, pero esto implicará aumentar P(error de tipo II), por lo que hay que mantener un compromiso entre ellos; normalmente, se suele trabajar con niveles fijos de P(error tipo I)=0.1, 0.05 ó 0.01.Si nos interesa disminuir ambos tipos de error, la solución es aumentar el tamaño muestral.

233




)falsa es HH p(aceptar 00)cierta es HH p(rechazar 00

Valor crítico: 28 min


cuando H0 es cierta.


cuando H0

es falsa.

234




)falsa es HH p(aceptar 00)cierta es HH p(rechazar 00

Valor crítico: 30 min 235




Cuando la discrepancia observada entre la hipótesis nula y los datos de la muestra pertenece a la región de rechazo, se dice que se ha producido una diferencia significativa.La diferencia en el tiempo medio de sueño de ratas tratadas con iproniácido, 29.6 min., y las tratadas sólo con hexobarbital, 26 min., se considera una diferencia significativa, según el criterio establecido.La decisión de aceptar la hipótesis nula no implica que sea verdadera, sólo que falta evidencia sustancial para considerarla falsa.

236


Selección del nivel de significación


El resultado del test

puede depender del nivel de significación prefijado.

Si el valor de la discrepancia es mayor que el valor crítico pero está cerca de él (se rechaza la hipótesis nula), un nivel de significación menor llevaría a la aceptación de la hipótesis nula.

Tomando como valor crítico 30 se aceptaría que el tiempo medio de sueño es el mismo con los dos tratamientos.

237


Selección del nivel de significación


Si el tamaño de la muestra es grande y se rechaza H0

, siendo el valor de la hipótesis nula cercano al valor del estadístico que se usa para contrastar, se recomienda estudiar la precisión en la selección de la muestra y la naturaleza del problema.

•

Otra forma de medir la evidencia para aceptar o rechazar H0

consiste en utilizar el nivel crítico o p-valor de la muestra, que se calcula como la probabilidad de obtener una discrepancia mayor que la obtenida, dado que la hipótesis nula es cierta.•

Tiene la ventaja de que su cálculo no depende de la decisión “arbitraria” del valor de .•

El p-valor coincide con el mínimo

que lleva a rechazar H0 con mi muestra. Así, si trabajo a un nivel , rechazaré H0

si p-valor<

P-valor

238




29.6X

)2629.6Xp(valorp

239


Etapas del contraste


Definir la hipótesis nula H0

y la hipótesis alternativa H1

.

Definir la medida de discrepancia entre los datos

muestrales

y la hipótesis nula.

Decidir a partir de qué valor de la discrepancia se asume que la diferencia no puede ser debida al azar, es decir, se detectan

diferencias significativas.

Calcular el valor del estadístico a partir de los datos de la muestra que se va a comparar con el valor dado por la hipótesis nula.

Calcular la discrepancia y decidir.240


Tipos de contrastes


La hipótesis nula H0

suele ser que el parámetro es igual a un valor concreto que se toma como referencia.

Se desconoce en qué dirección H0

puede ser falsa y se especifica H1 como que el parámetro o vector de parámetros es distinto del valor especificado en la hipótesis nula (contraste bilateral).

La hipótesis alternativa H1

puede ser de dos tipos:

El parámetro toma concretamente valores mayores o menores que el especificado en la hipótesis nula (contraste unilateral).

00H :

0 :1H

0θθ :1H 0: 1H241


Relación entre los contrastes de hipótesis y los intervalos de confianza


Contrastar una hipótesis nula con un determinado nivel de signifi- cación

frente a una alternativa bilateral es lo mismo que comprobar

si el valor del estadístico de prueba está dentro del intervalo de confianza al nivel 1-

para el valor dado por la hipótesis nula.

Suponiendo que el tiempo de sueño se distribuye según una normal de varianza 9, el intervalo de confianza para el tiempo medio de sueño de ratas tratadas con iproniácido

es

56)(27.64,31.931.9629.6

El tiempo medio teórico es 26, que no pertenece al intervalo. 242


Contraste para la media de una variable normal con 2 conocida


Hipótesis nula: 00H : Hipótesis alternativa: 01H :

Estadístico de prueba: n

X 0

La región de rechazo al nivel de significación

es

n

z,n

z..zn 210210210

XeiX

donde z1-

/2

es el valor de una variable normal estándar tal que p(z < z1-

/2

) = 1 -

/2.

Si la muestra es una m.a.s. que

proviene de una normal con varianza conocida y H0

es cierta, el estadístico de prueba se distribuye según una N(0,1).

243




24 28

0.0252 0.0252

29.6

26H0 :

26H1 :

)93N(26,~medio Tiempo

624.04,27.9931.9626 244


Contraste para la media de una variable normal con 2

conocida




es:

nzX..znX

1010

ei

donde z1-


) = 1 -

Si la hipótesis alternativa es 01H : la región de rechazo es

nzX..-znX

1010

ei245




27.7

0.05

29.6

26H0 :

26H1 :)93N(26,~medio Tiempo

246


Contraste para la media de una variable normal con 2 desconocida



Estadístico de prueba: ns

X 0


es

nst,

nst..tn 211,n0211,n0211,n

0

Xei

sX

donde tn-1,1-

/2

es el valor de una variable t de Student con n-1

grados de libertad tal que p(t < tn-1,1-

/2

) = 1 -

/2.

Si la muestra es una m.a.s. que

proviene de una normal con varianza desconocida y H0

es cierta, el estadístico de prueba se distribuye según una tn-1

.

247


Contraste para la media de una variable normal con 2 desconocida


23.3 28.7

0.0252 0.0252

260 29.6

26H0 :

26H1 :

28.7) (23.3,9

3.542.3126

248


Contraste para la media de una variable normal con 2

desconocida




es:

donde tn-1,1-

es el valor de una variable t de Student con n-1

grados de libertad tal que p(t < tn-1,1-

) = 1 -

Si la hipótesis alternativa es 01H : la región de rechazo es

nstX..tnX

11,n011,n0

ei

s

nstX..tnX

11,n011,n0

ei

s 249


Contraste para la media: Caso general



Estadístico de prueba: N(0,1)~ns

X 0


es el intervalo

donde z1-

/2


/2

) = 1 -

/2.

si la muestra es m.a.s. de una distribución cualquiera con n

grande y H0

es cierta.

nz,

nz..zn 21021021

0 ssXeis

X

250


Contraste para la diferencia de medias de muestras normales e independientes: Varianzas iguales y tamaños de la muestra n y m


Si las muestras provienen de distribuciones normales y H0

es cierta, el estadístico de prueba se distribuye según una t de Student

con n+m-2.

m1

n1s

YX

210H :

La región de rechazo es:2-1 2,mnt

11

mns

YX

211H :

Estadístico de prueba:2mn

s1)(ms1)(ns2Y

2X2

251



En un grupo de enfermos que sufren esquizofrenia paranoica se ha estudiado la edad en que se produjo el primer ataque.

Hombres: 24, 33, 23, 20, 26, 32, 35, 21 y 25.Mujeres: 22, 34, 26, 31, 26, 35, 25, 38, 36, 22, 23 y 37.¿Se podría afirmar que la edad media es la misma para los hombres que para las mujeres?Es necesario suponer que la edad en la que se produce el primer ataque se distribuye tanto para los hombres como para las mujeres según una normal con la misma varianza. En otro caso, serían necesarias muestras más grandes.


252



El valor del estadístico de prueba es:

Se contrasta H0

: 1

=

2

contra H1

: 1

2

.29.78s 26.56,X 9,n :Hombres 2

X 38.45s 29.58,Y 12,m :Mujeres 2Y

5.934.8s 34.8,2129

38.451)(1229.781)(9s2

161.1

121

919.5

58.2956.26

m1

n1

s

YX

El valor t9+12-2,0.975

es 2.09. Como 1.161<2.09, no hay evidencia para rechazar H0 a nivel del 5%. De hecho p-valor=0.26.


253



-1 2,mnt

m1

n1s

Y-X211H :

211H :

-1 2,mnt

m1

n1s

Y-X

Hipótesis alternativa Región de rechazo


254


Contraste para la diferencia de medias de muestras normales e independientes: Varianzas distintas y tamaños n y m


ms

ns

YX2Y

2X

La región de rechazo es aproximadamente:

2-1 ,2Y

2X

t

ms

ns

g

YX

Estadístico de prueba:

donde g

son los grados de libertad calculados de forma aproximada.

donde sX

y sY

son las cuasivarianzas

muestrales.

255


CAPÍTULO 2: INFERENCIA ESTADÍSTICAContraste para la diferencia de medias de muestras independientes

Varianzas distintas y tamaños n y m

El valor del estadístico es:

Se contrasta H0

: 1

=

2

contra H1

: 1

2

.29.78s 26.56,X 9,n :Hombres 2

X 38.45s 29.58,Y 12,m :Mujeres 2Y

183.1

1238.45

929.78

58.2956.26

ns

ms 2

Y2X

YX

El valor t18.4,0.975

es 2.09. Como 1.183<2.1, no hay evidencia para rechazar H0 a nivel del 5%. De hecho p-valor=0.25.

256


Contraste para la diferencia de medias de muestras independientes


N(0,1)~

ms

ns

YX2Y

2X

La región de rechazo es:

2-1 2Y

2X

z

ms

ns

YX

Caso general


Si las muestras provienen de distribuciones cualesquiera, pero grandes, y H0

es cierta,

257


Contraste para la diferencia de medias de muestras emparejadas


La región de rechazo es

2-1 1,-n D

tns YX


0 ó H DYX0 : 0 ó H DYX1 :

nsYX

D

n

1i

2ii

2D YXYX

1n1s

),N(~YXD DD

258




55.1967.95

A 9 personas que padecen neurosis de ansiedad se les mide la presión sanguínea en mm

Hg

antes de tomar un fármaco

(propanol) y 4 horas después. Se calcula la diferencia de presión Antes-Después con los siguientes resultados: +1, -1, +20, -10, +19, +8, +6, -1, y +3. La diferencia media es 5 mm

Hg

y la (cuasi)desviación

típica 9.6695 mm

Hg.Si se supone que las diferencias en la presión sanguínea se distribuyen según una normal, el estadístico de prueba es

259




Si la hipótesis alternativa es que la presión media ha disminuido, el estadístico hay que compararlo (a nivel 5%) con t9-1,0.95

= 1. 86, con lo que se mantiene la hipótesis nula al 5% también en esta situación.

Si se quiere comparar contra la hipótesis alternativa de que las medias son distintas, el valor de t9-1,0.975

es 2.31, con lo que no se rechaza a nivel del 5%.

260


Contraste para la varianza de una población normal


Hipótesis nula: 20

20H : Hipótesis alternativa:

Estadístico de prueba: 21-n2

0

2~s1)-(n


es

22-1,1n2

0

22

21,n20

2

σ1)(n

σ1)(n

sós

donde los extremos inferior y superior son los valores de la chi- cuadrado que dejan a su izquierda una probabilidad /2 y 1-/2,

respectivamente.

20

21H :

si la muestra es una m.a.s que proviene de una normal y H0

es cierta.

261




Las regulaciones del gobierno prescriben que la dosis estándar de un determinado preparado debería ser de 600 unidades por cm3 con una variabilidad de 10 unidades por cm3. Se preparan 10 muestras obteniéndose una media de 592.5 unidades por cm3

con una desviación típica de 11.2

unidades por cm3. ¿Es la variabilidad obtenida en la muestra diferente que la exigida por el gobierno?

Es necesario suponer que la dosis estándar se distribuye según una normal de media 600 y varianza 100.

Se contrasta H0

: 2

= 100 contra H1

: 2

100.262




11.2910

11.21)(102

2

Con significación 0.05, como el estadístico de prueba está en:

El estadístico de prueba es:

19.03) (2.7,, 21,0.97510

21,0.02510

se acepta que no existen diferencias significativas.

263




Se rechaza la hipótesis nula si: 21 1,n2

0

2s1)(n

20

21H :

¿Es la variabilidad obtenida en la muestra mayor que la exigida por el gobierno?

16.9311.29 20.95 1,-10 No se detectan diferencias

significativas.

20

21H :

Se rechaza la hipótesis nula si: 2 1,n2

0

2s1)(n

264


Comparación de varianzas de poblaciones normales


Se rechaza la hipótesis nula si:

2-1 1,-m1,-n 2

2

2-1 1,-n1,-m 2

2

FF

1

Y

X

Y

X

ssó

ss


2Y

2X0H : 2

Y2X1H :

1m1,n2Y

2X F~

ss

si H0

es cierta

265




2Y

2X0H : 2

Y2X1H : -1 1,m1,n2

Y

2X F

ss

Se rechaza H0

si:

1m1,nF

2Y

2XRechazar

2Y

2X Aceptar

266




2Y

2X0H : 2

Y2X1H :

-1 1,n1,m2Y

2X

F1

ss

Se rechaza H0

si:

29 adultos alcohólicos que sufren hipertensión han sido utilizados para estudiar el efecto de un antihipertensivo. Han sido asignados aleatoriamente

a un grupo tratado con un

placebo o a un grupo tratado con el medicamento.

Placebo: 105, 107, 110, 117, 124, 153, 137, 174, 109, 119, 143, 162, 91, 146 y 109.Medicamento: 92, 96, 104, 119, 106, 100, 93, 90, 98, 109, 106, 88 y 94.

267




Para contrastar el efecto del medicamento en la tensión arterial media debemos primero determinar si las muestras provienen de poblaciones con la misma varianza o no.

La varianza en el grupo tratado con un placebo es 579.8 y en el grupo tratado con el medicamento es 77.7.

7.577.7579.8

2.55F 0.95 1,1,1415 2.51F 0.95 1,1,1514

55.27.5 por lo que se rechaza que las varianzas son iguales (al 10%).

268


Contraste para la proporción


Hipótesis nula: 00 pP:H Hipótesis alternativa: 01 pP:H

Estadístico de prueba: N(0,1)~n)p-(1p

pp

00

0


es

2100

0 z)p-(1p

p-p

n

donde z1-

/2


/2

) = 1 -

/2.

si el tamaño de la muestra n

es grande y

H0

es cierta.

Si n es pequeño, la zona de aceptación se obtiene, fijado , por la distribución binomial. 269


Contraste para la diferencia de proporciones


m1

n1p)(1p

pp 21

210 PP:H

Para

muestras grandes, se rechaza la hipótesis nula si:

2-1 21 z

m1

n1p)(1p

pp

211 PP:H

Estadístico de prueba:mn

pmpnp 21

270


Bibliografía


•

ROBERT F. WOOLSON, (1987), Statistical

Methods

for

the Analysis

of

Biomedical

Data, John

Wiley

and

sons.

271



•

Calcular los estimadores de la media, la proporción y la varianza de la población.

•

Construir intervalos de confianza para la media y para la diferencia de medias.

•

Calcular los estadísticos necesarios para el contraste de hipótesis de la media y la proporción, para la diferencia de medias y el cociente de varianzas.

PRÁCTICA 5: ESTIMADORES, INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS

272



2.4 Crítica del modelo

• Introducción: La importancia de las hipótesis.

• Contrastes de normalidad.

• Influencia de los valores atípicos.

273


Introducción: La importancia de las hipótesis


Al estimar los parámetros del modelo se ha supuesto que los datos constituyen una muestra aleatoria de una distribución, que salvo sus parámetros, es conocida.

Cuando se extrae una muestra de una distribución distinta de la supuesta, el procedimiento de inferencia deja, en general, de ser óptimo. Es decir, los estimadores no tienen por qué tener las buenas propiedades que se les suponían.

Algunas técnicas están más influidas que otras por el fallo en las hipótesis. Por ejemplo, el contraste de hipótesis para las medias no está muy influido cuando falla la hipótesis de normalidad, si se trabaja con muestras grandes. En cambio, la inferencia con respecto a la varianza son muy dependientes de esta hipótesis. 274


Contrastes de normalidad


GRÁFICOS

Con muestras grandes, dibujar el histograma.

Con muestras pequeñas, gráfico Q-Q.

Concentración de SO2

110100908070605040302010

Frec

uenc

ia

16

14

12

10

8

6

4

2

0

Gráfico Q-Q normal de Concentración de SO2

Valor observado

120100806040200-20

Nor

mal

esp

erad

o

3

2

1

0

-1

-2

-3

41n

275


Gráfico Q-Q normal de Concentración de sucinato

Para TIPO= Sano

Valor observado

4,54,03,53,02,52,01,51,0

Nor

mal

esp

erad

o

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Gráfico Q-Q normal de Concentración de sucinato

Para TIPO= Enfermo

Valor observado

3,53,02,52,01,51,0,5

Nor

mal

esp

erad

o

1,5

1,0

,5

0,0

-,5

-1,0

-1,5


3,02,52,01,51,0,5

Para TIPO= Enfermo

Frec

uenc

ia

3,5

3,0

2,5

2,0

1,5

1,0

,5

0,0




4,03,53,02,52,01,5

Para TIPO= Sano

Frec

uenc

ia

3,5

3,0

2,5

2,0

1,5

1,0

,5

0,0

10n

276




CONTRASTES

Con muestras grandes, test de Kolmogorov-Smirnov-Lilliefors.

Con muestras pequeñas, test de Shapiro-Wilk.

Pruebas de normalidad

,216 41 ,000 ,811 41 ,010**Concentración de SO2Estadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova Shapiro-Wilk

Se contrasta la hipótesis nula de que la muestra proviene de una población normal.

277




Pruebas de normalidad

,193 10 ,200* ,943 10 ,555,113 10 ,200* ,974 10 ,916

Tipo de individuoEnfermoSano

Concentraciónde sucinato

Estadístico gl Sig. Estadístico gl Sig.Kolmogorov-Smirnova Shapiro-Wilk

278


Influencia de los valores atípicos


Cuando una pequeña fracción de la muestra (entre el 1% y el 10% de los valores) aparece como atípica, debemos preguntarnos cuáles son las causas:

se han cometido errores de medición o de transcripción de los datos,

ha habido cambios en los instrumentos de medida, u

La variable que se está midiendo es razonable que tome este tipo de valores extremos, o bien

otras alteraciones en la recogida de datos.

279


Influencia de los valores atípicos


El efecto de la existencia de valores atípicos puede ser muy grave. Por ejemplo, el valor de la media está afectado por un valor grande que ha aparecido en la muestra y, además, como la varianza de la muestra también será grande, también lo será el error de estimación.

Cambiar el estimador por otro que no se vea tan afectado. Por ejemplo, usar la mediana o la media recortada en vez de la media. O suponer que los datos provienen de una distribución más general, que permita la existencia de estos datos.

Identificar los valores extremos, indagar las causas que los motivan y eliminarlos, si se confirma que son realmente atípicos.

Existen dos soluciones para el tratamiento de los datos atípicos:

280



• Representar el gráfico Q-Q para contrastar la hipótesis de normalidad.

• Calcular los estadísticos y los p-valores de los test S-W y K-S- L.

• Detectar y eliminar datos atípicos.

PRÁCTICA 6: CRÍTICA DEL MODELO

281



2.5 Contrastes no paramétricos para dos muestras

• Introducción

• Contraste para muestras independientes: U de Mann-Whitney y Wald-Wolfowitz.

• Contrastes para muestras emparejadas: prueba de los rangos con signo de Wilcoxon

282


Introducción


Los contrastes no paramétricos requieren menos hipótesis sobre la la distribución de la que proceden los datos que los paramétricos.

En estas condiciones puede parecer que sean preferidos a los contrastes paramétricos. Pero, si se conoce la distribución de la que provienen las observaciones, estos últimos son, en general, más eficientes que aquellos.

Los contrastes no paramétricos que se van a estudiar en este capítulo son comparables con los métodos paramétricos para el contraste de medias.

283


Introducción


Los contrastes no paramétricos son particularmente útiles cuando las muestras son pequeñas, y/o las observaciones están medidas en escala ordinal.

Un laboratorio está interesado en si su medicamento para la gripe es preferido a uno de la competencia. Elige al azar 7 consumidores y les pide que den su opinión con respecto a cada uno de los productos según una escala de 1=Poca aceptación a 5=Mucha aceptación.

1 2 5 5 4 3 5

2 2 1 1 3 1 2

Propio

Competidor284


Prueba U de Mann-Whitney


La prueba U de Mann-Whitney contrasta la hipótesis de que dos muestras independientes que provienen de poblaciones continuas con la misma forma tienen la misma localización, que se mide por el valor de la mediana.

La hipótesis alternativa es que las medianas son distintas, es decir, la localización es distinta. Esto es, se supone que las dos muestras provienen de distribuciones continuas con la misma forma, pero una de ellas está trasladada hacia la derecha o hacia la izquierda de la otra.

285




Un investigador ha estudiado las respuestas a la glucosa oral en pacientes con la enfermedad de Huntington

y en un

grupo de control.

Los datos correspondientes al porcentaje de glucosa son:Pacientes: 85, 89, 86, 91, 77, 93, 100, 82, 92, 86 y 86.

Controles: 83, 73, 65, 65, 90, 77, 78, 97, 85 y 75.

286




Si las dos muestras provienen de la misma población, las observaciones de una y otra se hallarán bien mezcladas. En otro caso, cabe esperar que las observaciones de una y otra muestras se encuentren juntas en los extremos.

287




La prueba consiste en:

Ordenar de menor a mayor las observaciones de las dos muestras combinadas.

Asignar a cada observación un número de orden. En caso de empate, se asigna el promedio de los números de orden de las observaciones empatadas.

65 77 89868583 9077 7865 8582

PC

73

C

75

C PC C C P P P P P P

8686 91 92 93 97 100

CCCC PPP

1.5 1.5 3 4 5.55.5 7 8 9 10.5 10.5 131313 15 16 17 18 19 20 21288




Sumar los números de orden de las observaciones de las dos muestras y dividir por el número de elementos en cada muestra (rango promedio) .

Pacientes: (5.5+8+10.5+13+13+13+15+17+18+19+21)/11=13.9,Controles: (1.5+1.5+3+4+5.5+7+9+10.5+16+20)/10=7.8.

Si una de las muestras está más a la derecha que la otra, el rango promedio de sus observaciones será mayor que el de la otra muestra.

289




Construir el estadístico que permita determinar cuando una de las sumas es suficientemente grande o suficientemente pequeña.

Estadísticos de contrasteb

23,00078,000-2,259

,024,024a

U de Mann-WhitneyW de WilcoxonZSig. asintót. (bilateral)Sig. exacta [2*(Sig. unilateral)]

GLUCOSA

No corregidos para los empates.a.

Variable de agrupación: Tipo de individuob.

Rangos

11 13,91 153,0010 7,80 78,0021

Tipo de individuoPacienteCasoTotal

GLUCOSAN

Rangopromedio

Suma derangos

290


Prueba de Wilcoxon


La prueba de rangos con signo de Wilcoxon contrasta la hipótesis de que dos muestras emparejadas provienen de poblaciones con la misma distribución.

De un conjunto de 8 pacientes que sufren anemia crónica se ha calculado el índice de riesgo de padecer una enfermedad coronaria antes y después de un tratamiento.

56 44 55 40 62 46 49

Antes

Después

109 57 53 57 68 72

41

51 65

291


Prueba de Wilcoxon


La prueba consiste en:

Calcular las diferencias y ordenarlas de menor a mayor sin importar el signo. Si alguna diferencia es 0, se elimina del estudio.

Asignar a cada diferencia su número de orden con el signo correspondiente. Si hay empates, se asigna la media de los números de orden.

(+)2 (-)6 (-)13 (-)17 (-)53(-)24

-81.5 -1.5 -3 -4 -5 -6

(-)26

-7

(-)2

292


Prueba de Wilcoxon


Sumar los números de orden positivos y los negativos, por separado.

S+=1.5, S-=-34.5

Si las muestras provienen de la misma población, se espera encontrar el mismo número de rangos con signo positivo que con signo negativo. Por tanto, se espera que, en magnitud, ambas sumas sean aproximadamente iguales.

Construir el estadístico que permita determinar cuando las sumas se pueden considerar iguales.

293


Prueba de Wilcoxon


Rangos

7a 4,93 34,501b 1,50 1,500c

8

Rangos negativosRangos positivosEmpatesTotal

DESPUES - ANTESN

Rangopromedio

Suma derangos

DESPUES < ANTESa.

DESPUES > ANTESb.

ANTES = DESPUESc. Estadísticos de contrasteb

-2,313a

,021ZSig. asintót. (bilateral)

DESPUES - ANTES

Basado en los rangos positivos.a.

Prueba de los rangos con signo de Wilcoxonb.

294


• WAYNE W. DANIEL, (1990), Applied Nonparametric Statistics (2ª Ed.), The Duxbury Advanced Series in Statistics and Decision Sciences. PWS-KENT Publishing Company.

• SHESKIN, D. J. (2000), Handbook of Parametric and Nonparametric Statistical Procedures, (2ª Ed.), Chapman and Hall/CRC.


Bibliografía

295



• Aplicar contrastes no paramétricos.

• Elegir si aplicar un contraste paramétrico o uno no paramétrico.

PRÁCTICA 7: CONTRASTES NO PARAMÉTRICOS

296



2.6 Análisis de tablas de contingencia

• Test de la chi-cuadrado

297


Test de la chi-cuadrado


El test de la chi-cuadrado permite analizar si existe alguna relación entre dos características diferentes en las que una población ha sido clasificada, donde cada una de ellas se encuentra dividida en varias categorías.

¿Existe relación entre ser fumador y desarrollar cáncer de pulmón?

Las dos características se representan en una tabla de frecuencias, denominada tabla de contingencia.

298




H0 : Las variables son independientes pij = pi pj , i,jH1 : Las variables son dependientes pij

pi pj

El estadístico del test compara las frecuencias observadas con las esperadas bajo la hipótesis de independencia.

Tabla de contingencia SEXO * ¿Sufre enfermedad crónica?

Recuento

19 77 9633 61 9452 138 190

HombreMujer

SEXO

Total

Sí No¿Sufre enfermedad crónica?

Total

¿Existe relación entre sufrir una enfermedad crónica y el sexo?

299




2

1k1h

grandenh

1i

k

1i ji

2ji

ijh

1i

k

1i i

2ii

nnnnnn

n

EsperadasEsperadasObservadas

χ

donde h y k son el número de categorías de cada una de las variables.

Región crítica

300




Tabla de contingencia SEXO * ¿Sufre enfermedad crónica?

Recuento

19 77 9633 61 9452 138 190

HombreMujer

SEXO

Total

Sí No¿Sufre enfermedad crónica?

Total

(2-1)(2-1),0.95

=3.84

y el p-valor asociado de 0.018. Al 95% de confianza se rechaza que las variables sean independientes.

5.604

19094138

1909413861

1909452

190945233

19013896190

1389677

1909652

190965219

2222

301




En un estudio sobre el número de veces que un paciente ha sufrido estrés en un periodo de 40 años y su influencia en el tipo de enfermedad psiquiátrica que padece se han obtenido los siguientes datos

Tabla de contingencia Tipo de enfermedad * Número de veces que ha sufrido estrés

Recuento

23 39 46 21 21 13 9 2 1747 10 28 42 75 34 15 3 214

30 49 74 63 96 47 24 5 388

EsquizofreniaDesórdenes afectivos

Tipo de enfermedad

Total

0 1 2 3 4 5 6 7Número de veces que ha sufrido estrés

Total

El p-valor asociado al estadístico de prueba es 0.00. Se rechaza la hipótesis de que las variables sean independientes.

302




En el test de la chi-cuadrado las frecuencias de la tabla se comparan con las frecuencias esperadas, calculadas bajo la hipótesis de que las variables son independientes.

Las frecuencias esperadas deben ser mayores que 1 en todas las celdas y no más del 20% de las celdas deben tener valores esperados menores que 5.

En caso de no cumplirse se recomienda utilizar el test exacto de Fisher, si la tabla es 22; o, combinar categorías, en otro caso.

Se recomienda, además, utilizar muestras mayores que 30.

303



• Construir tablas de contingencia.

• Aplicar el contraste chi-cuadrado para la independencia.

• Otros contrastes.

PRÁCTICA 8: ANÁLISIS DE TABLAS DE CONTINGENCIA

304


CAPÍTULO 3:

ANÁLISIS DE LA VARIANZA

305


CAPÍTULO 3: ANÁLISIS DE LA VARIANZA

3.1 Introducción al diseño de experimentos

3.2 Análisis de la varianza de un factor: El modelo de efectos fijos

3.3 Contrastes no paramétricos para varias muestras independientes

3.4 Otros diseños experimentales

306


Introducción al diseño de experimentos


El objetivo de un experimento es estudiar el efecto que sobre

la variable de interés, llamada respuesta o variable dependiente,

tienen la o las variables que pueden influir en la variabilidad de la respuesta, llamados factores o variables independientes.

Se dispone de cinco medios para el cultivo de la vacuna B.C.G. y se desea saber si, en conjunto, los medios son equivalentes entre sí o, por el contrario, unos favorecen más la aparición de colonias que otros.La variable respuesta es el número de colonias y el factor es el tipo de cultivo .

307




Se supone que la variable respuesta es continua o puede tomar muchos valores distintos y que los factores se fijan durante el experimento a ciertos niveles determinados.

Se consideran cinco tipos de cultivo o cinco niveles o tratamientos.

Todos los factores externos distintos de los considerados que puedan influir en la respuesta deben eliminarse o controlarse.No existe ninguna característica distinta de la que define el tipo de cultivo que afecte al crecimiento.

Un nivel o tratamiento del factor es un valor o condición de éste bajo el cual se medirá la respuesta.

308




Se sospecha que, en los pacientes con úlcera péptica que han seguido un tratamiento, el tiempo que tarda en reaparecer la sintomatología ulcerosa está relacionado con el tiempo que tarda el paciente en responder al tratamiento.Se somete a un conjunto de pacientes con úlcera péptica al tratamiento, siendo todos ellos fumadores, y cada dos semanas, se comprueba si la sintomatología ulcerosa persiste o ha desaparecido.Una vez desaparecida, el paciente sigue sometido a revisiones mensuales para comprobar el tiempo que tarda en reaparecer.

309




Teniendo en cuenta que, en la mayoría de los casos, los síntomas han desaparecido al cabo de ocho semanas, se descartarán todos los pacientes en los que, pasadas ocho semanas, la enfermedad aún persiste.Antes de comenzar el tratamiento algunos pacientes han decidido dejar de fumar, por lo que se sospecha que en la reaparición de los síntomas, además del tiempo de respuesta al tratamiento, puede influir el efecto del abandono del tabaco.

310




Respuesta: Tiempo que tardan en reaparecer los síntomasFactores: El paciente ha dejado de fumar y tiempo que ha

tardado en responder al tratamientoNiveles del primer factor: Ha dejado de fumar-No ha

dejado de fumarNiveles del segundo factor:

2, 4, 6 y 8 semanas

Se asume que no existe ningún otro factor importante que influya en el tiempo que tardan en reaparecer los síntomas.

311




Los individuos en estudio deben estar asignados aleatoriamente a cada uno de los niveles de los factores. El proceso aleatorio protege contra el sesgo sistemático y tiende a neutralizar los efectos de todos aquellos factores externos que no se encuentran bajo el control del experimentador.

Los niveles de los factores pueden fijarse a priori, dando lugar a un modelo de efectos fijos, o pueden seleccionarse aleatoriamente entre el conjunto de posibles niveles, dando lugar a un modelo de efectos aleatorios. En el caso en el que se fijen unos factores y se seleccionen aleatoriamente otros, aparece el denominado modelo mixto.

312




Existen tres caminos para eliminar el efecto de una variable:

mantenerla fija durante toda la realización del experimento,

reorganizar la estructura del experimento de manera que las comparaciones de interés se efectúen para distintos valores fijos de dicha variable, lo que supone eliminar estadísticamente su efecto, y

aleatorizar su aparición en los niveles o tratamientos.Los dos primeros caminos se utilizan para variables controladas por el experimentador. El tercero se reserva para eliminar el efecto de variables fuera de control y de poca influencia esperada, cuyos efectos se englobarán dentro del error experimental.

313




Un laboratorio quiere comparar el efecto de dos fertilizantes para lo cual dispone de un terreno dividido en parcelas sembradas de alfalfa, ¿cómo debe asignar las parcelas al tratamiento?

314




¿Depende la fertilidad del suelo de su ubicación? ¿Depende el grado de humedad de su ubicación?¿Tienen todas las parcelas el mismo microclima?

¿Podría esta selección sistemática dar lugar a dos grupos sistemáticamente diferentes?

¿En qué aspectos debería cambiar el experimento si las parcelas estuvieran sembradas con cultivos diferentes?

315



3.2 Análisis de la varianza de un factor: El modelo de efectos fijos

• Introducción

• Descomposición de la variabilidad de la respuesta

• Análisis de las diferencias entre medias

• Consideraciones finales

316


Introducción


El análisis de la varianza consiste en descomponer la variabilidad de una magnitud en sus posibles causas.

En el análisis de la varianza de un factor con efectos fijos se parte de un conjunto de observaciones clasificadas según un factor cuyos niveles han sido fijados por el experimentador.

El objetivo del estudio es comprobar si existen diferencias entre los grupos definidos por el factor.

¿Son todos los medios de cultivo equivalentes entre sí o, por el contrario, unos favorecen más la aparición de colonias que otros?

317


Introducción


Para cada nivel del factor se obtienen varias réplicas con el propósito de medir el error experimental.

Se han inseminado, a partir de una misma suspensión de B.C.G., 10 tubos por cada medio de cultivo.El número de colonias en cada réplica de cada cultivo son:Cultivo 1: 10, 12, 8, 10, 6, 13, 9, 10, 8 y 9.Cultivo 2: 11, 18, 12, 15, 13, 8, 15, 16, 9 y 13.Cultivo 3: 7, 14, 10, 11, 9, 10, 9, 11, 7 y 9.Cultivo 4: 12, 9, 11, 10, 7, 8, 13, 14, 10 y 11.Cultivo 5: 7, 6, 10, 7, 7, 5, 6, 7, 9 y 6.

318


Introducción


La hipótesis nula es H0 : 1 =2 =...=k =

siendo k el número de niveles del factor considerado.

La hipótesis alternativa es H1 : No todas las medias son iguales.

Nivel 1 Nivel 3Nivel 2Nivel 1 Nivel 3Nivel 2

0H 1H

319


Introducción


Las hipótesis sobre los datos son:

Las k muestras provienen de una población normal con la misma varianza 2.

Las k muestras son independientes.

Las técnicas a usar se denominan ANOVA, usando las siglas en inglés de (ANalysis Of VAriance) o ADEVA, usando las siglas en español de (Analisis DE la VArianza)

El método consiste en descomponer la variabilidad de la respuesta en dos componentes, una debida al factor y otra dentro del factor.

320


Introducción


..Y es el estimador de la media poblacional

NOTACIÓN

ijY es la j-ésima observación correspondiente al nivel o tratamiento i

Y11

=10 es la primera observación en el cultivo 1

Estadísticos

Número de colonias50

9,948,38

VálidosNMediaVarianza

321


Introducción


NOTACIÓN

iY es el estimador de la media poblacional en el nivel o tratamiento i-ésimo

Estadísticos

Número de colonias

9,50 13,00 9,70 10,50 7,00Media Media Media Media Media

1 2 3 4 5Tipo de cultivo

322


Introducción


Los datos recogidos deben tener el siguiente aspecto:Factor Observaciones Media

Nivel 1

Nivel 2

Nivel k

...

1n1211 YYY

2n2221 YYY

knk2k1 YYY

1Y

2Y

kY

323


Descomposición de la variabilidad de la respuesta


k

1i

n

1j

2..iiij

k

1i

n

1j

2..ij YYYYYY

k

1i

2..i

k

1i

n

1j

2iij

k

1i

n

1j

2..i

k

1i

n

1j

2iij YYnYYYYYY

donde k es el número de niveles o tratamientos considerados y n el número de observaciones efectuadas dentro de cada tratamiento.

Observa que el doble producto no aparece porque es nulo.

324




k

1i

n

1j

2..ijT YYSC

k

1i

n

1j

2iijE YYSC

k

1i

2..iF YYnSC

es la variabilidad dentro del tratamiento, llamada variabilidad no explicada o residual. Cuanto más grande sea, mayor es la variación que puede atribuirse a un error aleatorio.

es la variabilidad total.

es la variabilidad debida al factor, entre tratamientos o variabilidad explicada. Si todas las muestras provienen de la misma población SCF =0. Cuanto más grande sea, mayor es la diferencia entre los tratamientos.

SUMAS DE CUADRADOS

325




1)(nk

YY

1n

YY

k1CM

k

1i

n

1j

2iijk

1i

n

1j

2iij

E

La estimación de la varianza dentro de cada nivel o tratamiento es:

1n

YYn

1j

2iij

y el promedio de estas varianzas es un estimador insesgado de la varianza poblacional 2.

326




La estimación de la varianza dentro de cada tipo de cultivo es:

Estadísticos

Número de colonias

4,06 9,78 4,23 4,72 2,22Varianza Varianza Varianza Varianza Varianza

1 2 3 4 5Tipo de cultivo

5.0022.22)4.724.239.78(4.0651CME

327




1k

YYk

1i

2..i

es un estimador insesgado de 2/n y, por tanto,

Como se parte de la hipótesis de que las muestras provienen de poblaciones con idéntica varianza 2 y la varianza de la media es 2/n; si se supone que la hipótesis nula es cierta, es decir, que las medias de las poblaciones son iguales, entonces la varianza de las medias de cada muestra

1k

YYnCM

k

1i

2..i

F

es también un estimador insesgado de 2. 328




La varianza de las medias es:

4.6431-5

9.94)-(9.59.94)-(7.09.94)-(10.59.94)-(9.79.94)-(13.09.94)-(9.5 222222

46.434.64310CMF

En cambio, si la hipótesis nula es falsa,entonces CMF es un estimador sesgado y mayor que CME . Y, cuanto mayor sea la diferencia entre las medias de los tratamientos y la media global, mayor será CMF .

Además, 1)-(nk1,k21)-(nk

21k

E

F F~CMCM

329




9.35.00246.43

CMCM

E

F

que ha de compararse con el valor de la F5-1, 5·(10-1)

= F4, 45

Al 95% de confianza F4, 45 = 2.59.

Como 9.3 es mayor que 2.59, se rechaza la hipótesis nula de que todos los cultivos se comporten del mismo modo.

Al 99% de confianza F4, 45 = 5.6, obteniéndose la misma conclusión.

330


Tabla ANOVA


variación cuadradosFuente de Suma de

mediosCuadrados

libertadGrados de F

Factor

Error

Total

k-1

k·(n-1)

k·n-1

k

1i

n

1j

2..ij YY

k

1i

n

1j

2iij YY

k

1i

2..i YYn

1)(nk

YYk

1i

n

1j

2iij

1k

YYnk

1i

2..i

E

FCMCM

331


Tabla ANOVA


ANOVA

Número de colonias

185,720 4 46,430 9,282 ,000225,100 45 5,002410,820 49

Inter-gruposIntra-gruposTotal

Suma decuadrados gl

Mediacuadrática F Sig.

332


Análisis de las diferencias entre medias


Si se rechaza la hipótesis nula de que las medias son iguales para todos los grupos, será interesante determinar entre qué parejas existen diferencias significativas.Un posible método consistiría en contrastar todas las posibles parejas dos a dos con los contrastes para la diferencia de medias de dos muestras independientes vistas en el capítulo 2. Pero, si cada contraste se realiza con un nivel de significación del 5%, ¿cuál es el nivel de significación para el conjunto de comparaciones?En el caso más simple en el que se consideran tres niveles, cuando se compara el primero con el segundo y el segundo con el tercero, ¿cuál es la probabilidad de que uno o los dos rechacen la hipótesis nula cuando es verdadera?

333




Existen diversos procedimientos para resolver este problema. Entre otros:• la prueba de Bonferroni y

• el método de Scheffé.

PRUEBA DE BONFERRONI

Se realiza cada contraste individual al nivel /número de contrastes, de forma que se garantiza que el contraste conjunto se realiza al nivel al menos 1-.

Es un prueba apropiada cuando se trata de comparar pocas parejas de medias.

334




MÉTODO DE SCHEFFÉ DE COMPARACIONES MÚLTIPLES

Se realizan los contrastes individuales de forma que la región de confianza depende del número de niveles del factor y del número de observaciones y no del número de contrastes que se desee realizar.

335


Consideraciones finales


• Las muestras en cada grupo pueden tener tamaños diferentes.

• Aunque una hipótesis de partida ha sido que las muestras provengan de poblaciones normales, el análisis de la varianza es una técnica robusta frente a desviaciones de normalidad y, por tanto, válida para pequeñas desviaciones.

• La otra hipótesis de partida es que las muestras provengan de poblaciones con la misma varianza. Si las varianzas son muy diferentes, pero los tamaños de la muestra son iguales o muy parecidos, el contraste es igualmente exacto. En cambio, si los tamaños de las muestras son muy diferentes, las diferencias entre las varianzas pueden ser graves.

336


Consideraciones finales


• Si se considera que los datos provienen de distribuciones normales, se puede contrastar la igualdad de varianzas antes de efectuar el análisis de la varianza. Dado que el contraste para la igualdad de varianzas que proporciona SPSS es robusto con respecto a la hipótesis de normalidad, se puede contrastar incluso cuando los datos muestren ligera falta de normalidad.

• En el caso de que falle la hipótesis de igualdad de varianzas (se dice que los datos presentan heterocedasticidad), los datos pueden transformarse para conseguir homocedasticidad (veáse, por ejemplo, Peña, Vol. 2, pág. 59, 1999) o aplicar contrastes específicos de ANOVA que no suponen homocedasticidad (SPSS).

• Es necesario asegurarse de que la falta de normalidad o heterocedasticidad no es debida a la existencia de datos atípicos.337


Pruebas no paramétricas para varias muestras independientes


La prueba de Kruskal-Wallis para dos muestras independientes es la análoga no paramétrica del análisis de varianza de un factor y una extensión de la prueba paramétrica U de Mann-Whitney para dos muestras independientes.

Contrasta la hipótesis nula de que las muestras provienen de la misma población contra la hipótesis alternativa de las distribuciones presentan diferencias en cuanto a su localización.

338


DUNN, O. J. y CLARK, V. A. (1987)Applied Statistics: Analysis of Variance and Regression, (2ª Ed.), John Wiley and Sons.


Bibliografía

339



• Aplicar el test del análisis de la varianza para un factor de efectos fijos.

• Aplicar los contrastes a posteriori de igualdad de medias dos a dos cuando se rechaza la hipótesis nula de que todas la medias son iguales.

• Aplicar el contraste no paramétrico de Kruskal-Wallis para varias muestras independientes.

PRÁCTICA 9: ANÁLISIS DE LA VARIANZA

340


CAPÍTULO 4:

ANÁLISIS DE LA REGRESIÓN

341


CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN

4.1 Introducción

4.2 El modelo de regresión simple

4.3 El modelo lineal general

4.4 Diagnosis y validación del modelo lineal

4.5 Extensiones del modelo de regresión

342


Introducción


Los modelos estadísticos que explican la dependencia de una variable respecto de una o varias variables se denominan modelos de regresión.

El interés recae en determinar una función matemática sencilla que describa, de forma razonable, el comportamiento de la variable respuesta, dados los valores de las variables explicativas, por ejemplo: Y ~

0 + 1 X1 + 2 X2 +... + k

Xk

La variable que se desea explicar se denomina variable respuesta, endógena, dependiente

o explicada

(Y) y las variables que aportan

la información se denominan variables predictoras, exógenas, independientes

o explicativas (X1 , X2 ,...,Xk

).

343


Introducción


Cuando el conocimiento de una variable determina totalmente el valor de la otra se dice que existe una relación funcional entre ambas.

Por el contrario, si el conocimiento de una variable no aporta información sobre el valor de la otra, se dice que son variables independientes.

Si un objeto se mueve a una velocidad constante de 20 metros por segundo, conocido el tiempo que lleva en movimiento se puede determinar con exactitud el espacio que ha recorrido mediante la función

Espacio = Velocidad

Tiempo, siendo la velocidad igual a 20m/s.

344


Introducción


Existe un tipo de relación intermedia que se da cuando el conocimiento de una variable permite determinar con cierto grado de exactitud el valor de la otra. Se dice, entonces, que existe una relación estadística

o estocástica

entre las variables.

Los modelos de regresión analizan este tipo de relaciones.

¿Cuál es la presión sanguínea esperada en un animal para un determinado nivel de concentración en la sangre de un medicamento?¿Se puede determinar la polución anual media en una ciudad conocidas la medias anuales de la temperatura, la velocidad del viento y la precipitación?

345


Introducción


Los objetivos del análisis de la regresión son:

La relación entre la polución anual media en una ciudad y la medias anuales de la temperatura (T), la velocidad del viento (V) y la precipitación (P) viene explicada por la ecuación

Polución ~

130.2 -

1.9 · T -

1.7 · V + 0.6 · P

Obtener un modelo que explique el comportamiento conjunto de dos o más variables

Evaluar la importancia relativa de una de las variables independientes y analizar su efecto en la variable dependiente

Si la temperatura aumenta un grado, la polución disminuye 1.9 microgramos por centímetro cúbico.

346


Introducción


Para una ciudad cuyos valores anuales medios de la temperatura, velocidad del viento y precipitación son 50º Fahrenheit, 6 millas por hora y 7 pulgadas, respectivamente, la polución esperada es:

130.2 -

1.9 · 50 -

1.7 · 6 + 0.6 · 7 = 29.2 gr. por cm3

Predecir los valores de la variable respuesta para valores conocidos de las variables independientes.

347



4.1 El modelo de regresión simple

• Introducción

• Hipótesis del modelo

• Estimación de los parámetros

• Inferencias respecto a los parámetros

• Coeficiente de determinación y coeficiente de correlación lineal

• Análisis de los residuos

• Predicción

• Comentarios finales348


Introducción


En el modelo de regresión lineal simple se considera que existe una única variable que explica el comportamiento de la variable respuesta y que dicho comportamiento puede representarse mediante una recta.

TIEMPO

6050403020100

VIR

US

300

200

100

0

La representación gráfica de la variable respuesta (Virus) sobre la variable explicativa (Tiempo) ayuda a determinar si la relación entre ambas es lineal o de otro tipo.

349


Introducción


TIEMPO

6050403020100

VIR

US

240

220

200

180

160

140

120

100

80

En algunas ocasiones la representación gráfica nos sugerirá otro tipo de funciones o ninguna en particular.

Población en miles

40003000200010000

Con

cent

raci

ón d

e S

O2

120

100

80

60

40

20

0

350


Introducción


Si estamos dispuestos a admitir que la relación entre las variables es lineal, el siguiente paso es encontrar la ecuación de la recta (Y=aX+b) que mejor se ajusta al conjunto de observaciones disponible. Dicha recta es la que más cerca pasa de todos los puntos a la vez para lo cual es necesario determinar el criterio que representa la distancia.

Y=0.5·X+0.5

X

Y

1

1

2

3

n=2

Y=aX+b

X

Y

x

1y

1 x

y

2

2 Y=cX+d

Y=eX+f

x3

y3

351


Introducción


X

Y

X

Y

352


Hipótesis del modelo


En el modelo de regresión lineal simple se considera que todos los factores que influyen en el comportamiento de la variable respuesta Y

pueden dividirse en dos grupos:

el primero contiene a la variable explicativa X, y

el segundo es una perturbación aleatoria.

Por tanto: ,...,ni 1 ,iix10iy

donde xi

son valores de la variable X conocidos (fijos, no aleatorios), yi

representa la variable respuesta dado el valor xi

(yi

son variables aleatorias observables) i

son los errores del modelo (variables aleatorias NO observables) y 0 y 1 son parámetros desconocidos, que se desean estimar.

353




Se desea estudiar el número de virus en un cultivo al cabo del tiempo (en horas).Se ha dejado actuar el cultivo durante 6 horas y se ha medido el número de virus cada hora. Así, tenemos xi=i, i=1,…6. Yi=número de virus al cabo de i horas. (yi

no es un número fijo, ya que no observaremos siempre el mismo número de virus)

354




1.- E[i]=0 i=1,..,n. 2.- Var[i]= 2 , i=1,..,n. La varianza de los errores es constante. Esta propiedad se denomina homocedasticidad.3.- Los errores i son variables aleatorias independientes y normalmente distribuidas.Las condiciones sobre los errores son equivalentes a:1.- La esperanza de la respuesta depende linealmente de X

2.- La varianza de la respuesta es constante 3.- yi

son variables aleatorias independientes y normalmente distribuidas.

i10i x]E[y 2

i]Var[y

355


Interpretación de los coeficientes


El parámetro 0 representa la respuesta media cuando xi=0 (si este valor tiene sentido)

1 representa el incremento medio que experimenta la variable explicada o respuesta cuando la variable X

aumenta en una

unidad.Al estudiar el número de virus en un cultivo al cabo del tiempo (en horas), el parámetro 0

representa el número

de virus que hay al inicio del experimento.El parámetro 1

representa el incremento del número medio de virus que aparecen al cabo de una hora.

356


Estimación de los parámetrosCAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN

Para estimar los parámetros se utiliza el criterio de los mínimos cuadrados que consiste en minimizar la suma de los cuadrados de las distancias entre los valores observados de la variable respuesta y los valores sobre la recta. Es decir, encontrar que minimicen la suma de los cuadrados de los errores:

n

1i

2

i10i xˆˆy

2X

XY1 s

s

Se obtienen los siguientes estimadores:

xssy 2

X

XY0

La obtención de los estimadores con este método no requiere ninguna hipótesis. Sin embargo, si se desea que sus propiedades sean buenas hemos de imponer las hipótesis mencionadas.

10ˆ,ˆ

357


Estimación de los parámetros


Por tanto, la ecuación del modelo es de la forma

xXssyY 2

X

XY

que se denomina recta de regresión de Y sobre X.

Si se asume que los errores son variables aleatorias normales, se tiene que

2X

2

11 snN~ ,ˆ

2

X

22

00 sx

nN~ 1,ˆ

358



Además, un estimador insesgado de la varianza 2 es la varianza residual

2-n2-n

xys

n

1i

2i

n

1i

2 i10i

2R

eˆˆ

)ix10ˆ(i y

)ix10ˆ(iyiyiyi e

Valores ajustados

Residuos: Error cometido en cada observación

359


X

Y

Inferencias respecto a los parámetros


y

yyi iy

iy

ix

yyiˆii yy ˆ

360



Así, los intervalos de confianza para los parámetros son

X

R2-n2,11 sn

st

ˆ

2X

2R

2-n2,1-0 sx

nst 1ˆ

22n2

n

1i

2i

~

eSe tiene:

211

n

ββ

Xt~

)sn(sˆ

R

Además, un pivote para construir intervalos de confianza para la pendiente es:

361




El contraste de la hipótesis nula 0:H 10 contra la hipótesis

alternativa 0:H 11 equivale a contrastar la falta de relación lineal

entre las variables.

que se distribuye según una)sn(s XR

1

El estadístico de prueba es

t de Student con n-2

grados de libertad, si la hipótesis nula es cierta.

El contraste más habitual para el parámetro 0 es 00 :H

contra 01 :H . El estadístico de prueba también se distribuye segúnt con n-2

grados de libertad, si la hipótesis nula es cierta. 362




Para estudiar la pérdida de agua del escarabajo Tribolium confusum se han mantenido nueve grupos de 25 escarabajos

en nueve medios con diferente humedad relativa y se ha medido la pérdida de peso después de seis días de ayuno.El objetivo es establecer si la relación entre el nivel de humedad y la pérdida de peso pueden ser explicadas mediante una ecuación lineal.La humedad relativa es una variable controlada por el experimentador, por tanto se busca una ecuación de la forma:

Pérdida de peso = 0

+ 1

·Humedad relativa.363




La nube de puntos muestra que una relación lineal es razonable y además, que la pérdida de peso disminuye al aumentar el porcentaje de humedad relativa.

Coeficientesa

8,704 ,192 45,437 ,000 8,251 9,157

-5,32E-02 ,003 -,987 -16,346 ,000 -,061 -,046

(Constante)Porcentaje dehumedad relativa

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizados

t Sig.Límiteinferior

Límitesuperior

Intervalo de confianzapara B al 95%

Variable dependiente: Pérdida de pesoa.

Porcentaje de humedad relativa

100806040200-20

Pér

dida

de

peso

10

9

8

7

6

5

4

3

364




La ecuación de la recta de regresión esPérdida de peso = 8.704 -

0.053·Humedad relativa.

Al 95% de confianza se acepta que existe una relación lineal entre las variables consideradas, puesto que el p-valor asociado al coeficiente 1

es menor que 0.05.Al 95% de confianza se espera que valor de 1

esté

entre -0.061 y -0.046 y el de 0

entre 8.251 y 9.157. Es decir,

si la humedad relativa es del 0%, la pérdida de peso esperada está entre de 8.251 y 9.157 mg. Si la humedad relativa aumenta en un 1%, el peso esperado disminuye entre 0.046 y 0.061 mg.

365


Descomposición de la variabilidad total


n

i

n

i

n

i 1

2

1

2

1

2 yiyiyiyyiy

n

1i

2i yyVT es la variabilidad total

n

1i

2i yyVE ˆ es la variabilidad explicada por la regresión

n

1i

2ii yyVNE ˆ es la variabilidad no

explicada o residual

VT = VNE + VE 366




La hipótesis de que existe una relación lineal entre Y

y X

debería aceptarse cuando la variación explicada por la recta de regresión (VE) sea muy parecida a la total (VT) (es decir, la regresión es capaz de explicar una gran parte de la incertidumbre de los datos) o equivalentemente, cuando VE sea grande en comparación con VNE.Se tiene que, bajo la hipótesis de normalidad,

21n2 ~VT

212 ~VE

2n2 ~VNE

2 2-n1,2

R2

2F~

sVE

2-nVNE

1VE

24.1300.61623.514VT 23.514VE 0.616VNE

267.1830.08823.514

2)(90.61623.514

sVE

2R

5.59F 0.95 2;1,9

367




ANOVAb

23,514 1 23,514 267,183 ,000a

,616 7 8,801E-0224,131 8

RegresiónResidualTotal

Modelo1

Suma decuadrados gl


Variables predictoras: (Constante), Porcentaje de humedad relativaa.

Variable dependiente: Pérdida de pesob.

t2 = 16.3462

=267.192

Además, en regresión lineal simple el valor del estadístico t

del contraste H0 : 1 =0 al cuadrado coincide con el estadístico F.

368


Coeficiente de determinación y coeficiente de correlación lineal


Se define el coeficiente de determinación del modelo como la proporción de variabilidad total de la variable respuesta Y

explicada

por la variable X.

n

1i

2i

n

1i

2i

2

yy

yy

VTVER

ˆ

Es una medida de la bondad del ajuste que toma valores entre 0 y 1.

Si el ajuste lineal es perfecto, es decir, ii yy ˆ , entonces R2=1.

Si no existe ajuste lineal entre las variables, entonces yyi ˆ y R2=0. 369




Además, el coeficiente de determinación coincide con el cuadrado del coeficiente de correlación lineal

2Y

2X

2XY22

sssrR

El porcentaje de humedad relativa explica el 97.4% de la variabilidad de la pérdida de peso.

Resumen del modelob

,987a ,974 ,971 ,2967Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Porcentaje de humedadrelativa

a.

Variable dependiente: Pérdida de pesob.

370


Análisis de los residuos


Todos los resultados obtenidos para el análisis de la regresión se han basado en un conjunto de hipótesis sobre los residuos.Un valor alto de R2 o test de la t

significativo no son suficientes para

asegurar la bondad del ajuste.

Aunque el método utilizado para la obtención de los estimadores es robusto cuando se detectan pequeñas desviaciones de las hipótesis de partida, desviaciones grandes pueden distorsionar las conclusiones.

El análisis de los residuos puede ayudar a detectar dichas violaciones del modelo.

371




X1

161412108642

Y1

11

10

9

8

7

6

5

4

X2

161412108642

Y2

10

9

8

7

6

5

4

3

X3

161412108642

Y3

14

12

10

8

6

4

X4

20181614121086

Y4

14

12

10

8

6

4

372




Resumen del modelob

,816a ,667 ,629 1,2366Modelo1



Variables predictoras: (Constante), X1a.

Variable dependiente: Y1b. ANOVAb

27,510 1 27,510 17,990 ,002a

13,763 9 1,52941,273 10


Modelo1

Suma decuadrados gl


Variables predictoras: (Constante), X1a.

Variable dependiente: Y1b.

Coeficientesa

3,000 1,125 2,667 ,026,500 ,118 ,816 4,241 ,002

(Constante)X1

Modelo1

B Error típ.


Beta

Coeficientes

estandarizados

t Sig.

Variable dependiente: Y1a.

El valor de R2, la tabla del análisis de la varianza, los estimadores de los

coeficientes y los test

de la t para los

coeficientes son

idénticos para los cuatro conjuntos de datos.

373




El análisis de los residuos consiste en determinar:• Si su distribución es aproximadamente normal.

• Si su variabilidad es constante y son independientes.• Si presentan evidencia de una relación no lineal entre las variables.

• Si existen observaciones atípicas o heterogéneas.

Para contrastar la normalidad de los residuos, se utilizan las representaciones gráficas y los contrastes vistos en el capítulo 2.

La heterodasticidad (varianza no constante) puede detectarse con el gráfico de los residuos en función de los valores predichos.

374




Este gráfico permite detectar una posible relación no lineal entre las variables y la existencia de valores atípicos.

Variable dependiente: Pérdida de peso

Regresión Valor pronosticado tipificado

2,01,51,0,50,0-,5-1,0-1,5

Reg

resi

ón R

esid

uo ti

pific

ado

2,0

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Se espera que los residuos: • se encuentren entre los

valores -2 y 2,• estén aleatoriamente

distribuidos alrededor del 0, y

• que no muestren ningún patrón.

375




Variable dependiente: Y4


3,53,02,52,01,51,0,50,0-,5

Reg

resi

ón R

esid

uo ti

pific

ado

2,0

1,5

1,0

,5

0,0

-,5

-1,0

-1,5



2,01,51,0,50,0-,5-1,0-1,5-2,0

Reg

resi

ón R

esid

uo ti

pific

ado

3

2

1

0

-1



2,01,51,0,50,0-,5-1,0-1,5-2,0

Reg

resi

ón R

esid

uo ti

pific

ado

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0



2,01,51,0,50,0-,5-1,0-1,5-2,0

Reg

resi

ón R

esid

uo ti

pific

ado

2,0

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Falta de linealidad

Datos atípicosObservaciones influyentes

376


Porcentaje de humedad relativa

100806040200-20

Pér

dida

de

peso

10

9

8

7

6

5

4

3

Predicción


Cuando el modelo obtenido explica bien el comportamiento de las dos variables consideradas, la ecuación sirve para predecir la respuesta esperada para otros valores conocidos de la variable explicativa.

¿Cuál es la pérdida de peso esperada si el porcentaje de humedad relativa es del 100%?Pérdida de peso = 8.704 -

0.053·100 = 3.404mg

7.644

377


Predicción


Para predecir hay que tener en cuenta que:

el ajuste represente bien el comportamiento conjunto de las dos variables.

los valores de la variable independiente deben sustituirse en las mismas unidades de medida en las que se ha obtenido el ajuste.

los valores para los que se desea predecir deben estar próximos a los utilizados para estimar el modelo.

sólo se puede predecir la variable respuesta conocida la variable explicativa y no en el otro sentido.

378


Comentarios finales


En resumen, la metodología para construir un modelo de regresión consiste en:

Representar gráficamente las observaciones para obtener una idea intuitiva de la relación entre las variables.

Estimar los parámetros del modelo.

Construir intervalos de confianza para los parámetros y contrastar la hipótesis de linealidad.

Contrastar las hipótesis de partida mediante el análisis de los residuos. Si se detectan problemas, replantear el modelo.

379


Comentarios finales


Para la interpretación del modelo regresión es importante tener en cuenta que:

Una alta correlación entre dos variables no implica causalidad. A veces, es debida a la existencia de una tercera variable que actúa sobre Y

y X

moviéndolas en la misma dirección.

La falta de relación significativa no implica ausencia de relación. Puede ser debida a una relación no lineal o a que el rango de variación de la variable X sea pequeño y el error experimental alto.

Si los datos provienen de un experimento es posible evitar el efecto de variables no incluidas en el modelo mediante aleatorización. Además, si se controlan los valores de la variable explicativa es posible observar relaciones causa-efecto. 380



• Dibujar nubes de puntos.

• Dibujar una recta, una parábola o una cúbica sobre la nube de puntos.

• Obtener el valor del coeficiente de determinación general.

PRÁCTICA 10 : ANÁLISIS DE LA REGRESIÓN: ANÁLISIS GRÁFICO

381



• Obtener la ecuación de la recta de regresión y los intervalos de confianza asociados a los parámetros.

• Obtener el test t

para la significatividad de los parámetros.

• Calcular el test F

del análisis de la varianza.

• Calcular el coeficiente de determinación lineal.

• Representar y analizar gráficamente los residuos.

PRÁCTICA 11 : ANÁLISIS DE LA REGRESIÓN: REGRESIÓN SIMPLE

382



4.3 El modelo lineal general

• Introducción

• Hipótesis básicas

• Estimación de los parámetros

• Contrastes para los parámetros

• El coeficiente de determinación y el coeficiente de correlación lineal

• Métodos de selección de variables explicativas

383


Introducción


El modelo general de regresión es la extensión para k variables explicativas del modelo de regresión simple para una.

Cada observación de la variable respuesta puede representarse en función de los valores de las variables explicativas mediante la ecuación:

ikik2i21i10i xxxy

donde y y

son variables aleatorias, x1 , x2 ,..., xk son variables fijas con valores conocidos y 0 , 1 ,...,k son los parámetros del modelo.

384


Hipótesis básicas


Los errores deben verificar las mismas propiedades que en el caso de regresión simple:

su media es 0,

su varianza es constante,

son independientes entre sí, y

su distribución es normal.

El valor de 0 es el valor medio de la respuesta cuando todas las variables explicativas son iguales a 0. El valor de j es el cambio medio en la respuesta cuando Xj aumenta en una unidad y el resto de las variables permanecen fijas.

385


Hipótesis básicas


Además, se asume que:

para cualquier conjunto de valores de las variables explicativas que caen dentro del rango de observación, la ecuación lineal proporciona una aproximación razonable de la verdadera relación entre las variables,

el número de observaciones es mayor que el número de variables explicativas incluidas en el modelo, es decir, mayor que el número de parámetros, y

las variables explicativas tienen valores conocidos, están medidas sin error y son linealmente independientes entre sí.

386




En un estudio sobre la relación entre el crecimiento y la composición mineral del follaje de alerces japoneses, se plantaron una serie de árboles en suelo de diferentes tipos. Se seleccionaron 26 árboles. Para cada uno de ellos se midió la altura en centímetros y la concentración de nitrógeno (N), fósforo (F), potasio (P) y cenizas residuales (C) en los nudos de un vástago en partes por millón.

Si se asume una relación lineal entre las variables, la ecuación que se desea estimar es

Alturai

= 0

+ 1

·Ni

+ 2

·Fi

+ 3

·Pi

+ 4

·Ci

+ i

387




n

1i

2

kik1i10i xˆxˆˆy

Para estimar los parámetros se utiliza el criterio de los mínimos cuadrados, que consiste en encontrar que minimicen:

Altura = -185.330 + 97.764·N + 256.975·F +

126.573·P + 40.277·C

Coeficientesa

-185,330 36,298 -260,816 -109,84497,764 24,572 46,664 148,864

256,975 169,905 -96,363 610,312126,573 46,429 30,019 223,127

40,277 36,615 -35,867 116,421

(Constante)NitrógenoFósforoPotasioCenizas residuales

Modelo1

B Error típ.


Límite inferiorLímite

superior

Intervalo de confianza paraB al 95%

Variable dependiente: Altura en cma.

k10ˆ,,ˆ,ˆ

388




Así como en regresión lineal simple, el modelo se representa mediante una recta, en regresión lineal múltiple con dos variables el modelo se representa mediante un plano y con tres o más variables con un hiperplano.

389


Contrastes para los parámetros


El primer contraste que se plantea es:

frente a

0:H 210 k

Es decir, la hipótesis nula es que ninguna variable explicativa influye en la respuesta (no existe relación lineal) frente a la alternativa de que al menos una de las variables es influyente.

0algún:H i1

390




Como en regresión simple, la variabilidad total de la respuesta puede descomponerse como suma de la variabilidad recogida por el modelo más la variabilidad residual por lo que, si todos los parámetros son simultáneamente iguales a 0, tenemos

1-k-nk,2R

F~s

kVE

donde k es el número de variables explicativas en el modelo y

1-k-ns

n

1i

2i

2R

ees la varianza residual.

391


Contraste para los parámetros


ANOVAb

197832,430 4 49458,107 34,481 ,000a

30121,916 21 1434,377227954,346 25


Modelo1

Suma decuadrados gl


Variables predictoras: (Constante), Cenizas residuales, Nitrógeno , Potasio,Fósforo

a.

Variable dependiente: Altura en cmb.

Se rechaza la hipótesis nula H0 : 1 = 2 = 3 = 4 =0, esto es, que alguna de las variables consideradas explica la altura de los árboles. Al menos una de ellas influye en la respuesta.

392




Sobre cada parámetro asociado a una variable independiente se realiza el contraste j = 0, que implica que la variable Xj no afecta a la respuesta y no debería aparecer en la ecuación.

Para cada parámetro el estadístico de prueba se distribuye según una t de Student con n-k-1 grados de libertad.

Coeficientesa

-185,330 36,298 -5,106 ,00097,764 24,572 ,436 3,979 ,001

256,975 169,905 ,188 1,512 ,145126,573 46,429 ,330 2,726 ,013

40,277 36,615 ,137 1,100 ,284

(Constante)NitrógenoFósforoPotasioCenizas residuales

Modelo1

B Error típ.


Beta

Coeficientesestandarizados

t Sig.

Variable dependiente: Altura en cma. 393




CONTRASTE CONJUNTO

Significativo

CONTRASTES INDIVIDUALES

Todos significativos

Algunos significativos

Verificar las hipótesis

Multicolinealidad

Ninguno significativo

Eliminar variables394




Se define el coeficiente de determinación múltiple R2 como la proporción de variabilidad total de la variable respuesta Y explicada por las variables independientes X1 , X2 ,..., Xk .

Su raíz cuadrada se denomina coeficiente de correlación múltiple.

R2 no sirve por sí solo para comparar la eficacia de distintas regresiones puesto que, siempre aumenta al introducir nuevas variables, aunque su efecto no sea significativo.

Si el modelo contiene muchos parámetros y la muestra es pequeña, R2 será alto.

Hay que tener en cuenta que:

395




Para poder comparar la bondad de modelos con distinto número de variables explicativas, se utiliza el coeficiente de determinación corregido por los grados de libertad.

2Y

2R2

ss1corregido R

Resumen del modelob

,932a ,868 ,843 37,87Modelo1



Variables predictoras: (Constante), Cenizas residuales,Nitrógeno , Potasio, Fósforo

a.

Variable dependiente: Altura en cmb. 396


Métodos de selección de variablesCAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN

Cuando tenemos muchos potenciales predictores (es decir, k es grande) es difícil determinar cuáles deben estar en el modelo de regresión ya que muchas de ellas pueden tener relación con Y (coeficiente de correlación entre las variables X y la variable Y significativo) y las variables tener mucha relación entre sí.

Si se ajusta el modelo con todas las X saldrán muchos coeficientes no significativos y no está claro la forma de proceder para quedarse con el mejor subconjunto de las variables X para explicar Y.Hay métodos iterativos implementados en los programas de ordenador que utilizan criterios de R cuadrado, R cuadrado ajustado o errores de predicción para obtener un buen subconjunto de las X.

397


Métodos de selección de variablesCAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN

Se suele trabajar de 3 formas alternativas:• Selección hacia delante (forward): se parte con un modelo sin ninguna X y en cada iteración se introduce la variable X más importante que no esté en el modelo hasta que de las que quedan fuera ninguna aporta nada significativo.• Selección hacia atrás (backward): se parte con un modelo con todas las potenciales variables explicativas X y en cada iteración se quita la menos importante, hasta que todas las que quedan en el modelo son importantes.• Selección paso a paso (stepwise): mezcla de los anteriores donde en un paso se introduce una variable y en el siguiente se saca otra.Ha de entenderse que estos métodos son una ayuda pero no siempre proporcionan el mejor modelo, que ha de basarse en el conocimiento del problema, el chequeo de las hipótesis, etc. 398



4.4 Diagnosis y validación del modelo de regresión múltiple

• Introducción

• Análisis de los residuos

• La hipótesis de normalidad

• Heterocedasticidad

• Multicolinealidad

• Observaciones influyentes y observaciones atípicas

• Autocorrelación

• Error de especificación399


Introducción


El fallo de algunas de las hipótesis necesarias para la construcción del modelo afectará a sus propiedades.

Multicolinealidad: las variables explicativas son muy dependientes entre sí.

Los problemas frecuentes son:

Error de especificación: la relación entre las variables no es lineal, faltan o sobran variables en el modelo.

Falta de normalidad.

Heterocedasticidad: la varianza de los residuos no es constante.

Autocorrelación: los residuos no son independientes.

Existencia de valores extremos que influyen en la estimación.

400




Los residuos aportan información sobre si se cumplen las hipótesis de linealidad, normalidad, homocedasticidad e independencia y permiten detectar observaciones influyentes y/o atípicas.

El histograma y el gráfico P-P (Q-Q) para comprobar la hipótesis de normalidad y detectar valores atípicos.

Regresión Residuo tipificado

1,881,25,62-,02-,65-1,28

Histograma

Variable dependiente: Altura en cm

Frec

uenc

ia

12

10

8

6

4

2

0

Desv. típ. = ,92 Media = 0,00

N = 26,00

Gráfico P-P normal de regresión Residuo tipificado


Prob acum observada

1,00,75,50,250,00

Pro

b ac

um e

sper

ada

1,00

,75

,50

,25

0,00

Para comenzar esta fase, debemos tener un modelo ajustado en el que las variables incluidas sean significativas.

401




El gráfico de los residuos sobre los valores predichos para detectar falta de linealidad, heterocedasticidad y valores atípicos.

Gráfico de dispersión



3210-1-2

Reg

resi

ón R

esid

uo ti

pific

ado

3

2

1

0

-1

-2

Los residuos se encuentran aleatoriamente distribuidos alrededor del cero, no muestran ningún patrón ni la existencia de valores atípicos.

402




X

706050403020

Res

iduo

s

10

0

-10

-20

X

4,03,53,02,52,01,51,0,5

Res

iduo

s

2,0

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

Heterocedasticidad Falta de linealidad

403




Los gráficos de residuos parciales sobre cada una de las variables explicativas ayudan a comprobar la importancia de cada variable en el modelo y a identificar si la falta de linealidad o heterocedasticidad, en su caso, es debida a alguna variable explicativa.

El gráfico de residuos parcial de la variable Xj muestra el diagrama de dispersión de la variable Y frente a Xj una vez quitada la influencia de las demás variables explicativas.

Si el gráfico muestra relación, esa variable aporta información para el conocimiento de la respuesta.

404




Gráfico de regresión parcial


Potasio

,4,3,2,1-,0-,1-,2-,3

Altu

ra e

n cm

200

100

0

-100



Cenizas residuales

,5,4,3,2,1-,0-,1-,2-,3

Altu

ra e

n cm

100

80

60

40

20

0

-20

-40

-60

-80



Nitrógeno

,6,4,2-,0-,2-,4-,6

Altu

ra e

n cm

80

60

40

20

0

-20

-40

-60

-80

-100



Fósforo

,2,10,0-,1

Altu

ra e

n cm

80

60

40

20

0

-20

-40

-60

-80

La altura aumenta al aumentar las cantidades de nitrógeno y potasio.

Las cantidades de fósforo y cenizas residuales no parecen aportar mucha información.

405


La hipótesis de normalidad


La hipótesis de normalidad es necesaria para realizar contrastes de significación y obtener intervalos de confianza para los parámetros.

La ligera falta de normalidad hace que los resultados de los contrastes sean sólo aproximados y las estimaciones de los parámetros poco eficientes, con lo que no se extraerá la máxima información posible de la muestra.

Si la desviación de la normalidad es importante, entonces muchas de las propiedades (en particular los tests de hipótesis y los intervalos) dejan de ser válidos.

406


La hipótesis de normalidad


La falta de normalidad puede ser debida a:

La presencia de unas pocas observaciones atípicas o una distribución fuertemente asimétrica.

Observaciones heterogéneas que producen una distribución más apuntada que la normal y que pueden ser debidas a una mala especificación del modelo.

Las soluciones al problema de falta de normalidad son:

Transformar los datos.

Plantear un modelo con distribución de los errores distinta de la normal (modelos lineales generalizados).

407


Heterocedasticidad


La heterocedasticidad es el fallo en la hipótesis de que la varianza de los residuos sea constante.Los estimadores serán insesgados, pero dejarán de ser eficientes. Los errores de estimación no son válidos y los contrastes dejan de ser aplicables.

Los gráficos de los residuos sobre los valores predichos o los gráficos de residuos parciales permiten detectar el problema.

Las posibles soluciones son:

transformar las variables, o

aplicar la técnica de mínimos cuadrados ponderados.

408


Multicolinealidad


Las estimaciones de los parámetros asociados a las variables relacionadas serán poco precisas y muy dependientes entre sí. Por tanto, pequeñas modificaciones en la muestra o en el modelo, afectarán mucho a los valores de los estimadores y a sus varianzas. Además, en ocasiones se pueden obtener estimaciones de los parámetros con signo cambiado.Correlaciones altas entre parejas de variables explicativas son signo de multicolinealidad, puesto que muestran un alto grado de asociación entre las variables dos a dos. Pero si una de ellas es función de dos o más de las otras, no será detectado por el coeficiente de correlación lineal. Existen otros estadísticos para determinar la colinealidad en este caso.

409


Multicolinealidad


Correlaciones

,602**,001

26,546** ,704**,004 ,000

26 26,651** ,671** ,671**,000 ,000 ,000

26 26 26

Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)N

Nitrógeno

Fósforo

Potasio

Cenizas residuales

Nitrógeno Fósforo PotasioCenizas

residuales

La correlación es significativa al nivel 0,01 (bilateral).**.

La matriz de correlaciones muestra valores altos y significativamente no nulos para todas las parejas de variables.

Si en la ecuación de regresión se incluyen, por ejemplo, el fósforo y el potasio, parte de la variación explicada por una de ellas en un ajuste con una sola de las variables, será explicada por la otra cuando se incluyan las dos. 410


Multicolinealidad


Los errores de estimación de los parámetros aumentan al aumentar el número de variables incluidas en el modelo.

Las estimaciones son dependientes entre sí porque los valores de los coeficientes cambian mucho según las variables que se hayan incluido.

-185.330

Constante

97.764

Nitrógeno PotasioFósforo Cenizas

256.975 126.573 40.277

(24.572) (196.905) (46.429) (36.615)

-193.070 107.797 304.235 143.129

(22.925) (165.167) (44.131)

-180.868 123.264 188.685

(22.414) (38.404)

R cuadradocorregida

Coeficiente

Error

Coeficiente

Error

Coeficiente

Error

0.841

0.825

0.843

411


Multicolinealidad


Nitrógeno

Fósforo

Potasio

Cenizas residuales

Altura en cm

Las variables explicativas son muy dependientes dos a dos, por tanto existe el problema de multicolinealidad

al menos de este orden.

412


Multicolinealidad


¿Se necesitan las cuatro variables independientes para explicar la altura de los árboles?

¿Se detectan valores atípicos?

413


Multicolinealidad


Las variables explicativas son muy dependientes.

Observa que la cantidad de cenizas residuales aumenta al aumentar las cantidades del resto de componentes.

414


Observaciones influyentes y observaciones atípicas


Una observación influyente puede determinar por sí sola el modelo y no tiene por qué ser atípica.

X4

20181614121086

Y4

14

12

10

8

6

4

Cuando se utilizan varias variables explicativas es más difícil detectar estos valores.El gráfico de los residuos sobre los valores predichos no sirve para detectar valores influyentes, porque sus residuos serán pequeños, aunque sí valores atípicos.

Para detectar valores influyentes pueden utilizarse medidas de influencia como la distancia de Cook.

415


Autocorrelación


La dependencia entre los residuos del modelo es un problema frecuente cuando se estudian variables que evolucionan en el tiempo (y en el espacio: geoestadística).

Los efectos de la dependencia son estimadores y predicciones ineficientes, y contrastes no válidos.

Para identificar el problema se utiliza el gráfico de los residuos sobre el tiempo para identificar autocorrelación de primer orden y el análisis de series temporales para modelos más complejos.

416


Autocorrelación


El contenido de hierro en las escorias producidas por los altos hornos pueden determinarse mediante un test

químico o estimarse mediante un test

magnético más barato y rápido de aplicar. El objetivo es estudiar si los resultados del test

químico pueden predecirse a partir de

los obtenidos con el test

magnético y la naturaleza de la relación entre estas dos cantidades. Las observaciones se muestran en el orden en el que han sido recogidas ¿tiene esto algún efecto?

417


tiempo

6050403020100

Stan

dard

ized

Res

idua

l

2

1

0

-1

-2

Autocorrelación


El gráfico de los residuos respecto del instante en el que ha sido tomada la observación muestra un patrón de autocorrelación

negativa, por lo que se confirma que el tiempo influye en la medición.

418


Error de especificación


Se comete error de especificación cuando los errores del modelo no tienen esperanza nula, es decir, se establece una relación errónea de la respuesta en función de las variables explicativas:

Incluir variables irrelevantes (aumenta el error de estimación y la posibilidad de multicolinealidad).

Excluir variables relevantes (estimadores sesgados, contrastes no adecuados, residuos con malas propiedades).

Error en la transformación de las variables.

Afecta al sesgo de los estimadores, al error de estimación, a los contrastes sobre los parámetros y a los residuos.La estructura de los residuos cambiará al excluir variables relevantes y cuando no se elige la transformación adecuada.

419


CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN4.5 Extensiones del modelo de regresión

Regresión con variables explicativas cualitativas.

El análisis de la covarianza para analizar la posible interacción entre variables cualitativas y cuantitativas de un modelo de regresión.

Regresión con variable respuesta cualitativa: Modelo logístico o modelo Logit y modelo Probit que se utilizan, por ejemplo, para ajustar la relación entre la dosis administrada de un medicamento y la respuesta al tratamiento y para estimar las dosis que inducen niveles específicos de respuesta.

Modelos polinómicos.

Regresión no lineal.

420


• SAMPRIT CHATTERJEE, ALI S. HADI y BERTRAM PRICE (2000), Regression Analysis by example(3ª Ed.), John Wiley and Sons.


Bibliografía

421



• Obtener la ecuación de la recta de regresión y los intervalos de confianza asociados a los parámetros.

• Obtener el test t para la significatividad de los parámetros.

• Calcular el test F del análisis de la varianza.

• Calcular el coeficiente de determinación lineal.

• Representar y analizar gráficamente los residuos.

PRÁCTICA 12 : ANÁLISIS DE LA REGRESIÓN: REGRESIÓN MÚLTIPLE

422

CAPÍTULO 1: INTRODUCCIÓN Y CONCEPTOS FUNDAMENTALES · CAPÍTULO 1: ESTADÍSTICA DESCRIPTIVA. 1.2 Estadística descriptiva • Introducción. • Unidad estadística o individuo.

Documents