MANUAL DE PRÁCTICAS DE ORDENADOR - …mcbueso/estadistica_aplicada... · Para la realización de las prácticas de ordenador se usará el programa Statistix. La primera práctica

ASIGNATURA: ESTADISTICA APLICADA Titulación: Ingeniería Técnica Agrícola Profesora: María del Carmen Bueso Sánchez Curso Académico: 2007/2008 MANUAL DE PRÁCTICAS DE ORDENADOR

Estadística Aplicada. Ingeniería Técnica Agrícola. Curso Académico 2007-2008. 2

-

Práctica 1. Introducción al programa Statistix. Manejo de ficheros de datos. Fichero de datos: nitrato2.txt.

Práctica 2. Estadística Descriptiva.

Práctica 3. Ajuste por mínimos cuadrados. Regresión lineal y no lineal.

Práctica 4. Distribución normal. Fichero de datos: diam.dat.

Práctica 5. Simulación de variables aleatorias.

Práctica 6. Muestreo. Estimación puntual y por intervalos de confianza. Fichero de datos: poblacion.txt.

Práctica 7. Contrastes de hipótesis paramétricas.

Práctica 8. Análisis de conjuntos de datos. Ficheros de datos: pesticida.txt, alfalfa.txt.


Práctica 1: Introducción al programa Statistix. Manejo de ficheros de datos.

Para la realización de las prácticas de ordenador se usará el programa Statistix. La primera práctica tiene como objetivo ver cómo introducir el conjunto de datos, objeto de estudio, y cómo realizar un análisis descriptivo de los datos introducidos. Este análisis incluye tabulación de datos, representaciones gráficas y cálculo de diversos estadísticos descriptivos. El programa Statistix es un paquete estadístico del que vamos a utilizar la versión 8 para Windows. Para ejecutarlo se pincha dos veces sobre el icono del programa, en el escritorio de Windows. La primera presentación es una tabla de datos, donde se deberán introducir los datos para su posterior cálculo estadístico. En la presentación del menú principal se encuentran las siguientes opciones:

File Edit Data Statistics Preferences Window Help File: Permitirá seleccionar las opciones de grabar en un fichero los datos introducidos, leer los datos de un fichero, imprimir y otras opciones de manejo de ficheros usuales en cualquier programa. Edit: Permitirá copiar, cortar y pegar uno o varios datos seleccionados con el ratón, de una o varias columnas. Data: Permitirá introducir variables y sus datos, así como distintas opciones de manejo de los datos (seleccionar, omitir,…, para realizar los cálculos estadísticos con una parte de los mismos sin la pérdida de los restantes). Statistics: Permitirá realizar los cálculos estadísticos que se precisen para la resolución de los problemas planteados. Preferences: Permitirá modificar las opciones por defecto del tratamiento de datos y gráficos. Window: Permitirá seleccionar diferentes opciones para la presentación de las ventanas que irán apareciendo a lo largo de cada sesión. Help: Permitirá seleccionar las opciones de ayuda sobre el programa Statistix.


La primera etapa consiste en introducir los datos. Para ello, o bien introducimos los datos manualmente o bien se importan a nuestra hoja de cálculo desde un fichero que ya existe (fichero de texto o cualquier fichero que pueda ser importado por el programa Statistix). Introducción de datos manualmente. En este caso debemos introducir, en primer lugar, los nombres de las variables y el tipo de cada una. Para ello se selecciona la opción Insert -> Variable del menú Data. En el cuadro de diálogo, aparecen dos ventanas, en la de la izquierda encontramos una lista de las variables que ya están definidas mientras que en la de la derecha podemos introducir el nombre de la variable o de las variables que deseamos definir. El tipo de variable se introduce junto al nombre de la variable, si es necesario. Existen cuatro tipos de variables en Statistix: real, entero, fecha y carácter. El tipo se especifica entre paréntesis directamente después del nombre de la variable con los códigos siguientes:

(r): real (opción por defecto) (i): entero (d): fecha (mes/día/año) (s#): #caracteres

Cuando se hayan definido todas las variables se pasa a introducir manualmente los valores de los datos. Ejemplo. Introducir los valores de la tabla adjunta relativos a mediciones repetidas de contenido en nitratos de una muestra de agua.

Valores (µg/l) Frecuencias 0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52

1 2 4 8 8 10 5 2

Para ello definimos una variable con el nombre CONC (por ejemplo), que tome valores reales y empezamos a introducir los datos. Los valores de cada variable se introducen colocándose con el ratón en la casilla deseada y desplazándose de casilla a casilla con las flechas del cursor. En el caso en que se deba introducir repetidamente el mismo valor podemos utilizar la opción Fill del menú Data, que nos permite especificar el valor que se quiere introducir junto con el número de casillas que debe ocupar.


Si se quiere añadir algún comentario sobre el conjunto de datos, sobre alguna variable (unidades de medida) o sobre algún valor en particular, se puede utilizar la opción Labels del menú Data. Después de introducir los datos se aconseja guardar los datos en un fichero utilizando la opción Save o Save as del menú File. Como en cualquier programa bajo Windows, se puede seleccionar la carpeta donde guardar el fichero. Los ficheros de datos en Statistix tienen extensión .sx. Para ilustrar la opción Save o Save as, guardar los datos introducidos anteriormente en un fichero llamado nitrato.sx. Una vez que se han introducido los datos es posible añadir entre dos filas de una variable uno o varios datos nuevos utilizando la opción Insert -> Cases del menú Data. Para ello se tiene que especificar el número de casilla que ocupará el primer dato nuevo y el número de casillas nuevas que hay que insertar. También es posible eliminar bloques de datos o alguna de las variables introducidas con la opción Delete. Por ejemplo, se pueden insertar dos nuevos datos entre las filas 13 y 14 y después eliminarlos. Importar los datos desde un fichero. En muchas ocasiones, para poder trabajar con los datos debemos importarlos desde un fichero fuente. Supongamos, por ejemplo, que en una segunda sesión se han realizado 20 nuevas mediciones del contenido de nitrato de la misma muestra de agua y que los resultados se encuentran en el fichero nitrato2.txt. Para poder disponer de estos datos debemos utilizar la opción Import dentro del menú File y buscar dentro de las carpetas el fichero. Una vez seleccionado el fichero aparece la ventana de diálogo


En el cuadro de la izquierda aparecen las variables ya definidas. En el cuadro Variables Names, debemos activar la opción que corresponda a nuestra situación.

Read Names From File: Los nombres de las variables aparecen en la primera línea del fichero fuente. Generates Names: Statistix genera los nombres de manera automática. Enter Names Manually: El fichero fuente no contiene los nombres de las variables, sólo contiene los datos, y hay que introducir los nombres en el cuadro Import Variable Names.

En nuestro caso, nos encontramos en la tercera opción, activamos esta opción e introducimos el nombre de la variable, p.e. CONC2 y pinchamos el botón OK. En nuestra hoja de cálculo aparece la nueva columna con los 20 datos. CONC y CONC2 representan valores de la misma variable. Si queremos agrupar todos los valores en una única variable utilizamos la opción Stack del menú Data. Si activamos esta opción aparece la siguiente ventana: En el cuadro Source Variables pasamos las variables que queremos apilar y en el cuadro Destination Variable escribimos el nombre de la nueva variable que agrupará todos los datos. Esta nueva variable podría llamarse CONCTOT. En el cuadro Class Variable (opcional) podemos escribir el nombre de una nueva variable cuyos valores enteros corresponden al número de la columna original de la que proviene el dato de la variable destino. Esta variable de clasificación podría llamarse SESION. Se pincha OK y tendremos en la hoja de cálculo dos nuevas variables. Si se desea modificar el nombre de variables ya existentes utilizamos la instrucción Rename Variables del menú Data.


Exploración de los datos. Una vez que tenemos disponibles los datos en nuestra hoja de cálculo podemos realizar una primera exploración de los mismos. Para ello se utiliza la opción Statistics del menú principal. Empezamos con la representación de los datos en un histograma para tener una primera visión global del comportamiento de los datos. Para ello, seleccionamos la opción Histogram dentro de Summary Statistics en el menú Statistics. En el cuadro de la izquierda (Variables) aparece la lista de las variables que están definidas. Se seleccionan las variables para las que se desee representar el histograma y las pasamos al cuadro Histogram Variables. Si pinchamos la opción OK directamente, Statistix realiza la elección de las clases del histograma. Si deseamos modificar las clases que utiliza Statistix por defecto, en el cuadro X-Axis especificamos el rango de valores del eje de abcisas con las opciones Low y High y la amplitud de cada clase con la opción Step. Si deseamos representar la curva acumulativa o de distribución seleccionamos Cumulative Distribution dentro del cuadro Graph Type. Con la opción Box and Whisker Plots dentro de Summary Statistics en el menú Statistics, podemos realizar un diagrama de caja-bigotes para los datos, muy útil para detectar valores atípicos. La ventana de diálogo que aparece con esta opción sería En el cuadro Model Specification se especifica el modelo para los datos. Para la opción Categorical debemos incluir la variable dependiente en la opción Dependent Variable y una variable de clasificación para los datos en la opción Categorical Variable. Este modelo nos permite comparar los gráficos para los datos de la variable dependiente clasificados según la variable categórica introducida. Para la opción Table debemos introducir en el cuadro Table Variables todas las variables para las que se quiera realizar el diagrama de caja-bigotes.


Para ilustrar todo lo anterior vamos a realizar los diagramas de caja-bigotes para los datos de la concentración de nitrato. En primer lugar, especificamos el modelo considerando dentro de la opción Categorical la variable CONCTOT como variable dependiente y la variable SESION como variable de clasificación. En segundo lugar, consideramos la opción Table y especificamos las variables CONC y CONC2 dentro del cuadro Table Variables. ¿Aparecen datos atípicos? Después de representar los datos gráficamente pasamos a obtener las medidas de centralización y de dispersión para nuestro conjunto de datos. Para ello, seleccionamos la instrucción Descriptive Statistics dentro de la opción Summary Statistics del menú Statistics y pasamos las variables que nos interesan al cuadro Descriptive Variables y activamos en el cuadro Statistics to Report las casillas correspondientes a las medidas deseadas. Si deseamos estudiar los datos considerando una variable de clasificación, se introduce dicha variable en el cuadro Grouping Variable. Si decidimos no tener en cuenta los datos atípicos en el análisis estadístico debemos identificarlos para posteriormente eliminarlos. Una vez identificados, podemos eliminarlos (perdiendo dichos datos) o bien podemos omitirlos considerando la opción Omit/Select/Restore Cases dentro del menú Data. Para ello especificamos la condición lógica que deben satisfacer las casillas para que sean omitidas. Por ejemplo, para omitir todas las filas para las que CONCTOT es mayor que 0.51, utilizamos la instrucción

Omit(CONCTOT > 0.51)

O bien, podemos omitir una fila determinada con la instrucción

Omit(case = #)

Para restaurar los datos omitidos utilizamos la opción Restore dentro del mismo cuadro de diálogo.


Práctica 2: Estadística Descriptiva.

Para la resolución de los problemas de Estadística Descriptiva utilizaremos la opción Summary Statistics dentro del menú Statistics en el menú principal.

La opción Summary Statistics incluye las siguientes instrucciones:

� Descriptive Statistics. Cálculo de algunas medidas estadísticas: media, varianza, coeficiente de variación, mínimo/máximo,…

� Frequency Distribution. Tabulación de los datos en una tabla de frecuencias. � Histogram. Representación de los datos mediante un histograma. Representación de la

curva acumulativa o de distribución. � Pie Chart. Representación de datos mediante un diagrama de sectores.

� Stem and Leaf Plot. Representación de los datos en una diagrama de tallos y hojas.

� Percentiles. Cálulo de percentiles.

� Box and Whisker Plots. Representación de los datos mediante un diagrama caja-bigotes.

� Error Bar Chart. Representaciones gráficas para comparar diferentes grupos de datos.

� Cross Tabulation. Tabulación de datos bidimensionales en una tabla de correlación.

� Scatter Plot. Representación de datos bidimensionales mediante un diagrama de dispersión.

� Breakdown. Cálculo de algunas medidas estadísticas para un conjunto de datos clasificados

en diferentes categorías. Para ilustrar estas instrucciones resolvemos paso a paso un ejemplo.


Ejemplo. Una compañía algodonera utiliza dos tipos de fertilizante para tratar la planta de algodón. Para comparar su eficacia fumiga, con cada uno de los fertilizantes, un cierto número de parcelas de terreno de la misma calidad y de igual superficie. Al recoger la cosecha mide el rendimiento de la semilla (peso por unidad de superficie), obteniéndose las siguientes observaciones:

Tipo de fertilizante Rendimiento

1 2

54 57 55 48 52 56 56 60 56 56 57 58 60 58 60 62 65 59 61 59 43 43 46 47 45 46 47 48 49 44 48 46 53 49

1. Introducir los datos en un fichero de datos.

Para introducir los datos definimos dos variables, por ejemplo, Rend_1 y Rend_2, utilizando la opción Insert -> Variables dentro del menú Data. Una forma alternativa de introducir estos datos consiste en definir una variable denominada, por ejemplo, Rend, que incluya todos los valores observados para el rendimiento y otra variable de clasificación denominada, por ejemplo, Fert, que tome el valor 1 si la planta se trató con el primer fertilizante y el valor 2 si se trató con el segundo fertilizante. 2. Para cada tipo de fertilizante, calcular las siguientes medidas estadísticas:

a. Media. b. Mediana. c. Primer y tercer cuartil. d. Cuasivarianza y cuasidesviación típica.

Activamos la opción Descriptive Statistics, y aparece una ventana de diálogo seleccionamos las variables Rend_1 y Rend_2 y las medidas que deseamos obtener en el cuadro Statistics to Report. Los resultados aparecen en la ventana siguiente:

Descriptive Statistics

Rend_1 Rend_2 N 20 14 Mean 57.450 46.714 SD 3.7060 2.6726 Variance 13.734 7.1429 Minimum 48.000 43.000 1st Quarti 56.000 44.750 Median 57.500 46.500 3rd Quarti 60.000 48.250 Maximum 65.000 53.000

Nota: Los valores de la varianza y de la desviación típica que proporciona el programa Statistix corresponden con la cuasivarianza y cuasidesviación típica, respectivamente.


Si deseamos obtener estas medidas para todos los valores observados debemos apilar las dos variables en una variable utilizando la opción Stack del menú Data. Para este caso, obtenemos la ventana de resultados Descriptive Statistics Rend N 34 Mean 53.029 SD 6.2836 Variance 39.484 Minimum 43.000 1st Quarti 47.000 Median 54.500 3rd Quarti 58.250 Maximum 65.000

3. Construir la tabla de frecuencias una vez seleccionadas las clases. Para construir la tabla de frecuencias utilizamos la opción Frequency Distribution. Seleccionamos las variables para las que se desee obtener las frecuencias absolutas y acumuladas. Si los datos se quieren agrupar por intervalos se debe especificar el recorrido de la variable con la opción Low y High y la amplitud de los intervalos con la opción Step.

Frequency Distribution of Rend Cumulative Low High Freq Percent Freq Percent 42 46 7 20.6 7 20.6 46 50 7 20.6 14 41.2 50 54 3 8.8 17 50.0 54 58 9 26.5 26 76.5 58 62 7 20.6 33 97.1 62 66 1 2.9 34 100.0 Total 34 100.0

Frequency Distribution of Rend_1 Cumulative Low High Freq Percent Freq Percent 42 46 0 0.0 0 0.0 46 50 1 5.0 1 5.0 50 54 2 10.0 3 15.0 54 58 9 45.0 12 60.0 58 62 7 35.0 19 95.0 62 66 1 5.0 20 100.0 Total 20 100.0


Frequency Distribution of Rend_2 Cumulative Low High Freq Percent Freq Percent 42 46 7 50.0 7 50.0 46 50 6 42.9 13 92.9 50 54 1 7.1 14 100.0 54 58 0 0.0 14 100.0 58 62 0 0.0 14 100.0 62 66 0 0.0 14 100.0 Total 14 100.0

4. Representar el histograma para el rendimiento obtenido en la plantación.

Con la opción Histogram representamos el histograma de frecuencias. Si deseamos modificar las clases que utiliza Statistix por defecto, especificamos los valores mínimo y máximo con las opciones Low y High y la amplitud de cada clase con la opción Step.

Para todos los valores observados, el histograma correspondiente sería 5. Representar el histograma para el rendimiento obtenido utilizando cada tipo de fertilizante.

Para Rend_1 y Rend_2 se obtienen los histogramas


6. Calcular el percentil 90 y el percentil 24.

Para calcular los percentiles se activa la opción Percentiles. En el cuadro de diálogo que aparece se seleccionan las variables y se introducen los percentiles que deseemos. En el cuadro adjunto aparecen los valores de los percentiles. Percentiles Variable Cases 90.0 24.0 Rend 34 60.500 47.000 Rend_1 20 61.900 56.000 Rend_2 14 51.000 44.600

7. Utilizando un diagrama caja-bigotes, representar los datos dependiendo del tipo de fertilizante. ¿Hay valores atípicos? ¿Qué representa la caja?

Para representar los diagramas caja-bigotes activamos la opción Box and Whisker Plots,

se selecciona la especificación del modelo de los datos (Categorical ó Table), obteniéndose los gráficos:


Valores atípicos para la variable Rend_1: 48 Valores atípicos para la variable Rend_2: 53 En la caja se encuentran el 50% de las observaciones centrales. 8. Crear una nueva variable Y definida como el cuadrado del rendimiento (utilizando el

comando Transformations del menú Data y la expresión lógica Y=Rend^2). Representar la nube de puntos correspondiente a los pares (Rend,Y).

Para crear la variable Y utilizamos el comando Transformations del menú Data. En el cuadro Transformation Expression introducimos Y=Rend^2 y pinchamos en Go.

Para representar la nube de puntos correspondiente a los pares (Rend,Y) utilizamos la opción Scatter Plot. En esta ventana se especifican el nombre de las variables Rend e Y en los cuadros X-Axis Variables e Y-Axis Variables, respectivamente, obteniéndose el gráfico


Práctica 3: Ajuste por mínimos cuadrados. Regresión lineal y no lineal.

La opción Linear Regression dentro del menú Statistics->Linear Models en el menú principal permite realizar regresión lineal mínimo-cuadrática.

Para ilustrar esta opción resolvemos paso a paso varios ejemplos. Ejemplo 1. Se ha realizado un estudio para investigar el efecto de un proceso térmico en la dureza de una determinada pieza. Once piezas se seleccionaron para el estudio. Antes del tratamiento se realizaron pruebas de dureza para determinar la dureza de cada pieza. Después, las piezas fueron sometidas a un proceso térmico de templado con el fin de mejorar su dureza. Al final del proceso, se realizaron nuevamente pruebas de dureza y se obtuvo una segunda lectura. Se recogieron los siguientes datos (Kg. de presión):

Pieza 1 2 3 4 5 6 7 8 9 10 11

Dureza previa 182 232 191 200 148 249 276 213 241 480 262

Dureza posterior 198 210 194 220 138 220 219 161 210 313 226

1. Calcular la dureza media antes y después del proceso, así como las desviaciones típicas en cada

caso. En primer lugar se introducen los valores observados definiendo dos variables, por ejemplo, Previa y Posterior, utilizando la opción Insert -> Variables dentro del menú Data. A continuación activamos la opción Descriptive Statistics, y seleccionamos las variables Previa y Posterior y las medidas que deseamos obtener en el cuadro Statistics to Report, obteniéndose los siguientes resultados:


Descriptive Statistics Posterior Previa N 11 11 Mean 209.91 243.09 SD 43.739 87.166 Variance 1913.1 7597.9 Minimum 138.00 148.00 Maximum 313.00 480.00

Nota: Los valores de la varianza y de la desviación típica proporcionados por el programa Statistix corresponden con la cuasivarianza S2 y cuasidesviación típica S, respectivamente. 2. Comparar las durezas antes y después del proceso térmico utilizando un diagrama caja-bigotes. Para representar los diagramas caja-bigotes activamos la opción Box and Whisker Plots y seleccionamos la especificación del modelo de los datos, Categorical ó Table (en nuestro ejemplo, Table), obteniéndose los siguientes gráficos: Valores atípicos para la variable Previa: 480 Valores atípicos para la variable Posterior: 138 y 313 En la caja se encuentran el 50% de las observaciones centrales. 3. Estudiar el ajuste lineal de mínimo cuadrados del nivel de dureza posterior con respecto al nivel de dureza previo. En primer lugar, representamos el gráfico de dispersión o la nube de puntos para determinar si existe relación lineal entre las variables. Para ello utilizamos la opción Scatter Plot dentro del menú Statistics->Summary Statistics.


En la gráfica se aprecia que existe un punto demasiado alejado correspondiente a la pieza 10, (480,313). Este punto puede influir sobre la dependencia lineal de las variables, dando un resultado engañoso. A continuación pasamos a calcular la ecuación de la recta de regresión seleccionando la opción Linear Regression dentro del menú Statistics->Linear Models. En la ventana de diálogo que aparece introducimos como variable independiente la variable Previa y como variable dependiente la variable Posterior. La casilla Fit Constant aparece activada por defecto y hace referencia a que se ajusta una recta con término constante, y=a+bx. Cuando se desactiva esta casilla se ajusta una recta forzada a que pase por el origen, y=bx. Statistix proporciona la ecuación de la recta ajustada y el coeficiente de correlación lineal al cuadrado.

Posterior = 99.4765 + 0.45429 Previa

R2 = 0.8196 Unweighted Least Squares Linear Regression of Posterior Predictor Variables Coefficient Std Error T P Constant 99.4765 18.2500 5.45 0.0004 Previa 0.45429 0.07104 6.39 0.0001 R-Squared 0.8196 Resid. Mean Square (MSE) 383.418 Adjusted R-Squared 0.7996 Standard Deviation 19.5811 Source DF SS MS F P Regression 1 15680.1 15680.1 40.90 0.0001 Residual 9 3450.8 383.4 Total 10 19130.9

En prácticas posteriores comentaremos el resto de la información que aparece en esta ventana. Junto con el diagrama de dispersión podemos representar la recta de regresión activando la casilla Display Regression Line,


Obteniendo la gráfica Si eliminamos el punto (480,313) correspondiente a la pieza 10 (utilizando la opción Data->Delete->Cases), y representamos el gráfico de dispersión se observa que no parece existir una tendencia lineal entre los puntos. De hecho, si realizamos el ajuste lineal se obtiene un coeficiente de correlación lineal muy bajo,

R2 = 0.5524

Unweighted Least Squares Linear Regression of Posterior Predictor Variables Coefficient Std Error T P Constant 81.7282 38.0621 2.15 0.0641 Previa 0.53725 0.17097 3.14 0.0138 R-Squared 0.5524 Resid. Mean Square (MSE) 416.268 Adjusted R-Squared 0.4965 Standard Deviation 20.4026 Source DF SS MS F P Regression 1 4110.26 4110.26 9.87 0.0138 Residual 8 3330.14 416.27 Total 9 7440.40


Ejemplo 2. La hidrólisis de un cierto éster tiene lugar en medio ácido según un proceso cinético de primer orden. Partiendo de una concentración inicial desconocida del éster se han medido las concentraciones del mismo a diferentes tiempos, obteniéndose los resultados siguientes:

t (min) 3 5 10 15 20 30 40 50 60 75 90

C · 103 (M) 25.5 23.4 18.2 14.2 11 6.7 4.1 2.5 1.5 0.7 0.4

1. Representar en una nube de puntos los valores de las dos variables. Proponer un modelo de relación entre el tiempo y la concentración en éster. ¿Parece adecuado un modelo lineal para describir este conjunto de datos? Definimos la variable Conc= C · 103 Representación gráfica de la concentración en función del tiempo: No parece adecuado un modelo lineal para describir los datos. 2. Definir una nueva variable Y=Ln(Conc) y representar la nube de puntos de Y en función del tiempo. Representación gráfica de la variable Y=Ln(Conc) en función del tiempo (t):


3. Realizar un ajuste de mínimos cuadrados de Y sobre t con un modelo del tipo: y = a + b t. ¿Cuál es el modelo teórico que se propone para la concentración en función del tiempo? Definimos la variable Y=Ln(Conc) Unweighted Least Squares Linear Regression of Y Predictor Variables Coefficient Constant 3.37609 Tiempo -0.04882 R-Squared 0.9991 Resid. Mean Square (MSE) 0.00205 Adjusted R-Squared 0.9990 Standard Deviation 0.04529 Modelo de regresión lineal de Y sobre t:

Y = 3.37609 - 0.04882 t Modelo que se propone para la concentración en función de t:

Y=Ln(Conc)

Conc=e Y

Conc = e 3.37609 - 0.04882t = e 3.37609 e - 0.04882 t = 29.19 e - 0.04882 t

4. Sabiendo que la concentración inicial exacta del éster era de 3·10-2 M. ¿Cómo podemos incluir esta información a nuestro modelo? Para t=0, Ct=0 =3 · 10-2 M, entonces Conct=0 = 30, Yt=0 = Ln(30) Modelo: Y = Ln(30) + b t Definimos la variable Z = Y - Ln(30) y realizamos regresión lineal de Z sobre t Unweighted Least Squares Linear Regression of Z NOTE: Model Forced through origin Predictor Variables Coefficient Tiempo -0.04925 R-Squared 0.9996 Resid. Mean Square (MSE) 0.00211 Adjusted R-Squared 0.9996 Standard Deviation 0.04590 Centered R-Squared 0.9990

Modelo de regresión lineal de Z sobre t:

Z = - 0.04925 t Modelo de regresión lineal de Y sobre t:

Z = Y - Ln(30)

Y = Ln(30) + Z = Ln(30) - 0.04925 t Modelo que se propone para la concentración en función de t:

Y=Ln(Conc)

Conc=e Y

Conc = e Ln(30) - 0.04925 t = e Ln(30) e - 0.04925 t = 30 e - 0.04925 t


Ejercicios propuestos

1. Se ha observado el crecimiento de una población de bacterías, obteniéndose los datos siguientes, referidos a una unidad de volumen:

Días de cultivo (t) 1 2 3 4 5 6

Millones de bacterias (y) 1.6 4.5 13.8 40.2 125 300

a) Representar gráficamente el crecimiento en función del número de días de cultivo. ¿Qué modelo podría utilizarse para predecir el crecimiento a partir de los días de cultivo?

b) Se decide considerar los logaritmos del crecimiento. Representar gráficamente el logaritmo del crecimiento en función del número de días de cultivo. ¿Podría ajustarse una recta a estos datos?

c) En caso afirmativo, obtener la recta de mínimos cuadrados. ¿Qué función utilizaremos

para predecir el crecimiento en función del número de días de cultivo?

d) Obtener una predicción del crecimiento transcurridos 7 días. 2. Con el fin de determinar si existe relación entre la cantidad de polímeros de látex incluida

durante el proceso de mezclado de cemento Pórtland (X) y su resistencia adhesiva a tensión (Y), una empresa encargada de realizar certificaciones de obras toma una muestra de tamaño 10, obteniendo los siguientes resultados:

X

13.5 11 13 11.2 12 13.2 12 13.5 11.2 13

Y

17.5 16.6 17.2 16.6 17.0 17.3 16.9 17.3 16.8 17.1

a) Calcular la media y la varianza asociada a cada una de las variables. b) Calcular la covarianza existente entre ambas variables, así como el coeficiente de

correlación lineal. Interpretar sus valores.

c) Realizar un ajuste por mínimos cuadrados para predecir la resistencia en función de la cantidad de polímeros añadida en la mezcla.

Nota: Los ejercicios propuestos deben presentarse resueltos utilizando el programa Statistix (plazo máximo de entrega: dos semanas a partir del día en que se realice la práctica).


Práctica 4: Distribución normal.

Una cooperativa decide invertir en una calibradora de naranjas. En el mercado existen diversos tipos de modelos que la cooperativa clasifica según el rango del diámetro (D) de naranjas que pueden recoger:

� Tipo 1: 6 cm � D � 8 cm � Tipo 2: 6 cm � D � 10 cm

� Tipo 3: 4 cm � D � 10 cm

El precio de los modelos es mayor cuanto mayor sea el rango de diámetro posible. La cooperativa quiere ser asesorada sobre qué tipo de calibradora comprar. Para describir esta situación se considera el experimento aleatorio seleccionar al azar una naranja en la producción de las fincas de los miembros de la cooperativa, cuyo espacio muestral asociado estará determinado por toda la producción de las fincas. Se define la variable aleatoria continua D como el diámetro de la naranja seleccionada. La cooperativa desea saber qué proporción de naranjas de la producción tiene un diámetro comprendido entre 6 y 8 cm, entre 6 y 10 cm, y entre 4 y 10 cm, i.e., necesita conocer las siguientes probabilidades:

P[6 � D � 8] P[6 � D � 10]

P[4 � D � 10]

Para ello, la cooperativa realiza un estudio preliminar y selecciona una muestra de 1000 naranjas en el momento de la recogida en las fincas de los miembros. Puesto que es imposible para la cooperativa medir el diámetro de todas las naranjas de la producción, repite el experimento aleatorio 1000 veces y observa los valores de la variable D para esas 1000 realizaciones del experimento. La cooperativa espera que las conclusiones que se puedan extraer a partir de los valores muestrales sean válidas para toda la población. En primer lugar, realizaremos un estudio descriptivo de la muestra recogida. Posteriormente propondremos un modelo para la distribución de la variable aleatoria D y estudiaremos la validez del modelo a partir de los datos de la muestra. Con los resultados obtenidos podremos asesorar a la cooperativa sobre qué tipo de calibradora comprar. Estudio descriptivo de la muestra recogida. Los datos recopilados se encuentran en el fichero ASCII diam.dat. Para poder disponer de estos datos debemos importar el fichero utilizando la opción Import dentro del menú File. Previamente podemos visualizar el fichero de datos para comprobar cómo están representados los datos con la opción File->View Text File. Una vez seleccionado el fichero de datos comprobamos que sólo contiene datos. Como el fichero diam.dat no contiene el nombre de la variable en el cuadro de diálogo que aparece después de seleccionar File->Import, debemos activar la opción Enter Manually en la ventana Variable Names e introducir el nombre de la variable en la ventana Import Variable Names.


1. Construir la tabla de frecuencias para la variable D utilizando como límite inferior de las clases 3 cm, como límite superior 11 cm y como amplitud de cada clase 0.5 cm. Representar el histograma correspondiente. 2. ¿Cuál es el porcentaje de naranjas en la muestra cuyo diámetro está comprendido entre 6 cm y 8 cm? ¿Y entre 6 cm y 10 cm? ¿Y entre 4 cm y 10 cm? 3. Basándose en los datos muestrales, ¿qué modelo de calibradora se aconsejaría a la cooperativa?


Modelo para la distribución de la variable aleatoria D. En este apartado estamos interesados en proponer una distribución de probabilidad como modelo para el comportamiento del diámetro para toda la producción. Para ello utilizaremos la información recogida en la muestra. 1. Calcular la media y la desviación típica para los datos muestrales. 2. ¿Qué características se observan en el histograma de los datos muestrales? ¿Qué modelo de distribución continua parece adecuado para la variable aleatoria D? Representar el histograma de las frecuencias absolutas y la distribución normal que se le ajustaría a estos datos. (Para ello debemos activar la opción Display Normal Curve en la ventana de diálogo que aparece cuando seleccionamos la opción Histogram). ¿Parece adecuado un modelo de distribución normal para D? ¿Con qué parámetros? 3. Suponiendo que D sigue una distribución normal con media 8 y varianza 1, D � N(8,1), calcular la probabilidad P(7 < D � 7.5). Con la opción Z1 Tail (x) del menú Statistics->Probability Functions podemos calcular para la distribución normal tipificada Z las probabilidades

P(Z � z), si z�0 P(Z > z), si z>0

Y con la opción Z2 Tail (x) las probabilidades

P( |Z| � |z| )


Para calcular P[7 < D � 7.5] consideramos la variable tipificada y expresamos esa probabilidad en términos de probabilidades del tipo P(Z � z), si z�0, y P(Z > z), si z>0. Con lo cual, P[7 < D � 7.5] = P[-1 < Z � -0.5] = P[Z � -0.5] - P[Z � -1] = 0.30854 – 0.15866 = 0.14988. Por la simetría de la función de densidad de la distribución normal en torno a su media, se tiene que

P[8.5 < D � 9] = P[7 < D � 7.5]

Por tanto, P[8.5 < D � 9] = 0.14988

Completar la tabla siguiente con las frecuencias relativas muestrales y con las probabilidades estimadas para la variable aleatoria D

Clases Frecuencias relativas muestrales Probabilidades estimadas para la población 3.0 � D � 3.5 3.5 < D � 4.0 4.0 < D � 4.5 4.5 < D � 5.0 5.0 < D � 5.5 5.5 < D � 6.0 6.0 < D � 6.5 6.5 < D � 7.0 7.0 < D � 7.5 0.14988 7.5 < D � 8.0 8.0 < D � 8.5 8.5 < D � 9.0 0.14988 9.0 < D � 9.5 9.5 < D � 10.0 10.0 < D � 10.5 10.5 < D � 11.0

4. ¿Existen diferencias entre las frecuencias relativas muestrales y las probabilidades estimadas para toda la población? ¿Los resultados inducen a pensar que la variable aleatoria D, diámetro de las naranjas en toda la población, se comporte como una distribución N(8,1)? 5. Considerando toda la producción, ¿qué porcentaje de naranjas tienen un diámetro comprendido entre 6 cm y 8 cm? ¿Y entre 6 cm y 10 cm? ¿Y entre 4 cm y 10 cm? ¿Qué modelo de calibradora se aconsejaría a la cooperativa?


Práctica 5: Simulación de variables aleatorias.

En esta práctica utilizaremos las opciones que tiene el programa Statistix para generar números aleatorios con el fin de ilustrar la ley de los grandes números y el teorema central del límite. Para comprobar empíricamente la ley de los grandes números simularemos un experimento aleatorio un determinado número de veces. Comprobaremos que cuando el número de realizaciones que se simulan aumenta la frecuencia relativa de ocurrencia de un suceso se estabiliza en torno a un valor correspondiente a la probabilidad de dicho suceso. Ejemplo 1. En este ejemplo consideramos el caso de la simulación del lanzamiento de una moneda no trucada. En primer lugar definiremos una variable entera denominada resultado, con la opción Datos->Insert->Variables Esta variable tomará el valor 1 si sale cara y el valor 0 si sale cruz. Para simular el resultado de 50 lanzamientos deberemos generar 50 valores de la variable. Con la opción Data->Fill rellenaremos 50 casillas con un valor cualesquiera Posteriormente, utilizando la opción Data->Transformation asignaremos como valores de la variable resultado un número aleatorio entre 0 y 1.


Para tener un resumen de los valores simulados obtendremos la distribución de frecuencias de la variable resultado mediante la opción Statistics->Summary Statistics->Frequency Distribution Frequency Distribution of resultado Cumulative Value Freq Percent Freq Percent 0 22 44.0 22 44.0 1 28 56.0 50 100.0 Total 50 100.0

En este caso se han obtenido 22 cruces y 28 caras, con lo cual asignaremos el valor 0.44 a la probabilidad de obtener cara y el valor 0.56 a la probabilidad de obtener cruz. ¿Qué ocurriría si se repitiese el experimento 100 veces? ¿Y 1000 veces? ¿Qué probabilidades se asignarían? Nota: Cada ordenador habrá generado valores distintos y se obtendrán resultados diferentes en cada uno. Ejemplo 2. Consideremos ahora el experimento aleatorio de lanzar un dado. Para simular los resultados que se obtendrían en el lanzamiento del dado realizamos la siguiente transformación: Si comprobamos los resultados para 100 realizaciones obtendríamos Frequency Distribution of resultado Cumulative Value Freq Percent Freq Percent 1 14 14.0 14 14.0 2 19 19.0 33 33.0 3 16 16.0 49 49.0 4 16 16.0 65 65.0 5 18 18.0 83 83.0 6 17 17.0 100 100.0 Total 100 100.0

Con lo cual las probabilidades asignadas serían 0.14, 0.19, 0.16, 0.16, 0.18 y 0.17 para 1, 2, 3, 4, 5 y 6, respectivamente. ¿Qué ocurriría si se repitiese el experimento 1000 veces? ¿Y 5000 veces? ¿Qué resultados se obtendrían?


Ejemplo 3. En este ejemplo vamos a simular el lanzamiento de dos dados y a asignar probabilidades a los valores de la v.a. definida como el máximo de los valores obtenidos en los dados. Para ello, en primer lugar vamos a definir dos variables result1 y result2 como en el ejemplo anterior y, a partir de éstas, definimos la variable máximo valor obtenido en el lanzamiento de los dados utilizando en la opción Data->Transformations la expresión lógica

if (result1 > result2) then maximo=result1 else maximo=result2

¿Qué resultados se obtienen para 1000 simulaciones? En la ventana de resultados aparecen los datos relativos a 1000 simulaciones del experimento. Frequency Distribution of maximo Cumulative Value Freq Percent Freq Percent 1 35 3.5 35 3.5 2 84 8.4 119 11.9 3 125 12.5 244 24.4 4 208 20.8 452 45.2 5 249 24.9 701 70.1 6 299 29.9 1000 100.0 Total 1000 100.0

Ejemplo 4. Supongamos que en un concurso de caza se presentan 12 cazadores con una probabilidad de 0.5 de que acierten en el blanco. Si cada uno de los cazadores realiza 25 disparos, ¿cuál es el número medio de aciertos? ¿Y si se realizan 100 disparos?


Práctica 6: Muestreo. Estimación puntual y por intervalos de confianza.

El objetivo de esta práctica es estimar la media de una población a partir de los valores observados para muestras de diferentes tamaños de la población. Para ello, simularemos el proceso de selección de muestras aleatorias de la población y compararemos los resultados obtenidos con los resultados reales. Consideremos que la población en estudio está formada por un lote de 5,000 rodamientos que se necesitan en el proceso de fabricación de un determinado producto. Las piezas en el lote están numeradas desde 1 hasta 5,000. En la práctica se seguirán los siguientes pasos:

1) Seleccionaremos una muestra aleatoria de tamaño n del lote de piezas, generando de manera aleatoria los números de las piezas seleccionadas.

2) A partir de los datos muestrales, construiremos intervalos de confianza para la media

poblacional a los niveles de confianza del 90% y 95%. 3) Compararemos las estimaciones obtenidas con la verdadera media de la población.

Realizaremos los pasos anteriores para muestras de tamaño n=5, n=10 y n=20.

1) Para seleccionar las unidades que deben ser observadas en una muestra de tamaño n=5, vamos a generar 5 números aleatorios comprendidos entre 1 y 5,000. Definiremos una nueva variable de tipo entero denominada, por ejemplo, seleccion, cuyos valores representarán a las piezas que serán seleccionadas para formar la muestra. Para ello utilizaremos la opción Data->Insert->Variables

Con la opción Data->Fill rellenaremos las 5 casillas con un valor cualesquiera


A continuación generaremos los números aleatorios que asignaremos a la variable seleccion, utilizando la opción Data->Transformation. El fichero poblacion.txt contiene los valores del diámetro de los 5,000 rodamientos que forman la población (estos valores corresponden al diámetro de las piezas numeradas desde 1 hasta 5,000). Para poder disponer de estos datos utilizaremos la opción File->Import,

Por último, seleccionaremos en la población las n unidades que formarán la muestra. Para ello, utilizando la opción Omit/Select/Restore/Cases dentro del menú Data, primero omitiremos todos los casos y después seleccionaremos los casos que nos indique la variable seleccion


Para restaurar los datos omitidos se pinchará en el cuadro Restore.

2) Para construir intervalos de confianza para la media poblacional seleccionaremos el menú Statistics->Summary Statistics->Descriptive Statistics y activaremos dentro del cuadro Statistics to Report la opción Conf. Int. El nivel de confianza se especificará en el cuadro C.I. Percent Coverage. Completar la tabla adjunta con los resultados obtenidos para muestras de tamaño n=5, n=10 y n=20

3) Para comparar los resultados obtenidos calculamos la verdadera media de la población y

comprobamos que

µ=25

¿Cuántos intervalos no contienen a la verdadera media de la población? ¿Por qué puede ocurrir esto?

Nivel de

confianza

Tamaño muestral

Extremo inferior

Media muestral

Extremo superior

95%

5

90%

5

95%

10

90%

10

95%

20

90%

20


Práctica 7: Contrastes de hipótesis paramétricas.

El programa Statistix permite realizar diversos contrastes de hipótesis paramétricas. Los comandos relativos a los contrastes que realizaremos en esta práctica se encuentran en el menú Statistics -> One, Two, Multi-Sample Tests: Las instrucciones que vamos a considerar son las siguientes:

� One-Sample T Test: Test de la t de Student para el contraste de la media de una población con varianza desconocida.

� Paired T Test: Test de la t de Student para el contraste de la diferencia de medias de dos

poblaciones no necesariamente independientes (datos apareados). � Two-Sample T Test: Test de la t de Student para el contraste de la diferencia de medias de dos

poblaciones independientes con varianzas desconocidas. Test de la F de Snedecor para el contraste de la igualdad de varianzas.

� Proportion Test. Test z para una proporción y para la comparación de proporciones.

Para ilustrar estas instrucciones resolveremos paso a paso algunos ejemplos. Ejemplo 1. Para reducir la concentración de ácido úrico en la sangre, se prueban dos medicamentos, reduciéndose las concentraciones de ácido úrico en los distintos pacientes hasta los siguientes niveles:

Medicamento I 20 12 16 18 13 22 15 20 Medicamento II 17 14 12 10 15 13 9 19 20 11

Se supone que las muestras proceden de dos poblaciones normales e independientes.


Empezamos introduciendo los datos usando dos variables distintas, por ejemplo, Med_I y Med_II (menú Data->Insert->Variables). La ventana de los datos sería: Una vez que tengamos los datos en una hoja de cálculo, vamos a considerar la primera muestra para construir intervalos de confianza y tests de hipótesis para la media de la población. Supongamos que se quiere realizar el contraste:

H0: µ1 = 16 H1: µ1 � 16

En el menú Statistics -> One, Two, Multi-Sample Tests activamos la opción One-Sample T Test y aparece una ventana de diálogo En esta ventana, encontramos, como es usual en Statistix, una lista de las variables que se han definido y entre las que se selecciona la variable cuya media queremos contrastar. Una vez seleccionada, se pasa con las flechas al cuadro Sample Variables. En el cuadro Null Hypothesis se indica el valor de µ que se quiere contrastar (en nuestro ejemplo µ1 = 16) y en el cuadro Alternative Hypothesis se selecciona el tipo de hipótesis alternativa:

Not Equal H1: µ1 � 16 Less Than H1: µ1 < 16


Greater Than H1: µ1 > 16 Los resultados para el ejemplo considerado aparecen en la ventana siguiente: One-Sample T Test Null Hypothesis: mu = 16 Alternative Hyp: mu <> 16 95% Conf Interval Variable Mean SE Lower Upper T DF P Med_I 17.000 1.2677 14.002 19.998 0.79 7 0.4561 Cases Included 8 Missing Cases 2

donde Mean representa la media, SE el error estándar para la media, Lower y Upper el extemo inferior y superior, respectivamente, del intervalo de confianza para µ al nivel de confianza del 95%, T el valor del estadístico de contraste, DF los grados de libertad y P el valor del p-valor. En nuestro ejemplo, obtenemos un p-valor de 0.4561, por lo tanto aceptamos H0 con gran confianza.

Para la segunda muestra, podemos realizar el contraste de hipótesis

H0: µ2 = 10 H1: µ2 > 10

obteniendo la ventana de resultados

One-Sample T Test Null Hypothesis: mu = 10 Alternative Hyp: mu > 10 95% Conf Interval Variable Mean SE Lower Upper T DF P Med_II 14.000 1.1832 11.323 16.677 3.38 9 0.0041 Cases Included 10 Missing Cases 0

Ahora se obtiene un p-valor de 0.0041, por lo tanto rechazamos H0 con gran confianza. Si queremos realizar un contraste para la diferencia de medias utilizamos la opción Two-Sample T Test dentro del menú Statistics -> One, Two, Multi-Sample Tests,

Para introducir las variables seleccionamos dentro de la especificación del modelo la opción Table, que corresponde a una presentación de los datos en una tabla (se han introducido dos variables Med_I y Med_II). Una forma alternativa para introducir los datos consiste en definir una variable que contenga a todos los datos observados, Med, y otra variable, Factor, que tome el valor 1 si el dato corresponde al


primer medicamento y el valor 2 si proviene del segundo. En este segundo caso en la especificación del modelo se selecciona la opción Categorical, donde la variable dependiente es Med y la variable de las categorías es Factor. Para completar el cuadro de diálogo, tenemos que especificar para la hipótesis nula el valor para la diferencia de las medias (en el caso en que se quiera contrastar la igualdad de medias, el valor para la diferencia sería 0) y para la hipótesis alternativa debemos seleccionar el tipo de hipótesis. En nuestro ejemplo, para el contraste

H0: µ1 = µ2 H1: µ1 � µ2

se obtiene la ventana de resultados Two-Sample T Tests for Med_I vs Med_II Variable Mean N SD SE Med_I 17.000 8 3.5857 1.2677 Med_II 14.000 10 3.7417 1.1832 Difference 3.0000 Null Hypothesis: difference = 0 Alternative Hyp: difference <> 0 95% CI for Difference Assumption T DF P Lower Upper Equal Variances 1.72 16 0.1045 -0.6947 6.6947 Unequal Variances 1.73 15.4 0.1036 -0.6876 6.6876 Test for Equality F DF P of Variances 1.09 9,7 0.4660 Cases Included 18 Missing Cases 2

Para el contraste se calculan dos estadísticos, uno corresponde al caso en que suponemos que las dos variables tienen la misma varianza poblacional y el otro al caso en que las varianzas pueden ser distintas. Para cada uno de estos dos casos, se obtiene el valor del estadístico muestral, los grados de libertad, el p-valor y el intervalo de confianza para la diferencia de medias al nivel de confianza del 95%. También se obtiene el contraste para la igualdad de varianzas. A partir de los resultados obtenidos, ¿se pueden suponer las varianzas iguales? ¿Puede afirmarse que existen diferencias significativas entre las reducciones de concentración de ácido úrico proporcionadas por ambos tratamientos? Ejemplo 2. Una determinada empresa presenta un nuevo y revolucionario sistema de aprendizaje del idioma Inglés. Con el fin de verificar la hipótesis de que con este nuevo sistema se obtienen mejores resultados que con los métodos tradicionales, una organización de consumidores se decide a comparar ambos métodos. Para ello, de un curso de 250 alumnos, se seleccionan de manera aleatoria un grupo de 100, el cual estudiará con este nuevo sistema durante un trimestre, mientras que los 150 alumnos restantes, lo harán con el método tradicional durante el mismo periodo de tiempo. Al final del trimestre se les sometió a una prueba y los resultados que se obtuvieron fueron los siguientes:

Método tradicional Método nuevo Aprobados 107 63 Suspensos 43 37 Total 150 100

En este ejemplo vamos a construir un intervalo de confianza al nivel de confianza del 95% para la diferencia entre las proporciones de aprobados de dicha prueba por ambos métodos y a hacer un contraste de hipótesis con el fin de determinar si el nuevo método proporciona mejores resultados que el método tradicional. Sean p1 y p2 las proporciones de aprobados por el método tradicional y el método nuevo, respectivamente. Tenemos que construir un intervalo de confianza para al diferencia p1-p2 y realizar el contraste

H0: p1 = p2 H1: p1 < p2


En primer lugar, seleccionamos la opción Proportion Test, dentro del menú Statistics -> One, Two, Multi-Sample Tests, y completamos cada uno de los cuadros que aparecen con los datos observados y con la especificación de la hipótesis alternativa y del nivel de confianza para el intervalo de confianza. Para los datos del ejemplo, el cuadro de diálogo quedaría de la siguiente forma:

y la ventana de resultados Two-Sample Proportion Test Sample 1 Sample 2 Sample Size 150 100 Successes 107 63 Proportion 0.71333 0.63000 Null Hypothesis: P1 = P2 Alternative Hyp: P1 < P2 Difference 0.08333 SE (diff) 0.06022 Z (uncorrected) 1.38 P 0.9168 Z (corrected) 1.25 P 0.8935 Fisher's Exact 0.8936 95% Confidence Interval of Difference Lower Limit -0.03470 Upper Limit 0.20137

De estos resultados se deduce que no podemos rechazar H0, con lo que ambos métodos producen resultados similares y, por tanto, el nuevo método no proporciona mejores resultados que el tradicional. El test para una proporción se obtendría seleccionando los datos de una única muestra y especificando las hipótesis nula y alternativa como ya se ha comentado anteriormente. Ejemplo 3. En la publicidad de un producto dietético líquido se afirma que si se emplea durante un mes se produce una pérdida promedio superior a 4 kg. Ocho personas utilizaron el producto durante un mes, obteniéndose los siguientes valores para el peso antes y después de utilizar dicho producto.

Persona Peso inicial Peso final

1 64 61

2 102 95

3 96 92

4 99 97

5 56 50

6 44 41

7 51 46

8 88 83


Admitiendo la hipótesis de normalidad, construir un intervalo de confianza al nivel de confianza del 95% para la pérdida de peso promedio. ¿Los datos apoyan la afirmación realizada en la publicidad? (Para responder a esta pregunta formular un contraste de hipótesis). En este ejemplo los datos están apareados porque los pesos inicial y final corresponden a la misma persona. El contraste que tenemos que realizar sería

H0: µ I-µF � 4 H1: µ I-µF > 4

Para ello, seleccionamos la opción Paired T Test del menú Statistics -> One, Two, Multi-Sample Tests, Especificadas las hipótesis nula y alternativa, se obtiene la siguiente salida: Paired T Test for Peso_inic - Peso_fina Null Hypothesis: difference = 4 Alternative Hyp: difference > 4 Mean 4.3750 Std Error 0.5957 Mean - H0 0.3750 Lower 95% CI -1.0337 Upper 95% CI 1.7837 T 0.63 DF 7 P 0.2745

De estos resultados, se concluye que con un p-valor de 0.2745 no tenemos suficiencia evidencia en contra de la hipótesis nula, con lo cual los datos no corroboran la afirmación realizada por la publicidad. También obtenemos (-1.0337,1.7837) como intervalo de confianza al 95% para µ I-µF-4, con lo cual para µ I-µF tendremos el intervalo (2.9663,5.7837). Observando que sólo contiene valores positivos para la diferencia media de peso, ¿qué podemos concluir?


Ejercicios propuestos. 1. Los alumnos de un curso de estadística desean saber si se emplea menos tiempo resolviendo los

problemas con calculadora o utilizando un paquete estadístico para ordenador. Para ello, se tomó una muestra de diez que utilizaron sólo calculadora y otra de siete que usaron el paquete estadístico para resolver el mismo grupo de ejercicios. Los tiempos observados, en minutos, fueron los siguientes:

Sistema I 58 65 70 85 69 74 69 58 76 69 Sistema II 45 56 68 45 63 69 52

Si los tiempos se distribuyen normalmente, ¿puede concluirse que el paquete estadístico ahorra tiempo?

2. Para comparar dos programas OCR de digitalización de letra impresa, se sometió cada uno a

50 pruebas. El primero cometió 4 fallos y el segundo 6. ¿Puede afirmarse que el primero es significativamente más fiable que el segundo?

3. En una empresa de fundición se recibe periódicamente mineral de hierro procedente de dos

yacimientos distintos A y B. Para estudiar la calidad del mineral recibido se extraen dos muestras y se analiza la riqueza en hierro, obteniendo los siguientes resultados en tanto por ciento:

A 43 45 42 35 37 38 33 38 41 43 B 39 36 35 37 40 39 40 38 35 39 38 34

Suponiendo normal la distribución de la riqueza del mineral en ambos yacimientos, ¿se puede admitir que la diferencia, en lo que a calidad del mineral se refiere, es significativa al 0.05?



Práctica 8: Análisis de conjuntos de datos. 1. Para una muestra de 1000 pimientos se observó la cantidad de pesticida absorbida por la piel (en mg/g). (Fichero de datos: pesticida.txt).

a) Construir un histograma para los datos maestrales considerando como límite inferior 0.85, como límite superior 2.15 y como amplitud de clase 0.1. Comentar las características más relevantes.

b) Calcular el porcentaje de pimientos en la muestra con una cantidad de pesticida absorbida superior a 1.75 mg/g.

c) Admitiendo que la cantidad de pesticida absorbida, X, se comporta aproximadamente como una distribución normal, ¿cómo estimaría la media y la varianza de la distribución a partir de los datos muestrales?

Calcular P[X > 1.75].


d) Obtener un intervalo de confianza al 90% para la cantidad media de pesticida absorbida

en toda la población. ¿Puede admitirse que la cantidad media de pesticida es de 1.5 mg/g?

e) Un estudio afirma que la cantidad media de pesticida absorbida en la población es inferior a 1.54 mg/g, ¿corroboran los datos muestrales esta afirmación? Para responder a esta pregunta plantear un contraste de hipótesis obteniendo el p-valor correspondiente. ¿Cómo se interpreta el p-valor?


Ejercicio propuesto. 1. Se está interesado en comparar el contenido de celulosa en dos variedades de alfalfa A y B. En una muestra de 1000 cortes de alfalfa de cada variedad se observó el contenido de celulosa (en mg/g). (Fichero de datos: alfalfa.txt).

a) Construir en un mismo gráfico los diagramas de Box-Whisker para los datos observados de cada variedad. ¿Qué podemos concluir de esta representación gráfica?

b) Suponiendo que el contenido de celulosa para cada variedad de alfalfa, XA y XB, se

distribuye aproximadamente como una distribución normal, ¿qué valores muestrales se obtendrían como estimaciones para la media y la varianza de cada distribución?

c) Obtener un intervalo de confianza al 95% para la diferencia de los contenidos medios

de celulosa en ambas poblaciones. ¿Existen diferencias significativas entre ambas variedades?

d) ¿Se puede afirmar que el contenido medio de celulosa de la variedad A supera en 15

unidades al de la variedad B? Plantear un contraste de hipótesis obteniendo el p-valor correspondiente. Interpretar los resultados.


MANUAL DE PRÁCTICAS DE ORDENADOR - …mcbueso/estadistica_aplicada... · Para la realización de las prácticas de ordenador se usará el programa Statistix. La primera práctica

Documents