Asignatura: Matemáticas Curso: 1º Medicina Tema: Análisis Descriptivo Bivariante (Ejercicios) PROBLEMA 2.1.- Se ha medido a un grupo de 15 pacientes el nivel de carboxihemoglobina en sangre antes y después de respirar un ambiente cargado de humo, obteniendo los siguientes resultados: (a) Construir el diagrama de dispersión y calcular el coeficiente de correlación de Pearson. (b) Obtener la recta de regresión. a.- El diagrama de dispersión es: Para calcular el coeficiente de correlación de Pearson tenemos que calcular previamente los valores de las medias marginales y las desviaciones marginales, así como de la covarianza. Estos cálculos se recogen en las columnas anexas al gráfico. Para empezar, dado que las frecuencias absolutas son siempre la unidad, las medias marginales se calculan como: 1 45,6 3,04 15 n i i m x x n = = = = ∑ 1 61,1 4,07 15 n i i m y y n = = = = ∑ Para calcular las varianzas y las desviaciones aplicamos las fórmulas: 1
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
PROBLEMA 2.1.- Se ha medido a un grupo de 15 pacientes el nivel de carboxihemoglobina en sangre antes y después de respirar un ambiente cargado de humo, obteniendo los siguientes resultados:
(a) Construir el diagrama de dispersión y calcular el coeficiente de correlación de Pearson.(b) Obtener la recta de regresión.
a.- El diagrama de dispersión es:
Para calcular el coeficiente de correlación de Pearson tenemos que calcular previamente los valores de las medias marginales y las desviaciones marginales, así como de la covarianza. Estos cálculos se recogen en las columnas anexas al gráfico. Para empezar, dado que las frecuencias absolutas son siempre la unidad, las medias marginales se calculan como:
1 45,6 3,0415
n
ii
m
xx
n== = =
∑1 61,1 4,07
15
n
ii
m
yy
n== = =
∑
Para calcular las varianzas y las desviaciones aplicamos las fórmulas:
1
( )2
22 21 194,88 3,04 3,750415
n
ii
x m
xs x
n== − = − =
∑ 2 3,7504 1,9366x xs s= = =
( )2
22 21 278,41 4,07 1,995815
n
ii
y m
ys y
n== − = − =
∑ 2 1,9958 1,4127y ys s= = =
Por último debemos calcular la covarianza:
( )1 223,51 3,04 4,07 2,527915
n
i ii
xy m m
x ys x y
n== − ⋅ = − ⋅ =
∑
El coeficiente de correlación de Pearson se calcula como:
2,5279 0,92401,9366 1,4127
xy
x y
srs s
= = =⋅ ⋅
b.- Para calcular la recta de regresión usamos las fórmulas:
( )
( )
2
2,52794,07 3,043,7504
0,674 2,021
xy
x
sy y x x
s
y x
y x
− = ⋅ −
− = ⋅ −
= +
( )
( )
2
2,52793,04 4,071,9958
1,267 2,115
xy
y
sx x y y
s
x y
x y
− = ⋅ −
− = ⋅ −
= −
PROBLEMA 2. 2 Se ha medido el peso y la talla a un grupo de individuos obteniendo la siguiente clasificación:
(a) Obtener las distribuciones marginales del peso y la talla.(b) Obtener la distribución del peso de los individuos que miden entre 1,75 y 1,80 m.(c) Estudiar la independencia de las variables.
a.- Para obtener las distribuciones marginales debemos asociar a cada intervalo la suma de los elementos que contiene, sin tener en cuenta la otra variable. Estos valores se recogen en la 1º-8º columna para la X y la 1º-8º fila para la Y.
Para que queden claras, las distribuciones marginales son:
b.- Para obtener la distribución de los individuos que miden entre [1,75-1,80) tenemos que calcular la distribución condicionada. Basta con fijarnos en la columna correspondiente:
c.- Para analizar la independencia de las variables podemos recurrir al criterio de independencia, que nos dice que dos variables son independientes si se cumple que:
ij i jf f f− −= ⋅En la siguiente tabla incluimos los valores de frecuencia relativa para cada entrada, además de las marginales, y el producto de las marginales, que pondremos en rojo.
Por lo tanto, como no coinciden no son independientes. Para estimar el grado de dependencia entre las variables tendremos que calcular el coeficiente r de Pearson. Para ello hemos de empezar por tabular los datos en columnas, además aprovecharemos para eliminar los valores que tienen frecuencia nula, y para incluir como referencia las marcas de las clases:
A continuación calculamos las varianzas y desviaciones marginales:
( )2
22 21 674287,50 66,53 69,0091150
n
i ii
x m
x ns x
n=
⋅= − = − =
∑
2 69,0091 8,3072x xs s= = =
( )2
22 2 31 424,18 1,68 5,467 10150
n
i ii
y m
y ns y
n−=
⋅= − = − = ⋅
∑
2 35,467 10 0,0739y ys s −= = ⋅ =
Y por último la covarianza:
( )1 16838,88 66,53 1,68 0,4888150
n
i i ii
xy m m
x y ns x y
n== − ⋅ = − ⋅ =
∑
El coeficiente r de Pearson nos queda como:
0,4888 0,79628,3072 0,0739
xy
x y
srs s
= = =⋅ ⋅
Lo que indica un buen grado de correlación lineal entre ambas variables.
4
PROBLEMA 2.3.- Consideremos la variable aleatoria bidimensional dada por la tabla siguiente:
(a) Determinar las distribuciones marginales de X e Y.(b) Calcular las medias y varianzas marginales.(c) Obtener el valor de la covarianza entre X e Y. ¿Son independientes?.
a.- Para obtener las distribuciones marginales debemos hacer las sumas de cada categoría de cada una de las variables. La tabla completa con las frecuencias marginales nos quedaría:
Calcular el coeficiente de correlación lineal y la recta de regresión mínimo cuadrática de la presión sobre la edad. ¿Qué porcentaje de variabilidad es explicada por el modelo?.
Para resolver este problema actuaríamos como en los ejemplos anteriores, con la salvedad de que ahora las frecuencias absolutas asociadas a cada una de las entradas es la unidad. De este modo tenemos:
Empezamos calculando los estadísticos marginales y la covarianza:
529 165544,083 137,9212 12
x y= = = =
6
2 2
2
26087 (44,083) 230,5712
15,1847
x
x x
s
s s
= − =
= =
2 2
2
233939 (137,917) 473,9091221,7695
y
y y
s
s s
= − =
= =
( )76079 44,083 137,92 260,0912xys = − ⋅ =
Calculemos el valor de r:
( )260,09 0,7868
15,1847 21,7695xy
x y
srs s
= = =⋅ ⋅
La recta de regresión de mínimos cuadrados de Y (presión) sobre X (edad):
( )
( )
( )
2
260,09137,92 44,083230,58
137,92 1,128 44,0831,128 88,194
xy
x
sy y x x
s
y x
y xy x
− = ⋅ −
− = ⋅ −
− = ⋅ −= +
El % de variabilidad de Y explicada por el modelo es:
2 0,6190 61,9%r = →
PROBLEMA 2.5.- Los siguientes datos representan las calificaciones de 10 alumnos elegidos al azar en las asignaturas de Matemáticas y Física:
MAT 5 8 7 3 4 4 9 8 2 7FIS 6 8 6 5 5 4 9 6 5 6
(a) Dibujar un diagrama de dispersión.(b) Hallar el coeficiente de correlación.(c) Obtener las rectas de regresión mínimo cuadráticas de la calificación en Matemáticas sobrela calificación en Física, y recíprocamente.(d) Predecir la nota en Física de un alumno que haya obtenido una calificación de 6 en Matemáticas.
a.- Empezamos dibujando un diagrama de dispersión de los datos:
7
b.- Para buscar el coeficiente de correlación vamos a obterner los valores de los estadísticos marginales, pero para ello tenemos que disponer de la tabla completa:
a.- Obtener el coeficiente de correlación lineal y la recta de regresión mínimos cuadrados de Y sobre X. ¿Qué porcentaje de variabilidad queda explicada por el modelo?.b.- A la vista del estudio anterior, ¿cuál debe ser la concentración de colesterol en suero sanguíneo en una mujer de 50 años?.
a.- Vamos a empezar por tabular los datos en columnas y obtener los estadísticos marginales, además de la covarianza. Esto nos llevará al valor de r:
b.- Una mujer de 50 años debería tener en el suero en torno a:
2,4803 50 75,567 199,58COLESTy = ⋅ + =
PROBLEMA 2.7.- Los siguientes datos representan las puntuaciones en un test de capacidad memorística y un test de inteligencia obtenida por 10 individuos estudiados:
a) Representar el diagrama de dispersión correspondiente. A la vista de éste, ¿puede sacarse alguna conclusión?.b) Obtener el coeficiente de correlación lineal.
a.- Empecemos por representar en un diagrama de dispersión los puntos de la muestra:
10
Mirando el diagrama de dispersión vemos que la nube de puntos está muy dispersa, y no sigue una distribución reconocible.
b.- Esta claro que los puntos no siguen una distribución lineal, pero una manera de demostrarlo es calcular el coeficiente de regresión, r, el cual se parecerá a 0.
Para no extender este capítulo con operaciones ya conocidas, ponemos los valores calculados de los estadísticos marginales y de la r:
media x 38,4media y 36,5varianza x 178,64desv x 13,3656276varianza y 226,05desv y 15,0349593covar -7,8r -0,0388153r2 0,00150663
PROBLEMA 2.8.- Los datos siguientes son las medidas de las concentraciones de Calcio, en mg/100 ml., y de la hormona paratiroides en plasma de 12 individuos sanos, medida esta últimaen mμg/ml.
a) ¿Existe relación lineal entre ambas variables?b) Calcular el nivel de PTH que le correspondería a un nivel de 10 mg/100 ml. de Ca.c) Calcular el nivel de Ca que correspondería a una PTH de 1,5 mμg/ml.
a.- Para calcular la posible relación entre dos variables cuantitativas continuas (como las del supuesto) debemos calcular el coeficiente de correlación de Pearson. Para ello, como ya hemos visto en ocasiones anteriores, es preciso calcular los estadísticos marginales y la covarianza. Empecemos por tabular los datos en columnas:
Vemos que existe una fuerte correlación entre las variables. Que sea negativo indica que cuando una de las variables crece la otra decrece (relación inversa).
b y c.- Para responder a estas dos cuestiones hemos de calcular las rectas de regresión de Y sobre X y de X sobre Y.
PROBLEMA 2.9.- Queremos estudiar la relación entre los niveles de hematocrito de recién nacidos de madres diabéticas y su peso obteniendo los siguientes resultados:
media x 59,3media y 2,87varianza x 8,81desv x 2,96816442varianza y 0,0521desv y 0,22825424covar 0,609r 0,89889813r2 0,80801785
Vamos a calcular ahora la recta de regresión de X (hematocrito) sobre Y (peso), y nos queda:
( )
( )
( )
2
0,60959,3 2,870,0521
59,3 11,6891 2,8711,6891 25,7523
xy
y
Hem Peso
sx x y y
s
x y
x yx y
− = ⋅ −
− = ⋅ − − = ⋅ −
= +
Para un peso de 3Kg el % de hematocrito esperado es:
11,6891 3 25,7523 60,82Hemx = ⋅ + =
13
PROBLEMA 2.10.- Se ha medido el aclaramiento renal de creatinina en pacientes tratados con Captopril tras la suspensión del tratamiento con diálisis, resultando la siguiente tabla:
Ahora vamos a calcular los estadísticos marginales y la covarianza, además de r y r2.
media x 20,111media y 4,3778varianza x 162,321desv x 12,741varianza y 0,484desv y 0,696covar -8,631r -0,974r2 0,948
En cuanto a la recta de regresión de tiempo vs creatinina es:
14
( )
( )
( )
2
8,630920,111 4,3780,4840
20,111 17,8324 4,37817,8324 98,1812
xy
y
Dias Crea
sx x y y
s
x y
x yx y
− = ⋅ −
− − = ⋅ − − = − ⋅ −
= − +
Y para un nivel de creatinina de 4,1 mg/dl el número de días esperados es:
17,8324 4,1 98,1812 25,07Diasx = − ⋅ + =
PROBLEMA 2.11.- Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad corporal para absorber hierro. Participan en el estudio 10 sujetos. A cada uno se le da una dosis oral idéntica de hierro. Transcurridos 6 y 12 días se mide la cantidad de hierro retenida en el sistema corporal y, a partir de ésta, se determina el porcentaje absorbido por el cuerpo. Se obtuvieron los siguientes datos:
% Fe 6 días 8 17 18 25 58 59 41 30 43 58% Fe 12 días 17 22 35 43 80 85 91 92 96 100Obtener el coeficiente de correlación lineal. ¿Qué % de hierro se estima que absorbe un individuo a los 12 días si la absorción a los 6 días fue del 50 %?.
Los estadísticos marginales asociados, y el valor del coeficiente de correlación de Pearson son:
15
Ahora buscamos la recta de regresión de Y(12 días) sobre X(6 días):
( )
( )
( )
2
12 6
469,1366,1 35,7319,61
66,1 1,4678 35,71,4678 13,6995
xy
x
sy y x x
s
y x
y xy x
− = ⋅ −
− = ⋅ −
− = ⋅ −= + 12 1,4678 50 13,6995 87,08y = ⋅ + =
PROBLEMA 2.12.- Se está investigando la relación entre la hipertensión intraocular y el sexo de los individuos. Entre los hombres sometidos al estudio encontramos 35 normales, 34 sospechosos y 32 con hipertensión intraocular. Entre las mujeres se encontraron 60 normales, 16 sospechosas y 27 con hipertensión intraocular. Calcular el coeficiente de contingencia asociado.
En este caso se trata de dos variables cualitativas (atributos) y debemos tabularlas como una tabla de contingencia.
,X Y Normales Sospechosos Hipertensión intraocular TOTAL
Hombre 35 (47,03)
34 (24,75)
32(29,21) 101
Mujer 60(47,97)
16(25,25)
27(29,79) 103
TOTAL 95 50 59 204
Las hipótesis a contrastar son:
• H0: Independencia. La hipertensión intraocular no depende del sexo del indivíduo.• H1: Dependencia. Hay diferencias apreciables en la prevalencia de la hipertensión
intraocular en hombres y mujeres.
Debemos empezar calculando el valor del parámetro χ2, para lo cual debemos calcular las frecuencias esperadas en cada caso. Estas frecuencias las vamos a marcar entre paréntesis en cada uno de los casilleros. Con estos valores podemos calcular el valor de χ2 como:
( ) ( ) ( )
( ) ( ) ( )
2 2 22
2 2 2
35 47,03 34 24,75 32 29,2147,03 24,75 29,21
60 47,97 16 25,25 27 29,7913,4643
47,97 25,25 29,79
χ− − −
= + + +
− − −+ + =
El valor teórico esperado para una significación de p=0,05, y 2 grados de libertad, es de 5,99. Como el valor calculado es mayor hemos de rechazar la hipótesis nula y admitir la hipótesis alternativa. Por lo tanto, admitimos que hay asociación entre el sexo del sujeto y la tendencia a tener hipertensión intraocular.
Pero, ¿cuál es la asociación?. Para ver la asociación vamos a plantear la tabla de frecuencias relativas:
16
,X Y Normales Sospechosos Hipertensión intraocular TOTAL
Vemos que son las mujeres las que presentan más probabilidad de padecer este problema. Pero, ¿es mucho mayor que en el caso de los hombres esta probabilidad?. Para ello vamos a calcular el coeficiente de contingencia:
2
2
13,4643 0,248813,4643 204
Cn
χχ
= = =+ +
Esto nos indica que existe una predominancia significativa, aunque no muy elevada de las mujeres. (recordemos que C varía entre 0 y un valor máximo cercano a la unidad).
PROBLEMA 2.13.- Se está investigando la relación que hay entre dos escalas para medir la presencia de Burnout (Síndrome de estar quemado en español). Para ello, a 10 individuos se les pasan ambos test obteniendo los siguientes resultados:
Sabemos que el coeficiente oscila entre -1 y 1, vemos que el grado de asociación es alto. Si planteamos el ejercicio como un contraste de hipótesis tendríamos que:
H0 = Las dos variables no están asociadas a un nivel de significación del 0,05H1 = Las dos variables están asociadas a un nivel de significación del 0,05.
Si buscamos el valor de la rs para 9 grados de libertada (nº parejas -1) llegamos a: 0,700. El dato que hemos obtenido experimentalmente es mayor, luego rechazamos la H0 y aceptamos la hipótesis de la asociación entre las variables.
PROBLEMA 2.14.- Se desea saber el grado de asociación entre el valor del test de apgar realizado a los recién nacidos al minuto de vida y la utilización de anestesia epidural. Para ello se recogieron los siguientes datos (ver tabla):
Estudiar dicha asociación a través del coeficiente de contingencia.
17
El test de Apgar es un examen clínico de neonatología que tiene por objeto determinar la situación del recién nacido inmediatamente después de parto. El recién nacido es evaluado de acuerdo a cinco parámetros fisioanatómicos simples, que son: color de la piel, frecuencia cardiaca, reflejos, tono muscular y respiración. A cada parámetro se le asigna una puntuación entre 0 y 2, sumando las cinco puntuaciones se obtiene el resultado del test.
La palabra APGAR puede usarse como acrónimo o regla mnemotécnica recordando los criterios evaluados: Apariencia, Pulso, Gesticulación, Actividad y Respiración.
La valoración de apgar debe medirse al minuto y a los 5 minutos para que se considere una valoración efectiva siendo el resultado normal esperado entre 8 y 9.
En este caso se trata de dos variables cualitativas (atributos), aunque el test de apgar tiene valores numéricos, y debemos tabularlas como una tabla de contingencia.
,X Y 7 8 9 TOTAL
Con Epidural5
(5,37)
374(373,08
)
275(275,56
)654
Sin Epidural1
(0,63)
43(43,92)
33(32,44) 77
TOTAL 6 417 308 731
Las hipótesis a contrastar son:
• H0: Independencia. El resultado del test no se influye por la intervención con anestesia epidural.
• H1: Dependencia. Hay diferencias apreciables en los resultados del test de apgar con y sin anestesia epidural.
Debemos empezar calculando el valor del parámetro χ2, para lo cual debemos calcular las frecuencias esperadas en cada caso. Estas frecuencias las vamos a marcar entre paréntesis en cada uno de los casilleros. El valor de χ2 es:
2 0,2719χ =
El valor teórico esperado para una significación de p=0,05, y 2 grados de libertad, es de 5,99. Como el valor calculado es menor hemos de aceptar la hipótesis nula y admitir que no existen diferencias apreciables entre usar la epidural o no respecto a los valores obtenidos en el test de apgar.
Para comprobar esta baja asociación vamos a calcular el coeficiente de contingencia:
2
2
0,2719 0,01930,2719 731
Cn
χχ
= = =+ +
Un valor tan cercano a 0 indica una escasísima asociación, en nuestro caso ni siquiera significativa.
18
PROBLEMA 2.15.- Se desea saber la relación que hay entre la nota de selectividad y el número de asignaturas aprobadas el primer año de carrera. Para ello, se seleccionan 10 individuos aleatoriamente obteniendo los siguientes resultados:
Sabemos que el coeficiente oscila entre -1 y 1, vemos que el grado de asociación no es muy alto. Si planteamos el ejercicio como un contraste de hipótesis tendríamos que:
H0 = Las dos variables no están asociadas a un nivel de significación del 0,05H1 = Las dos variables están asociadas a un nivel de significación del 0,05.
Si buscamos el valor de la rs para 9 grados de libertada (nº parejas -1) llegamos a: 0,700. El dato que hemos obtenido experimentalmente es menor, luego aceptamos la H0, no hay asociación significativa entre las variables.