003-03 Análisis Descriptivo Bivariante (Ejercicios)

Asignatura: MatemáticasCurso: 1º MedicinaTema: Análisis Descriptivo Bivariante (Ejercicios)

PROBLEMA 2.1.- Se ha medido a un grupo de 15 pacientes el nivel de carboxihemoglobina en sangre antes y después de respirar un ambiente cargado de humo, obteniendo los siguientes resultados:

(a) Construir el diagrama de dispersión y calcular el coeficiente de correlación de Pearson.(b) Obtener la recta de regresión.

a.- El diagrama de dispersión es:

Para calcular el coeficiente de correlación de Pearson tenemos que calcular previamente los valores de las medias marginales y las desviaciones marginales, así como de la covarianza. Estos cálculos se recogen en las columnas anexas al gráfico. Para empezar, dado que las frecuencias absolutas son siempre la unidad, las medias marginales se calculan como:

1 45,6 3,0415

n

ii

m

xx

n== = =

∑1 61,1 4,07

15

n

ii

m

yy

n== = =

∑

Para calcular las varianzas y las desviaciones aplicamos las fórmulas:

1

( )2

22 21 194,88 3,04 3,750415

n

ii

x m

xs x

n== − = − =

∑ 2 3,7504 1,9366x xs s= = =

( )2

22 21 278,41 4,07 1,995815

n

ii

y m

ys y

n== − = − =

∑ 2 1,9958 1,4127y ys s= = =

Por último debemos calcular la covarianza:

( )1 223,51 3,04 4,07 2,527915

n

i ii

xy m m

x ys x y

n== − ⋅ = − ⋅ =

∑

El coeficiente de correlación de Pearson se calcula como:

2,5279 0,92401,9366 1,4127

xy

x y

srs s

= = =⋅ ⋅

b.- Para calcular la recta de regresión usamos las fórmulas:

( )

( )

2

2,52794,07 3,043,7504

0,674 2,021

xy

x

sy y x x

s

y x

y x

− = ⋅ −

− = ⋅ −

= +

( )

( )

2

2,52793,04 4,071,9958

1,267 2,115

xy

y

sx x y y

s

x y

x y

− = ⋅ −

− = ⋅ −

= −

PROBLEMA 2. 2 Se ha medido el peso y la talla a un grupo de individuos obteniendo la siguiente clasificación:

Peso/Talla [1,50 – 1,55) [1,55 – 1,60) [1,60 – 1,65) [1,65 – 1,70) [1,70 – 1,75) [1,75 – 1,80)[50 – 55) 6 7 4 1 0 0 18[55 – 60) 2 7 6 3 0 0 18[60 – 65) 1 3 9 12 5 0 30[65 – 70) 0 0 2 8 10 4 24[70 – 75) 0 0 1 3 15 10 29[75 – 80) 0 0 1 5 9 16 31

9 17 23 32 39 30

2

(a) Obtener las distribuciones marginales del peso y la talla.(b) Obtener la distribución del peso de los individuos que miden entre 1,75 y 1,80 m.(c) Estudiar la independencia de las variables.

a.- Para obtener las distribuciones marginales debemos asociar a cada intervalo la suma de los elementos que contiene, sin tener en cuenta la otra variable. Estos valores se recogen en la 1º-8º columna para la X y la 1º-8º fila para la Y.

Para que queden claras, las distribuciones marginales son:

Peso ni- fi- Talla n-j f-j

[50 – 55) 18 18/150 [1,50 – 1,55) 9 9/150[55 – 60) 18 18/150 [1,55 – 1,60) 17 17/150[60 – 65) 30 30/150 [1,60 – 1,65) 23 23/150[65 – 70) 24 24/150 [1,65 – 1,70) 32 32/150[70 – 75) 29 29/150 [1,70 – 1,75) 39 39/150[75 – 80) 31 31/150 [1,75 – 1,80) 30 30/150

b.- Para obtener la distribución de los individuos que miden entre [1,75-1,80) tenemos que calcular la distribución condicionada. Basta con fijarnos en la columna correspondiente:

c.- Para analizar la independencia de las variables podemos recurrir al criterio de independencia, que nos dice que dos variables son independientes si se cumple que:

ij i jf f f− −= ⋅En la siguiente tabla incluimos los valores de frecuencia relativa para cada entrada, además de las marginales, y el producto de las marginales, que pondremos en rojo.

Peso/Talla [1,50 – 1,55) [1,55 – 1,60) [1,60 – 1,65) [1,65 – 1,70) [1,70 – 1,75) [1,75 – 1,80)

[50 – 55) 6/150 1,08/150

7/1502,04/150

4/1502,76/150

1/1503,84/150

04,68/150

03,6/150 18/150

[55 – 60) 2/1501,08/150

7/1502,04/150

6/1502,76/150

3/1503,84/150

04,68/150

03,6/150 18/150

[60 – 65) 1/1501,8/150

3/1503,4/150

9/1504,6/150

12/1506,4/150

5/1507,8/150

06/150 30/150

[65 – 70) 01,44/150

02,72/150

2/1503,68/150

8/1505,12/150

10/1506,24/150

4/1504,8/150 24/150

[70 – 75) 01,74/150

03,29/150

1/1504,45/150

3/1506,19/150

15/1507,54/150

10/1505,8/150 29/150

[75 – 80) 01,86/150

03,51/150

1/1504,75/150

5/1506,61/150

9/1508,06/150

16/1506,2/150 31/150

9/150 17/150 23/150 32/150 39/150 30/150

Por lo tanto, como no coinciden no son independientes. Para estimar el grado de dependencia entre las variables tendremos que calcular el coeficiente r de Pearson. Para ello hemos de empezar por tabular los datos en columnas, además aprovecharemos para eliminar los valores que tienen frecuencia nula, y para incluir como referencia las marcas de las clases:

X Y nij

1

n

i iix n

=

⋅∑1

n

i iiy n

=

⋅∑ 2

1

n

i iix n

=

⋅∑ 2

1

n

i iiy n

=

⋅∑1

n

i i iix y n

=∑

52,5 1,525 6 315 9,15 16537,50 13,95 480,3857,5 1,525 2 115 3,05 6612,50 4,65 175,3862,5 1,525 1 62,5 1,525 3906,25 2,33 95,3152,5 1,575 7 367,5 11,025 19293,75 17,36 578,8157,5 1,575 7 402,5 11,025 23143,75 17,36 633,9462,5 1,575 3 187,5 4,725 11718,75 7,44 295,3152,5 1,625 4 210 6,5 11025,00 10,56 341,2557,5 1,625 6 345 9,75 19837,50 15,84 560,6362,5 1,625 9 562,5 14,625 35156,25 23,77 914,0667,5 1,625 2 135 3,25 9112,50 5,28 219,3872,5 1,625 1 72,5 1,625 5256,25 2,64 117,81

3

77,5 1,625 1 77,5 1,625 6006,25 2,64 125,9452,5 1,675 1 52,5 1,675 2756,25 2,81 87,9457,5 1,675 3 172,5 5,025 9918,75 8,42 288,9462,5 1,675 12 750 20,1 46875,00 33,67 1256,2567,5 1,675 8 540 13,4 36450,00 22,45 904,5072,5 1,675 3 217,5 5,025 15768,75 8,42 364,3177,5 1,675 5 387,5 8,375 30031,25 14,03 649,0662,5 1,725 5 312,5 8,625 19531,25 14,88 539,0667,5 1,725 10 675 17,25 45562,50 29,76 1164,3872,5 1,725 15 1087,5 25,875 78843,75 44,63 1875,9477,5 1,725 9 697,5 15,525 54056,25 26,78 1203,1967,5 1,775 4 270 7,1 18225,00 12,60 479,2572,5 1,775 10 725 17,75 52562,50 31,51 1286,8877,5 1,775 16 1240 28,4 96100,00 50,41 2201,00

150 9980 252 674287,50 424,18 16838,88

Empecemos calculando las medias marginales:

1 9980 66,53150

n

i ii

m

x nx

n=

⋅= = =

∑1 252 1,68

150

n

i ii

m

y ny

n=

⋅= = =

∑

A continuación calculamos las varianzas y desviaciones marginales:

( )2

22 21 674287,50 66,53 69,0091150

n

i ii

x m

x ns x

n=

⋅= − = − =

∑

2 69,0091 8,3072x xs s= = =

( )2

22 2 31 424,18 1,68 5,467 10150

n

i ii

y m

y ns y

n−=

⋅= − = − = ⋅

∑

2 35,467 10 0,0739y ys s −= = ⋅ =

Y por último la covarianza:

( )1 16838,88 66,53 1,68 0,4888150

n

i i ii

xy m m

x y ns x y

n== − ⋅ = − ⋅ =

∑

El coeficiente r de Pearson nos queda como:

0,4888 0,79628,3072 0,0739

xy

x y

srs s

= = =⋅ ⋅

Lo que indica un buen grado de correlación lineal entre ambas variables.

4

PROBLEMA 2.3.- Consideremos la variable aleatoria bidimensional dada por la tabla siguiente:

(a) Determinar las distribuciones marginales de X e Y.(b) Calcular las medias y varianzas marginales.(c) Obtener el valor de la covarianza entre X e Y. ¿Son independientes?.

a.- Para obtener las distribuciones marginales debemos hacer las sumas de cada categoría de cada una de las variables. La tabla completa con las frecuencias marginales nos quedaría:

YX

→↓

0 1 2

-1 10/100 5/100 15/100 30/1000 20/100 2/100 8/100 30/100

0,5 10/100 5/100 2/100 17/1001 8/100 10/100 5/100 23/100

48/100 22/100 30/100 1

Las distribuciones marginales son:

X fi- Y f-j

-1 30/100 0 48/1000 30/100 1 22/100

0,5 17/100 2 30/1001 23/100

b.- Para calcular las medias y varianzas marginales, vamos a describir la tabla de contingencia en forma de columnas, como en los casos anteriores:

X Y nij

1

n

i iix n

=

⋅∑1

n

i iiy n

=

⋅∑ 2

1

n

i iix n

=

⋅∑ 2

1

n

i iiy n

=

⋅∑1

n

i i iix y n

=∑

-1 0 10 -10 0 10 0 00 0 20 0 0 0 0 0

0,5 0 10 5 0 2,5 0 01 0 8 8 0 8 0 0-1 1 5 -5 5 5 5 -50 1 2 0 2 0 2 0

0,5 1 5 2,5 5 1,25 5 2,51 1 10 10 10 10 10 10-1 2 15 -15 30 15 60 -300 2 8 0 16 0 32 0

0,5 2 2 1 4 0,5 8 21 2 5 5 10 5 20 10

100 1,5 82 57,25 142 -10,5

1,5 820,015 0,82100 100

x y= = = =

2 257,25 (0,015) 0,5723100xs = − = 2 0,5723 0,7565x xs s= = =

2 2142 (0,82) 0,7476100ys = − = 2 0,7476 0,8646y ys s= = =

5

C.- Covarianza y si son independientes:

( ),10,5 0,015 0,82 0,1173100x ys

−= − ⋅ = −

Para comprobar la independencia debemos recurrir al criterio de independencia, que nos dice que dos variables son independientes si se cumple que:

ij i jf f f− −= ⋅

YX

→↓

0 1 2

-1 10/10014,4/100

5/1006,6/100

15/1009/100 30/100

0 20/100 2/100 8/100 30/1000,5 10/100 5/100 2/100 17/1001 8/100 10/100 5/100 23/100

48/100 22/100 30/100 1

Con sólo comprobar la primera fila vemos que no son independientes.

PROBLEMA 2.4.- Los siguientes datos representan lecturas de la presión sistólica, en mm.Hg.,de 12 mujeres, en las edades que se indican:

EDAD 22 27 29 32 35 40 48 50 51 57 67 71PRESIÓN 131 106 123 122 121 147 115 163 138 141 176 172

Calcular el coeficiente de correlación lineal y la recta de regresión mínimo cuadrática de la presión sobre la edad. ¿Qué porcentaje de variabilidad es explicada por el modelo?.

Para resolver este problema actuaríamos como en los ejemplos anteriores, con la salvedad de que ahora las frecuencias absolutas asociadas a cada una de las entradas es la unidad. De este modo tenemos:

Edad Presión 2

1

n

iix

=∑ 2

1

n

iiy

=∑

1

n

i iix y

=∑

22 131 484 17161 288227 106 729 11236 286229 123 841 15129 356732 122 1024 14884 390435 121 1225 14641 423540 147 1600 21609 588048 115 2304 13225 552050 163 2500 26569 815051 138 2601 19044 703857 141 3249 19881 803767 176 4489 30976 1179271 172 5041 29584 12212529 1655 26087 233939 76079

Empezamos calculando los estadísticos marginales y la covarianza:

529 165544,083 137,9212 12

x y= = = =

6

2 2

2

26087 (44,083) 230,5712

15,1847

x

x x

s

s s

= − =

= =

2 2

2

233939 (137,917) 473,9091221,7695

y

y y

s

s s

= − =

= =

( )76079 44,083 137,92 260,0912xys = − ⋅ =

Calculemos el valor de r:

( )260,09 0,7868

15,1847 21,7695xy

x y

srs s

= = =⋅ ⋅

La recta de regresión de mínimos cuadrados de Y (presión) sobre X (edad):

( )

( )

( )

2

260,09137,92 44,083230,58

137,92 1,128 44,0831,128 88,194

xy

x

sy y x x

s

y x

y xy x

− = ⋅ −

− = ⋅ −

− = ⋅ −= +

El % de variabilidad de Y explicada por el modelo es:

2 0,6190 61,9%r = →

PROBLEMA 2.5.- Los siguientes datos representan las calificaciones de 10 alumnos elegidos al azar en las asignaturas de Matemáticas y Física:

MAT 5 8 7 3 4 4 9 8 2 7FIS 6 8 6 5 5 4 9 6 5 6

(a) Dibujar un diagrama de dispersión.(b) Hallar el coeficiente de correlación.(c) Obtener las rectas de regresión mínimo cuadráticas de la calificación en Matemáticas sobrela calificación en Física, y recíprocamente.(d) Predecir la nota en Física de un alumno que haya obtenido una calificación de 6 en Matemáticas.

a.- Empezamos dibujando un diagrama de dispersión de los datos:

7

b.- Para buscar el coeficiente de correlación vamos a obterner los valores de los estadísticos marginales, pero para ello tenemos que disponer de la tabla completa:

Mat Fis 2

1

n

iix

=∑ 2

1

n

iiy

=∑

1

n

i iix y

=∑

5 6 25 36 308 8 64 64 647 6 49 36 423 5 9 25 154 5 16 25 204 4 16 16 169 9 81 81 818 6 64 36 482 5 4 25 107 6 49 36 4257 60 377 380 368

57 605,7 610 10

x y= = = =

2 2

2

377 (5,7) 5,2110

2,2825

x

x x

s

s s

= − =

= =

2 2

2

380 (6) 210

1,4142

y

y y

s

s s

= − =

= =

( )368 5,7 6 2,610xys = − ⋅ =

De donde podemos calcular el coeficiente de correlación como:

( )2,6 0,8054

2,2825 1,4142xy

x y

srs s

= = =⋅ ⋅

c.- Obtengamos ahora las rectas de regresión:

8

( )

( )

( )

2

2,66 5,75,21

6 0,4990 5,70,4990 3,1557

xy

x

FIS MAT

sy y x x

s

y x

y xy x

− = ⋅ −

− = ⋅ −

− = ⋅ −= +

( )

( )

( )

2

2,65,7 62

5,7 1,3 61,3 2,1

xy

y

MAT FIS

sx x y y

s

x y

x yx y

− = ⋅ −

− = ⋅ − − = ⋅ −

= −

d.- Por último, vamos a predecir, usando la recta de regresión, la nota de física de un alumno que ha sacado un 6 en matemáticas:

0,4990 6 3,1557 6,15FISy = ⋅ + =

PROBLEMA 2.6.- Los siguientes datos representan la edad y concentración de colesterol en suero sanguíneo en 15 mujeres:

EDAD 46 52 38 65 54 33 49 76 71 41 57 18 44 33 78COLEST 181 228 182 249 259 201 121 339 225 110 188 137 170 173 243

a.- Obtener el coeficiente de correlación lineal y la recta de regresión mínimos cuadrados de Y sobre X. ¿Qué porcentaje de variabilidad queda explicada por el modelo?.b.- A la vista del estudio anterior, ¿cuál debe ser la concentración de colesterol en suero sanguíneo en una mujer de 50 años?.

a.- Vamos a empezar por tabular los datos en columnas y obtener los estadísticos marginales, además de la covarianza. Esto nos llevará al valor de r:

Edad Colest 2

1

n

iix

=∑ 2

1

n

iiy

=∑

1

n

i iix y

=∑

46 181 2116 32761 832652 228 2704 51984 1185638 182 1444 33124 691665 249 4225 62001 1618554 259 2916 67081 1398633 201 1089 40401 663349 121 2401 14641 592976 339 5776 114921 2576471 225 5041 50625 1597541 110 1681 12100 451057 188 3249 35344 1071618 137 324 18769 246644 170 1936 28900 748033 173 1089 29929 570978 243 6084 59049 18954755 3006 42075 651630 161405

755 300650,33 200,415 15

x y= = = =

2 2

2

42075 (50,33) 271,5515

16,479

x

x x

s

s s

= − =

= =

2 2

2

651630 (200,4) 3281,841557,287

y

y y

s

s s

= − =

= =

9

( )161405 50,33 200,4 673,53315xys = − ⋅ =

De donde:

( )673,533 0,7135

16,479 57,287xy

x y

srs s

= = =⋅ ⋅

La recta de regresión tiene la forma:

( )

( )

( )

2

673,533200,4 50,33271,555

200,4 2,4803 50,332,4803 75,567

xy

x

COLEST EDAD

sy y x x

s

y x

y xy x

− = ⋅ −

− = ⋅ −

− = ⋅ −= +

El % de variabilidad explicado por el modelo es:

2 0,5090 50,9%r = →

b.- Una mujer de 50 años debería tener en el suero en torno a:

2,4803 50 75,567 199,58COLESTy = ⋅ + =

PROBLEMA 2.7.- Los siguientes datos representan las puntuaciones en un test de capacidad memorística y un test de inteligencia obtenida por 10 individuos estudiados:

Memoria 17 23 25 36 38 40 42 46 55 62Inteligencia 37 58 14 43 27 60 25 33 19 49

a) Representar el diagrama de dispersión correspondiente. A la vista de éste, ¿puede sacarse alguna conclusión?.b) Obtener el coeficiente de correlación lineal.

a.- Empecemos por representar en un diagrama de dispersión los puntos de la muestra:

10

Mirando el diagrama de dispersión vemos que la nube de puntos está muy dispersa, y no sigue una distribución reconocible.

b.- Esta claro que los puntos no siguen una distribución lineal, pero una manera de demostrarlo es calcular el coeficiente de regresión, r, el cual se parecerá a 0.

Para no extender este capítulo con operaciones ya conocidas, ponemos los valores calculados de los estadísticos marginales y de la r:

media x 38,4media y 36,5varianza x 178,64desv x 13,3656276varianza y 226,05desv y 15,0349593covar -7,8r -0,0388153r2 0,00150663

PROBLEMA 2.8.- Los datos siguientes son las medidas de las concentraciones de Calcio, en mg/100 ml., y de la hormona paratiroides en plasma de 12 individuos sanos, medida esta últimaen mμg/ml.

Ca 11 11 10,6 10,5 10,6 10,4 10,2 9,5 8,2 7,5 6 5PTH 0,3 0,5 1,12 1,23 1,24 1,31 1,33 2,10 2,15 2,43 3,7 4,27

a) ¿Existe relación lineal entre ambas variables?b) Calcular el nivel de PTH que le correspondería a un nivel de 10 mg/100 ml. de Ca.c) Calcular el nivel de Ca que correspondería a una PTH de 1,5 mμg/ml.

a.- Para calcular la posible relación entre dos variables cuantitativas continuas (como las del supuesto) debemos calcular el coeficiente de correlación de Pearson. Para ello, como ya hemos visto en ocasiones anteriores, es preciso calcular los estadísticos marginales y la covarianza. Empecemos por tabular los datos en columnas:

Ca PTH 2

1

n

iix

=∑ 2

1

n

iiy

=∑

1

n

i iix y

=∑

11 0,3 121 0,09 3,311 0,5 121 0,25 5,5

10,6 1,12 112,36 1,2544 11,87210,5 1,23 110,25 1,5129 12,91510,6 1,24 112,36 1,5376 13,14410,4 1,31 108,16 1,7161 13,624

11

10,2 1,33 104,04 1,7689 13,5669,5 2,10 90,25 4,41 19,958,2 2,15 67,24 4,6225 17,637,5 2,43 56,25 5,9049 18,2256 3,7 36 13,69 22,25 4,27 25 18,2329 21,35

110,5 21,68 1063,91 54,9902 173,276

Ahora calculamos los estadísticos marginales:

110,5 21,689,2083 1,806712 12

x y= = = =

2 2

2

1063,91 (9,2083) 3,8657121,9662

x

x x

s

s s

= − =

= =

2 2

2

54,99 (1,8067) 1,318512

1,1482

y

y y

s

s s

= − =

= =

( )173,276 9,2083 1,8067 2,196712xys = − ⋅ = −

De donde:

( )2,1967 -0,9730

1,9662 1,1482xy

x y

srs s

−= = =⋅ ⋅

Vemos que existe una fuerte correlación entre las variables. Que sea negativo indica que cuando una de las variables crece la otra decrece (relación inversa).

b y c.- Para responder a estas dos cuestiones hemos de calcular las rectas de regresión de Y sobre X y de X sobre Y.

( )

( )

( )

2

2,19671,8067 9,20833,8658

1,8067 0,5682 9,20830,5682 7,0389

xy

x

PTH Ca

sy y x x

s

y x

y xy x

− = ⋅ −

− − = ⋅ −

− = − ⋅ −= − +

( )

( )

( )

2

2,19679,2083 1,80661,3185

9,2083 1,666 1,80661,666 12,2180

xy

y

Ca PTH

sx x y y

s

x y

x yx y

− = ⋅ −

− − = ⋅ − − = − ⋅ −

= − +0,5682 10 7,0389 1,357PTHy = − ⋅ + = 1,666 1,5 12,2180 9,719Cax = − ⋅ + =

PROBLEMA 2.9.- Queremos estudiar la relación entre los niveles de hematocrito de recién nacidos de madres diabéticas y su peso obteniendo los siguientes resultados:

% hematocrito 63 60 58 61 65 60 57 58 55 56Peso (Kg) 3,2 3,1 2,8 2,9 3,2 2,8 2,7 2,9 2,6 2,5

¿Qué nivel de hematocrito podemos esperar para un recién nacido de madre diabética con un peso de 3 kg?.

Vamos a tabular los datos en columnas:

12

% Hematocrito

Peso (Kg)

2

1

n

iix

=∑ 2

1

n

iiy

=∑

1

n

i iix y

=∑

63 3,2 3969 10,24 201,660 3,1 3600 9,61 18658 2,8 3364 7,84 162,461 2,9 3721 8,41 176,965 3,2 4225 10,24 20860 2,8 3600 7,84 16857 2,7 3249 7,29 153,958 2,9 3364 8,41 168,255 2,6 3025 6,76 14356 2,5 3136 6,25 140

593 28,7 35253 82,89 1708

Los estadísticos son:

media x 59,3media y 2,87varianza x 8,81desv x 2,96816442varianza y 0,0521desv y 0,22825424covar 0,609r 0,89889813r2 0,80801785

Vamos a calcular ahora la recta de regresión de X (hematocrito) sobre Y (peso), y nos queda:

( )

( )

( )

2

0,60959,3 2,870,0521

59,3 11,6891 2,8711,6891 25,7523

xy

y

Hem Peso

sx x y y

s

x y

x yx y

− = ⋅ −

− = ⋅ − − = ⋅ −

= +

Para un peso de 3Kg el % de hematocrito esperado es:

11,6891 3 25,7523 60,82Hemx = ⋅ + =

13

PROBLEMA 2.10.- Se ha medido el aclaramiento renal de creatinina en pacientes tratados con Captopril tras la suspensión del tratamiento con diálisis, resultando la siguiente tabla:

Días tras diálisis 1 5 10 15 20 25 30 35 40Creatinina mg/dl 5,7 5,2 4,8 4,5 4,2 4 3,8 3,7 3,5

Si un individuo presenta 4'1 mg/dl de creatinina, ¿cuánto tiempo es de esperar que haya transcurrido desde la suspensión de la diálisis?.

Vamos a tabular los datos por columnas:

Días Creatinina 2

1

n

iix

=∑ 2

1

n

iiy

=∑

1

n

i iix y

=∑

1 5,7 1 32,49 5,75 5,2 25 27,04 2610 4,8 100 23,04 4815 4,5 225 20,25 67,520 4,2 400 17,64 8425 4 625 16 10030 3,8 900 14,44 11435 3,7 1225 13,69 129,540 3,5 1600 12,25 140

181 39,4 5101 176,84 714,7

Ahora vamos a calcular los estadísticos marginales y la covarianza, además de r y r2.

media x 20,111media y 4,3778varianza x 162,321desv x 12,741varianza y 0,484desv y 0,696covar -8,631r -0,974r2 0,948

En cuanto a la recta de regresión de tiempo vs creatinina es:

14

( )

( )

( )

2

8,630920,111 4,3780,4840

20,111 17,8324 4,37817,8324 98,1812

xy

y

Dias Crea

sx x y y

s

x y

x yx y

− = ⋅ −

− − = ⋅ − − = − ⋅ −

= − +

Y para un nivel de creatinina de 4,1 mg/dl el número de días esperados es:

17,8324 4,1 98,1812 25,07Diasx = − ⋅ + =

PROBLEMA 2.11.- Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad corporal para absorber hierro. Participan en el estudio 10 sujetos. A cada uno se le da una dosis oral idéntica de hierro. Transcurridos 6 y 12 días se mide la cantidad de hierro retenida en el sistema corporal y, a partir de ésta, se determina el porcentaje absorbido por el cuerpo. Se obtuvieron los siguientes datos:

% Fe 6 días 8 17 18 25 58 59 41 30 43 58% Fe 12 días 17 22 35 43 80 85 91 92 96 100Obtener el coeficiente de correlación lineal. ¿Qué % de hierro se estima que absorbe un individuo a los 12 días si la absorción a los 6 días fue del 50 %?.

Empecemos por tabular los datos en columnas:

Fe 6 días

Fe 12 días

2

1

n

iix

=∑ 2

1

n

iiy

=∑

1

n

i iix y

=∑

8 17 64 289 13617 22 289 484 37418 35 324 1225 63025 43 625 1849 107558 80 3364 6400 464059 85 3481 7225 501541 91 1681 8281 373130 92 900 8464 276043 96 1849 9216 412858 100 3364 10000 5800357 661 15941 53433 28289

Los estadísticos marginales asociados, y el valor del coeficiente de correlación de Pearson son:

15

Ahora buscamos la recta de regresión de Y(12 días) sobre X(6 días):

( )

( )

( )

2

12 6

469,1366,1 35,7319,61

66,1 1,4678 35,71,4678 13,6995

xy

x

sy y x x

s

y x

y xy x

− = ⋅ −

− = ⋅ −

− = ⋅ −= + 12 1,4678 50 13,6995 87,08y = ⋅ + =

PROBLEMA 2.12.- Se está investigando la relación entre la hipertensión intraocular y el sexo de los individuos. Entre los hombres sometidos al estudio encontramos 35 normales, 34 sospechosos y 32 con hipertensión intraocular. Entre las mujeres se encontraron 60 normales, 16 sospechosas y 27 con hipertensión intraocular. Calcular el coeficiente de contingencia asociado.

En este caso se trata de dos variables cualitativas (atributos) y debemos tabularlas como una tabla de contingencia.

,X Y Normales Sospechosos Hipertensión intraocular TOTAL

Hombre 35 (47,03)

34 (24,75)

32(29,21) 101

Mujer 60(47,97)

16(25,25)

27(29,79) 103

TOTAL 95 50 59 204

Las hipótesis a contrastar son:

• H0: Independencia. La hipertensión intraocular no depende del sexo del indivíduo.• H1: Dependencia. Hay diferencias apreciables en la prevalencia de la hipertensión

intraocular en hombres y mujeres.

Debemos empezar calculando el valor del parámetro χ2, para lo cual debemos calcular las frecuencias esperadas en cada caso. Estas frecuencias las vamos a marcar entre paréntesis en cada uno de los casilleros. Con estos valores podemos calcular el valor de χ2 como:

( ) ( ) ( )

( ) ( ) ( )

2 2 22

2 2 2

35 47,03 34 24,75 32 29,2147,03 24,75 29,21

60 47,97 16 25,25 27 29,7913,4643

47,97 25,25 29,79

χ− − −

= + + +

− − −+ + =

El valor teórico esperado para una significación de p=0,05, y 2 grados de libertad, es de 5,99. Como el valor calculado es mayor hemos de rechazar la hipótesis nula y admitir la hipótesis alternativa. Por lo tanto, admitimos que hay asociación entre el sexo del sujeto y la tendencia a tener hipertensión intraocular.

Pero, ¿cuál es la asociación?. Para ver la asociación vamos a plantear la tabla de frecuencias relativas:

16

,X Y Normales Sospechosos Hipertensión intraocular TOTAL

Hombre 0,17 0,17 0,16 0,50Mujer 0,29 0,08 0,13 0,50

TOTAL 0,47 0,25 0,29 1,00

Vemos que son las mujeres las que presentan más probabilidad de padecer este problema. Pero, ¿es mucho mayor que en el caso de los hombres esta probabilidad?. Para ello vamos a calcular el coeficiente de contingencia:

2

2

13,4643 0,248813,4643 204

Cn

χχ

= = =+ +

Esto nos indica que existe una predominancia significativa, aunque no muy elevada de las mujeres. (recordemos que C varía entre 0 y un valor máximo cercano a la unidad).

PROBLEMA 2.13.- Se está investigando la relación que hay entre dos escalas para medir la presencia de Burnout (Síndrome de estar quemado en español). Para ello, a 10 individuos se les pasan ambos test obteniendo los siguientes resultados:

Test 1 154 170 165 160 163 159 168 167 162 158Test 2 67 80 73 70 78 71 82 74 77 68

Estudiar dicha relación con el coeficiente de correlación por rangos de Spearman.

Test 1 Orden Test 1 Test 2 Orden Test 2 d d2

154 1 67 1 0 0170 10 80 9 1 1165 7 73 5 2 4160 4 70 3 1 1163 6 78 8 -2 4159 3 71 4 -1 1168 9 82 10 -1 1167 8 74 6 2 4162 5 77 7 -2 4158 2 68 2 0 0

20

2

12

66 201 1 0,8788

( 1) 10 (100 1)

n

is

dr

n n=

⋅⋅= − = − =

⋅ − ⋅ −

∑

Sabemos que el coeficiente oscila entre -1 y 1, vemos que el grado de asociación es alto. Si planteamos el ejercicio como un contraste de hipótesis tendríamos que:

H0 = Las dos variables no están asociadas a un nivel de significación del 0,05H1 = Las dos variables están asociadas a un nivel de significación del 0,05.

Si buscamos el valor de la rs para 9 grados de libertada (nº parejas -1) llegamos a: 0,700. El dato que hemos obtenido experimentalmente es mayor, luego rechazamos la H0 y aceptamos la hipótesis de la asociación entre las variables.

PROBLEMA 2.14.- Se desea saber el grado de asociación entre el valor del test de apgar realizado a los recién nacidos al minuto de vida y la utilización de anestesia epidural. Para ello se recogieron los siguientes datos (ver tabla):

Estudiar dicha asociación a través del coeficiente de contingencia.

17

El test de Apgar es un examen clínico de neonatología que tiene por objeto determinar la situación del recién nacido inmediatamente después de parto. El recién nacido es evaluado de acuerdo a cinco parámetros fisioanatómicos simples, que son: color de la piel, frecuencia cardiaca, reflejos, tono muscular y respiración. A cada parámetro se le asigna una puntuación entre 0 y 2, sumando las cinco puntuaciones se obtiene el resultado del test.

La palabra APGAR puede usarse como acrónimo o regla mnemotécnica recordando los criterios evaluados: Apariencia, Pulso, Gesticulación, Actividad y Respiración.

La valoración de apgar debe medirse al minuto y a los 5 minutos para que se considere una valoración efectiva siendo el resultado normal esperado entre 8 y 9.

En este caso se trata de dos variables cualitativas (atributos), aunque el test de apgar tiene valores numéricos, y debemos tabularlas como una tabla de contingencia.

,X Y 7 8 9 TOTAL

Con Epidural5

(5,37)

374(373,08

)

275(275,56

)654

Sin Epidural1

(0,63)

43(43,92)

33(32,44) 77

TOTAL 6 417 308 731

Las hipótesis a contrastar son:

• H0: Independencia. El resultado del test no se influye por la intervención con anestesia epidural.

• H1: Dependencia. Hay diferencias apreciables en los resultados del test de apgar con y sin anestesia epidural.

Debemos empezar calculando el valor del parámetro χ2, para lo cual debemos calcular las frecuencias esperadas en cada caso. Estas frecuencias las vamos a marcar entre paréntesis en cada uno de los casilleros. El valor de χ2 es:

2 0,2719χ =

El valor teórico esperado para una significación de p=0,05, y 2 grados de libertad, es de 5,99. Como el valor calculado es menor hemos de aceptar la hipótesis nula y admitir que no existen diferencias apreciables entre usar la epidural o no respecto a los valores obtenidos en el test de apgar.

Para comprobar esta baja asociación vamos a calcular el coeficiente de contingencia:

2

2

0,2719 0,01930,2719 731

Cn

χχ

= = =+ +

Un valor tan cercano a 0 indica una escasísima asociación, en nuestro caso ni siquiera significativa.

18

PROBLEMA 2.15.- Se desea saber la relación que hay entre la nota de selectividad y el número de asignaturas aprobadas el primer año de carrera. Para ello, se seleccionan 10 individuos aleatoriamente obteniendo los siguientes resultados:

Test 1 9 10,5 11,2 12,4 13,1 10,7 12,2 11,5 12 10,6Test 2 6 8 7 7 7 7 8 9 7 6

Estudiar dicha relación con el coeficiente de correlación por rangos de Spearman.

Test 1 Orden Test 1 Test 2 Orden Test 2 d d2

9 1 6 1,5 -0,5 0,2510,5 2 8 8,5 -6,5 42,2511,2 5 7 5 0 012,4 9 7 5 4 1613,1 10 7 5 5 2510,7 4 7 5 -1 112,2 8 8 8,5 -0,5 0,2511,5 6 9 10 -4 1612 7 7 5 2 4

10,6 3 6 1,5 1,5 2,25107

2

12

66 1071 1 0,3515

( 1) 10 (100 1)

n

is

dr

n n=

⋅⋅= − = − =

⋅ − ⋅ −

∑

Sabemos que el coeficiente oscila entre -1 y 1, vemos que el grado de asociación no es muy alto. Si planteamos el ejercicio como un contraste de hipótesis tendríamos que:

H0 = Las dos variables no están asociadas a un nivel de significación del 0,05H1 = Las dos variables están asociadas a un nivel de significación del 0,05.

Si buscamos el valor de la rs para 9 grados de libertada (nº parejas -1) llegamos a: 0,700. El dato que hemos obtenido experimentalmente es menor, luego aceptamos la H0, no hay asociación significativa entre las variables.

19

003-03 Análisis Descriptivo Bivariante (Ejercicios)

Documents