Estadística básica para educación física

Dedicado a mis hermanasMiriam y Yessenia

FERNANDO MAUREIRA CID

2

ESTADÍSTICA BÁSICA PARA EDUCACIÓN FÍSICA

3

AGRADECIMIENTOS

Este libro se gestó en base a las necesidades y dudasrelacionadas con los análisis estadísticos de mis estudiantes delGrupo de Neurociencia Cognitiva y Educación Física, para quienesespero este libro sea de utilidad.

Agradezco enormemente a Elizabeth Flores Ferro Magíster enDocencia e Investigación Universitaria y Profesora de EducaciónFísica por su paciencia y compromiso en la revisión de cada uno delos análisis estadísticos de este libro, sin ella este libro hubiesetardado mucho más en ver la luz.


4


5

CONTENIDOS ABREVIADOS

Introducción………………………………………………………. 19

Capítulo 1: Características de la estadística………………… 21

Capítulo 2: Estadística descriptiva….………………………… 37

Capítulo 3: Distribuciones de probabilidades……………….. 89

Capítulo 4: Introducción a la estadística inferencial………….. 113

Capítulo 5: Estadística paramétrica para una y dos

poblaciones……………………………………….. 135

Capítulo 6: Estadística paramétrica para tres y más

poblaciones……………………………………….. 181

Capítulo 7: Asociación de variables en estadística

paramétrica……………………………………….. 203

Capítulo 8: Estadística no paramétrica……………………….. 219

Capítulo 9: Análisis estadísticos en SPSS….……………….. 261

Referencias bibliográficas……………………………………… 32

Anexos…………………………………………………………… 32


6


7

INDICE DE CONTENIDOS

Introducción……………………………………………………. 19

CAPÍTULO 1CARACTERÍSTICAS DE LA ESTADÍSTICA………………… 21 I. Conceptos en estadística.….…………………………… 23

1. Definiciones básicas..……………………………… 232. Niveles de medición..………………………………. 26

2.1 Datos categóricos.…………………………… 262.1.1 Variables categóricas nominales..…… 262.1.2 Variables categóricas ordinales……… 27

2.2 Datos numéricos……………………………. 27 2.2.1 Variables intervalares…………………. 27 2.2.2 Variables de razón…………………….. 28

3. Análisis de datos……………………………………. 28 II. Desarrollo histórico de la estadística………………… 31

CAPÍTULO 2ESTADÍSTICA DESCRIPTIVA…………………………………. 37 I. Representación de datos………………………………. 39

1. Tablas de frecuencia………………………………… 392. Gráficos de barra y torta…………………………… 423. Histograma………………………………………….... 444. Polígonos de frecuencia…………………………… 505. Ojiva…………………………………………………… 52

II. Medidas de tendencia central………………………… 551. Media………………………………………………… 552. Mediana……………………………………………… 573. Moda…………………………………………………. 60

III. Medidas de dispersión y posición…………………… 631. Amplitud o Rango…………………………………… 632. Varianza……………………………………………… 643. Desviación estándar………………………………… 65


8

4. Percentiles…………………………………………… 685. Cuartiles……………………………………………… 696. Quintiles y deciles…………………………………… 70

IV. Medidas de forma……………………………………… 731. Asimetría……………………………………………… 732. Curtosis………………………………………………. 763. Distribuciones según su forma……………………. 78

V. Gráfico de caja y dispersión…………………………… 811. Gráfico de caja (Box-plot)…………………………… 812. Gráfico de dispersión (Scatter-plot)………………. 85

CAPÍTULO 3DISTRIBUCIONES DE PROBABILIDADES……..…………. 89 I. Distribuciones discretas………………………………… 91

1. Distribución de Bernoulli…………………………… 932. Distribución binominal……………………………… 943. Distribución de Poisson……………………………. 974. Distribución hipergeométrica……………………… 99

II. Distribuciones continúas………………………………. 1031. Distribución normal…………………………………. 1032. Distribuciones con muestras pequeñas…………… 104

2.1 La distribución t de Student o distribución t………………………………… 105

2.2 La distribución Chi cuadrada (X2)…………. 1062.3 Distribución F de Fisher……………………. 106

3. Distribución Z………………………………………… 108

CAPÍTULO 4INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL……. 113 I. Conceptos en estadística inferencial…………………. 115

1. Nivel de significancia………………………………… 1152. Métodos en inferencia estadística………………… 118

2.1 Estimaciones puntuales…………………… 1182.2 Estimaciones por intervalos……………….. 1202.3 Contraste de hipótesis……………………… 120


9

II. Muestra y muestreo……………………………………… 121

1. Cálculos de muestras………………………………. 1241.1 Poblaciones infinitas…….…………………. 1251.2 Poblaciones finitas…………………………… 1271.3 Muestras para construir un

instrumento de medición………………….. 1282. Muestreo……………………………………………… 129

2.1 Muestras probabilísticas……………………. 1292.2 Muestras no probabilísticas………………… 132

CAPÍTULO 5ESTADÍSTICA PARAMÉTRICA PARA UNA Y DOS POBLACIONES………………………………………………… 135 I. Normalidad de datos……………………………………. 137

1. Prueba KS de normalidad…………………………. 137 II. Intervalos de confianza para una población……… 143

1. Error estándar de la media………………………… 1432. Intervalos de confianza para la media de una

población con S conocida…………………………. 1463. Contraste de hipótesis para la media de una

población con S conocida…………………………. 1474. Intervalos de confianza para la media de una

población con S desconocida………………………. 1485. Contraste de hipótesis para la media de una

población con S desconocida……………………… 1506. Intervalos de confianza para una proporción…… 1517. Contraste de hipótesis para una proporción……… 152

III. Homogeneidad de varianzas…………………………. 1551. Igualdad de varianzas de dos grupos……………. 1552. Igualdad de varianzas de tres o más grupos de

igual tamaño…………………………………………. 1572.1 Prueba de Cochran…………………………. 1572.2 Prueba de Hartley…………………………… 159

3. Igualdad de varianzas de tres o más grupos de diferentes tamaños…………………………………. 160


10

IV. Prueba t de Student para muestras independientes………………………………………… 165

1. Error estándar de la diferencia de medias independientes……………………………………… 166

2. Intervalos de confianza para la diferencia demedias independientes……………………………… 168

3. Valor t para muestras independientes……………………………………… 169

4. Tamaño del efecto de la prueba t para muestras independientes………………………………………. 170

V. Prueba t de Student para muestras relacionadas……………………………………………… 173

1. Error estándar de la diferencia de mediasrelacionadas………………………………………… 174

2. Intervalos de confianza para la diferencia de medias relacionadas………………………………… 177

3. Valor t para muestras relacionadas…………………………………………. 177

4. Tamaño del efecto de la prueba t para muestras relacionadas….……………………………………… 178

CAPÍTULO 6ESTADÍSTICA PARAMÉTRICA PARA TRES O MAS POBLACIONES………………………………………………… 181 I. Análisis de varianza de un factor……………………… 183

1. Comparaciones posteriores a F…………………… 189 II. Análisis de varianza de un factor de medidas repetidas………………………………………………….. 193

1. Comparaciones posteriores a F…………………… 200

CAPÍTULO 7ASOCIACIÓN DE VARIABLES EN ESTADÍSTICAPARAMÉTRICA…………………………………………………. 203 I. Coeficiente de correlación de Pearson………………. 205 II. Regresión lineal simple………………………………… 211

1. Contraste de hipótesis de la regresión lineal……. 215


11

CAPÍTULO 8:ESTADÍSTICA NO PARAMÉTRICA…………………………. 219 I. Comparación de medias de dos grupos……………… 221

1. Prueba U de Mann-Whitney………………………… 2212. Prueba de rangos de Wilcoxon…………………… 2253. Prueba de Chi cuadrado (X2)……………………… 229

3.1 Prueba de Chi cuadrado 2x2………………. 2324. Prueba de McNemar………………………………… 234

II. Comparación de medias de tres o más grupos….. 2371. Prueba de análisis de la varianza unifactorial de

Kruskal Wallis………………………………………… 2371.1 Comparaciones múltiples…………………… 241

2. Prueba de varianza por rangos de Friedman……. 2432.1 Comparaciones múltiples…………………… 247

3. Prueba Q de Cochran……………………………… 249 III. Asociaciones no paramétricas……………………….. 253

1. Coeficiente de correlación de Spearman de rangos ordenados…………………………………… 253

2. Coeficiente de correlación Phi……………………… 257

CAPÍTULO 9ANÁLISIS ESTADÍSTICOS EN SPSS………………………. 261 I. Estadística descriptiva………………………………….. 263

1. Tabla de frecuencia y gráficos……………………… 2662. Medidas de tendencia central, dispersión,

posición y forma…………………………………….. 2683. Gráfico de caja (Box-plot)…………………………… 270

II. Estadística paramétrica………………………………… 2731. Prueba de normalidad KS…………………………. 2732. Prueba de homogeneidad de varianzas…………. 2743. Prueba t de Student para una muestra……………. 2764. Prueba t de Student para muestras

independientes………………………………………. 2785. Prueba t de Student para muestras

relacionadas…………………………………………. 281


12

6. Análisis de varianza de un factor (ANOVA)………. 2846.1 Pruebas post hoc…………………………… 287

7. ANOVA de medidas repetidas……………………… 2907.1 Pruebas post hoc…………………………… 295

8. Correlación de Pearson……………………………. 2979. Correlaciones parciales……………………………. 29810. Regresión lineal simple…………………………… 300

III. Estadística no paramétrica en SPSS………………… 3071. Prueba U de Mann-Whitney………………………… 3072. Prueba de Wilcoxon………………………………… 3093. Prueba de Chi cuadrado…..………………………. 310

3.1 Prueba de Chi cuadrado 2x2………………. 3134. Prueba de McNemar………………………………… 3145. Prueba de Kruskal-Wallis…………………………… 3166. Prueba de Friedman………………………………… 3197. Prueba Q de Cochran……………………………… 3208. Correlación de Spearman…………………………… 3229. Correlación Phi……………………………………… 324

Referencias bibliográficas…………………………………… 327

ANEXOS…………………………………………………………. 329


13

INDICE DE FORMULAS

Fórmula 1. Frecuencia relativa……………………………….. 40

Fórmula 2. Escala de densidad………………………………… 49

Fórmula 3. Media………………………………………………… 55

Fórmula 4. Mediana……………………………………………… 57

Fórmula 5. Rango………………………………………………... 63

Fórmula 6. Varianza……………………………………………... 64

Fórmula 7. Desviación estándar……………………………….. 66

Fórmula 8. Percentil……………………………………………… 68

Fórmula 9. Cuartil…….………………………………………….. 69

Fórmula 10. Corrección cuartil…………………………………. 70

Fórmula 11. Coeficiente de asimetría de Fisher……………… 75

Fórmula 12. Coeficiente de apuntamiento de Fisher………… 76

Fórmula 13. Distancia inter-cuartil……………………………… 82

Fórmula 14. 1° Cota…….……………………………………….. 82

Fórmula 15. 2° Cota…….……………………………………….. 83

Fórmula 16. Probabilidades…………………………………….. 92

Fórmula 17. Probabilidad binominal…………………………… 95

Fórmula 18. Posibilidad de Poisson…………………………… 98

Fórmula 19. Modelo hipergeométrico…………………………. 100

Fórmula 20. Grados de libertad………………………………… 106

Fórmula 21. Calificación Z………………………………………. 109

Fórmula 22. Tamaño muestra de población infinita…………. 126

Fórmula 23. Tamaño muestra de población finita……………. 127

Fórmula 24. Muestreo probabilístico estratificado……………. 130


14

Fórmula 25. Error estándar de la media con desviación

estándar conocida……………………………….. 143

Fórmula 26. Error estándar de la media con desviación

estándar desconocida…………………………… 143

Fórmula 27. Diferencia de la media muestral y poblacional… 145

Fórmula 28. Intervalos de confianza para la media de una

población con desviación estándar conocida…. 146

Fórmula 29. Intervalos de confianza para la media de una

población con desviación estándar

desconocida………………………………………. 148

Fórmula 30. Intervalos de confianza para proporciones……. 151

Fórmula 31. Contraste de hipótesis para proporciones……… 152

Fórmula 32. Valor F de homogeneidad de varianza de dos

grupos……………………………………………… 155

Fórmula 33. Prueba de Cochran de homogeneidad de

varianza de tres o más grupos…………………. 157

Fórmula 34. Prueba de Hartley de homogeneidad de


Fórmula 35. Prueba de Bartlett de homogeneidad de


Fórmula 36. Valor C…………………………………………….. 160

Fórmula 37. Valor S2p…………………………………………… 160

Fórmula 38. Diferencia de medias independientes………….. 167

Fórmula 39. Error estándar de la diferencia de medias

independientes con población con desviación

estándar conocida……………………………….. 167


15


independientes con población con desviación

estándar desconocida…………………………… 167

Fórmula 41. Intervalos de confianza para diferencia de

medias independientes………………………….. 168

Fórmula 42. Valor t para muestras independientes………….. 169

Fórmula 43. Tamaño del efecto de diferencia de medias de

dos muestras independientes…………………… 170

Fórmula 44. Desviación típica combinada……………………. 170

Fórmula 45. Suma de cuadrados de la diferencia...…………. 175

Fórmula 46. Desviación estándar de la diferencia de medias

relacionadas……………………………………… 176


relacionadas……………………………………… 176

Fórmula 48. Intervalos de confianza de la diferencia de

medias relacionadas…………………………….. 177

Fórmula 49. Valor t de muestras relacionadas………………. 177

Fórmula 50. Tamaño del efecto de diferencia de medias de

dos muestras relacionadas……………………… 178

Fórmula 51. Suma de cuadrados totales……………………… 185

Fórmula 52. Suma de cuadrados inter-grupos……………….. 186

Fórmula 53. Suma de cuadrados intra-grupos……………….. 187

Fórmula 54. Cuadrados medios inter-grupos…………………. 187

Fórmula 55. Cuadrados medios intra-grupos…………………. 187

Fórmula 56. Valor F……………………………………………… 188

Fórmula 57. Cuadrado medio intra-grupo promedio…………. 190

Fórmula 58. Error estándar de una media……………………. 190


16

Fórmula 59. Valor D…………………………………………….. 191

Fórmula 60. Suma de cuadrados totales MR………………… 195

Fórmula 61. Suma de cuadrados inter-grupos MR………….. 196

Fórmula 62. Suma de cuadrados inter-sujetos………………. 196

Fórmula 63. Suma de cuadrados residuales…………………. 197

Fórmula 64. gl inter-grupos……………………………………... 197

Fórmula 65. gl inter-sujetos…………………………………….. 197

Fórmula 66. gl residual………………………………………….. 197

Fórmula 67. gl total………………………………………………. 197

Fórmula 68. Media cuadrática inter-grupos…………………… 198

Fórmula 69. Media cuadrática residual………………………... 198

Fórmula 70. Valor F de MR……………………………………... 199

Fórmula 71. Intervalos de confianza de Bonferroni………….. 200

Fórmula 72. Covarianza…………………………………………. 207

Fórmula 73. Correlación de Pearson…………………………... 208

Fórmula 74. Coeficiente de determinación……………………. 210

Fórmula 75. Ecuación de la línea recta……………………….. 212

Fórmula 76. Método de mínimos cuadrados………………….. 213

Fórmula 1…………………………………………….. 213

Fórmula 78. Valor SSxy………………………………………….. 213

Fórmula 79. Valor SSxx………………………………………….. 213

Fórmula 0…………………………………………….. 213

Fórmula 81. Varianza residual…………………………………. 215

Fórmula 82. Valor t para regresión lineal……………………… 216

Fórmula 83. Valor U de Mann-Whitney………………………... 223

Fórmula 84. Valor Z de U de Mann-Whitney…………………. 224

Fórmula 85. Valor Z de Wilcoxon………………………………. 227


17

Fórmula 86. Media de la T de Wilcoxon………………………. 227

Fórmula 87. Desviación estándar de la T de Wilcoxon……… 228

Fórmula 88. Frecuencia esperada……………………………... 230

Fórmula 89. Valor X2…………………………………………….. 230

Fórmula 90. gl de X2…………………………………………….. 231

Fórmula 91. Valor X2 en tabla de 2x2…………………………. 233

Fórmula 92. Valor X2 de McNemar…………………………….. 235

Fórmula 93. Valor de Kruskal-Wallis sin empates……………. 239

Fórmula 94. Valor de Kruskal-Wallis con empates…………… 240

Fórmula 95. Valor crítico de diferencias de KW…………….... 242

Fórmula 96. Valor de Friedman sin empates…………………. 246

Fórmula 97. Valor de Friedman con empates………………… 246

Fórmula 98. Valor crítico de diferencias de Friedman……….. 248

Fórmula 99. Valor Q……………………………………………... 250

Fórmula 100. Correlación de Spearman sin empates……….. 256

Fórmula 101. Correlación de Spearman con empates………. 256

Fórmula 102. Correlación de Phi………………………………. 258


18


19

INTRODUCCIÓN

La estadística es un elemento fundamental para desarrollarnuestras investigaciones científicas, ya que ella nos permiteclasificar, comparar y asociar nuestros datos, de manera tal quepodamos generar conclusiones e inferencias. Una vez quedeterminamos nuestro tipo de investigación (exploratoria, descriptiva, correlacional o explicativa), nuestro diseño(experimental o no experimental), nuestros instrumentos yrecogemos los datos1 debemos proceder a aplicar diversos análisisestadísticos para obtener nuestros resultados.

Existen falencias en los conocimientos y aplicaciones de laestadística por parte de los estudiantes y profesionales de laeducación física, por lo que surge la idea de este libro con losaspectos básicos de esta ciencia, orientado a los lectores queestudian por primera vez esta área de conocimiento, ya sea por laexigencia de un curso o por la necesidad de realizar unainvestigación orientada a la obtención de una licenciatura omagíster.

El libro está compuesto de 9 capítulos: en el primero semencionan algunos conceptos fundamentales para la estadística yse presenta una clasificación de los principales análisis. En elsegundo capítulo se explica la estadística descriptiva de datos conlos principales análisis de tendencia central, dispersión, posición yforma. Todo lo necesario para presentar los datos de nuestrainvestigación.

En el capítulo tercero se estudia brevemente las principalesdistribuciones de datos, tanto discretas como continuas. En elcapítulo cuarto se realiza una introducción a los conceptos más

1 Para más detalles leer Maureira, F. y Flores, E. (2012) Manual deinvestigación científica para estudiantes de educación física. EditorialAcadémica Española.


20

relevantes en estadística inferencial: nivel de significancia, estimaciones, contraste de hipótesis, cálculo de muestras y tipos demuestreos.

En el capítulo cinco, seis y siete se explican los análisisinferenciales paramétricos para una, dos, tres y más poblacionescomo la prueba de normalidad, cálculos de intervalos de confianza, pruebas de homogeneidad de varianzas, pruebas t para unamuestra, para muestras independientes y para muestrasrelacionadas, análisis de varianza de un factor, análisis de varianzade un factor de medidas repetidas, correlaciones de Pearson yregresión lineal simple.

En el capítulo ocho se explican los análisis inferenciales noparamétricos como la prueba de Mann-Whitney, de Wilcoxon, Chi-cuadrado, Kruskal-Wallis, Friedman, correlación de Spearman, etc.

En el capítulo nueve se realizan todos los análisis estudiadosen capítulos anteriores mediante el programa estadístico SPSS16.0.

Es importante destacar que los ejemplos mostrados en cadauno de los capítulos y temas de este libro son FICTICIOS y soloformulados para ilustrar los análisis correspondientes.

Espero que este libro pueda ser una guía para estudiantes depre-grado y magíster en educación física, como así también paraprofesionales del área que deseen explorar la investigacióncientífica y ayuden de este modo al crecimiento de esta disciplina.


21

CAPÍTULO 1

CARACTERISTICAS DE LA ESTADÍSTICA

I. Conceptos en estadística

II. Desarrollo histórico de la estadística


22


23

ICONCEPTOS EN ESTADISTICA

La estadística es una rama de las matemáticas que reúne yclasifica los datos numéricos para poder, a partir de ellos generarconclusiones e inferencias. Generalmente se cuenta sólo con unpequeño conjunto de datos, pero a partir de ellos es posible inferirlas características de conjuntos más grandes de datos, por ejemplo, es posible predecir con cierta precisión la estatura promedio detodos los estudiantes de un colegio, aun cuando sólo evaluemos aalgunos de ellos.

Para comenzar nuestro estudio de la estadística es necesarioaclarar algunos conceptos fundamentales que se utilizarán a lolargo de este libro.

1. DEFINICIONES BÁSICAS

a) Población: conjunto total de sujetos o unidades de análisissobre los que deseamos hacer conclusiones. En general esteconjunto es demasiado grande para abarcarlo en su totalidad. Por ejemplo: los 10.000 estudiantes de enseñanza media de loscolegios de la comuna de Santiago Centro, los 5.000 adultosmayores de la zona oriente de Santiago, los 700 estudiantes deenseñanza básica de un colegio de Iquique, las 1.200 personasque asisten a un gimnasio de la comuna de Providencia, etc.

b) Muestra: subconjunto de la población a la cual tenemos accesoy sobre quienes se realizarán verdaderamente las mediciones.


24

Por ejemplo: 250 estudiantes de enseñanza media de 5 colegiosde la comuna de Santiago Centro, 160 adultos mayores de lazona oriente de Santiago, 80 estudiantes de enseñanza básicade un colegio de Iquique, 130 personas que asisten a ungimnasio de la comuna de Providencia, etc.

c) Variable: es una característica observable que varía entre losdiferentes individuos de una población. Por ejemplo: la edad, estatura, peso, porcentaje de grasa corporal, fuerza, resistencia, etc.

d) Dato: un valor particular de una variable. También llamadoobservación o medición. Por ejemplo: 28 años, 1,82 mts. deestatura, 84 kilos, 21% de grasa corporal, 7 minutos en el test deNaveta, etc.

e) Parámetro: Cantidad numérica calculada sobre una población. Por ejemplo: la estatura media de los 10.000 estudiantes deenseñanza media de los colegios de la comuna de SantiagoCentro, la fuerza del tren superior de los 5.000 adultos mayoresde la zona oriente de Santiago, la resistencia de los 700estudiantes de enseñanza básica de un colegio de Iquique, elporcentaje de grasa de las 1.200 personas que asisten a ungimnasio de la comuna de Providencia, etc.

f) Estadístico: Cantidad numérica calculada sobre la muestra. Porejemplo: la estatura media de 250 estudiantes de enseñanzamedia de los colegios de la comuna de Santiago Centro, lafuerza del tren superior de 160 adultos mayores de la zonaoriente de Santiago, la resistencia de 80 estudiantes deenseñanza básica de un colegio de Iquique, el porcentaje degrasa de 130 personas que asisten a un gimnasio de la comunade Providencia, etc.

g) Censo: datos de una o más variables de toda la población. Por


25

ejemplo: el CENSO poblacional que se realizan en nuestro paíscada 10 años.

h) Unidad de análisis: corresponde al objeto estudiado. Porejemplo: una persona, una familia, un colegio, una región, unpaís, etc.

i) Caso o registro: corresponde al conjunto de medicionesrealizadas sobre una unidad de análisis. Por ejemplo: el sexo, laedad, el curso y el IMC de una persona; la fuerza, velocidad, resistencia y flexibilidad de un deportista, etc.

Figura 1. Conceptos importantes en un conjunto de datos.


26

2. NIVELES DE MEDICION

Los datos obtenidos de nuestras variables evaluadas puedenser de dos tipos: a) categóricos o b) numéricos. Determinarcorrectamente el nivel de medición (o naturaleza de los datos) esfundamental en estadística, ya que esto determinará finalmente quetipos de análisis podemos realizar con ellos.

2.1 Datos categóricos

Las variables categóricas son las que registran la presenciade un atributo. Es importante destacar que las categorías deben serexcluyentes, es decir, un mismo sujeto no puede estar en doscategorías al mismo tiempo. La cantidad de categorías va adepender de las características del atributo medido. Son ejemplosde datos categóricos la puntuación baja, media y alta de un test; lapresencia y ausencia de una cualidad; el tipo de colegio (municipal, subvencionado y particular), etc.

Las variables categóricas se dividen a su vez en dos grupos:

2.1.1 Variables categóricas nominales

Son aquellas donde las categorías no poseen un orden, todasvalen lo mismo. Estas variables pueden ser dicotómicas (cuandoposeen dos categorías) o policotómicas (tres o más categorías). Porejemplo:

Sexo de un sujeto: masculino-femenino (variable dicotómica)Presencia o ausencia de un atributo: embarazada – noembarazada (variable dicotómica)Religión: cristiano, musulmán, protestante, budista, etc. (variablepolicotómica)Estado civil: soltero, casado, separado, viudo (variablepolicotómica).


27

Comuna de residencia: Santiago Centro, Recoleta, Providencia, Ñuñoa, Maipú, etc. (variable policotómica).

2.1.2 Variables categóricas ordinales

Son aquellas donde las categorías poseen un orden jerárquico, hay categorías mayores o más importantes que otras. Porejemplo: Cursos del colegio (1°, 2°, 3°, 4°, etc.)Nivel de desarrollo de patrones motores (bajo, medio y alto)

IMC (bajo-peso, normal, sobrepeso, obeso)Puesto de trabajo (rector, director, subdirector, jefe de UTP, profesor, etc.)

2.2 Datos numéricos

También conocidas como variables continuas o discretas. Lasvariables numéricas son las que presentan el resultado de susobservaciones como números, permiten ordenar los valores en uncontinuo y el intervalo entre cada par de valores es siempre elmismo independiente del lugar donde este (el intervalo entre el 4 yel 5 es el mismo que entre 81 y 82). Estas variables se clasifican endos grupos:

2.2.1 Variables intervalares

Son aquellas que miden atributos donde el cero es arbitrario yno significa la ausencia del atributo. También puede tomarvalores negativos. Por ejemplo: Las puntuaciones en las pruebasLas puntuaciones de coeficiente intelectual


28

Las puntuaciones de un test cognitivo (atención, memoria, planificación, etc.)La temperaturaLas puntuaciones de un test de motricidad, agilidad, coordinación, etc.

2.2.2 Variables de razón

Son aquellas que miden atributos donde el cero no es arbitrario, sino que indica la ausencia de un atributo. No existen los valoresnegativos. Por ejemplo: Edad, peso, estatura, etc. Número de hermanos (el cero indica que no se tiene hermanos)Velocidad, fuerza, resistencia, etc. Número de ingreso y egreso de una carrera, etc.

Como se dijo anteriormente, es muy importante definircorrectamente al tipo de datos que corresponden nuestros valoresmedidos, ya que eso determina que tipos de análisis estadísticosson posibles de realizar y cuáles no. Por ejemplo, obtener el promedio de una variable numérica tiene sentido en cambiodeterminar el promedio de una variable categórica no lo tiene.

3. ANALISIS DE DATOS

La estadística se divide en dos grandes áreas: la estadísticadescriptiva o análisis exploratorio de datos (presentación de losdatos organizados y resumen de los mismos) y la estadísticainferencial (conjunto de métodos que permiten predecircaracterísticas de un fenómeno).

La estadística descriptiva contiene las tablas de frecuencia, gráficos, medidas de tendencia central, medidas de dispersión, medidas de posición y medidas de forma (Fig. 2).


29

Figura 2. Divisiones de la estadística descriptiva.

Por su parte, la estadística inferencial se divide en Univariada(cuando en la investigación existe una sola variable dependiente, pudiendo existir 1 o más variables independientes) y Multivariada(cuando en la investigación existen dos o más variablesdependientes, pudiendo existir una o más variablesindependientes). Este libro trata de la estadística univariada, la quea su vez se divide en paramétrica y no paramétrica, existiendo enambos casos prueba para comparar grupos y para realizarasociaciones entre variables (Fig. 3).


30

Figura 3. Divisiones de la estadística inferencial univariada.


31

IIDESARROLLO HISTÓRICO DE LAESTADISTICA

La estadística es tan antigua como la escritura y correspondea un elemento complementario a todas las ciencias. La historia deesta disciplina puede clasificarse en 4 etapas: Censos, Aritméticapolítica, Cálculo de probabilidades y Estadística moderna.

a) La primera etapa de la estadística se conoce como los censos, ya que se basa en la descripción de la población y riquezas porparte de los gobernantes para lograr mejorar la administraciónde los estados. A continuación se presentan los hechos másrelevantes de esta etapa:

Los primeros indicios se remontan al antiguo Egipto unos 3.050años A.C., con los censos de población y registro de lasriquezas. Situación similar ocurre en China en el año 2238 A.C. Los romanos fueron quienes más utilizaron la estadística concensos, registros de nacimientos, defunción, matrimonios, riquezas, etc.

b) La segunda etapa de la estadística: la aritmética política.

Durante los mil años posteriores a la caída del imperio romanose realizó muy pocas operaciones estadísticas, con la excepción


32

de las compilaciones de tierras de la iglesia realizada por Pipinoel Breve en 758 D.C. En el año 1532 Enrique VII exige el registro de las defuncionesen Inglaterra, debido al temor que tenía a la peste. Misma épocaen que los clérigos franceses debían registrar los nacimientos, defunciones y matrimonios. En 1540 Sebastián Muster realiza una compilación de datossobre la organización política, comercio y recursos militares deAlemania. En 1632 se publican las Cuentas de Mortalidad en Inglaterra conlos datos de nacimientos y defunciones. En 1662 John Graunt publica Observaciones Políticas yNaturales hechas a partir de las Cuentas de Mortalidad, dondeutiliza registros de 30 años para efectuar predicciones sobre lamuerte de personas por diversas enfermedades, siendo elprimer intento de inferencia estadística del que se tiene registro.

c) La tercera etapa de la estadística es denominada cálculo deprobabilidades.

Las probabilidades comenzaron a ser formalizada por BlaisePascal y Pierre Fermat en 1654 quienes encontraron la solucióna cómo repartir las apuestas de un juego que no habíafinalizado, mediante las probabilidades de ganar que tuviesecada participante en ese momento. En 1665 Blaise Pascal publica Tratado sobre el triánguloaritmético que se basa en las propiedades combinatorias delposteriormente llamado triángulo de Pascal (una representaciónde los coeficientes binominales ordenados en forma detriángulo). En 1687 se publica la obra póstuma El arte de la Conjetura deJacob Bernoulli, matemático Suizo, donde se encuentra entreotras cosas, las bases del teorema de Bernoulli (frecuenciaaproximada que un suceso a la probabilidad p ocurra a medidaque se repite un experimento).


33

En 1760 Godofredo Achenwall, profesor alemán, acuño eltérmino estadística que proviene del latín status que significaestado o situación. En 1764 se publica la obra póstuma de Thomas Bayes Ensayosobre la resolución de un problema en la doctrina del azar, lacual fue ignorada por sus contemporáneos, pero 2 siglosdespués sirvió para formulación de la inferencia bayesiana, lacual asigna probabilidades a fenómenos no aleatorios, perocuyos resultados no son conocidos. En 1812 Pierre Simón Laplace publica Teoría analítica deprobabilidades donde estudia los problemas de lasprobabilidades continuas. También descubre y demuestra elteorema de límite central y fusiona el cálculo de probabilidades yla estadística. En 1823 Karl Friedrich Gauss desarrolla la teoría de errores(conjuntamente con Bessel y Laplace) estableciendo el métodode mínimos cuadrados. Además de esto, el estudio de ladistribución normal fue el gran aporte de Gauss al cálculo deprobabilidades. En 1835 Jacques Quételect es quien aplica por primera vez laestadística a las ciencias sociales.

d) La cuarta etapa de la estadística es denominada Estadísticamoderna.

En 1837 Simeón Poisson publicó Tratado de probabilidades quecontiene la ley de probabilidades conocida como distribución dePoisson y la generalización de la ley de los grandes números deBernoulli. En 1888 Francis Galton introdujo el término correlación parahacer referencia a la influencia relativa de una variable sobreotra. También trabajo en regresión lineal, componentes devarianza y diseño curvas normales inversas llamadas ojivas. Sustrabajos en la ley normal bivariada de probabilidades dieron


34

origen a la ley normal multivariada, base de la estadísticamultivariante. En 1892 Karl Pearson publica La gramática de la ciencia, dondeestudió curvas asimétricas y generó el test de Chi-cuadrado. También trabajó y perfeccionó los análisis de correlación deGalton, desarrollando la correlación de Pearson. En 1902 William Sealey Gosset publica un artículo con las basesde la distribución t de Student (seudónimo con el cual publicódicho artículo). En 1925 Ronald Arnold Fisher publica su libro Métodosestadísticos para investigadores. Desarrolló el análisis devarianza, numerosos análisis multivariados y del método demáxima verosimilitud para la estimación de parámetros. Instauróel diseño experimental en bloques, la aleatorización y losdiseños factoriales. Considerado el más grande estadístico delsiglo XX. En 1933 Andrei Kolmogorov desarrolló una teoría deprobabilidades totalmente basada en axiomas fundamentalestotalmente rigurosos. En 1934 Jerzy Neyman introduce la teoría de los intervalos deconfianza. También publica el primer trabajo en muestreos depoblaciones finitas. En 1936 Jerzy Neyman y Egon Pearson (hijo de Karl Pearson)presentan una teoría sobre la prueba de hipótesis en estadística. La década de 1930-1940 fue el auge de la estadísticamultivariada con Mahalanobis (1936), Fisher (1936), Hotteling(1936), Bartlett (1938), etc. En 1945 Frank Wilcoxon publicó un trabajo donde reemplazó losdatos por sus rangos, de manera que fue posible conocerpropiedades distribucionales de los mismos, creando así laprueba de rangos de Wilcoxon. Esta idea es la base de laestadística no paramétrica. En 1952 William Kruskal y Allen Wallis publican el análisis derangos que lleva su nombre. A partir de la segunda mitad del siglo XX, la estadística estafuertemente asociada a la computación, ya que el desarrollo de


35

software estadísticos permite la realización de cientos o miles decálculos en tiempos reducidos o el trabajo con decenas devariables al mismo tiempo. Por ejemplo el programa SPSS fuecreado en 1968 y en el 2013 se lanzó su versión 22.0. Losprogramas estadísticos más usados en la actualidad son: SPSS, SAS, R, Stata, Matlab, Minitab, etc.


36


37

CAPÍTULO 2

ESTADISTICA DESCRIPTIVA

I. Representación de datos

II. Medidas de tendencia central

III. Medidas de dispersión y posición

IV. Medidas de forma

V. Gráfico de caja y dispersión


38


39

IREPRESENTACION DE DATOS

La estadística descriptiva o análisis exploratorio de datosofrece modos de presentar y evaluar las características másimportantes de los datos. Esto a través de tablas, gráficos ymedidas resúmenes.

1. TABLAS DE FRECUENCIA

NIVEL DE MEDICIÓN: NOMINAL, ORDINAL, INTERVALAR y DE RAZON

La tabla de frecuencia es el modo más sencillo de presentarlos datos, en ella se observa el nombre de las categorías, lafrecuencia absoluta (número de sujetos que componen cadacategoría), la frecuencia relativa (porcentaje que representa esenúmero de sujetos en relación al total de observaciones) y lafrecuencia acumulada (porcentaje acumulado que corresponde a lasuma de los porcentajes de cada categoría).

Ejemplo 1

Un profesor busca conocer el IMC de 15 estudiantes de primeraño básico de un colegio de Santiago, para ello mide la talla y elpeso de ellos y luego calcula el IMC obteniendo los siguientesresultados:


40

Sujeto IMC Sujeto IMC Sujeto IMC Sujeto IMC1 19,2 5 21,5 9 28,3 13 22,62 26,7 6 25,8 10 20,1 14 37,13 17,4 7 32,5 11 34,6 15 42,34 20,0 8 23,2 12 29,3

Paso 1:Para elaborar la tabla de frecuencia debemos agrupar losvalores obtenidos en diversas categorías:

Bajo peso (<18,5) = 1 sujetoNormal (18,5 a 24,9) = 6 sujetosSobre-peso (25 a 29,9) = 4 sujetosObesidad I (30 a 34,9) = 2 sujetosObesidad II (35 a 39,9) = 1 sujetosObesidad III (>40) = 1 sujeto

Paso 2:Calculamos la frecuencia relativa (fr) de cada categoría con lasiguiente fórmula:

fr = n1 *100 (fórmula 1) N

n1 = número de observaciones de una categoría N = número de todas las observaciones

Aplicamos la fórmula 1 a los datos obtenidos en el paso 1:

Bajo peso = (1/15)*100 = 6,7Normal = (6/15)*100 = 40,0Sobre-peso = (4/15)*100 = 26,7Obesidad I = (2/15)*100 = 13,2Obesidad II = (1/15)*100 = 6,7Obesidad III = (1/15)*100 = 6,7


41

Paso 3Calculamos la frecuencia acumulada con la frecuencia relativade la primera categoría, luego la frecuencia relativa de lasegunda más la primera categoría, luego la tercera más lasegunda y más la primera, así sucesivamente.

Bajo peso = 6,7Normal = 40,0 + 6,7 = 46,7Sobre-peso = 26,7 + 40,0 + 6,7 = 73,4Obesidad I = 13,2 + 26,7 + 40,0 + 6,7 = 86,6Obesidad II = 6,7 + 13,2 + 26,7 + 40,0 + 6,7 = 93,3Obesidad III = 6,7 + 6,7 + 13,2 + 26,7 + 40,0 + 6,7 = 100,0

Paso 4Elaboramos la tabla de frecuencia con los datos anteriores:

Categoría Frecuenciaabsoluta

Frecuenciarelativa

Frecuenciaacumulada

Bajo-peso (<18,5) 1 6,7 6,7Normal (18,5-24,9) 6 40,0 46,7Sobre-peso (25-29,9) 4 26,7 73,4Obesidad I (30-34,9) 2 13,2 86,6Obesidad II (35-39,9) 1 6,7 93,3Obesidad III (>40) 1 6,7 100Total 15 100

En la tabla de frecuencia podemos observar que la categoríanormal presenta el mayor número de sujetos (6) y por ende lamayor frecuencia relativa (40,0%). Por otra parte, la categoría bajo-peso, normal y sobre-peso presentan una frecuencia acumulada de73,4%, es decir, las tres categorías suman ese porcentaje desujetos de la muestra.


42

2. GRAFICOS DE BARRA Y TORTA NIVEL DE MEDICIÓN: NOMINAL y ORDINAL

Una vez que hemos desarrollado una tabla de frecuencias esposible generar una representación de esta mediante gráficos.

El gráfico de barras se utiliza para representar variablescategóricas nominales u ordinales. La altura de cada barra indica unvalor de frecuencia relativa (Fig. 4), por lo tanto, es posiblecomparar visualmente las diferencias entre cada categoría. También es posible utilizar el gráfico de barra para comparar dos omás distribuciones (Fig. 5).

Figura 4. Gráfico de barra del IMC en estudiantes de primer añomedio de un colegio de la ciudad de Santiago.

El gráfico de torta representa la frecuencia relativa como un ánguloy una porción dentro de un círculo (Fig. 6). Este tipo de grafico es igual de útil que el de barra para representar la distribución deun grupo, pero resulta menos eficiente para representar a dos o


43

más grupos, siendo necesario utilizar varios gráficos (uno por cadapoblación o muestra).

Figura 5. Gráfico de barra del IMC comparando estudiantes desexo masculino y femenino de primer año medio de un colegio de la

ciudad de Santiago.

Figura 6. Gráfico de torta del IMC en estudiantes de primer añomedio de un colegio de la ciudad de Santiago.


44

3. HISTOGRAMA

NIVEL DE MEDICIÓN: INTERVALAR y DE RAZON

Es el más conocido de los gráficos para representar variablesnuméricas (intervalares o de razón). A diferencia del gráfico debarra, en un histograma no existe separación entre categorías (amenos que una categoría tenga valor cero), ya que sus valores soncontinuos.

Ejemplo 2

Un profesor evaluó los patrones motores en 42 estudiantes detercer año básico de un colegio de Santiago. El test presenta unapuntuación de 1 a 5, siendo uno un mal desempeño y cinco unbuen desempeño. A continuación se presenta la tabla defrecuencia con los resultados.

Puntaje Número de sujetos

Frecuenciarelativa (%)

Frecuenciaacumulada (%)

1 3 7,1 7,12 4 9,5 16,63 12 28,6 45,24 15 35,7 80,95 8 19,1 100,0

Total 42 100,0

La frecuencia relativa de las puntuaciones del test de patronesmotores de tercer año básico se presenta en el siguientehistograma:


45

Figura 7. Histograma de las puntuaciones de los patrones motoresen 42 estudiantes de tercer básico de un colegio de la ciudad de

Santiago.

Es importante destacar que la representación visual delhistograma depende de la cantidad de clases que utilicemos(divisiones de los datos como categorías). Muchas clasesprovocarán que pocos datos queden dentro de cada clase y porende el histograma presentará una distribución uniforme (Fig. 8). Por el contrario, pocas clases provocarán que muchos datosqueden dentro de una clase y el histograma mostrará pocascaracterísticas importantes (Fig. 9). El número ideal de clases se hacalculado entre 6 y 15.

Cuando realizamos un histograma sobre clases que poseen lamisma longitud (cada clase tiene igual duración o tamaño) esposible realizar dicho histograma con sus frecuencia relativas. Porejemplo, en la figura 10 se observa un histograma del tiempo querealizaron los sujetos de segundo año medio en un test de Naveta, aquí se observa que la mayor parte de los estudiantes lograrontiempos entre 5 y 7 minutos en el test. En este caso la duración decada clase tiene la misma longitud (1 minuto), de la misma formacuando las clases son cursos (1° medio, 2° medio, etc.).


46

Figura 8. En el histograma se observan demasiadas clases porende la figura tiende a ser uniforme.

Figura 9. En el histograma existen pocas clases razón por la cualno se aprecia bien la distribución de los datos.


47

Figura 10. Tiempos en el test de Naveta, donde se aprecian 12clases, las que permiten ver más claramente los detalles de la

distribución de la variable.

Sin embargo, en ocasiones las clases poseen distintostamaños y entonces las frecuencias relativas no son buenos valorespara graficar porque se produce una distorsión del tamaño de lasáreas de cada barra, lo que no muestra correctamente cual es lacategoría que posee mayor frecuencia de sujetos.

Ejemplo 3

Las edades de una muestra de 131 personas de ambos sexos seclasificó en 5 categorías: personas entre 1 y 2 años, personasentre 3 años y 9 años, personas entre diez años y 19 años, personas entre 20 años y 49, personas entre 50 años y 80 años. De esta manera se obtuvo la siguiente tabla:


48

Categoría Número desujetos



1-2 años 35 26,7 26,73-9 años 47 35,9 62,610-19 años 23 17,6 80,220-49 años 17 12,9 93,150-80 años 9 6,9 100

131 100

Con estos datos de frecuencia relativa procedemos a realizarun histograma para observar la distribución de esta variable (Fig. 11). Sin embargo, el histograma parece representar que la mayorcantidad de sujetos se encuentran en las clases o intervalos de 20 a49 años y de 50 a 80 años, ya que se observan áreas de mayortamaño (donde se encuentra el 19,9% de los sujetos), en cambioparece haber menos individuos en el intervalo de 1 a 9 años (dondese encuentra el 62,6% de los sujetos).

Figura 11. Histograma que representa la frecuencia relativa de losdatos.


49

Para evitar este tipo de distorsiones, cuando las categorías oclases poseen distintas longitudes es necesario realizar una escalade densidad que se calcula con la siguiente fórmula:

Escala de densidad = fr (fórmula 2) Lin

fr = frecuencia relativaLin = longitud del intervalo, que corresponde al valor superior del intervalo menos el valor menor del mismo intervalo.

Paso 1Calcular la escala de densidad para los intervalos del ejemplo 3:

1 a 2 años = 26,7 / (2 – 1) = 26,7 / 1 = 26,73 a 9 años = 35,9 / (9 – 3) = 35,9 / 6 = 5,9810 a 19 años = 17,6 / (19 – 10) = 17,6 / 9 = 1,9520 a 49 años = 13,0 / (49 – 20) = 13,0 / 29 = 0,4550 a 80 años = 6,9 / (80 – 50) = 6,9 / 30 = 0,23

Paso 2Elaboramos la tabla de frecuencia con los datos anteriores:



Escala dedensidad (%)

1-2 años 35 26,7 26,73-9 años 47 35,9 5,9810-19 años 23 17,6 1,9520-49 años 17 13,0 0,4550-80 años 9 6,9 0,23

131 100


50

Paso 3Elaboramos el histograma con la escala de densidad anterior:

Figura 12. Histograma que representa la escala de densidad de lasedades de la muestra.

Cuando calculamos la escala de densidades la barra delhistograma indica el número de datos contenida en ella y la imagenvisual se ajusta más a la realidad de los datos. En la figura 12 seobserva de mejor forma que en los intervalos de 20 a 80 añosexisten menos sujetos (19,6%) que en los intervalos de 1 a 9 años(62,6%).

4. POLIGONOS DE FRECUENCIA


Es similar al histograma pero entrega una imagen de la curvaque genera la distribución de la variable. Para los datos de lasedades de las personas entre 1 y 80 años se presenta el polígonode frecuencia en la figura 13, donde puede apreciarse fácilmente ladisminución del número de sujetos a partir de los dos años.


51

Figura 13. Polígono de frecuencia de la distribución del número desujetos de una muestra con edades entre uno y ochenta años.

Este tipo de representación de datos numéricos tambiénpuede utilizarse para comparar dos o más variables, resultando másútil que el histograma (Fig. 14).

Figura 14. Polígonos de frecuencia comparando los tiempos en untest de Naveta de varones (línea continua) y damas (línea depuntos) de 2° año medio. En el eje horizontal de observan los

minutos y en el vertical la cantidad de alumnos.


52

Finalmente, los polígonos de frecuencia se utilizan paramostrar la evolución de una característica a través del tiempo (Fig. 15).

Figura 15. Polígonos de frecuencia comparando los niveles defuerza de varones (línea continua) y de damas (línea de puntos) a

través del tiempo.

5. OJIVA


Es un gráfico semejante al polígono de frecuencia, pero enlugar de mostrar las frecuencias relativas de los datos presenta lasfrecuencias acumuladas. En el eje horizontal se consideran lasclases y en el vertical las frecuencias.

Ejemplo 4

Se evaluó la coordinación de 15 niños de 6 años de un colegiode Santiago y se obtuvo la siguiente tabla de frecuencia:


53




1 punto 3 20,0 20,02 puntos 3 20,2 40,03 puntos 5 33,3 73,34 puntos 3 20,0 93,35 puntos 1 6,7 100

15 100

Ahora construimos la ojiva ubicando en la primera categoría lafrecuencia acumulada (en este caso 20,0%), luego en la segundacategoría ubicamos la suma de la primera y la segunda frecuencia(40,0%) y así sucesivamente. Al unir los puntos con una línea, resulta ser una curva ascendente que comienza con la 1° frecuenciaacumulada y termina con un 100%. En este gráfico es posibleconocer cómo van sumando las categorías y tener una visión de laevolución de la frecuencia de los datos.

Figura 16. Ojiva mostrando la frecuencia acumulada de laspuntuaciones de la coordinación.


54


55

IIMEDIDAS DE TENDENCIA CENTRAL


Son medidas resúmenes de posición central alrededor de loscuales se encuentran las observaciones realizadas. Tambiénpueden ser definidas como el comportamiento más común en unconjunto de datos. Las medidas de tendencia central másempleadas son la media, la mediana y la moda.

1. MEDIA

La media o promedio es la medida de posición más utilizada. Se obtiene con la siguiente fórmula:

= i (fórmula 3) n

i = suma del valor de todas las observaciones o datos. n = número total de observaciones.

Ejemplo 1

Se ha evaluado la velocidad en 30 metros lanzados de nueveestudiantes de primer año medio de un colegio de Santiago y sehan encontrado los siguientes resultados:


56

Sujeto Tiempo Sujeto Tiempo1 7,30 6 5,502 8,15 7 7,253 4,60 8 6,304 9,10 9 8,055 6,40

Para obtener la media se reemplaza en la fórmula 3:

= 7,30 + 8,15 + 4,60 + 9,10 + 6,40 + 5,50 + 7,25 + 6,30 + 8,059

= 6,96

La media de velocidad en el test de 30 mts. es de 6,96segundos.

La media de una muestra se designa con la letra y la mediade una población se designa con la letra griega μ (mu). La media seutiliza con datos numéricos, representa el punto de equilibrio de losdatos y es muy sensible a los datos extremos (outliers), es decir, datos demasiado atípicos o extremos producen cambiosimportantes en ella.

Ejemplo 2

En un partido de básquetbol de la liga nacional ocho jugadoresde un equipo realizan lanzamientos a la canasta (independienteque estos terminen en puntos o no) y su entrenador registra elnúmero de intentos de cada uno de ellos y obtiene la siguientetabla:


57

Jugador Lanzamientos 1 Lanzamientos 21 4 42 6 63 2 24 3 35 7 76 2 757 8 88 10 10

Media 5,25 14,38

En la primera columna vemos el número de jugadores, en lasegunda los lanzamientos a la canasta de cada uno de ellos quegeneran una media de 5,25. Finalmente, en la tercera columnaobservamos la misma cantidad de lanzamientos excepto en eljugador seis que de 2 lanzamiento aumento a 75, por lo tanto, lamedia aumento a 14,38. Esto sirve para graficar como un solo datooutlier produce grandes variaciones en la media.

2. MEDIANA

Es el dato que ocupa la posición central al ordenar lasobservaciones de menor a mayor. Se obtiene con la siguientefórmula:

X = (n + 1) (fórmula 4) 2n = número de datos

Ejemplo 3

Se evaluó la motricidad de 15 niños de edades pre-escolares deun jardín infantil de Santiago y los resultados del test sepresentan ordenados de menor a mayor en la siguiente tabla:


58

Niño Puntaje Niño Puntaje Niño Puntaje1 3 6 8 11 142 4 7 9 12 143 6 8 10 13 154 7 9 11 14 175 7 10 13 15 19

Ahora deseamos conocer la mediana de estos datos, para ello

reemplazamos en la fórmula 4:

X = (15 + 1) / 2 = 8

La mediana es el valor del lugar 8 en el orden de menor amayor (marcada con un cuadro) y que en esta base de datoscorresponde a una puntuación de 10 en el test de motricidad.

Niño Test de motricidad1 32 43 64 75 76 87 98 109 11

10 1311 1412 1413 1514 1715 19


59

Si la cantidad de datos es impar la mediana es el valor quequeda en el centro (Ejemplo 3), pero si la cantidad de datos es parla mediana es el valor promedio de los dos datos centrales, comose verá a continuación:

Ejemplo 4

Se presentan los mismos resultados de motricidad anteriores, pero se ha eliminado un caso con el fin que el número deobservaciones sea par.

La mediana se encuentra en el centro de los valores del lugar7 y 8, que son los números 9 y 10 (marcados con un cuadrado) porlo tanto la mediana es el promedio entre 9 y 10 = 9,5

Niño Test de motricidad1 32 43 64 75 76 87 98 109 11

10 1311 1412 1413 1514 17

La mediana de una muestra se designa con la letra X y lamediana de una población de designa con la letra griega μ.


60

La mediana se utiliza con datos numéricos, pero también condatos ordinales y es una medida robusta, muy poco sensible a losdatos outliers.

3. MODA

Es el dato que ocurre con mayor frecuencia en el conjunto deobservaciones.

Ejemplo 5

Se evaluó la cantidad de abdominales en un minuto que realizan18 seleccionados universitarios de fútbol como parte del procesode evaluación de su condición física y los resultados fueron lossiguientes:

Sujeto Abdominales Sujeto Abdominales1 56 10 602 60 11 573 58 12 604 64 13 575 60 14 546 55 15 567 53 16 588 58 17 609 59 18 63

La moda es el número 60, ya que es el valor que se presentamás veces en este conjunto de datos (5 en total). La moda sepuede usar para datos numéricos y datos categóricos.

Cuando una distribución presenta una sola moda recibe elnombre de unimodal, cuando presenta dos modas se denomina


61

bimodal y cuando presenta tres o más modas se designa comodistribución multimodal (Fig. 17).

Figura 17. Distribuciones según sus modas. En la imagen izquierda

se grafica una distribución unimodal, en la imagen centraldistribución bimodal y en la imagen derecha una distribución

multimodal.


62


63

IIIMEDIDAS DE DISPERSION Y POSICION


Las medidas de dispersión o variabilidad describe cuan cercase encuentran los datos entre sí o cuan cerca se encuentran dealguna medida de tendencia central.

1. AMPLITUD O RANGO

Corresponde a la diferencia de las observaciones extrema deun conjunto de datos, se obtiene con siguiente fórmula:

Rango = Vmayor – Vmenor (fórmula 5)

Vmayor = valor mayor de los datosVmenor = valor menor de los datos

Ejemplo 1

Se evaluó la fuerza del tren superior en 14 seleccionados deJudo. Esto se realizó a través de una RM en press banca y losresultados fueron los siguientes:


64

Seleccionado Fuerza (kls) Seleccionado Fuerza (kls)1 90 8 1282 105 9 783 85 10 924 120 11 855 100 12 1056 103 13 807 94 14 95

Para determinar el rango de estos datos se reemplaza en lafórmula 5:

Rango = 128 – 78 = 50

50 kilos corresponde al rango de estos datos. El rango es muy sensible a los valores outliers. Es común que

en los resultados se presenten el valor menor, el mayor y el rango.

2. VARIANZA

La varianza (S2) es la media del cuadrado de las desviacionesrespecto a la media de los datos. Se obtiene con la fórmulasiguiente:

S2 = i – )2 (fórmula 6) n – 1

i – )2 = suma de los cuadrados de la diferencia entre cada puntuación y la media de las puntuaciones n = número de datos

Ejemplo 2

Se desea conocer los niveles de memoria visual de 11estudiantes de pedagogía en educación física de una universidad


65

de Santiago y para ello se aplica un test neuropsicológico. Losresultados de las observaciones y suma de cuadrados seaprecian en la tabla siguiente:

Sujeto Memoria (xi) (xi – ) (xi – )2

1 6 0,36 0,132 7 1,36 1,853 9 3,36 11,294 3 -2,64 6,975 4 -1,64 2,696 6 0,36 0,137 4 -1,64 2,698 5 -0,64 0,419 7 1,36 1,85

10 5 -0,64 0,4111 6 0,36 0,13

= 5,64 28,55

La media de las observaciones fue 5,64 y la suma decuadrados fue 28,55. Ahora se reemplaza en la fórmula 6:

S2 = 28,55 / (11 – 1) = 28,55 / 10 = 2,855

En el ejemplo la varianza es de 2,855.

3. DESVIACIÓN ESTÁNDAR

Corresponde al grado en que las puntuaciones de la variablese alejan de la media. Se calcula con la raíz cuadrada de lavarianza (S2).


66

S = S2 (fórmula 7)

Del ejemplo anterior:

S = 2,855 = 1,689

El promedio o media de los datos sobre la memoria deestudiantes de educación física fue de 5,64 y poseen unadesviación estándar de 1,689 esto quiere decir que el 68% de losdatos recolectados caerán entre 3,951 y 7,329 (5,64 – 1,689 y 5,64+ 1,689).

La desviación estándar de la muestra se designa con la letraS y la desviación estándar de la población con la letra

Este análisis es muy útil para conocer cuánto se alejan losdatos de la media de una muestra cuando esta posee unadistribución simétrica. Esto ocurre cuando la mayoría de los datosobtenidos se encuentran en los puntajes centrales y muy pocosdatos se encuentran en los extremos (Fig. 18).

Por ejemplo, en un test de fuerza muy pocas personastendrán valores muy bajos o muy altos, la mayoría obtendránpuntuaciones medias. Esta situación ocurre en la mayoría de losprocesos naturales si la muestra es lo suficientemente grande(tiende a infinito).

Si la desviación estándar de la muestra se encuentra entre lacuarta y quinta parte del rango se considera que la distribución eshomogénea, es decir, los datos obtenidos de todos los sujetosevaluados se encuentran cercanos a la media. Si la desviaciónestándar se encuentra por debajo o sobre la cuarta o quinta partedel rango, la muestra se considera heterogénea. Cuando ocurreesta segunda opción podría ser interesante comparar los resultadosde los grupos extremos de datos que hemos obtenido, para saber siexisten diferencias entre las puntuaciones más altas y más bajas.


67

Figura 18. Distribución simétrica. En estos datos la cantidad deobservaciones que se encuentra entre una desviación estándar a la

derecha y a la izquierda es del 68,26%, en dos desviacionesestándar es del 95,45% y en tres desviaciones es del 99,73%.

Para el ejemplo 2: Rango = 6 S = 1,6891/4 rango= 6/4= 1,5 1/5 rango= 6/5= 1,2

Como S (1,689) es mayor a la cuarta parte (1,5) y quinta parte(1,2) del rango esta muestra se considera heterogénea.


68

Las medidas de posición se basadas en el orden que poseenciertos valores de las observaciones, comúnmente reciben elnombre de cuantiles y se define como el valor de la variable por

4. PERCENTILES

Es un valor p% que deja una cantidad de p% de datos de bajode él y 1-p% sobre él. Por ejemplo, un percentil 30 deja por debajoel 30% de las observaciones o datos y por encima un 70% de lasobservaciones. Los percentiles separan a la muestra en grupos de1%. La mediana siempre corresponde al percentil 50.

Para calcular los percentiles se ordenan los valores de menora mayor y luego se utiliza la siguiente fórmula:

Percentil = (n*k) (fórmula 8) 100

n = número de datos k = percentil que se desea conocer

Ejemplo 3

Se midió la estatura de 21 estudiantes de cuarto año medio deun colegio de la comuna de Santiago en la clase de educaciónfísica. Los resultados fueron los siguientes:

Sujeto Estatura Sujeto Estatura Sujeto Estatura1 1,60 8 1,70 15 1,772 1,62 9 1,71 16 1,773 1,62 10 1,72 17 1,794 1,65 11 1,74 18 1,795 1,68 12 1,74 19 1,806 1,69 13 1,75 20 1,827 1,70 14 1,75 21 1,85


69

Si tenemos 21 datos y queremos determinar el percentil 20, reemplazamos en la fórmula 8.

p20= (21 * 20) / 100 = 4,2

Si el resultado es una fracción, el valor del percentilcorresponde al lugar inmediatamente superior, en este caso el lugar5 (1,68 mts.) corresponderá al percentil 20. Esto quiere decir que el20% de los estudiantes medidos están bajo 1,68 de estatura y el80% restante está sobre 1,68.

5. CUARTILES

Son valores que dividen a las observaciones en cuatro gruposcon frecuencias similares (25%). El primer cuartil corresponde alpercentil 25 (cuantil 0,25), el segundo cuartil corresponde alpercentil 50 (cuantil 0,5) y el tercer cuartil corresponde al percentil75 (cuantil 0,75).

Los cuartiles sirven para establecer cuatro niveles de losdatos, por ejemplo, los valores iguales o bajo el cuartil 0,25 corresponden a un nivel bajo, valores entre el cuartil 0,25 y 0,50 aun nivel medio bajo, valores entre el cuartil 0,50 y 0,75 a un nivelmedio alto y valores sobre 0,75 a un nivel alto. De esta forma esposible establecer categorías a los datos de nuestra investigación.

Los cuartiles (Q) se obtienen con la siguiente fórmula:

Qx = k*(n + 1) (fórmula 9) 4

k = valor del cuartil (1, 2 o 3)n = número de datos

En caso que el cálculo no corresponda con la posición exactase utiliza la siguiente corrección:


70

Qx = Li + k*(Ls – Li) (fórmula 10) 4

Li = Límite inferior del intervaloLs = Límite superior del intervalo

Por ejemplo, utilizando los mismos datos de la estatura de 21estudiantes de cuarto año reemplazamos en la fórmula 9:

Q1 = 1*(21 + 1) / 4 = 5,5 (posición 5 y 6 = 1,68 y 1,69)Q2 = 2*(21 + 1) / 4 = 11 (posición 11 = 1,74)Q3 = (3*(21+1)) / 4 = 16,5 (posición 16 y 17 = 1,77 y 1,79)

Para el cuartil 1 y 3 utilizamos la fórmula 10 de corrección:

Q1 = 1,68 + [(1*(1,69 – 1,68)/4)] = 1,68 + [(1*0,01)/4] = 1,68 + 0,0025 = 1,6825

Q3 = 1,77 + [(3*(1,79 – 1,77)/4)] = 1,77 + [(3*0,02)/4] = 1,77 + 0,015 = 1,785

El cuartil 1 es 1,6825 mts., el cuartil 2 es 1,74 y el cuartil 3 es1,785. Con esto es posible establecer que las estaturas iguales omenores de 1,6825 son bajas, entre 1,69 y 1,785 es media y de1,79 o mayores son altos dentro del grupo evaluado.

6. QUINTILES Y DECILES

a) Quintiles: son valores que dividen a las observaciones en cincogrupos con frecuencias similares (20%). El primer quintilcorresponde la percentil 20 (quintil 0,2), el segundo quintilcorresponde al percentil 40 (quintil 0,4), el tercer quintilcorresponde al percentil 60 (quintil 0,6) y el cuarto quintilcorresponde al percentil 80 (quintil 0,8).


71

b) Deciles: son valores que dividen a las observaciones en diezgrupos con frecuencias similares (10%). El decil 1 coincide conel percentil 10, el decil 2 con el percentil 20 y así sucesivamente.

La finalidad de los quintiles y deciles es la misma quecuartiles, es decir, poder establecer grupos y categorías, pero enestos casos más detallados, de los datos de nuestra investigación.


72


73

IVMEDIDAS DE FORMA


1. ASIMETRÍA

Una distribución de datos es simétrica si la mitad izquierda esigual a su mitad derecha (Fig. 18) y por lo tanto, la mayor partede los datos se encuentran cercanos a la media, existiendo pocoscasos en los extremos. En este tipo de distribuciones la media, lamediana y la moda poseen igual valor.

Una distribución asimétrica es aquella donde los datos tiendena agruparse hacia alguno de los lados. Existen dos tipos dedistribuciones asimétricas:

Distribución asimétrica positiva: es aquella donde los datosse agrupan hacia la izquierda, dejando una cola hacia laderecha, por lo tanto, la mayoría de los datos se encuentrancerca de las puntuaciones más bajas. En estas distribuciones lamedia es mayor que la mediana (Fig. 19).

Distribución asimétrica negativa: es aquella donde los datosse agrupan hacia la derecha, dejando una cola hacia laizquierda, por lo tanto, la mayoría de los datos se encuentrancerca de las puntuaciones más altas. En estas distribuciones lamedia es menor que la mediana (Fig. 19).


74

Figura 19. Distribuciones asimétricas. La figura superiorcorresponde a una distribución positiva y la figura inferior a una

distribución negativa.

Para calcular la asimetría de una distribución existen variosanálisis estadísticos, nosotros utilizaremos el coeficiente deasimetría de Fisher.

COEFICIENTE DE ASIMETRÍA DE FISHER (g1)

Se basa en la relación entre las distancias a la media y ladesviación estándar. Se obtiene con la siguiente fórmula:


75

g1 = (xi – )3 n * S3

x (fórmula 11)

i – )3 = suma de cada observación menos la media de todas las observaciones elevada al cubon = número de datos S3 = desviación estándar de los datos al cubo

Ejemplo 1

Se evaluó la capacidad de planificación de los estudiantes depedagogía en educación física de una universidad de Santiago. Los resultados de las puntuaciones y la suma de cubos sepresentan en la siguiente tabla:

Sujeto Planificación (xi) (xi – ) (xi – )3

1 5 0,56 0,182 2 -2,44 -14,533 3 -1,44 -2,994 3 -1,44 -2,995 5 0,56 0,186 4 -0,44 -0,097 6 1,56 3,808 7 2,56 16,789 5 0,56 0,18= 4,44

S = 1,59

Para obtener el coeficiente de asimetría de Fisherreemplazamos en la fórmula 11:

g1 = 0,52 / [9 * (1,59)3] = 0,52 / 9 * 4,02 = 0,52 / 36,18 = 0,014

El coeficiente de asimetría de Fisher es de 0,014 (distribución

simétrica).


76

Valores de cero o cercanos indican una distribuciónsimétrica, valores sobre cero indican una asimetría positiva yvalores bajo cero indican una asimetría negativa.

2. CURTOSIS

La curtosis corresponde al grado de apuntamiento oaplastamiento de una distribución. Existen tres tipos de curtosis:

Platicúrtica: es aquella distribución cuyo valor es menor a cero. Esta curva presenta muchos casos lejos de la media y pocoscerca de ella (Fig. 20a).

Mesocúrtica: es aquella distribución cuyo valor es igual ocercana a cero. Esta curva presenta un grado medio deconcentración de los datos alrededor de la media (Fig. 20b).

Leptocúrtica: es aquella distribución cuyo valor es mayor a cero. Esta curva presenta pocos casos lejos de la media y muchoscerca de ella (Fig. 20c).

COEFICIENTE DE APUNTAMIENTO DE FISHER (g2)

Para calcular la curtosis se puede utilizar el coeficiente deapuntamiento de Fisher (g2), que se obtiene con la siguientefórmula:

g2 = (xi – )4 – 3 n * S4 (fórmula 12)

i – )4 = suma de cada observación menos la media elevada a la cuarta n = número de observaciones S4 = desviación estándar elevada a cuatro


77

Figura 20. Tipos de curtosis. Una distribución platicúrtica (A), unadistribución mesocúrtica (B) y una distribución leptocúrtica(C).

Por ejemplo, utilizaremos nuevamente los datos de laplanificación de los estudiantes de educación física.

Sujeto xi (xi – ) (xi – )4 1 5 0,56 0,102 2 -2,44 35,453 3 -1,44 4,304 3 -1,44 4,305 5 0,56 0,106 4 -0,44 0,047 6 1,56 5,928 7 2,56 42,959 5 0,56 0,10= 4,44

S = 1,59


78

Reemplazamos en la fórmula 12:

g2 = [93,25 / [9 * (1,59)4]] – 3 = [93,25 / 9 * 6,39] – 3 = (93,24 / 57,51) – 3 = 1,62 – 3 = -1,38

El coeficiente de apuntamiento de Fisher es de -1,38(distribución platicúrtica).

En la curtosis los valores de cero o cercanos indican unadistribución mesocúrtica, valores sobre cero indican unadistribución leptocúrtica y valores bajo cero indican unadistribución platicúrtica.

3. DISTRIBUCIONES SEGÚN SU FORMA

Una distribución posee un valor de asimetría y curtosis, por lotanto, puede tener nueve formas:

Simétrica-mesocúrtica: asimetría y curtosis de cero. Corresponde a una distribución normal. Los datos se encuentrandistribuidos de igual manera a la derecha e izquierda de lamedia y se alejan medianamente de ella (Fig. 21a).

Simétrica-platicúrtica: asimetría de cero y curtosis negativa. Losdatos se encuentran distribuidos de igual manera a la derecha eizquierda de la media y muchos se alejan de ella (Fig. 21b).

Simétrica-leptocúrtica: asimetría de cero y curtosis positiva. Losdatos se encuentran distribuidos de igual manera a la derecha eizquierda de la media y pocos se alejan de ella (Fig. 21c).


79

Figura 21. Distribuciones simétricas. A= simétrica-mesocúrtica. B=simétrica-platicúrtica. C= simétrica-leptocúrtica.

Asimétrica positiva-mesocúrtica: asimetría negativa y curtosis decero. Los datos se encuentran distribuidos hacia la izquierda(valores menores) y se alejan medianamente de la media (Fig.22a).

Asimétrica positiva-platicúrtica: asimetría negativa y curtosisnegativa. Los datos se encuentran distribuidos hacia la izquierda(valores menores) y muchos se alejan de la media (Fig. 22b).

Asimétrica positiva-leptocúrtica: asimetría negativa y curtosispositiva. Los datos se encuentran distribuidos hacia la izquierda(valores menores) y pocos se alejan de la media (Fig. 22c).

Figura 22. Distribuciones asimétricas positivas. A= asimétricapositiva-mesocúrtica. B= asimétrica positiva-platicúrtica. C=

asimétrica positiva-leptocúrtica.


80

Asimétrica negativa-mesocúrtica: asimetría positiva y curtosis decero. Los datos se encuentran distribuidos hacia la derecha(valores mayores) y se alejan medianamente de la media (Fig. 23a).

Asimétrica negativa-platicúrtica: asimetría positiva y curtosisnegativa. Los datos se encuentran distribuidos hacia la derecha(valores mayores) y muchos se alejan de la media (Fig. 23b).

Asimétrica negativa-leptocúrtica: asimetría positiva y curtosispositiva. Los datos se encuentran distribuidos hacia la derecha(valores mayores) y pocos se alejan de la media (Fig. 23c).

Figura 23. Distribuciones asimétricas negativas. A= asimétricanegativa-mesocúrtica. B= asimétrica negativa-platicúrtica. C=

asimétrica negativa-leptocúrtica.


81

VGRAFICO DE CAJA Y DISPERSION

1. GRAFICO DE CAJA (BOX-PLOT)


El grafico de caja, gráfico de caja y bigotes o box-plot es ungráfico propuesto por Tukey (1977) que se basa en medidasrobustas de posición y dispersión, que muestra la distribución de losdatos señalando donde caen la mayoría de ellos y la existencia dedatos extremos. Para construirlo es necesario en primer lugarordenar los datos de menor a mayor y calcular la mediana, el cuartilinferior, el cuartil superior y la distancia intercuartil.

Ejemplo 1

Se evaluó la motivación hacia la clase de educación física de 12estudiantes de tercer año de enseñanza media de un colegio deSantiago. De ello se obtuvo la siguiente tabla ordenada de menora mayor:

Posición Datos Posición Datos Posición Datos1 10 5 17 9 282 12 6 19 10 303 13 7 22 11 384 15 8 25 12 55


82

Paso 1:Determinar el dato menor y mayor, la mediana (fórmula 4), elcuartil inferior y el cuartil superior (fórmula 9) y la distancia inter-cuartil (Di) que se obtiene con la siguiente fórmula:

Di = Cs – Ci (fórmula 13)

Cs = valor del cuartil superior Ci = valor del cuartil inferior Al realizar los cálculos del ejemplo 1 nos queda:

Dato menor = 10Dato mayor = 55Mediana = 20,5

Cuartil inferior (0,25) = 13,5 Cuartil superior (0,75) = 29,5 Distancia intercuartil = 29,5 – 13,5 = 16

Paso 2:Luego debemos determinar las cotas (límites de separación delos datos de la mediana) para decidir si un dato es outlier(extremo, anómalos o atípicos) cuando caiga entre la 1° y 2°cota inferior o superior o si un dato es outlier severo cuandocaiga fuera de la 2° cota inferior o superior. La primera cota inferior y superior se obtiene con la siguientefórmula:

1° cota = Cis + 1,5 Di (fórmula 14)

Cis = Cuartil inferior y superior+ = más en la cota superior y menos en la cota inferiorDi = distancia intercuartil


83

Con los datos del ejemplo 1:

1° cota inferior = 13,5 – (16 * 1,5) = -10,5 1° cota superior = 29,5 + (16 * 1,5) = 53,5

La segunda cota inferior y superior se obtienen con lasiguiente fórmula: 2° cota = Cis + 3 Di (fórmula 15)

Cis = Cuartil inferior y superior+ = más en la cota superior y menos en la cota inferiorDi = distancia intercuartil

Con los datos del ejemplo 1: 2° cota inferior = 13,5 – (16 * 3) = -34,5 2° cota superior = 29,5 + (16 * 3) = 77,5

Paso 3:Con estos datos se debe dibujar una escala con el rango devariación de los datos, marcar la mediana y los cuartiles (inferiory superior) dibujando una caja entre los cuartiles.

Paso 4:Desde el cuartil inferior se traza una línea con bigotes hasta eldato menor de la muestra y de igual forma del cuartil superior setraza una línea hasta el dato mayor de la muestra. Esto siempre y cuando ningún dato sobrepase la 1° o 2° cota inferior osuperior, ya que de ser así la línea se traza hasta el dato mayorantes de la 1° cota y se marcan estos datos outlier con un * y losdatos outlier extremos con un °.


84

Figura 24. Box-plot, donde se observa la mediana (20,5), elcuartil inferior (13,5), el cuartil superior (29,5), el dato menor (10), eldato mayor antes de la 1° cota superior (38) y un dato outlier (55).

Este tipo de gráficos son muy útiles para comparar gruposdiferentes (por ejemplo damas y varones) o un mismo grupo endiversas mediciones (por ejemplo antes y después de untratamiento).

En la figura 25 se muestran los gráficos de caja de laspuntuaciones de una prueba entre dos grupos, donde se apreciaque el grupo 1 posee una mediana de 38 con una distanciaintercuartil de 22 puntos, en comparación del grupo 2 que poseeuna mediana de 55 y una distancia intercuartil de 31 puntos. Deesto se concluye que el grupo 1 posee puntuaciones más bajas ycon menor dispersión que el grupo 2. Además, el grupo 1 posee una puntuación mínima de 15 y máxima de 68, en tanto el grupo 2logro un mínimo de 12 y un máximo de 95 puntos. Finalmente, elgrupo 1 posee un dato outlier de 96 puntos.

Menor

Mediana

Máximo

Cuartil 0,75

Dato outlier

Cuartil 0,25


85

Figura 25. Gráfico de caja para comparar dos grupos.

2. GRAFICO DE DISPERSION (SCATTER-PLOT)


Es un gráfico simple y útil para estudiar la relación entre dosvariables numéricas. Se caracteriza por representar una nube depuntos (forma en que se distribuyen los datos en el gráfico) quepermite evaluar la naturaleza de la relación de ambas variables(dirección, forma y fuerza de la relación). Puntos dispersos en elgráfico representan la falta de relación entre las variables, encambio puntos agrupados o en líneas indican relación entre ellas.

Ejemplo 2

Se evaluó la agilidad y el desarrollo motor de 11 estudiantes de5° año básico de un colegio de Santiago. En la tabla siguiente seobservan los puntajes obtenidos:


86

Sujeto Agilidad Motricidad1 2 42 4 63 5 84 3 55 2 36 3 47 1 28 3 69 4 510 4 711 5 7

Paso 1:Construimos un gráfico en cuyo eje X colocaremos la variableagilidad y en el eje Y la variable motricidad. Luego ubicaremosun punto en la intersección de las dos puntuaciones que obtuvocada sujeto del ejemplo 2 (Fig. 26).

Figura 26. Gráfico de dispersión de las puntuaciones de agilidad ymotricidad.


87

Se puede observar que los puntos se ordenan en una especiede línea diagonal que asciende. Esta dispersión de datos muestrauna relación entre las dos variables, ya que a medida que unapuntuación aumenta (agilidad) la otra también lo hace (motricidad).

Las representaciones de nubes difusas no muestran relaciónentre las variables.

Las representaciones lineales muestran una fuerte relación entre variables, además esta relación puede ser positiva (cuandouna variable aumenta la otra también aumenta o cuando unadisminuye la otra también disminuye) o negativa (cuando unavariable aumenta la otra disminuye o viceversa).

Las representaciones exponenciales no son lineales, aunquemuestran relación entre las variables (positiva o negativa) pero secaracterizan porque una variable posee valores constantes oexisten modificaciones pequeñas (aumento o disminución), pero depronto se producen cambios de gran envergadura en la variableproduciendo una curva en el gráfico.

En la figura 27 se observan diferentes dispersiones de datos, en el ejemplo A se aprecia una distribución de nube difusa, quepodría ser la relación entre la práctica de ejercicio físico y el sueldode los trabajadores de una planta manufacturera, ya que ambas nose conectan y por ende la variación en una de ellas no provocaránecesariamente cambios en la otra. En el ejemplo B se observa unadistribución lineal positiva, por ejemplo la relación entre la prácticade ejercicio físico aeróbico y la resistencia cardiovascular, ya que alaumentar la primera la segunda también aumenta por adaptaciónfisiológica. En el ejemplo C se aprecia una distribución linealnegativa, por ejemplo la relación de la práctica de ejercicio físico yel porcentaje de grasa corporal, ya que al aumentar la primeradisminuye la segunda. Finalmente, en el ejemplo D se muestra unadistribución exponencial, como sería la relación entre el uso delgimnasio para mejorar la apariencia física y los meses del año, yaque entre los meses de marzo y agosto existe un número constantey bajo de personas que asisten regularmente al gimnasio, situaciónque cambia radicalmente a partir de septiembre, cuando la cantidad


88

de personas que asisten al gimnasio aumenta, duplicándose otriplicándose.

Figura 27. Dispersiones de los datos. En la imagen A se observauna representación de nube difusa de datos. En la imagen B y C

una distribución lineal (B es positiva y C es negativa) y en la imagenD una distribución exponencial.


89

CAPÍTULO 3

DISTRIBUCIONES DE PROBABILIDADES

I. Distribuciones discretas

II. Distribuciones continuas


90


91

IDISTRIBUCIONES DISCRETAS

La estadística inferencial resulta de aplicar lasprobabilidades a la estadística descriptiva. En este libro noestudiaremos probabilidades, ya que eso resultaría un libro en sí mismo, sólo explicaremos algunos conceptos básicos.

Probabilidad: es una medida numérica que cuantifica laposibilidad que un evento ocurra. Por ejemplo, en el noticiarioindican un 80% de probabilidad de que llueva, esto representauna posibilidad muy alta de que ese evento ocurra y por lo tantodeberíamos salir preparados con un paraguas. Lasprobabilidades fluctúan entre 0 y 1 (0% y 100%).

Evento: es el resultado futuro de una decisión. Por ejemplo, decidimos lanzar un dado y para ello existen seis eventosposibles (las seis caras de un dado). En el ejemplo anterior de lalluvia existen dos eventos posibles respecto del paraguas: llevarlo o no llevarlo.

Evento aleatorio: es aquel resultado que se logra por azar o almenos podemos atribuirlo a él. Por ejemplo, en el caso dellanzamiento de un dado, ya que el número que se obtiene esresultado del azar (claro si no tomamos en cuenta, la fuerza, dirección y otra enorme cantidad de variables al momento delanzar el dado)


92

Evento no aleatorio: es aquel resultado que no se produce porazar. Por ejemplo, en el caso del paraguas y la lluvia el resultadono es producto del azar, ya que depende de nuestra preferenciade llevar o no el paraguas.

Espacio muestral: corresponde a todos los posibles eventosaleatorios que puedan existir. Por ejemplo, seis eventosaleatorios en el caso de un dado: sus seis caras.

La estadística inferencial trata sobre los eventos aleatorios, por lo tanto, todas las futuras referencias a eventos serán de estetipo.

La probabilidad (px) de que un evento ocurra se puedecalcular con la siguiente fórmula:

px = na (fórmula 16) Em

na = número de eventos aleatoriosEm = tamaño de espacio muestral

En el caso del dado reemplazamos en la fórmula 16:

p(x) = 1 / 6 = 0,16666 La probabilidad de obtener un número cualquiera del dado (un

dos por ejemplo) al lanzarlo es de 16,666%. El 1 representan elevento que deseamos, como el número dos (que por ende es unevento) y el 6 es el total de posibles eventos o espacio muestral(seis caras del dado).

Desde el punto de vista de la investigación científica, usandolos estadísticos descriptivos de una muestra y con la ayuda de lasprobabilidades podemos determinar parámetros en una población, función principal de la estadística inferencial.


93

Las variables aleatorias de un espacio muestral pueden ser dedos tipos: discretas o continuas. Las variables discretas son porejemplo, el lanzamiento de una moneda, la cantidad de elementoserróneos en una serie de elementos, el lanzamiento de un dado, etc. Estas variables corresponden a los datos de tipo categóricos.

Estas variables discretas poseen una distribución deprobabilidades que puede ser de varios tipos.

1. DISTRIBUCION DE BERNOULLI

Es la distribución más simple donde existen solamente dosposibles resultados: éxito y fracaso. Por ejemplo, un jugador defútbol frente al balón en un lanzamiento penal tiene dosposibilidades: a) convierte el gol; b) falla el lanzamiento.

El proceso de Bernoulli consiste en un experimento, que asu vez consiste en una serie de ensayos independientes, idénticos ydicotómicos. El éxito (p) o fracaso (q) de un ensayo corresponde ala expresión:

p + q = 1 por lo tanto, p = 1 – q q = 1 – p

Es decir, éxitos más fracasos es igual a 1 (100%) o lo que eslo mismo, la cantidad de éxitos es igual a 1 menos la cantidad defracasos y por lo tanto, la cantidad de fracasos es igual a 1 menosla cantidad de éxitos.

Ejemplo 1

Un delantero de fútbol posee un 70% de aciertos en suslanzamientos penales y por ende presenta un 30% de fracasos. En la figura 28 se observa el grafico de barra de la distribuciónde Bernoulli del delantero.


94

Figura 28. Distribución de Bernoulli de los lanzamientos penales deun delantero de fútbol.

2. DISTRIBUCIÓN BINOMINAL

Esta distribución produce una descripción adecuada a lasprobabilidades de ocurrencia de los resultados de un experimentogenerado en un proceso de Bernoulli. Un experimento puede serdicotómico o teniendo muchos resultados puede dicotomizarse, porejemplo, en el lanzamiento de un dado tenemos 6 posiblesresultados pero podemos reducirlo a obtener un número 2 (éxito) ono obtener un número 2 (fracaso).

En un experimento de Bernoulli con dos etapas tenemos laexistencia de dos posibilidades en la 1° etapa (éxito o fracaso) ytenemos cuatro posibilidades en la 2° etapa (éxito-fracaso-éxito-fracaso).


95

Si p es igual al 80% y q es igual al 20% tenemos que:

p*p = 0,80 * 0,80 = 0,64 (64%)p*q = 0,80 * 0,20 = 0,16 (16%)q*p = 0,20 * 0,80 = 0,16 (16%)q*q = 0,20 * 0,20 = 0,04 (4%)

Por lo tanto, la posibilidad de obtener dos éxitos en esteexperimento es de un 64%, de obtener 1 éxito es de 32% y deobtener 0 éxito es de un 4%.

Cuando necesitamos conocer algún resultado en particular yno toda la distribución de un experimento binominal, es posiblecalcularlo con la siguiente fórmula:

p(X|n,p) = n! px qn-x (fórmula 17) x! (n – x)!

p(x|n,p) = probabilidad totaln! = número factorial de ensayos del experimento x! = número factorial de errores de los n ensayosn = número de ensayos del experimentox = número de errores de los n ensayosp = probabilidad de éxito de cualquier ensayoq = probabilidad de fracaso de cualquier ensayo

Ejemplo 2

Un voleibolista tiene una probabilidad de acierto en su saque deun 75% (0,75). Si en un partido se escogen al azar 5 saques, calcular la posibilidad que cero, uno, dos, tres, cuatro y cincosaques sean correctos.


96

Reemplazamos en la fórmula 17 para cada posibilidad:

p(5|5,0.75) = [5! / 0!*(5 – 0)!] * (0,75)5 * (0,25)0

= [5! / 0!*5!] * (0,237*1) = (120 / 120) * 0,237 = 1 * 0,237 = 0,237

p(4|5,0.75) = [5! / 1!*(5 – 1)!] * (0,75)4 * (0,25)1

= [5! / 1!*4!] * (0,316*0,25) = (120 / 24) * 0,079 = 5 * 0,079 = 0,395

p(3|5,0.75) = [5! / 2!*(5 – 2)!] * (0,75)3 * (0,25)2

= [5! / 2!*3!] * (0,422*0,0625) = (5! / 12) * 0,026 = 10 * 0,026 = 0,260

p(2|5,0.75) = [5! / 3!*(5 – 3)!] * (0,75)2 * (0,25)3

= [5! / 3!*2!] * (0,563*0,016) = (120 / 12) * 0,009 = 10 * 0,009 = 0,09

p(1|5,0.75) = [5! / 4!*(5 – 4)!] * (0,75)1 * (0,25)4

= [5! / 4!*1!] * (0,75*0,0039) = (5! / 24) * 0,0039 = 5 * 0,0039 = 0,02

p(0|5,0.75) = [5! / 5!*(5 – 5)!] * (0,75)0 * (0,25)5

= [5! / 5!*0!] * (1*0,00098) = (5! / 120) * 0,0098 = 1 * 0,00098 = 0,00098


97

De esto es posible concluir que el voleibolista tiene 23,7% deprobabilidades de realizar correctamente los 5 saques, 39,5% derealizar correctamente 4 saques, 26% de realizar correctamente 3saques, 9% de realizar correctamente 2 saques, 2% de realizarcorrectamente sólo un saque y 0,098% de no realizar correctamenteninguno de los saques. En la figura 29 se observa la distribuciónbinominal para el ejemplo 2.

Figura 29. Distribución binominal, donde se aprecia la posibilidadde éxito de una cantidad n de saques del voleibolista del ejemplo 2

(barras) y la curva de dicha distribución (línea).

3. DISTRIBUCIÓN DE POISSON

Esta distribución es una de las más importantes en variablesdiscretas. Se caracteriza por modelar situaciones en las queinteresa determinar el número de ciertos hechos que se puedenproducir en un intervalo de tiempo o espacio, bajo ciertascaracterísticas. También se utiliza para determinar límites deprocesos dicotómicos reiterados cuando la probabilidad de obteneréxito es muy pequeña.


98

Este proceso se utiliza por ejemplo para determinar el número

de fallas de un sistema, la cantidad de autos que pasan por unacaseta de peajes, número de gente que sube y baja en un terminalde buses, etc.

La posibilidad de Poisson se calcula con la siguiente fórmula:

p(X) = e–(np) (np)x (fórmula 18) X!

p(x) = probabilidad totale = 2,71828 (constante, base de los logaritmos naturales) p = probabilidad de ocurrenciaX! = 1, 2, 3,…factorial

Ejemplo 3

En un partido de básquetbol de la liga amateur el 20% de loslanzamientos realizados desde fuera de la zona se convierten encanastas de 3 puntos. Calcular la posibilidad que en un partidodonde se realizan 30 lanzamientos fuera de la zona, 8 de ellosse convierta en canastas de tres puntos.

n = 30p = 20% = 0,2X! = 8np = 30 * 0,2 = 6


p(x) = (2,71828)-6 * 68

8! = (0,0025 * 1679616) / 8! = 4199,04 / 8! = 0,104


99

Esto significa que existe un 10,4% de posibilidades que en elpartido 8 lanzamientos desde fuera de la zona se conviertan encanastas de 3 puntos.

También es posible calcular las posibilidades con diferentecantidad de canastas (5, 6, 7, 8, 9, etc.) y así construir una curva dedistribución.

Figura 30. Distribución de Poisson para la cantidad de aciertos enlanzamientos de tiro libre en básquetbol en 15 segundos de unequipo amateur de Santiago. Se observa que un 40% de los

jugadores logra encestar 3 tiros en ese tiempo y ninguna alcanza 6aciertos o más.

4. DISTRIBUCIÓN HIPERGEOMETRICA

En una distribución binominal las observaciones sonindependientes entre sí y es un proceso estacionario, que resulta deuna población infinita. Cuando la población es finita los ensayossucesivos no son independientes entre sí, ni tampoco estacionariosy por ende la probabilidad de éxito varia de ensayo en ensayo. Enestos casos se utiliza una distribución hipergeométrica.


100

El modelo hipergeométrico se calcula con la siguiente fórmula:

P(x=k) = R N – R (formula 19) x n – x N nR= éxitos en la poblaciónx= éxitos en la muestran= muestra N= total de la población

Ejemplo 4

En una bodega de gimnasio sin luz, hay 10 balones de loscuales 7 son de color negro y 3 de color blanco. De una muestrade 4 balones calcule la posibilidad de sacar 2 de color negro.

N= 10 R= 7 balones negros n= 4 x= 2 balones negros


P(x=2) = 7 10 – 7 7 3 7! 3! 2 4 – 2 = 2 2 = 2! (7 – 2)! 2! (3 – 2)! 10 10 10! 4 4 4! (10 – 4)! = 7! 3! = 5040 6 = 5040 * 6 2! 5! 2! 1! 2 * 120 2 * 1 240 2 10! 3628800 3628800 4! 6! 24 * 720 17280

= (21 * 3) / 201 = 63 / 210 = 0,30


101

Las posibilidades de sacar 2 balones negros al escoger

balones al azar y en la oscuridad son del 30%.


102


103

IIDISTRIBUCIONES CONTINUAS

Las variables continuas son aquellas que pueden adquirir unnúmero finito de posibilidades dentro de una escala continua comopuntos en una línea. Por ejemplo, el tiempo, la temperatura, lafuerza, la velocidad, etc. Estas variables corresponden a los datosde tipo numéricos.

Estas variables continuas poseen una distribución deprobabilidades que puede ser de varios tipos.

1. DISTRIBUCIÓN NORMAL

Los datos que recolectamos de la muestra poseen unadistribución observable en los histogramas o polígonos defrecuencia, cuya área bajo la curva representa el 100% de los casosestudiados o de la población. Los datos pueden presentar unsinnúmero de distribuciones siendo la más conocida e importante ladistribución normal (Fig. 31).

Mediante la utilización de histogramas y los cálculos de laasimetría y curtosis podemos tener una idea de la forma dedistribución de nuestros datos (una simetría de cero o cercana yuna curtosis de cero o cercana representan una distribución normalo gaussiana). En las distribuciones normales la media, la mediana yla moda son iguales, con una media 0 y varianza 1.

Recordemos que en una distribución normal el 68,26% de losdatos caen dentro de la primera desviación estándar, el 95,45% caedentro de dos desviaciones estándar y el 99,73% cae dentro de tresdesviaciones estándar.


104

Figura 31. Una distribución normal es aquella cuya asimetría y

curtosis es igual a cero. Estas distribuciones presentan una formaacampanada.

El teorema del límite central dice que aumentando el

número de observaciones en una muestra que no presenta unadistribución normal, esta se logra. Para esto es necesario que elnúmero de observaciones de la muestra sea mayor a 30 y enpoblaciones muy grandes (infinitas) el número debe ser menor oigual al 5% de la población.

La mayor parte de los fenómenos naturales tienden a generaruna distribución normal siempre que el número de observacionessea suficientemente grande.

2. DISTRIBUCIONES CON MUESTRAS PEQUEÑAS

Una distribución normal contiene una gran cantidad de casosobservados, pero puede suceder que nuestra muestra posea menosde 30 observaciones y entonces resulta necesario utilizar otros tiposde distribuciones para trabajar con nuestros datos:


105

2.1 La distribución T de Student o distribución T

Para muestras de menos de 30 casos, es una distribuciónsimétrica con media 0 y varianza 1, es más achatada que la normal(mesocúrtica) y adopta diferentes formas según los grados delibertad (Fig. 32).

Figura 32. Distribución t. La línea continua representa la curvanormal de distribución (más de 30 casos), la línea cortada

representa la distribución de una muestra de 15 casos y la línea depuntos una muestra de 10 casos. Como se puede observar a

medida que aumenta el n de la muestra más se acerca a una curvanormal.

Los grados de libertad son el número de valores de unamuestra que podemos especificar libremente, una vez que seconoce la media de la muestra.

Para explicar lo anterior imaginemos que le piden escoger dosnúmeros que sumen 10, una vez que ha escogido libremente elprimero (un 5 o 7 o 2, etc.) ya no puede escoger el segundo, ya queva a existir un único número que sumado al que escogió sumen 10. Por lo tanto, en esa situación se dice que existe 1 grado de libertad(la posibilidad de escoger un número). Ahora, si debe escoger 3


106

números que sumen 20, usted puede escoger libremente los dosprimeros, ya que una vez hecho esto solo existe un único tercernúmero que sumado a los dos que usted escogió sumen 20, por lotanto tiene 2 grados de libertad. Así se continúa dependiendo de lacantidad de números a escoger.

Los grados de libertad (gl) se pueden calcular con la siguientefórmula: gl = n – 1 (fórmula 20)

n = número de la muestra

En una distribución t a medida que aumentan los grados delibertad se aproxima a una distribución normal.

2.2 La distribución Chi Cuadrada (X2)

Se le conoce como distribución chi cuadrado o distribución jicuadrado. Corresponde a una distribución para muestras de menosde 30 casos, es una distribución asimétrica positiva y adoptadiferentes formas según los grados de libertad (Fig. 33), por lotanto, existen infinitas curvas de esta distribución. A medida queaumenta el tamaño de la muestra la distribución Chi cuadrado sevuelve menos asimétrica acercándose a una distribución normal.

Cuando la muestra es mayor a 2 casos, la media de X2

corresponde a n – 1 y la varianza a 2(n – 1).

2.3 La distribución F de Fisher

Se le conoce como distribución F de Fisher, distribución F deSnedecor o distribución F de Fisher-Snedecor. Corresponde a unadistribución para dos muestras aleatorias independientes de tamañon1 y n2 que poseen una distribución Chi cuadrada. Es unadistribución asimétrica positiva y adopta diferentes formas según losgrados de libertad (Fig. 34).


107

A medida que aumentan los grados de libertad de ambasmuestras la distribución F se vuelve menos asimétrica acercándosea una distribución normal.

Figura 33. Distribución Chi Cuadrada. La línea continua representauna distribución Chi cuadrada con 1 grado de libertad, la línea

cortada con 3 grados de libertad y la línea de puntos con 6 gradosde libertad.

Figura 34. Distribución F. La línea continua representa unadistribución F con 10 grados de libertad en el grupo 1 e infinitos

grados de libertad en el grupo 2, la línea cortada con 10 grados delibertad en el grupo 1 y 10 grados de libertad en el grupo 2 y la línea

de puntos con 10 grados de libertad en el grupo 1 y 4 grados delibertad en el grupo 2.


108

3. DISTRIBUCIÓN Z

En ocasiones debemos comparar variables con medidasdiferentes y como no es posible determinar sus medias ysimplemente comparar, debemos convertir ambos grupos en unadistribución estándar, proceso que recibe el nombre deestandarización.

Ejemplo 1

Un profesor evaluó la motricidad de niños de tercer año básicode un colegio de Maipú utilizando un test de 30 puntos y ustedevaluó la misma variable (motricidad) en niños de tercer añobásico de un colegio de Independencia, pero utilizó un test de100 puntos. Sin embargo, ahora quiere comparar los resultadosde los niños de los dos colegios.

Colegio 1 Motricidad Colegio 2 Motricidad1 22 1 802 24 2 903 26 3 654 25 4 705 24 5 956 26 6 807 27 7 708 23 8 909 25 9 8010 24 10 70

= 24,6 = 79,0S = 1,51 S = 10,22

Las puntuaciones de los dos colegios se observan en la tablaanterior y donde cualquier estudiante del segundo colegio aparececon una puntuación mayor que los del primer establecimiento.


109

En estos casos es necesario estandarizar los datos medianteuna calificación Z que se obtiene con la fórmula siguiente:

Z = (xi – ) (fórmula 21) S

xi = valor de cada observación = media de las observaciones

S = desviación estándar

Una puntuación Z corresponde a una desviación estándar.

Al aplicar la fórmula 21 en cada caso observado en amboscolegios obtenemos una tabla como la siguiente:

Motricidadcolegio 1

Z Motricidad colegio 2

Z

22 -1,72 80 0,1024 -0,40 90 1,0826 0,93 65 -1,3725 0,26 70 -0,8824 -0,40 95 1,5726 0,93 80 0,1027 1,59 70 -0,8823 -1,06 90 1,0825 0,26 80 0,1024 -0,40 70 -0,88

24,6 79,0 1,50 10,21

Ahora podemos observar que un estudiante del colegio 1 conuna puntuación de 27 en el test de motricidad posee una puntuaciónZ de 1,59 y un estudiante del colegio 2 con una puntuación de 80 enel test de motricidad posee una puntuación Z de 0,10. Por lo tanto,


110

podemos concluir que el estudiante 1 pese a tener menospuntuación bruta que el estudiante 2 posee mejor nivel demotricidad, ya que su puntuación Z es mayor.

Ahora también es posible calcular áreas bajo la curva normalestandariza gracias a las puntuaciones Z.

Ejemplo 2

Un profesor evaluó a la flexibilidad de tronco a 562 estudiantesde enseñanza media, obteniendo una media de 17,22 cms. y unadesviación estándar de 4,28. Ahora desea conocer cuántosestudiantes tienen entre 17,22 y 25,78 cms de flexibilidad.

Figura 35. Adaptación de una curva normal estandarizada a losdatos de flexibilidad de estudiantes de enseñanza media.


111

Ahora sabemos que al utilizar la curva normal estandarizadaen los datos de flexibilidad en estudiantes de enseñanza media, lossujetos que poseen valores entre 17,22 y 25,78 cms correspondenal 47,5% del total de la muestra, por lo tanto en ese rango existen267 estudiantes.


112


113

CAPÍTULO 4

INTRODUCCIÓN A LA ESTADISTICAINFERENCIAL

I. Conceptos en estadística inferencial

II. Muestras y muestreo


114


115

ICONCEPTOS EN ESTADISTICAINFERENCIAL

1. NIVEL DE SIGNIFICACIA

El nivel de significancia o valor p tiene que ver con laprobabilidad de que un evento ocurra y se mide entre 0 y 1, siendo0 la imposibilidad absoluta que dicho evento ocurra y 1 la certezaabsoluta que ocurra. Como vimos al comienzo del capítulo 4, laprobabilidad que salga un número determinado en el lanzamientode un dado es de 0,16666 (16,666%).

Cuando un investigador desea estimar los parámetrospoblacionales desde los estadísticos de la muestra debepreocuparse de que ambos valores sean cercanos (por ejemplo lamedia de la muestra y la población), ya que si esto es así, resultaposible generalizar los resultados hacia la población, de lo contrarioes necesario dudar de la generalización de dichos valores.

En este ámbito, el nivel de significancia (nivelprobabilidad de equivocarse al generalizar los resultados obtenidosen la muestra hacia la población. ás utilizados enciencias sociales son 0,05 (95% de probabilidades de acierto y 5%de probabilidad de error) y 0,01 (99% de acierto y 1% de error). También es posible utilizar niveles ás pequeños (0,001 ó0,0001).

La interpretación de un análisis estadístico inferencial sebasa en la aceptación o rechazo de la hipótesis nula (H0) denuestra investigación.


116

Al representar el nivel de significancia bajo la curva normal(p=0,05) se produce un área de aceptación de la H0 y un área derechazo de ella (Fig. 36). Si nuestro resultado cae dentro del áreade aceptación de H0 (p>0,05) debemos aceptar igualdad en losresultados y si cae en el área de rechazo (p<0,05) debemosaceptar que no se presenta igualdad en los resultados.

Aquí es importante destacar la existencia de hipótesis de unacola y de dos colas. La primera se relaciona con hipótesis en lasque se puede anticipar cual grupo posee una desviación mayorrespecto a otro. Una hipótesis de dos colas es aquella donde no esposible anticipar la dirección de diferencias entre grupos.

Figura 36. Áreas bajo la curva normal de aceptación y rechazo dela hipótesis nula. En la imagen superior se observa un área para

hipótesis de dos colas y en la imagen inferior para hipótesis de unacola.


117

Ejemplo 1

Un investigador quiere conocer si existen diferencias en loshábitos de estudio de los estudiantes de educación física de unauniversidad, según el sexo de la muestra y para ello plantea lassiguientes hipótesis:

Hipótesis nula (H0): 1 = 2

Hipótesis investigación (H1): 1 2

En caso que se rechace la H0 no es posible predecir cual grupopresentará mayor puntuación en la encuesta de hábitos deestudio, por lo tanto, esta hipótesis es de dos colas.

Ejemplo 2

El mismo investigador quiere conocer si existen diferencias enlos niveles de fuerza de los estudiantes de educación física deuna universidad, según el sexo de la muestra y para ello plantealas siguientes hipótesis:

H0: 1 = 2

H1: 1 > 2

En caso que se rechace la hipótesis nula es posible predecir queel grupo de varones ( 1) presentará niveles mayores de fuerzaque las damas, por lo tanto, esta hipótesis es de una cola.

Para una prueba de dos colas el 95% del área bajo la curva

(área de aceptación de la hipótesis nula) se valora en términos depuntajes Z a 1,96 desviaciones estándar (área bajo la curva se valora en 2,58 desviaciones estándar (0,01) y el 99,9% área bajo la curva se valora en 3,90 desviacionesestándar (


118

Para una prueba de una cola el 95% del área bajo la curva(área de aceptación de la hipótesis nula) se valora en términos de1,64 desviaciones estándar en sentido positivo o negativo (0,05). Un 98% del área bajo la curva se valora en 2,32 desviacionesestándar ( 0,01) y el 99,9% área bajo la curva se valora en 3,70desviaciones estándar (

2. METODOS EN INFERENCIA ESTADISTICA

La estadística inferencial nos permite hacer afirmacionessobre más elementos de los que vamos a medir, existiendo dosmétodos de inferencia: la estimación (donde proponemosestimaciones de los valores de los parámetros de la población) y elcontraste de hipótesis (donde establecemos una hipótesisrespecto al valor de un parámetro de la población y se evalúa con lainformación obtenida de la muestra).

La estimación pretende determinar parámetros en base aestadísticos, es decir, conocer los valores de una característica dela población en base a unos pocos sujetos extraídos de ella(muestra) y a los cuales medimos. Por ejemplo, hemos determinadola media y la desviación estándar de la velocidad en una carrerade100 mts. planos de una muestra aleatoria de 360 estudiantes desegundo año medio y ahora queremos conocer esos mismosvalores de la población de 2.500 estudiantes de segundo medio dedonde se extrajo la muestra. Para esto necesitamos realizar unaestimación de la media y la desviación estándar de la población.

La estimación de parámetros se divide en estimacionespuntuales y estimaciones por intervalos.

2.1 Estimaciones puntuales

La estimación puntual trata de asignar un solo valor lo máscercano posible al valor del parámetro de la población. Estasestimaciones requieres de un estimador que no es otra cosa que


119

un estadístico que permite conocer características de la población. Para cada parámetro pueden existir varios estimadores y la formade seleccionar el correcto es en base a cuatro propiedades:

Carencia de sesgo: Un estimador será insesgado si su valoresperado coincide con el parámetro a estimar. Por ejemplo, lamedia de una muestra aleatoria es un estimador insesgado de lamedia de la población, ya que el valor esperado de la mediamuestral coincide con el valor de la media poblacional.

Consistencia: Un estimador será consistente si a medida queaumenta el tamaño de la muestra, el valor del estimador seaproxima al valor del parámetro de la población.

Eficiencia: Un estimador es más eficiente (preciso) que otro sipresenta una varianza menor.

Suficiencia: Un estimador será suficiente si resume toda lainformación relevante contenida en la muestra, de manera queningún otro estimador pueda entregar información adicionalsobre el parámetro.

Para obtener un estimador puntual se selecciona una muestraque permita minimizar el error de la diferencia del parámetro y elestadístico (esto se logra con el muestreo adecuado, situación quese analizará en el capítulo 6). Luego se calcula el estadísticomuestral y se utiliza como estimación del parámetro verificando lascuatro propiedades mencionadas anteriormente.

Ejemplo 3

Un investigador desea conocer la edad promedio de egreso delos estudiantes de la carrera de educación física de unaUniversidad de Santiago y para ello selecciona una muestra de


120

50 estudiantes. El valor de la media de la muestra será unestimador puntual de la media de la población de egresados.

2.2 Estimaciones por intervalo

Es una forma de establecer dos valores entre los cuales seencuentra el parámetro que deseamos conocer con una confianza

-1. Esto ayuda en la precisión y confiabilidad del estimadorpuntual. A este intervalo se le denomina intervalo de confianza.

Por ejemplo, una media poblacional nunca será conocida, pero con la información de la muestra podemos determinar dosvalores entre los cuales se incluirá la verdadera media poblacionalcon una confianza del 95% (esto se verá en detalle en el capítulo 5).

2.3 Contraste de Hipótesis

El contraste de hipótesis es el proceso de decisión dondecontrastamos o comparamos la hipótesis nula con los datosempíricos y determinamos si es o no compatible con ellos. Recuerde que las hipótesis siempre preguntan por la población, aunque solo contemos con los estadísticos de la muestra.

Una vez determinado el nivel de confianza (95%, 99%, etc.)procedemos a rechazar la hipótesis nula si el estadístico cae en laregión de rechazo y la mantenemos si cae en la región deaceptación (Fig. 36).

Cuando se toma una decisión estadística hay que tenercuidado de no cometer los errores tipo I y tipo II.

El error tipo I tambiéncomete cuando un investigador no acepta la hipótesis nula siendoesta verdadera, es decir, se concluye que existe una diferenciaentre grupos, existe relación entre ellos o existe diferencia entre lamuestra y la población, cuando en realidad no existe.

El error tipo II es el error que secomete cuando un investigador no rechaza la hipótesis nula siendo


121

esta falsa, es decir, se concluye que no existe diferencia entregrupos, no existe relación entre ellos o no existe diferencia entre lamuestra y la población, cuando en realidad si existe.

La potencia de un contraste es la probabilidad de rechazaruna hipótesis nula cuando esta es incorrecta. Esto se puede definircomo 1- es la varianza de la población menor es lapotencia y cuanto mayor sea el tamaño de la muestra mayor es lapotencia del contraste.

El error tipo I y tipo II no se pueden cometer simultáneamente, ya que el primero solo se puede dar si H0 es correcta y el segundosi H0 es incorrecta.

Si la probabilidad del error tipo I aumenta, la probabilidad delerror tipo II disminuye.

Para disminuir la probabilidad de cometer un error tipo I esnecesario aumentar el nivel de confianza, por lo menos debe ser deun 0,05. Por su parte, para disminuir la probabilidad de cometer unerror tipo II es necesario aumentar el tamaño de la muestra.

Decisión H0 Correcta H0 incorrecta

No rechazar H0 No hay error (1 –

Rechazar H0 No hay error (1 –

Figura 37. Error tipo I y tipo II.


122


123

IIMUESTRA Y MUESTREO

Cuando planteamos nuestra investigación hemos formuladohipótesis sobre una población que deseamos estudiar. Por ejemplo, queremos saber si existen diferencias en los niveles de resistenciacardiovascular de los estudiantes de primer año medio de colegiosmunicipalizados y de colegios particulares de la comuna deProvidencia.

Una vez que conocemos la población (en el ejemplo, el totalde los estudiantes de primer año medio de colegios municipalizadosy de colegios particulares de la comuna de Providencia) debemos determinar la muestra en la cual realizaremos las mediciones (Fig. 38).

Figura 38. Representación de una población y una muestra.


124

Es importante recordar que para obtener la muestra esnecesario establecer los criterios de inclusión y exclusión de lamisma.

a) Criterios de inclusión de la muestra: corresponde a lascaracterísticas que deben poseer los sujetos o unidades deanálisis para poder ser considerados como parte de la muestra. En el ejemplo anterior de la resistencia cardiovascular, seríancriterios de inclusión: Que los sujetos fuesen estudiantes de un colegio municipal oparticular de providenciaQue se encuentren cursando primer año medio.

b) Criterios de exclusión de la muestra: corresponde a lascaracterísticas que de poseer el sujeto o unidad de análisisserán excluidos de poder formar parte de la muestra. En elmismo ejemplo anterior, serían criterios de exclusión: Los estudiantes de primer año medio de colegios municipales oparticulares de Providencia que posean enfermedadesrespiratorias que puedan afectar su resistencia cardiovascularAquellos estudiantes que formen parte de equipos o clubesdeportivos con altos niveles de entrenamiento físico, lo cualtambién podría afectar su rendimiento en la medición. Estudiantes de primer año medio de colegios municipales oparticulares de Providencia que se encuentren lesionados, etc.

1. CALCULOS DE MUESTRAS

Una vez establecidos los criterios de inclusión y exclusión, debemos determinar el tamaño de la muestra, es decir, el númerode sujetos que debemos medir en la realidad. Las muestras puedenser probabilísticas (sujetos elegidos al azar entre todos los de lapoblación, por lo tanto, todos tienen las mismas posibilidades deformar parte de la muestra y los casos son representativos de la


125

población) o no probabilísticas (sujetos que son escogidos por lafacilidad de acceso a ellos, no todos los sujetos de la poblacióntiene posibilidades de ser escogidos y no pretende que los casossean representativos de la población, aunque pudiesen serlo).

En ambos casos resulta necesario determinar un número desujetos que vamos a evaluar y esto depende de tres aspectos:

Del error muestral permitido: es el valor de equivocación queaceptamos para los estadísticos de la muestra al serextrapolados con los parámetros de la población. Los niveleshabituales van desde 0,05 (5% de error), hasta 0,01 (1% deerror). A medida que disminuye el error permitido aumenta eltamaño de la muestra.

Del nivel de confianza: corresponde al grado de certeza que unevento ocurra. Recordemos que la probabilidad se mide entre 0y 1, siendo 0 una absoluta desconfianza de que un eventoocurra y 1 una absoluta confianza que dicho evento ocurra. Losniveles de confianza más utilizados en ciencias sociales son0,05 y 0,01.

Del carácter finito o infinito de la población: las poblacionesfinitas son aquellas de tamaños reducidos y cuyo valorconocemos (generalmente bajo 100.000 unidades de análisis) ylas poblaciones infinitas son aquellas de gran tamaño y cuyovalor desconocemos (generalmente sobre 100.000 unidades deanálisis). Por ejemplo, una población finita son los estudiantesde enseñanza media de un colegio de la comuna de SantiagoCentro y una población infinita son los estudiantes de enseñanzamedia de todos los colegios de Chile.

1.1 Poblaciones infinitas

Para calcular el tamaño de la muestra de una poblacióninfinita (n) utilizamos la siguiente fórmula:


126

n = (Z2 * pq) (fórmula 22) e2

Z2 = nivel de confianza expresada en valor Z (1,96 para 0,05 y 2,58 para 0,01) elevada al cuadrado pq = varianza de la población (como no conocemos ese dato utilizamos una constante de 0,25) e2 = error muestral permitido elevado al cuadrado (por ejemplo un error del 3% corresponde a un valor de 0,032 en la fórmula).

Ejemplo 1

Un investigador desea conocer si existe diferencia en los nivelesde fuerza de tren superior de los estudiantes de cuarto añomedio de colegios de la ciudad de Santiago. Para ello determinaun nivel de confianza del 95% (0,05), por ende un valor Z = 1,96y un error permitido del 5% (0,05).


n = (1,96)2 * (0,25) (0,05)2

= 3,8416 * 0,25 0,0025 = 384

Por lo tanto, es necesario medir a 384 estudiantes de cuartomedio de colegios de la ciudad de Santiago.

Ejemplo 2

Ahora el investigador desea realizar el mismo estudio, pero conun nivel de confianza del 95% (0,05), por ende un valor Z= 1,96 y


127

un error permitido del 1% (0,01) la fórmula quedaría de lasiguiente forma:

n = (1,96)2 * (0,25) (0,01)2

= 3,8416 * 0,25 0,0001 = 9604

Por lo tanto, el investigador debería medir ahora a 9604estudiantes de cuarto medio de colegios de la ciudad de Santiago.

El tamaño de la muestra aumenta si aumentamos el nivel deconfianza y si disminuimos nuestro error muestral permitido.

1.2 Poblaciones finitas

Para calcular el tamaño de la muestra de una población finita(n) utilizamos la siguiente fórmula:

n = N 1+ (e2*(N – 1) Z2*pq (fórmula 23)

N = tamaño de la población e2 = error muestral permitido elevado al cuadrado Z2 = nivel de confianza elevado al cuadrado pq = varianza de la población

Ejemplo 3

Un investigador desea conocer los hábitos de estudio de losestudiantes de primer año de la carrera de educación física de


128

una Universidad. La población es de 200 estudiantes, el nivel deconfianza es de 95% (0,05), por ende un valor Z = 1,96 y un errorpermitido del 5% (0,05).

n = 200 = 200 1 + (0,05)2 * (200-1) 1+ 0,0025 * 199 (1,96)2 * (0,25) 3,8416 * 0,25

= 200 / 1 + [0,4975 / 0,9604] = 200 / 1,51 = 132

Por lo tanto, es necesario medir a 132 estudiantes de primeraño de educación física de la Universidad.

El aumento de tamaño de la población no produce unaumento proporcional del tamaño de la muestra. Por ejemplo, conun nivel de confianza del 95% y un error permitido de 0,05 enpoblaciones de 100 sujetos la muestra es de 80, con poblaciones de500 sujetos la muestra es de 217 y con poblaciones de 100.000 sujetos la muestra es de 383.

Cuando las poblaciones son muy pequeñas (25 a 40 sujetos)la muestra es muy similar a la población. En poblaciones de 15 a 25sujetos la muestra es n-1 y en poblaciones de menos de 15 sujetosla muestra es igual a la población (Morales, 2012).

1.3 Muestras para construir un instrumento de medición

Cuando se construye un test o una escala de actitudes debehaber al menos 5 sujetos por ítems. Por ejemplo, si el instrumentocuenta con 35 ítems serán necesarios 175 sujetos escogidos deforma aleatoria entre la población de estudio.

Cuando se desea llevar a cabo un análisis factorial delinstrumento es necesaria una muestra grande, ya que este análisis


129

se basa en coeficientes de correlación y el error típico de lascorrelaciones disminuye si aumenta el número de sujetos (Morales, 2012).

Algunos autores recomiendan muestras 10 veces mayoresque el número de ítems, es decir, para un instrumento de 40 ítemsserían necesarios 400 sujetos. Otros autores recomiendan muestras3 veces mayor, pero que no bajen de 150 o 200 sujetos. Porejemplo, para un instrumento de 80 ítems bastaría con 240 sujetos, pero si un instrumento posee 20 ítems 60 sujetos no seríasuficiente, aquí el número mínimo debería estar entre 150 y 200sujetos.

2. MUESTREO

Una vez que tenemos claro el tamaño de la muestra debemosdecidir la forma en la cual escogeremos a los sujetos para formarparte de la muestra, este proceso recibe el nombre de muestreo.

2.1 Muestras probabilísticas

a) Muestreo aleatorio simple: corresponde a la elección al azarde una muestra donde todos los sujetos o unidades de análisistienen las mismas probabilidades de ser escogidos. Por ejemplo, la selección de 210 estudiantes de primer añomedio de colegios particulares de la comuna de Providencia. Lo métodos más utilizados para este tipo de muestreo son latómbola (enumerar los sujetos del 1 a n y escogen al azar losnúmeros que formarán parte de la muestra), las tablasRandómicas e incluso muchos programas estadísticos como el SPSS poseen sistemas para calcular muestras aleatorias (verdetalles en Maureira & Flores, 2012). La muestra obtenida mediante este tipo de muestreo recibe elnombre de muestra irrestricta aleatoria.


130

b) Muestreo probabilístico estratificado: corresponde a unadivisión de la muestra en segmentos de diferentes tamaños y deuna selección al azar en cada segmento. Para esto utilizamos lasiguiente fórmula: fh = n (fórmula 24)

N

fh = factor de cada grupo de la muestra n = tamaño de la muestra N = tamaño de la población

Ejemplo 4

Para conocer las diferencias en el desarrollo de patronesmotores de niños de NB1 de colegios particulares, particulares-subvencionados y municipales de la comuna de Recoletadebemos conocer:

El tamaño de la población (vamos a suponer que 5000 niños)Calcular el tamaño de la muestra (384 niños)Conocer la cantidad de niños en NB1 en los colegiosparticulares (950 niños), particulares subvencionado (2800niños) y municipales (1250 niños).

Como no existe la misma cantidad de estudiantes de NB1 en loscolegios municipales, subvencionado y particulares en la comunade Recoleta, debemos reemplazar en la fórmula 24:

fh = 384 / 5000 = 0,077 Ahora multiplicamos el 0,077 por la cantidad de sujetos de cadagrupo y obtenemos la muestra de cada grupo:

Colegios particulares = 950 * 0,077 = 73 niñosColegios subvencionados = 2800 * 0,077 = 215 niñosColegios municipales = 1250 * 0,077 = 96 niños


131

Así al sumar el total de los niños que deben ser evaluados decada grupo se obtienen los 384 de la muestra total.

c) Muestreo por conglomerados: se utiliza cuando las unidadesde muestreo están muy dispersas y su acceso es dificultoso ocuando no existe un marco de muestreo (lista de todos losintegrantes de una población). En este tipo de muestreoaleatorio las unidades están compuestos por grupos deelementos (conglomerado), los que pueden ser de igual odiferente tamaño. Cuando se observan todos los integrantes decada uno de los n conglomerados elegidos recibe el nombre demuestreo por conglomerado monoetápico, ya que el proceso serealiza en una sola etapa. En cambio cuando se seleccionan alazar integrantes dentro de los n conglomerados elegidos recibeel nombre de muestreo por conglomerado bietápico o en dosetapas. Finalmente, si dentro de los n conglomerados seseleccionan al azar n grupos y dentro de cada grupo se eligenlos sujetos a observar recibe el nombre de muestreo porconglomerado polietápico.

Ejemplo 5

Un investigador quiere conocer las cualidades físicas de losestudiantes de tercero medio de los colegios de Santiago deChile. La población está compuesta por todos los estudiantes de3° medio de la ciudad lo que hace muy dificultosa la elección delos sujetos a evaluar, por lo tanto decide escoger al azar cincocomunas y dentro de ellas evalúa a todos los estudiantes de 3°medio (muestreo monoetápico). Como segunda opción puedeahora escoger al azar los colegios dentro de cada una de lascinco comunas elegidas y solo en esos colegios medir a todoslos estudiantes de 3° medio (muestreo bietápico). Finalmente, elinvestigador puede elegir al azar a los estudiantes de 3° medioque medirá en cada uno de los colegios escogidos de las 5comunas seleccionadas para el estudio (muestreo polietápico).


132

2.2 Muestras no probabilísticas

a) Muestreo por criterio o juicio: es donde el tamaño de lamuestra y la elección de las unidades de análisis se realiza porel juicio del investigador, es decir, el investigador mediante suexperiencia determina los elementos a estudiar.

b) Muestreo por cuotas: corresponde a un muestreo similar aljuicio de expertos, pero permite obtener muestrasrepresentativas en cuanto a la distribución de algunas variablesde la población. Primero se identifican las variables a las cualesse le asignarán cuotas (por ejemplo: edad, cursos, sexo, etc.) yluego se busca información sobre la distribución de esas cuotasen la población para así asignar dichos porcentajes a las cuotasde la muestra (por ejemplo: de los seleccionados universitariosde hándbol de una ciudad el 60% corresponde a hombres y el40% a mujeres, por lo tanto la muestra deberá estar conformadapor un 60% de hombres y 40% de mujeres). Es importanterecordar que los sujetos no son escogidos al azar y por lo tanto, la muestra no es probabilística.

c) Muestreo bola de nieve: es aquel donde la muestra se obtieneporque los primeros sujetos medidos traen a los demás para suevaluación. Este sistema es muy útil cuando el investigadorquiere conformar una muestra con sujetos con característicasmuy particulares y de difícil acceso, entonces los primerosindividuos invitan a otros sujetos con esas características aparticipar en el estudio. Por ejemplo, un investigador quiereconocer los niveles de potencia de cuádriceps en atletasseleccionados nacionales que hayan participado en al menos uncampeonato internacional. Para ellos se pone en contacto con 3atletas e incita a que estos inviten a deportistas conocidos suyoscon las características requeridas a participar de lainvestigación.


133

d) Muestreo por conveniencia: es aquel donde los sujetos queformarán la muestran están disponibles para el investigador. Seutilizan principalmente para hacer estudios sobre las propiasmuestras, ya que resulta difícil extrapolar los resultados a lapoblación (que no necesariamente se encuentra representadaen la muestra). En otras palabras este muestreo corresponde alos sujetos que se tiene acceso.


134


135

CAPÍTULO 5

ESTADISTICA PARAMETRICA PARA UNA YDOS POBLACIONES

I. Normalidad de datos

II. Intervalos de confianza para una población

III. Homogeneidad de varianzas

IV. Prueba T de Student para muestrasindependientes

V. Prueba T de Student para muestrasrelacionadas


136


137

INORMALIDAD DE DATOS

Recordemos que la estadística inferencial univariada puededividirse en estadística paramétrica y no paramétrica, dependiendode las características de distribución y naturaleza de los datos. Laelección de una y otra resulta fundamental para nuestro trabajo deinvestigación, ya que la aplicación de análisis inadecuadosconllevará a errores en nuestras conclusiones.

Los análisis paramétricos para una población siemprenecesitan cumplir con dos supuestos para su aplicación y esobligación del investigador confirmar que estas dos característicasse cumplan:

LA VARIABLE DEPENDIENTE DEBE PRESENTAR UNADISTRIBUCIÓN NORMAL.

LA VARIABLE DEPENDIENTE DEBE SER NUMÉRICA(INTERVALAR O DE RAZON).

1. PRUEBA KS DE NORMALIDAD

Antes de comenzar los análisis paramétricos debemosconstatar que se cumplen los supuestos mencionadosanteriormente. El primer supuesto es posible de confirmar conanálisis estadísticos, en tanto, el segundo se logra simplementeconfirmando el nivel de medida de los datos que tenemos.


138

Como en los análisis de una población no existe comparaciónentre grupos no debemos confirmar la homocedasticidad, pero si esnecesario determinar si los datos poseen una distribución normal ypara ello utilizamos el estadístico de Kolmogorov-Smirnov (pruebaKS).

Ejemplo 1

Un investigador evaluó la agilidad de 35 estudiantes de terceraño medio de un colegio de Santiago. Ahora quiere saber siestos datos poseen una distribución normal.

Consideraciones: Variable: agilidad1 grupo: 35 estudiantes H0 = No existen diferencias estadísticamente significativasentre la distribución teórica y la distribución observada.

En la tabla a continuación se observan los puntajes del test, lafrecuencia relativa (número de sujetos que obtuvieron dichopuntaje) y acumulada con la cantidad de niños que obtuvieron dichopuntaje.

Puntaje % relativo % acumulado1 1 12 2 33 2 54 4 95 8 176 8 257 5 308 3 339 1 3410 1 35


139

Paso 1:Cada frecuencia acumulada (fac) se divide por la frecuenciaacumulada total (en este caso 35) para obtener la frecuenciaobservada (fo).

Puntaje frelativa fac fo1 1 1 1/35 = 0,0292 2 3 3/35 = 0,0863 2 5 5/35 = 0,1434 4 9 9/35 = 0,2575 8 17 17/35 = 0,4866 8 25 25/35 = 0,7147 5 30 30/35 = 0,8578 3 33 33/35 = 0,9439 1 34 34/35 = 0,97110 1 35 35/35 = 1

Paso 2:La frecuencia acumulada total (en este caso 35) se divide por lacantidad de categorías (en este caso 10) para obtener lafrecuencia relativa teórica (frt).

Puntaje frelativa fac fo frt1 1 1 0,029 35/10 = 3,52 2 3 0,086 35/10 = 3,53 2 5 0,143 35/10 = 3,54 4 9 0,257 35/10 = 3,55 8 17 0,486 35/10 = 3,56 8 25 0,714 35/10 = 3,57 5 30 0,857 35/10 = 3,58 3 33 0,943 35/10 = 3,59 1 34 0,971 35/10 = 3,5

10 1 35 1 35/10 = 3,5


140

Paso 3:La frecuencia acumulada teórica (fat) se obtiene con la suma deuna categoría más las anteriores de la frecuencia relativateórica.

Puntaje frelativa fac fo frt fat 1 1 1 0,029 3,5 3,52 2 3 0,086 3,5 3,5+3,5 = 7,03 2 5 0,143 3,5 7,0+3,5 = 10,54 4 9 0,257 3,5 10,5+3,5 = 145 8 17 0,486 3,5 14+3,5 = 17,56 8 25 0,714 3,5 17,5+3,5 = 217 5 30 0,857 3,5 21+3,5 = 24,58 3 33 0,943 3,5 24,5+3,5 = 289 1 34 0,971 3,5 28+3,5 = 31,5

10 1 35 1 3,5 31,5+3,5 = 35

Paso 4:Ahora cada fat se divide por la frecuencia acumulada total (eneste caso 35) para obtener la frecuencia teórica (ft).

Puntaje frelativa fac fo frt fat ft1 1 1 0,029 3,5 3,5 3,5/35 = 0,12 2 3 0,086 3,5 7,0 7,0/35 = 0,23 2 5 0,143 3,5 10,5 10,5/35 = 0,34 4 9 0,257 3,5 14 14/35 = 0,45 8 17 0,486 3,5 17,5 17,5/35 = 0,56 8 25 0,714 3,5 21 21/35 = 0,67 5 30 0,857 3,5 24,5 24,5/35 = 0,78 3 33 0,943 3,5 28 28/35 = 0,89 1 34 0,971 3,5 31,5 31,5/35 = 0,9

10 1 35 1 3,5 35 35/35 = 1


141

Paso 5:Finalmente a cada frecuencia observada (fo) se le resta lafrecuencia teórica (ft) y así obtenemos cada valor de diferencia(D).

fac fo frt fat ft D=fo – ft 1 0,029 3,5 3,5 0,1 0,029-0,1 = -0,0713 0,086 3,5 7,0 0,2 0,086-0,2 = -0,1145 0,143 3,5 10,5 0,3 0,143-0,3 = -0,1579 0,257 3,5 14 0,4 0,257-0,4 = -0,14317 0,486 3,5 17,5 0,5 0,486-0,5 = -0,01425 0,714 3,5 21 0,6 0,714-0,6 = 0,11430 0,857 3,5 24,5 0,7 0,857-0,7 = 0,15733 0,943 3,5 28 0,8 0,943-0,8 = 0,14334 0,971 3,5 31,5 0,9 0,971-0,9 = 0,07135 1 3,5 35 1 1-1= 0

Paso 6La diferencia máxima (Dmáx) corresponde al valor KS (en estecaso es de -0,157).

Ahora el investigador debe contrastar el valor KS obtenido (sinimportar su signo positivo o negativo) con los valores críticos de D(Anexo 1) según el nivel de confianza escogido y seguir la siguienteregla de decisión:

Si el valor D obtenido es menor o igual al valor D de la tablase debe aceptar la H0. Si el valor D obtenido es mayor al valor D de la tabla se deberechazar la H0.

En este ejemplo, el valor KS obtenido fue de 0,157 < 0,230

debemos aceptar H0 que plantea una distribución teórica igual a laobservada, es decir, los datos poseen una distribución normal.


142


143

IIINTERVALOS DE CONFIANZA PARA UNAPOBLACION

Una vez corroborada la normalidad y la naturaleza numéricade los datos podemos realizar análisis de intervalos de confianza ycontraste de hipótesis de la media poblacional.

1. ERROR ESTÁNDAR DE LA MEDIA

Corresponde a la diferencia de la media de la muestra y lamedia de la población. Los análisis para determinar este errordependen si conocemos o desconocemos la desviación estándar dela población. En el primer caso el error estándar (e.e.) se obtienecon la siguiente fórmula:

e.e. (fórmula 25) n

ón estándar de la población n = raíz cuadrada del número de datos

Cuando se desconoce la desviación estándar de la población, el error estándar se obtiene con la siguiente fórmula:

e.e. = S (fórmula 26) n

S = desviación estándar de la muestra n = raíz cuadrada del número de datos


144

Ejemplo 2

Un investigador evaluó la fuerza de 252 adultos mayores deentre 65 y 75 años de diversos centros y fundaciones deSantiago, obteniendo una media de 35,8 y una desviaciónestándar de 7,36. Ahora se desea conocer cuál será errorestándar de la media. La población presenta una variación de 8,5puntos.

Paso 1Calcular la desviación estándar de la población con la fórmula 7:

Paso 2Calcular el error estándar de la media con la fórmula 25:

e.e. = 2,915 / 252 = 2,915 / 15,87 = 0,184

Con esto el investigador puede concluir que el error estándarde la media es de 0,184.

Ejemplo 3

Un investigador evaluó la agilidad de 52 estudiantes de terceraño básico de 2 colegios de Santiago, obteniendo una media de6,50 y una desviación estándar de 2,14. Ahora se desea conocercuál será la diferencia de la media de la muestra y de lapoblación. Para ello reemplazamos en la fórmula 26:

e.e. = 6,50 / 52

= 6,50 / 7,21 = 0,901


145

Con esto el investigador puede concluir que el error estándarde la media es de 0,901.

Los ejemplos anteriores muestran como calcular el error de lamedia, pero también es posible establecer un contraste de hipótesissobre la diferencia de la media muestral con la poblacional, mediante una puntuación Z que se obtiene con la siguiente fórmula:

Z = ( – (fórmula 27) e.e

= media de la muestra μ = media de la poblacióne.e.= error estándar de la media (fórmula 25 o 26)

Ejemplo 4

Un entrenador de fútbol evaluó los tiros al arco realizado por sus3 jugadores delanteros durante los partidos de la liga nacional, obteniendo una media de 9,5 lanzamientos por partido. En eltorneo existe una media de 12,1 lanzamientos por partido conuna desviación estándar de 2,8. Ahora se desea conocer siexisten diferencias entre los resultados obtenidos por el equipoen relación con la media nacional.

Para ello se establecen las hipótesis:

H0 = 1 = 2

H1 = 1 2


Z = 9,5 – 12,1 2,8 / 3

= -2,6 / 1,62 = -1,605


146

De lo anterior el entrenador puede concluir que siendo -1,605menor a -1,96 (una desviación Z) se debe aceptar la H0 de igualdady por lo tanto, no existen diferencias significativas entre elrendimiento de tiros al arco de los 3 delanteros del equipo y lamedia nacional.

2. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN CON S CONOCIDA

Los intervalos de confianza (IC) de una población condesviación estándar conocida se obtiene con la siguiente fórmula:

IC = + (Z * e.e.) (fórmula 28)

= media de la muestra+ = más para el IC superior y menos para el IC inferior Z = nivel de confianza expresado en desviaciones estándare.e.= error estándar de la media (fórmula 25)

Ejemplo 5

Un investigador desea estimar los intervalos de confianza alextrapolar la media de su muestra aleatoria a los de la poblacióny para ello evaluó la flexibilidad a 108 niños de cuarto básico detres colegio de Santiago obteniendo una media de 15,7 cms yuna desviación estándar muestral de 3,29. Según los registros lapoblación de estudiantes de esos cursos posee una desviaciónestándar de 5,89. El investigador determinó un nivel de confianzade 0,05 (por ende un valor Z= 1,96).

Datos: = 15,7

S = 3,29= 2,89


147

e.e. = 2,89 / 108 = 0,278 (fórmula 25)

Determinar los intervalos de confianza utilizando la fórmula 28:

ICi= 15,7 – (1,96 * 0,278) = 15,7 – 0,545 = 15,155 ICs = 15,7 + (1,96 * 0,278) = 15,7 + 0,545 = 16,245

Por lo tanto: 15,155 < μ < 16,245

Esto significa que el intervalo de confianza 15,155 a 16,245contiene la media de la flexibilidad de la población con unaconfianza del 95%.

3. CONTRASTE DE HIPOTESIS PARA LA MEDIA DE UNA POBLACIÓN CON S CONOCIDA

Siguiendo con el ejemplo 5, se sabe que la media de la poblaciónes de 16,4 entonces el investigador se pregunta ¿los estudiantesde la muestra tendrán una media de flexibilidad menor que lapoblación?

Datos: = 15,7

S = 3,29μ = 16,4

= 2,89e.e. = 0,278

H0 = 1 = 2

H1 = 1 2

Realizamos el contraste de hipótesis utilizando la fórmula 27:


148

Z = (15,7 – 16,4) / 0,278 = -0,7 / 0,278 = -2,518

De lo anterior el investigador puede concluir que siendo -2,518mayor a -1,96 (una desviación Z) se debe rechazar la H0 deigualdad y por lo tanto, existen diferencias significativas entre laflexibilidad de los estudiantes evaluados y la flexibilidad mediapoblacional.

4. INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN CON S DESCONOCIDA

Los intervalos de confianza de una población con unadesviación estándar desconocida se obtiene con la siguientefórmula: IC = + (t * e.e.) (fórmula 29)

= media de la muestra + = más para el IC superior y menos para el IC inferior t = valor t e.e.= error estándar de la media (fórmula 26).

El valor t se obtiene de una tabla t student (Anexo 2) donde esnecesario ubicar el valor de significancia a utilizar y los grados delibertad de la muestra (fórmula 20), el valor de interseccióncorresponde al valor t en la fórmula. Por ejemplo, para 7 gl y unnivel de confianza de 0,05 el valor t es 2,37.


149

Ejemplo 6

Un profesor evaluó la ejecución de la voltereta adelante en 18niños de quinto año básico de un colegio de Santiago. La mediade la evaluación fue de 3,17 y una desviación estándar de 1,21. Ahora se desea establecer los intervalos de confianza de lamedia de la población (a un nivel de 0,05).

Datos: = 3,17

S = 1,21gl = 18-1 = 17 (fórmula 20)e.e. = 1,21 / 18 = 0,285 (fórmula 26) t = 2,11


ICi = 3,17 – (2,11 * 0,285) = 3,17 – 0,601 = 2,569

ICs = 3,17 + (2,11 * 0,285) = 3,17 + 0,601 = 3,771

Por lo tanto: 2,569 < μ < 3,771


150

Esto significa que el intervalo de confianza 2,569 a 3,771contiene la media de la ejecución de la voltereta de la poblacióncon una confianza del 95%.

5. CONTRASTE DE HIPOTESIS PARA LA MEDIA DE UNA POBLACIÓN CON S DESCONOCIDA

Siguiendo con el ejemplo 6, se sabe que la media de la poblaciónes de 2,31 entonces el investigador se pregunta ¿los estudiantesde la muestra tendrán una media en la ejecución de la volteretamayor que la población?

Datos: = 3,17

S = 2,212,31

e.e. = 0,285 t = 2,11

H0 = 1 = 2

H1 = 1 2

Realizar el contraste de hipótesis utilizando la fórmula 27:

Z = (3,17 – 2,31) / 0,285 = 0,86 / 0,285

= 3,018

De lo anterior el investigador puede concluir que siendo 3,018mayor a 1,96 (una desviación Z) se debe rechazar la H0 deigualdad y por lo tanto, existen diferencias significativas entre lapuntuación de la ejecución de la voltereta en la muestra y lapoblación.


151

6. INTERVALOS DE CONFIANZA PARA UNA PROPORCIÓN

De igual forma que en los intervalos de confianza para media, es posible establecer intervalos de confianza para proporciones. Estos se obtienen con la siguiente fórmula:

IC = p + Z * p*(1 – p) n (fórmula 30)

p= valor de la proporción expresada en valores enteros (0,18; 0,75, etc.) + = más para el IC superior y menos para el IC inferior Z = nivel de confianza expresado en desviaciones estándarn = número de datos.

Ejemplo 7

Un investigador desea conocer los intervalos de confianza de laproporción de niños con obesidad a partir de su muestraaleatoria de 357 estudiantes de primer año de enseñanza básicade diversos colegios de la ciudad de Santiago. El porcentaje deobesos de la muestra fue del 20,5% (0,205) y el nivel deconfianza determinado fue de 0,05 (Z = 1,96). Datos: p = 20,5% = 0,205n = 357


ICi = 0,205 - 1,96 * 0,205 * (1 – 0,205) 357 = 0,205 – (1,96 * 0,021) = 0,205 – 0,041 = 0,164


152

ICs = 0,205 + 1,96 * 0,205 * (1 – 0,205) 357

= 0,205 + (1,96 * 0,021)= 0,205 + 0,041 = 0,246

Por lo tanto: 0,164 < μ < 0,246

Esto significa que el intervalo de confianza 0,164 (16,4%) a 0,246(24,6%) contiene el porcentaje de obesidad de la población conuna confianza del 95%.

7. CONTRASTE DE HIPOTESIS PARA UNA PROPORCION

El contraste de hipótesis con proporciones se realiza con lasiguiente fórmula:

Z = p – P P (1 – P) n (fórmula 31)

p = proporción de la muestra expresada en valores enterosP = proporción de la poblaciónn = número de datos

Siguiendo con el ejemplo 7, se sabe que el porcentaje deobesidad de la población es de 24,0% entonces el investigadorse pregunta ¿los estudiantes de la muestra tendrán unporcentaje menor de obesidad que la población?

Datos: p = 20,5% = 0,205P = 24,8% = 0,248n = 357


153

H0 = p = PH1 = p

Realizar el contraste de hipótesis utilizando la fórmula 31:

Z = 0,205 – 0,248 0,248 * (1 – 0,248) 357

= -0,043 / (0,248 * 0,752) / 357

= -0,043 / 0,186 / 357

= -0,043 / 0,000521= -0,043 / 0,0228= -1,89

De lo anterior el investigador puede concluir que siendo -1,89menor a -1,96 (una desviación Z) se debe aceptar la H0 deigualdad y por lo tanto, no existen diferencias significativas entrela proporción de obsesos de la muestra y de la población.


154


155

IIIHOMOGENEIDAD DE VARIANZAS

Los análisis paramétricos para dos poblaciones necesitancumplir con tres supuestos:


LA VARIABLE DEPENDIENTE DEBE SER NUMÉRICA.

DEBE CUMPLIRSE LA HOMOCEDASTICIDAD UHOMOGENEIDAD DE VARIANZA ENTRE LOS GRUPOS.

La homocedasticidad u homogeneidad de varianza se refierea la existencia de varianza semejantes entre grupos con respecto ala variable dependiente. Existen diversos análisis para constatar laesto como la prueba de F-Max de Hartley, la prueba de Cochran, laprueba de Bartlett, la prueba Box y la prueba de Levene.

1. IGUALDAD DE VARIANZA DE DOS GRUPOS

Para determinar si dos varianzas son iguales es necesarioobtener un valor F con la siguiente fórmula:

F = S21 (fórmula 32)

S22

S21 = varianza mayor de los dos grupos

S22 = varianza menor de los dos grupos


156

Ejemplo 1

Un investigador evalúo las estrategias de aprendizaje de losalumnos de 2 cursos, obteniendo una media de 3,16 (d.e.=0,97)con los puntajes de los 32 estudiantes del curso A y una mediade 3,74 (d.e.=1,11) con los puntajes de los 35 estudiantes delcurso B. Ahora se desea saber si existe diferencia entre lasvarianzas de los grupos.

Consideraciones: Variable: estrategias de aprendizaje2 grupos: curso A y curso B H0 = No existen diferencias estadísticamente significativasentre las varianzas del curso A y B.

Paso 1Desviación estándar Grupo1= 0,97

Varianza Grupo1= 0,941Desviación estándar Grupo 2= 1,11

Varianza Grupo 2= 1,232

Paso 2Obtener valor F con la fórmula 32

F = 1,232 / 0,941 = 1,309

Paso 3Ahora el investigador debe contrastar el valor F obtenido con losvalores críticos de F (Anexo 3) según el nivel de confianzaescogido y los grados de libertad (n – 1) de cada grupo y seguirla siguiente regla de decisión:


157

Si el valor F obtenido es menor o igual al valor F de la tablase debe aceptar la H0. Si el valor F obtenido es mayor al valor F de la tabla se deberechazar la H0.

En este ejemplo, el valor F obtenido fue de 1,309 < 1,80 (valor1= 31 y gl2= 34) por lo tanto, debemos

aceptar H0 que plantea la igualdad de varianza entre los dosgrupos.

2. IGUALDAD DE VARIANZA DE TRES O MÁS GRUPOS DE IGUAL TAMAÑO

Para determinar si tres o más varianzas de grupos del mismotamaño son iguales se utiliza la prueba de Cochran o la de Hartley. Si los grupos son de diferente tamaño se utiliza la prueba deBartlett.

2.1 Prueba de Cochran

La prueba de Cochran (R) se obtiene con la siguiente fórmula:

R = S2máx (fórmula 33)

2

S2máx = varianza mayor de entre los grupos

2 = suma de las varianzas de todos los grupos

Ejemplo 2

Un profesor evalúo la capacidad de aciertos en lanzamientos a lacanasta en básquetbol en estudiantes de enseñanza media deun colegio. Cada curso estuvo constituido por 40 alumnos. El


158

primer año obtuvo una media de 15,7 (d.e.=2,45), segundo año14,8 (d.e.=1,95), tercer año 17,2 (d.e.=3,80) y cuarto año 16,4(d.e.=2,96). Ahora se desea saber si las varianzas de los cuatrogrupos son iguales.

Consideraciones: Variable: aciertos en lanzamientos en básquetbol4 grupos: 1°, 2°, 3° y 4° año H0 = No existen diferencias estadísticamente significativasentre las varianzas de los cuatro cursos.

Paso 1Desviación estándar Grupo 1= 2,45

Varianza Grupo 1= 6,00Desviación estándar Grupo 2= 1,95



Varianza Grupo 4= 8,76

Paso 2Obtener valor R de Cochran con la fórmula 33:

R = 14,44 / (6,00 + 3,80 + 14,44 + 8,76) = 14,44 / 33

= 0,438

Paso 3Ahora el profesor debe contrastar el valor R obtenido con losvalores críticos de R (Anexo 4) según el nivel de confianzaescogido y los valores correspondientes al número de muestra ynúmero de grupos y seguir la siguiente regla de decisión:


159

Si el valor R obtenido es menor al valor R de la tabla sedebe aceptar la H0. Si el valor R obtenido es igual o mayor al valor R de la tablase debe rechazar la H0.

En este ejemplo, el valor R obtenido fue de 0,437 > 0,3720

debemos rechazar H0 que plantea la igualdad de varianza entre loscuatro grupos.

2.2 Prueba de Hartley

La prueba de Hartley (Fmáx) se obtiene con la siguientefórmula:

Fmáx = S2máx (fórmula 34)

S2min

S2máx = varianza mayor de entre los grupos

S2min = varianza menor de entre los grupos

Si utilizamos la prueba de Hartley con el ejemplo 2:

Paso 1Obtener valor Fmáx de Hartley con la fórmula 34:

Fmáx = 14,44 / 3,80 = 3,8

Paso 2Ahora el profesor debe contrastar el valor F obtenido con losvalores críticos de F (Anexo 3) según el nivel de confianzaescogido y los valores correspondientes al número de muestra ynúmero de grupos y seguir la siguiente regla de decisión:


160

Si el valor F obtenido es menor o igual al valor F de la tablase debe aceptar la H0. Si el valor F obtenido es mayor al valor F de la tabla se deberechazar la H0.

En este ejemplo, el valor F obtenido fue de 3,8 > 2,61 (valor

debemos rechazar H0 que plantea la igualdad de varianza entre loscuatro grupos.

3. IGUALDAD DE VARIANZA DE TRES O MÁS GRUPOS DE DIFERENTES TAMAÑOS

Para determinar si tres o más varianzas de grupos dediferentes tamaños son iguales se utiliza la prueba de Bartlett.

La prueba de Bartlett (B) se obtiene con la siguiente fórmula:

B= 2,3026 * [ (N – k) log S2p - 1 – 1) log S2

i ] (fórmula 35) C

2,3026 = una constanteN = número total de las muestraslog= logaritmo común de base 10ni = número de sujetos de cada muestrak = número de gruposC se obtiene con la siguiente fórmula:

C= 1 + 1 – 1 (fórmula 36) 3*(k – 1) ni – 1 N – k

S2p se obtiene con la siguiente fórmula:

S2p = (ni – 1)*S2

i (fórmula 37) N – k


161

Ejemplo 3

Un investigador evalúo la capacidad de atención enseleccionados universitarios de cuatro deportes. El primer grupoestuvo constituido por 15 seleccionados de voleibol con unamedia de 7,97 ptos. en la atención (d.e.=1,05), el segundo grupode 18 seleccionados de fútbol con 8,03 (d.e.=1,96), el tercergrupo de 16 seleccionados de básquetbol con 9,12 (d.e.=0,98) yel cuarto grupo de 14 seleccionados de hándbol con 8,54(d.e.=1,45). Ahora se desea saber si las varianzas de los cuatrogrupos son iguales.

Consideraciones: Variable: atención4 grupos: seleccionados de voleibol, fútbol, básquetbol yhándbol. H0 = No existen diferencias estadísticamente significativasentre las varianzas de los cuatro grupos.

Paso 1Desviación estándar Grupo 1= 1,05Varianza Grupo 1= 1,10n1= 15Desviación estándar Grupo 2= 1,96Varianza Grupo 2= 3,84n2= 18

Desviación estándar Grupo 3= 0,98Varianza Grupo 3= 0,96n3= 16Desviación estándar Grupo 4= 1,45Varianza Grupo 4= 2,10n4= 14


162

Paso 2Calcular S2

p con la fórmula 37:

S2p= [ (15-1)*1,10 + (18-1)*3,84 + (16-1)*0,96 + (14-1)*2,10 ]

(15+18+16+14) – 4

S2p= [ 15,4 + 65,28 + 14,4 + 27,3 ]

63 – 4 S2

p= 122,38 59S2

p= 2,074

Paso 3Calcular el valor C con la fórmula 36:

C= 1 + 1 / (3*3) * [[1/15-1 + 1/18-1 + 1/16-1 + 1/14-1] – 1 / 63-4] C= 1 + 1 / 9 * [[1/14 + 1/17 + 1/15 + 1/13] – 1 / 59] C= 1 + 0,111 * [[0,071 + 0,059 + 0,067 + 0,077] – 0,017] C= 1 + 0,111 * [0,274 – 0,017] C= 1,111 * 0,257C= 0,286

Paso 4Calcular (N – k) log S2

p

log S2p = log 2,074 = 0,317

= (63 – 4) * 0,317 = 59 * 0,317 = 18,703

Paso 5Calcular 1 – 1) log S2

i


163

(n1 – 1) log S21 = (15 – 1)*log 1,10 = 14 * 0,041 = 0,574

(n2 – 1) log S22 = (18 – 1)*log 3,84 = 17 * 0,584 = 9,928

(n3 – 1) log S23 = (16 – 1)*log 0,96 = 15 * -0,018 = -0,270

(n4 – 1) log S24 = (14 – 1)*log 2,10 = 13 * 0,322 = 4,186

1 – 1) log S2i = 0,574+9,928+(-0,270)+4,186 = 14,418

Paso 6Calcular el valor B con la fórmula 35:

B= 2,3026 * [18,703 – 14,418] 0,286

B= 8,051 * 4,285 B= 34,50

Paso 7Ahora el investigador debe contrastar el valor X2 obtenido conlos valores críticos de X2 (Anexo 5) según el nivel de confianzaescogido y los gl (n – 1) y seguir la siguiente regla de decisión:

Si el valor X2 obtenido es menor al valor X2 de la tabla sedebe aceptar la H0. Si el valor X2 obtenido es igual o mayor al valor X2 de latabla se debe rechazar la H0.

En este ejemplo, el valor X2 obtenido fue de 34,50 > 7,815

rechazar H0 que plantea la igualdad de varianza entre los cuatrogrupos.


164


165

IVPRUEBA T DE STUDENT PARA MUESTRASINDEPENDIENTES

La prueba t para muestras independientes se utiliza paracomparar la media de dos muestras que no están relacionadasentre sí (por ejemplo: sexo, curso, colegio, comuna, país, etc.) ydeterminar si la diferencia entre ambos son estadísticamentesignificativas (no se debe al azar).

NIVEL DE MEDICIÓN: INTERVALAR O DE RAZON

SUPUESTOS:




Ejemplo 1

Un investigador midió la fuerza prensil en 9 varones de 15 años y7 varones de 17 años de un colegio de Santiago. Laspuntuaciones se observan en la tabla siguiente:


166

Grupo 1 Puntaje Grupo 2 Puntaje1 12 1 152 15 2 183 13 3 194 15 4 185 14 5 176 15 6 207 16 7 158 12 9 14 = 14,0 = 17,4

S = 1,41 S = 1,90

Ahora se desea establecer los intervalos de confianza de lamedia y saber si existen diferencias entre la media de ambosgrupos.

Datos: 1 = 14,0 2 = 17,4

S1 = 1,41 S2 = 1,90 n1 = 9 n2 = 7

H0 = 1 = 2 H1 = 1 2

1. ERROR ESTÁNDAR DE LA DIFERENCIA DE MEDIAS INDEPENDIENTES

El error estándar de diferencia de medias corresponde al errorposible entre la diferencia de dos o más grupos que forman lamuestra y de dos o más grupos que conforman la población.

Paso 1La diferencia de medias independientes (D) se obtiene con lasiguiente fórmula:


167

D = 1 – 2 (fórmula 38)

1 = media del grupo 1 2 = media del grupo 2

Para el ejemplo 1 reemplazamos en la fórmula 38:

D = 14,0 – 17,4 = -3,4

Paso 2Calcular el error estándar (e.e.) de la diferencia de mediasindependientes. Cuando se conoce la desviación estándar de lapoblación el error se obtiene con la siguiente fórmula:

e.e. 12

22

n1 n2 (fórmula 39)

12 = desviación estándar al cuadrado de la población 1

22 = desviación estándar al cuadrado de la población 2

n1 = número de sujetos del grupo 1 n2 = número de sujetos del grupo 2

Si la desviación estándar de la población es desconocida, elerror estándar se obtiene con la siguiente fórmula:

e.e. = S12 + S2

2 n1 n2 (fórmula 40)

S12 = desviación estándar al cuadrado del grupo 1

S22 = desviación estándar al cuadrado del grupo 2

n1 = número de sujetos del grupo 1 n2 = número de sujetos del grupo 2


168


e.e. = (1,41)2 + (1,90)2

9 7

= (1,988/9) + (3,61/7)

= 0,221 + 0,516 = 0,737 = 0,858

Se obtiene un error estándar de diferencia de medias de0,858.

2. INTERVALOS DE CONFIANZA PARA DIFERENCIA DE MEDIAS INDEPENDIENTES

Los intervalos de confianza de diferencia de mediasindependientes se obtienen con la siguiente fórmula:

IC = D + (Z * e.e.) (fórmula 41)

D = diferencia de medias independientes (fórmula 38) Z = puntuación Z (por ejemplo 1,96) e.e.= error estándar de diferencia de medias independientes (fórmula 39 o 40).

Siguiendo con el ejemplo 1, tenemos una diferencia demedias independientes de -3,4 y un error estándar de diferencia demedias independientes de 0,858. Ahora reemplazamos en lafórmula 41:

ICs = -3,4 + (1,96*0,858) = -3,4 + 1,682 = -1,718ICi = -3,4 – (1,96*0,858) = -3,4 – 1,682 = -5,082


169

Por lo tanto: -5,082 D -1,718

Esto significa que la media poblacional de la diferencia demedias de la fuerza prensil de la población de estudiantes de 15 y17 años de un colegio de Santiago se encuentre entre -5,082 y -1,718 con una confianza del 95%.

3. VALOR T PARA MUESTRAS INDEPENDIENTES

Para saber si la diferencia de medias es significativa debemoscalcular el valor t de muestras independientes que se obtiene con lasiguiente fórmula:

t = 1 – 2 (fórmula 42) e.e.

1 = media del grupo 1 2 = media del grupo 2

e.e.= error estándar de diferencia de medias independientes (fórmula 39 o 40).


t = 14,0 – 17,4 / 0,858 = -3,4 / 0,858 = -3,963

El valor t de muestras independientes fue de 3,963 (noimporta el signo del valor obtenido).

Luego calculamos los grados de libertad ((n1 – 1) + (n2 – 1)) yobtenemos 14. Con ambos datos vamos a la tabla de valorescríticos de t (Anexo 2) y vemos que con 14 gl y un nivel deconfianza de 0,05 el valor t es de 2,15.

Ahora utilizamos la siguiente regla de decisión:


170

Si el valor t calculado es menor al valor t de la tabla se debeaceptar la H0. Si el valor t calculado es igual o mayor al valor t de la tablase debe rechazar la H0.

3,963 > 2,15 por lo tanto se debe rechazar H0 y podemosdecir que existen diferencias entre las medias de los grupos.

Por lo anterior, es que el investigador puede concluir que losestudiantes de 17 años del colegio poseen mayor fuerza prensil quelos de 15 años.

4. TAMAÑO DEL EFECTO DE LA PRUEBA T PARA MUESTRAS INDEPENDIENTES

La información que entrega el tamaño del efecto sirve paraconocer la magnitud de la diferencia de dos medias, es decir, nosíndica si la diferencia es pequeña, mediana o grande.

El tamaño del efecto (ES) corresponde a una comparación endesviaciones típicas (Z) y en dos muestras independientes secalcula con la siguiente fórmula:

ES = 1 – 2 (fórmula 43)

1 = media grupo 12 = media grupo 2

ón típica combinada

La desviación típica combinada se obtiene con la siguientefórmula: = (N1 * S1) + (N2 * S2) (fórmula 44) N1 + N2

N1 y N2 = número de sujetos grupo 1 y 2 respectivamenteS1 y S2 = desviación estándar grupo 1 y 2 respectivamente


171


(9*1,41) + (7*1,90) 9+7

= (12,69 + 13,3) / 16

= 25,99 /16

= 1,624 = 1,27

El valor de la desviación típica combinada es de 1,27. Ahorareemplazamos en la fórmula 43:

ES = (14,0 – 17,4) / 1,27 = -3,4 / 1,27 = -2,68

El tamaño del efecto de la diferencia de las dos mediasindependientes fue de 2,68 (no importa el signo negativo). ParaCohen (1988) estos efectos se pueden clasificar en:

0,20 = efecto pequeño0,50 = efecto moderado0,80 = efecto grande

Por lo tanto, podemos asumir que la diferencia de medias dela fuerza prensil entre el grupo de varones de 15 años y el grupo devarones de 17 años posee una diferencia significativa y dichadiferencia es grande (ES=2,68).


172


173

VPRUEBA T DE STUDENT PARA MUESTRASRELACIONADAS

Esta prueba se utiliza para comparar la media de dosmuestras que están relacionadas entre sí (por ejemplo: dosmediciones a los mismos sujetos en diferentes momentos, comoantes y después de un entrenamiento) y determinar si la diferenciaentre ambos son estadísticamente significativas (no se debe alazar).


SUPUESTOS:



Ejemplo 1

Un investigador evaluó la motivación por la clase de educaciónfísica de 10 estudiantes de sexto básico de un colegio de Santiago en marzo y luego en julio. Las puntuaciones seobservan en la tabla siguiente:


174

Sujetos Medición 1 Medición 21 4 62 5 73 6 84 4 65 3 76 4 67 5 78 2 89 6 510 7 7

= 4,6 6,7S = 1,51 0,95

Ahora se desea establecer los intervalos de confianza de ladiferencia de medias y saber si existen diferencias entre lasmedias de ambas evaluaciones.

Datos: 1 = 4,6 2 = 6,7

S1 = 1,51 S2 = 0,95 n1 = 10 n2 = 10

H0 = 1 = 2 H1 = 1 2

1. ERROR ESTÁNDAR DE LA DIFERENCIA DE MEDIAS RELACIONADAS

Paso 1Calcular la diferencia de medias de cada valor ( 1 – 2) yelevarlas al cuadrado ( 1 – 2)2.


175

x1 x2 x1 – x2 (x1 – x2)2

4 6 -2 45 7 -2 46 8 -2 44 6 -2 43 7 -4 164 6 -2 45 7 -2 42 8 -6 366 5 1 17 7 0 0

= 46 67 -21 77= 4,6 6,7 -2,1 7,7

S = 1,51 0,95 1,64 10,83

La diferencia de medias fue de -2,1.

Paso 2Calcular la suma de cuadrados de la diferencia ( 2) que seobtiene con la siguiente fórmula:

2 = 2 – ( )2 (fórmula 45) n

2 = suma de los valores de las diferencias al cuadrado( )2 = suma de los valores de la diferencia elevada al cuadradon = número de sujetos


2 = 77 – (-212 / 10) = 77 – (441 / 10) = 77 – 44,1 = 32,9


176

Paso 3Calcular la desviación estándar de diferencia de mediasrelacionadas (SD) que se obtiene con la siguiente fórmula:

SD = 2 (fórmula 46) n

2 = suma de cuadrados de la diferencia n = número de sujetos.


SD = 32,9 / 10 = 3,29 = 1,813

Paso 4 Calcular el error estándar de diferencia de medias relacionadas(e.e.D) que se obtiene con la siguiente fórmula:

e.eD = SD (fórmula 47) n – 1

SD = desviación estándar de diferencia de mediasn = número de sujetos


e.e.D = 1,813 / 10 – 1 = 1,813 / 9

= 1,813 / 3 = 0,604

El error estándar de diferencia de medias del ejemplo 1 es de 0,604.


177

2. INTERVALOS DE CONFIANZA PARA DIFERENCIA DE MEDIAS RELACIONADAS

Los intervalos de confianza de diferencia de mediasrelacionadas se obtienen con la siguiente fórmula:

IC = D + (t * e.e.D) (fórmula 48)

D = diferencia de medias relacionadast = valor t de la tabla de valores críticos (se calcula con el nivel de significancia y los grados de libertad: n – 1) e.e.D = error estándar de la diferencia de medias relacionadas

Para el ejemplo 1 tenemos 9 5 por lo cual el valort es 2,26. Ahora reemplazamos en la fórmula 48:

ICs = -2,1 + (2,26*0,604) = -2,1 + 1,365 = -0,735ICi = -2,1 – (2,26*0,604) = -2,1 – 1,365 = -3,465

Por lo tanto: -3,465 D -0,735

Esto significa que la media poblacional de la diferencia demedias de la motivación por la clase de educación física deestudiantes de sexto básico se encuentre entre -3,465 y -0,735 conuna confianza del 95%.

3. VALOR T PARA MUESTRAS RELACIONADAS

Para saber si la diferencia de medias es significativa debemoscalcular el valor t de muestras relacionadas que se obtiene con lasiguiente fórmula:

t = D e.e.D (fórmula 49)

D = diferencia de medias relacionadase.e.D = error estándar de diferencia de medias relacionadas


178


t = -2,1 / 0,604 = -3,477

El valor t de muestras relacionadas fue de -3,477. Con un). Ahora seguimos la regla

de decisión:



Por lo anterior, es que el investigador puede concluir que losestudiantes de sexto básico aumentaron su motivación por la clasede educación física entre marzo y julio.

4. TAMAÑO DEL EFECTO DE LA PRUEBA T PARA MUESTRAS RELACIONADAS

El tamaño del efecto (ES) en dos muestras relacionadas secalcula con la siguiente fórmula:

ES = post – pre (fórmula 50) post

post = media post intervenciónpre = media pre intervenciónpost = desviación típica post intervención



179

ES = (6,7 – 4,6) / 0,95 = 2,1 / 0,95 = 2,21

El tamaño del efecto de la diferencia de las dos mediasrelacionadas fue de 2,21. Por lo tanto, podemos asumir que ladiferencia de medias de la motivación por la clase de educaciónfísica presenta diferencias entre marzo y julio y dicha diferencia esgrande ya que las puntuaciones han variado en más de 1desviación estándar (ES=2,21).


180


181

CAPÍTULO 6

ESTADISTICA PARAMETRICA PARA TRESO MAS POBLACIONES

I. Análisis de varianza de un factor

II. Análisis de varianza de un factor de medidasrepetidas


182


183

IANALISIS DE VARIANZA DE UN FACTOR

Cuando necesitamos comparar la media de tres o más gruposno resulta eficiente agruparlos en dúos y realizar comparaciones dediferencia de medias ya que al aumentar los análisis tambiénaumenta la posibilidad de cometer el error tipo I. Por lo tanto, enestas situaciones es necesario realizar un análisis de varianza(ANOVA).

El análisis de varianza de un factor estima la relación de una omás variables independientes categóricas sobre una variabledependiente numérica.


SUPUESTOS:




INDEPENDENCIA DE LAS MEDICIONES DE LOS GRUPOS.


184

Ejemplo 1

Un investigador evalúa los hábitos de estudio de los alumnos de3 carreras universitarias: grupo 1 educación física, grupo 2kinesiología y grupo 3 nutrición de una universidad de Santiago. Los puntajes obtenidos se observan en la tabla siguiente:

Grupo 1 Puntaje Grupo 2 Puntaje Grupo 3 Puntaje1 4 1 5 1 62 3 2 6 2 83 5 3 8 3 94 4 4 7 4 75 6 5 6 5 86 5 6 7 6 87 7 7 5 7 78 5 8 6 8 79 4 9 7 = 4,78 = 6,33 = 7,50

S = 1,20 S = 1,00 S = 0,93

Ahora se desea saber si existe diferencia entre la media de lostres grupos.

Datos: 1 = 4,78 2 = 6,33 3 = 7,50

S1 = 1,20 S2 = 1,00 S3 = 0,93n1 = 9 n2 = 9 n3 = 8

H0 = 1 = 2 = 3 H1 = 1 2 3

Paso 1Los valores obtenidos en cada observación de los grupos debenser elevados al cuadrado y calcular la suma de valorescuadrados de cada grupo.


185

x1 x2 x3 (x1)2 (x2)2 (x3)2

4 5 6 16 25 363 6 8 9 36 645 8 9 25 64 814 7 7 16 49 496 6 8 36 36 645 7 8 25 49 647 5 7 49 25 495 6 7 25 36 494 7 16 49 43 57 60 217 369 456

4,78 6,33 7,50 24,1 41,0 57,0S 1,20 1,00 0,93 12,19 12,79 13,92n 9 9 8

Ahora sumamos el valor de la suma de los valores al cuadradode cada grupo:

2 = 217 + 369 + 456 = 1042

Y la suma de todos los valores de cada grupo:

( )2 = 43 + 57 + 60 = 160

Paso 2Calcular la suma de cuadrados totales (SCT) con la siguientefórmula:

SCT = 2 – ( )2 (fórmula 51) N

2 = suma de los cuadrados de todos los grupos ( )2 = suma de los valores de las observaciones de todos los grupos N = número de toda la muestra


186

Con los datos del ejemplo 1 reemplazamos en la fórmula 51:

SCT = 1042 – (1602 / 26) = 1042 – (25600 / 26) = 1042 – 984,62 = 57,38

Paso 3Calcular la suma de cuadrados inter-grupos (SCinter) con lasiguiente fórmula:

SCinter = ( 2) – ( 2) (fórmula 52) n N

( )2 = suma de las observaciones de cada grupo elevada al cuadrado n = número de sujetos del grupo( )2 = suma de todas las observaciones de cada grupo al cuadrado N = número total de la muestra


SCinter = (432 / 9) + (572 / 9) + (602 / 8) – (1602 / 26) = (1849 / 9) + (3249 / 9) + (3600 / 8) – (25600 / 26) = (205,44 + 361 + 450) – 984,62 = 1016,44 – 984,62 = 31,82

Paso 4Calcular la suma de cuadrados intra-grupos (SCintra) con lasiguiente fórmula:


187

SCintra = SCT - SCinter (fórmula 53)

SCT = suma de los cuadrados totales SCinter = suma de los cuadrados inter-grupos


SCintra = 57,38 – 31,82 = 25,56

Paso 5Calcular los cuadrados medios inter-grupos (CMinter) con lasiguiente fórmula:

CMinter = SCinter (fórmula 54) glinter

SCinter = suma de los cuadrados inter-grupos glinter = grados de libertad inter-grupos que corresponde al número de grupos menos 1


CMinter = 31,82 / (3-1) = 31,82 / 2 = 15,91

Paso 6Calcular los cuadrados medios intra-grupos (CMintra) con lasiguiente fórmula:

CMintra = SCintra (fórmula 55) glintra

SCintra = suma de cuadrados intra-grupos glintra = grados de libertad intra-grupos que corresponde a la suma de casos de cada grupo menos 1


188


CMintra = 25,56 / (9 – 1) + (9 – 1) + (8 – 1) = 25,56 / 23

= 1,111

Paso 7Calcular el valor F de análisis de varianza con la siguientefórmula:

F = CMinter (fórmula 56) CMintra

CMinter = cuadrado medio inter-grupos CMintra = cuadrado medio intra-grupo


F = 15,91 / 1,111 = 14,320

Los datos calculados en el análisis de varianza deben serpresentados en una tabla como la siguiente:

Fuente devariación

gl Suma decuadrados

Cuadradosmedios

F

Inter-grupos 2 31,82 15,91 14,320Intra-grupos 23 25,56 1,111

Total 25 57,38

El valor F del análisis de varianza fue de 14,320 ahora sedebe encontrar el valor crítico de F (Anexo 3), donde debemosubicar los gl de los cuadrados medios inter e intra-grupos, buscando


189

los gl menor entre ellos en la primera fila (horizontal) y los glmayores en la primera columna (vertical).

Con los datos del ejemplo 1 los 2 gl inter-grupos se buscan enprimera fila y los 23 gl intra-grupos en la primera columna. Laintersección de ambos fue un valor F de 3,42. A continuación sesigue la regla de decisión:

Si el valor F calculado es menor al valor F de la tabla sedebe aceptar la H0.Si el valor F calculado es igual o mayor al valor F de la tablase debe rechazar la H0.


Por lo anterior, es que el investigador puede concluir que loshábitos de estudio de los alumnos de educación física, kinesiologíay nutrición son diferentes.

1. COMPARACIONES POSTERIORES A F

El análisis de varianza nos dice si existe o no diferencia entrela media de tres o más grupos, pero en el caso de haberla no dicenada sobre los grupos entre los cuales se presentan estadiferencias. Para ello es necesario realizar análisis posteriorescomúnmente llamados comparaciones múltiples.

Los métodos principales para estas comparaciones son ladiferencia mínima significativa (LSD), prueba de rangos múltiples deDuncan, prueba de Scheffé, procedimiento de Tukey, etc.

A continuación se explicará el procedimiento de Tukeymodificado por Snedecor.

Paso 1: Se ubican las medias de los grupos de mayor a menor y ladiferencia entre ellas.


190

Grupo Medias Diferencia de medias Nutrición Kinesiología E. FísicaNutrición 7,50Kinesiología 6,33 1,17 E. Física 4,78 2,72 1,55

Paso 2Obtener un cuadrado medio intra-grupo promedio (CMintraX) conla siguiente fórmula:

CMintra X = 1 CMintra + CMintra +… CMintra (fórmula 57) k n1 n2 nk

k = número de gruposn = número de sujetos de cada grupo


CMintra X = (1/3) * ((1,111 / 9) + (1,111 / 9) + (1,111 / 8)) = 0,333 * (0,123 + 0,123 + 0,139) = 0,333 * 0,385 = 0,128

Paso 3:Calcular el error estándar de una media (Sx) con la siguientefórmula:

Sx = CMintra X (fórmula 58) Con los datos del ejemplo 1 reemplazamos en la fórmula 58:

Sx = 0,128 = 0,358


191

Paso 4:Determinar el valor Q (Anexo 6) con el número de grupos y losgrados de libertad dentro de los grupos.

Paso 5:Se calcula D con la siguiente fórmula:

D = Q * Sx (fórmula 59)

Con los datos del ejemplo 1 tenemos:

Valor Q con 3 grupos y 23 gl = 3,58

D = 3,58 * 0,358 = 1,282

Paso 6:Se compara el valor D con las diferencias de los pares demedias de los grupos. Valores mayores que D significadiferencia entre los grupos.

Con los datos del ejemplo 1 tenemos:

Nutrición – Kinesiología = 1,17 < 1,282Nutrición – E. Física = 2,72 > 1,282Kinesiología – E. Física = 1,55 > 1,282

Por lo tanto, es posible concluir que las puntuaciones de loshábitos de estudio entre estudiantes de nutrición y kinesiología sonestadísticamente iguales. En cambio, educación física posee unamedia menor que las otra dos carreras.


192


193

IIANALISIS DE VARIANZA DE UN FACTORDE MEDIDAS REPETIDAS

Cuando tenemos un grupo y le hemos realizado dosmediciones a través del tiempo (antes y después de unaintervención o en un momento inicial y otro posterior) es posibledeterminar si existen diferencias entre ambas mediciones a travésde una prueba t para muestras relacionadas. Pero cuando lasmediciones al mismo grupo se realizan tres o más veces la prueba t no resulta adecuada, entonces debemos utilizar un ANOVA demedidas repetidas.


SUPUESTOS:





194

Ejemplo 2

Un entrenador aplicó un entrenamiento de mejora de laflexibilidad a un grupo de 11 gimnastas de 8 y 9 años durante 3meses. Una de las pruebas que compone la batería de mediciónes el sit and reach que fue evaluado antes del entrenamiento, luego de 6 semanas y a las 12 semanas entregando losresultados de la tabla siguiente:

Sujeto Medición 1 Medición 2 Medición 31 0 2 52 1 3 73 2 3 84 0 2 55 2 4 86 -2 0 37 0 1 48 1 3 59 3 6 710 2 4 711 2 5 8

= 1,0 3,0 6,1S = 1,41 1,73 1,76

Ahora el entrenador quiere saber si existen diferencias entrelas 3 mediciones, es decir, si el programa de entrenamiento provocómejoras en las puntuaciones de esta evaluación.

Datos: 1 = 1,0 2 = 3,0 3 = 6,1

S1 = 1,41 S2 = 1,73 S3 = 1,76n1 = 11 n2 = 11 n3 = 11

H0 = 1 = 2 = 3 H1 = 1 2 3


195

Paso 1Calcular la suma de cuadrados de cada grupo.

X1 X2 X3 X12 X1

2 X12

1 0 2 5 0 4 25 2 1 3 7 11 1 9 49 3 2 3 8 13 4 9 64 4 0 2 5 7 0 4 255 2 4 8 14 4 16 64 6 -2 0 3 1 4 0 9 7 0 1 4 5 0 1 168 1 3 5 9 1 9 25 9 3 6 7 16 9 36 49 10 2 4 7 13 4 16 49 11 2 5 8 15 4 25 64

11 33 67 31 129 439= 1,0 3,0 6,1 2,82 11,73 39,91

S = 1,41 1,73 1,76 S2 = 1,98 2,99 3,10

Paso 2Calcular la suma de cuadrados totales (SCT) con la siguientefórmula:

SCT = 2 – T2 (fórmula 60) N

2 = Suma de cuadrados totalesT2 = Suma de valores de todos los casos al cuadradoN = número total de mediciones

Con el ejemplo 2 reemplazamos en la fórmula 60:

SCT = 599 – [(111)2 / 33] = 599 – (12321 / 33)


196

= 599 – 373,36 = 225,64

Paso 3Calcular la suma de cuadrados inter-grupos (SCI) con lasiguiente fórmula:

SCI = Tj2 – T2 (fórmula 61)

n N

j2 = Suma del total de puntaje de cada grupo al cuadrado

n = número de sujetos de cada grupoT2 = Suma de valores de todos los casos al cuadradoN = número total de mediciones


SCI = [((11)2 / 11) + ((33)2 / 11) + ((67)2 / 11)] – [(111)2 / 33] = ((121 / 11) + (1089 / 11) + (4489 / 11)) – (12321 / 33) = (11 + 99 + 408,09) – 373,36 = 518,09 – 373,36 = 144,73

Paso 3Calcular la suma de cuadrados inter-sujetos (SCB) con lasiguiente fórmula:

SCB = i2 – T2 (fórmula 62)

J N

i2 = Suma de las puntuaciones de cada sujeto al cuadrado

J = número de gruposT2 = Suma de valores de todos los casos al cuadradoN = número total de mediciones


197

Del ejemplo 2 reemplazamos en la fórmula 62:

SCB = [((7)2 / 3) + ((11)2 / 3) + ((13)2 / 3) + …((15)2 / 3) – [(111)2 / 33] = ((49/3) + (121/3) + (169/3) +…(225/3)) – (12321 / 33) = (16,3 + 40,3 + 56,3 + …75,0) – 373,36 = 446,7 – 373,36 = 73,34

Paso 4:Calcular la suma de cuadrados residual (SCr) con la siguientefórmula:

SCr = SCT – SCI – SCB (fórmula 63)


SCr = 225,64 – 144,73 – 73,34 = 7,57

Paso 5Calcular los grados de libertad con las siguientes fórmulas:

glinter-grupos = J – 1 (fórmula 64)

glinter-sujetos = n – 1 (fórmula 65)

glresidual = (J – 1) (n – 1) (fórmula 66)

gltotal = N – 1 (fórmula 67)

Ahora con el ejemplo 2 reemplazamos en las fórmulas de

grados de libertad:


198

glinter-grupos = 3 – 1 = 2glinter-sujetos = 11 – 1 = 10 glresidual = (3 – 1)*(11 – 1) = 2*10 = 20gltotal = 33 – 1 = 32

Paso 6:Calcular la media cuadrática inter-grupos (MCI) con la siguientefórmula:

MCI = SCI (fórmula 68) glinter-grupos

SCI = Suma de cuadrado inter-grupos


MCI = 144,73 / 2 = 72,365

Paso 7Calcular la media cuadrática residual o intra-grupos con lasiguiente fórmula:

MCr = SCr (fórmula 69) glresidual

SCr = Suma de cuadrados residuales


MCr = 7,57 / 20 = 0,379


199

Paso 8Calcular el valor F con la siguiente fórmula:

F = MCI (fórmula 70) MCr


F = 72,365 / 0,379 = 190,94

Los datos calculados en el análisis de varianza de medidasrepetidas deben ser presentados en una tabla como la siguiente:

Fuente devariación

gl Suma decuadrados

Cuadradosmedios

F

Inter-grupos 2 144,73 72,365 190,94Inter-sujetos 10 73,34

Residual 20 7,57 0,379Total 32 225,64

El valor F del análisis de varianza de medidas repetidas fue de190,94 ahora se debe encontrar el valor crítico de F (Anexo 3), donde debemos ubicar los gl inter-sujetos y los gl residuales.

Con los datos del ejemplo 2 los 2 glinter-sujetos se buscan enprimera fila y los 20 glresiduales en la primera columna. La intersecciónde ambos fue un valor F de 3,49. A continuación se sigue la reglade decisión:

Si el valor F calculado es menor al valor F de la tabla sedebe aceptar la H0.Si el valor F calculado es igual o mayor al valor F de la tablase debe rechazar la H0.


200

190,94 > 3,49 por lo tanto se debe rechazar H0 y podemosdecir que existen diferencias entre las tres medias de los grupos.

Por lo anterior, es que el entrenador puede concluir que laspuntuaciones del test de sit and reach de flexibilidad son diferentesen los tres momentos de medición. Por lo tanto, el programa deentrenamiento provocó una mejora de esta cualidad física.

1. COMPARACIONES POSTERIORES A F

Los métodos principales para las comparaciones múltiples deANOVA de un factor de medidas repetidas son la diferencia mínimasignificativa (LSD), prueba de Sidak y Bonferroni.

A continuación se explicará el procedimiento de Bonferronipara comparaciones:

Paso 1: Calcular intervalos de confianza para todos los pares de mediasposibles, con la siguiente fórmula:

ICbonferroni = 1 – 2 + tn-k S2w ( 1 + 1 ) (fórmula 71) n1 n2

1 = media grupo 12 = media grupo 2

Tn- = valor t con número de sujetos menos número de grupos y un alfa dividido en 2S2w = varianza de todos los datosn1 = número de sujetos grupo 1n2 = número de sujetos grupo 2


ICpar 1 = (1,0 – 3,0) + 1,155* 7,05 * (1/11) + (1/11)


201

= -2,0 + 1,155 * 7,05 * (0,09 + 0,09)

= -2,0 + 1,155 * 7,05 * 0,18 = -2,0 + 1,155 * 1,269 = -2,0 + 1,155*1,126 = -2,0 + 1,301 = -3,301 y -0,699

ICpar 2 = (1,0 – 6,1) + 1,155* 7,05 * (1/11) + (1/11) = -5,1 + 1,155 * 7,05 * (0,09 + 0,09)

= -5,1 + 1,155 * 7,05 * 0,18 = -5,1 + 1,155* 1,269 = -5,1 + 1,155 * 1,126 = -5,1 + 1,301 = -6,401 y -3,799

ICpar 3 = (3,0 – 6,1) + 1,155* 7,05 * (1/11) + (1/11) = -3,1 + 1,155 * 7,05 * 0,09 + 0,09

= -3,1 + 1,155 * 7,05 * 0,18

= -3,1 + 1,155* 1,269 = -3,1 + 1,155 * 1,126 = -3,1 + 1,301 = -4,401 y -1,799


202

Paso 2:El método de Bonferroni trata de establecer intervalos deconfianza para cada par de medias comparadas en el ANOVAde un factor de medidas repetidas y luego determinar si existediferencias entre ellas de la siguiente forma:

Si el intervalo de confianza calculado contiene al cero lasmedias comparadas son estadísticamente iguales. Si el intervalos de confianza calculado NO contiene al cerolas medias son estadísticamente diferentes.

En el caso del ejemplo 2 se puede observar que ninguno delos intervalos de confianza calculado para cada par de medias (-3,301 y -0,699; -6,401 y -3,799; -4,401 y -1,799) contiene al cero, por lo tanto, existen diferencias significativas entre las tresmediciones de flexibilidad realizadas con el test de sit and reach.


203

CAPÍTULO 7

ASOCIACIÓN DE VARIABLES ENESTADISTICA PARAMETRICA

I. Coeficiente de correlación de Pearson

II. Regresión lineal simple


204


205

ICOEFICIENTE DE CORRELACION DEPEARSON

Cuando necesitamos establecer la posible relación existenteentre dos variables recurrimos a los análisis de asociación, de estaforma podemos determinar si los cambios en un fenómeno medidoproducen cambios en otro. Es importante recordar que estosanálisis no implican causalidad. A continuación estudiaremos lacorrelación de Pearson.

Esta prueba se utiliza para determinar si existe una relaciónlineal entre dos variables (por ejemplo, actividad física e IMC) ydeterminar si esa relación es estadísticamente significativa (no sedebe al azar).


SUPUESTOS:

LAS VARIABLES DEBEN PRESENTAR UNA DISTRIBUCIÓNNORMAL.

LAS VARIABLES DEBEN SER NUMÉRICA.

LOS DATOS DE AMBAS VARIABLES SON INDEPENDIENTES.


206

Ejemplo 1

Un investigador evaluó el tiempo de práctica de actividad físicasemanal de 10 estudiantes de tercer año medio de un colegio deSantiago y las notas obtenidas por ellos durante su añoacadémico. Ahora quiere saber si existe relación significativaentre los puntajes alcanzados por los estudiantes, es decir, si losalumnos que realizan más actividad física son los mismos quelogran mejores notas.

Sujeto Act. Física Notas1 4 5,02 5 5,53 0 4,54 8 6,05 5 5,26 8 5,67 10 6,08 2 5,09 4 5,0

10 7 5,8= 5,3 5,4

S = 3,02 0,50

Datos: act.fisica = 5,3 notas = 5,36

Sact.fisica = 3,02 Snotas = 0,50 n1 = 10 n2 = 10

Paso 1Calcular la covarianza (Cov) de las variables. Esta es elpromedio de los productos de las desviaciones de las variablesrespectos a sus medias. Esto se obtiene con la siguientefórmula:


207

Cov(x, y) = i – ) (yi – ) (fórmula 72) n – 1

xi = valor de cada sujeto en la variable X= media de la variable X

yi = valor de cada sujeto en la variable y= media de la variable y

n = número total de sujetos

Del ejemplo 1 tenemos la siguiente tabla:

Sujeto x y (xi – ) (yi – ) (xi – ) * (yi – )1 4 5,0 -1,3 -0,4 0,522 5 5,5 -0,3 0,1 -0,033 0 4,5 -5,3 -0,9 4,774 8 6,0 2,7 0,6 1,625 5 5,2 -0,3 -0,2 0,066 8 5,6 2,7 0,2 0,547 10 6,0 4,7 0,6 2,828 2 5,0 -3,3 -0,4 1,329 4 5,0 -1.3 -0,4 0,52

10 7 5,8 1,7 0,4 0,68= 5,3 5,4

S = 3,02 0,50

Ahora con los datos del ejemplo 1 reemplazamos en lafórmula 72:

Cov (x,y) = 12,82 / 10 – 1 = 12,82 / 9 = 1,424

La covarianza de los datos es de 1,424.


208

Si la covarianza es positiva los puntos se distribuyenprincipalmente en los cuadrantes I y III del gráfico (Fig. 39). Si lacovarianza es negativa los puntos se distribuyen en los cuadrantesII y IV. Si la covarianza es cercana a cero los puntos se distribuyenpor los cuatro cuadrantes.

Figura 39. Gráfico de distribución de los datos. Como se puedeobservar los datos se distribuyen principalmente en los cuadrantes I

y III.

Paso 2:Calcular la correlación de Pearson (r) con la siguiente fórmula:

r = cov (x,y) (fórmula 73) Sx Sy

Sx = desviación estándar de la variable XSy = desviación estándar de la variable Y

Cuadrante I

Cuadrante IICuadrante III

Cuadrante IV


209

Ahora con el ejemplo1 reemplazamos en la fórmula 73:

r = 1,424 / (3,02 * 0,50) = 1,424 / 1,51 = 0,943

El coeficiente de correlación de Pearson es de 0,943 ahora sedebe contrastar con el valor crítico de r (Anexo 7), donde debemosubicar los gl de libertad con N – 1. A continuación se sigue la reglade decisión:

Si el valor r calculado es menor al valor r de la tabla se debeaceptar la H0.Si el valor r calculado es igual o mayor al valor r de la tablase debe rechazar la H0.

0,943 > 0,666 por lo tanto se debe rechazar H0 y podemosdecir que existe relación entre las variables.

La correlación de Pearson puede tomar valores entre -1 y 1midiendo la fuerza de asociación lineal de las variables. Un valor rde cero indica que no existe correlación de X e Y, valores positivosindica una correlación positiva y viceversa.

Valores Correlación< 0,300 Baja0,300 – 0,600 Media> 0,600 Alta

Este coeficiente de correlación es muy influenciado por datosextremos (outlier) y solo se utiliza cuando existe relaciones linealesentre variables, por esta razón es necesario construir un gráfico dedispersión para determinar la linealidad de los datos antes deutilizar este análisis.

Por lo anterior, es que el investigador de este estudio puedeconcluir que los estudiantes que practican más actividad física son


210

los mismos que poseen mejor rendimiento académico y que estarelación de variables es muy alta (r = 0,943).

También es posible calcular el coeficiente de determinación(r2) que corresponde al porcentaje de relación de las variables. Estese obtiene con la siguiente fórmula:

r2 = r * r (fórmula 74)

r = correlación de Pearson.

Así del ejemplo 1 tenemos:

r2 = 0,943 * 0,943 = 0,89

Es decir, la relación entre las dos variables es de un 89%.


211

IIREGRESION LINEAL SIMPLE

La representación de la relación de dos variables, puedepermitir realizar predicciones sobre los valores que tomará una delas variables a partir de los valores de la otra. La regresión linealsimple es el estadístico más utilizado a la hora de predecir losvalores de una variable cuantitativa en base a otra variablecuantitativa.


SUPUESTOS:

LAS VARIABLES DEBEN PRESENTAR UNA DISTRIBUCIÓNNORMAL.

LAS VARIABLES DEBEN SER NUMÉRICA.

LOS DATOS DE AMBAS VARIABLES SON INDEPENDIENTES.

HOMOCEDASTICIDAD U HOMOGENEIDAD DE LASVARIANZAS.

LINEALIDAD EN LOS PARAMETROS (esto indica que uncambio unitario de X tiene el mismo efecto en Y, independientedel valor inicial de X).


212

Ejemplo 2

Un investigador evaluó el tiempo de práctica de actividad física ylos niveles de estrés de un grupo de 10 estudiantesuniversitarios. Ahora quiere saber si la práctica de actividad físicapuede predecir los niveles de estrés en estos estudiantes.

Sujeto Act. Física Estrés1 8 52 5 33 7 44 4 25 6 46 2 17 4 38 7 59 3 2

10 8 5

Paso 1Calcular el modelo de regresión lineal que consiste en ajustar losdatos a una línea recta mediante la siguiente ecuación:

0 1 (fórmula 75)

0 = ordenada al origen1 = pendiente

aleatorio

En un modelo de regresión es deseable que la media de loserrores aleatorios sea cero.

Ahora debemos encontrar la recta que más se ajuste anu 0 1 que haganmínimos los errores de estimación.


213

Paso 2Calcular los valores que hagan mínima la suma de los errores alcuadrado (SSE) mediante el método de mínimos cuadradosque se obtiene con la siguiente fórmula:

SSE = i – 0 1xi)2 (fórmula 76)

i = suma de valores observados en eje Y0 = ordenada al origen1 = pendiente

xi = valor en eje X

1 se obtiene con la siguiente fórmula:

1 = SSxy (fórmula 77) SSxx

SSxy = i – )(yi – ) (fórmula 78)

(xi – ) = cada valor de x menos la media de x(yi – ) = cada valor de y menos la media de y

SSxx = (xi – )2 (fórmula 79)

(xi – )2 = cada valor de X menos la media de X al cuadrado

0 se obtiene con la siguiente fórmula:

0 = – 1 (fórmula 80)

= media de y= media de x


214

1 0

Sujeto x y (xi – ) (xi – )2 (yi – ) (xi – )(yi – )1 8 5 2,6 6,76 1,6 4,162 5 3 -0,4 0,16 -0,4 0,163 7 4 1,6 2,56 0,6 0,964 4 2 -1,4 1,96 -1,4 1,965 6 4 0,6 0,36 0,6 0,366 2 1 -3,4 11,56 -2,4 8,167 4 3 -1,4 1,96 -0,4 0,568 7 5 1,6 2,56 1,6 2,569 3 2 -2,4 5,76 -1,4 3,3610 8 5 2,6 6,76 1,6 4,16

= 5,4 3,4S = 2,12 1,43

El valor SSxy = 26,4 y el valor SSxx = 40,4.

Ahora reemplazamos en la fórmula 77:

1 = 26,4 / 40,4 = 0,653


0 = 3,4 – (0,653*5,4) = 3,4 – 3,526 = -0,126

La recta de regresión de Y sobre X es por lo tanto:

Y = -0,126 + 0,653*xi

Por ejemplo, si xi tuviese un valor de 10, ¿cuál sería el valor de Y?


215

Y = -0,126 + (0,653*10) = -0,126 + 6,53 = 6,404

Es decir, si X adquiere un valor de 10 el valor de Y sería de6,404.

1. CONTRASTE DE HIPÓTESIS DE LA REGRESIÓN LINEAL

Para conocer si el efecto de la variable X sobre la variable Yes significativo es necesario contrastar las hipótesis:

H0 = 1 = 0H1 1

Paso 1Calcular la varianza residual (Sr

2) con la siguiente fórmula:

Sr2 = SSyy – 1 SSxy (fórmula 81)

n – 2

SSyy = i – )2 = cada valor de y menos la media de y al cuadrado

Sujeto x y (xi – ) (xi – )2 (yi – ) (yi – )2

1 8 5 2,6 6,76 1,6 2,562 5 3 -0,4 0,16 -0,4 0,163 7 4 1,6 2,56 0,6 0,364 4 2 -1,4 1,96 -1,4 1,965 6 4 0,6 0,36 0,6 0,366 2 1 -3,4 11,56 -2,4 5,767 4 3 -1,4 1,96 -0,4 0,168 7 5 1,6 2,56 1,6 2,569 3 2 -2,4 5,76 -1,4 1,9610 8 5 2,6 6,76 1,6 2,56

= 5,4 3,4 S = 2,12 1,43


216

SSyy = 18,41 = 0,653

SSxy = 26,4n = 10


Sr2 = [18,4 – (0,653*26,4)] / 10 – 2

= (18,4 – 17,239) / 8 = 1,161 / 8 = 0,145

Paso 2Calcular el estadístico de contraste t para regresión lineal con lasiguiente fórmula:

t = 1 – b1 (fórmula 82) Sr

2 / SSxx

b1 = constante 0

Con los datos anteriores reemplazamos en la fórmula 82:

t = (0,653 – 0) / 0,145 / 40,4 = 0,653 / 0,00358 = 0,653 / 0,0598 = 10,919

Contrastar el valor t obtenido con el valor crítico de t del anexon – 2 gl (10 – 2 = 8) que en este caso es de 2,31

y seguir la siguiente regla de decisión:


217


2,31<10,919 podemos concluir que existen efectossignificativos de la práctica de actividad física sobre el estrés de los10 estudiantes universitarios evaluados.


218


219

CAPÍTULO 8

ESTADISTICA NO PARAMETRICA

I. Comparación de medias de dos grupos

II. Comparación de medias de tres o más grupos

III. Asociaciones no paramétricas


220


221

ICOMPARACION DE MEDIAS DE DOSGRUPOS

Los análisis no paramétricos tienen las siguientescaracterísticas:

No necesitan tener una distribución normal. Se basa en frecuencias, modas y rangos. Sus variables son categóricas.

Si nuestros datos presentan estas características, debemosbuscar los análisis más adecuados según sea el problema deinvestigación (comparación o asociación).

1. PRUEBA U DE MANN-WHITNEY

NIVEL DE MEDICIÓN: ORDINAL

Esta prueba se utiliza para comparar la media de dosmuestras que no están relacionadas entre sí y determinar si ladiferencia entre ambos es estadísticamente significativa (no se debeal azar). La variable dependiente debe ser de nivel ordinal.

Ejemplo 1

Un investigador evaluó los niveles de estrés de un conjunto de 9profesores de educación física de dos colegios de Santiago. El


222

nivel de estrés se midió en una escala de 0= nada, 1=bajo, 2=medio y 3=alto. Los resultados fueron los siguientes:

Grupo 1 Grupo 20 23 21 11 32

Ahora quiere saber si existen diferencias significativas entre lospuntajes alcanzados por los profesores de los dos colegios.

Paso 1Asignar un rango a cada puntaje obtenido ordenándolos demenor a mayor (los dos grupos juntos). El rango corresponde a lasuma del número de orden de los mismos valores dividido por elnúmero de valores iguales.

Valor Orden Rango0 1 1 / 1 = 11 21 3 (2 + 3 + 4) / 3 = 31 4 2 52 6 (5 + 6 + 7) / 3 = 62 7 3 8 (8 + 9) / 2 = 8,53 9

Paso 2Calcular la suma de rangos de cada grupo ( x)


223

X1 X2 R1 R2

0 2 1 63 2 8,5 61 1 3 31 3 3 8,52 6

n = 5 n = 4

Paso 3Calcular el valor U de Mann-Whitney (U) con la siguientefórmula:

U = n1n2 + nx (nx +1) – x (fórmula 83) 2

n1 y n2 = número de casos del grupo 1 y 2nx = número de casos de cada grupo

x = suma de rangos de cada grupo


U1 = (5)*(4) + [(5*(5 +1)) / 2] – 21,5 = 20 + [(5*6) / 2] – 21,5 = 20 + (30 / 2) – 21,5 = 20 + 15 – 21,5 = 13,5

U2 = (5)*(4) + [(4*(4 +1)) / 2] – 23,5 = 20 + [(4*5) / 2] – 23,5 = 20 + (20 / 2) – 23,5 = 20 + 10 – 23,5 = 6,5

Utilizando el valor menor obtenido en la prueba comparamoscon el número de la tabla de valores crítico U de Mann Whitney


224

(Anexo 8) ubicando el n del grupo 1 en los valores verticales y el ndel grupo 2 en los horizontales y seguimos la siguiente regla dedecisión:

Si el valor U obtenido es menor o igual al valor de la tabla sedebe rechazar H0. Si el valor U obtenido es mayor al valor de la tabla se debeaceptar H0.

En el ejemplo 1 el valor U en la tabla es de 1 (5 y 4 sujetos), por lo tanto 6,5 > 1, se debe aceptar H0 y concluir que no existen diferencias en los niveles de estrés de los profesores deeducación física de los dos colegios de Santiago.

Si alguno de los grupos tiene 20 o más casos no es posibleutilizar la tabla de U de Mann-Whitney, entonces el valor U debeconvertirse en puntuación Z con la siguiente fórmula:

Z = U – (n1 n2 / 2) (fórmula 84) n1 n2 (n1 + n2 + 1) 12

Para la puntuación Z se puede utilizar cualquiera de los dos Ucalculadas.

Reemplazamos con la U menor en la fórmula 84:

Z = 6,5 – (5*4 / 2) 5*4 (5 + 4 + 1) 12

= 6,5 – (20 / 2) = 6,5 – 10 (20*10) / 12 200 / 12

= -3,5 / 16,66 = -3,5 / 4,082 = -0,857


225

El valor Z obtenido debe ser contrastado con el valor Z para-0,857 < 1,96 se debe aceptar la H0 que plantea

la igualdad de medias entre los dos grupos.

2. PRUEBA DE RANGOS DE WILCOXON


Esta prueba se utiliza para comparar dos medias de lamisma muestra y determinar si la diferencia entre ambas esestadísticamente significativa (no se debe al azar). La variabledependiente debe ser de nivel ordinal.

Ejemplo 2

Un investigador evaluó los niveles de confianza de 6 jugadoresde fútbol reservas antes y después de la aplicación de unprograma psicológico orientado a la mejora de la autopercepción. El nivel de confianza se midió en una escala de 1=bajo, 2=medioy 3=alto. Los resultados obtenidos fueron los siguientes:

Medición 1 Medición 21 22 31 23 32 31 3

Ahora quiere saber si existen efectos de dicho programa y porende una mejora en la confianza de los jugadores reservas.


226

Paso 1Obtener la diferencia entre la primera y segunda medición decada sujeto. Luego asignar un rango a cada puntaje obtenido dela misma forma que en la prueba U de Mann-Whitney (no sedeben considerar las diferencias de cero).

Medición 1 Medición 2 Diferencia1 2 -12 3 -11 2 -13 3 02 3 -11 3 -2

Valor Orden Rango-1 1-1 2 (1 + 2 + 3 + 4) / 4 = 2,5-1 3 -1 4-2 5 5 / 1 = 5

Medición 1 Medición 2 Diferencia Rangospositivos

Rangosnegativos

1 2 -1 2,52 3 -1 2,51 2 -1 2,53 3 0 Empate 2 3 -1 2,51 3 -2 5

Por cada empate es necesario restar un sujeto al n del grupo.


227

Paso 2La suma de rangos con menor valor debe ser contrastado con losvalores críticos de W (Anexo 9) con el número de sujetos

Luego se debe aplicar la siguiente regla dedecisión:

Si el valor W obtenido es menor o igual al valor de la tabla devalores críticos de W se debe rechazar H0.

Si el valor W obtenido es mayor al valor de la tabla de valorescríticos de W se debe aceptar H0.

En el ejemplo 2 con 0 rangos positivos y un n de 6 – 1= 5 seobtiene un valor crítico de W de Cero. Por lo tanto 0 = 0 concluimosque se debe rechazar H0 y por lo tanto, existen diferencias entre laprimera y segunda medición en los jugadores reservas de fútbol, aumentando sus niveles de confianza.

Si el grupo tiene más de 25 casos no es posible utilizar latabla de Wilcoxon, entonces el valor W debe convertirse enpuntuación Z con la siguiente fórmula:

ZT = W – T (fórmula 85) ST

W = valor estadístico de WilcoxonT = Media de la T de Wilcoxon

ST = Desviación estándar de la T de Wilcoxon

El valor T se calcula con la siguiente fórmula:

T = n(n + 1) (fórmula 86) 4n = tamaño de la muestra

El valor ST se calcula con la siguiente fórmula:


228

ST = n(n + 1)(2n + 1) (fórmula 87) 24

Reemplazamos en la fórmula 86 y 87:

T = [6*(6 + 1)] / 4 = (6*7) / 4 = 42 / 4 = 10,5

ST = 6*(6 + 1)(2*6 + 1) 24

= (6*7)*(12 + 1) 24

= (42*13) / 24

= 546 / 24

= 22,75 = 4,770

Ahora con los valores de T y ST reemplazamos en la fórmula

85:

ZT = (0 – 10,5) / 4,770 = -10,5 / 4,770 = -2,201

El valor Z obtenido debe ser contrastado con el valor Z para0 que plantea

la igualdad de medias entre las dos mediciones.


229

3. PRUEBA DE CHI-CUADRADO (X2)

NIVEL DE MEDICIÓN: NOMINAL

Esta prueba se utiliza para comparar dos o más gruposindependientes de proporciones organizadas en una tabla decontingencia y determinar si las diferencias son estadísticamentesignificativas (no se debe al azar). La variable dependiente debe serde nivel nominal.

Ejemplo 3

Un investigador evaluó los estilos de enseñanza de profesoresde educación física clasificándolos en tradicionales, que fomentala participación del alumno y que implica cognoscitivamente alalumno. Ahora se desea conocer si existen diferencias en lapreferencia de cada estilo de enseñanza entre profesoreshombres y mujeres.

Paso 1Organizar una tabla de contingencia donde en la columnas serepresentan los grupos y en las fila las categorías. Luego sumarlos totales marginales por columnas y filas.

Mujeres Hombres TotalTradicionales 2 5 7Participación alumno 5 2 7Cognición alumno 3 2 5Total 10 9 N = 19

Paso 2Obtener la frecuencia esperada (fe) para cada valor con lasiguiente fórmula:


230

fe = X1 * X2 (fórmula 88) N

X1 = valor total de la filaX2 = valor total de la columnaN = número de sujetos


fe1 = (7*10) / 19 = 3,68fe2 = (7*10) / 19 = 3,68fe3 = (5*10) / 19 = 2,63fe4 = (7*9) / 19 = 3,32fe5 = (7*9) / 19 = 3,32fe6 = (5*9) / 19 = 2,37

Mujeres Hombres TotalTradicionales 2 (3,68) 5 (3,32) 7Participación alumno 5 (3,68) 2 (3,32) 7Cognición alumno 3 (2,63) 2 (2,37) 5Total 10 9 N = 19

Paso 3Calcular el valor de X2 con la siguiente fórmula:

X2 = o – fe)2 (fórmula 89) fe

fo = frecuencia observadafe = frecuencia esperada



231

X2 = (2–3,68)2+(5–3,68)2+(3–2,63)2+(5–3,32)2+(2–3,32)2+(2–2,37)2

3,68 3,68 2,63 3,32 3,32 2,37 = (-1,68)2 + (1,32)2 + (0,37)2 + (1,68)2 + (-1,32)2 + (-0,37)2

3,68 3,68 2,63 3,32 3,32 2,37

= (2,82/3,68)+(1,74/3,68)+(0,14/2,63)+(2,82/3,32)+(1,74/3,32)+ (0,14/2,37)

= 0,77 + 0,47 + 0,05 + 0,85 + 0,52 + 0,06 = 2,72

Paso 4Calcular los grados de libertad de X2 con la siguiente fórmula:

gl = (f – 1)(c – 1) (fórmula 90)

f = número de filasc = número de columnas


gl = (3 – 1)*(2 – 1) = 2*1 = 2

El valor X2 fue de 2,72 ahora se debe encontrar el valor críticode X2 (Anexo 5), donde debemos ubicar los gl (en este caso 2) y unnivel de confianza de 0,05.

Con los datos del ejemplo 3 el valor X2 de la tabla es 5,991. Ahora debemos seguir la regla de decisión:

Si el valor X2 calculado es menor al valor X2 de la tabla sedebe aceptar la H0.


232

Si el valor X2 calculado es igual o mayor al valor X2 de latabla se debe rechazar la H0.

2,72 < 5,991 por lo tanto se debe aceptar H0 y podemos decirque no existen diferencias entre los grupos.

Por lo anterior, es que el investigador puede concluir que losprofesores de educación física hombres y mujeres no poseendiferentes estilos de enseñanza.

3.1 Prueba de Chi cuadrado 2x2

Esta prueba se utiliza para comparar dos gruposindependientes de proporciones organizadas en una tabla decontingencia de 2 X 2 (dos columnas y dos filas) y determinar silas diferencias son estadísticamente significativas (no se debe alazar). La variable dependiente debe ser de nivel nominal.

Ejemplo 4

Un investigador evaluó si la actividad física es un factor protectorpara no fumar. Ahora se desea conocer si efectivamente laspersonas que realizan actividad física no tienen el hábito defumar y las que personas que no realizan actividad física fuman.



233

Fuman No fuman TotalPractican act. física 3 8 11No practican act. física 6 2 8Total 9 10 N = 19

A, B, C y D son las frecuencias observadas.

A B A+BC D C+D

A+C A+B N

Paso 2Calcular el valor de X2 con la siguiente fórmula:

X2 = N [(AD – BC) – (N/2)]2 (fórmula 91) (A+B) (C+D) (A+C) (B+D)

En el ejemplo 4 reemplazamos en la fórmula 91:

X2 = 19*[((3*2) – (8*6)) – (19/2)]2

(3+8)*(6+2)*(3+6)*(8+2)

= 19*[(6 – 48) – 9,5]2 = 19*[(-42) – 9,5]2

11*8*9*10 7920 = 19* (-51,5)2 = 19*2652,25 7920 7920

= 50392,75 = 6,36 7920

El valor X2 fue de 6,36 ahora se debe encontrar el valor críticode X2 (Anexo 5), donde debemos ubicar siempre 1 gl y un nivel deconfianza de 0,05.


234


Si el valor X2 calculado es menor al valor X2 de la tabla sedebe aceptar la H0.Si el valor X2 calculado es igual o mayor al valor X2 de latabla se debe rechazar la H0.

6,36 > 3,841 por lo tanto se debe rechazar H0 y podemosdecir que existen diferencias entre los grupos.

Por lo anterior, es que el investigador puede concluir que laspersonas que realizan actividad física tienen menos tendencia afumar que las personas que no realizan actividad física.

4. PRUEBA DE McNEMAR


Esta prueba se utiliza para comparar dos muestrasrelacionadas (el mismo grupo antes y después) pero cuando lavariable dependiente es dicotómica y determinar si lasdiferencias son estadísticamente significativas (no se debe al azar). La variable dependiente debe ser de nivel nominal.

Ejemplo 5

Un investigador quiere saber si una charla de beneficios de laactividad física pueden incentivar a un grupo de personas ainscribirse en un gimnasio. Para ello se valuó a los sujetos antesy después de la charla. Ahora se desea conocer si tuvo efecto lacharla aplicada.


235

Paso 1Organizar una tabla donde: La celdilla A (cruce de asistirán al gimnasio) se ubica la cantidadde sujetos que mantienen su respuesta positiva hacia elgimnasio. En la celdilla B (cruce de asistirán y no asistirán al gimnasio) seubican los sujetos que cambian su respuesta de positiva anegativa hacia el gimnasio. La celdilla C (cruce de no asistirán y asistirán al gimnasio) seubican los sujetos que cambian su respuesta de negativa apositiva hacia el gimnasio. La celdilla D (cruce de no asistirán la gimnasio) se ubican lossujetos que mantienen su respuesta negativa hacia el gimnasio.

Después Asistirían al

gimnasioNo asistiríanal gimnasio

Antes Asistirían algimnasio

8 0

No asistirían algimnasio

5 6

Paso 2Calcular el valor X2 con la siguiente fórmula:

X2 = [(B – C) – 1]2 (fórmula 92) B + C


X2 = [(0 – 5) – 1]2

0 + 5 = (-6)2 / 5 = 36 / 5 = 7,2


236




7,2 > 3,841 por lo tanto se debe rechazar H0 y podemos decirque existen diferencias entre los grupos.

Por lo anterior, es que el investigador puede concluir que laspersonas que reciben una charla sobre los beneficios de la actividadfísica tienden a cambiar su opinión sobre la inscripción en ungimnasio.


237

IICOMPARACION DE MEDIAS DE TRES OMAS GRUPOS

1. PRUEBA DE ANALISIS DE VARIANZAUNIFACTORIAL DE RANGOS DE KRUSKAL-WALLIS


Esta prueba se utiliza para comparar tres o más grupos derangos independientes y determinar si las diferencias sonestadísticamente significativas (no se debe al azar). La variabledependiente debe ser de nivel ordinal.

Ejemplo 1

Un investigador evaluó los niveles de IMC de estudiantes deprimero, segundo y tercero básico de un colegio de Santiago. ElIMC lo clasifico en 1=bajo-peso, 2=normal, 3=sobrepeso y4=obeso. Los resultados obtenidos fueron los siguientes:

1° básico 2° básico 3° básico2 1 43 2 32 3 42 2 23 3 42 4

n = 6 n = 6 n = 5


238

Ahora se desea conocer si existen diferencias entre los trescursos.

Paso 1Asignar un rango a cada puntaje obtenido tal como se explicó enla prueba U de Mann-Whitney.

Valor Orden Rango1 1 1 / 1 = 12 2 2 3 2 4 (2+3+4+5+6+7+8) / 7 = 52 5 2 62 7 2 8 3 93 10 3 11 (9+10+11+12+13) / 5 = 113 123 13 4 14 4 15 (14+15+16+17) / 4 = 15,54 16 4 17

Paso 2Calcular la suma ( x) y media ( Rx) de rangos de cada grupo:


239

X1 X2 X3 R1 R2 R3

2 1 4 5 1 15,53 2 3 11 5 112 3 4 5 11 15,52 2 2 5 5 53 3 4 11 11 15,52 4 5 15,5

n = 6 n = 6 n = 5 42 48,5 62,5N = 17 R1 = 7,00 R2 = 8,08 R3 = 12,50

Paso 3Se consideran los casos con las mismas puntuaciones comoempates y el número de casos como valor t. Por ejemplo, en latabla anterior hay 7 casos que obtuvieron una puntuación de 2por lo tanto el valor t de 2 puntos es 7.

2 (R.5) 3 (R.11) 4 (R.15,5)t 7 5 4 t3 343 125 64T = t3 – t 336 120 60 516

Paso 4Calcular el valor de Kruskal-Wallis (KW) con la fórmula 93 si nohay empates y con la 94 si existen empates:

KW = 12 R)2 – 3(N + 1) (fórmula 93) N(N + 1)

N = número total de casosn = número de casos de cada grupo

R = media de rangos de cada grupo


240

KW = 12 R)2 – 3(N + 1) (fórmula 94) N(N + 1)

1 – N3 – N

N = número total de casosn = número de casos de cada grupo

R = media de rangos de cada grupoT = número de empates en cada conjunto de rangos

Como en el ejemplo 1 existen empates en los rangosutilizamos la fórmula 94:

KW = 12 [(6*(7,00)2) + (6*(8,08)2) + (5*(12,50)2)] – 3*(17+1) 17(17+1) 1 – [516 / ((17)3 – 17)

= 12 [(6*49,00) + (6*65,29) + (5*156,25)] – 3*18 17*18 1 – [516 / (4913 – 17)]

= (12 / 306)*[294 + 391,74 + 781,25] – 54 1 – (516 / 4896)

= (0,039 * 1466,99) – 54 1- 0,105

= (57,21 – 54) / 0,895 = 3,21 / 0,895 = 3,587


241

El valor KW fue de 3,587 ahora se debe encontrar el valorcrítico de KW (Anexo 10), donde debemos ubicar el número desujetos de cada grupo y un nivel de confianza de 0,05.

Si la cantidad de sujetos de un grupo sobrepasa 5 casos o secomparan más de tres grupos se debe utilizar la tabla de valorescríticos de X2 (Anexo 5). Aquí es necesario determinar los gl queequivalen al número de grupos menos 1. Ahora debemos seguir laregla de decisión:

Si el valor KW o X2 calculado es menor al valor KW o X2 dela tabla se debe aceptar la H0.Si el valor KW o X2 calculado es igual o mayor al valor KW oX2 de la tabla se debe rechazar la H0.

3,586 < 5,991 (X2 por lo tanto se debeaceptar H0 y podemos decir que no existen diferencias entre losgrupos.

Por lo anterior, es que el investigador puede concluir que elIMC de los estudiantes de primer, segundo y tercer año básico deun colegio de Santiago es igual.

1.1 Comparaciones múltiples

Cuando obtenemos una diferencia significativa en la pruebaKW es necesario determinar entre que par de grupos existen dichasdiferencias.

Paso 1Calcular la diferencia de las medias de los rangos de cadagrupo.

R1 – R2 = 7,00 – 8,08 = -1,08 = 1,08R1 – R3 = 7,00 – 12,50 = -5,5 = 5,5R2 – R3 = 8,08 – 12,50 = -4,42 = 4,42


242

Paso 2Calcular el valor crítico de la diferencia entre cada par de gruposcon la siguiente fórmula:

Z -1) N(N + 1) 1 + 1 (fórmula 95) 12 n1 n2

Z -1) = valor Z para el número de comparaciones correspondiente. N = Total de casos de todos los gruposn1 = número de casos del primer grupon2 = número de casos del segundo grupo

Valores críticos de Z para el número de comparaciones múltiples

Número decomparaciones

1 1,9602 2,2413 2,3944 2,4985 2,5766 2,638

Ahora con el ejemplo 1 reemplazamos en la fórmula 95 con unZ para tres comparaciones:

R1 – R2 = 2,394 * [(17*(17+1)) / 12]*[(1/6) + (1/6)] = 2,394 * [(17*18)/12]*[0,167 + 0,167] = 2,394 * [(306/12)*(0,334)]

= 2,394 * (25,5*0,334)


243

= 2,394 * 8,517

= 2,394 * 2,92 = 6,99

XR1 – XR3 = 2,394 * [(17*(17+1)) / 12]*[(1/6) + (1/5)] = 2,394 * [(17*18)/12]*[0,167 + 0,2] = 2,394 * [(306/12)*(0,367)]

= 2,394 * (25,5*0,367)

= 2,394 * 9,359

= 2,394 * 3,06 = 7,33

Para las comparaciones de los grupos 1 y 3 y de los grupos 2y 3 utilizamos el mismo valor crítico ya que en ambos un grupoposee 6 casos y el otro 5.

Como se puede observar ninguna diferencia entre par degrupos (G1 – G2 =1,08; G1 – G3 =5,5 y G2 – G3= 4,42) es mayorque los valores críticos obtenidos al comparar los pares (G1 – G2 =6,99; G1 – G3 = 7,33 y G2 – G3 = 7,33). Por lo tanto, es posibleasumir que no existen diferencias entre cada par comparado.

2. PRUEBA DE VARIANZA POR RANGOS DE FRIEDMAN


Esta prueba se utiliza para comparar tres o más grupos derangos relacionados y determinar si las diferencias son estadistí-


244

camente significativas (no se debe al azar). Esta pruebacorresponde a un análisis de varianza de clasificaciones por rangos.La variable dependiente debe ser de nivel ordinal.

Ejemplo 2

Un profesor evaluó los niveles de destreza técnica en laejecución de una voltereta en estudiantes de primer año medioen marzo, julio y octubre. Los niveles se clasificaron en 1=mal, 2=medio, 3=bien y 4=sobresaliente. Los resultados fueron lossiguientes:

Sujetos Marzo Julio Octubre1 1 2 32 2 3 43 1 1 24 1 2 45 3 3 4

Ahora se desea conocer si existen diferencias entre las tresmediciones.

Paso 1Asignar un rango a cada puntaje. Se ordenan las puntuaciones demenor a mayor en cada sujeto. Como tenemos tres mediciones elrango menor será 1 y el mayor 3. Cuando dos mediciones seaniguales les corresponde la media de los rangos. Por ejemplo, elsujeto 1 posee tres valores diferentes, por lo tanto, sus rangosson 1, 2 y 3. Pero el sujeto 3 posee valores de 1, 1 y 2, por lotanto, el rango de los dos primeros valores corresponde a la sumadel orden dividido en dos ((1 + 2)/2 = 3/2 = 1,5).


245

Sujetos Marzo Julio Octubre1 1 2 3 Valor

1 2 3 Orden1 2 3 Rango

2 2 3 4 Valor1 2 3 Orden1 2 3 Rango

3 1 1 2 Valor1 2 3 Orden

1,5 1,5 3 Rango4 1 2 4 Valor

1 2 3 Orden1 2 3 Rango

5 3 3 4 Valor1 2 3 Orden

1,5 1,5 3 Rango

Paso 2Calcular la suma de rangos de cada grupo ( x):

X1 X2 X3 R1 R2 R3

1 2 3 1 2 3 2 3 4 1 2 31 1 2 1,5 1,5 3 1 2 4 1 2 3 3 3 4 1,5 1,5 3

N = 5 2 = 36 2 = 81 2 = 225 2) = 342

Paso 3Se consideran los casos con las mismas puntuaciones en cadasujeto como empates y el número de casos como valor t. Porejemplo, en la tabla anterior el caso 3 posee dos puntuacionesde 1,5 por lo tanto, el valor t de 1,5 puntos en ese caso es de 2.


246

Los rangos que aparecen solo una vez en cada sujeto recibenun valor t de 1.

Caso 3(1,5)

Caso 5(1,5)

Los otros 11rangos

t 2 2 1t3 8 8 1 3 = 27

La suma de t3 es igual a (8+8)+(11*1) lo que equivale a 27.

Paso 4Calcular el valor de Friedman (Fr) con la fórmula 96 si no hayempates y con la 97 si existen rangos empatados:

Fr = 12 2) – 3N(k + 1) (fórmula 96) Nk(k + 1)

N = número total de casosK = número de mediciones

2 = suma de rangos de cada medición al cuadrado

Fr = 12 2) – 3N2 k(k+1)2 (fórmula 97) Nk(k+1) + Nk – 3

(k – 1)

N = número total de casosk = número de mediciones

2 = suma de rangos de cada medición al cuadradot = número de empates de cada sujeto



247

Fr = [12*(342)] – 3*(52)*3*(3+1)2

(5*3)*(3+1) + [((5*3) – 27) / (3 – 1)]

= 4104 – [(3*25)*(3*16) (15*4) + [(15 – 27) / 2]

= 4104 – (75*48) 60 + (-12/2)

= (4104 – 3600) / 60 + (-6) = 504 / 54 = 9,33

El valor Fr fue de 9,33 ahora se debe encontrar el valor críticode Fr (Anexo 11), donde debemos ubicar el número de mediciones(k) y el número de sujetos (N) y un nivel de confianza de 0,05. Ahora debemos seguir la regla de decisión:

Si el valor Fr calculado es menor al valor Fr de la tabla sedebe aceptar la H0.Si el valor Fr calculado es igual o mayor al valor Fr de latabla se debe rechazar la H0.

9,33 > 6,40 (Fr k = 3 y N= 5) por lo tanto se deberechazar H0 y podemos decir que existen diferencias entre lasdiversas mediciones.

Por lo anterior, es que el profesor puede concluir que ladestreza técnica en la ejecución de la voltereta en estudiante deprimer año medio mejoró entre los meses de marzo, julio y octubre.

2.1 Comparaciones múltiples

Cuando obtenemos una diferencia significativa en la pruebade Friedman es necesario determinar entre que par de gruposexisten dichas diferencias.


248

Paso 1Calcular la diferencia de las sumas de los rangos entre cadamedición.

1 – 2 = 6,0 – 9,0 = -3,0 = 3,01 – 3 = 6,0 – 15,0 = -9,0 = 9,02 – 3 = 9,0 – 15,0 = -6,0 = 6,0

Paso 2Calcular el valor crítico de la diferencia entre cada par de gruposcon la siguiente fórmula:

Z /k(k-1) Nk(k + 1) (fórmula 98) 6

Z -1) = valor Z para el número de comparaciones correspondiente. N = Total de casos de todos los gruposk = número de mediciones

Valores críticos de Z para el número de comparaciones múltiples

Número decomparaciones

1 1,9602 2,2413 2,3944 2,4985 2,5766 2,638

Ahora con el ejemplo 2 reemplazamos en la fórmula 98 con unZ para tres comparaciones:

1 – 2 = 2,394 * [(5*3)*(3+1)] / 6


249

= 2,394 * (15*4) / 6 = 2,394 * 60/ 6

= 2,394 * 10

= 2,394 * 3,162 = 7,569

Si el valor de las diferencias calculadas es menor al valorcrítico se acepta H0. Si el valor de las diferencias calculadas es igual o mayor al valor crítico se rechaza H0.

Como se puede observar la medición 1 y 2 no presentadiferencias significativas (3,0 < 7,569) de igual forma que lamedición 2 y 3 (6,0 < 7,569). En cambio sí hay diferencias entre lamedición 1 y 3 (9,0 > 7,569). Por lo tanto, es posible asumir queexisten cambios entre la medición realizada en marzo y la realizadaen octubre.

3. PRUEBA Q DE COCHRAN


Esta prueba se utiliza para comparar tres o más grupos derangos relacionados con variable dependiente dicotómica ydeterminar si las diferencias son estadísticamente significativas (nose debe al azar). La variable dependiente debe ser de nivel nominal.

Ejemplo 3

Un entrenador evaluó si un grupo de asistentes a un clubdeportivo seguía asistiendo a los entrenamientos pese a la


250

extensión del programa. Las mediciones se realizaron la cuarta, la octava y la decimosegunda semana. Los niveles seclasificaron en 0=no asiste y 1=asiste. Ahora se desea conocer siexisten diferencias entre las tres mediciones.

Paso 1Contar los aciertos por sujeto y elevarlos al cuadrado (L2). Contarlos aciertos por medición y elevarlos al cuadrado (G2).

X1 X2 X3 L L2

1 1 0 2 41 0 0 1 11 1 1 3 91 1 0 2 41 0 0 1 11 1 1 3 91 0 0 1 11 1 0 2 41 1 1 3 9

G1= 9 G2= 6 G3= 3 2 = 42

G12 = 81 G22 = 36 G32 = 9 2 = 126

Paso 2Calcular el valor Q con la siguiente fórmula:

Q = (k – 1)[k 2 – ( 2] (fórmula 99) k – 2

L = número de aciertos por sujetoG = número de aciertos por mediciónk = número de mediciones


251


Q = (3 – 1)*[(3*126) – (18)2] (3*18) – 42

= 2*(378 – 324) 54 – 42

= (2*54) / 12 = 108 / 12 = 9

El valor Q fue de 9 ahora se debe encontrar el valor crítico deX2 (Anexo 5), donde debemos ubicar los gl (k – 1) y un nivel deconfianza de 0,05. Ahora debemos seguir la regla de decisión:

Si el valor Q calculado es menor al valor X2 de la tabla sedebe aceptar la H0.Si el valor Q calculado es igual o mayor al valor X2 de latabla se debe rechazar la H0.

9 > 5,991 (X2 – 1 = 2) por lo tanto se deberechazar H0 y podemos decir que existen diferencias entre lasdiversas mediciones.

Por lo anterior, es que el entrenador puede concluir que losasistentes a un entrenamiento de larga duración disminuyen amedida que se progresa en la programa, es decir, existen muchosmás participantes al comienzo del programa que a ladecimosegunda semana.


252


253

IIIASOCIACIONES NO PARAMETRICAS

1. COEFICIENTE DE CORRELACION DE SPEARMANDE RANGOS ORDENADOS


Esta prueba se utiliza para determinar si existe una relaciónlineal entre dos variables y determinar si esa relación esestadísticamente significativa (no se debe al azar). Al menos una delas variables debe ser de nivel ordinal.

Ejemplo 1

Un investigador evaluó los niveles de estrés y la asistencia a unprograma de actividad física de un grupo de trabajadores de unaempresa. El estrés se clasifico en 1= bajo, 2=medio y 3=alto. Porsu parte, la asistencia al programa de actividad física se clasificoen 1=casi nunca, 2=ocasionalmente, 3=regularmente y 4= casisiempre. Los resultados fueron los siguientes:

Sujeto Estrés Asistencia Sujeto Estrés Asistencia1 1 4 6 1 32 3 1 7 3 23 1 4 8 2 24 2 4 9 2 35 2 3 10 2 3


254

Ahora quiere saber si existe relación significativa entre losniveles de estrés y la asistencia al programa, es decir, si lostrabajadores que más asisten al programa de actividad física sonlos mismos que tienen menores niveles de estrés.

Paso 1Asignar un rango a cada puntaje obtenido tal como se explicó enla prueba U de Mann-Whitney.

Variable EstrésValor Orden Rango

1 1 1 2 (1+2+3) / 3 = 21 3 2 42 5 2 6 (4+5+6+7+8) / 5 = 62 72 8 3 9 (9+10) / 2 = 9,53 10

Variable AsistenciaValor Orden Rango

1 1 1 / 1 = 12 22 3 (2+3) / 2 = 2,53 4 3 5 3 6 (4+5+6+7) / 4 = 5,53 74 8 4 9 (8+9+10) / 3 = 94 10


255

Paso 2Calcular la diferencia de rangos de Rx y Ry y luego elevar esasdiferencias al cuadrado.

X Y Rx Ry D D2

1 4 2 9 -7 493 1 9,5 1 8,5 72,251 4 2 9 -7 492 4 6 9 -3 92 3 6 5,5 0,5 0,251 3 2 5,5 -3,5 12,253 2 9,5 2,5 7 492 2 6 2,5 3,5 12,252 3 6 5,5 0,5 0,252 3 6 5,5 0,5 0,25

N = 10 ,5

Paso 3Se consideran los casos con las mismas puntuaciones comoempates y el número de casos como valor t. Por ejemplo, en latabla anterior hay 5 casos que obtuvieron una puntuación de 2puntos en X por lo tanto el valor t de 2 puntos es 5.

X 1 (2) 2 (6) 3 (9,5) t 3 5 2 t3 27 125 8 T = t3 – t 24 120 6 150

Y 2 (2,5) 3 (5,5) 4 (9)t 2 4 3 t3 8 64 27 T = t3 – t 6 60 24 90


256

Paso 4Calcular la correlación de Spearman (rs) con la fórmula 100cuando no hay rangos empatados y la fórmula 101 cuando si lohay:

rs = 1 – 6 2 (fórmula 100) N3 – N

N = número de sujetosD2 = diferencia entre los rangos de X e Y elevados al cuadrado

rs = (N3 – N) – 6* 2 – (Tx + Ty) (fórmula 101) 2

(N3 – N)2 – (Tx + Ty)*(N3 – N)+(Tx*Ty)

N = número de sujetosD2 = diferencia entre los rangos de X e Y elevados al cuadradoT = suma de las diferencias de t3 menos t

Ahora con el ejemplo 1 reemplazamos en la fórmula 101:

rs = (103 – 10) – 6*253,5 – (150 + 90) 2 (103 – 10)2 – (150 + 90)*(103 – 10)+(150*90)

= (1000 – 10) – 1521 – (240 / 2) (1000 – 10)2 – (240)*(1000 – 10)+(13500)

= 990 – 1521 – 120 9902 – (240*990)+13500

= -651

980100 – (237600)+13500


257

= -651 / 756000

= -651 / 869,48= -0,749

El valor rs fue de -0,749 ahora se debe encontrar el valorcrítico de Spearman (Anexo 12), donde debemos ubicar el númerode casos (N) y un nivel de confianza de 0,05. Ahora debemos seguirla regla de decisión:

Si el valor rs calculado es menor al valor rs de la tabla sedebe aceptar la H0.Si el valor rs calculado es igual o mayor al valor rs de la tablase debe rechazar la H0.

-0,790 > 0,648 (rs = 10) por lo tanto se deberechazar H0 y podemos decir que existe relación lineal entre lasdiversas mediciones.

Por lo anterior, es que el investigador puede concluir queexiste relación entre los niveles de estrés y la asistencia a unprograma de actividad física. Además la correlación es alta ynegativa (-0,790), es decir, que a más practica física menoresniveles de estrés.

2. COEFICIENTE DE CORRELACION PHI


Esta prueba se utiliza para determinar si existe una relaciónlineal entre dos variables dicotómicas y determinar si esarelación es estadísticamente significativa (no se debe al azar). Ambas variables deben ser de nivel nominal.

Ejemplo 2

Un investigador evaluó la práctica de actividad física de padres ehijos. Ahora quiere saber si existe relación significativa entre la


258

práctica de los padres y la práctica de los hijos, es decir, si loshijos de padres que realizan actividad física también la realizanen forma regular.


Padre Practica

act. físicaNo practicaact. física

Total

Hijo Practica act. física 8 3 11No practica act. física 2 7 9Total 10 10 N = 20

A, B, C y D son las frecuencias observadas.

A B A+BC D C+D

A+C A+B N

Paso 2Calcular la correlación de Phi (rø) con la siguiente fórmula:

rø = |BC – AD| (fórmula 102) (A+B) (C+D) (A+C) (B+D)


rø = |(3*2) – (8*7)| (8+3) (2+7) (8+2) (3+7)


259

= |6 – 56| 11* 9* 10* 10

= |-50| / 9900 = 50 / 99,50 = 0,503

Paso 3La correlación de Phi está relacionada con la prueba X2 de 2x2, por lo tanto, es necesario calcularla con la fórmula 91.

X2 = 20*[((8*7) – (3*2)) – (20/2)]2

(8+3)*(2+7)*(8+2)*(3+7)

= 20*[(56 – 6) – 10]2 11*9*10*10 = 20*[50 – 10]2 9900 = 20* 402 9900

= 20*1600 9900

= 32000 9900 = 3,23



260



3,23 < 3,841 por lo tanto se debe aceptar H0 y podemos decirque no existen relación entre los grupos.

Por lo anterior, es que el investigador puede concluir que lapráctica de actividad física de los hijos no está influenciada por lapráctica de actividad física de los padres.


261

CAPÍTULO 9

ANALISIS ESTADISTICOS EN SPSS

I. Estadística descriptiva en SPSS

II. Estadística paramétrica en SPSS

III. Estadística no paramétrica en SPSS


262


263

IESTADISTICA DESCRIPTIVA EN SPSS

En la actualidad existen muchos programas estadísticos quepueden ayudarnos a realizar los cálculos necesarios para nuestrasinvestigaciones. A continuación se utilizará el programa SPSS(Statistical Package for the Social Sciences) para trabajar losanálisis descriptivos.

Tras instalar el SPSS en nuestro computador abrimos elprograma mostrando una pantalla como la figura siguiente:

Figura 39. Pantalla inicial del SPSS 16.0.

Luego debemos ingresar los descriptores de las variables queutilizaremos presionando Variable View en la barra inferior, conesto aparece una pantalla como la figura 40.


264

Figura 40. Descripción de las variables en el SPSS.

En la primera columna colocamos los nombres de lasvariables. En la columna Tipo aparece el concepto de numeric (envariables numéricas) o string (en variables categóricas con nombresen lugar de números). En la columna decimales podemos modificarla cantidad de decimales de nuestros valores. Si la variable es categórica debemos describir dichascategorías presionando en la columna value dos veces none, así aparecerá una pantalla como la siguiente:

Figura 41. Valores de las variables.


265

En el recuadro value colocamos el valor asignado a cadagrado de la categoría. Por ejemplo, si la variable es sexo, un valorserá 1 para femenino y 2 para masculino. En el recuadro de labelescribimos el nombre de la categoría.

Una vez introducidos ambos valores presionamos Add paragrabar los datos y comenzamos a realizar lo mismo nuevamentecon la siguiente categoría de la variable.

Recuerde que las variables numéricas no necesitan completaresta información.

Una vez completada la información de todas las variablesvolvemos a Data View y podemos escribir los valores para cadavariable hasta completar el traspaso de datos.

Figura 42. Pantalla con los datos en el SPSS.

Para realizar todos los análisis estadísticos debemos ir aAnalyze (analizar) que se ubica en la barra superior y sedesplegará el índice general de análisis. Cuando seleccionamosuno de estos análisis se desplegará un nuevo índice con los análisisparticulares para cada prueba.


266

Figura 43. Desplegar los analisis estadisticos del SPSS.

1. TABLA DE FRECUENCIA Y GRAFICOS

En el paquete estadístico SPSS vamos en el menú a:

>Analizar >Estadísticos descriptivos >Frecuencia

Figura 44. Pantalla de frecuencia.

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos la variable categórica y la llevamos al cuadro


267

derecho (variables). Luego presionamos gráficos y marcamosgráfico de barra, de torta o histograma (Fig. 45). Tras estopresionamos continuar para volver a la pantalla de frecuencia ypresionamos OK.

Figura 45. Pantalla gráficos.

La hoja de cálculos del programa nos entrega una tabla comola siguiente:

Frecuencia PorcentajePorcentaje

válidoPorcentajeacumulado

Valido Bajo peso 2 3,8 3,8 3,8

Normal 25 47,2 47,2 50,9

Obesidad I 7 13,2 13,2 64,2

Obesidad II 2 3,8 3,8 67,9

Obesidad III 1 1,9 1,9 69,8

Sobrepeso 16 30,2 30,2 100,0

Total 53 100,0 100,0

En la tabla observamos el nombre de las categorías de lavariable, la frecuencia (número de sujetos en la categoría), elporcentaje o frecuencia relativa, el porcentaje válido (porcentaje que


268

se ajusta cuando existen casos perdidos) y el porcentaje acumuladoo frecuencia acumulada.

La hoja de cálculos del programa también nos entregará elgráfico que se ha escogido.

2. MEDIDAS DE TENDENCIA CENTRAL, DISPERSION, POSICION Y FORMA.


>Analizar >Estadísticos descriptivos >Frecuencia

En la pantalla de frecuencia (Fig. 44) presionamosestadísticos y marcamos las medidas de tendencia central: media, mediana y moda; también podemos marcar desviación estándar, varianza, rango, mínimo y máximo; en la sección valorespercentiles podemos marcar cuartiles y en punto de corte para grupos iguales indicamos el número de percentiles quedeseamos (en este caso 10 para obtener los deciles). Finalmente, en la sección distribución marcamos asimetría y curtosis.

Figura 46. Pantalla estadísticos.


269

Una vez marcados los estadísticos que deseamospresionamos continuar para volver a la pantalla de frecuencia ypresionamos OK.


Estadísticos

N Válidos 40

Perdidos 0Media 1,6877Mediana 1,7000Moda 1,70Desv. típ. ,12336Varianza ,015Asimetría -,043Error típ. de asimetría ,414Curtosis -1,417Error típ. de curtosis ,809Rango ,80Mínimo 1,00Máximo 1,80Percentiles 10 91,9000

20 99,600025 102,4030 109,9040 123,8050 140,0060 154,2070 160,4075 165,2080 172,0090 181,10

En la tabla observamos la cantidad de datos válidos, lacantidad de datos perdidos, la media, la mediana, la moda, la


270

desviación estándar, la varianza, el rango de los datos, el mínimo yel máximo de los datos, el cuartil 0,25 (percentil 25), el cuartil 0,50(percentil 50) y el cuartil 0,75 (percentil 75), los deciles quecorresponden a los percentiles 10, 20, 30, etc., la asimetría, el errorestándar de la asimetría que es un valor que sirve para tipificar elvalor de la asimetría e interpretarlo como una puntuación Z, lacurtosis y el error estándar de la curtosis que es un valor que sirvepara tipificar el valor de la curtosis e interpretarlo como unapuntuación Z

3. GRAFICO DE CAJAS (BOX-PLOT)


>Gráficos >Cuadro de diálogos >Diagrama de caja

Figura 47. Diagrama de caja.

Cuando presionamos Diagrama de caja aparece una pantallacomo la figura 48. Aquí marcamos Simple si queremos graficar unavariable o Agrupación si son dos o más variables


271

Figura 48. Pantalla del gráfico de caja.

Luego presionamos Definir y los datos numéricos quedeseamos graficar los llevamos al cuadro Variable y la variablenominal al cuadro Eje de categorías. Luego presionamos OK.

Figura 49. Pantalla de definición de variables en grafico de caja.

La hoja de cálculos del programa nos entrega el diagrama decaja correspondiente.


272


273

IIESTADISTICA PARAMETRICA EN SPSS

1. PRUEBA DE NORMALIDAD KS


>Analizar >Pruebas no paramétricas >Prueba KS de una muestra

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos la variable que deseamos analizar y lallevamos al cuadro derecho (lista prueba de variables).

Por defecto aparece marcada la opción normal en el cuadroprueba de distribución. Luego presionamos OK.

Figura 50. Pantalla de prueba KS.


274


Prueba de Kolmogorov-Smirnov de una muestramotivación

N 64Parámetros normalesa Media 5,2031

Desviación Std. 2,39828Diferencias más extremas Absoluta ,114

Positiva ,114Negativa -,086

Kolmogorov-Smirnov Z ,911Sig. Asintótica (bilateral) ,377a. Prueba de distribución es normal.

En la tabla se observa el número de sujetos, la media ydesviación estándar de los datos, las diferencias más extremas alcomparar las frecuencias teóricas y las frecuencias observadas, unvalor Z de la prueba de normalidad de Kolmogorov-Smirnov y la Sig. o valor p de la prueba KS

Ahora el investigador debe contrastar el valor Z calculado conel valor crítico de Z (Anexo 1) obteniendo: 0,911 < 1,96

También debe contrastar el valor p calculado (p=0,377) siendop>0,05 se debe aceptar la hipótesis nula que plantea que la variableposee una distribución normal.

2. PRUEBA DE HOMOGENIDAD DE VARIANZAS


>Analizar >Estadísticos descriptivos >Explorar

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos la variable dependiente y la llevamos al cuadrosuperior derecho (lista dependiente). Luego tomamos la variable de


275

agrupación (grupos que queremos comparar, por ejemplo el sexo) yla llevamos al cuadro medio derecho (lista de factores).

Figura 51. Pantalla explorar.

Luego presionamos Plots (gráficos) y en el cuadro dispersiónpor nivel con prueba de Levene marcamos no transformado. Hecho esto presionamos continuar para volver a la pantalla deexplorar y presionamos OK.

Figura 52. Pantalla de gráficos en explorar.


276

La hoja de cálculos del programa nos entrega varias tablaspero la que nos interesa es la siguiente:

Prueba de homogeneidad de Varianza

Estadísticode Levene gl1 gl2 Sig.

Motricidad Basado en la media ,208 1 83 ,650

Basado en la mediana ,203 1 83 ,654

Basado en la mediana ycon gl corregidos

,203 1 80,663 ,654

Basado en la mediarecortada

,208 1 83 ,649

En la tabla se observa el estadístico de la prueba de Levene, los grados de libertad uno que corresponde al número de gruposmenos 1 (2 – 1 = 1), los grados de libertad dos que corresponde alnúmero total de sujetos de la muestra menos el número de grupos(85 – 2 = 83) y la Sig. o valor p.

Ahora el investigador debe contrastar el valor F calculado conel valor crítico de F (Anexo 3) obteniendo: 0,208 < 3,960

También debe contrastar el valor p calculado (p=0,650) siendop>0,05 se debe aceptar la hipótesis nula que plantea lahomogeneidad de las varianzas.

3. PRUEBA T DE STUDENT PARA UNA MUESTRA

En primer lugar debemos constatar que se cumplen lossupuestos para la aplicación de una prueba t para una muestra:

a) Distribución normal de la variable dependiente (con la pruebaKS)

b) Naturaleza numérica de la variable dependiente.


277


>Analizar >Comparar medias >Prueba t para una muestra

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos la variable que deseamos comparar y lallevamos al cuadro derecho (contrastar variables). Luego en valorde la prueba ingresamos la media de la población (por ejemplo, 3,8). Luego presionamos OK.

Figura 53. Pantalla de prueba t para una muestra.

La hoja de cálculos del programa nos entrega las dos tablas siguientes:

Estadísticos una muestra

N Media Desviación std. Error std. media

Socialización 65 3,0462 1,32795 ,16471

En la primera tabla se observa el número de sujetos, la mediade las puntuaciones, la desviación estándar y el error estándar de lamedia.


278

Prueba de una muestra

Valor de prueba = 3.78

t glSig.

(bilateral)Diferenciade medias

95% intervalo deconfianza para la

diferencia Lower Upper

Socialización -4,455 64 ,000 -,73385 -1,0629 -,4048

En la segunda tabla se observa el valor t de la prueba, losgrados de libertad, la Sig. o valor p, la diferencia de medias y losintervalos de confianza de la diferencia de medias.

Ahora el investigador debe contrastar el valor t calculado conel valor crítico de t (Anexo 2) obteniendo: -4,445 > 1,65

También debe contrastar el valor p calculado (p=0,000) siendop<0,05 se debe rechazar la hipótesis nula que plantea la igualdadde la media de la muestra y la población.

4. PRUEBA T DE STUDENT PARA MUESTRAS INDEPENDIENTES

En primer lugar debemos constatar que se cumplen lossupuestos para la aplicación de una prueba t:


b) Naturaleza numérica de la variable dependiente. c) Homocedasticidad (la prueba de Levene la da el mismo análisis

de prueba t para muestras independientes)


>Analizar >Comparar medias >Prueba t para muestras independientes


279

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos la variable dependiente y la llevamos al cuadrosuperior derecho (contraste de variables). Luego tomamos lavariable de agrupación (grupos que queremos comparar, porejemplo sexo) y la llevamos al cuadro inferior derecho (variable deagrupación).

Figura 54. Pantalla prueba t para muestras independientes.

Luego presionamos definir grupos y agregamos los valorescon que asignamos los sexos (en este caso 1 femenino y 2masculino). Hecho esto presionamos continuar para volver a lapantalla de prueba t para muestras independientes y presionamosOK.

Figura 55. Pantalla de definición de grupos en prueba t.


280

La hoja de cálculos del programa nos entrega dos tablascomo las siguientes:

Estadísticos de grupo

sexo N MediaDesviaciónestándar

Error estándarde la media

Motivación Femenino 40 5,1000 2,51967 ,39839

Masculino 45 5,3778 2,27924 ,33977

En la primera tabla se puede observar el número de sujeto porgrupos, la media de cada grupo, la desviación estándar de cadagrupo y el error estándar de la media de cada grupo.

Prueba de muestras independientes

En la segunda tabla se aprecia la prueba de Levene para laigualdad de varianzas:

El investigador debe contrastar el valor F calculado (0,214)con el valor crítico de F (Anexo 3) obteniendo: 0,214 < 3,960

También debe contrastar el valor p calculado (p=0,645) siendop>0,05 se debe aceptar la hipótesis nula.


281

Con todo lo anterior el investigador puede concluir que laprueba de Levene muestra homogeneidad de varianzas entre losgrupos 1 y 2 (F=0,214; p=0,645).

Si seguimos observando la tabla notaremos la existencia dedos filas de resultados la superior si las varianzas son iguales y lainferior si las varianzas son diferentes. En este caso las varianzasson iguales por lo tanto, se utilizan los valores de la fila superior

En la tabla observamos el valor t para diferencia de mediasindependientes, los grados de libertad, la Sig. bilateral o valor p, ladiferencia de medias, el error estándar de la diferencia de mediasindependientes y los intervalos de confianza de la diferencia demedias independientes.

Ahora el investigador debe contrastar el valor t calculado conel valor crítico de t (Anexo 2) obteniendo: -0,534 < 1,65

También debe contrastar el valor p calculado (p=0,595) siendop<0,05 se debe rechazar la hipótesis nula que plantea la igualdadde medias de los dos grupos.

5. PRUEBA T DE STUDENT PARA MUESTRAS RELACIONADAS

En primer lugar debemos constatar que se cumplen lossupuestos para la aplicación de una prueba t:


282


b) Naturaleza numérica de la variable dependiente.


>Analizar >Comparar medias >Prueba t para muestras relacionadas

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos las 2 mediciones que deseamos comparar(antes y después) y las llevamos al cuadro derecho (variablesrelacionadas). Luego presionamos OK.

Figura 56. Pantalla de prueba t para muestras relacionadas.

La hoja de cálculos del programa nos entrega tres tablascomo las siguientes:

Estadísticos de muestras relacionadas

Media NDesviaciónestándar

Error estándarde la media

Par 1 Medición 1 4,2857 35 2,02298 ,34195

Medición 2 6,3714 35 1,97165 ,33327


283

En la primera tabla se puede observar la media de la primeray segunda medición, el número de observaciones, la desviaciónestándar de la primera y segunda medición y el error estándar de lamedia de cada medición.

Correlaciones de muestras relacionadas

N Correlación Sig.

Par 1 Medición 1 & Medición 2 35 ,489 ,003

En la segunda tabla se observa el número de sujetos de lamuestra, la correlación entre las dos mediciones y la Sig. o valor p.

El valor p=0,003 < 0,05 por lo cual se debe rechazar H0 queestablece que no existe relación entre las mediciones. El valor r =0,489 indica una relación positiva y media entre las mediciones. Porlo tanto, tiene sentido realizar la prueba t entre las dos mediciones.

Prueba de muestras relacionadas

En la última tabla se observa la diferencia de medias de

muestras relacionadas, la desviación estándar de la diferencia demedias relacionadas, el error estándar de la diferencia de mediasrelacionadas, los intervalos de confianza de la diferencia de medias relacionadas, el valor t de muestras relacionadas, losgrados de libertad y la Sig. bilateral o valor p.

Ahora el investigador debe contrastar el valor t calculado conel valor crítico de t (Anexo 2) obteniendo: -6,108 > 2,30


284

También debe contrastar el valor p calculado (p=0,000) siendop<0,05 se debe rechazar la hipótesis nula que plantea la igualdadde medias de las dos mediciones.

6. ANALISIS DE VARIANZA DE UN FACTOR (ANOVA)

En primer lugar debemos constatar que se cumplen lossupuestos para la aplicación de una prueba ANOVA:


b) Naturaleza numérica de la variable dependiente. c) Homocedasticidad (que se puede seleccionar dentro de la

misma prueba ANOVA)d) Independencia de las variables


>Analizar >Comparar medias >ANOVA de un factor

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos la variable dependiente y la llevamos al cuadrosuperior derecho (lista dependiente). Luego tomamos nuestravariable de agrupación (grupos a comparar, por ejemplo cursos) y lallevamos al cuadro inferior derecho (factor).

Figura 57. Pantalla del ANOVA.


285

Luego presionamos opciones y marcamos Descriptivos, testde homogeneidad de varianzas, Brown-Forsythe y Welch.

Hecho esto presionamos continuar para volver a la pantallade ANOVA y presionamos OK.

Figura 58. Pantalla de opciones del ANOVA.

La hoja de cálculos del programa nos entrega tres tablascomo las siguientes:

Descriptivos

N MediaDesviaciónestándar

Errorestándar

95% Intervalo deconfianza para la

media

Mínimo MáximoLímiteinferior

Límitesuperior

5° año 32 6,4688 2,03175 ,35917 5,7362 7,2013 ,00 10,006° año 30 4,9000 1,47040 ,26846 4,3509 5,4491 2,00 8,007° año 35 2,6857 1,54865 ,26177 2,1537 3,2177 ,00 8,00Total 97 4,6186 2,31590 ,23514 4,1518 5,0853 ,00 10,00

En la primera tabla se observa la media de cada grupo, ladesviación estándar de cada grupo, el error estándar de la media de


286

cada grupo, los intervalos de confianza para la media de cadagrupo, la puntuación mínima y máxima lograda en cada grupo.

Prueba de homogeneidad de varianzas

EstadísticoLevene gl1 gl2 Sig.

,868 2 94 ,423

En la segunda tabla se observa el estadístico de Levene paraigualdad de varianza, los grados de libertad 1 (número de gruposmenos 1, por lo tanto, 3 – 1 = 2), los grados de libertad 2 (númerototal de observaciones menos el número de grupos, por lo tanto, 97– 3 = 94) y la Sig. o valor p

El investigador debe contrastar el valor F calculado con elvalor crítico de F (Anexo 3) obteniendo: 0,868 < 3,098

También debe contrastar el valor p calculado (p=0,423) siendop>0,05 se debe aceptar la hipótesis nula que plantea lahomogeneidad de varianzas entre los grupos 1, 2 y 3 (F=0,868; p=0,423).

ANOVA

Suma decuadrados gl

Cuadradosmedios F Sig.

Inter-grupos 242,675 2 121,337 41,900 ,000Intra-grupos 272,212 94 2,896Total 514,887 96

En la tercera tabla se observa la suma de cuadrados inter-grupos, la suma de cuadrados intra-grupos, la suma de cuadradostotales, los grados de libertad inter-grupos, los grados de libertadintra-grupos, los grados de libertad totales, los cuadrados mediosinter-grupos, los cuadrados medios intra-grupos, el valor F y la Sig. bilateral o valor p.

Ahora el investigador debe contrastar el valor F calculado conel valor crítico de F (Anexo 3) obteniendo: 41,900 > 3,098


287

También debe contrastar el valor p calculado (p=0,000) siendop<0,05 se debe rechazar la hipótesis nula que plantea la igualdadde medias de los tres grupos.

NOTA:

Las pruebas de Welch y Brown-Forsythe son buenasalternativas al estadístico F cuando no se pueden asumir varianzasiguales de los grupos (valor F<0,05 en la prueba de Levene).

Pruebas robustas de igualdad de mediasFlexibilidad

Estadísticoa gl1 gl2 Sig.

Welch 39,281 2 61,249 ,000Brown-Forsythe 41,894 2 85,410 ,000a. Distribución F asintótica

En la tabla se observa el estadístico de Welch, el estadísticode Brown-Forsythe, los grados de libertad 1 de ambas pruebas (n-1, 3–1=2), los grados de libertad 2 de ambas pruebas y la Sig. o valorp de ambas pruebas.

Ahora el investigador debe contrastar el valor F calculado enla prueba de Welch con el valor crítico de F (Anexo 3) obteniendo: 39,281 > 3,15

También debe contrastar el valor p calculado (p=0,000) siendop<0,05 se debe rechazar la hipótesis nula que plantea la igualdadde medias de los tres grupos.

6.1 Pruebas Post Hoc

Si la prueba de ANOVA indica que existen diferencias entretres o más grupos, resulta necesario conocer entre cuales gruposse dan esas diferencias. En el paquete estadístico SPSS cuando


288

estamos en la pantalla ANOVA de un factor (fig. 57) marcamosPost-Hoc y aparece una pantalla como la figura 59.

Marcamos Tukey si asumimos varianzas iguales o Games-Howell si no sumimos varianzas iguales. Hecho esto presionamoscontinuar para volver a la pantalla de ANOVA y presionamos OK.

Figura 59. Pantalla de Post-Hoc.

La hoja de cálculos del programa nos entrega las dos tablassiguientes si marcamos Tukey:

Comparaciones múltiples Tukey

(I)Motivación

(J)Motivación

Diferenciade medias

(I-J) Error std. Sig.

95% intervalos deconfianza

Límiteinferior

Límitesuperior

5° año 6° año 1,56875* ,43246 ,001 ,5389 2,5986

7° año 3,78304* ,41622 ,000 2,7919 4,77426° año 5° año -1,56875* ,43246 ,001 -2,5986 -,5389

7° año 2,21429* ,42340 ,000 1,2060 3,2226

7° año 5° año -3,78304* ,41622 ,000 -4,7742 -2,79196° año -2,21429* ,42340 ,000 -3,2226 -1,2060

* Diferencia de medias significativas al nivel 0,05


289

En primera la tabla se puede observar la diferencia de mediasentre cada par de grupos evaluados (que se calcula restando a lamedia del grupo 1 la media del grupo 2), el error estándar dediferencia de medias de muestras independientes, la Sig. o valor p ylos intervalos de confianza de diferencia de medias independientes.

Los valores iguales o menores de 0,05 indican que se deberechazar la H0. Por su parte, la diferencia de medias nos permiteconocer cuál de los dos grupos comparados posee una puntuaciónmayor. Si el valor es positivo el primer grupo posee un puntajemayor, por el contrario, si el valor es negativo el primer grupo poseeuna puntación menor que el segundo grupo.

Tukey HSD

Cursos N

Subconjunto para alpha =0.05

1 2 3

7° básico 35 2,68576° básico 30 4,90005° básico 32 6,4688Sig. 1,000 1,000 1,000Se muestran las medias para los grupos en lossubconjuntos homogéneos

En la segunda tabla se observa los tres grupos y el número desujetos de cada grupo y subconjuntos donde se agrupan los cursos. En este caso hay un subconjunto para cada curso por lo tanto, existen diferencias entre los tres. Si dos cursos fuesen iguales seagruparían en el mismo subconjunto y por ende serían sólo dossubconjuntos.

La hoja de cálculos del programa nos entrega la tablasiguiente si marcamos Games-Howell:


290

Comparaciones múltiples Games- Howell

(I) Cursos (J) CursosDiferencia demedias (I-J)

ErrorStd. Sig.

95% Intervalo deconfianza

Límiteinferior

Límitesuperior

5° básico 6° básico 1,56875* ,44841 ,003 ,4894 2,6481

7° básico 3,78304* ,44444 ,000 2,7139 4,8521

6° básico 5° básico -1,56875* ,44841 ,003 -2,6481 -,48947° básico 2,21429* ,37496 ,000 1,3140 3,1145

7° básico 5° básico -3,78304* ,44444 ,000 -4,8521 -2,7139

6° básico -2,21429* ,37496 ,000 -3,1145 -1,3140*. La diferencia de medias es significativa al nivel de 0,05

Esta tabla se interpreta igual que la prueba de Tukey.

7. ANOVA DE MEDIDAS REPETIDAS

En primer lugar debemos constatar que se cumplen lossupuestos para la aplicación de una prueba ANOVA de medidasrepetidas:


b) Naturaleza numérica de la variable dependiente. c) Homocedasticidad (prueba de Levene)d) Esfericidad de la matriz de varianzas-convarianzas (test de

Mauchly que lo entrega el mismo ANOVA).


>Analizar >Modelo lineal general >Medidas repetidas


291

En el cuadro superior colocamos el nombre de nuestravariable dependiente. En el cuadro de número de niveles colocamosel número de veces que medimos a la muestra (3, 4, 5, etc.) ypresionamos Add. Esto permitirá que se active el botón definir.

Figura 60. Pantalla de ANOVA de medidas repetidas.

Luego presionamos definir y en el cuadro de la izquierdaaparece la lista de nuestras variables. Tomamos en este caso lastres mediciones realizadas y las llevamos al cuadro superior derecho (lista dependiente).

Figura 61. Pantalla para definir variables en ANOVA.


292

Luego presionamos Opciones y aquí marcamos Estadísticadescriptiva. Luego presionamos Continuar para volver a lapantalla de Medidas repetidas y luego presionamos OK.

Figura 62. Pantalla de opciones en ANOVA de medidas repetidas.

La hoja de cálculos del programa nos entrega varias tablaspor defecto, pero nos interesan las siguientes:

Estadísticos descriptivos

MediaDesviaciónestándar N

Resistencia 1 3,4583 ,77903 24Resistencia 2 5,5000 ,88465 24Resistencia 3 6,2917 1,08264 24

En la primera tabla se observa la media de cada medición, ladesviación estándar y el número de sujetos medidos.


293

Cuando tenemos 3 mediciones de un grupo, poseemos 3variables, pero también podemos armar 3 pares de variables (g1 yg2; g1 y g3; g2 y g3), de manera tal que al restar las medias decada par obtenemos 3 nuevas variables. En el modelo de ANOVAde un factor de medidas repetidas se asume que las varianzas deestas tres nuevas variables son iguales, lo que equivale a decir quela matriz de varianzas-covarianzas es esférica. Para comprobaresto existen variados análisis, pero el SPSS utiliza la prueba deesfericidad de Mauchly (1940).

Test de esfericidad de Mauchlyb

Medida: MEASURE_1

Efecto Intra-sujetos

W deMauchly

Chi-cuadradoApprox. gl Sig.

Epsilona

Greenhouse-Geisser

Huynh-Feldt

Límiteinferior

resistencia ,897 2,402 2 ,301 ,906 ,979 ,500

En la segunda tabla se observa el valor W de Mauchly, unvalor X2 aproximado, los grados de libertad y un Sig. o valor p. Eneste caso p=0,301 > 0,05 por lo tanto se acepta la H0 que plantea laigualdad de varianzas entre los 3 grupos (esfericidad)

De no cumplirse este supuesto es necesario usar los análisismultivariado que se observan en la tabla siguiente o utilizar un valorcorregido de épsilon que aparece en la derecha de la tabla anterior. La tabla ofrece dos estimadores de épsilon (Greenhouse-Geisser, 1959 y Hyunh-Feldt, 1976) siendo el primero más conservador y elmás usado. También aparece un límite inferior que corresponde alvalor que adoptaría épsilon en el caso del incumplimiento delsupuesto de esfericidad. Para utilizar la tabla de valores críticos deF cuando no se cumple el supuesto es necesario corregir los gl delnumerador y denominador del ANOVA de medidas repetidasmultiplicándolo por el valor de épsilon.


294

Test Multivarianteb

Efecto Valor Fgl de la

hipótesisgl delerror Sig.

resistencia Pillai's Trace ,858 66,470a 2,000 22,000 ,000

Wilks' Lambda ,142 66,470a 2,000 22,000 ,000

Hotelling's Trace 6,043 66,470a 2,000 22,000 ,000

Roy's Largest Root

6,043 66,470a 2,000 22,000 ,000

Los valores de la tercera tabla se utilizan cuando no existeigualdad de varianza entre los grupo medidos. En la tablaobservamos cuatro estadísticos (traza de Pillai, Lambda de Wilks, traza de Hotelling y raíz mayor de Roy) que contrastan la hipótesisnula de que la media de las mediciones son iguales. Los valores Fson todos mayores que sus valores críticos y las Sig. son todasmenores de 0,05 por lo tanto se rechaza la H0 de la igualdad de lasmedias en las tres mediciones.

En caso de obtener resultados diferentes en los cuatroestadísticos se recomienda usar los valores entregados en la trazade Pillai.

Tests of Within-Subjects EffectsMeasure:MEASURE_1

Fuente

Suma decuadrados

tipo III glMedia

cuadrática F Sig. resistencia Esfericidad

asumida 102,583 2 51,292 64,202 ,000

Greenhouse-Geisser 102,583 1,813 56,596 64,202 ,000

Huynh-Feldt 102,583 1,959 52,372 64,202 ,000Lower-bound 102,583 1,000 102,583 64,202 ,000

Error(resistencia)

Esfericidadasumida 36,750 46 ,799

Greenhouse-Geisser 36,750 41,689 ,882

Huynh-Feldt 36,750 45,052 ,816Lower-bound 36,750 23,000 1,598


295

En la cuarta tabla observamos la suma de cuadrados, gl, media cuadrática, valor F y Sig. o valor p. En caso del cumplimientodel supuesto de esfericidad se emplean los valores de esfericidadasumida, donde F es mayor al valor crítico de F (Anexo 3) y p=0,000 < 0,05 por lo tanto se rechaza la H0 y se asume queexisten diferencias entre las medias de las tres mediciones.

Si no se asume esfercidad en los datos y se desea utilizar unestadístico univariado se utilizan las tres alternativas corregidas(Greenhouse-Geisser, Huynh-Feldt, Lowe-bound).

7.1 Pruebas Post Hoc

Si la prueba de ANOVA de medidas repetidas indica queexisten diferencias entre tres o más grupos, resulta necesarioconocer entre cuales grupos se dan esas diferencias. Para elloutilizamos la prueba post-hoc de Bonferroni.

En el paquete estadístico SPSS cuando estamos en lapantalla Opciones de Medidas repetidas (Fig. 63).

Figura 63. Bonferroni en ANOVA de medidas repetidas.


296

Llevamos nuestra variable dependiente del cuadro de laizquierda a la derecha. Luego marcamos Comparar efectos, lo quepermitirá desplegar el índice de ajustar intervalos de confianzadonde marcamos Bonferroni. Posteriormente presionamoscontinuar para volver a la pantalla de medidas repetidas ypresionamos OK.

El programa nos entrega unas tablas como las siguientes:

Medida: MEASURE_1

resistencia MediaError

estándar

95% Intervalo de confianza

Límite inferior Límite superior

1 3,458 ,159 3,129 3,7872 5,500 ,181 5,126 5,8743 6,292 ,221 5,835 6,749

En la primera tabla se observa la media de cada medición, elerror estándar de cada media y los intervalos de confianza de lamedia de cada grupo.

Comparaciones por paresMedida: MEASURE_1

(I)resistencia

(J)resistencia

Diferenciade medias

(I-J)Error

estándar Sig.a

Intervalo deconfianza para ladiferencia al 95%

Límiteinferior

Límitesuperior

1 2 -2,042* ,213 ,000 -2,591 -1,493

3 -2,833* ,280 ,000 -3,557 -2,1102 1 2,042* ,213 ,000 1,493 2,591

3 -,792* ,276 ,026 -1,504 -,080

3 1 2,833* ,280 ,000 2,110 3,5572 ,792* ,276 ,026 ,080 1,504

Based on estimated marginal means*. The mean difference is significant at the ,05 level. a. Adjustment for multiple comparisons: Bonferroni.


297

En la segunda tabla se observa la diferencia de medias, elerror estándar de la diferencia de medias, la Sig. o valor p y losintervalos de confianza para la diferencia de medias.

Esta tabla se interpreta igual que el estadístico de Tukey.

8. CORRELACION DE PEARSON

En primer lugar debemos constatar que se cumplen lossupuestos para la aplicación de una correlación de Pearson:

a) Distribución normal de las variables (con la prueba KS)b) Naturaleza numérica de las variables. c) Ambas variables deben ser independientes.


>Analizar >Correlación >Bivariada

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos las dos o más variables que deseamosrelacionar y las llevamos al cuadro derecho. Por defecto aparecemarcada la opción Pearson. Hecho esto presionamos OK.

Figura 64. Pantalla de correlación de Pearson.


298


Correlación

Prácticaact física

Rendimientoacadémico

Práctica de actividad física Correlación Pearson 1 ,683**

Sig. (bilateral) ,000

N 45 45

Rendimiento académico Correlación Pearson ,683** 1

Sig. (bilateral) ,000

N 45 45

** Correlación significativa al nivel 0,01(bilateral).

En la tabla se observa la correlación de Pearson, la Sig. ovalor p y el número de sujetos de la muestra.

Se debe contrastar el valor p calculado (p=0,000) siendop<0,05 se debe rechazar la hipótesis nula que plantea que no existerelación entre la variables. Además, el valor de r =0,683 lo quesignifica que la relación es positiva y alta.

9. CORRELACIONES PARCIALES

Esta prueba se utiliza para determinar si existe una relaciónlineal entre dos variables, pero controlando el posible efecto deotra variable y determinar si esa relación es estadísticamentesignificativa (no se debe al azar).

En primer lugar debemos constatar que se cumplen lossupuestos para la aplicación de una correlación Bivariada:

a) Distribución normal de las variables (con la prueba KS)b) Naturaleza numérica de las variables. c) Todas las variables deben ser independientes.


299


>Analizar >Correlación >Parcial

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos las dos variables que deseamos relacionar y lallevamos al cuadro superior derecho. Luego llevamos la variableque deseamos controlar al cuadro inferior derecho. Hecho estopresionamos OK.

Figura 65. Pantalla de correlación parcial.


Correlaciones

Variables controladas tiempos

Horas deentrenamien

to

motivación & años de entrenamiento

Tiempos Correlación 1,000 -,900

Sig. (Bilateral) . ,000

gl 0 26

Horas deentrenamiento

Correlación -,900 1,000

Sig. (Bilateral) ,000 .

gl 26 0


300

En la tabla se observa la correlación parcial entre el tiempologrado y las horas diarias de entrenamiento (r=-0,900) controlandoel efecto de la motivación y los años previos de entrenamiento, laSig. o valor p y los grados de libertad

El investigador debe utilizar la misma regla de correlación queen el coeficiente de correlación de Pearson.

También debe contrastar el valor p calculado (p=0,000) siendop<0,05 se debe rechazar la hipótesis nula que plantea que no existerelación entre las variables.

10. REGRESION LINEAL SIMPLE

En primer lugar debemos constatar que se cumplen lossupuestos para la aplicación de una regresión simple

a) Distribución normal de las variables (con la prueba KS)b) Naturaleza numérica de las variables. c) Ambas variables deben ser independientes. d) Homocedasticidad e) Linealidad de los parámetros.


>Analizar >Regresión >Simple

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos la variable dependiente y la llevamos al cuadrosuperior derecho (dependiente). Luego tomamos la variableindependiente y la llevamos al cuadro medio derecho(independiente).


301

Figura 66. Pantalla regresión lineal.

Hecho esto presionamos estadísticos y se abre una pantallacomo la figura 67, donde Estimaciones y Ajuste del modelo vienepredeterminado, nosotros presionamos descriptivos y Durbin-Watson.

Figura 67. Estadsiticos de la regresion lienal simple.

Luego presionamos Continuar para volver a la pantalla delineal y presionamos OK.


302

La hoja de cálculos del programa nos entrega unas tablascomo las siguientes:

Estadísticos descriptivos

Media Desviación típ. N

Notas 5,5356 ,28537 45Practica AF 5,4444 1,86542 45

En la primera tabla se observa la media, la desviaciónestándar y la cantidad de sujetos para las dos variables.

Correlaciones

Notas Practica AF

Correlación de Pearson Notas 1,000 ,683

Practica AF ,683 1,000Sig. (unilateral) Notas . ,000

Practica AF ,000 .

N Notas 45 45Practica AF 45 45

En la segunda tabla se observa la correlación de Pearsonentre las dos variables. El investigador pude ver que existecorrelación entre ellas (p=0,000) y esta es positiva y alta (r=0,683).

Variables introducidas/eliminadasb

ModeloVariables

introducidasVariables

eliminadas Método

1 Practica AFa . Introducira. Todas las variables solicitadas introducidasb. Variable dependiente: notas

La tercera tabla muestra las variables predicatorasintroducidas en el modelo de regresión lineal.


303

Resumen del modelob

Modelo RR

cuadradoR cuadradocorregida

Error típ. de laestimación

Durbin-Watson

1 ,683a ,466 ,454 ,21095 1,430a. Variables predictoras: (Constante), practica_AFb. Variable dependiente: notas

En la cuarta tabla se observa el coeficiente de correlaciónmúltiple (R) que corresponde a la correlación de Pearson de las dosvariables, el coeficiente de determinación (R cuadrado) que expresala proporción de varianza de la variable dependiente que esexplicada por la variable independiente (en el ejemplo, R2 nosmuestra que el 46,6% de la variable dependiente es explicada por lavariable independiente), el coeficiente de R2 corregido, el errorestándar de la estimación que corresponde a una medida de lavariabilidad de la variable dependiente que no es explicada por larecta de regresión (se obtiene con la raíz cuadrada de la mediacuadrática residual que se observa en la tabla de ANOVA siguiente) y Durbin-Watson que muestra la correlación de los residuos, envalores que oscilan entre 0 y 4, siendo los valores mayores a 2,5 losque indican autocorrelación positiva, los valores menores a 1,5autocorrelación negativa y los valores entre 1,5 y 2,5 independenciade los residuos (esta última opción es necesaria para el modelo deregresión lineal).

ANOVAb

ModeloSuma de

cuadrados glMedia

cuadrática F Sig.

1 Regresión 1,670 1 1,670 37,522 ,000a

Residual 1,913 43 ,044

Total 3,583 44a. Variables predictoras: (Constante), Practica AFb. Variable dependiente: notas


304

En la quinta tabla se observa el ANOVA con la suma decuadrados de la recta de regresión, la suma de cuadradosresiduales (donde los valores residuales corresponden a ladesviación estándar de las distancias existentes entre laspuntuaciones de la variable dependiente y los pronósticosrealizados con la recta de regresión), los grados de libertad de larecta de regresión (n – 1 = 2 – 1 = 1), los grados de libertad de losvalores residuales (n – 2 = 45 – 2 = 43), la media cuadrática de larecta de regresión, la media cuadrática de los valores residuales, elvalor F y la Sig. o valor p.

Ahora el investigador debe contrastar el valor F calculado conel valor crítico de F.

También debe contrastar el valor p calculado (p=0,000) siendop<0,05 se debe rechazar la hipótesis nula que plantea que no existerelación lineal entre ambas variables.

Coeficientes de regresiones parciales

Modelo

Coeficientes noestandarizados

Coeficientesestandarizados

t Sig. B Error Std. Beta

1 (Constante) 4,967 ,098 50,685 ,000

Practica AF ,104 ,017 ,683 6,125 ,000a. Variable dependiente: Notas

En la sexta tabla se observan las características de laecuación de regresión de la recta: el coeficiente no estandarizadode la constante que corresponde al valor que toma la variabledependiente cuando la variable independiente vale 0. Es el punto enque la recta corta el eje vertical, el coeficiente no estandarizado dela variable independiente que corresponde a la pendiente de larecta, el error estándar de los coeficientes no estandarizados de laconstante y de la variable dependiente, el coeficiente estandarizadode la variable dependiente, el valor t de la constante, el valor t de lavariable independiente y la Sig, o valor p de la constante y de lavariable independiente.


305

El coeficiente no estandarizado de la constante más elcoeficiente no estandarizado de la variable independiente (4,967 +0,104 = 5,071) indica que a cada valor de la variable X lecorresponde un pronóstico de Y multiplicado por 5,071. Porejemplo, si X= 2,500 es posible predecir un valor de Y= 5,071*2,500que es igual a 12,678.

Estadísticos sobre los residuosa

Mínimo Máximo MediaDesviación

típ. N

Valor pronosticado 5,0714 6,0113 5,5356 ,19480 45Residuo bruto -,68914 ,40200 ,00000 ,20854 45Valor pronosticado tip. -2,383 2,442 ,000 1,000 45Residuo tip. -3,267 1,906 ,000 ,989 45a. Variable dependiente: notas

La séptima tabla muestra los estadísticos descriptivos(mínimo, máximo, media, desviación estándar y número de sujetos)de los residuos de la ecuación de regresión. Es importante que lamedia del residuo bruto, valor pronosticado típico y residuo típicosea de cero.


306


307

IIIESTADISTICA NO PARAMETRICA EN SPSS

1. PRUEBA U DE MANN-WHITNEY


>Analizar >Pruebas no paramétricas >Dos muestras independientes

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos la variable dependiente y la llevamos al cuadrosuperior derecho. Luego tomamos nuestra variable de agrupación(grupos a comparar) y la llevamos al cuadro inferior derecho(variable de agrupación). Por defecto viene marcada la opción U deMann-Whitney en el cuadro tipo de prueba.

Figura 68. Pantalla de la prueba U de Mann-Whitey.


308

Luego presionamos definir grupos y marcamos los valoresasignados a cada grupo (en este caso colegio 1 = 1 y colegio 2 = 2). Hecho esto presionamos continuar para volver a la pantalla deprueba de dos muestras independientes y presionamos OK.

Figura 69. Pantalla de definición de grupos.

La hoja de cálculos del programa nos entrega las dos tablassiguientes:

Rangos

Colegios NRango

promedioSuma derangos

Estrés 1 5 4,30 21,50

2 4 5,88 23,50

Total 9

En la primera tabla se observa los grupos comparados(colegio 1 y 2), el número de sujetos por grupo (5 y 4), la suma derangos y el rango promedio que se obtiene con la suma de rangosdividido por el número de observaciones del grupo.

Estadísticos de contraste

Estrés

Mann-Whitney U 6,500Wilcoxon W 21,500Z -,891

Sig. asintótica (bilateral) ,373

Sig. exacta [2*(Sig. unilateral)] ,413a

a. No corregidos para los empates. b. Variable de agrupación: colegios


309

En la segunda tabla se observa el valor U de Mann-Whitney, el valor Z que corresponde a la estandarización del valor U deMann-Whitney y la Sig. bilateral o valor p.

Ahora el investigador debe contrastar el valor Z calculado conel valor crítico de Z obteniendo: -0,891<1,96

También debe contrastar el valor p calculado (p=0,373) siendop>0,05 se debe aceptar la hipótesis nula que plantea la igualdad demedias de los dos grupos.

2. PRUEBA DE WILCOXON


>Analizar >Pruebas no paramétricas >Dos muestras relacionadas

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos las dos variables que deseamos contrastar (la1° y 2° medición) y la llevamos al cuadro derecho. Por defectoaparece marcada la opción Wilcoxon en el cuadro tipo de prueba. Luego presionamos OK.

Figura 70. Pantalla de la prueba de Wilcoxon.


310


Rangos

NRangosmedios

Suma derangos

Atención 2 – Atención 1 Rangos negativos 2a 5,50 11,00

Rangos positivos 8b 5,50 44,00

Empates 1c

Total 11

En la primera tabla se observa las dos mediciones, los rangosnegativos, los rangos positivos y los empates al restar a los valoresde la medición 2 los valores de la medición 1, la suma de rangos ylos rangos medios.

Estadísticos de contrasteAtención_2 - Atención_1

Z -1,727a

Asymp. Sig. (bilateral) ,084a. Basado en los rangos negativos b. Prueba de los rangos con signo de Wilcoxon

En la segunda tabla se observa el valor Z de la prueba deWilcoxon y la Sig, o valor p.

Ahora el investigador debe contrastar el valor Z calculado conel valor crítico de Z obteniendo: -1,727<1,96

También debe contrastar el valor p calculado (p=0,084) siendop>0,05 se debe aceptar la hipótesis nula que plantea la igualdadentre las medias de la medición 1 y 2.

3. PRUEBA DE CHI-CUADRADO



311

>Analizar >Estadísticos descriptivos >Tabla de contingencia

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos la variable dependiente y la llevamos al cuadrosuperior derecho (renglones). Luego tomamos la variableindependiente (la variable de agrupación, por ejemplo sexo) y lallevamos al cuadro medio derecho (columnas).

Figura 71. Pantalla de tabla de contingencia.

Luego presionamos estadísticos y marcamos la opción Chi Cuadrada. Hecho esto presionamos continuar para volver a lapantalla de tablas de contingencia y presionamos OK.

Figura 72. Pantalla estadisticos de tablas de contingencias.


312


Tabla de contingencia Motivación * SexoSexo_

TotalFemenino Masculino

Motivación por lapráctica deportiva

baja 6 2 8

media 10 9 19

alta 3 6 9Total 19 19 17

En la primera tabla se observa la cantidad de casosfemeninos en cada categoría y los casos masculinos de cadacategoría.

Prueba de Chi Cuadrado

Valor glSig. Asintótica

(bilateral)

Chi-Cuadrado de Pearson 2,951a 2 ,229Razón de verosimilitud 3,054 2 ,217Asociación lineal por lineal 2,860 1 ,091N de casos validos 36a. 4 casillas (66,7%) tienen una frecuencia esperada inferior 5. Lafrecuencia esperada mínima es de 3,78.

En la segunda tabla se observa el valor Chi cuadrado dePearson, la razón de verosimilitud que corresponde a una pruebapara estudiar la relación entre variables categóricas que seinterpreta igual que la prueba X2, la asociación lineal por lineal, elnúmero total de casos de la muestra, los grados de libertad de X2, los grados de libertad de la razón de verosimilitud que se obtiene deigual forma que los gl de X2, los grados de libertad de la asociaciónlineal por lineal y la Sig. o valor p de la prueba X2, razón deverosimilitud y de la asociación lineal por lineal.


313

Ahora el investigador debe contrastar el valor X2 calculado conel valor crítico de X2 (Anexo 5) obteniendo: 2,951<5,991.

También debe contrastar el valor p calculado (p=0,229) siendop>0,05 se debe aceptar la hipótesis nula que plantea la igualdadentre las categorías de los dos grupos.

3.1 Prueba de Chi-Cuadrado 2x2

El procedimiento es exactamente igual a la prueba de X2. Lahoja de cálculos del programa nos entrega las dos tablas siguientes:

Tabla de contingencia Actividad Física*FumarFumar_

TotalNo fuma FumaActividad física No practica 4 11 15

Practica 9 3 12Total 19 13 14

En la primera tabla se observan la cuatro combinacionesposibles (no practica act. física y no fuma, no practica act. física yfuma, practica act. física y no fuma, practica act. física y fuma) conel número de sujetos de cada categoría.

Prueba de Chi Cuadrado

Valor gl

Sig.Asintótica(bilateral)

Sig, Exacta(bilateral)

Sig. Exacta(unilateral)

Chi-Cuadrado de Pearson 6,238a 1 ,013Correción de continuidadb 4,452 1 ,035Razón de verosimilitud 6,499 1 ,011Prueba exacta de Fisher ,021 ,017Asociación lineal por lineal 6,007 1 ,014N de casos validos 27


314

En la segunda tabla se observa el valor Chi cuadrado dePearson (X2), la corrección de continuidad que corresponde a unanálisis de ajuste para X2 en una tabla de contingencia de 2x2, larazón de verosimilitud, la prueba exacta de Fisher que permiteasociar dos variables dicotómicas cuando el 20% o más de lascasillas presentan frecuencias esperadas inferiores a 5 (con unp<0,05 se rechaza la H0 de independencia de las variables, por lotanto, ambas se encuentran asociadas), la asociación lineal porlineal, el número total de casos de la muestra, los grados de libertadde X2, de la corrección por continuidad, de la razón de verosimilitudy de la asociación lineal por lineal (en todos los casos siempre será1) y la Sig. o valor p de la prueba X2, de la corrección decontinuidad, de la razón de verosimilitud y de la asociación linealpor lineal.

Ahora el investigador debe contrastar el valor p de lacorrección por continuidad calculado con el valor crítico de X2

(Anexo 5) obteniendo: 4,452>3,841. También debe contrastar el valor p calculado (p=0,035) siendo

p>0,05 se debe aceptar la hipótesis nula que plantea la igualdadentre las categorías de los dos grupos.

4. PRUEBA DE McNEMAR


>Analizar >Pruebas no paramétricas >Dos muestras relacionadas

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos las dos variables que deseamos contrastar (la1° y 2° medición dicotómica) y las llevamos al cuadro derecho. En elcuadro de tipo de prueba marcamos McNemar. Luegopresionamos OK.


315

Figura 73. Pantalla prueba de McNemar.


Interés 1 & Interés 2

Interés 1

Interés 2

No Si

No 6 5

Si 0 7

En la primera tabla se observa que de las personas quedijeron que NO en la 1° medición 6 de ellas continuabanrespondiendo que NO tras la intervención (cruce No-No de la tabla), de las personas que dijeron que NO en la 1° medición 5 de ellasrespondieron que SI tras la intervención (cruce No-Si de la tabla), de las personas que dijeron que SI en la 1° medición ningunacambio a NO tras la intervención (cruce Si-No de la tabla) y de laspersonas que dijeron que SI en la 1° medición 7 de ellas manteníansu respuesta tras la intervención (cruce Si-Si de la tabla).


316

Estadísticos de contrastesb

Interés 1 &Interés 2

N 18

Sig. Exacta (bilateral) ,062a

a. Usando una distribución binominal.b. Prueba de McNemar

En la segunda tabla se observa el número total de sujetos dela muestra y la Sig. o valor p de la prueba de McNemar.

Ahora el investigador debe contrastar el valor p calculado(p=0,062) siendo p>0,05 se debe aceptar la hipótesis nula queplantea la igualdad en la elecciones antes y después de laintervención.

5. PRUEBA DE KRUSKAL-WALLIS


>Analizar >Prueba no paramétrica >Prueba para k muestras independientes

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos la variable dependiente y la llevamos al cuadrosuperior derecho. Luego tomamos la variable independiente (lavariable de agrupación, en este caso cursos) y la llevamos al cuadromedio derecho (variable de agrupación). Por defecto aparecemarcada la prueba de Kruskal-Wallis.


317

Figura 74. Pantalla prueba de Kruskal-Wallis.

Luego presionamos definir rangos y colocamos las dosetiquetas extremas de las categorías (en este caso categoría 1 y 4). Hecho esto presionamos continuar para volver a la pantalla deprueba para k muestras independientes y presionamos OK.

Figura 75. Pantalla definir variables Kruskal-Wallis.


Curso N Media de Rangos

IMC 1° básico 9 15,33

2° básico 10 16,25

3° básico 11 14,95

Total 30


318

En la primera tabla se observa el número de sujetos por grupo yla media de rangos de cada grupo.

Estadísticos de contrasteb

IMC

Chi-Cuadrado ,136

gl 2

Sig. Asintótica ,934

a. Prueba de Kruskal Wallis

b. Variable de agrupación: Cursos

En la segunda tabla se observa el valor en la distribución deChi-cuadrado que se obtiene a partir del estadístico de Kruskal-Wallis, los grados de libertad (n – 1, por lo tanto 3 – 1 = 2) y la Sig. o valor p.

Ahora el investigador debe contrastar el valor X2 calculado conel valor crítico de X2 (Anexo 5) obteniendo: 0,136<5,991

También debe contrastar el valor p calculado (p=0,934) siendop>0,05 se debe aceptar la hipótesis nula que plantea la igualdad demedias entre los grupos.

NOTA:

Cuando la prueba de Kruskal-Wallis entrega diferencia entrelos grupos, es necesario realizar pruebas de U de Mann-Whitneyentre cada par de grupos para determinar entre quienes existendiferencias significativas. Sin embargo, resulta necesario realizar lacorrección de Bonferroni para controlar la tasa de error (posibilidadde cometer el error de tipo I) por la suma de comparaciones de dosgrupos. Esto se realiza dividiendo el nivel de confianza por elnúmero de comparaciones (si son tres grupos serán necesarias trescomparaciones de pares, por lo tanto, el valor de 0,05 se divide entres obteniendo un valor de sig. de 0,017) y estableciendo estelímite como el nivel crítico de aceptación o rechazo de la H0 alcomparar cada par de grupos.


319

6. PRUEBA DE FRIEDMAN


>Analizar >Pruebas no paramétricas >Prueba para k muestras relacionadas

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos las variables que deseamos contrastar yllevamos al cuadro derecho. Por defecto aparece marcada laprueba de Friedman. Luego presionamos OK

Figura 76. Pantalla prueba de Friedman.


Rangos

Media de Rangos

MarzoJulioOctubre

1,35

2,122,54

En la primera tabla se observa la media de rangos de cadagrupo.


320

Estadísticos de contrastea

N 13

Chi-Cuadrado 10,739

gl 2

Sig. Asintótica ,005

a. Prueba de Friedman

En la segunda tabla se observa el número de sujetos de lamuestra, el valor en la distribución de Chi-cuadrado que se obtienea partir del estadístico de Friedman, los grados de libertad (n – 1, por lo tanto 3 – 1 = 2) y la Sig. o valor p.

Ahora el investigador debe contrastar el valor X2 calculado conel valor crítico de X2 (Anexo 5) obteniendo: 10,739>6,00

También debe contrastar el valor p calculado (p=0,005) siendop<0,05 se debe rechazar la hipótesis nula que plantea la igualdadde medias entre las medidas.

NOTA:

Cuando la prueba de Friedman entrega diferencia entre losgrupos, es necesario realizar pruebas de U de Mann-Whitney entrecada par de grupos para determinar entre quienes existendiferencias significativas, de igual forma que en la prueba deKruskal-Wallis.

7. PRUEBA Q DE COCHRAN


>Analizar >Pruebas no paramétricas >Prueba para k muestras relacionadas

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos las variables que deseamos contrastar y


321

llevamos al cuadro derecho. Ahora debemos marcar la prueba Q deCochran. Luego presionamos OK.

Figura 77. Pantalla prueba Q de Cochran.


Frecuencias

Valores

Asiste No asiste

Semana 4 15 0

Semana 8 10 5

Semana 12 7 8

En la primera tabla se observa la cantidad de sujetos queasiste al club deportivo la semana 4, 8 y 12 y la cantidad de sujetosque no asisten al club deportivo la semana 4, 8 y 12.

Estadísticos de prueba

N 15

Q de Cochran 9,800a

gl 2

Sig. asintótica ,007

a. 1 se trata como un éxito.


322

En la segunda tabla se observa el número de sujetos, el valorde la prueba Q de Cochran, los grados de libertad (número degrupos menos uno) y la Sig. o valor p.

Ahora el investigador debe contrastar el valor Q calculado conel valor crítico de X2 (Anexo 5) obteniendo: 9,80>6,00

También debe contrastar el valor p calculado (p=0,007) siendop<0,05 se debe rechazar la hipótesis nula que plantea la igualdadde medias entre las mediciones.

NOTA:

Cuando la prueba Q de Cochran entrega diferencia entre losgrupos, es necesario realizar pruebas de U de Mann-Whitney entrecada par de grupos para determinar entre quienes existendiferencias significativas, de igual forma que en la prueba deKruskal-Wallis y Friedman.

8. CORRELACION DE SPEARMAN


>Analizar >Correlación >Bivariada

En el cuadro de la izquierda aparece la lista de nuestrasvariables. Tomamos las dos variables que deseamos relacionar y lallevamos al cuadro derecho. En el cuadro coeficiente de correlaciónmarcamos la opción Spearman. Luego presionamos OK.


323

Figura 78. Pantalla correlación de Spearman.


Correlación

asistencia estres

Spearman's rho asistencia Coeficiente decorrelación 1,000 -,648**

Sig. (bilateral) . ,003

N 19 19

estrés Coeficiente decorrelación

-,648** 1,000

Sig. (bilateral) ,003 .

N 19 19

** Correlación significativa al nivel 0,01(bilateral).

En la tabla se observa la correlación de Spearman, la Sig. ovalor p y el número de sujetos de la muestra.

La correlación de Spearman se interpreta de igual forma quePearson.


324

También se debe contrastar el valor p calculado (p=0,003)siendo p<0,05 se debe rechazar la hipótesis nula que plantea queno existe relación lineal entre las variables.

9. CORRELACION DE PHI


>Analizar >Estadística descriptiva >Tabla de contingencia En el cuadro de la izquierda aparece la lista de nuestras

variables. Tomamos las dos variables que deseamos relacionar yllevamos una al cuadro superior derecho y la otra al cuadro medioderecho (no importa cual vaya en cual cuadro).

Figura 79. Pantalla tabla de contingencia.

Luego presionamos estadísticos y en el cuadro nominalpresionamos Phi y V de Cramer. Hecho esto presionamoscontinuar para volver a la pantalla de tabla de contingencia ypresionamos OK.


325

Figura 80. Pantalla correlación de Phi.

La hoja de cálculos del programa nos entrega dos tablascomo las siguientes:

Act. Física padres * Act. Física hijos Tabla de contingencia

Act. Física hijos

TotalNo hace Hace

Act. Física padres No hace 4 2 6

Hace 2 12 14Total 10 6 14

En la primera tabla se observa la cantidad de padres que nopractican actividad física cuyos hijos tampoco lo hacen, los padresque no practican actividad física cuyos hijos si lo hacen, los padresque practican actividad física cuyos hijos no lo hacen y los padresque practican actividad física cuyos hijos también lo hacen.


326

Medidas simétricas

Valor Sig. Aprox.

Nominal por Nominal Phi ,524 ,019

V de Cramer ,524 ,019N de casos validos 20

En la segunda tabla se observa el coeficiente de correlaciónde Phi, el coeficiente de correlación V de Cramer que corresponde auna pequeña modificación del coeficiente Phi y la Sig. o valor p.

La correlación de Phi puede tomar valores entre 0 y 1midiendo la fuerza de asociación de las variables. El coeficiente Phise interpreta de igual forma que Pearson y Spearman.

También debe contrastar el valor p calculado (p=0,019) siendop<0,05 se debe rechazar la hipótesis nula que plantea que no existerelación lineal entre las variables.


32

Referencias bibliográficas

Compostela, B. (2010). Breve historia de la estadística y el azar.Madrid: Universidad de Mayores de Experiencia Recíproca.

De la Torre, O. (2012). Estadística II: estadística inferencialparamétrica, no paramétrica y multivariante. Mexico DF: Universidad Michoacana de San Nicolás Hidalgo.

Gutiérrez, S. (1983). Evolución y contenido de la estadística delsiglo XX. Estadística Española, 101, 7-28.

Juárez, F., Villatorio, J. & López, E. (2002). Apuntes de estadísticainferencial. México DF: Instituto Nacional de PsiquiatríaRamón de la Fuente.

Maureira, F. & Flores, E. (2012). Manual de investigación científicapara estudiantes de educación física. Madrid: EditorialAcadémica Española.

Morales, P. (2012). Tamaños necesarios de la muestra ¿Cuántossujetos necesitamos? Disponible enhttp://www.upcomillas.es/personal/peter/investigacion/Tama%F1oMuestra.pdf [Consultado el 30 de abril del 2014].

Orellana, L. (2001). Estadística descriptiva. Disponible enhttp://www.hacienda.go.cr/cifh/sidovih/cursos/material_de_apoyo-f-ccifh/1materialdeapoyocursoscifh/4estad%C3%ADsticabasica/estadisticadescriptiva-lillianaorellana.pdf [Consultado el 3 deabril del 2014]

Ruiz, M. (2004). Manual de estadística. Madrid: eumed-net.


328

SPSS (2002). Guía para el análisis de datos. Disponible enhttp://www.listinet.com/bibliografia-comuna/Cdu311-F36A.pdf[Consultado el 3 de abril de 2014].

Stiegler, S. (1986). The history of statistics. Harvard UniversityPress.


329

ANEXOS


330


331

ANEXO 1

Tabla de valores críticos para la prueba KS

gl 0,05 0,011 0,975 0,9952 0,842 0,9293 0,708 0,8284 0,624 0,7335 0,565 0,6696 0,521 0,6187 0,486 0,5778 0,457 0,5439 0,432 0,514

10 0,401 0,4911 0,391 0,46812 0,375 0,4513 0,361 0,43314 0,349 0,41815 0,338 0,40416 0,328 0,39217 0,318 0,38218 0,309 0,37119 0,301 0,36320 0,295 0,35625 0,27 0,3230 0,24 0,2935 0,23 0,2740 0,21 0,2545 0,20 0,2450 0,19 0,23

Para n > 1,36 / n 1,63 / n


332

ANEXO 2

Tabla de valores críticos para la prueba t

gl 0,05 0,01 gl 0,05 0,011 12,71 63,68 22 2,07 2,822 4,30 9,93 23 2,07 2,813 3,18 5,84 24 2,06 2,804 2,78 4,60 25 2,06 2,795 2,57 4,03 26 2,06 2,786 2,45 3,71 27 2,05 2,777 2,37 3,50 28 2,05 2,768 2,31 3,36 29 2,05 2,769 2,26 3,25 30 2,04 2,7510 2,23 3,17 31 2,04 2,7411 2,20 3,11 32 2,04 2,7412 2,18 3,06 33 2,03 2,7313 2,16 3,01 34 2,03 2,7314 2,15 2,98 35 2,03 2,7215 2,13 2,95 36 2,03 2,7216 2,12 2,92 37 2,03 2,7217 2,11 2,90 38 2,02 2,7118 2,10 2,88 39 2,02 2,7119 2,09 2,86 40 2,02 2,7020 2,09 2,85 1,65 2,3321 2,08 2,83


333

ANEXO 3

Tabla de valores críticos para la prueba F (

gl 1 2 3 4 5 6 7 81 161,45 199,50 215,70 224,58 230,16 233,99 236,77 238,882 18,51 19,00 19,16 19,25 19,23 19,33 19,35 19,373 10,13 9,55 9,27 9,12 9,01 8,94 8,89 8,854 7,71 6,94 6,60 6,39 6,26 6,16 6,09 6,045 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,826 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,157 5,60 4,73 4,35 4,12 3,97 3,87 3,79 3,738 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,449 5,12 4,23 3,86 3,63 3,48 3,37 3,29 3,2310 4,97 4,10 3,71 3,45 3,33 3,22 3,14 3,0711 4,84 3,98 3,59 3,36 3,20 3,10 3,01 2,9512 4,75 3,89 3,49 3,26 3,11 2,97 2,91 2,8513 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,7714 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,7015 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,6416 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,5917 4,45 3,59 3,20 2,97 2,81 2,70 2,61 2,5518 4,41 3,56 3,16 2,93 2,77 2,66 2,58 2,5119 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,4820 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,4521 4,32 3,47 3,07 2,84 2,69 2,57 2,49 2,4222 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,4023 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,3824 4,26 3,40 3,01 2,78 2,62 2,51 2,41 2,3425 4,24 3,39 2,99 2,76 2,60 2,49 2,41 2,3426 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,3227 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,3128 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,2929 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,2830 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,2731 4,16 3,31 2,91 2,68 2,52 2,41 2,32 2,2632 4,15 3,30 2,90 2,67 2,51 2,40 2,31 2,2433 4,14 3,29 2,89 2,66 2,50 2,39 2,30 2,2434 4,13 3,28 2,88 2,65 2,49 2,38 2,29 2,2335 4,12 3,27 2,87 2,64 2,49 2,37 2,29 2,2236 4,11 3,26 2,87 2,63 2,48 2,36 2,28 2,2137 4,11 3,25 2,86 2,63 2,47 2,36 2,27 2,20


334

gl 1 2 3 4 5 6 7 838 4,10 3,25 2,85 2,62 2,46 2,35 2,26 2,1939 4,09 3,24 2,85 2,61 2,46 2,34 2,26 2,1940 4,09 3,23 2,84 2,61 2,45 2,34 2,25 2,1850 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,1360 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,1070 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,0780 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,0690 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03120 3,92 3,07 2,69 2,45 2,29 2,18 2,09 2,02200 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,99500 3,86 3,01 2,62 2,39 2,23 2,12 2,03 1,96

Prueba F (continuación)

gl 9 10 15 20 30 40 120 5001 240,54 241,88 245,95 248,01 250,10 251,14 253,25 254,062 19,39 19,40 19,43 19,45 19,46 19,47 19,49 19,493 8,81 8,79 8,70 8,66 8,62 8,59 8,55 8,534 6,00 5,96 5,86 5,80 5,75 5,72 5,66 5,645 4,77 4,74 4,62 4,56 4,50 4,46 4,40 4,376 4,10 4,06 3,94 3,87 3,81 3,77 3,71 3,687 3,68 3,64 3,51 3,45 3,38 3,34 3,27 3,248 3,39 3,35 3,22 3,15 3,08 3,04 2,97 2,949 3,18 3,14 3,01 2,94 2,90 2,83 2,75 2,7110 3,02 2,98 2,85 2,77 2,70 2,66 2,58 2,5511 2,90 2,86 2,72 2,65 2,57 2,53 2,45 2,4212 2,80 2,74 2,62 2,54 2,47 2,43 2,34 2,3113 2,71 2,67 2,53 2,46 2,38 2,34 2,25 2,1914 2,65 2,60 2,46 2,39 2,31 2,27 2,18 2,1415 2,59 2,54 2,40 2,33 2,25 2,20 2,11 2,0816 2,54 2,49 2,35 2,28 2,19 2,15 2,06 2,0217 2,49 2,45 2,31 2,23 2,15 2,10 2,01 1,9718 2,46 2,41 2,27 2,19 2,11 2,06 1,97 1,9319 2,42 2,38 2,23 2,16 2,07 2,03 1,93 1,8920 2,39 2,35 2,20 2,12 2,04 1,99 1,90 1,8621 2,37 2,32 2,18 2,10 2,01 1,97 1,87 1,83


335

gl 9 10 15 20 30 40 120 50022 2,34 2,30 2,15 2,07 1,98 1,94 1,84 1,8023 2,32 2,28 2,13 2,05 1,96 1,91 1,81 1,7724 2,30 2,26 2,11 2,03 1,94 1,89 1,79 1,7525 2,28 2,24 2,09 2,01 1,92 1,87 1,77 1,7326 2,27 2,22 2,07 1,99 1,90 1,85 1,75 1,7127 2,25 2,20 2,06 1,97 1,88 1,84 1,73 1,6928 2,24 2,19 2,04 1,96 1,87 1,82 1,71 1,6729 2,22 2,18 2,03 1,95 1,85 1,81 1,70 1,6530 2,21 2,17 2,02 1,93 1,84 1,79 1,68 1,6431 2,20 2,15 2,00 1,92 1,83 1,78 1,67 1,6232 2,19 2,14 1,99 1,91 1,82 1,77 1,66 1,6133 2,18 2,13 1,98 1,90 1,81 1,76 1,65 1,6034 2,17 2,12 1,97 1,89 1,80 1,75 1,63 1,5935 2,16 2,11 1,96 1,88 1,79 1,74 1,62 1,5736 2,15 2,11 1,95 1,87 1,78 1,73 1,61 1,5637 2,15 2,10 1,95 1,86 1,77 1,72 1,60 1,5538 2,14 2,09 1,94 1,85 1,76 1,71 1,59 1,5439 2,13 2,08 1,93 1,85 1,75 1,70 1,59 1,5440 2,12 2,07 1,92 1,84 1,74 1,69 1,58 1,5350 2,07 2,03 1,87 1,78 1,69 1,63 1,51 1,4660 2,04 1,99 1,84 1,75 1,65 1,59 1,47 1,4170 2,02 1,97 1,81 1,72 1,62 1,57 1,44 1,3780 2,00 1,95 1,79 1,70 1,60 1,55 1,41 1,3590 1,99 1,94 1,78 1,69 1,59 1,53 1,39 1,33100 1,98 1,93 1,77 1,68 1,57 1,52 1,38 1,31120 1,96 1,91 1,75 1,66 1,55 1,50 1,35 1,28200 1,93 1,88 1,72 1,62 1,52 1,46 1,30 1,22500 1,90 1,85 1,69 1,59 1,48 1,42 1,26 1,16


336

ANEXO 4

Tabla de valores críticos para la prueba de homogeneidad de

N° de grupos

gl 2 3 4 5 6 71 0,9985 0,9969 0,9065 0,8412 0,7808 0,72712 0,9750 0,8709 0,7679 0,6838 0,6161 0,56123 0,9392 0,7977 0,6841 0,5981 0,5321 0,48004 0,9057 0,7457 0,6287 0,5441 0,4803 0,43075 0,8772 0,7071 0,4447 0,5895 0,5065 0,39746 0,8534 0,6771 0,5598 0,4783 0,4184 0,37267 0,8332 0,6530 0,5365 0,4564 0,3980 0,35358 0,8159 0,6333 0,5175 0,4387 0,3817 0,33849 0,8010 0,6167 0,5017 0,4241 0,3682 0,325916 0,7341 0,5466 0,4366 0,3645 0,3135 0,275636 0,6602 0,4748 0,3720 0,3066 0,2612 0,2278144 0,5813 0,4031 0,3093 0,2513 0,2119 0,1833

N° de grupos

gl 8 9 10 15 201 0,6798 0,6385 0,6020 0,4709 0,38942 0,5157 0,4775 0,4450 0,3346 0,27053 0,4377 0,4027 0,3733 0,2758 0,22054 0,3910 0,3584 0,3311 0,2419 0,19215 0,3595 0,3286 0,3029 0,2195 0,17356 0,3362 0,3067 0,2823 0,2034 0,16027 0,3185 0,2901 0,2666 0,1911 0,15018 0,3043 0,2768 0,2541 0,1815 0,14229 0,2926 0,2659 0,2439 0,1736 0,135716 0,2462 0,2226 0,2032 0,1429 0,110836 0,2022 0,1820 0,1655 0,1144 0,0879144 0,1616 0,1446 0,1308 0,0889 0,0675


337

ANEXO 5

Tabla de valores críticos para la prueba X2

gl 0,05 0,01 gl 0,05 0,011 3,841 6,635 22 33,924 40,2892 5,991 9,210 23 35,172 41,6383 7,815 11,345 24 36,415 42,9794 9,488 13,277 25 37,652 44,3145 11,070 15,086 26 38,885 45,6416 12,591 16,811 27 40,113 46,9627 14,067 18,475 28 41,337 48,2788 15,507 20,090 29 42,557 49,5879 16,919 21,666 30 43,773 50,89210 18,307 23,209 31 44,985 52,19111 19,675 24,725 32 46,194 53,48512 21,026 26,217 33 47,399 54,77513 22,362 27,688 34 48,602 56,06014 23,684 29,141 35 49,801 57,34215 24,995 30,577 36 50,998 58,61916 26,296 31,999 37 52,192 59,89217 27,587 33,408 38 53,383 61,16218 28,869 34,805 39 54,572 62,42819 30,143 36,190 40 55,758 63,69020 31,410 37,566 50 67,504 76,15321 32,670 38,932 100 124,342 135,806


338

ANEXO 6

Tabla de valores críticos para la prueba Q (Tukey-Snedecor)

N° de grupos

gl 2 3 4 5 6 7 8 91 17,97 26,98 32,82 37,08 40,41 43.12 45,40 47,362 6,08 8,28 9,80 10,89 11,73 12,43 13,03 13,543 4,50 5,91 6,83 7,51 8,04 8,47 8,85 9,184 3,93 5,04 5,76 6,29 6,70 7,06 7,35 7,605 3,64 4,60 5,22 5,67 5,93 6,38 6,58 6,806 3,46 4,34 4,90 5,31 5,63 5,89 6,12 6,327 3,34 4,16 4,68 5,06 5,35 5,59 5,82 5,998 3,26 4,04 4,53 4,89 5,17 5,40 5,60 5,779 3,20 3,95 4,42 4,76 5,02 5,24 5,43 5,6010 3,15 3,88 4,33 4,66 4,91 5,12 5,30 5,4611 3,11 3,82 4,26 4,58 4,82 5,03 5,20 5,3512 3,08 3,77 4,20 4,51 4,75 4,95 5,12 5,2713 3,06 3,73 4,15 4,46 4,69 4,88 5,05 5,1914 3,03 3,70 4,11 4,41 4,64 4,83 4,99 5,1315 3,01 3,67 4,08 4,37 4,59 4,78 4,94 5,0816 3,00 3,65 4,05 4,34 4,56 4,74 4,90 5,0317 2,98 3,62 4,02 4,31 4,52 4,70 4,86 4,9918 2,97 3,61 4,00 4,28 4,49 4,67 4,83 4,9619 2,96 2,59 3,98 4,26 4,47 4,64 4,79 4,9220 2,95 3,58 3,96 4,24 4,45 4,62 4,77 4,9030 2,89 3,48 3,84 4,11 4,30 4,46 4,60 4,7240 2,86 3,44 3,79 4,04 4,23 4,39 4,52 4,6360 2,83 3,40 3,74 3,98 4,16 4,31 4,44 4,55120 2,80 3,36 3,69 3,92 4,10 4,24 4,36 4,47

2,77 3,32 3,63 3,86 4,03 4,17 4,29 4,39


339

ANEXO 7

Valores críticos del coeficiente de correlación de Pearson

Nivel de significancia de 0,05

n 0,05 N 0,051 - 24 0,4042 - 25 0,3963 0,997 26 0,3884 0,950 27 0,3815 0,878 28 0,3746 0,811 29 0,3677 0,755 30 0,3618 0,707 32 0,3499 0,666 34 0,339

10 0,632 36 0,32911 0,602 38 0,32012 0,576 40 0,31213 0,553 42 0,30414 0,532 44 0,29715 0,514 46 0,29116 0,497 48 0,28517 0,482 50 0,27918 0,468 60 0,25419 0,456 70 0,23520 0,444 80 0,22021 0,433 90 0,20722 0,423 100 0,19723 0,413


340

ANEXO 8

Valores críticos de la prueba U de Mann Whitney


n 1 2 3 4 5 6 7 8 9 101 - - - - - - - - - -2 - - - - - - - 0 0 03 - - - - 0 1 1 2 2 34 - - - 0 1 2 3 4 4 55 - - 0 1 2 3 5 6 7 86 - - 1 2 3 5 6 8 10 117 - - 1 3 5 6 8 10 12 148 - 0 2 4 6 8 10 13 15 179 - 0 2 4 7 10 12 14 16 1810 - 0 3 5 8 11 14 17 20 2311 - 0 3 6 9 13 16 19 23 2612 - 0 4 7 11 14 18 22 26 2913 - 0 4 8 12 16 20 24 28 3314 - 0 5 9 13 17 22 26 31 3615 - 0 5 10 14 19 24 29 34 3916 - 0 6 11 15 21 26 31 37 4217 - 0 6 11 17 22 28 34 39 4518 - 0 7 12 18 24 30 36 42 4819 - 0 7 13 19 25 32 38 45 52


341

Prueba U de Mann Whitney (continuación)

n 11 12 13 14 15 16 17 18 191 - - - - - - - - -2 0 0 0 0 0 0 0 0 03 3 4 4 5 5 6 6 7 74 6 7 8 9 10 11 11 12 135 9 11 12 13 14 15 17 18 196 13 14 16 17 19 21 22 24 257 16 18 20 22 24 26 28 30 328 19 22 24 26 29 31 34 36 389 23 26 28 31 34 37 39 42 4510 26 29 33 36 39 42 45 48 5211 30 33 37 40 44 47 51 55 5812 33 37 41 45 49 53 57 61 6513 37 41 45 50 54 59 63 67 7214 40 45 50 55 59 64 67 74 7815 44 49 54 59 64 70 75 80 8516 47 53 59 64 70 75 81 86 9217 51 57 63 67 75 81 87 93 9918 55 61 67 74 80 86 93 99 10619 58 65 72 78 85 92 99 106 113


342

ANEXO 9

Valores críticos de la prueba de rangos de Wilcoxon

n 0,01 0,051 - -2 - -3 - -4 - -5 - -6 - 17 - 28 0 49 2 6

10 3 811 5 1112 7 1413 10 1714 13 2115 16 2516 19 3017 23 3518 28 4019 32 4620 37 5221 43 5922 49 6623 55 7324 61 8125 68 90


343

ANEXO 10

Valores críticos de la prueba de varianza unifactorial de rangosde Kruskal-Wallis


n1 n2 n3 0,05 n1 n2 n3 0,052 1 1 - 5 5 1 5,132 2 1 - 5 5 2 5,342 2 2 - 5 5 3 5,713 1 1 - 5 5 4 5,643 2 1 - 5 5 5 5,783 2 2 4,71 6 1 1 -3 3 1 5,14 6 2 1 4,823 3 2 5,36 6 2 2 5,353 3 3 5,60 6 3 1 4,864 1 1 - 6 3 2 5,354 2 1 - 6 3 3 5,624 2 2 5,33 6 4 1 4,954 3 1 5,21 6 4 2 5,344 3 2 5,44 6 4 3 5,614 3 3 5,73 6 4 4 5,694 4 1 4,96 6 5 1 4,994 4 2 5,45 6 5 2 5,344 4 3 5,59 6 5 3 5,604 4 4 5,69 6 5 4 5,665 1 1 - 6 5 5 5,735 2 1 5,00 6 6 1 4,955 2 2 5,16 6 6 2 5,415 3 1 4,96 6 6 3 5,635 3 2 5,25 6 6 4 5,725 3 3 5,65 6 6 5 5,775 4 1 4,99 6 6 6 5,805 4 2 5,27 7 7 7 5,825 4 3 5,63 8 8 8 5,825 4 4 5,62


344

Continuación Kruskal-Wallis

n1 n2 n3 n4 0,05 n1 n2 n3 n4 n5 0,052 1 1 1 - 2 1 1 1 1 -2 2 1 1 - 2 2 1 1 1 -2 2 2 1 5,68 2 2 2 1 1 6,752 2 2 2 6,17 2 2 2 2 1 7,133 1 1 1 - 2 2 2 2 2 7,423 2 1 1 - 3 1 1 1 1 -3 2 2 1 5,83 3 2 1 1 1 6,583 2 2 2 5,33 3 2 2 1 1 6,803 3 1 1 6,33 3 2 2 2 1 7,313 3 2 1 6,24 3 2 2 2 2 7,683 3 2 2 6,53 3 3 1 1 1 7,113 3 3 1 6,60 3 3 2 1 1 7,203 3 3 2 6,73 3 3 2 2 1 7,593 3 3 3 7,00 3 3 2 2 2 7,914 1 1 1 - 3 3 3 1 1 7,584 2 1 1 5,83 3 3 3 2 1 7,764 2 2 1 6,13 3 3 3 2 2 8,044 2 2 2 6,55 3 3 3 3 1 8,004 3 1 1 6,18 3 3 3 3 2 8,204 3 2 1 6,31 3 3 3 3 3 8,334 3 2 2 6,62 4 3 3 1 6,55 4 3 3 2 6,80 4 3 3 3 6,98 4 4 1 1 5,95 4 4 2 1 6,39 4 4 2 2 6,73 4 4 3 1 6,64 4 4 3 2 6,87 4 4 3 3 7,04 4 4 4 1 6,73 4 4 4 2 6,96 4 4 4 3 7,14 4 4 4 4 7,24


345

ANEXO 11

Valores críticos de la prueba de varianza de rangos deFriedman


k n 0,05 0,01 k n 0,05 0,013 1 - - 4 1 - -3 2 - - 4 2 6,00 -3 3 6,00 - 4 3 8,20 9,003 4 6,50 8,00 4 4 9,30 9,903 5 6,40 8,40 3 6 7,00 9,00 3 7 7,14 8,86 3 8 6,25 9,00 3 9 6,22 8,67 3 10 6,20 9,60 3 11 6,54 8,91 3 12 6,17 8,67 3 13 6,00 9,39 3 5,99


346

ANEXO 12

Valores críticos del coeficiente de correlación de Spearman


n 0,05 N 0,051 - 29 0,3682 - 30 0,3623 - 31 0,3564 - 32 0,3505 1,000 33 0,3456 0,886 34 0,3407 0,786 35 0,3358 0,738 36 0,3309 0,700 37 0,325

10 0,648 38 0,32111 0,618 39 0,31712 0,587 40 0,31313 0,560 41 0,30914 0,538 42 0,30515 0,521 43 0,30116 0,503 44 0,29817 0,485 45 0,29418 0,472 46 0,29119 0,460 47 0,28820 0,447 48 0,28521 0,435 49 0,28222 0,425 50 0,27923 0,415 60 0,25524 0,406 70 0,23525 0,398 80 0,22026 0,390 90 0,20727 0,382 100 0,19728 0,375

Estadística básica para educación física

Documents