Top Banner
ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA PRIMERA PARTE Antología tomada del libro de: GIL FLORES, J.; RODRÍGUEZ GÓMEZ, G.; GARCÍA JIMÉNEZ, E. (1995). Estadística Básica Aplicada a las Ciencias de la educación. Sevilla. Kronos. Recopilado por: Mtra. Yolanda Reyes Carbajal IESFROSUR DIVISION POSTGRADO MAESTRIA EN EDUCACION
87

Antologia de Estadistica Aplicada a La Inv Educ

Jan 03, 2016

Download

Documents

Yoli Reyes
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION

EDUCATIVA PRIMERA PARTE

Antología tomada del libro de: GIL FLORES, J.; RODRÍGUEZ GÓMEZ, G.; GARCÍA JIMÉNEZ, E. (1995). Estadística Básica Aplicada a las Ciencias de la educación. Sevilla. Kronos.

Recopilado por: Mtra. Yolanda Reyes Carbajal

IESFROSUR DIVISION POSTGRADO

MAESTRIA EN EDUCACION

Page 2: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 2

ANALISIS DE DATOS EN INVESTIGACION EDUCATIVA

A. EL PAPEL DEL ANÁLISIS DE DATOS EN LA INVESTIGACIÓN EDUCATIVA 1. Introducción 2. el concepto de análisis estadístico de datos 3. el análisis estadístico de datos en las distintas fases del proceso de

investigación 4. Planteamiento del problema y formulación de hipótesis 5. Diseño de investigación 6. Análisis de Datos 7. Obtención de conclusiones y redacción del informe de investigación 8. Contenidos del análisis estadístico de datos 9. la informática en el análisis estadístico de datos

B. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 1. Conceptos previos sobre medición y escalas de medida 2. concepto de medida 3. niveles de medida 4. constante, variable, modalidades y clases 5. ordenación y clasificación de los datos: distribuciones de frecuencias 6. frecuencias y distribución de frecuencias 7. distribución de frecuencias agrupadas 8. representación gráfica de datos 9. problemas resueltos 10. problemas propuestos

C. TÉCNICAS DESCRIPTIVAS BÁSICAS PARA UNA VARIABLE 1. MEDIDAS DE TENDENCIA CENTRAL

A. Media B. Mediana C. Moda

2. MEDIDAS DE POSICIÓN A. Percentiles B. Deciles C. Cuartiles

3. MEDIDAS DE DISPERSIÓN A. Rango B. Desviación media C. Varianza y desviación típica D. Coeficiente de variación E. Amplitud semiintercuartílica

4. Problemas resueltos 5. problemas propuestos

D. PUNTUACIONES INDIVIDUALES Y CURVA NORMAL 1. Puntuación típicas 2. Ejemplo 2 3. Puntuaciones típicas derivadas 4. La curva normal 5. Distribución normal tipificada o estandarizada 6. Áreas bajo la curva normal 7. Ejemplo 3: 8. Problemas propuestos

Page 3: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 3

E. TÉCNICAS PARA EL ESTUDIO DE LA RELACIÓN ENTRE VARIABLES 1. Introducción 2. Distribución conjunta de frecuencias 3. Diagrama de dispersión o nube de puntos 4. Concepto de covarianza 5. Correlación de pearson 6. Ejemplo 1 7. Condiciones de aplicación 8. Propiedades 9. Interpretación 10. Regresión 11. La ecuación de una recta 12. La ecuación de la recta de regresión 13. Coeficiente de determinación 14. Problemas resueltos 15. Problemas propuestos

F. TÉCNICAS PARA EL ESTUDIO DE LA RELACIÓN ENTRE VARIABLES (II) 1. Introducción 2. Coeficiente de correlación de spearman 3. Ejemplo 1 4. Propiedades 5. Coeficiente de contingencia 6. Ejemplo 2 7. Propiedades 8. Coeficiente de correlación biserial puntual 9. Ejemplo 3 10. Propiedades 11. Coeficiente de correlación biserial 12. Ejemplo 4 13. Propiedades 14. Coeficiente de correlación phi 15. Ejemplo 5 16. Propiedades 17. Coeficiente de correlación tetracórica 18. Ejemplo 6 19. Propiedades 20. Tratamiento informático de las correlaciones 21. Ejercicios

Page 4: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 4

El papel del análisis de datos en la investigación educativa 1. Introducción. 2. El concepto de análisis estadístico de datos. 3. El análisis estadístico de datos en las distintas fases del proceso de investigación. 4. Contenidos del análisis estadístico de datos. 5. La informática en el análisis estadístico de datos. Referencia básica para el tema: GIL FLORES, J.; RODRÍGUEZ GÓMEZ, G.; GARCÍA JIMÉNEZ, E. (1995). Estadística Básica Aplicada a las Ciencias de la educación. Sevilla. Kronos. (CAPITULO 1).

INTRODUCCIÓN

Analizar información procedente de diversas vías es una actividad común en el ser humano. Habitualmente examinamos aspectos de nuestra realidad, indagamos en un problema vital o damos diferentes interpretaciones a las cosas que nos ocurren. Desde este punto de vista llevamos a cabo un proceso de asimilación de la información externa y acomodación en nuestro intelecto, que muchas veces es realizado de manera automática.

Cuando nos referimos aquí al Análisis de Datos hablamos de un proceso de indagación científica sobre un problema de investigación concreto con relevancia social y educativa. La información que recogemos puede ser tanto numérica como textual, y ante ella nos disponemos a la realización de diferentes actividades o tareas de análisis acordes con el tipo de dato recogido, el problema de investigación formulado, y las características propias del diseño de investigación al que nos enfrentamos. De esta manera, el Análisis de Datos no constituye un fin en sí mismo sino que es un proceso subordinado a otro más amplio como es la investigación educativa.

Concretamente, en esta materia nos detendremos en el Análisis Estadístico de Datos y en la relevancia que poseen las técnicas y procedimientos estadísticos en y para la investigación educativa. No obstante, también dedicaremos un apartado al Análisis de Datos no cuantitativos, aludiendo al análisis de textos.

EL CONCEPTO DE ANÁLISIS ESTADÍSTICO DE DATOS

El Análisis Estadístico de Datos se ha asociado de manera general con la investigación de corte experimental, o podemos decir que es característico de los enfoques positivistas.

Este término se define de muchas maneras según se conciba desde una perspectiva más amplia o más restringida, y según se entienda también el proceso de investigación.

El concepto de Análisis Estadístico de Datos no se agota en las acepciones que se identifican con un conjunto de datos o enumeración de hechos, o con procedimientos de tipo descriptivo destinados a recoger, organizar y presentar la información relativa a un conjunto de casos. De esta manera, el Análisis Estadístico de Datos ha dejado de ser únicamente la ciencia de recopilar datos y, tras fusionarse con la corriente de

Page 5: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 5

estudios sobre el cálculo de probabilidades, se ha constituido en una rama de la matemática aplicada, entendiendo ésta como el uso de principios y modelos matemáticos en diversos ámbitos de la ciencia o la técnica.

Dentro del Análisis Estadístico de Datos encontramos dos vertientes:

Análisis Estadístico de Datos (propiamente matemático), que supone el estudio de los fenómenos estadísticos utilizando los métodos matemáticos y proporciona conocimiento acerca de las técnicas que integran los métodos estadísticos.

Análisis Estadístico de Datos Aplicado; este carácter aplicado ha estado presente desde los inicios de esta ciencia, sobre todo en cuanto a su conexión con el estudio y resolución de problemas prácticos con datos reales. Todo ello ha estimulado la innovación de nuevos métodos y procedimientos, y el avance de análisis estadísticos.

A continuación expondremos las características propias que definen el concepto de Análisis Estadístico de Datos:

Carácter teórico y aplicado. Estudio de conjunto de datos. Trabajo con datos procedentes de observaciones o mediciones. Carácter cuantitativo de los datos. Reducción de la información. Generalización a colectivos más amplios.

Por tanto, como ya mencionamos, el Análisis Estadístico de Datos no se limita sólo a su tratamiento sino que se extiende a tareas previas y posteriores a esta fase. También puede ocuparse de la recogida de datos (referido a las técnicas y métodos de muestreo y a la evaluación de la calidad de los instrumentos que se diseñan para la recogida de datos) y la interpretación de los resultados (afirmaciones que se realizan como consecuencia de la aplicación de métodos estadísticos: descripción, reducción, generalización).

Terminaremos este apartado sintetizando los rasgos más relevantes que llevan a definir el Análisis Estadístico de Datos:

Es una ciencia cuyo objeto es el estudio de métodos y técnicas para el tratamiento de conjuntos de datos numéricos.

Las técnicas estadísticas permiten la descripción de conjuntos de datos y la inferencia sobre conjuntos más amplios.

Los métodos desarrollados por esta ciencia pueden ser aplicados a distintos campos del saber, constituyendo un importante instrumento para el estudio científico.

Así, definimos el Análisis Estadístico de Datos como un conjunto de métodos, técnicas y procedimientos para el manejo de datos, su ordenación, presentación, descripción, análisis e interpretación, que contribuyen al estudio científico de los problemas planteados en el ámbito de la educación y a la adquisición de conocimiento sobre las realidades educativas, a la toma de decisiones y a la mejora de la práctica desarrollada por los profesionales de la educación (Gil Flores, 1996: 43).

Page 6: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 6

EL ANÁLISIS ESTADÍSTICO DE DATOS EN LAS DISTINTAS FASES DEL PROCESO DE INVESTIGACIÓN

El Análisis Estadístico de Datos desempeña un papel relevante dentro de campo de la investigación educativa. No obstante, dichas técnicas de análisis cobran especial importancia dentro del enfoque positivista. Desde esta perspectiva, existen razones que justifican la utilización del Análisis Estadístico de Datos en la investigación Educativa (Guilford y Fruchter, 1978):

Permite el tipo de descripción más exacta. Si el objetivo de la ciencia es la descripción de fenómenos, el Análisis Estadístico de Datos forma parte del lenguaje descriptivo que necesita el científico.

Nos fuerza a ser definidos y exactos en nuestros procedimientos y en nuestro pensamiento, evitando las conclusiones vagas.

Nos permite reducir los datos en una forma significativa y conveniente, poniendo orden en el caos.

Facilita la extracción de conclusiones generales, siguiendo reglas aceptadas para llegar a ellas.

Permite hacer predicciones sobre lo que ocurrirá bajo condiciones que conocemos y hemos medido. Tales predicciones pueden contener error, pero el Análisis Estadístico de Datos nos informa también del margen de error que cometemos.

Nos permite analizar algunos de los factores causales que explican fenómenos complejos.

También Análisis Estadístico de Datos como herramienta de trabajo útil en la investigación educativa ya que nos ofrece técnicas y procedimientos que pueden aplicarse en la fase de Análisis de Datos. No obstante, no queda limitado a dicha fase ya que contribuye a otras o a diferentes momentos del proceso de investigación.

De esta manera, intentamos resalta la presencia del Análisis Estadístico de Datos en diferentes momentos del proceso de investigación y la utilidad de las técnicas estadísticas en y para el mismo. Dicho proceso constituye un todo interrelacionado en el que la toma de decisiones que realicemos sobre cualquier elemento del mismo supone un condicionante de cara a los demás elementos.

Planteamiento del problema y formulación de hipótesis

El Análisis Estadístico de Datos está presente en la formulación del problema de investigación. Como señalamos, el proceso de investigación es un todo interrelacionado en el que las decisiones que tomemos con respecto a algunos de sus elementos condicionan a los demás elementos del proceso. La formulación del problema determinará el tipo de datos que es necesario recoger, las técnicas de recogida adecuadas para ello y los procedimientos estadísticos que se utilizarán en el análisis. En la definición del problema aparecerá una limitación de la amplitud del estudio, de tal forma que si éste se dirige a toda una población, tendremos que pensar en procedimientos de la estadística Descriptiva, mientras que si nos limitamos al estudio de una muestra, habremos de recurrir a la estadística inferencial.

Definimos problema como una laguna en el conocimiento (un interrogante que nos hacemos) para la cual no tenemos solución aceptable. El problema ha de ser relevante

Page 7: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 7

y verificable empíricamente y se debe formular de manera clara y breve. En este sentido, es muy importante la resolubilidad del problema de investigación, aspecto que en ocasiones sólo queda garantizado si contamos con técnicas estadísticas adecuadas y potentes, capaces de abordar los interrogantes de partida. Por ejemplo, el planteamiento de problemas que supongan comparaciones entre múltiples grupos no podría hacerse sin contar con técnicas como el análisis de la varianza; un gran número de problemas de investigación en los que se incluyen múltiples dimensiones o variables simultáneamente no han llegado a ser estudiados hasta que no se ha contado con técnicas de análisis multivariante que permiten abordar su estudio.

De igual manera, el Análisis Estadístico de Datos está presente en la formulación de hipótesis, ya que ésta no puede hacerse sin tener en cuenta las técnicas estadísticas que permiten su contrastación. Como afirman Arnal, Del Rincón y Latorre (1992), el investigador se ve en la necesidad de salvaguardar la coherencia entre la teoría, la hipótesis y el posterior análisis estadístico que le permitirá aceptarla o rechazarla. Una hipótesis es una solución por adelantado que se da al problema de investigación que formulamos; es una conjetura, una solución posible. En el marco de los programas de investigación positivistas, la hipótesis científica habrá de ser expresada en términos estadísticos para su contrastación.

Diseño de investigación

Como expusimos en un apartado anterior, el Análisis Estadístico de Datos forma parte de los diseños de investigación experimentales. En el concepto de diseño contemplamos por un lado la organización de los aspectos que constituyen el experimento (en los que el Análisis Estadístico de Datos está presente en la medida que facilitan el análisis de datos y posibilitan el control de la varianza debida a variables extrañas), y por otro, el procedimiento estadístico que hace posible la interpretación de los resultados (Fisher, 1953).

El Análisis Estadístico de Datos también está presente cuando el diseño contempla la selección de sujetos. La teoría de muestras proporcionará tanto los procedimientos de selección como la determinación del tamaño muestral necesario para mantener el error dentro de los límites aceptables.

Por otro lado, la recogida de datos es una tarea para la que aparentemente las técnicas estadísticas parecen no jugar un papel relevante. Sin embargo, el Análisis Estadístico de Datos tiene un lugar especial en la construcción y validación de instrumentos que se utilizan para la recogida de datos. Por ejemplo, la determinación de la fiabilidad y validez de algunos instrumentos se apoya directamente en coeficientes de correlación, o la aplicación de técnicas de análisis de componentes principales o análisis factorial permite explorar la dimensionalidad de los instrumentos.

Además, el Análisis Estadístico de Datos puede participar indirectamente en la operación de recogida proporcionando primeras elaboraciones de los datos en el momento mismo de su registro.

Page 8: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 8

Análisis de Datos

Tras la recogida de datos procedemos al análisis de los mismos. Es decir, pretendemos transformar, organizar, resumir y sacar indicadores básicos de la información recogida, y en función de dichos indicadores extraer conclusiones, y también generalizar los resultados a las poblaciones de donde las muestras fueron extraídas. Todas estas tareas corresponden al Análisis Estadístico de Datos.

El procedimiento de Análisis suele comenzar con una depuración de los datos para tratar de eliminar o corregir los posibles errores que se hayan cometido en la fase de registro o codificación de la información recogida. Una segunda fase es la descripción de las variables que entrarán a formar parte del estudio, teniendo en cuenta el enfoque del que partimos (univariante, multivariante o aplicación de técnicas inferenciales).

No obstante, existen vías diferentes al Análisis Estadístico de Datos dentro de la investigación educativa. En ellas nos centraremos en el último tema del programa de la asignatura. En este sentido, entre los procedimientos de Análisis de datos, entendidos como técnicas para extraer información de los datos e interpretar su significado, cabría hacer una distinción entre:

Análisis Cualitativo, que expresa, ordena, describe, interpreta los datos mediante conceptos, razonamientos y palabras, y

Análisis Cuantitativo, en el que se recurre a conceptos y razonamientos que se apoyan en números y estructuras matemáticas (Yela, 1994).

Obtención de conclusiones y redacción del informe de investigación

Aplicar técnicas de Análisis Estadístico nos lleva de manera directa a la obtención de conclusiones, las cuales estarán, de alguna forma predeterminadas por el tipo de técnicas que usemos.

Estas conclusiones, al igual que todo el proceso de investigación, deben contar con la inclusión de resultados estadísticos. De esta manera, el Análisis Estadístico de Datos está presente en la fase de redacción del informe de investigación. Para ilustrar tales conclusiones se utilizarán cuadros, tablas y gráficos, que recogerán medias, porcentajes, coordenadas, correlaciones, o cualquier otro tipo de estadísticos necesarios para ilustrar de manera adecuada la investigación realizada.

Page 9: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 9

CONTENIDOS DEL ANÁLISIS ESTADÍSTICO DE DATOS

Lejos de realizar una exhaustiva revisión de todas las técnicas y métodos estadísticos existentes, nuestra pretensión en este apartado es apuntar a grandes rasgos los principales campos en que se estructura el Análisis Estadístico de Datos, y sobre todo el que habitualmente se aplica en el campo de las Ciencias de la Educación.

No obstante, aquí adoptaremos la solución de distinguir entre:

Estadística descriptiva, procedimientos dirigidos a la organización y descripción de un conjunto de datos, y

Estadística inferencial, que se orientan a realizar inferencias sobre una población a partir de las características conocidas para una muestra extraída de ella.

Es frecuente que se otorgue especial importancia a la Estadística inferencial, considerándola el verdadero objetivo de la Estadística; la descriptiva tendría únicamente la finalidad de proporcionar los índices a partir de los cuales se estimarán los parámetros.

Si adoptáramos únicamente la complejidad como criterio, basándonos en el número de variables implicadas, podríamos hablar de:

Estadística univariada, Bivariada o Multivariada.

El esquema a seguir en la presentación de los contenidos de la Estadística podría estar basado en el planteamiento clasificatorio que suele adoptarse a la hora de recoger las técnicas estadísticas en los manuales dedicados a esta materia:

Los procedimientos de la Estadística descriptiva e inferencial se reducirían a las técnicas que suponen el tratamiento de una o dos variables; cuando entramos en el manejo simultáneo de más de dos variables suele considerarse un apartado diferente de la Estadística al que se califica con el término de Estadística multivariante. Pero no debe perderse de vista que este modo de clasificación no es sino una solución práctica, que desde el punto de vista teórico presenta algunas dificultades.

Al diferenciar entre estos tres tipos de técnicas no hemos logrado una verdadera clasificación del Análisis Estadístico de Datos; Estadística descriptiva, inferencial y multivariante, en sentido estricto, no representan una partición del conjunto de contenidos de la Estadística, es decir, no constituyen subconjuntos disjuntos ni tampoco abarcan entre ellas todo el dominio de las técnicas estadísticas. No obstante, en esta materia nos centraremos en los dos primeros bloques de contenidos citados: Estadística descriptiva e inferencial.

Page 10: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 10

LA INFORMÁTICA EN EL ANÁLISIS ESTADÍSTICO DE DATOS

Auge y desarrollo /expansión de la Informática desde hace algunos años en el campo de la investigación educativa, y más concretamente en el ámbito del Análisis de Datos.

Aplicaciones de la informática muy importantes si tenemos en cuenta la cantidad de datos que manejamos normalmente y también los diferentes tipos de análisis que se realizan. En este sentido, los programas informáticos facilitan mucho la tarea pero es importante que resaltemos la correcta utilización de los mismos y la coherencia y lógica del investigador en tales procesos. Es fundamental que la informática siempre responda al problema de investigador y objetivos planteados, y no sustituya al analista.

De todas las funciones que el ordenador puede cubrir en la investigación educativa, es quizá la del Análisis de Datos la que con mayor claridad puede haberse beneficiado de este tipo de herramientas. El ordenador ha venido a revolucionar este campo, permitiendo la aplicación de complejos procedimientos de análisis y, de alguna manera, simplificándolos.

Si el impacto de la informática en el campo de la investigación educativa ha sido considerable, en el caso del Análisis de Datos esta afirmación cobra pleno sentido. El Análisis de Datos "ha recibido un impulso revolucionario con la generalización del uso de los ordenadores" (Bisquerra, 1989:230), hasta tal punto que hoy es difícil concebir este proceso desligado de la utilización de tales máquinas. Algunas de las ventajas y posibilidades que lleva consigo el uso de la informática en el Análisis Estadístico de Datos son:

Ha permitido un considerable ahorro de tiempo y esfuerzo. Los cálculos manuales que costaban al investigador largas horas de trabajo, incluso utilizando la calculadora, la máquina los realiza en pocos segundos.

Posibilita una mayor exactitud en los cálculos. Es evidente que el cálculo manual, además de ser lento conlleva aproximaciones o redondeos, sobre todo cuando se trabaja con números decimales y se requieren cálculos encadenados, que pueden llegar a suponer un considerable error en los resultados finales obtenidos. Por otra parte, en el dominio de la inferencia estadística, el ordenador nos ofrece posibilidades con mayor exactitud que las obtenidas mediante tablas de distribuciones teóricas de probabilidad habitualmente usadas.

Ha abierto la posibilidad de manejar grandes cantidades de datos, de trabajar con muestras mayores y de incluir más variables, haciendo que el análisis de grandes bancos de datos o la aplicación de complejas técnicas multivariantes a grandes muestras no presenten tareas inabordables en la práctica.

Considerando dichas ventajas, la Informática en el Análisis Estadístico de Datos:

Al liberarnos de tiempo en la realización de cálculos el investigador puede centrarse en otros momentos o tareas conceptuales más relevantes del proceso de investigación como la toma de decisiones respecto al proceso estadístico a seguir o a la técnica concreta que se deberá emplear, mayor atención al análisis crítico del proceso y a la interpretación de resultados.

También nos ofrecen la posibilidad de realizar cálculos para la comparación de resultados utilizando métodos diferentes, aspecto que no se realizaba por

Page 11: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 11

considerar un esfuerzo adicional para el investigador, además de la dificultad que entrañaba un análisis.

Otra de las posibilidades que abrió la informática fue el tratamiento conjunto de múltiples variables y, por ende, el desarrollo de análisis multivariante, en los que se observaba una creciente complejidad estadística.

La triangulación multimétodos y el manejo de grandes muestras y elevado número de variables contribuye al aumento de la fiabilidad y validez de los estudios y, por ende, su poder de generalizar los resultados.

No obstante, el desarrollo de la Informática no sólo ha supuesto beneficios para el Análisis Estadístico de Datos sino también a la mejora y desarrollo de técnicas estadísticas más complejas e innovadoras.

Teniendo en cuenta las ventajas que representa el uso del ordenador y el papel que juega en el Análisis Estadístico de Datos, hoy día resulta inconcebible la realización de este tipo de análisis en la investigación educativa que no se apoyen en la informática.

Actualmente, gracias al avance y desarrollo del mundo de la informática contamos con un gran número de programas para el Análisis de Datos. Los diferentes tipos de datos (cuantitativos o cualitativos) exigen diferentes software informático, ya que requieren diferente tratamiento.

En este curso, al centrar nuestra atención principalmente en el Análisis Estadístico de Datos, tendremos como soporte el software EXCEL, utilizándolo para generar archivos de datos, transformarlos y realizar análisis estadísticos, atendiendo, como ya señalamos, tanto a la Estadística Descriptiva como a la Inferencial

Page 12: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 12

Organización y presentación de los datos

1. Conceptos previos sobre medición y escalas de medida. 2. Ordenación y clasificación de los datos: distribuciones de frecuencias. 3. Representación gráfica de datos.

Referencia básica para el tema: GIL, J.; RODRÍGUEZ, G. y GARCÍA, E. (1995). Estadística Básica Aplicada a las Ciencias de la Educación. Sevilla, Kronos. (Cap.2 y 3).

CONCEPTOS PREVIOS SOBRE MEDICIÓN Y ESCALAS DE MEDIDA

Concepto de medida Niveles de medida Constante, variable, modalidades y clases

Concepto de medida

Asignación de números a los objetos con la intención de representar alguna de sus características.

Toda medición implica establecer una regla para hacer corresponder los números con las distintas formas en que se presenta una característica de los objetos o individuos. En el caso de la investigación educativa, se suelen asignar números a conductas, opiniones, actitudes, intereses, etc. manifestadas por individuos o grupos.

Niveles de medida

Según el modo en que se utilizan los números en la medición, podemos hablar de distintos niveles de medida:

a) Nivel nominal. El nivel nominal de medición consiste en asignar números que hacen la función

de meros nombres o etiquetas. Si empleamos un nivel de medida nominal lo único que podemos inferir es que

los objetos difieren entre sí respecto del atributo medido, aunque ello no implica ninguna otra propiedad.

b) Nivel ordinal. El nivel ordinal de medida supone que podemos establecer una ordenación,

creciente o decreciente, con los objetos o hechos que medimos. Con un nivel de medida ordinal podríamos establecer sin dificultad que algo es

diferente de algo, y que es mayor o menor, pero no cuánto mayor o menor.

c) Nivel de intervalo En este nivel de medida, distancias numéricamente iguales representan

distancias iguales con respecto a la propiedad que se está midiendo. Una medición a nivel de intervalo posee las características de los dos niveles

anteriores, por lo que podemos establecer diferencias entre objetos,

Page 13: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 13

determinar una ordenación entre ellos y además, conocer en qué cuantía unos objetos son mayores o menores que otros.

d) Nivel de cociente, razón o proporciones. Este nivel de medición añade a la medida en escala de intervalo la existencia

de un cero absoluto. Además de las propiedades de los niveles anteriores, en las medidas en

escala de razón puede afirmarse que el valor cero indica ausencia total del rasgo medido.

Constante, variable, modalidades y clases

Una constante es una característica que se manifiesta de manera similar en todos los objetos o individuos sobre los que se realiza la medición. Es decir, presenta un único valor posible.

Una variable es una característica que puede manifestarse de manera diferente en un grupo de objetos o individuos sobre los que se realiza la medición. Cada uno de los valores asumidos es una modalidad.

Cuando el número de modalidades bajo el que se mide una variable es muy grande, las modalidades pueden ser agrupadas en clases. De esta manera, se pasa de un número amplio de modalidades a un número mucho más reducido de clases. Al definir clases, deben respetarse al menos dos criterios:

Las clases deben ser mutuamente exclusivas. Es decir, una modalidad no puede formar parte de dos clases; quedará incluida en sólo una clase.

Las clases deben ser exhaustivas. La definición de clases debe cubrir todas las modalidades, de forma que ninguna modalidad quede sin pertenecer a alguna clase.

ORDENACIÓN Y CLASIFICACIÓN DE LOS DATOS: DISTRIBUCIONES DE FRECUENCIAS

Frecuencias y distribución de frecuencias Distribución de frecuencias agrupadas

Frecuencias y distribución de frecuencias

Las técnicas más habituales para ordenar, clasificar y presentar datos son las distribuciones de frecuencias. Comenzaremos concretando el concepto de frecuencia.

Frecuencia hace alusión al número de veces que se da un fenómeno. En estadística, la frecuencia va referida al número de veces en que aparece un determinado valor para una variable. Comenzaremos diferenciando dos tipos de frecuencias:

Frecuencia absoluta individual (fi) de un valor. Es el número de veces que aparece repetido dicho valor en un conjunto de n puntuaciones. La suma de las frecuencias fi para todos los valores coincide con el valor de n.

Page 14: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 14

Frecuencia relativa individual (pi) de un valor. Es el cociente entre la frecuencia absoluta individual y el tamaño de la muestra. Es decir, pi = fi/n. Lo más frecuente es utilizar este tipo de frecuencia en términos porcentuales, expresándola como Pi=(fi /n) x 100. En este caso, la suma de las Pi para todos los valores es 100.

A partir de las frecuencias alcanzadas por las distintas modalidades de una variable, puede organizarse una distribución de frecuencias. Una distribución de frecuencias consiste en presentar ordenadamente todos los valores asumidos por la variable estudiada, situando a su derecha la frecuencia con que aparecen (al menos, su frecuencia absoluta).

En la distribución de frecuencias podrían aparecer además otro tipo de frecuencias. Vamos a considerar ahora las frecuencias acumuladas:

Frecuencia absoluta acumulada (fa) de un valor. Es la suma de las frecuencias absolutas que corresponden a todos los valores iguales o menores que él. La frecuencia fa para el valor más alto de la variable coincide con n.

Frecuencia relativa acumulada (pa) de un valor. Es la suma de las frecuencias relativas de los valores iguales o menores que él. Expresada en términos de porcentaje, aparece como Pa, y la Pa correspondiente al valor más alto resulta ser 100.

Distribución de frecuencias agrupadas

Una distribución de frecuencias agrupadas se origina cuando en lugar de modalidades consideramos clases. Suele recurrirse a ellas cuando se pretende simplificar la presentación de variables que poseen muchas modalidades posibles.

Un caso particular de agrupamientos se da en los valores correspondientes a variables continuas, medidas al menos en escala de intervalos. En esta situación, la clase de valores que adoptamos se denomina intervalo y comprende las modalidades de una variable contenidas entre los dos valores que delimitan el intervalo.

Conceptos relativos al agrupamiento en intervalos:

Límites aparentes de un intervalo. Son los valores que delimitan el segmento de valores que constituyen un intervalo. Para cada intervalo existe un límite inferior y un límite superior.

Límites reales de un intervalo. El límite real inferior de un intervalo es el valor que resulta de disminuir el valor del límite aparente inferior en media unidad de medida. El límite real superior de un intervalo resulta de incrementar el límite superior aparente en media unidad de medida.

Amplitud de un intervalo. Es la distancia existente entre el límite real inferior y el límite real superior de un intervalo. También se podría definir como la diferencia entre los límites aparentes del intervalo incrementada en la unidad de medida.

Punto medio de un intervalo. Es el valor que se obtiene como promedio de los dos límites del intervalo (real o aparente).

Page 15: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 15

REPRESENTACIÓN GRÁFICA DE DATOS

Diagrama de barras. Consiste en indicar por medio de una barra o rectángulo las frecuencias correspondientes a cada modalidad o clase de modalidades. Las alturas de las barras son proporcionales a las frecuencias alcanzadas, con independencia de que se trate de frecuencias absolutas o relativas.

Cuando representamos variables medidas en una escala nominal, las modalidades o clases pueden ser colocadas en cualquier orden.

Cuando las variables se miden en escala ordinal, las barras deben ser colocadas en un orden determinado por la ordenación que se establece entre las modalidades.

Histograma. Cuando la variable a representar está medida en una escala de intervalos, en lugar del diagrama de barras recurrimos al histograma. Este es similar al diagrama de barras, pero la base de cada rectángulo coincide con los límites reales del intervalo y el orden de presentación de las modalidades en el eje de abscisas no es arbitrario. El histograma puede construirse para frecuencias absolutas o relativas, tanto si son individuales como acumuladas.

El histograma puede ser construido para representar frecuencias (también porcentajes) o frecuencias acumuladas.

Page 16: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 16

Polígono de frecuencias. Consiste en una línea poligonal que une el punto medio de cada intervalo, tomado a una altura que resulta proporcional a la frecuencia alcanzada en el intervalo. La línea obtenida de este modo cierra el polígono al ser unida a los puntos medios del intervalo anterior y posterior sobre el eje de abscisas Puede construirse a partir del histograma.

Polígono de frecuencias acumuladas. Es una línea poligonal mediante la cual se representan las frecuencias que acumulan los intervalos. Se construye cómodamente sobre el polígono de frecuencias acumuladas, uniendo el vértice inferior izquierdo de cada intervalo con su vértice superior derecho.

Gráfica circular. Es un diagrama en forma de círculo, el cual se encuentra dividido en tantos sectores circulares como modalidades presenta la variable. La amplitud de cada sector circular es proporcional a la frecuencia de la modalidad correspondiente.

PROBLEMAS RESUELTOS

Problema 1: Hemos recogido los siguientes datos, correspondientes a las puntuaciones obtenidas por 25 alumnos en un test de inteligencia. Organízalos en una distribución de frecuencias sin agrupar en intervalos.

105, 99, 109, 100, 94, 100, 97, 120, 99, 107, 96, 107, 100, 109, 105, 97, 100, 105, 96, 99, 100, 97, 105, 107, 99.

Solución 1: Para realizar la distribución de frecuencias debemos, en primer lugar, ordenar los datos (de mayor a menor o de menor a mayor), representarlos en una tabla y realizar el recuento correspondiente a cada uno de los valores (las "marcas" facilitan dicha labor), tal y como se expresa en la tabla siguiente:

Puntuaciones Marcas Frecuencias

120 109 107 105 100 99 97 96 94

/ // /// //// ///// //// /// // /

1 2 3 4 5 4 3 2 1

Page 17: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 17

Problema 2: Construye la distribución de frecuencias absolutas y relativas, tanto individuales como acumuladas, para las siguientes puntuaciones. Agrupa los datos en intervalos de amplitud 5.

3, 6, 7, 9, 9, 12, 12, 13, 13, 14, 14, 15, 15, 16, 16, 20, 20, 20, 20, 20, 22, 23, 24, 24, 24, 25, 25, 28, 35, 37.

Solución 2: En primer lugar, calculamos la amplitud total para la serie de puntuaciones con las que vamos a trabajar.

A.T. = PMAYOR - PMENOR + 1 = 39 - 3 + 1 = 37

A continuación determinamos el número de intervalos necesarios. Teniendo en cuenta que la amplitud del intervalo debe ser igual a 5, de acuerdo con el enunciado del problema, el número de intervalos vendrá dado por la relación (cociente) entre la amplitud total y la de cada intervalo: 37/5 = 7.4.

Este valor nos indica que necesitamos un número superior a 7 intervalos para distribuir todas nuestras puntuaciones en intervalos de amplitud 5. El número de intervalos mínimo necesario sería 8. Una vez construidos los intervalos, determinamos la frecuencia absoluta individual (f) en cada uno de ellos, la proporción (p), el porcentaje (P) y los correspondientes valores acumulados para todos ellos (fa, pa y Pa).

Intervalos Marcas f p P fa pa Pa

36 - 40 31 - 35 26 - 30 21 - 25 16 - 20 11 - 15 6 - 10 1 - 5

/ / /

///// // ///// // ///// ///

//// /

1 1 1 7 7 8 4 1

0.0333 0.0333 0.0333 0.2333 0.2333 0.2667 0.1333 0.0333

3.33 3.33 3.33

23.33 23.33 26.67 13.33 3.33

30 29 28 27 20 13 5 1

1.0000 0.9667 0.9333 0.9000 0.6667 0.4333 0.1667 0.3333

100.00 96.67 93.33 90.00 66.67 43.33 16.67 33.33

No obstante, podríamos haber organizado los datos comenzando el primer intervalo con un límite aparente inferior distinto (por ejemplo, 2 ó 3). En ese caso, la distribución resultante diferirá algo de la aquí construida.

Problema 3: Los 31 profesores de una Escuela de Educación Primaria se agrupan, en función de su situación administrativa, de la forma que recogemos a continuación. Representalos mediante una gráfica circular o ciclograma.

Situación Administrativa Nº Profesores

Definitivos Provisionales En comisión de servicios Interinos

15 10 4 2

Page 18: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 18

Solución 3: En este caso la superficie del círculo (360o) se reparte proporcionalmente a las frecuencias de cada categoría. Los profesores definitivos ocuparán un sector circular que representa el 48.39% de los 360o, es decir, 360 x 48.39/100 = 174o que suponen algo menos de un ángulo llano. Los profesores provisionales estarán representados por un sector de 360 x 3226/100 = 116o, es decir, algo más que un ángulo recto. Cálculos análogos determinan un sector circular de 47o para los profesores en comisión de servicios y 23o para los interinos.

Problema 4: Representa mediante un histograma las edades (en meses) de los 60 alumnos del segundo ciclo de Educación Preescolar de un Jardín, cuya distribución de frecuencias es la siguiente:

Edades Nº Alumnos

55 - 59 50 - 54 45 - 49 40 - 44 35 - 39 30 - 34 25 – 29

16 10 8 7 8 6 5

Solución 4: El histograma es similar a un diagrama de barras en el que estas se levantan sobre los límites reales de los intervalos, apareciendo, por tanto, unidas lateralmente entre sí.

Page 19: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 19

Problema 5: Representa en un polígono de frecuencias los siguientes datos, correspondientes a los C.I. de un grupo de 25 alumnos de 61 de Educación Primaria.

C.I. Nº Alumnos

116 - 120 111 - 115 106 - 110 101 - 105 96 - 100 91 – 95

1 3 7

11 2 1

Problema 6: Representa mediante un polígono de frecuencias acumuladas los datos relativos al C.I. de un grupo de 25 alumnos de 61 de Educación Primaria utilizados en el problema anterior.

Solución 6: El polígono de frecuencias acumuladas se construye de forma muy parecida al polígono de frecuencias, con la diferencia de que aquí la altura viene dada por las frecuencias acumuladas (frecuencia de cada intervalo más frecuencias de los intervalos anteriores). Además, la línea comienza en el eje de abscisas en el límite inferior real del primer intervalo, y une los puntos situados sobre cada límite superior real, a una altura igual a la frecuencia acumulada en cada intervalo.

Page 20: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 20

PROBLEMAS PROPUESTOS

1. Los años de experiencia de 50 profesores, elegidos al azar, son los que se presentan a continuación. Construye la distribución de frecuencias para el total de las puntuaciones.

1 2 5 8 7 9

10 3 9

10

15 20 14 7 2 1 3 7 9 4

2 25 16 1

28 30 32 16 14 15

19 17 16 14 12 35 3 5 2 4

7 12 9

16 28 39 16 14 22 7

2. Las notas obtenidas en selectividad por un grupo de alumnos que finalizaron sus estudios de Enseñanza Secundaria, son las que mostramos a continuación. Organiza los datos agrupándolos en 8 intervalos, de modo que el límite inferior aparente del intervalo de puntuaciones más bajas sea el valor 5.1. Representa gráficamente la distribución mediante un histograma y un polígono de frecuencias.

6.4, 7.1, 7.8, 5.1, 6.3, 6.2, 9.0, 7.2, 6.9, 7.7, 8.8, 5.7, 6.9, 7.4, 8.2, 6.2, 7.4, 6.7, 7.1, 6.3, 6.6, 5.8, 6.7, 7.0, 6.1, 7.3, 6.0, 6.9, 8.4, 5.6, 7.1, 6.3, 6.5, 7.0, 6.9, 5.5.

3. Un profesor interesado en estudiar el tiempo requerido para resolver tareas de resolución de problemas, recoge datos acerca del número de segundos que tarda un grupo de 36 alumnos en encontrar la solución a una interrogante. Ordena los datos presentándolos agrupados por intervalos de amplitud 2 y comenzando por el valor más pequeño de todos los obtenidos.

89, 89, 85, 83, 92, 91, 81, 88, 94, 81, 85, 87, 93, 92, 84, 87, 88, 90, 86, 80, 93, 95, 89, 87, 91, 88, 90, 93, 88, 83, 91, 87, 85, 83, 89, 90.

4. Para conocer la aceptación que las actividades culturales realizadas en una Universidad tiene entre los alumnos de las distintas facultades, se registra la carrera cursada por cada uno de los estudiantes que participan en las actividades programadas durante un curso académico. Representa gráficamente dicha distribución.

Carrera fi

Arquitectura Bellas Artes Biología Económicas Enfermería Farmacia Filosofía Físicas Geografía e Hª

45 88 90 120 29 45 37 42 108

Page 21: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 21

5. A continuación se presentan las puntuaciones obtenidas por los alumnos de una clase de Formación Profesional en una prueba de aptitud espacial. Agrupa dichos datos en una distribución de frecuencias que comience por el intervalo 30-32. Construye a continuación un histograma para frecuencias acumuladas.

40 45 42 36 38 30

36 38 38 40 42 44

32 35 31 33 36 30

35 37 39 32 36 38

31 33 34 36 38 33

6. En una clase de Estadística hay un total de 41 alumnos a los que se les ha aplicado una prueba de matemáticas, que arrojó las siguientes puntuaciones. Construye una distribución de frecuencias con intervalos de amplitud cinco, comenzando por la puntuación 42.

76, 82, 75, 44, 55, 46, 61, 55, 74, 70, 80, 72, 74, 60, 79, 67, 52, 69, 63, 64, 77, 66, 69, 86, 59, 68, 85, 75, 68, 60, 48, 42, 68, 75, 84, 56, 47, 53, 61, 61, 74.

Page 22: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 22

Técnicas descriptivas básicas para una variable

1. Medidas de tendencia central a. Media b. Mediana c. Moda.

2. Medidas de posición a. Percentiles b. Deciles c. Cuartiles

3. Medidas de dispersión a. Rango b. Amplitud c. Desviación media d. Varianza y desviación típica e. Coeficiente de variación f. Amplitud semiintercuartílica

Referencia básica para el tema: GIL, J.; RODRÍGUEZ, G. y GARCÍA, E. (1995). Estadística Básica Aplicada a las Ciencias de la Educación. Sevilla, Kronos. (Cap.4 y 5). ESCOBAR, M. (1999). Análisis gráfico/exploratorio. Madrid, La Muralla. (pp. 53-61).

MEDIDAS DE TENDENCIA CENTRAL

Son índices numéricos que se toman como representativos de un conjunto de puntuaciones, utilizando para ello valores que se sitúan hacia el centro del conjunto.

Media: Es el valor obtenido como suma de todas las puntuaciones de un grupo dividida por el número de ellas.

1. Cálculo:

Datos sin agrupar Datos agrupados por intervalos

donde: Xi es cada puntuación n es el número de casos

donde: Xi es el punto medio de cada intervalo fi es la frecuencia de cada intervalo r es el número de intervalos n es el número de casos

Page 23: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 23

b) Propiedades

La suma de las desviaciones de todas las puntuaciones respecto a la

media es 0.

La suma de las desviaciones al cuadrado respecto a la media es menor que respecto a otro valor cualquiera.

La media es sensible a la variación de cualquiera de las puntuaciones. Basta que cambie un solo valor para que la media se modifique.

Si se suma una constante a las puntuaciones de un grupo, la media quedará aumentada en dicha constante.

Si se multiplican por una constante las puntuaciones de un grupo, la media quedará multiplicada por dicha constante.

Si una variable X es combinación lineal de r variables X1, X2, ... Xr, su media se obtiene como combinación lineal de las medias de dichas variables.

Es decir, si entonces

Dados r grupos con n1, n2, ... nr casos y sus respectivas medias, la media global se obtiene ponderando dichas medias.

Cuando calculamos la media para datos agrupados en intervalos, el valor resultante depende de los intervalos elegidos (de su amplitud, su número y de los límites fijados).

La media puede calcularse cuando las variables se han medido en una escala de intervalo o razón.

Page 24: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 24

Mediana: Es el valor que divide en dos partes iguales a un conjunto de puntuaciones ordenadas, de tal forma que la mitad de las puntuaciones son mayores que la mediana y la otra mitad son mejores que ella.

a) Calculo

Datos sin agrupar Datos agrupados por intervalos

Se ordenan los datos de menor a mayor.

· Si el número de casos es impar, la mediana es el valor que ocupa la posición central en la serie.

· Si el número de casos es par, la mediana es el punto medio entre los dos valores centrales.

donde: Li es el límite inferior del intervalo crítico (que contiene a la mediana) I es la amplitud de los intervalos fi es la frecuencia absoluta en el intervalo crítico n es el número de casos fa es la frecuencia acumulada en el intervalo anterior al intervalo crítico

b) Propiedades.

Es menos sensible que la media a variaciones de las puntuaciones. Podría ocurrir que la modificación de un valor no altera la mediana

Para datos agrupados por intervalos, el valor de la mediana dependerá de la amplitud de los intervalos, el número de ellos y los límites fijados.

La mediana puede calcularse cuando se han medido las variables en escala ordinal o superior.

Page 25: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 25

Moda: Es el valor o modalidad que más se repite en un conjunto de medidas.

a) Cálculo

Datos sin agrupar Datos agrupados por intervalos

Se construye la distribución de frecuencias.

· El valor con frecuencia máxima es la moda.

· Si la frecuencia máxima se alcanza para dos o más valores, éstos constituyen modas. El grupo puede ser bimodal o multimodal.

· Si dos valores adyacentes alcanzan la máxima frecuencia, la moda es el promedio de ambos.

Punto medio del intervalo con mayor frecuencia, o bien:

donde: Li es el límite inferior del intervalo modal (que contiene a la moda). I es la amplitud de los intervalos. d1 es la diferencia entre las frecuencias del intervalo modal y el intervalo inferior. d2 es la diferencia entre las frecuencias del intervalo modal y el intervalo inmediato superior.

b) Propiedades

Es la medida de tendencia central más inestable, pudiendo variar mucho de una muestra a otra extraídas de la misma población.

Para datos agrupados por intervalos, el valor de la moda dependerá de la amplitud de los intervalos, el número de ellos y los límites fijados.

Puede determinarse para variables medidas en cualquier escala.

Page 26: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 26

MEDIDAS DE POSICIÓN

Son medidas que informan sobre la posición de determinadas puntuaciones individuales en relación con el grupo del que forman parte.

Percentiles

Son los 99 valores que dividen en cien partes iguales a una serie de puntuaciones ordenadas, de forma que el percentil Pm deja por debajo de sí el m por ciento de las puntuaciones del grupo.

Cálculo

Se obtienen de forma análoga a como lo hacíamos en el caso de la mediana. La fórmula de cálculo para el percentil m (Pm) en el caso de datos agrupados por intervalos, que representa una generalización de la que utilizábamos para la mediana, es la siguiente:

donde: Li es el límite inferior del intervalo crítico (que contiene a Pm) I es la amplitud de los intervalos fi es la frecuencia absoluta en el intervalo crítico n es el número de casos fa es la frecuencia acumulada en el intervalo anterior al intervalo crítico

La expresión m·n/100 representa el número de puntuaciones que quedarían por debajo del percentil m en la distribución estudiada. El intervalo crítico es precisamente aquél donde la frecuencia acumulada alcanza o supera ese número de puntuaciones.

Deciles

Son los 9 valores que dividen en diez partes iguales a una serie de puntuaciones ordenadas, de forma que el decil Dm deja por debajo de sí a m décimas partes del total de puntuaciones del grupo.

Cálculo

Para el caso de datos agrupados por intervalos, la expresión de cálculo es:

Page 27: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 27

Cuartiles

Son los 3 valores que dividen en cuatro partes iguales a una serie de puntuaciones ordenadas, de manera que el cuartil Qm deja por debajo de sí m cuartas partes del total de puntuaciones del grupo.

Cálculo

MEDIDAS DE DISPERSIÓN

Son medidas que informan sobre la variabilidad que existe en un conjunto de puntuaciones. Indican en qué medida las puntuaciones se sitúan próximas entre sí.

Rango

Es la distancia total en la escala numérica a lo largo de la cual varían las puntuaciones. También se denomina amplitud total o recorrido. Se utilizan dos tipos de rangos:

Rango excluyente: diferencia entre la mayor y la menor de las puntuaciones. Rango incluyente: diferencia entre la mayor y la menor de las puntuaciones

incrementada en la unidad de medida. Este suele ser el más utilizado.

Rango = Punt.máxima - Punt.mínima + unidad de medida

El rango es la más imperfecta de las medidas de dispersión, pues sólo tiene en cuenta las puntuaciones extremas.

Desviación media: Es la media del valor absoluto de las diferencias de todas las puntuaciones respecto a la media aritmética.

1. Cálculo:

Datos sin agrupar Datos agrupados por intervalos

donde: Xi es cada puntuación

es la media n es el número de casos

donde: Xi es el punto medio de cada intervalo

es la media fi es la frecuencia de cada intervalo r es el número de intervalos n es el número de casos

Page 28: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 28

Varianza y desviación típica: La varianza es el promedio del cuadrado de las diferencias de todas las puntuaciones respecto a la media aritmética.

Cálculo

Podemos proponer dos fórmulas equivalentes, tanto para datos sin agrupar como para datos agrupados por intervalos.

Datos sin agrupar Datos agrupados por intervalos

En el ámbito de la estadística inferencial, se utiliza una expresión de la varianza obtenida recogiendo en el denominador el factor n-1. A esta varianza se le denomina varianza insesgada.

La desviación típica se define como la raíz cuadrada de la varianza, tomada con signo positivo.

Propiedades de la varianza y la desviación típica

Adoptan siempre un valor positivo o igual a cero. Se ven afectadas por la modificación de cualquiera de las puntuaciones. Si multiplicamos un conjunto de puntuaciones por una constante, la

desviación típica y la varianza quedarán multiplicadas respectivamente por la constante y por el cuadrado de esa constante.

Si sumamos a un conjunto de puntuaciones una constante, la desviación típica y la varianza no se verán afectadas.

Para datos agrupados por intervalos, el valor depende de la amplitud de los intervalos, el número de ellos y los límites fijados.

No deben calcularse en situaciones en que tampoco debe calcularse la media.

Page 29: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 29

Coeficiente de variación: Es un índice abstracto, que permite comparar la variabilidad de distintos grupos o distintas variables.

Se obtiene a partir del número de veces que la desviación típica contiene a la media.

Amplitud semiintercuartílica:

Se define como la mitad de la distancia entre el primer y el tercer cuartil. Puede ser calculada cuando se ha medido la variable en escala ordinal o superior.

PROBLEMAS RESUELTOS

Problema 1 : Las puntuaciones obtenidas por un grupo de 38 alumnos en una prueba valorada de 0 a 100, las cuales se suponen medidas en escala de intervalos, son las que se presentan en la tabla.

a) Calcula la media aritmética, mediana y moda.

b) ¿Qué puntuación deja por debajo de sí el 75% de los casos? ¿Y el 25%? ¿Cómo se denominan dichas puntuaciones?

Intervalos f

91 - 100 81 - 90 71 - 80 61 - 70 51 - 60 41 - 50 31 - 40 21 - 30 11 - 20 1 - 10

2 0 3 6 7 9 4 5 1 1

Solución 1

a) La moda, valor más sencillo de calcular, es la puntuación con frecuencia máxima o puntuación que más se repite. Al estar los datos agrupados en intervalos, la moda será el punto medio del intervalo con frecuencia máxima, es decir Mo = 45.5.

Para calcular la media aritmética necesitamos los puntos medios de los intervalos y los productos de dichos puntos medios por las frecuencias. Dichos cálculos se expresan en la tabla que mostramos seguidamente.

Page 30: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 30

Intervalos f Xi fiXi

91 – 100 81 - 90 71 - 80 61 - 70 51 - 60 41 - 50 31 - 40 21 - 30 11 - 20 1 – 10

2 0 3 6 7 9 4 5 1 1

95.5 85.5 75.5 65.5 55.5 45.5 35.5 25.5 15.5 5.5

191 0

226.5 393

388.5 409.5 142

127.5 15.5 5.5

n = 38 1899

La mediana es la puntuación que deja por encima y por debajo de sí el 50% de los casos. Como tenemos 38 sujetos, la mediana será la puntuación que deje por encima y por debajo de sí 38/2=19 sujetos. Su fórmula de cálculo, para datos agrupados en intervalos, es la siguiente:

Como n/2=38/2=19 es una frecuencia acumulada que se alcanza dentro del intervalo 41-50 (intervalo crítico), sustituyendo en la fórmula anterior los valores del límite inferior de ese intervalo (Linfer), la amplitud de los intervalos (I), la frecuencia en el intervalo crítico (fi) y la frecuencia acumulada en el intervalo anterior al crítico (fa) tendremos

b) Las puntuaciones que dejan por debajo de sí el 25 y el 75% de los casos se conocen con el nombre de cuartil 1 (Q1) y cuartil 3 (Q3), respectivamente. Dichas puntuaciones se corresponden, igualmente, con los percentiles 25 y 75. Su cálculo viene dado por la fórmula

Cada uno de ellos se sitúa en los siguientes intervalos críticos:

Q3 : (338)/4=28.5 (intervalo 61 - 70)

Q1 : (138)/4=9.4 (intervalo 31 - 40)

Page 31: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 31

Sustituyendo los distintos valores en la fórmula, obtendremos

Problema 2: Las puntuaciones obtenidas por 59 alumnos en una prueba de prerrequisitos para la lectura son las que se recogen en la tabla siguiente.

a) Calcula P25,, P50, P75, P90, moda y mediana.

b) ¿Qué percentil corresponde a una alumna que ha obtenido una puntuación directa de 40 puntos? ¿Y a un alumno que obtuvo 34 puntos?

Intervalos F fa

47 - 49 44 - 46 41 - 43 38 - 40 35 - 37 32 - 34 29 - 31 26 - 28 23 - 25 20 - 22 17 - 19 14 - 16 11 - 13 8 - 10 5 - 7 2 - 4

4 7 4 8 4 1 5 6 6 4 3 2 2 2 0 1

59 55 48 44 36 32 31 26 20 14 10 7 5 3 1 1

Solución 2

a) Cálculo de los percentiles

Page 32: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 32

Se pide también el cálculo de la mediana y de la moda. La mediana ya está calculada, pues coincide con el percentil 50 (Md=P50=30.6). La moda es el punto medio del intervalo con frecuencia máxima, es decir Mo=39.

b) Se trata del problema inverso al apartado anterior, que podemos resolver aplicando la misma fórmula. El valor que buscamos no es, como ocurría anteriormente, Pm sino el valor m.

Problema 3: Los 25 alumnos de un aula de Educación Infantil han sido evaluados para determinar el nivel que presentan en ciertas variables relevantes para el aprendizaje de las matemáticas. Teniendo en cuenta que los resultados obtenidos en una prueba de discriminación de formas son los que aparecen a continuación, determina la tendencia central del grupo mediante la media, la mediana y la moda, así como el grado de dispersión que presentan las puntuaciones, expresado a partir de su rango y su desviación típica.

27, 35, 40, 26, 32, 31, 35, 28, 29, 25, 36, 31, 27, 29, 25, 32, 34, 28, 33, 35, 29, 30, 39, 27, 25.

Solución 3

En primer lugar organizamos las puntuaciones dadas en una distribución de frecuencias, lo cual aunque no es necesario resulta conveniente, ya que facilita los cálculos. En la tabla que se presenta a continuación incluimos, además de la distribución de frecuencias, los cálculos previos necesarios para resolver las cuestiones planteadas.

El cálculo de la media aritmética resulta sencillo teniendo en cuenta los cálculos previos:

Page 33: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 33

Xi Marcas fi Xifi X2i X2

ifi

25 /// 3 75 625 1875

26 / 1 26 676 676

27 /// 3 81 729 2187

28 // 2 56 784 1568

29 /// 3 87 841 2523

30 / 1 30 900 900

31 // 2 62 961 1922

32 // 2 64 1024 2048

33 / 1 33 1089 1089

34 / 1 34 1156 1156

35 /// 3 105 1225 3675

36 / 1 36 1296 1296

39 / 1 39 1521 1521

40 / 1 40 1600 1600

n=25 768 24036

La mediana es la puntuación que ocupa el lugar central. Puesto que contamos con 25 puntuaciones, la mediana será el valor que ocupe el lugar 13 (deja 12 por debajo y 12 por encima), es decir Md=30.

La moda es la puntuación o puntuaciones que más se repiten (las que tienen mayor frecuencia). En este caso, la distribución es multimodal, contando con cuatro modas que son 25, 27, 29 y 35.

El rango o amplitud total para la distribución es:

A.T. = Pmayor - Pmenor + 1 = 40 - 25 + 1 = 16

La desviación típica se obtiene a partir de su expresión de cálculo:

Page 34: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 34

Problema 4: Tras aplicar una prueba de memoria a 70 alumnos de Educación Primaria, pretendemos describir la dispersión del conjunto de puntuaciones obtenidas. Determina el valor del rango, la desviación media, la varianza, la desviación típica y el coeficiente de variación.

I fi

19 - 21 16 - 18 13 - 15 10 - 12 7 - 9 4 - 6 1 - 3

5 9

12 25 13 4 2

Solución 4

En la tabla siguiente se incluyen los cálculos previos para hallar las medidas de variabilidad solicitadas. En la primera columna se presentan los intervalos, en la segunda las frecuencias, en la tercera los puntos medios de cada uno de los intervalos, en la cuarta el producto de los puntos medios de cada uno de los intervalos por su frecuencia, en la quinta las diferencias en valor absoluto de cada punto medio de los intervalos con respecto a la media aritmética (x, por tanto, representa puntuaciones diferenciales), en la sexta la columna anterior multiplicada por la frecuencia de cada intervalo, en la séptima los valores de los puntos medios de cada uno de los intervalos elevados al cuadrado y, en la octava y última el valor de la columna anterior multiplicado por la frecuencia de cada intervalo.

I fi Xi Xifi │x│ fi│x│ X2i X2

ifi

19 - 21 16 - 18 13 - 15 10 - 12 7 - 9 4 - 6 1 - 3

5 9 12 25 13 4 2

20 17 14 11 8 5 2

100 153 168 275 104 20 4

8.23 5.23 2.23 0.77 3.77 6.77 9.77

41.15 47.07 26.76 19.25 49.01 27.08 19.54

400 289 196 121 64 25 4

2000 2601 2352 3025 832 100 8

70 824 229.86 10918

A.T = 21 -1 +1 = 21 (o bien, 21.5-0.5 = 21)

Page 35: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 35

Problema 5 : Una empresa dedicada a la selección de personal utiliza determinada prueba con la que mide la aptitud de los candidatos para desempeñar cierto puesto de trabajo. El total de aspirantes es de 190 y los resultados alcanzados por cada uno de ellos en la prueba son los que mostramos seguidamente.

Aptitud fi

125-129 120-124 115-119 110-114 105-109 100-104 95-99 90-94 85-89 80-84

7 8 12 20 27 41 32 30 11 2

a) Si pretendemos seleccionar a sólo 38 de los candidatos, ¿cuál es la puntuación mínima que habría de obtenerse para ser seleccionado?

b) ¿Qué porcentaje de sujetos quedaron por debajo de un aspirante que consiguió una puntuación de 105.5?

b) Determina la amplitud semiintercuartil para la distribución.

Solución 5

a) Si de los 190 sólo pretendemos seleccionar a 38, de 100 seleccionaríamos

38100/190=20. Por tanto, se nos pide la puntuación que deje por encima de sí el 20% de los casos, es decir el percentil 80 (puntuación que deja por debajo de sí el 80% y por encima el 20%).

Page 36: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 36

Es decir, la puntuación mínima que hay que alcanzar es 111.75 puntos.

2. Se trata en este caso de un problema inverso al anterior. Utilizamos la misma expresión analítica de los percentiles, pero el elemento desconocido ahora es m.

Por debajo de la puntuación 105.5 quedan el 63.89% de los sujetos.

c) Amplitud semiintercuartil.

Para calcular cada uno de los cuartiles debemos previamente determinar el intervalo en el que se encuentran.

Para Q3: Qn/4=3190/4=142.5 (intervalo 105-109)

Para Q1: Qn/4=1190/4=47.5 (intervalo 95-99)

Page 37: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 37

PROBLEMAS PROPUESTOS

1. Calcula media aritmética, mediana y moda en cada uno de los casos siguientes. Para el caso b, dibuja además el gráfico de caja correspondiente.

a) 2, 8, 3, 5, 4, 7, 9, 8, 5, 7, 6, 7, 8, 5, 4, 6, 7, 8, 7, 9. b) 2, 3, 2, 4, 5, 8, 6, 2, 2, 12, 6, 7, 8, 6, 1, 1, 5, 9, 7, 4.

2. Calcula rango, desviación media, varianza, desviación típica y coeficiente de variación en cada uno de los casos siguientes:

a) 9, 5, 9, 4, 9, 3, 9, 2, 9, 1. b) 8, 17, 8, 4, 24, 29.

3. Las puntuaciones obtenidas en un test de inteligencia, supuestamente bien construido, por 25 alumnos de 6º A de una Escuela de Educación Primaria son las siguientes:

Intervalos F

106 - 110 101 - 105 96 - 100 91 – 95

4 15 4 2

2. Calcula media, mediana y moda. 3. Calcula rango, desviación media, varianza, desviación típica y coeficiente de

variación.

c) Si las puntuaciones obtenidas en 6ºB (n = 24 alumnos) tienen por media 106 y varianza 7.22, ¿qué grupo es más homogéneo en lo que se refiere a los resultados obtenidos en dicho test?.

4. A continuación se presentan datos relativos al ausentismo escolar de los alumnos de una Escuela de Educación Primaria.

a) Determina la desviación media del ausentismo. b) Calcula la distancia entre los deciles 20 y 80. c) ¿Cuál es la amplitud semiintercuartil de la distribución? d) ¿Cuál es el porcentaje de absentismo por debajo del cual se sitúan el 70% de los alumnos del Centro? e) Halla la varianza. f) Si consideramos que en un Centro de estas características el absentismo que puede considerarse hasta cierto punto lógico es del 25%, ¿cuántos alumnos se situarían por debajo de dicho valor?

Page 38: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 38

% Ausentismo Nº Alumnos

91-100 81-90 71-80 61-70 51-60 41-50 31-40 21-30 11-20 1-10

44 18 14 35 26 26 30 70

220 17

4. La ratio media en los últimos 5 años en una Escuela de Educación Primaria es la en la siguiente:

Cursos Ratio

1º A 1º B 2º A 2º B 3º A 3º B 4º A 4º B 5º A 5º B 6º A 6º B

20 21 22 23 25 24 22 22 23 22 22 23

a) ¿Cuál es la desviación media de dicha ratio en la Escuela? b) ¿Y su varianza? c) La ratio media de la Escuela más próximo al indicado es 22 y la desviación típica 3. ¿Qué Centro puede considerarse más homogéneo con respecto a su ratio?

6. Un jugador del equipo de la Maestría en Ciencias Penales y otro del equipo de la Maestría en Educación, habitualmente reservas, cuando sus respectivos equipos juegan en la liga universitaria de fútbol, discuten sobre su regularidad goleadora en el último curso. El primero ha jugado 6 partidos marcando 0, 1, 0, 2, 1 y 2 goles, mientras que el segundo, que ha jugado 3 partidos, marcó 0, 1 y 2 goles respectivamente. ¿Qué jugador es más regular?

7. El número de alumnos de raza indigena en un Centro de integración, agrupados en función de la edad, es el que se presenta en la tabla siguiente:

Page 39: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 39

Edades Nº

15-16 13-14 11-12 9-10 7-8 5-6 3-4

5 15 20 25 35 48 50

a) Calcula los deciles 1 y 9. B)Determina los cuartiles 1, 2 y 3.

8. Las puntuaciones obtenidas por 28 alumnos en una prueba de velocidad lectora son las que se expresan en la tabla siguiente. Calcula la media, mediana y moda de las puntuaciones.

Puntuaciones f

60 – 64 55 - 59 50 - 54 45 - 49 40 - 44 35 - 39 30 - 34 25 - 29 20 - 24 15 - 19 10 - 14 5 - 9

1 2 3 4 4 4 3 2 2 1 1 1

9. Las puntuaciones obtenidas por un grupo de 20 alumnos de 6º de Educación Primaria en una prueba de inglés (calificada de 0 a 10) son las que se presentan en la tabla siguiente. ¿Cuál es la desviación típica de dicho grupo?

Puntuaciones fi

7 6 5 4 3 2 1

1 2 4 6 4 2 1

Page 40: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 40

Puntuaciones Individuales y Curva Normal

1. Puntuación típica 2. La curva normal 3. Áreas bajo la curva normal

Referencia básica para el tema: GIL, J.; RODRÍGUEZ, G. y GARCÍA, E. (1995). Estadística Básica Aplicada a las Ciencias de la Educación. Sevilla, Kronos. (Cap.6). ARDANUY, R. y TEJEDOR, J. (2001). Tablas Estadísticas. Madrid, La Muralla. (Tabla 7ª: Probabilidades de la Distribución Normal Estándar).

Puntuaciones Típicas

Son puntuaciones transformadas de gran utilidad en Estadística. Son conocidas también por "puntuaciones z", siendo la siguiente expresión que se utiliza para su cálculo.

La media de las puntuaciones típicas vale 0 y la desviación típica es igual a 1.

Por tanto, cuando hablamos de tipificar los valores de una variable, significa que debemos transformarlos en puntuaciones z.

Ejemplo 2

Considerando las puntuaciones del ejemplo anterior, las vamos a transformar en puntuaciones típicas.

Solución:

1º) determinar el valor de la desviación típica del grupo

2º) Luego, se divide cada una de las puntuaciones diferenciales por la desviación típica.

Page 41: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 41

Xi xi xi2 zi

7 3

2,5 2 9

8,5 5 3

2 -2

-2,5 -3 4

3,5 0 -2

4 4

6,25 9

1,6 12,25

0 4

0,76 -0,76 -0,95 -1,14 1,53 1,33

0 -0,76

Puntuaciones típicas derivadas

Las puntuaciones típicas permiten establecer comparaciones entre distintas variables. Sin embargo el inconveniente de las puntuaciones típicas es que suelen ser negativas y pueden presentar cifras decimales. Contamos solamente con siete puntuaciones enteras posibles (-3, -2, -1, 0, 1, 2, 3), ya que la mayoría de las observaciones suelen quedar incluidas entre tres desviaciones típicas a la derecha de la media y tres a la izquierda.

Tanto los signos negativos como las cifras decimales y los redondeos pueden ocasionar errores de cálculo. Para evitar esto, podríamos multiplicar las puntuaciones z por una constante S determinada y para evitar los valores negativos, sumar una constante J.

D = J + Sz

De esta forma, y teniendo en cuenta las puntuaciones de las propiedades típicas, obtendremos una distribución de media J y de desviación típica S. A las puntuaciones obtenidas siguiendo este proceso se les denomina puntuaciones típicas derivadas. Entre las más usadas se encuentran el caso concreto de las puntuaciones T, que tienen como media 50 y como desviación típica 10.

T = 50 + 10z

Asimismo los coeficientes intelectuales suelen venir expresados en puntuaciones típicas derivadas de media 100 y desviación típica 15.

CI = 100 + 15z

Otra de las puntuaciones típicas que se suele utilizar en educación son los eneatipos o estaninas, que son puntuaciones de media 5 y de desviación típica 2.

E = 5 + 2z

Por ejemplo: Supongamos que un sujeto obtiene en una prueba de inteligencia una puntuación directa de 70 puntos. Sabiendo que la media del grupo de referencia es 63,04 y su desviación típica 10,8, podremos transformar la puntuación directa en una puntuación típica z= 0,64.

Page 42: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 42

Ya que ;

A partir de este cálculo, podemos obtener las diferentes puntuaciones derivadas:

T = 50 + 10 (0,64) = 56,4 C.I. = 10 + 15 (0,64) = 109,6 E = 5 + 2 (0,64) = 6,28

LA CURVA NORMAL

La inmensa mayoría de valores observados sobre variables cuantitativas en Ciencias Sociales suelen aproximarse a lo que se conoce como distribución normal o curva normal. Es considerada como una de las distribuciones continúas de más importancia. En muchos casos, veremos que suponer el comportamiento normal de una población, permitirá extraer conclusiones para las estimaciones efectuadas sobre muestras.

La representación gráfica de la distribución normal (figura 1) presenta forma de campana (de ahí el nombre de campana de Gauss, como también se conoce).

[ Figura 1: Curva Normal

μ = media σ = desviación típica

Se utilizan μ y σ, en lugar de X y s, porque hablamos de un modelo teórico.

N = número de casos, lo que significa que el área total bajo la curva es N.

La curva normal presenta las siguientes características:

Es simétrica alrededor del eje que pasa por la media. La ordenada máxima coincide con la media en el eje de abscisas. La media, mediana y moda coinciden. Es asintótica respecto del eje de abscisas. Como consecuencia hay dos colas,

una a cada lado de la distribución, que se alargan hasta el infinito. Los puntos de inflexión se encuentran en μ + σ y μ - σ Su ecuación matemática dada por Laplace en 1874 es:

Page 43: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 43

Diremos que una variable aleatoria continua tiene distribución normal de parámetros μ y σ si su función tiene esta forma.

Siendo e la base de los logaritmos neperianos (e= 2,71828).

Distribución Normal Tipificada o Estandarizada

Se dice que una variable aleatoria continua tiene distribución normal tipificada: X ~ N (0,1)

Si su función de densidad tiene la siguiente forma:

La curva normal tipificada o reducida es, por tanto, la que opera con puntuaciones z, es un caso especial de distribución normal que tiene de media cero y de desviación típica uno. Tiene múltiples aplicaciones y su uso es frecuente en investigación educativa.

Al observar una variable tipificada que se distribuye normalmente, puede observarse que la mayor parte de las puntuaciones se encuentran comprendidas entre los valores que van de -3 a +3 (figura 2)

Figura 2: Curva Normal para Puntuaciones z

Esta distribución es mesocúrtica El área total comprendida entre la

curva y el eje de abscisas es igual a uno

Las áreas bajo la curva normal se interpretan en términos de probabilidades, proporciones o porcentajes

Page 44: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 44

ÁREAS BAJO LA CURVA NORMAL

Para muchos propósitos es necesario conocer la proporción del área bajo la curva normal entre las ordenadas de diferentes puntos sobre la línea de base. Podemos desear conocer:

La proporción del área bajo la curva entre la ordenada de la media y cualquier punto específico que se encuentre por encima o por debajo de la media.

La proporción del área total por encima o por debajo de la ordenada de cualquier punto sobre la línea base.

La proporción del área que se encuentra entre las ordenadas de dos puntos cualesquiera sobre la línea base.

Mediante la tabla de la Ley Normal pueden calcularse las áreas entre dos puntos. Por tanto, pueden resolverse cualquiera de las tres situaciones anteriores. A continuación se desarrollan algunos ejemplos teniendo en cuenta las siguientes consideraciones:

El área total vale 1. La mitad es igual a 0,5. Las puntuaciones que utiliza la tabla están tipificadas. Para Z > 0 corresponde la mitad derecha de la curva. Para Z < 0 corresponde la mitad izquierda de la curva.

Ejemplo 3: Se ha utilizado el test de inteligencia D-48 a un grupo de sujetos y se ha obtenido una distribución normal de media 28 y desviación típica 5. Caso 1: ¿Qué porcentaje de sujetos han obtenido una puntuación superior a 36? 1º) Sabemos que 2º) Sustituyendo valores z = (36-28)/5 = 1,6

3º) Mirando en la tabla de la Ley Normal encontramos que este valor de z (buscar en prob. A la derecha de z), corresponde a un área de 0,05480. Lo que equivale a un porcentaje de sujetos del 5,48%.

Caso 2: ¿Qué porcentaje han obtenido puntuaciones inferiores a 30? 1º) Sabemos que

2º) Sustituyendo valores z = (30-28)/5 = 0,4

Page 45: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 45

3º) Mirando en la tabla de la Ley Normal encontramos que este valor de z (buscar en prob. a la derecha de z), corresponde a un área de 0,34458. 4º) Pero obsérvese que el área que hay que calcular es la contraria, la parte rayada. Por tanto tendremos que quitar a 1 (valor del área total) el valor del área calculada (que es la proporción que obtiene puntuaciones mayores). 1-0,34458 = 0,65542

El porcentaje de sujetos que ha obtenido puntuaciones inferiores a 30 es del 65,54%.

Caso 3: ¿Qué probabilidad existe de que al elegir un individuo al azar esté comprendido entre 25 y 35? 1º) Sustituyendo valores z1 = (25-28)/5 = -0,6

z2 = (35-28)/5=1,4 2º) Mirando en la tabla de la Ley Normal los respectivos valores de z encontramos que el valor de la probabilidad de z2 (buscar en prob. la izquierda) es de 0,9192 y el valor de z1 (buscar en prob. a la derecha de z), corresponde a un área de 0,2743. 3º) se le resta al valor del área de z2, el valor del área de z1.

0,9192 - 0,2743 = 0,6449

Caso 4: ¿Qué porcentaje de alumnos/as queda comprendido entre las puntuaciones 19 y 26? 1º) Sustituyendo valores z1 = (26-28)/5 = -0,4

z2 = (19-28)/5= -1,8 2º) Mirando en la tabla de la Ley Normal los respectivos valores de z encontramos que el valor de la probabilidad de z1 (buscar en prob. la derecha) es de 0,3446 y el valor dez2 (buscar en prob. a la derecha de z), corresponde a un área de 0,0359. 3º) se le resta al valor del área de z1 el valor del área de z2.

0,3446-0,0359 = 0,3087

Lo cual supone un 30,87% de alumnos comprendidos entre ambas puntuaciones.

Page 46: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 46

PROBLEMAS PROPUESTOS

1. En una distribución con media 24 y desviación típica de 3,5, transforma las siguientes puntuaciones directas en puntuaciones típicas: 8, 12, 23 y 34.

2. La puntuación media de un grupo de alumnos/as en el área de conocimiento del medio es 7 y su desviación típica 1,8. Suponiendo que la distribución es normal ¿Qué porcentaje de alumnos/as queda por debajo del que obtuvo una puntuación directa de 4 puntos? ¿ y del que obtuvo 8 puntos?.

3. En un centro de adultos, se ha estudiado la velocidad lectora de todos sus alumnos/as (total de 200 sujetos). Utilizando una prueba para medir esta variable, se obtuvo una media de 75 y una desviación típica de 7. Suponiendo que las puntuaciones arrojadas por la prueba se distribuyen normalmente, si Pablo ha obtenido una puntuación directa de 50 puntos y Marina de 80.

a) ¿Qué puntuación típica corresponde a cada alumno b) ¿Cuántos alumnos han obtenido mejores resultados que Pablo? ¿y que Marina? c) ¿Cuantos alumnos han obtenido mejores resultados que Pablo pero peores que Marina?

Page 47: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 47

Técnicas para el estudio de la relación entre variables

Introducción

1. Distribución conjunta de frecuencias 2. Diagrama de dispersión o nube de puntos 3. Concepto de covarianza 4. Correlación de Pearson 5. Regresión lineal 6. Ecuación de la recta de regresión 7. Coeficiente de determinación

Referencia básica para el tema: GIL, J.; RODRÍGUEZ, G. y GARCÍA, E. (1995). Estadística Básica Aplicada a las Ciencias de la Educación. Sevilla, Kronos. (Cap.7). PARDO, A. y SAN MARTÍN, R. (1994): Análisis de Datos en Psicología. Madrid, Pirámide. (Cap. 8) ABAD, F., HUETE, M.D. y VARGAS, M. (2001): Estadística para las Ciencias Sociales y Laborales. Granada, Urbano (Cap. 3)

INTRODUCCIÓN

Anteriormente se han estudiado las distribuciones unidimensionales, que se obtienen efectuando la medición de una característica en una población. Ahora estamos interesados en medir, no una característica, sino dos, sobre cada elemento del conjunto de unidades en estudio; esto significa que si los caracteres que observamos pueden expresarse numéricamente (lo que hemos llamado variables), tendremos un par de números que representan las dos mediciones cuantitativas realizadas para cada elemento observado.

Los datos que en este capítulo consideremos son pares de puntuaciones, esto es, tendremos dos observaciones o puntuaciones para cada miembro de un grupo. A tales datos le llamamos datos bivariados y tienen como característica esencial que una observación o puntuación puede ser emparejada con contra para cada miembro del grupo.

Supongamos que tenemos una población cuyos elementos son clasificados según dos variables cuantitativas que denominamos X e Y, cuyas modalidades las notamos respectivamente por Xi e Yj, con i variando desde 1 hasta p y con j variando desde 1 hasta q. Como cada unidad observada corresponde a una medición para la variable X y otra para la variable Y, tendremos un conjunto de pares ordenados de la forma (Xi, Yj) correspondientes a cada unidad o elemento de la población; de esta forma la variable estadística bidimensional será (X,Y).

El estudio de datos que se componen de pares de puntuaciones, como los que acabamos de describir, admite al menos dos tratamientos:

Por una parte, podemos considerar el problema de describir el grado o magnitud de la relación entre dos variables, esto es, la magnitud de variación

Page 48: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 48

conjunta; este es un problema de correlación. El estadístico que describe el grado de relación entre dos variables se denomina coeficiente de correlación.

Por otra parte, podemos considerar la estimación o predicción de una variable a partir de lo que conocemos de otra. Este es un problema de predicción. El instrumento para realizar tales predicciones se denomina recta de regresión.

DISTRIBUCIÓN CONJUNTA DE FRECUENCIAS

Decimos que tenemos una distribución conjunta de frecuencias cuando consideramos simultáneamente los valores alcanzados por un grupo de sujetos en dos variables X e Y.

Por ejemplo, supongamos que tenemos dos puntuaciones cuantitativas de un grupo de 27 alumnos/as de educación de adultos, referidas a pruebas de velocidad lectora (variable X) y comprensión lectora (variable Y):

X Y X Y X Y

92 88 85 84 89 83 85 84 86

8 6 5 6 8 5 6 5 6

91 93 89 83 92 94 91 92 90

9 8 7 6 7

10 8 9 7

90 86 88 87 87 94 85 86 90

8 7 7 5 6 8 6 5 9

Estas puntuaciones vienen expresados por los pares (92,8), (88,6), etc.

Pero también podríamos agruparlos en intervalos, por ejemplo de amplitud tres para los valores de X y de amplitud dos para los valores de Y, como se expresa en la siguiente tabla (tabla 1):

83 - 85 86 - 88 89 - 91 92 - 94

9 - 10 0 0 2 2

7 - 8 0 2 5 4

5 - 6 7 5 0 0

Tabla 1: Distribución conjunta de frecuencias para las variables X e Y

Para el caso en que se agrupen dos variables X e Y en r y s intervalos respectivamente, denominaremos distribución conjunta de frecuencias al conjunto de todas las parejas de intervalos, junto con sus frecuencias correspondientes.

A partir de la distribución conjunta de frecuencias las variables X e Y podemos definir las frecuencias marginales de X e Y.

Page 49: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 49

Llamamos distribución marginal de X a la distribución de frecuencias de X con independencia de los valores de Y, es decir a la distribución de frecuencias que presenta esta variable considerada individualmente. Igualmente para la variable Y (obsérvese en la tabla 2 los valores marginales de X e Y para el ejemplo anterior).

83 - 85 86 - 88 89 - 91 92 - 94 Marg. Y

9 - 10 0 0 2 2 4

7 - 8 0 2 5 4 11

5 - 6 7 5 0 0 12

Marg. X 7 7 7 6

Tabla 1: Distribución conjunta de frecuencias y frecuencias marginales para las variables X e Y

Para las distribuciones marginales de X e Y pueden calcularse las medias y desviaciones típicas, que recibirán el nombre de desviaciones típicas marginales.

DIAGRAMA DE DISPERSIÓN O NUBE DE PUNTOS

Cuando las variables X e Y que conforman una distribución bidimensional, son ambas cuantitativas, sus valores son pares de números reales de la forma (Xi, Yj), como decíamos con anterioridad. Estos pares ordenados se pueden representar sobre un sistema de ejes cartesianos, con lo que se obtiene un conjunto de puntos sobre el plano. A ese conjunto de puntos se le denomina diagrama de dispersión o nube de puntos.

Si se observan las representaciones de los diagramas de dispersión de distintas variables, podemos tener una cierta idea sobre el grado de relación entre cada par de variables. En la figura 1 se muestra un ejemplo de tales diagramas.

La figura 1(a) es la representación gráfica de una relación alta que denominaremos positiva, puesto que a medida que aumentan los valores de X también lo hacen los de Y. En este tipo de relación, puede observarse cómo los puntos forman una especie de línea recta. Si los puntos formaran una línea recta perfecta, existiría una relación positiva perfecta entre las variables.

La figura 1(b) muestra una relación positiva baja. Se aprecia de nuevo, aunque con menor intensidad que en el caso anterior, la tendencia a que los valores altos de X se correspondan a valores altos de Y y, del mismo modo, los valores bajos de X se correspondan con valores bajos de Y.

La figura 1(c) refleja una situación en la que no puede observarse una tendencia sistemática por la que valores altos de X se asocien con valores altos de Y, o que valores bajos de X se asocien con valores bajos de Y, o viceversa.

La figura 1(d) muestra una relación alta, que en este caso denominaremos negativa puesto que a valores bajos de X corresponden valores altos de Y, y a valores altos de X se asocian valores bajos de Y. De nuevo, si todos los puntos cayeran sobre una línea recta, existiría una relación negativa perfecta.

Page 50: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 50

Figura 1: diagramas de dispersión

CONCEPTO DE COVARIANZA

El tipo de relación al que nos hemos referido en el apartado anterior son relaciones lineales. Un modo de cuantificar la intensidad o importancia de una relación lineal es mediante el cálculo de la covarianza entre las dos variables.

El sentido positivo o negativo de la relación entre dos variables puede venir expresado por el valor positivo o negativo del término covarianza Cov(X,Y). La covarianza se define como la media aritmética de los productos entre las puntuaciones diferenciales (Xi e Yj) correspondientes a los n individuos considerados en un grupo. Su expresión matemática es por tanto:

o también, empleando la expresión equivalente:

En el caso de que los datos estén agrupados en intervalos, en una tabla de r columnas por s filas, las expresiones anteriores se verían modificadas. Siendo respectivamente Xi e Yj los puntos medios de los intervalos en que se agrupan los valores de X e Y, siendo nij el número de individuos que presentan puntuaciones X e Y incluidas en la

Page 51: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 51

pareja de intervalos correspondiente a la intersección de la fila i con la columna j, podemos escribir la covarianza para datos agrupados en intervalos del siguiente modo:

O bien utilizando la expresión:

La covarianza, por tanto, puede ser tomada como una medida de asociación o relación entre dos variables.

Reflexionando sobre lo que acabamos de decir y teniendo en cuenta el análisis de la primera de las expresiones, podemos argumentar que:

Si la covarianza es positiva, los sumandos del numerador han de ser en su mayoría positivos, es decir, habrán de obtenerse como producto de dos números positivos o dos números negativos. Por ejemplo, si una persona tiene una puntuación por encima de la media en X, se espera también en Y una puntuación por encima de la media. Y al contrario, si un sujeto obtiene una puntuación por debajo de la media en X, debe ir unida a una puntuación por debajo de la media en Y. Es decir, X e Y covarían en el mismo sentido.

Con una covarianza negativa, el modelo se invierte. A puntuaciones por encima de la media en X, han de corresponder puntuaciones por debajo de la media en Y; y a puntuaciones por debajo de la media en X, corresponderán puntuaciones por encima de la media en Y. En esta situación, los sumandos del numerador de Sxy resultarán del producto de dos números de distinto signo, y ello explica que se obtenga una covarianza negativa. En tal caso se dice que las variables covarían en sentido opuesto.

Finalmente, una covarianza cero indica que los sumandos negativos se contrarrestan con los sumandos positivos en el numerador de Sxy. Es decir, a veces una puntuación por encima de la media en la variable X corresponde a una puntuación en Y por debajo de la media, y a veces por encima de ésta. En este caso diremos que las variables no covarían

Page 52: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 52

CORRELACIÓN DE PEARSON

Hablamos de correlación cuando nos referimos a la relación existente entre dos variables, su intensidad y su sentido (positivo o negativo). Los diagramas expresados en la figura 1 ilustran algunas de las posibles relaciones entre variables.

La covarianza definida anteriormente como el promedio de desviaciones conjuntas de dos variables sobre sus respectivas medias, no resulta ser una medida adecuada de la relación entre dos variables, pues el valor de Sxy está relacionado con el valor de la media de X y con el valor de la media de Y. Por este motivo, si cambiamos la unidad de medida, la covarianza también se verá modificada.

En consecuencia, podemos afirmar que el valor de la covarianza depende de la unidad de medida. Para evitar el efecto de la unidad de medida sobre Sxy podemos dividir las puntuaciones diferenciales por las respectivas desviaciones típicas Sx y Sy. El nuevo índice de relación que obtenemos tendrá la ventaja de ser invariante ante cualquier cambio en la unidad de medida. A este índice de correlación se le denomina coeficiente de correlación de Pearson o coeficiente de correlación producto-momento, y se denota por rxy:

Esta fórmula del coeficiente de correlación de Pearson puede expresarse como promedio de los productos entre dos pares de puntuaciones X e Y previamente tipificados.

Si consideramos que no es más que la puntuación z correspondiente a Xi

y, del mismo modo, es la puntuación z correspondiente a Yi.

La fórmula del coeficiente de correlación de Pearson también suele expresarse de la siguiente forma, con objeto de eliminar errores que provengan de la presencia de números decimales en el valor que adopta la media:

En el ejemplo siguiente podemos comprobar la aplicación de las distintas fórmulas que nos sirven para calcular el coeficiente de correlación de Pearson.

Page 53: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 53

Ejemplo 1

Tomemos cinco valores diferentes de una distribución y calculemos Sxy, bajo dos condiciones distintas: cuando las puntuaciones han sido referidas a una escala que va de 0 a 10, y cuando las puntuaciones van de 0 a 100.

X Y X´ Y´

2 8 7 2 6

4 8 6 4 8

20 80 70 20 60

40 80 60 40 80

Teniendo en cuenta que las medias de X e Y son 5 y 6 respectivamente, y que X´ e Y´ alcanzan medias de 50 y 60 respectivamente, podemos obtener la suma de productos para cada pareja de puntuaciones y calcular el valor de la covarianza en ambos casos:

Xi Yi Xi Yi (Xi- ) (Yi- )

2 8 7 2 6

4 8 6 4 8

8 64 42 8

48

-3 3 2 -3 1

-2 2 0 -2 2

X´i Y´i X´i Y´i (X´i- ´) (Y´i- ´)

20 80 70 20 60

40 80 60 40 80

800 6400 4200 800

4800

-30 30 20 -30 10

-20 20 0

-20 20

Por tanto, como afirmábamos anteriormente, podemos comprobar que el valor de la covarianza depende de la unidad de medida.

Page 54: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 54

Utilizando estos mismos datos calcularemos el coeficiente de correlación de Pearson, para poner de manifiesto que el valor de este coeficiente no se ve afectado por la unidad de medida.

Calculemos en primer lugar las desviaciones típicas de las dos variables en ambas distribuciones (recordemos que).

Teniendo en cuenta que la suma de los cuadrados de las puntuaciones asciende a 157 para la variable X, 15700 en el caso de la variable X´, a 196 para la variable Y y a 19600 en Y, tendremos que:

Sx= Sx´=

Sy= Sy´=

A partir de estos valores calculamos el coeficiente de correlación de Pearson.

Siguiendo con el mismo ejemplo, comprobaremos cómo utilizando la fórmula:

obtendremos también el mismo resultado, pero debemos tener presente que es una fórmula más precisa en el caso de que se trabaje con decimales (como indicábamos con anterioridad).

X Y X Y X2 Y2

2 8 7 2 6

4 8 6 4 8

8 64 42 8

48

4 64 49 4 36

16 64 36 16 64

Page 55: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 55

X´i Y´i X´i Y´i X´2 Y´2

20 80 70 20 60

40 80 60 40 80

800 6400 4200 800 4800

400 6400 4900 400 3600

1600 6400 3600 1600 6400

[

Condiciones de aplicación

Aplicar el coeficiente de correlación de Pearson exige que las variables estén medidas al menos en una escala de intervalos y que se dé una relación lineal entre ellas. Es decir, que los puntos del diagrama de dispersión se posicionen en la forma aproximada de una línea recta. Por tanto, usar el coeficiente de correlación de Pearson presupone la sospecha de que entre los grupos de puntuaciones se da una relación lineal.

Propiedades

a) El coeficiente de correlación de Pearson se encuentra comprendido entre los valores -1 y 1.

b) En el caso de que rxy valga 1, tendrá que cumplirse que para toda pareja de valores, sus puntuaciones típicas son iguales: zx=zy. En el polo opuesto, es decir, si rxy vale -1, entonces se cumple que para todo par de valores, las puntuaciones típicas son iguales pero de distinto signo: zx=-zy.

Por tanto si zx=zy, entonces rxy=1 y podremos escribir

(Ya que, de acuerdo con las propiedades de las puntuaciones típicas, la media de las puntuaciones típicas vale 0), que es la expresión de la varianza de las puntuaciones típicas zx. Recordar cómo en temas anteriores habíamos dicho que la varianza de la puntuaciones z para una variable vale la unidad.

Page 56: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 56

c) La transformación lineal de las variables no modifica el valor del coeficiente de correlación, aunque sí podría cambiar su signo. Es decir, si calculamos la correlación entre las variables X e Y, el valor de ésta será, en valor absoluto, el mismo que obtengamos entre la variable aX+b, donde a y b son constantes.

Interpretación

Al interpretar el coeficiente de correlación de Pearson nos situaremos en un nivel meramente descriptivo.

Al igual que ocurría con la covarianza, la correlación entre dos variable X e Y es positiva si ambas covarían en el mismo sentido, es decir cuando a puntuaciones por encima de la media en X corresponden puntuaciones por encima de la media en Y, y a puntuaciones por debajo de la media en X corresponden puntuaciones por debajo de la media en Y. Por el contrario, la correlación entre X e Y es negativa, cuando covarían en sentido opuesto, es decir, a puntuaciones por encima de la media en X corresponden puntuaciones por debajo de la media en Y, y viceversa.

Si tenemos en cuenta el valor de la correlación, podemos afirmar que, un coeficiente de correlación de Pearson igual a 1 ó -1, implica que en el diagrama de dispersión correspondiente a las variables X e Y los puntos se disponen a lo largo de una línea recta, y por tanto podemos decir que la covariación entre ambas variables es total.

Un coeficiente de correlación igual o próximo a cero indica que no existe relación lineal entre las dos variables, aunque podría existir otro tipo de correlación no lineal.

Resulta difícil precisar a partir de qué valor de rxy podemos considerar que existe una correlación lineal entre dos variables. Siempre debemos tener en cuenta para la interpretación el tipo de variables a las que se aplica. Sin embargo, para tener un referente, y siendo conscientes de que estos coeficientes no son aplicables a todas las situaciones, tomamos los determinados por Bisquerra (1987:189):

Además debemos tener presente que la existencia de una correlación no implica que necesariamente deba existir una relación causal directa. Por relación causal directa se entiende que si X e Y están correlacionados, entonces X es en gran parte la causa de Y, o Y es en parte la causa de X.

No obstante, es habitual que tras encontrar una elevada correlación entre variables se hipoteticen relaciones de causa-efecto. Pero la existencia de una relación de este tipo habrá de ser comprobada recurriendo a otras estrategias de investigación y a otras técnicas estadísticas.

Page 57: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 57

REGRESIÓN

Como se dijo al iniciar el tema, el término regresión equivale a predicción, pronóstico, estimación. El aspecto fundamental de la regresión consiste en encontrar una recta que consiga la mejor aproximación posible a la nube de puntos de un diagrama de dispersión. Esta recta será utilizada para predecir los valores de una variable en función de los valores de otra.

La ecuación de una recta

La ecuación general de cualquier línea recta viene dada por la expresión:

Y = B·X+ A

Las cantidades A y B son unas constantes. La constante A coincide con la ordenada en el origen, es decir con el punto en que la recta corta al eje de ordenadas (valor de Y cuando X=0). La constante B es la llamada pendiente de la recta y representa a la inclinación de la recta, es decir el número de unidades en que se ve aumentado el valor de y por cada aumento en una unidad de x.

En la figura 2 vemos representadas algunas rectas correspondientes a distintas ecuaciones. En el primer caso, A es 0 y la pendiente de la recta vale 2. En el segundo caso A vuelve a ser cero, pero la pendiente es -2, por esta razón cambia la dirección de la recta (va del segundo cuadrante al cuarto cuadrante. En el tercer caso, la constante vale 3 (punto de corte de la recta con el eje de ordenadas) y su pendiente 2.

Figura 2: Representación gráfica de tres rectas en el plano

Si observamos el caso primero y el tercero comprobamos que las rectas son paralelas. Esto ocurre porque tienen la misma pendiente. Por tanto, afirmamos que rectas que difieren en la constante pero con la misma pendiente son paralelas.

La ecuación de la recta de regresión

La ecuación de la recta de regresión permite pronosticar la puntuación que alcanzará cada sujeto en una variable Y conociendo su puntuación en otra variable X. A la variable Y se le denomina criterio y a la variable X predictor.

Page 58: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 58

Sin embargo, raramente la nube de puntos que representa la relación entre dos variables X e Y adopta la forma de una línea recta perfecta. En el caso en que exista una relación alta entre las variables, la nube de puntos tiende a parecerse a una recta. Sólo en el caso de rxy=1 la nube de puntos se ajusta perfectamente a la línea recta.

Teniendo esto en cuenta, la recta de regresión es la línea recta que mejor se ajusta a la nube de puntos para dos variables X e Y, es decir, la que permitiría minimizar el error medio cometido al hacer los pronósticos como si la nube de puntos tuviera una forma lineal.

Por ejemplo: Consideremos un grupo de 4 personas para las que conocemos sus puntuaciones en determinadas variables X e Y, según se muestra en las dos primeras columnas de la siguiente tabla:

X Y Y´ Y´-Y (Y´-Y)2

5 6 7 8

3 2 4 5

2 4 6 8

-1 2 2 3

1 4 4 9

A partir de estos valores, y suponiendo que existe una relación lineal entre X e Y, podemos tratar de pronosticar el valor que alcanzará en la variable Y un sujeto, conociendo su puntuación en la variable X.

Supongamos que la relación existente entre ambas variables viene determinada por la recta Y = 2X-8. Para comprobar si esta recta permite realizar un buen pronóstico, comprobaremos si los valores que toma Y para los cuatro sujetos (según la recta) coinciden con los que efectivamente hemos observado. Denominamos Y´ a las puntuaciones pronosticadas usando la recta Y = 2X-8.

Así observamos que la puntuación pronosticada para el primer sujeto es de 2, mientras que la puntuación real obtenida por dicho sujeto ha sido de 3.Se ha cometido un error en la predicción, que viene determinado por (Y´-Y) (a menudo interesa que el error no aparezca negativo, es decir, nos da igual que sea por exceso o por defecto; una forma de evitar el signo es considerando las diferencias al cuadrado).

La diferencia entre las puntuaciones pronosticadas y las observadas en los sujetos se aprecian en la figura 3, que representa el diagrama de dispersión y la ecuación de la recta utilizada para predecir los valores Y´.

Page 59: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 59

Figura 3: Diagrama de dispersión y predicción de la recta Y=2X+8

Como hemos podido comprobar, la recta no estima demasiado bien los valores de Y´. Nuestro interés se centrará en encontrar la recta que permita llevar a cabo una estimación de los valores de Y´ con el menor error posible. Esa recta es la que denominaremos recta de regresión de Y sobre X.

El criterio que ha de satisfacer esta recta, es que la suma de los errores cuadráticos

( ) en la predicción de Y a partir de X sea mínima.

La recta de regresión vendrá determinada por una ecuación del tipo: Y´= A+BX.

El valor de las constantes A y B puede ser hallado a partir del cálculo diferencial. Presentamos en el siguiente cuadro los valores de A y B en el caso de que trabajemos con puntuaciones directas, diferenciales y típicas, y pretendamos calcular las constantes correspondientes a la recta de regresión de Y sobre X.

ECUACIÓN DE LA RECTA DE REGRESIÓN DE Y SOBRE X

Puntuaciones Directas Puntuaciones Diferenciales

Puntuaciones Típicas

Y´=A+BX

A= -B

y´=A+Bx

A=0

A=0

B= rxy

Page 60: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 60

Coeficiente de determinación

Se denomina coeficiente de determinación al valor r2, ya que éste último indica el

grado de aproximación de los puntos a la recta (es la proporción de que logramos explicar gracias a la regresión). Hemos dicho anteriormente que cuanto menos se desvíen los puntos de la recta, más pequeño será el valor del error y por lo tanto más próximo a 1 estará el cuadrado de r.

La proporción de varianza que no explicamos con la regresión será (1- ).

Tanto la varianza explicada por la regresión como la no explicada pueden obtenerse a partir del coeficiente de determinación de acuerdo con las siguientes expresiones que los relacionan.

PROBLEMAS RESUELTOS

Problema 1

El Equipo Directivo de una Escuela de Educación Secundaria está interesado en conocer la relación que existe entre el número de horas semanales (X) que dedican los alumnos al estudio y las calificaciones medias (Y) de los mismos al final de trimestre. Eligiendo 11 alumnos al azar, han recogido para X e Y los datos que aparecen en las dos primeras columnas de la siguiente tabla. Determina el valor de la covarianza entre ambas variables.

X Y XY x y xy

5 2 4 7 10 4 8 1 3 6 10

7 4 5 8 9 6 9 4 5 7 8

35 8

20 56 90 24 72 4

15 42 80

-0.46 -3.46 -1.46 1.54 4.54 -1.46 2.54 -4.46 -2.46 0.54 4.54

0.45 -2.55 -1.55 1.45 2.45 -0.55 2.45 -2.55 -1.55 0.45 1.45

-0.21 8.82 2.26 2.23

11.12 0.80 6.22

11.37 3.81 0.24 6.58

60 72 446 53.24

Page 61: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 61

Solución 1: En la tabla anterior se han presentado los cálculos necesarios (x e y son puntuaciones diferenciales, es decir las puntuaciones directas menos las respectivas medias). El valor de la media en cada variable es:

y el de la covarianza:

Utilizando otra de las fórmulas posibles:

En realidad se trata de la misma fórmula expresada de manera diferente. Una covarianza positiva indicará cierta tendencia a que a un tiempo semanal de estudio por encima de la media correspondan calificaciones por encima de la media, y a un tiempo de estudio por debajo de la media correspondan calificaciones por debajo de la media.

Problema 2

Calcula la correlación entre las variables tiempo semanal dedicado al estudio y calificaciones obtenidas al final del trimestre, a partir de los datos considerados en el problema anterior. Realiza el cálculo utilizando el valor de la covarianza y sin contar con este resultado. Representa el diagrama de dispersión para las puntuaciones correspondientes a ambas variables

Solución 2: Para calcular el coeficiente de correlación de Pearson utilizando el valor de la covarianza entre las variables necesitamos, además de dicho valor, las desviaciones típicas respectivas de ambas variables.

Page 62: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 62

X Y X2 Y2 XY

5 2 4 7

10 4 8 1 3 6

10

7 4 5 8 9 6 9 4 5 7 8

25 4 16 49

100 16 64 1 9 36

100

49 16 25 64 81 36 81 16 25 49 64

35 8 20 56 90 24 72 4 15 42 80

60 72 420 506 446

A partir de estos valores, el coeficiente de correlación rxy será:

Si empleamos una expresión de cálculo en la que no entra la covarianza:

La correlación entre ambas variables es muy alta, e indica que a elevado tiempo de estudio corresponden calificaciones altas, mientras que a poco tiempo de estudio corresponden calificaciones bajas.

Por último, representamos el diagrama de dispersión.

Page 63: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 63

Problema 3

En un estudio sobre el rendimiento de los 20 alumnos de un aula de Educación Secundaria en la asignatura matemáticas, se han considerado las variables conocimientos previos (X) y calificaciones finales (Y). La primera de ellas fue medida a partir de una prueba de conocimientos previos, administrada al iniciarse el curso, mientras que los valores para la segunda variable se obtuvieron directamente de las actas de evaluación de junio. Teniendo en cuenta que los valores obtenidos son los siguientes, determina la ecuación de regresión de Y sobre X y pronostica las calificaciones finales de los alumnos a partir de las puntuaciones logradas en conocimientos previos.

X 4 8 5 7 2 9 3 2 5 7 1 8 7 9 3 6 9 2 5 5

Y 2 9 5 8 3 8 4 1 4 6 2 9 8 9 3 5 8 3 4 6

Solución 3: Para determinar la ecuación de regresión de la variable Y sobre X, habrá que tener en cuenta la expresión de esta recta, que en términos generales es:

Y'= A + BX,

donde A y B, en el caso de puntuaciones directas, adoptan los valores:

Para hallar el valor de estos coeficientes, tendremos que realizar cálculos previos, que recogemos en la siguiente tabla:

X Y XY X2

4 8 5 7 2 9 3 2 5 7 1 8 7 9 3 6 9 2 5 5

2 9 5 8 3 8 4 1 4 6 2 9 8 9 3 5 8 3 4 6

8 72 25 56 6

72 12 2

20 42 2

72 56 81 9

30 72 6

20 30

16 64 25 49 4

81 9 4

25 49 1

64 49 81 9

36 81 4

25 25

ΣX=107 ΣY=107 ΣXY=693 ΣX2=701

Page 64: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 64

A partir de las sumas calculadas y de las medias obtenidas, que en este caso resultan ser idénticas para las dos variables, tendremos:

Luego la ecuación de regresión que nos pedían quedará del siguiente modo:

Y' = 0.32 + 0.94X

Mediante esta ecuación podemos pronosticar los valores que los sujetos alcanzarían en la variable Y (calificaciones finales) a partir de las puntuaciones obtenidas en la prueba de conocimientos previos (X). El resultado de esta predicción para cada uno de los valores de X será:

X Y'

1 2 3 4 5 6 7 8 9

Y'=0.32+0.941=1.26

Y'=0.32+0.942=2.20

Y'=0.32+0.943=3.14

Y'=0.32+0.944=4.08

Y'=0.32+0.945=5.02

Y'=0.32+0.946=5.96

Y'=0.32+0.947=6.90

Y'=0.32+0.948=7.84

Y'=0.32+0.949=8.78

PROBLEMAS PROPUESTOS

1. Conociendo las puntuaciones alcanzadas por un total de 15 sujetos en una prueba que mide el nivel inicial de conocimientos de los alumnos de 3º de Educación Secundaria y conociendo también el rendimiento final de curso, construye el diagrama de dispersión para ambas variables y determina la convarianza.

Prueba 8, 4, 6, 5, 8, 6, 9, 7, 3, 5, 6, 7, 6, 8, 4

Rendimiento 7, 6, 5, 3, 7, 4, 8, 6, 1, 6, 7, 4, 5, 6

2. Para comprobar la fiabilidad de una prueba de razonamiento espacial, un psicopedagogo se dispone a aplicarla en dos momentos distintos a un grupo de 10 sujetos. Si la prueba es fiable se espera que las puntuaciones logradas en ambos casos correlacionen entre sí. A partir de los datos recogidos, que mostramos a continuación, ¿en qué medida podemos afirmar que la prueba es fiable?

Page 65: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 65

1ª aplicación: 18 14 11 16 15 12 19 10 19 14 2ª aplicación: 17 15 9 18 15 11 18 10 17 16

3. Un modo de comprobar la validez de un test consiste en determinar si existe correlación con un criterio externo. En el caso de los test de aptitudes, el criterio externo suele ser el rendimiento académico de los sujetos. Teniendo en cuenta estas consideraciones, un pedagogo que ha diseñado un test de aptitudes intelectuales, pretende contrastar la validez del mismo tomando como criterio las calificaciones finales obtenidas por un grupo de 12 escolares. Si las puntuaciones en el test para los 12 sujetos son 75, 67, 45, 76, 87, 79, 68, 75, 68, 78, 88, 72 y las calificaciones obtenidas son respectivamente 7, 5, 5, 8, 9, 6, 7, 7, 5, 8, 9, 7, determina la validez del instrumento.

4. Una empresa suele evaluar el trabajo realizado por sus empleados cuando éstos cumplen el tercer año de antigüedad en la misma, otorgándoles una puntuación mediante la que se valora su eficacia. En el momento actual, la empresa se encuentra en expansión y pretende contratar a un nuevo operario para ocupar un determinado puesto. Como en ocasiones anteriores, los directivos de la empresa recurren a un gabinete psicopedagógico que aplica un test psicotécnico de selección. Los responsables de este gabinete afirman que la puntuación obtenida en el test permite predecir la eficacia del nuevo operario. Aceptando este supuesto, y conociendo las puntuaciones en el test y en eficacia de 8 trabajadores anteriormente contratados, determina qué puntuación en eficacia obtendrá dentro de 3 años el candidato seleccionado por el gabinete para ocupar el puesto de trabajo, sabiendo que su puntuación en el test psicotécnico de selección ha sido 87.

Test de Selección Eficacia

80 75 61 90 81 79 89 97

9.00 8.25 7.50 9.50 9.25 8.75 9.25 9.75

5. Utilizando los datos relativos al test de selección y a la eficacia, considerados en el problema anterior, determina la relación existente entre ambas variables.

6. Un psicopedagogo aplica un test de aptitud para la lectura a un total de 12 alumnos, obteniendo en una escala de 1 a 10 las siguientes puntuaciones: 7, 6, 3, 8, 6, 9, 7, 4, 6, 7, 3, 5. Estos mismos alumnos siguen un proceso de enseñanza de la lectura al término del cual son evaluados por su nivel de aprendizaje logrado, recogiéndose respectivamente los siguientes valores: 65, 60, 47, 78, 71, 85, 67, 56, 68, 85, 49, 62. Suponiendo que el test de aptitud para la lectura permite predecir el aprendizaje de los alumnos, ¿cuál será el nivel de aprendizaje alcanzado por un alumno que arroje la puntuación 10 en el test de aptitud?

Page 66: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 66

7. En una muestra de 15 alumnos presentados al primer examen parcial de la asignatura Estadística, se han obtenido para las partes teórica y práctica del examen, las calificaciones que mostramos a continuación. ¿Existe alguna relación entre las calificaciones en la parte teórica y las calificaciones en la parte práctica?

Parte teórica Parte práctica

5.7 7.1 2.9 4.7 4.2 9.3 4.3 5.7 5.4 4.3 1.5 4.7 2.2 6.3 4.5

6.7 7.2 7.0 3.0 6.0 8.5 8.0 6.2 5.5 5.2 4.2 6.2 6.2 7.2 5.2

8. En un curso de nivelación se han seleccionado 10 alumnos, de los que se han tomado las puntuaciones que han obtenido como calificación en las pruebas de acceso a la Universidad (variable Y) y las obtenidas como calificación global en nivelación (variable X). Predice la calificación en la prueba de acceso para un alumno cuya calificación global en nivelación se encuentra 2 unidades por encima de la media.

X Y

9 8.1 8.5 7 6.8 7.3 5.8 5 4.7 4.9

7 8 8 7 6 8 5 3 6 4

Page 67: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 67

9. Los profesores de un centro educativo, interesados por los factores relacionados con el rendimiento escolar de los alumnos en el área del lenguaje, han llegado a la conclusión de que existe una relación directa entre las variables inteligencia y dominio del lenguaje, que puede apreciarse claramente en los alumnos de 6º de Primaria. A partir de una muestra de alumnos de 6º, el coeficiente de correlación obtenido para ambas variables, medidas respectivamente con el test de inteligencia general Factor G de Cattell y con una prueba de lenguaje elaborada por los profesores, es rxy=0.59. Por ello, los profesores consideran que la variable inteligencia general, medida por el Factor G, puede tomarse como un buen predictor del dominio del lenguaje que presentan los alumnos. De acuerdo con esta idea, y sabiendo que la media y desviación típica en la prueba de lenguaje son respectivamente 6 y 2.3, determina el rendimiento en la prueba de lenguaje para un alumno cuyo C.I. medido por el Factor G asciende a 112.

10. El director de una Escuela de Educación Secundaria ha extraído de las actas de evaluación depositadas en la secretaría las calificaciones medias de 10 de sus alumnos que finalizaron estudios de Bachillerato en años anteriores, y posteriormente ha recogido las notas obtenidas por esos mismos alumnos en su primer curso universitario. Con la información obtenida pretende predecir el rendimiento en el primer curso universitario que alcanzará un alumno que acaba de finalizar el Bachillerato con una calificación media de 6.75. ¿Cuál será la predicción de rendimiento que podrá hacer el director para este alumno?

Calif. Bachillerato: 5.75, 6.50, 7.25. 8.00, 6.00, 7.50, 9.00, 8.50, 5.50, 6.00 Calif. 1er Curso Univ.: 4.00, 4.50, 5.75, 7.00, 8.00, 5.50, 6.25, 8.25, 7.25, 5.50

Page 68: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 68

Técnicas para el estudio de la relación entre variables (II) 1. El coeficiente de correlación de Spearman. 2. El coeficiente de contingencia. 3. El coeficiente de correlación phi.

Referencia básica para el tema: GIL, J; RODRÍGUEZ, G. Y GARCÍA, E. (1995). Estadística Básica Aplicada a las Ciencias de la Educación. Sevilla, Kronos, (Cap. 8).

INTRODUCCIÓN

En el capítulo anterior se analizaba la correlación entre dos variables medidas en escala de intervalos, presentando el coeficiente de correlación de Pearson. De acuerdo con este coeficiente, una correlación positiva entre dos variables implica que a puntuaciones altas en una variable X suelen corresponder puntuaciones altas en una variable Y, al tiempo que las puntuaciones bajas en ambas variables también suelen aparecer asociadas. Ahora nos ocuparemos de la correlación entre variables que no presentan este nivel de medida, las cuales son bastante frecuentes en el contexto de las Ciencias de la Educación.

Cuando nos encontramos ante niveles de medida ordinal o nominal, hablaremos de correlación entre dos variables si existe una vinculación entre cierta o ciertas modalidades de la primera variable y cierta o ciertas modalidades de la segunda. Algunos de los coeficientes de correlación indicados en esta situación se apoyan en rxy, y no son más que una derivación de éste. Así, el coeficiente de correlación de Spearman, el coeficiente de correlación biserial puntual o el coeficiente de correlación phi, que veremos aquí, son el resultado de la aplicación directa de la fórmula de rxy al caso de variables ordinales y nominales. En cambio, coeficientes como el de correlación biserial o el de correlación tetracórica resultan de un intento de estimar el valor que correspondería a rxy. Finalmente, estudiaremos coeficientes distintos a rxy para medir la correlación entre variables, como es el caso del coeficiente de contingencia.

COEFICIENTE DE CORRELACIÓN DE SPEARMAN

Para aplicar el coeficiente de correlación de Spearman se requiere que las variables estén medidas al menos en escala ordinal, es decir, de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas. A veces, este coeficiente es denominado por la letra griega ρs (rho), aunque cuando nos situamos en el contexto de la Estadística Descriptiva se emplea la notación rs, que será la que utilicemos aquí.

La fórmula de cálculo para rs puede derivarse de la utilizada en el caso de rxy; bastaría aplicar el coeficiente de correlación de Pearson a dos series de puntuaciones ordinales, compuestas cada una de ellas por los n primeros números naturales (ver Amón, 1986:267 y ss.). No nos ocuparemos aquí del modo en que se deduce la fórmula, sino de su aplicación.

Page 69: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 69

A partir de un conjunto de n puntuaciones, la fórmula que permite el cálculo de la correlación entre dos variables X e Y, medidas al menos en escala ordinal, es la siguiente:

donde d es la distancia existente entre los puestos que ocupan las puntuaciones correspondientes a un sujeto i cuando estas puntuaciones han sido ordenadas para X y para Y.

Ejemplo 1

Queremos establecer la correlación existente entre las variables comportamiento en clase (X) y cumplimiento de tareas (Y) medidas en un grupo de 10 alumnos de EGB. Para la primera variable conocemos la puntuación otorgada por un equipo de profesores, mientras que en el caso de la segunda variable, disponemos únicamente de la posición que ocupan los 10 alumnos cuando son ordenados desde el que cumple en mayor grado sus tareas hasta el que lo hace con menor grado. Los datos aparecen recogidos en las dos primeras columnas de la tabla 1.

En este caso no podríamos aplicar el coeficiente de correlación productomomento, puesto que sólo una de las dos variables aparece medida en escala de intervalos. Por esta razón, tendremos que utilizar el coeficiente de correlación rs. Para ello, transformaremos la variable X en una variable ordinal asignando a cada sujeto el rango (o posición) que le corresponde en el grupo de acuerdo con la puntuación alcanzada. El resultado de esta transformación aparece en la columna tercera de la tabla 1.

Tabla 1: Datos y cálculos correspondientes al ejemplo %l

X Y Rango (X) di di2

3.5 1 2 1 1

2.9 2 6 4 16

3.1 3 5 2 4

3.8 4 1 3 9

2.0 9 9 0 0

2.6 8 8 0 0

3.2 6 4 2 4

3.4 5 3 2 4

2.8 7 7 0 0

1.9 10 10 0 0

Σdi2 = 38

En este caso, hemos ordenado las puntuaciones de mayor a menor, dado que la variable Y también estaba ordenada en este sentido. No obstante, el coeficiente de correlación no cambiaría si las dos variables estuvieran ordenadas de menor a mayor.

Page 70: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 70

A partir de las dos series de puntuaciones expresadas en escala ordinal, hemos procedido a calcular los valores de las distancias al cuadrado entre el puesto que ocupa cada individuo en la ordenación de acuerdo con las puntuaciones X y la ordenación de acuerdo con las puntuaciones Y. El resultado de esta operación y de sumar todos los cuadrados aparece en las columnas cuarta y quinta de la tabla 1. Con estos datos, podremos aplicar la fórmula del coeficiente de correlación de Spearman, obteniendo:

La correlación positiva indica que los sujetos situados en los primeros puestos para la variable X, es decir, los de mejor comportamiento en clase, son también los que ocupan los primeros puestos en la ordenación para la variable Y, o sea, los que en mayor grado cumplen sus tareas. Otro tanto podríamos afirmar de los sujetos que ocupan los puestos más bajos en ambas variables.

En el ejemplo que acabamos de ver no había dos sujetos que tuvieran una misma puntuación en X o en Y. Sin embargo, esta circunstancia podría darse, dificultando la asignación de rangos. En ese caso, el puesto asignado a ambos sería el promedio de los que les hubieran correspondido de no darse esa coincidencia. Por ejemplo, imaginemos las puntuaciones alcanzadas para dos variables X e Y, tal y como se muestra en la primera parte de la tabla 2. Como puede observarse, existen puntuaciones que se repiten, tanto en la variable X como en Y. La parte derecha de esa misma tabla presenta los rangos que asignaríamos a cada una de las puntuaciones al ordenarlas de mayor a menor.

Tabla 2: Asignación de rangos a puntuaciones idénticas

X Y Rango (X) Rango (Y)

35 11 1 5

29 18 4 3.5

31 23 2.5 1

31 18 2.5 3.5

19 21 5 2

La existencia de puntuaciones coincidentes para una variable haría que el coeficiente de correlación se elevara ligeramente por encima de lo que hubiéramos obtenido sin promediar los rangos correspondientes a las puntuaciones repetidas. En el caso en que las coincidencias de valores fueran muy numerosas, habría que emplear una fórmula alternativa para el cálculo de rs que trata de amortiguar este efecto (Siegel, 1976:238-242).

Propiedades

a) El coeficiente de correlación de Spearman se encuentra siempre comprendido entre los valores -1 y 1. Es decir, -1 < rs < 1.

b) Cuando todos los sujetos se sitúan en el mismo puesto para la variable X y para la variable Y, el valor de rs es 1. Si ocupan valores opuestos, es decir, al

Page 71: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 71

primer sujeto en X le corresponde el último lugar en Y, al segundo en X le corresponde el penúltimo en Y, etc., entonces el valor de rs es -1.

c) El coeficiente rs es un caso particular de rxy, puesto que se calcula a partir de éste, por aplicación del coeficiente de Pearson a valores ordinales considerados como puntuaciones. Por ello, al aplicar la fórmula de rxy a los valores de dos series de rangos, obtendríamos el mismo resultado que con la fórmula de rs.

d) Si calculamos el coeficiente de correlación de Pearson entre dos variables X e Y, y el coeficiente de correlación de Spearman para las mismas puntuaciones pero transformadas en rangos, ambos coeficientes se aproximan en valor según aumenta el número de sujetos n.

COEFICIENTE DE CONTINGENCIA

Cuando los valores de dos variables no pueden ser ordenados, sino únicamente clasificados (las variables se encuentran medidas en escala nominal), se requieren estadísticos diferentes a rxy para determinar la relación entre esas variables. Una de las medidas de la relación entre dos variables de este tipo nos la proporciona el coeficiente de contingencia C, cuya expresión es:

donde n es el número de individuos o puntuaciones y χ2 es el coeficiente chicuadrado, que se calcula a partir de las frecuencias observadas (fo) para cada pareja de modalidades -una de cada variable-, y de las frecuencias esperadas en esa pareja de modalidades si no hubiera relación entre las variables (fe):

Ilustraremos el proceso de cálculo del coeficiente de contingencia C, y clarificaremos los conceptos en los que se basa, mediante su aplicación a un ejemplo práctico.

Ejemplo 2

Queremos determinar si existe relación entre el sexo y la especialidad cursada por alumnos que estudian Magisterio, a partir de los datos correspondientes a 349 alumnos de una Escuela de Magisterio. La distribución conjunta de frecuencias para ambas variables aparece en la tabla 3.

Tabla 3: Distribución conjunta de frecuencias para sexo y especialidad

Ciencias Humanas Lenguas Preescolar

Hombres 70 60 36 12 178

Mujeres 40 54 39 38 171

110 114 75 60 349

Page 72: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 72

En primer lugar calcularemos el valor de χ2 para la anterior tabla de contingencia (denominación que damos a la tabla usada al presentar la distribución conjunta de frecuencias para dos variables). Partiendo del supuesto de que no hay relación entre las dos variables, es preciso calcular las frecuencias esperadas en cada celdilla de la tabla. Tomemos, por ejemplo, los alumnos de Ciencias. Si no hubiera relación entre especialidad y sexo, la proporción de alumnos que estudian Ciencias habría de ser similar a la proporción de alumnas que estudian Ciencias. Sin embargo, la proporción de alumnos en Ciencias alcanza el valor 70/178 = 0.39, mientras que la de las alumnas es 40/171 = 0.23.

Se demuestra que, cuando las variables son independientes, las frecuencias esperadas en cada celda pueden ser calculadas multiplicando la frecuencia marginal de la fila (ff) por la frecuencia marginal de la columna (fc) y dividiendo por el total de individuos (n):

El resultado de calcular las frecuencias esperadas aparece entre paréntesis en cada celda de la tabla 4. Se trata de frecuencias teóricas, pues resulta evidente que nunca podríamos observar, por ejemplo, 56.1 alumnos varones en la especialidad de Ciencias. Con estos nuevos valores teóricos, la proporción de hombres en Ciencias es 56.1/178 = 0.32 y la proporción de mujeres 53.9/171 = 0.32. También puede comprobarse que la proporción de hombres será

Tabla 4: Frecuencias observadas y esperadas para sexo y especialidad

Ciencias Humanas Lenguas Preescolar

Hombres 70 (56.1) 60 (58.1) 36 (38.3) 12 (25.5) 178

Mujeres 40 (53.9) 54 (55.9) 39 (36.7) 38 (24.5) 171

110 114 75 50 349

ahora la misma en las especialidades de Ciencias, Humanas, Lenguas y Preescolar. En efecto, 56.1/110 = 58.1/114 = 38.3/75 = 25.5/50 = 0.51.

A partir de las frecuencias observadas y esperadas podremos aplicar la fórmula de cálculo para χ2 y obtener un valor que puede ser tomado como medida de independencia entre las dos variables. Si las frecuencias empíricas (las observadas en este caso) resultaran ser iguales que las frecuencias teóricas (las que aparecen entre paréntesis), diremos que no existe relación entre las variables sexo y especialidad. Cuanto más se alejen las frecuencias teóricas de las observadas, mayor será la relación entre las dos variables. El valor χ2 se construye a partir de la distancia entre las frecuencias observadas y las frecuencias esperadas, es decir, indica en qué medida la distribución de frecuencias se aleja de los valores que cabría esperar en el caso de que no hubiera relación entre las dos variables.

Page 73: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 73

El valor de χ2 presenta problemas como medida de correlación, puesto que su cuantía depende del número de sujetos considerados. A medida que se incrementa n, crece también el valor de χ2. Si dispusiéramos del doble de alumnos en cada celda de la tabla de contingencia, el valor de χ2 sería también el doble. En general, si multiplicamos las frecuencias observadas por k, el valor de χ2 se verá incrementado también en un número de veces igual a k.

Precisamente, para evitar el efecto del tamaño de la muestra, utilizamos como coeficiente de correlación el coeficiente de contingencia C:

La interpretación de la correlación habrá de hacerse examinando la tabla de contingencia. Puesto que en las celdas hombres-Ciencias, hombres-Humanas, mujeres-Lenguas y mujeres-Preescolar se observan frecuencias por encima de lo esperado, la posible relación entre las dos variables se concretaría en una tendencia a que estas parejas de modalidades se den conjuntamente. Es decir, parece existir una asociación entre alumnos y las especialidades de Ciencias y, en menor medida, Humanas, así como entre alumnos y las especialidades de Lenguas y, sobre todo, Preescolar.

Por tanto, el procedimiento seguido para calcular la relación entre dos variables nominales mediante el coeficiente de contingencia C, consta de los siguientes pasos:

1. Ordenamos las puntuaciones en una tabla de contingencia de r filas por s columnas, siendo r y s el número de modalidades o valores alcanzados por cada una de las dos variables.

2. Se determinan las frecuencias esperadas para cada celda de la tabla. 3. Calculamos el valor del coeficiente χ2. Debe tenerse en cuenta que no es

aconsejable calcular este coeficiente cuando más del 20% de las celdillas tienen una frecuencia esperada inferior a 5, o si en alguna celdilla no se supera el valor 1 para la frecuencia esperada.

Además, cuando calculamos el valor de χ2 en una tabla de dos filas por dos columnas, es recomendable realizar la corrección de Yates, sobre todo cuando algunas de las frecuencias teóricas presentan valores inferiores a 5. Introduciendo esta corrección, la fórmula de cálculo quedaría del siguiente modo:

4) A partir del valor de χ2 calculamos el coeficiente de contingencia C.

Page 74: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 74

Propiedades

a) El coeficiente de contingencia C está comprendido entre 0 y 1. Es decir, 0 < C < 1. En este caso, no tendría sentido hablar de coeficientes negativos o positivos. El signo suele indicar que las variables consideradas varían en una misma dirección o en dirección opuesta. Cuando trabajamos con variables nominales, no es posible hablar de incrementos o decrementos en el valor de las mismas, puesto que entre las modalidades de este tipo de variables no se dan ni siquiera relaciones de orden.

Por otra parte, el coeficiente C presenta el valor 0 cuando la relación entre las variables es nula, pero nunca alcanza el valor 1. El máximo que puede alcanzar C depende del número de filas y columnas.

b) El coeficiente C indica la intensidad de la relación, pero no cuáles son las modalidades de ambas variables que tienden a darse conjuntamente. La relación se establece entre aquellas modalidades correspondientes a la fila y la columna de celdas con frecuencia esperada superior a la frecuencia observada.

c) El valor de C depende del número de filas y de columnas de la tabla de contingencia construida para su cálculo. Por este motivo, no son comparables dos valores de C obtenidos para una misma pareja de variables, salvo en el caso en que correspondan a tablas de las mismas dimensiones.

d) El coeficiente de contingencia C no es comparable a otros coeficientes de correlación, tales como rxy de Pearson o rs de Spcarman. Valores similares en C y en cualquiera de estos coeficientes no tendrían que indicar un similar grado de correlación entre las parejas de variables implicadas en cada caso.

COEFICIENTE DE CORRELACIÓN BISERIAL PUNTUAL

El coeficiente de correlación biserial puntual se utiliza cuando queremos conocer la correlación existente entre dos variables, de las cuales una ha sido medida en escala de intervalos y la otra resulta ser una variable dicotómica. Generalmente, el coeficiente de correlación biserial puntual se denota mediante la expresión rbp.

Antes de continuar conviene precisar lo que entendemos por variables dicotómicas. Son aquéllas que presentan únicamente dos modalidades, tales como el sexo (varón-mujer), la calificación de la respuesta a un item (acierto-error), etc. En general, suelen atribuirse a estas modalidades los valores 0 y 1, aunque no habría inconveniente en asignar 1 y 2, ó cualquier otro par de valores.

Las fórmulas, ambas equivalentes, que permiten el cálculo del coeficiente de correlación biserial puntual entre una variable X, medida en escala de intervalos, y una variable dicotómica Y son las siguientes:

Page 75: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 75

donde: p es la proporción de sujetos con una de las dos modalidades posibles de la variable Y.

q es la proporción de sujetos con la otra modalidad.

es la media en X de los sujetos cuya proporción es p.

es la media en X de los sujetos cuya proporción es q.

es la media en X de todos los sujetos.

sx es la desviación típica en X de todos los sujetos.

Ejemplo 3

Considerando que en un aula universitaria los resultados obtenidos en una prueba de evaluación (variable X) y el sexo de los alumnos (variable Y), son los que aparecen recogidos en la tabla 5, determinar la correlación existente entre ambas variables. El sexo de los individuos se ha codificado como 1 cuando se trata de alumnos y 2 cuando se trata de alumnos.

Tabla 5: Datos correspondientes al ejemplo 8.3

x 18 12 14 16 14 9 20 16 17 14 12 10 15 16 13 12 19 20 15 16 14

y 1 1 2 2 1 1 2 2 2 1 1 1 2 2 1 1 2 2 1 1 1

Para determinar la correlación existente entre ambas variables, utilizaríamos el coeficiente de correlación biserial puntual. En primer lugar, calcularemos el valor de las proporciones de alumnos (p) y alumnas (q) teniendo en cuenta que en el grupo de 21 alumnos 12 son hombres (modalidad 1) y 9 mujeres (modalidad 2):

p = 12/21 = 0.57l4

q = 9/21 = 0.4285

A continuación calculamos los valores de la media de la variable X, la media de la variable X para los 12 sujetos de la modalidad 1 (en este caso los alumnos) y la desviación típica de X. Realizando los cálculos oportunos, que dejamos al lector, resulta:

A partir de estos valores estamos en disposición de calcular el coeficiente de correlación biserial puntual. Aplicando una de las expresiones de cálculo de rbp obtendremos:

Page 76: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 76

Por tanto, el valor de la correlación entre ambas variables es -0.635. Al tratarse de un coeficiente de signo negativo, a puntuaciones altas en la variable X corresponde pertenecer a la categoría cuya proporción es q. Es decir, las puntuaciones altas en la prueba de evaluación se asocia a las alumnas; mientras que las puntuaciones bajas se asocian a los alumnos.

Propiedades

a) Se demuestra que el coeficiente rbp es resultado de aplicar el coeficiente de correlación de Pearson al caso en que una de las variables tiene carácter dicotómico.

b) El valor de rbp no puede ser mayor que 1 ni menor que -1 Es decir, se cumple -1 < rbp < 1. Cuanto mayor sea la distancia entre la media de los sujetos que presentan la primera modalidad y la media del total de sujetos, más próximo a 1 ó -1 será el coeficiente de correlación que obtengamos.

c) Un coeficiente de correlación positivo indicará que a puntuaciones altas de X corresponde pertenecer a la categoría cuya proporción es p, mientras que a puntuaciones bajas de X corresponde pertenecer a la categoría cuya proporción es q. Un coeficiente negativo deberá ser interpretado en sentido contrario, es decir, a puntuaciones altas de X correspondería la categoría cuya proporción es q, y a puntuaciones bajas aquélla cuya proporción es p.

COEFICIENTE DE CORRELACIÓN BISERIAL

El coeficiente de correlación biserial se utiliza cuando queremos conocer la correlación existente entre dos variables, de las cuales una aparece medida al menos en una escala de intervalos, mientras que la otra ha sido dicotomizada artificialmente a partir de una variable que se distribuía originalmente de forma normal. Generalmente, el coeficiente de correlación biserial se expresa por rb.

Por variables dicotomizadas entendemos aquellas variables que pueden presentar más de dos modalidades, por lo menos tres, pero han sido transforma das en variables dicotómicas. Así, por ejemplo, las variables rendimiento académico (aprobado-suspenso), asistencia (alta-baja), satisfacción (satisfecho-insatisfecho), número de hijos (por encima de tres-tres o menos)... son ejemplos de variables dicotomizadas.

El coeficiente rb no es aplicación directa de rxy, sino una estimación del valor de éste en el caso en que la segunda variable no hubiera sido dicotomizada y la relación entre ellas fuera lineal.

El cálculo de este coeficiente para determinar la relación entre dos variables X e Y, de las cuales la primera está medida en una escala de intervalos y la segunda ha sido dicotomizada, se realiza siguiendo cualquiera de estas expresiones equivalentes:

Page 77: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 77

donde los valores tienen el mismo significado que en el coeficiente de correlación biserial puntual revisado en el apartado anterior.

El valor de y es la ordenada correspondiente a un valor de z que deja a derecha e izquierda, en una distribución normal, sendas proporciones del área bajo la curva iguales a p y q respectivamente (ver figura 1).

Figura I: Ordenada correspondiente a un valor de z en la curva normal

El valor de las expresiones p/y o pq/y no es necesario que sea calculado, puesto que nos lo suelen proporcionar tablas construidas para la curva normal (véanse, por ejemplo, Amón, 1986:372-373 ó Glass y Stanley, 1980:511-517).

Ejemplo 4

Al analizar el contexto familiar en el que se desarrolla el estudio de los alumnos de un aula de Educación Secundaria, se han recogido datos para una serie de variables, entre las que se encuentran la dedicación al estudio -variable X- (nº de horas semanales) y el tamaño de la familia -variable Y-, consignando si ésta consta de más de cuatro miembros (modalidad 1) o de cuatro miembros o menos (modalidad 0). A partir de los datos obtenidos (ver tabla 6) determinar la correlación existente entre ambas variables.

Tabla 6: Datos correspondientes al ejemplo 8.4

x 9 3 2 8 8 7 1 1 2 6 4 8 3 7 7 5 6 8 9 9 4 4

y 1 0 0 1 1 1 0 0 0 1 0 1 0 1 1 0 0 1 1 1 0 0

Comenzaremos calculando la proporción de individuos que proceden de familias con cuatro o menos miembros (p) y la de sujetos de familias con más de cuatro miembros (q).

p = 11/22 = 0.5 q = 11/22 = 0.5

Precisaremos además la media de la variable X, la media de esta variable para los individuos de familias con tamaño pequeño y la desviación típica para X.

Page 78: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 78

Con estos valores, y consultando una tabla de ordenadas para los valores z en la curva normal, tendremos:

El valor de la correlación es -1.1. El signo negativo indica que a puntuaciones altas en la variable X corresponde en la variable Y la modalidad cuya proporción es q. Por tanto, los alumnos con elevada dedicación al estudio suelen ser los que proceden de familias con más de cuatro miembros.

Propiedades

a) Si aplicamos a unos mismos datos los coeficientes rbp y rb, obtendremos en el segundo caso un valor en términos absolutos más elevado. Es decir, se cumple |rbp| < |rb|.

b) El coeficiente rb no siempre está comprendido entre los valores -1 y 1, sino que puede ser mayor que 1 ó menor que -1.

c) Un coeficiente de correlación positivo indicará que a puntuaciones altas de X corresponde pertenecer a la categoría cuya proporción es p, mientras que a puntuaciones bajas de X corresponde pertenecer a la categoría cuya proporción es q. Un coeficiente negativo deberá ser interpretado en sentido contrario, es decir, a puntuaciones altas de X correspondería la categoría cuya proporción es q, y a puntuaciones bajas aquélla cuya proporción es p.

COEFICIENTE DE CORRELACIÓN PHI

El coeficiente de correlación phi, expresado por la letra griega φ, se emplea cuando nos encontramos ante dos variables dicotómicas, es decir, variables para las cuales sólo es posible considerar dos modalidades. El coeficiente de correlación φ es el resultado de aplicar rxy a los valores correspondientes a dos variables de este tipo.

Si asignamos los valores 0 y 1 a cada una de las dos modalidades de la variables dicotómicas X e Y, podremos construir una tabla (tabla 6), en la que quede reflejada la distribución conjunta de frecuencias para las dos variables.

Tabla 6: Tabla de contingencia para variables dicotómicas

X

0 1

Y 1 a b

0 c d

Page 79: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 79

A partir de los valores a, b, c y d, que representan la frecuencia en cada una de las celdillas de la tabla, es posible calcular el coeficiente φ. Basta aplicar la siguiente fórmula:

Ejemplo 5

De un grupo de 200 estudiantes universitarios que han pasado una prueba objetiva, se sabe que 140 han acertado el ítem 34. Se sabe además que 30 varones han fallado, del grupo total de 80 varones. Determina el valor de la relación entre el sexo y el número de aciertos al ítem 34.

Consideraremos de una parte la variable sexo, con los valores 0 (hombre) y 1 (mujer), y de otra el resultado de la respuesta al ítem, con los valores 0 (error) y 1 (acierto). La tabla de contingencia con la que trabajamos puede completarse a partir de la información del enunciado (ver tabla 7).

Tabla 7: Tabla de contingencia correspondiente al ejemplo 8.5

Ítem 34

0 1

Sexo 1 30 90 120

0 30 50 80

60 140 200

Conociendo todos los valores de las celdas, podemos aplicar la fórmula del coeficiente φ:

El valor resultante no es muy elevado. El signo de la correlación indicaría que la tendencia observada es la asociación entre las modalidades 0 de cada variable y entre las modalidades 1. Así, acertar el ítem se asociaría a las mujeres y errarlo a los hombres

Page 80: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 80

Propiedades

a) El coeficiente φ es un caso particular de rxy, puesto que se calcula a partir de éste, por aplicación del coeficiente de Pearson a una serie de valores de carácter dicotómico.

b) El coeficiente de correlación φ se encuentra comprendido entre los valores -1 y 1. Es decir, -1 < φ < 1.

Este coeficiente de correlación será positivo cuando cb sea mayor que ad. En este caso, existe una relación entre las dos variables en el sentido de que los sujetos que presentan el valor 0 en la variable X tienden a presentar el valor 0 también en Y, y sujetos que presentan el valor 1 en X tienden al valor 1 en la variable Y.

Por el contrario, el coeficiente será negativo cuando cb sea menor que ad. En tal situación, predominan los sujetos situados en las casillas correspondientes a las frecuencias a y d. Es decir, existe relación entre presentar el valor 0 en X y presentar el valor 1 en Y. De forma recíproca, existe relación entre presentar el valor 1 en X y el valor 0 en la variable Y.

c) El valor de φ será 1 cuando todos los sujetos que presentan la modalidad 1 en X presentan la modalidad 1 en Y, y todos los sujetos con 0 en X obtienen 0 en Y. El valor de φ será -1 cuando todos los sujetos que presentan la modalidad 1 en X presentan la modalidad 0 en Y, y todos los sujetos con 0 en X obtienen 1 en Y (ver tabla 8).

Tabla 8: Cálculo de φ con casillas vacías en diagonales

X X

0 1 0 1

Y 1 0 b b Y 1 a 0 a

0 c 0 c 0 0 d d

c b a d

A partir de los valores de la tabla 8, calcularemos el coeficiente cp para el caso en que las diagonales presentan frecuencia nula.

d) Si calculamos el valor de χ2 para una tabla de contingencia de dos filas por dos columnas, se cumple la equivalencia:

Page 81: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 81

COEFICIENTE DE CORRELACIÓN TETRACÓRICA

El coeficiente de correlación tetracórica, expresado por rt, se utiliza cuando las variables con las que trabajamos han sido dicotomizadas de manera artificial. Es más apropiado emplear el coeficiente φ cuando las variables son estrictamente dicotómicas, y recurrir a rt cuando las variables, siendo original mente continuas, aparecen dicotomizadas.

El coeficiente rt no es aplicación directa de rxy, sino una estimación del valor de éste en el caso en que las dos variables no hubieran sido dicotomizadas y la relación entre ellas fuera lineal.

Se demuestra que el valor de rt, viene dado por un complejo desarrollo en serie de potencias de rt, que eludiremos presentar aquí. Sin embargo, como vía alternativa, el cálculo se ve enormemente facilitado por el uso de tablas que permiten encontrar el valor de rt en función de las frecuencias alcanzadas para cada par de modalidades posibles.

Veamos cómo se procede al calcular el valor de este coeficiente. Si la distribución conjunta de frecuencias correspondiente a las variables X e Y es la que aparece en la tabla 9, obtenemos en primer lugar los productos ad y cb comparándolos entre sí, y construimos un cociente en el que el mayor de estos productos aparezca en el numerador:

si ad > cb, calculamos el cociente ad/cb. si ad < cb, calculamos el cociente cb/ad.

Tabla 9: Tabla para el cálculo de rt

X

0 1

Y 1 a b

0 c d

El valor obtenido para este cociente puede ser trasladado a la tabla 11 para determinar el coeficiente de correlación tctracórica que le corresponde. Conocido el valor de rt, asignamos el signo con el siguiente criterio:

Si ad > cb, el coeficiente rt es negativo. Si ad < cb, el coeficiente rt es positivo.

Page 82: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 82

Ejemplo 6

Las calificaciones obtenidas por los alumnos de un curso de Estadística (variable X) y su grado de cumplimiento con las tareas desarrolladas durante el curso (variable Y) han sido dicotomizadas del modo que muestra la tabla 10. Determinar la correlación existente entre ambas variables.

Tabla 10: Datos correspondientes al ejemplo 8.6

Desarrollo de tareas (Y)

Bajo(0) Alto(1)

Calificaciones (X) Aprobado (1) 2 10

Suspenso (0) 7 4

Puesto que ad = 8 y cb = 70, se cumple que cb > ad, luego vamos a obtener un coeficiente de correlación positivo. Calculamos el cociente cb/ad:

Consultando la tabla 11, encontramos que 8.75 se encuentra comprendido en el intervalo [8.500, 8.910], por lo que el coeficiente de correlación tetracórica valdrá en este caso rt = 0.70.

Un coeficiente positivo, como el que hemos obtenido, indica que a valores 1 de la variable X corresponden predominantemente valores 1 en la variable Y, y a valores 0 en X corresponden valores 0 en Y. Es decir, al aprobado corresponde un desarrollo alto de tareas, mientras que el suspenso se asocia a un nivel bajo en el desarrollo de tareas.

Page 83: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 83

Tabla 11: Coeficiente de correlación tetracórica en función de las frecuencias

Propiedades

a) El coeficiente rt puede valer más que 1 ó menos que -1. Este coeficiente de correlación será positivo cuando cb sea mayor que ad. En tal caso, existe una relación entre las dos variables en el sentido de que los sujetos que presentan el valor 0 en la variable X tienden a presentar el valor 0 también en Y, y sujetos que presentan el valor 1 en X tienden al valor 1 en Y.

Por el contrario, el coeficiente será negativo cuando cb sea menor que ad. En tal situación, predominan los sujetos situados en las casillas correspondientes a las frecuencias a y d. Es decir, existe relación entre presentar el valor 0 en X y presentar el valor 1 en Y. De forma recíproca, existe relación entre presentar el valor 1 en X y cl valor 0 en Y.

b) Si una de las cuatro frecuencias de la tabla de distribución conjunta es nula, el coeficiente de correlación tetracórica tendrá un valor rt = l ó rt = -l.

Si a ó d adoptan el valor 0, tendremos que en cb/ad, el denominador es 0, y por tanto el cociente tiende a infinito. La tabla 11 asigna, en este caso, un coeficiente rt = l. Si b ó c adoptan el valor 0, tendremos que en ad/cb, el denominador se hace 0, y consecuentemente el cociente tiende a infinito. La tabla 11 asigna ahora un coeficiente rt=-l.

Page 84: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 84

c) Para un mismo conjunto de datos, se cumple que rt vale aproximadamente (3/2)φ. Esta aproximación es tanto mejor cuanto más próximos se encuentren a la mediana los puntos de dicotomización de ambas variables y cuando rt es menor o igual a 0.50.

TRATAMIENTO INFORMÁTICO DE LAS CORRELACIONES

El programa estadístico SPSS, permite el cálculo de la mayoría de los coeficientes de correlación que aquí hemos revisado. La obtención de coeficientes que son aplicación directa de rx , tales como rs, rbp o cp, conduciría a salidas del mismo tipo de las que ya comentábamos en el capítulo anterior para el caso de la correlación de Pearson.

Nos ocuparemos ahora de revisar el tipo de salidas a las que llegaríamos cuando solicitamos del programa el cálculo del coeficiente de contingencia C. Retomaremos un ejemplo anterior, en el que pretendíamos determinar la relación existente entre dos variables nominales: sexo (variable X) y especialidad de Magisterio cursada (variable Y). Tras introducir los datos y requerir del programa el cálculo de C, obtendremos una salida como la mostrada en la tabla 12.

Tabla 12: Coeficiente de contingencia C

En esta salida, la tabla de contingencia construida incluye tanto las frecuencias observadas (parte superior de cada celda) como las frecuencias teóricas (parte inferior de la celda). Aparecen además las frecuencias marginales para filas (Row) y columnas (Column) y los porcentajes que éstas representan respecto al total de sujetos (Total).

El valor de chi-cuadrado (Peatson) es de 22.006. A partir de este valor, se ha calculado el coeficiente de contingencia C = 0.24355. Junto a estos valores, aparece el grado de significación de los mismos, que carecen de interés desde el punto de vista descriptivo en el que por ahora nos movemos. Otro dato interesante de la salida es la frecuencia esperada mínima (Minimum Expected Frequency), que es de 24.499. Recuérdese que si en alguna de las celdas la frecuencia esperada estuviera por debajo de 1, no sería adecuado utilizar este coeficiente. En caso de que la menor frecuencia esperada estuviera por debajo de 5, se nos indicaría también el porcentaje de celdas con fe inferior a este valor, que para permitir una correcta aplicación de C no debería sobrepasar el 20% del total de celdas.

Page 85: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 85

Ejercicios

1. Los 12 alumnos de un aula unitaria asisten a una exposición sobre la conservación del medio ambiente. Antes de realizar la visita se les ha pedido que marcaran en una escala de 0 a 10 su alteres por asistir a la exposición. También conocemos la edad para cada alumno A partir de los datos recogidos determina la relación existente entre el interés por la actividad y la edad de los alumnos (considérese que en sentido estricto, la edad medida en años no puede considerarse más que una medida en escala ordinal).

Interés Edad

7 15

4 12

6 14

5 14

8 15

9 14

2 11

3 11

4 13

2 11

5 12

6 14

2. Los profesores de una academia para la preparación de oposiciones a determinado cuerpo de funcionarios del Estado afirman que los opositores asistentes al curso de formación impartido por ellos suelen superar la prueba selectiva a la que se presentan. Sabemos que en las últimas oposiciones celebradas, a las que se presentaron un total de 364 candidatos, acudieron 87 alumnos de la academia y que entre los 60 aptos había 35 que habían seguido el curso de formación en la academia. Determina la relación que existe entre la asistencia al curso de formación y el resultado logrado en las oposiciones.

3. El orientador de un centro ha recogido datos sobre el domicilio de los alumnos, clasificado en tres zonas diferentes (A, B y C) y el tipo de estudios de sus padres, clasificado también en tres grupos (sin estudios, estudios primarios y estudios superiores). Si los datos obtenidos son los siguientes, determina la relación existente entre el domicilio de los alumnos y el tipo de estudios de sus padres.

Domicilio por zonas

A B C

Estudios de los padres

Sin estudios 60 80 40

Primarios 40 100 60

Superiores 20 120 10

Page 86: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 86

4. El coordinador de las Escuelas Deportivas Municipales de una determinada localidad desea conocer si existe relación entre el hecho de vivir en una de las dos zonas bien diferenciadas que existen en la localidad (zonas norte y sur) y las preferencias deportivas (balonmano, voleibol, baloncesto y fútbol). Para ello dispone de los datos pertenecientes a la última temporada, que son los que se presentan a continuación. ¿Existe relación entre las dos variables consideradas?

Balonmano Voleibol Baloncesto Fútbol

Zona Norte 5 10 35 50

Zona Sur 45 30 15 10

5. Un grupo de 8 alumnos ha sido ordenado de acuerdo con su puntualidad y su grado de atención a las clases en una disciplina académica. Teniendo en cuenta el orden que ocupan los alumnos en cada variable, determina el valor de la relación existente entre puntualidad y atención.

Puntualidad Atención

2º 1º

5º 3º

3º 4º

4º 2º

1º 5º

7º 8º

6º 6º

8º 7º

6. Una profesora de Educación Infantil considera que el cansancio de los alumnos durante la jornada escolar está relacionado con el tipo de alimentación que tos alumnos toman en su desayuno. Para aportar pruebas que refuercen esta afirmación, la profesora ha observado y registrado el orden en que sus 18 alumnos comienzan a mostrar síntomas de fatiga, de tal manera que el primero es quien antes mostró cansancio, el segundo fue el siguiente en manifestar fatiga, y así sucesivamente. Con posterioridad ha preguntado a los alumnos la composición de su desayuno y ha determinado el valor calórico (expresado en kilocalorías) de los alimentos consumidos por cada uno de ellos. Teniendo en cuenta los datos recogidos, establece la relación existente entre cansancio y valor calórico de la alimentación de los alumnos.

Fatiga 1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º 12º 13º 14º 15º 16º 17º 18º

Kcal. 75 65 58 56 47 63 66 69 71 53 65 66 73 59 75 78 67 79

7. El director de un centro de educación superior donde se cursan estudios dirigidos a la obtención de titulaciones de carácter científico, pretende derribar el mito de que los hombres logran mejores resultados en los estudios de ciencias. Para ello recoge información sobre el sexo de los repetidores de primer curso, encontrando que de un total de 648 alumnos 259 son mujeres, y que a éste sexo pertenecen 50 de los 126 repetidores. ¿Existe relación entre éxito académico y sexo?

Page 87: Antologia de Estadistica Aplicada a La Inv Educ

ESTADISTICA APLICADA A LA INVESTIGACION EDUCATIVA

IESFROSUR Página 87

8. Para comprobar la utilidad de la estimulación precoz de cara a la adquisición de determinadas conductas motoras por parte de los niños se ha llevado a cabo un estudio con 46 niños, de los cuales 20 han seguido un programa de estimulación precoz y 26 no lo han seguido. Al cumplir un año, 7 de los niños que siguieron el programa eran capaces de caminar sin ayudas, mientras que entre los que no siguieron el programa sólo 13 eran capaces de ejecutar esta conducta. ¿Qué relación existe entre la realización o no del programa y la capacidad de caminar al cumplir el año de vida?