El análisis cuantitativo de datos Antoni Cosculluela Mas Albert Fornieles Deu Jaume Turbany Oset PID_00154075
El análisiscuantitativo dedatos Antoni Cosculluela MasAlbert Fornieles DeuJaume Turbany Oset PID_00154075
© FUOC • PID_00154075 El análisis cuantitativo de datos
Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea éste eléctrico,químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escritade los titulares del copyright.
© FUOC • PID_00154075 El análisis cuantitativo de datos
Índice
1. Método científico............................................................................... 5
1.1. El modelo general de investigación ............................................ 6
1.1.1. Nivel teórico-conceptual del modelo general de
investigación .................................................................. 7
1.1.2. Nivel técnico-metodológico del modelo general de
investigación .................................................................. 8
1.1.3. Nivel estadístico-analítico del modelo general de
investigación .................................................................. 8
1.2. Tipos de diseños de investigación .............................................. 9
1.2.1. Diseños de investigación transversales .......................... 9
1.2.2. Diseños de investigación longitudinales ....................... 9
1.2.3. Clasificación de las metodologías de investigación ....... 10
1.3. Las variables ................................................................................ 12
1.3.1. Clasificación de las variables desde el punto de vista
metodológico ................................................................. 12
1.3.2. Clasificación de las variables desde el punto de vista
estadístico ....................................................................... 15
1.3.3. Transformación de los datos ......................................... 15
1.3.4. Tipos de escalas de medida ........................................... 16
1.4. Población y muestra ................................................................... 19
1.4.1. Población ....................................................................... 19
1.4.2. Muestra .......................................................................... 20
1.4.3. El muestreo .................................................................... 21
1.4.4. Las técnicas de muestreo ............................................... 22
1.4.5. El tamaño de la muestra ............................................... 25
1.5. Calidad de las investigaciones .................................................... 26
1.6. Presentación de informes científicos .......................................... 28
2. Análisis de los datos.......................................................................... 32
2.1. Descripción de las variables ........................................................ 32
2.1.1. Índice de tendencia central de la distribución de una
variable ........................................................................... 33
2.1.2. Índice de dispersión o variabilidad de la distribución
de una variable .............................................................. 35
2.1.3. Representaciones gráficas .............................................. 37
2.2. Relaciones entre variables ........................................................... 39
2.2.1. Las pruebas de significación o de hipótesis ................... 39
2.2.2. Las pruebas de relación o independencia ...................... 42
2.3. Aproximación al análisis multivariable ...................................... 59
Bibliografía................................................................................................. 63
© FUOC • PID_00154075 5 El análisis cuantitativo de datos
1. Método científico
Podemos definir la ciencia como la actividad humana que tiene como
propósito la investigación de aproximaciones a los fenómenos obser-
vables, con el fin de describirlos y ver cómo son y de qué manera se
relacionan entre sí. En este sentido, estamos de acuerdo con Sierra Bra-
vo (1985) cuando afirma que la investigación es un conjunto de accio-
nes orientadas a la conceptualización�de�la�realidad. Sus objetivos son
tres: describir,�explicar�y�predecir. La descripción responde a lo que
pasa, la explicación al por qué y la predicción trata de hacer deduccio-
nes de los hechos o fenómenos con el objetivo de poder pronosticar su
comportamiento futuro (qué, cómo o cuándo pasará).
Como señala De Cabo (1996), el método científico trata de proporcionar una
imagen imparcial del mundo, sin tener en cuenta quién lo está observando
(objetividad). Pero, como ya remarcó Heisenberg en 1927, en su principio de
indeterminación, el solo hecho de observar cualquier objeto lo modifica o
perturba. Dado que este principio lo formuló para la ciencia física, es fácil darse
cuenta de que los sujetos humanos todavía modifican más su comportamiento
que perturban los objetos de estudio de la Física cuando se saben (o se sienten)
observados. Estas modificaciones en el comportamiento reciben el nombre de
reactividad, y constituye un sesgo en muchas de las investigaciones realizadas
en seres vivos.
Reactividad
La reactividad se define como los cambios producidos en el comportamiento de los su-jetos cuando saben que están siendo observados.
Así, podríamos definir el método científico como el ciclo completo de la in-
vestigación que nos señala un camino que nos lleva en una dirección, hacia
una finalidad. En definitiva, el método, entendido como una serie de procedi-
mientos generales, se especifica en unas estrategias concretas a las que deno-
minamos diseños�de�investigación, esto es, planes estructurados de acción
(como una especie de receta) que nos indican qué pasos debemos seguir con
el fin de alcanzar una serie de hitos.
Como propone Arnau (1996 a), el diseño incluye aspectos que van desde la
formulación de problemas, la medida de las variables y la obtención de los
datos, hasta su análisis, la interpretación de los resultados y las conclusiones
que podemos extraer.
© FUOC • PID_00154075 6 El análisis cuantitativo de datos
1.1. El modelo general de investigación
El método científico se diferencia de otras concepciones del término
método en que tiene que ser objetivo, sistemático, con mecanismos de
control sobre las expectativas del investigador y replicable. La objetivi-
dad implica que los resultados no pueden depender de quien realiza la
investigación. Sistemático significa que siempre procede de la misma
forma. Los mecanismos�de�control�sobre�las�expectativas�del�inves-
tigador son necesarios para garantizar que los resultados obtenidos son
atribuibles a los factores que hemos encontrado en la investigación y no
en la interpretación de quien lo ha llevado a cabo. Por último, para que
sea replicable, es necesario que el informe de la investigación aporte
información suficiente con el objetivo de que otros investigadores la
puedan repetir o replicar.
Siguiendo los criterios propuestos por Arnau (1996 a), el modelo general de
investigación se articula en tres niveles de actuación jerarquizados, tal como
muestra la figura siguiente.
1) Nivel teórico-conceptual.
2) Nivel técnico-metodológico.
3) Nivel analítico-estadístico.
Modelo general de investigación en psicología
Fuente: Arnau (1996). Cuantificación de las observaciones: escalas de medida.
© FUOC • PID_00154075 7 El análisis cuantitativo de datos
1.1.1. Nivel teórico-conceptual del modelo general de
investigación
En el nivel teórico-conceptual del modelo general de investigación se elabora
el marco teórico de la misma. Es decir, es el momento de redactar el proble-
ma, entendido como el punto de partida de la investigación. El camino para
especificar el problema consiste en la formulación de las hipótesis, entendidas
como soluciones anticipadas del problema. El problema científico es el punto
de partida de la investigación. Se plantea generalmente en forma de pregunta
sobre el cómo, el cuándo o el porqué de la producción de un fenómeno. Sus
términos han de ser de naturaleza empírica (fenómenos observables) y han de
tener solución con los medios de los que dispone la ciencia.
Este nivel constituye el capítulo de introducción del informe científico. Du-
rante esta fase es imprescindible llevar a cabo una tarea de documentación
(recogida de información publicada previamente sobre el tema de estudio),
que nos permita conocer en qué estado se encuentra el conocimiento sobre el
tema, con el fin de elaborar el marco teórico o conceptual.
Ved también
El subapartado 1.6 de este mó-dulo trata sobre el informecientífico.
Ejemplos de tipo de problemas de investigación
El tipo de problema de investigación determina, en buena parte, el resto de fases de lainvestigación. Meltzoff (1998/2000) distingue los siguientes principales tipos de pregun-tas de investigación.
• Preguntas�de�existencia. Se cuestiona la existencia de alguna cosa. Por ejemplo, haceaños que se cuestiona la existencia del inconsciente o de la comunicación simbólicaen chimpancés. Actualmente, se debate sobre la presencia en los humanos de perio-dos sensibles para aprender determinadas habilidades, como los idiomas.
• Preguntas�de�descripción�y�clasificación. Una vez establecida su existencia, las si-guientes preguntas que se plantean son sobre su descripción y clasificación. Siguien-do con el ejemplo de la comunicación simbólica entre chimpancés, nos plantearía-mos cómo es esta comunicación, cuáles son sus características, si varía o es constante,si es un tipo de comunicación única o pertenece a alguna clase conocida, etc.
• Preguntas�de�relación. Una de las preguntas más frecuentes en cualquier disciplinaes si existe relación entre entidades. Se pueden formular equivalentemente comopreguntas de relación (por ejemplo, la memoria se relaciona con la edad) o comopreguntas comparativas (por ejemplo, ¿tienen los jóvenes más memoria que la gentemayor?).
• Preguntas�de�causalidad. Plantean la influencia o efecto de una variable indepen-diente (causa) sobre una variable dependiente (efecto). Por ejemplo, ¿provoca el tra-tamiento conductual una remisión de la anorexia? Estas preguntas requieren inves-tigación experimental donde el investigador utiliza la aleatorización y manipula lavariable independiente, o investigación cuasi-experimental, que utiliza otras estrate-gias de control de las variables extrañas. Cuando la pregunta es de tipo causal, trata-remos de redactar la hipótesis en términos de implicación. Es decir, "si se manipulala variable independiente de determinada manera, entonces hay que esperar a quese produzcan los siguientes cambios en la variable dependiente".
Ejemplos de hipótesis
Algunos ejemplos de hipótesis son las siguientes:
1) Hipótesis descriptivas
a) ¿Cuál es el porcentaje de hogares en Cataluña que disponen de conexión a Internet?b) ¿Que opinan los catalanes sobre la Ley de Normalización Lingüística?
Ved también
Podéis consultar la unidad devídeo 16 para complementarla información de este suba-partado.
© FUOC • PID_00154075 8 El análisis cuantitativo de datos
c) ¿Están los estudiantes satisfechos con los materiales de estudio proporcionados?d) ¿Cuál es la media salarial de un determinado nivel profesional?
2) Hipótesis asociativas
a) Hay diferencias en la intención de voto entre los votantes que viven en medios rurales,semi-urbanos y urbanos.b) Hay relación entre el sexo, la edad y el consumo de alcohol los fines de semana.c) La tasa de paro varía según el nivel de formación.d) Los hombres utilizan Internet con más frecuencia que las mujeres.e) Si aumenta el consumo de alcohol, entonces se incrementará la accidentalidad.
3) Hipótesis predictivas
a) Si los alumnos aprenden con ayuda del ordenador, entonces mejoran su rendimientoacadémico, medido según las notas de los exámenes.b) A partir de los datos recogidos en una encuesta salarial, ¿cuál es el salario de mercadode un director de Recursos Humanos con unas características determinadas?
1.1.2. Nivel técnico-metodológico del modelo general de
investigación
El nivel técnico-metodológico del modelo general de investigación es la fase
de planificación de la misma; corresponde a la estrategia o diseño�de�inves-
tigación.
Entendemos como diseño de investigación el plan que permite dar so-
lución al problema, verificando las hipótesis planteadas al conectar la
teoría y la realidad (mundo empírico).
Dentro del informe científico, el nivel técnico-metodológico se materializa en
el apartado de Método y sus subapartados: Materiales,�participantes�y�pro-
cedimiento. En el caso de diseños de investigación muy complejos, se puede
incluir un subapartado de "Diseño y variables".
Por lo tanto, en esta fase se escogen las variables que queremos registrar y se
operativizan. Se ponen a punto los instrumentos de medida y recogida de
datos (materiales); se decide qué participantes formarán parte de la investiga-
ción (participantes); y cuáles serán las fases por las que pasarán estos sujetos
(procedimiento).
1.1.3. Nivel estadístico-analítico del modelo general de
investigación
El nivel analítico-estadístico del modelo general de investigación es la fase de
obtención de datos para su posterior análisis�estadístico, con el fin de verificar
las hipótesis. La interpretación de los resultados se concreta en los apartados
de Resultados�y�discusión del informe. Por otro lado, hay que señalar que la
discusión conecta con el primer nivel (teórico-conceptual) del modelo general
Ved también
En el subapartado 1.2 hay dife-rentes clasificaciones de los di-seños de investigación.
© FUOC • PID_00154075 9 El análisis cuantitativo de datos
de investigación, ya que se verifica el grado de cumplimiento de los supuestos
formulados en las hipótesis, con lo que se cierra de esta manera el ciclo de la
investigación.
1.2. Tipos de diseños de investigación
En este subapartado nos centraremos en unos de los aspectos mes importantes
a la hora de clasificar los diseños: su temporalidad (por ejemplo, Arnau, 1996
b; y León y Montero, 2003, 2009). Así pues, siguiendo este criterio, podemos
decir que los diseños de investigación pueden ser transversales o longitudina-
les.
1.2.1. Diseños de investigación transversales
Los diseños transversales son aquellos que se realizan con la intención
de describir a la población en un momento determinado.
Los diseños transversales también permiten encontrar diferencias entre gru-
pos y relaciones entre variables. Esta estrategia temporal implica que única-
mente se llevará a cabo una sola medida por unidad de análisis (por ejemplo,
se encuestará al sujeto una sola vez). Como veremos en el apartado 2, dedi-
cado al análisis de datos, los índices que más se utilizan son los estadísticos
descriptivos (media, porcentaje...) para describir los datos; los coeficientes de
correlación; el Ji al cuadrado (χ2) para establecer relaciones entre variables, y
las pruebas de diferencias de medias entre grupos.
1.2.2. Diseños de investigación longitudinales
En los diseños longitudinales se toman varias medidas, ya sea a los mis-
mos sujetos o a sujetos diferentes, a lo largo del tiempo.
La intención de estos estudios es estudiar el cambio o la evolución, evaluan-
do los niveles y/o las tendencias; para lo cual se hacen comparaciones entre
periodos diferentes. Por lo tanto, lo más relevante de estos tipos de diseños es
que incorporan la dimensión temporal.
Ved también
En el apartado 2 de este mó-dulo hay una breve explicaciónde los índices estadísticos máshabituales.
© FUOC • PID_00154075 10 El análisis cuantitativo de datos
Ejemplos de diseños longitudinales
Los diseños longitudinales estudian cambios de nivel o de tendencia a lo largo del tiempo.
1.2.3. Clasificación de las metodologías de investigación
El método�científico, a pesar de ser único y general para todas las ra-
mas de la ciencia, se puede manifestar en diferentes estrategias que, en
última instancia, se podrían clasificar en metodologías�cuantitativas
(manipulativa-experimental) y cualitativas (de correlación, asociativa-
diferencial), definidas en función del grado de control de la investiga-
ción (Arnau, 1996 b).
A continuación, podemos ver esquemáticamente algunos aspectos de las me-
todologías de investigación según los tipos de hipótesis, la naturaleza de la
información, el grado de control (validez interna), tipo de intervención, etc.
Fuente: J. Arnau (1996). Cuantificación de las observaciones: escalas de medida
Fuente: J. Arnau (1996). Cuantificación de las observaciones: escalas de medida
© FUOC • PID_00154075 11 El análisis cuantitativo de datos
Fuente: Ato (1991)
Fuente: Kish (1987)
Fuente: Anguera (1990)
Fuente: Moreno, Martínez y Chacón (2000)
Clasificación adoptada
Experimental Cuasi-experimental Selectiva Observacional
• Hipótesis causales.• Aleatorización.• Manipulación de varia-
bles independientes.• Control experimental.• Máxima validez interna.• Mínima validez externa.
• Hipótesis causales.• Grupos naturales.• Manipulación de varia-
bles independientes.• Control experimental y
estadístico.• Alta validez interna.• Baja validez externa.
• Hipótesis de correlación y estu-dios exploratorios.
• Importancia de la muestra.• Grupos representativos.• Importancia de los instrumen-
tos de medida.• Control estadístico.• Baja validez interna.• Alta validez externa.
• Hipótesis de correlación y estu-dios exploratorios.
• Registro en situaciones naturales.• Importancia del entrenamiento
de observadores.• Mínima validez interna.• Máxima validez externa.
© FUOC • PID_00154075 12 El análisis cuantitativo de datos
La elección de la metodología de investigación no viene únicamente
determinada por el tipo de problema de investigación, sino también por
las limitaciones éticas, económicas, humanas, etc.
1.3. Las variables
Al llevar a cabo una investigación, hace falta determinar los aspectos de la
realidad que se quieren estudiar.
Podemos definir una variable como cualquier dimensión de cambio
susceptible de tomar más de un valor (contrariamente a la constante)
que expresa o representa un rasgo o propiedad mesurable de una rea-
lidad (por ejemplo, peso, altura, coeficiente de inteligencia, grado de
satisfacción, sexo...).
Con el fin de utilizar las variables dentro de una investigación, es necesario
operativizar, es decir, ha de estar perfectamente especificado qué hay que ha-
cer y cómo se tiene que medir la variable (instrumentos, escala de medida...).
Las variables suelen clasificarse desde dos puntos de vista:
1) el metodológico, que indica el rol que juega la variable dentro de la inves-
tigación,
2) el estadístico, que depende del tipo de metrización en que la variable ha
sido medida.
1.3.1. Clasificación de las variables desde el punto de vista
metodológico
Desde un punto de vista metodológico, las variables suelen clasificarse, según
el papel que desempeñan dentro del contexto de la investigación, en variables
independientes o predictivas, variables dependientes o criterio y variables ex-
trañas.
La variable�independiente�o predictiva también denominada variable de tra-
tamiento, factor o predictiva, según se trate de una investigación experimen-
tal o no experimental. Hablaremos de variables independientes siempre que la
investigación tenga como objetivo la obtención de una relación causal, como
en el caso de los diseños experimentales, donde estas variables son las que el
investigador manipula con el objeto de comprobar su efecto sobre algunos as-
© FUOC • PID_00154075 13 El análisis cuantitativo de datos
pectos de la conducta (variables dependientes). Una investigación puede tener
una sola variable independiente (simple o unifactorial) o más de una (diseño
factorial).
Se puede distinguir entre variables independientes de manipulación directa,
o de selección de valores. Las primeras son las puramente experimentales. En
este caso, el experimentador las manipula escogiendo los valores que le inte-
resan para su investigación (tratamientos). Por el contrario, en las de selección
de valores, el investigador se limita a escoger a los sujetos que, por sus carac-
terísticas, cumplen las condiciones requeridas para formar parte de un deter-
minado grupo experimental (por ejemplo, el sexo, el nivel de inteligencia, el
nivel de ansiedad, la extraversión, el hecho de tener un determinado rendi-
miento académico, la edad, etcétera).
Variables independientes de manipulación directa
Tenemos algunos ejemplos de variables independientes de manipulación directa al apli-car un método de enseñanza interactiva o el método tradicional en la dosis de un fárma-co, al realizar una terapia u otra, al recibir unos estímulos u otros...
Variables independientes de selección de valores
Si queremos encontrar diferencias en la opinión sobre el machismo de hombres y muje-res, escogeremos las respuestas dadas al cuestionario por unos y otras con el fin de com-pararlas.
La variable�dependiente�o�criterio�(o también, respuesta) trata del aspecto
sobre el que se espera observar los cambios producidos por la manipulación
de la variable independiente (por ejemplo, cómo un determinado método de
enseñanza influye en el rendimiento o en el fracaso escolar), o, en un contexto
no experimental, en el que se pretende obtener información (las opiniones,
las actitudes, la intención de voto...), en función de las variables predictivas.
Por lo tanto, se espera que estas variables sean sensibles a las variaciones. Así
pues, éste es el aspecto que se mide en la investigación.
Las variables�extrañas�o de�confusión, al igual que las variables independien-
tes o predictivas, también tienen un efecto potencial sobre las variables depen-
dientes o criterio. Por lo tanto, las variables extrañas se tienen que controlar
para eliminar o neutralizar su posible efecto contaminante sobre las criterio.
El grado de control es máximo en la metodología experimental, es escaso en la
de encuestas y es muy limitado en la observación natural. La falta de control
de las variables extrañas en las metodologías no experimentales, imposibilita
establecer relaciones causales.
Ved también
Podéis consultar las unida-des de vídeo 15, 16 y 18 paracomplementar la informaciónde este subapartado.
© FUOC • PID_00154075 14 El análisis cuantitativo de datos
Podemos definir la relación�causal en función de tres criterios (Kenny,
1979, citado por Domènech, 1995). Para considerar una relación entre
dos variables como relación causal, es necesario que se cumplan los tres
requisitos siguientes:
1)�Asociación. Las dos variables tienen que covariar (los cambios en los
valores de una de ellas tienen que reflejarse en los valores de la otra).
2)�Temporalidad. La causa (variable independiente) tiene que ser previa
al efecto (variable dependiente).
3)�Ausencia�de�alteración. La variable independiente (causa) tiene que
ser la única explicación de los cambios apreciados en la variable depen-
diente (efecto).
Ejemplo del rol que desempeñan las variables dentro de la investigación
Si hacemos una encuesta a las empresas con el fin de determinar cuál tiene que ser elsalario de los trabajadores de un determinado nivel profesional (salario de mercado), elsueldo sería la variable de criterio. Por otra parte, las variables predictivas podrían serdeterminados aspectos de las empresas (tamaño de la empresa, sector de actividad, zonageográfica en la que se encuentra...) y del individuo (formación, experiencia, responsa-bilidad...). Ahora bien, si algunas de estas variables predictivas no son contempladas co-mo tal, hay que controlarlas (por ejemplo, manteniendo su valor constante) porque sino pueden ocurrir variables de confusión, como ocurre cuando se compara el salario dediferentes zonas geográficas sin tener en cuenta el tamaño de la empresa.
Esquema del rol de las variables en la investigación
Normalmente, hay un número importante de variables que influyen sobre una variabledependiente. Por lo tanto, el investigador, según sus intereses, escogerá una o unas cuan-tas de estas variables como objetivo de su trabajo. Estas variables pasarán a ser las varia-bles independientes y deben controlar el resto de variables, ya que constituyen posiblesfuentes de variación que producirían error.
Si, en este ejemplo, el investigador decide estudiar el efecto de las variables B y E sobre lavariable dependiente, el esquema quedaría de la siguiente manera.
© FUOC • PID_00154075 15 El análisis cuantitativo de datos
1.3.2. Clasificación de las variables desde el punto de vista
estadístico
Desde el punto de vista estadístico, las variables están relacionadas con la es-
cala de medida en que han sido recogidas. Por lo tanto, uniremos el tipo de
variable, desde el punto de vista estadístico, y el correspondiente por cada es-
cala�de�medida.
Lecturas recomendadas
L.�Jáñez (1989). Fundamentos de psicología matemática. Madrid: Pirámide.
F.�Salvador�(1996). Cuantificación de las observaciones: escalas de medida. Barcelona: UOC.
A.�Cosculluela;�A.�Fornieles;�J.�Turbany (2008). Técnicas de análisis de datos cuantitativos.Barcelona: UOC.
Identificar correctamente el tipo de escala en que se ha medido una variable
es crucial, ya que determina el tipo de análisis de datos que se puede llevar
a cabo con ella.
Dado que el objetivo del módulo no es, ni mucho menos, profundizar en la
teoría�de�la�medida, en el subapartado 1.3.4 citaremos únicamente la clasi-
ficación hecha por Stevens en 1951. Esta clasificación se articula en función
de la distinción entre cuatro tipos de escalas: nominal, ordinal, de intervalo
y de razón.
Los conceptos métricos pueden asignar números reales o vectores en las dife-
rentes características. En el caso de las magnitudes escalares, la escala de me-
dida asigna un número real en el objeto. Éste es el caso de la mayoría de va-
riables; por ejemplo, la edad, altura, número de respuestas correctas, etc.
Hablaremos de magnitudes vectoriales en variables en las que es importante,
no sólo el valor numérico, sino también la dirección, como por ejemplo, en
variables físicas como la velocidad o la fuerza... En el caso de las ciencias socia-
les, este concepto se podría aplicar a las actitudes, ya que tienen magnitudes
tanto de fuerza como de dirección (positiva o negativa) hacia el objeto de la
actitud.
En nuestro caso, nos limitamos a las llamadas magnitudes escalares, aunque
se puede generalizar perfectamente a todo tipo de conceptos métricos.
1.3.3. Transformación de los datos
Lectura recomendada
Para una exposición más am-plía de la teoría de la me-dida, podéis consultar, porejemplo, la obra de L.�Jáñez(1989). Fundamentos de psico-logía matemática. Madrid: Pi-rámide.
Formalmente, en el ámbito científico, podemos definir la transformación de
una variable como el resultado de realizar alguna operación matemática idén-
tica sobre todos sus valores, de manera que cada uno de ellos guarde la misma
correspondencia con los datos de la variable original. En este mismo sentido,
Lectura recomendada
F.�Salvador (1996). Cuanti-ficación de las observaciones:escalas de medida. Barcelona:UOC.
© FUOC • PID_00154075 16 El análisis cuantitativo de datos
en el Diccionario de la Lengua Catalana (Instituto de Estudios Catalanes), se
define la palabra transformación, en su acepción matemática, como "aplica-
ción biyectiva entre dos subconjuntos de un espacio".
Transformar en el DRAE
Según el Diccionario de la Real Academia de la Lengua Española, transformar es "hacercambiar de forma a alguien o algo. Transmutar algo en otra cosa".
Como señala Salvador (1996), las transformaciones consisten en obtener va-
lores numéricos diferentes de los originales manteniendo la capacidad de re-
presentación de las relaciones empíricas.
Ejemplos de transformaciones de variables
En nuestra sociedad hay numerosos ejemplos de transformaciones de variables, ya seapara facilitar los cálculos, o por motivos culturales. Así, es fácil encontrar reglas con es-calas en centímetros y en pulgadas; balanzas con gramos y libras (1 Kg = 0,45 libras);termómetros con graduación en grados centígrados y Fahrenheit (C = 5/9 F - 160/9), etc.Como veremos más adelante, la mayor parte de estas transformaciones son de tipo linealy suelen consistir en una simple combinación de operaciones aritméticas.
Un buen indicador de la utilidad de las transformaciones lo podemos encon-
trar en el hecho de que prácticamente todos los programas informáticos de
tratamiento de datos tienen implementadas multitud de funciones y utilida-
des destinadas a facilitar su realización. Así, por ejemplo, SPSS tiene diversas
instrucciones exclusivamente dedicadas a las transformaciones.
El objetivo de las transformaciones de los datos es conseguir alguna ventaja
en los análisis, preservando, al mismo tiempo, la información relevante y no
dificultando –mejor dicho, en general, facilitando– la interpretación de los re-
sultados. Algunas transformaciones permiten, además de simplificar los cál-
culos, aumentar el nivel de potencia, mejorar la simetría de la distribución,
comparar valores de distribuciones diferentes, etcétera; lo que facilita la apli-
cabilidad de las pruebas estadísticas con las que usualmente se analizan los
datos. Y, muchas veces, permiten acercar la forma de una relación no lineal a
una recta, al modificar el escalado de la variable.
1.3.4. Tipos de escalas de medida
Medir es el proceso de atribuir valores numéricos (conceptos métricos) a las
variables de la muestra o población, con la intención de representar los atri-
butos medidos. Este proceso se hace teniendo en cuenta una escala de medi-
da, con unas reglas establecidas en la teoría del tamaño. En función de las ca-
racterísticas de lo que se ha medido y del cómo se ha realizado la medida, se
pueden establecer diferentes tipos de escalas de medida.
© FUOC • PID_00154075 17 El análisis cuantitativo de datos
1)�Nominal. Se trata del nivel de lenguaje cualitativo. La clasificación o ta-
xonomía sólo nos permite verificar empíricamente la relación de�igualdad�o
desigualdad. Una clasificación de un grupo determinado de objetos o éxitos
(dominio) en subgrupos representa una partición del conjunto. En términos
estadísticos, se denominan variables cualitativas o categóricas.
Las categorías tienen que estar bien definidas de forma operacional y hace falta
que sean exhaustivas (tienen que cubrir completamente todo el dominio o
posibles valores de la variable) y mutuamente�excluyentes (no puede existir
intersección entre las diferentes categorías); es decir, cada objeto o éxito a la
hora de clasificar tiene que poder ser asignado únicamente a una categoría.
a) Transformaciones posibles: cualquiera. Los valores numéricos son meras
etiquetas de las categorías; por lo tanto, pueden ser sustituidas por cualquier
otra, siempre que los nuevos valores sigan siendo diferentes entre sí.
b) Estadísticos: los propios de variables�cualitativas�o�categóricas; como por
ejemplo, frecuencias, porcentajes, proporciones, moda.
c) Ejemplos: sexo, nacionalidad, color del pelo...
2)�Ordinal. Es el nivel de lenguaje comparativo. Mantiene las características
de las anteriores, pero añade que, además de verificar la igualdad/desigualdad,
incorpora el�orden.
En la clasificación estadística serían cualitativas�ordenadas o simplemente
variables ordinales.
a) Transformaciones: isotónica. Los diferentes valores numéricos nos infor-
man acerca del orden de las categorías; por lo tanto, la transformación tiene
que mantener el orden original.
b) Estadísticas: las de las escalas nominales más la mediana, los centiles y de-
más índices de posición, y la correlación ordinal.
c) Ejemplos: la orden de llegada en una carrera, las calificaciones (suspendido,
aprobado, notable, excelente, matrícula de honor), una gradación del acuerdo
(totalmente de acuerdo, de acuerdo, indiferente, en desacuerdo, totalmente
en desacuerdo), el nivel de estudios (primarios, secundarios, medios, superio-
res...), etc.
3)�Intervalo. Además de verificar la igualdad/desigualdad y el orden, nos in-
dica la�magnitud�de�las�diferencias. El valor�nulo de la escala es designado
arbitrariamente (por convención); es decir, el valor 0 no indica la falta total
del atributo, y, en muchos casos, tiene sentido hablar de valores negativos. En
© FUOC • PID_00154075 18 El análisis cuantitativo de datos
la temperatura medida en grados centígrados tiene sentido hablar de –5 °C,
ya que 0 °C no es la mínima temperatura posible. En términos estadísticos se
trata de variables�cuantitativas.
a) Nivel de lenguaje cuantitativo: magnitudes intensivas. Hablamos de mag-
nitudes intensivas cuando la combinación de objetos no es aditiva.
b) Transformación: lineal.
c) Estadísticos: los de las escalas anteriores más la media, la variación y la
desviación tipo, la correlación lineal, etc.
Ejemplo de magnitud intensiva
Si juntamos dos líquidos con diferentes temperaturas, la combinación resultante no ten-drá una temperatura que sea la suma de las dos anteriores.
d) Ejemplos: temperatura en grados centígrados, coeficiente de inteligencia,
etc.
4)�Razón. También llamadas de proporción. Nos permiten verificar todas las
relaciones de las anteriores, añadiendo, respecto a la de intervalo, el hecho de
que en las escalas de razón existe una unidad empírica de medida y, por lo
tanto, un valor nulo (0�absoluto), que indica ausencia de la característica o
variable que medir.
a) El nivel de lenguaje también es cuantitativo: magnitudes extensivas. Se ha-
bla de magnitudes extensivas o aditivas cuando la combinación de objetos
es igual a su sumatorio (por ejemplo, si juntamos dos líquidos con diferentes
volúmenes, la combinación resultante tendrá un volumen igual a la suma de
los dos anteriores). En estadística son también variables�cuantitativas.
b) Transformaciones: subconjunto de las funciones lineales donde la transfor-
mación mantiene el valor 0 absoluto.
c) Estadísticos: los mismos que en las escalas de intervalos.
d) Ejemplos: longitud, peso, tiempo de reacción, número de respuestas, etc.
Por último, hay que señalar que las variables cuantitativas se subdividen en
variables cuantitativas discretas y continuas. Las primeras son aquellas en las
que no es posible insertar ningún valor entre un valor determinado y el si-
guiente, como el número de hijos, el número de sillas que hay en una habita-
ción...; es decir, de alguna manera, no tiene sentido hablar de decimales.
Por el contrario, en las variables cuantitativas continuas es posible intercalar
infinitos valores entre dos valores cualesquiera. El número de decimales que
incorporaremos dependerá de la precisión que necesitamos y de la que tenga
© FUOC • PID_00154075 19 El análisis cuantitativo de datos
nuestro instrumento de medida, pero no de las características de la variable.
Así, por ejemplo, entre 168 cm y 168 cm podríamos poner infinitos valores en
mm (1.681, 1.682, 1.683, 1.684...), y así sucesivamente.
Escalas Transformación verbal Transformaciónformal
Invariación Ejemplos
Nominal (Pertenencia)Tr. Biunívoca
Mantiene las categorías. Materiales de construcción, sexo...
Ordinal (Precedencia o preferencia)Tr. Isotónica
Xi < Xj X'i<X'j Mantiene el orden de los valo-res.
Nivel de formación, preferencia deasignaturas...
Intervalo (Diferencia, magnitud)Tr. Funciones lineales
X' = aX + b Mantiene la magnitud de las di-ferencias
Temperatura en °C coeficiente deinteligencia...
Razón (Magnitudes extensivas y0 absoluto)Tr. Funciones lineales de sem-blanza
X' = aX Mantiene la razón entre los va-lores y el 0 absoluto.
Peso, longitud...
1.4. Población y muestra
En algunas ocasiones, cuando el tamaño de la población no es muy grande,
es posible investigar con la población entera, estudiando todas las unidades
de análisis de la población. Pero, en general, resultaría muy costoso y, a ve-
ces, incluso imposible. Por eso lo habitual en las investigaciones es trabajar
con subconjuntos de la población, las llamadas muestras, que son escogidas
siguiendo unas determinadas normas o técnicas de muestreo.
1.4.1. Población
Entendemos por población a todo el colectivo de unidades de análisis
que tiene algún rasgo común y del cual pretendemos obtener alguna
información (León y Montero, 2003; 2009).
Cuando hablamos de unidades de análisis, nos estamos refiriendo a los suje-
tos, empresas, países, comunidades... sobre los que queremos obtener la infor-
mación. En general, la unidad de análisis coincide con el concepto de sujetos,
pero eso, cómo veremos en los ejemplos, no siempre es así.
Ved también
Podéis consultar la unidad devídeo 17 para complementarla información de este suba-partado.
© FUOC • PID_00154075 20 El análisis cuantitativo de datos
1.4.2. Muestra
La muestra es un subconjunto de la población. A partir de la muestra
tomamos decisiones sobre el conjunto de la población. Por lo tanto, la
idea fundamental es suponer que si la muestra ha sido bien escogida,
será representativa de la población de referencia, por lo que los resul-
tados obtenidos en la muestra podrán ser extrapolados a la población.
Por ejemplo, para conocer la intención de voto para las próximas elecciones,
las empresas de estudios estadísticos escogen una muestra de unos pocos miles
de sujetos y extrapolan a toda la población de votantes los resultados que han
obtenido de estos sujetos.
El hecho de que una muestra sea representativa implica que las características
del conjunto de los sujetos que la componen sean semejantes al conjunto de
sujetos que forman la población. Es decir, con el fin de predecir cuáles serán
los resultados de las próximas elecciones, será necesario que la muestra esté
formada por personas de todas las características de todos los votantes; por lo
tanto, hará falta que haya hombres y mujeres; jóvenes, adultos y viejos; estu-
diantes, profesionales, campesinos...; habitantes de ciudades grandes, peque-
ñas, de pueblos, etc.
Ejemplos de poblaciones
Los siguientes son algunos ejemplos de poblaciones:
1) poblaciones en que las unidades de análisis son los sujetos,
a) personas con derecho a voto en las próximas elecciones autonómicas,b) estudiantes universitarios en Cataluña,c) mujeres histerotomizadas,d) turistas alemanes en la Costa Brava.
2) Poblaciones en que las unidades de análisis no son los sujetos:
a) empresas en la provincia de Barcelona,b) países africanos,c) organizaciones no gubernamentales.
Ejemplo
En la siguiente figura podemos observar cómo se mantienen las proporciones de cua-dros negros y círculos blancos (afijación proporcional). La muestra es representativa. Si lamuestra, por ejemplo, tuviera quince cuadros negros y cinco círculos blancos, diríamosque está sesgada.
Ved también
Las encuestas forman parte delas metodologías cuantitativas,en concreto, de una categoríallamada "metodologías selec-tivas". La justificación de estecalificativo la veremos poste-riormente. Podéis consultar launidad de vídeo 18 para com-plementar la información deeste subapartado.
© FUOC • PID_00154075 21 El análisis cuantitativo de datos
No actuar de esta manera y hacer una muestra, por ejemplo, con la intención de voto enlas próximas elecciones autonómicas de los estudiantes de las universidades de Barcelona,implicaría, muy probablemente, cometer un grave error, al hacer la predicción de losresultados de las elecciones basándonos en los datos obtenidos con nuestra muestra.
Una de las dificultades más grandes que nos encontramos a la hora de trabajar
con muestras, es que muchas veces no son representativas, ya que, aunque
hayamos hecho el muestreo correctamente, se da el problema de la autoselec-
ción. Este problema radica en el hecho de que muchas veces no participan en
nuestra investigación todos los sujetos elegidos para formar parte de la mues-
tra, sino que únicamente lo hacen aquellos que quieren hacerlo, y no tenemos
ninguna garantía de si estos sujetos tienen o no alguna característica diferen-
cial con respecto a los sujetos que no lo hacen, y, por tanto, si son o no repre-
sentativos de todo el colectivo (población).
1.4.3. El muestreo
El muestreo es el proceso por el que algunas de las unidades de la po-
blación pasan a formar parte de la muestra.
El muestreo es un proceso que tiene una importancia fundamental en algu-
nos diseños, como en el caso de los diseños de encuesta, ya que, al no poder
ejercer otros tipos de controles, la falta de rigor en el muestreo podría provo-
car estimaciones�sesgadas de las características de la población (Domènech
y col., 1998).
Este proceso se tiene que llevar a cabo siguiendo una serie de principios que
se enmarcan en la denominación de técnicas de muestreo.
Con el fin de iniciar el proceso, previamente al muestreo, debemos elaborar
un censo de las unidades de la población. El censo consiste en realizar un
recuento e identificación de las unidades de la población. Tenemos que tener
en cuenta que, en poblaciones grandes o dispersas, la elaboración del censo
puede resultar bastante complicada, y un censo sesgado puede representar un
grave problema a la hora de encontrar una muestra representativa.
© FUOC • PID_00154075 22 El análisis cuantitativo de datos
Problemas en la elaboración de un censo
Si queremos saber qué piensan los adolescentes sobre el problema del consumo de drogas,puede ser que nos cueste más censar a algunos de los jóvenes que precisamente tieneneste problema por encontrarse en ambientes marginales, por lo que los resultados queobtendríamos de la muestra que hubiéramos podido extraer de este censo no darían unavisión real del problema.
1.4.4. Las técnicas de muestreo
Para realizar el muestreo se tienen que seguir unas técnicas que nos indican
la forma de realizarlo. En general, podemos distinguir dos grandes tipos de
técnicas: las técnicas de muestreo probabilísticas y las no probabilísticas.
Muestreo probabilístico
Las técnicas de muestreo probabilísticas son aquellas en las que la selección�de
las�unidades (sujetos, empresas...) que integrarán la muestra se realiza alea-
toriamente (por sorteo), y, por lo tanto, todas las unidades de la población
tienen las mismas probabilidades de formar parte de la muestra.
Ésta es la forma más segura de garantizar la representatividad de la muestra (de
hecho, prácticamente es la única manera de que la representatividad no quede
comprometida), ya que se espera que el azar distribuya todas las características
de la población entre las unidades que componen la muestra.
Las principales técnicas probabilísticas son el muestreo aleatorio simple, el
aleatorio estratificado y el muestreo por conglomerados.
En el muestreo�aleatorio�simple cada elemento de la población tiene
la misma probabilidad de ser incluido en la muestra. La técnica consiste
sencillamente en un sorteo entre todos los componentes de la pobla-
ción.
Con el fin de realizar el sorteo, el primer paso es enumerar todas las unidades
de la población para, seguidamente, escoger al azar cuáles son las que formarán
la muestra. Para hacer el sorteo se pueden utilizar muchos procedimientos,
como poner los números en un bombo, utilizar un programa informático o a
una calculadora para que nos haga un listado de números aleatorios, utilizar
una tabla de números aleatorios...
Tabla de números aleatorios
Una tabla de números aleatorios es un listado de números que se ha creado al azar y que,por tanto, no sigue ningún patrón sistemático.
© FUOC • PID_00154075 23 El análisis cuantitativo de datos
Esta técnica es efectiva cuando la población no es demasiado grande. Si la po-
blación es muy grande (como, por ejemplo, las personas con derecho a voto
en las próximas elecciones autonómicas), es difícil enumerar todas las unida-
des con el fin de realizar el sorteo y es preferible recurrir al muestreo aleatorio
estratificado.
El muestreo�aleatorio�estratificado consiste en la creación de diferen-
tes estratos�uniformes (partes) de la población.
Ejemplo de muestreo aleatorio estratificado
Si, por ejemplo, tomamos el caso de la población de votantes potenciales para las próxi-mas elecciones, podríamos definir tres estratos a partir del tipo de hábitat de los sujetos,por lo que tendríamos un estrato urbano, uno semiurbano y uno rural. Después, haría-mos un sorteo aleatorio dentro de cada uno de los estratos; así podríamos estar lo sufi-cientemente seguros de que en la muestra habría sujetos de todos los estratos.
Ahora bien, a la hora de decidir cuántos sujetos tenemos de cada estrato en la muestra,podemos hacer dos cosas:
1) coger el mismo número de sujetos de cada estrato, con lo que haríamos una afijaciónsimple;
2) hacer una afijación�proporcional y mantener los porcentajes que cada estrato repre-senta en la población de la muestra.
Así, si la población está repartida, por ejemplo, en 50% urbano, 30% semiurbano y 20%de población rural; si decidimos escoger una muestra de 1.200 sujetos, en el caso de laafijación simple, cogeríamos 400 de cada uno de los estratos. Mientras que, si utilizamosuna afijación proporcional, cogemos 600 del hábitat urbano (50%); 360 del semiurbano(30%) y 240 del rural (20%).
Ejemplo de afijación simple
La figura siguiente muestra un ejemplo de afijación simple (50% de cuadrados negrosy círculos blancos). En la figura anterior del subapartado 1.4.2 se podía observar cómose mantenían las proporciones de cuadrados negros y círculos blancos (afijación propor-cional).
En el muestreo�por�conglomerados se varía la estrategia, ya que el sor-
teo no lo haremos con las unidades directamente, sino que cogeremos
grupos�enteros�de�unidades que por alguna causa constituyen grupos
naturales y haremos el sorteo de grupos; así, las unidades que formen
parte de los grupos escogidos serán las que compondrán la muestra.
© FUOC • PID_00154075 24 El análisis cuantitativo de datos
En el ejemplo anterior, en vez de sortear a los sujetos individualmente, lo ha-
ríamos por bloques de pisos, encuestando a todos los sujetos que vivieran en
los bloques escogidos.
Este tipo de muestreo se suele realizar cuando las poblaciones son muy grandes
o cuando la población está distribuida en grupos naturales que imposibilitan
o dificultan trabajar con las unidades por separado. Por ejemplo, si queremos
hacer una encuesta a los escolares que están cursando 3.° de ESO, puede ser
más sencillo seleccionar por conglomerados unas cuantas aulas y encuestarlos
en la misma clase, que hacer un sorteo de todos los niños y pasarles la encuesta
fuera del horario escolar.
En este caso, corremos el riesgo de que los sujetos de conglomerados diferentes
tengan también características diferentes.
Por último, no hay que confundir entre conglomerados y estratos, ya que los
primeros pueden ser muy heterogéneos (a veces más que la misma población),
mientras que, cuando estratificamos la población, buscamos encontrar mucha
homogeneidad dentro de cada estrato (Domènech y col., 1998).
Mustreo no probabilístico
En las técnicas de muestreo no probabilísticas no�se�realiza�ningún�sorteo y,
por lo tanto, no todas las unidades de la población tienen las mismas proba-
bilidades de pasar a formar parte de la muestra.
A pesar de lo mucho que se utilizan, este modo de realizar las muestras com-
portan un grave�riesgo�para�la�representatividad de las mismas. Al ser selec-
cionadas por alguna característica concreta, o bien por el propio hecho de que
en muchos casos son participantes voluntarios, no hay ninguna garantía de
que las unidades escogidas sean representativas de toda la población a la que
pertenecen.
Hay diversas técnicas no probabilísticas. Algunas son las siguientes:
1) Las muestras�accidentales son aquellas en las que los sujetos participan
por su propia�voluntad en la encuesta en respuesta a una demanda de quien
organiza la misma. Generalmente, esta demanda se vehicula por algún medio
de comunicación, como un diario o revista, la radio o la televisión. En estas
ocasiones, a menudo responden muchos sujetos que tienen opiniones extre-
mas sobre el tema tratado.
Ejemplo de muestra accidental en la televisión
En muchos programas de televisión se hace una pregunta sobre lo que opinan los oyenteso televidentes y se pide que llamen a un teléfono determinado o escriban diciendo loque opinan sobre un tema.
© FUOC • PID_00154075 25 El análisis cuantitativo de datos
Otro tipo de muestreo accidental es cuando se trabaja con las unidades que
están disponibles�para�el�investigador.
Ejemplo de muestra accidental con las unidades disponibles para elinvestigador
Un investigador es profesor de una universidad y hace una encuesta a sus alumnos parasaber cuál es la opinión de los jóvenes sobre el consumo de tabaco.
Estas muestras son sesgadas, y los resultados obtenidos únicamente pueden ser
útiles en algunas ocasiones en que las características particulares de los sujetos
no difieren mucho de las generales de la población.
2) El muestreo�hecho�a�propósito�o�intencional se produce cuando se decide
por razones históricas o teóricas utilizar un determinado�colectivo�de�sujetos
como representación de una población. Con el fin de que sea útil, tiene que
estar apoyado por resultados anteriores que permitan pensar que los datos de
la muestra de aquel colectivo son un buen indicador (son representativas) de
las de la población.
Ejemplo de muestreo intencional
Si, por ejemplo, un investigador de opinión ha constatado que los resultados generales delas elecciones autonómicas siempre coinciden con las votaciones realizadas en un deter-minado municipio, se puede plantear la posibilidad de encuestar a todos los votantes delmunicipio, en vez de hacer un muestreo estratificado, con el fin de predecir el resultadode toda la población.
3)�Muestreo�por�cuotas. Hay que tener un buen conocimiento de las propor-
ciones que representan los estratos en la población. Es parecido al muestreo
estratificado aleatorio, pero sin el carácter probabilístico. Una vez conocidos
los porcentajes, fijaremos las cuotas, es decir, el número de sujetos que cum-
plen las condiciones requeridas.
Ejemplo de muestreo por cuotas
Tenemos treinta sujetos masculinos, de 20 a 30 años, etc. Una vez determinada la cuota,se escogen los primeros participantes que cumplen las condiciones, hasta llenar todaslas cuotas.
4)�Bola�de�nieve. Se escogen unos cuantos sujetos y, cuando han finalizado su
participación, se les pide que convoquen conocidos suyos, y así sucesivamente
hasta tener el número de participantes necesario. Este sistema se utiliza mucho
con poblaciones marginales.
1.4.5. El tamaño de la muestra
Haber realizado correctamente el muestreo no implica que los datos obtenidos
sean extrapolables a la población. Aunque la muestra sea representativa, es
necesario que contenga suficientes elementos como para poder extraer con-
clusiones generales. No hay que olvidar que el�error�de�muestra�está relacio-
nado con el tamaño de la misma.
© FUOC • PID_00154075 26 El análisis cuantitativo de datos
Por lo tanto, el tamaño de la muestra está directamente relacionada con la
precisión�de�la�estimación que realizaremos, así como con el grado de segu-
ridad que tendremos. En definitiva, cuanto mayor sea la muestra, más precisa
será nuestra predicción y más seguros estaremos de los resultados. Pero hay
que tener en cuenta que las muestras grandes son más difíciles de conseguir;
por lo que hay que encontrar un punto de equilibrio entre la precisión y el
coste económico y personal. Es más, hay que considerar que, a pesar de lo que
acabamos de decir, una muestra grande no es por sí misma una garantía de su
representatividad. El tamaño de la muestra es una condición necesaria, pero
no suficiente, de representatividad.
Para calcular el tamaño de la muestra requerida para cada caso concreto, hay
una serie de procedimientos estadísticos que dependerán (además de la preci-
sión y de la seguridad) de aspectos como el estadístico ya utilizado.
En general, podemos decir que el tamaño de muestra que necesitaremos de-
penderá de diferentes aspectos, entre los que destacan: el tamaño de la pobla-
ción, el tratamiento estadístico que le queremos dar a los datos, la variabilidad
del tamaño en la población, los márgenes admisibles de nuestras predicciones
y el nivel de seguridad que deseamos tener.
1.5. Calidad de las investigaciones
En este subapartado nos referiremos a un par de cuestiones fundamentales en
toda investigación. La validez se refiere a las posibilidades reales que tenemos
de generalizar nuestros hallazgos y en qué nivel de seguridad lo podemos ha-
cer.
La validez�interna de una investigación representa el grado de segu-
ridad que tenemos de que la relación que hemos establecido entre la
variable independiente y la variable dependiente sea causal; es decir,
el grado de confianza con el que podemos establecer que los cambios
registrados en la variable dependiente se han producido como efecto de
los cambios que hemos introducido en la variable independiente.
Si recordamos la definición de relación causal, en la validez interna estará fuer-
temente implicado el concepto de control de las variables extrañas, ya que
solamente con estos controles podemos garantizar que las variables indepen-
dientes son la única causa de los cambios registrados en la variable dependien-
te.
Lectura recomendada
Podéis encontrar en casi to-dos los manuales de estadísti-ca la información suficientepara poder efectuar los cálcu-los necesarios para encontrarel tamaño de la muestra.
© FUOC • PID_00154075 27 El análisis cuantitativo de datos
La validez interna se puede ver afectada por una serie de amenazas que tienen
como problema principal el hecho de que las variables extrañas actúen de for-
ma diferenciada sobre los grupos experimentales. Siguiendo el criterio clásico
(Campbell y Stanley, 1966), podemos decir que estas amenazas son:
1)�La�historia. Se refiere a todo aquello que le sucede a cada sujeto experi-
mental durante su participación en el experimento. Por lo tanto, se trata de
cómo afectan en el sujeto experimental acontecimientos que son externos al
propio sujeto.
2)�La�maduración. Es parecido a la historia. La diferencia principal radica en
que la maduración se refiere a acontecimientos internos del propio sujeto. La
maduración puede ser tanto biológica como psicológica.
3)�Los�pre-tests. Las medidas previas a la aplicación de los tratamientos, es-
pecialmente la medida de la propia variable dependiente, pueden afectar, por
diferentes causas (familiarización, creación de expectativas...) al rendimiento
de los sujetos en la tarea experimental.
4)�La�instrumentación. Se refiere a la precisión y constancia de medida de
los instrumentos.
5)�La�regresión�en�la�media. Esta amenaza puede afectar a las investigaciones
que utilicen como variable independiente valores extremos de algún rasgo de
los sujetos –por ejemplo, coeficiente de inteligencia alto frente a coeficiente
de inteligencia bajo; extrovertidos frente a introvertidos...–. El error se pue-
de producir al obtener la medida para clasificar a los sujetos como extremos,
cuando algunos de ellos quizá no lo son y han obtenido una puntuación más
extrema de lo que sería normal con ellos.
6)�La�selección�diferencial. Hace referencia a un error en la asignación de
los sujetos a los grupos, lo que motiva que estos ya no sean comparables ini-
cialmente. Un caso de selección diferencial sería que uno de los grupos esté
formado por sujetos voluntarios, mientras que el otro lo esté por sujetos no
voluntarios.
7)�La�mortalidad�experimental. Se entiende como mortalidad experimental
el hecho de que, a lo largo de la investigación, algunos sujetos dejan de par-
ticipar en la misma. Por lo tanto, eso puede afectar especialmente a los estu-
dios longitudinales, donde a veces se pueden perder más sujetos de unos gru-
pos que de otros. Esto constituye una mortalidad experimental diferencial que
puede afectar a la validez interna.
Además, hay que decir que estas amenazas pueden interactuar entre ellas, y
aumentan así su efecto sobre la validez interna.
© FUOC • PID_00154075 28 El análisis cuantitativo de datos
La validez�externa indica el nivel de representatividad, y, por lo tan-
to, hace referencia al grado en que podemos generalizar los resultados
obtenidos en una investigación (las relaciones encontradas), ya sea a
otras situaciones (también llamadas ecológicas), a otros sujetos o a otras
variables.
Diferencia entre validez interna y externa
La validez interna tiene que ver con el control de las variables extrañas. La validez externacon la representatividad y la generalización de sujetos, situaciones o variables.
¿En qué otras situaciones, sujetos o poblaciones podemos generalizar los efec-
tos obtenidos en nuestra investigación? Como podemos deducir fácilmente,
la validez interna es previa y más importante que la externa, ya que si no po-
demos estar seguros de que la relación entre la variable independiente y la
variable dependiente es la deseada, no servirá de mucho poder generalizarla.
1.6. Presentación de informes científicos
El informe científico se compone de una serie de apartados fijos, que a conti-
nuación señalaremos brevemente.
1)�Título. Tiene que dar una idea precisa del contenido del trabajo.
2)�Autores. Nombre y apellidos de los autores. Hay que poner una dirección,
en general institucional, de contacto (universidad, empresa, institución...), por
si algún lector quiere obtener más información.
3)�Resumen. El trabajo ha de contener un resumen de un máximo de quince
líneas, donde se sinteticen los aspectos más relevantes del marco teórico que
ha promovido el trabajo, los objetivos, los resultados más importantes y las
conclusiones que se pueden extraer de los mismos. El resumen es muy impor-
tante, ya que es una información que se integra en las bases de datos de con-
sultas (CD-ROM, publicaciones de resúmenes o abstracts...) y posibilita que las
personas potencialmente interesadas puedan decidir si desean profundizar en
el trabajo o no.
4)�Palabras�clave�(keywords). Los keywords son cuatro o cinco palabras que
recogen los temas principales de la investigación. Al igual que los apartados
anteriores, esta información es un campo de las bases de datos de consulta.
Mediante estas palabras clave se pueden establecer filtros para obtener única-
mente los trabajos que corresponden a los temas escogidos.
Ejemplo de palabras clave
Si publicamos los resultados de una encuesta salarial realizada para hacer un estudio delas remuneraciones de mercado, las palabras clave podrían ser: encuestas, salarios, remu-neración de mercado...
Lecturas recomendadas
Para profundizar más sobre lavalidez interna y externa, po-déis ver las siguientes obras:O.�León;�I.�Montero�(2003).Métodos de investigación (3.ªedición). Madrid: McGraw-Hill.O.�León;�I.�Montero�(2009).Métodos de investigación cuan-titativa. Barcelona: UOC.
© FUOC • PID_00154075 29 El análisis cuantitativo de datos
5)�Introducción. En la introducción se establece el marco�teórico de la inves-
tigación; es decir, se plantea el problema y las hipótesis a partir de los resul-
tados obtenidos en investigaciones anteriores y de los objetivos de los autores.
De aquí que en esta fase sea fundamental la documentación, para establecer
el estado de la investigación en el tema de interés. La documentación es el
proceso de recogida de información proveniente de investigaciones anteriores
sobre el tema; asimismo, se concretan los objetivos de la investigación.
6)�Método. En este apartado se especifican todos los datos metodológicos que
permiten responder al trabajo. Se subdivide en tres subapartados.
a)�Materiales. En este subapartado se especifican todos los materiales: cues-
tionarios, instrumentos, ordenadores y programas utilizados por el tratamien-
to estadístico de los datos... En el caso de los cuestionarios y las entrevistas,
es conveniente adjuntar un ejemplar, en el anexo, de los diferentes tipos de
cuestionarios o del protocolo de la entrevista, ya que éstos acostumbran a ser
herramientas creadas ad hoc, y, por lo tanto, no están estandarizadas.
b)�Participantes. En el subapartado de participantes se especifican las carac-
terísticas relevantes de los sujetos que han contestado a las preguntas de la in-
vestigación (datos demográficos, rasgos distintivos...). Sin embargo, se tienen
que especificar las técnicas de muestreo que se han utilizado, el número total
de sujetos, y, en general, cualquier otra cuestión relacionada con los sujetos.
c)�Procedimiento. En el procedimiento se especifican todos los pasos�de�la
investigación (el cómo se ha hecho), especialmente las que tratan lo que ha-
cen las unidades de análisis (generalmente sujetos) desde el inicio de su parti-
cipación en la investigación hasta el final de la misma. En este subapartado
también nos referiremos a la operatividad y medida de las variables, a la estra-
tegia utilizada para obtener la información (por correo, entrevistas...).
7)�Resultados. En este apartado se presentan y comentan todos los resultados
obtenidos en la investigación. Es necesario que recojan, como mínimo, infor-
mación�descriptiva de cada una de las variables estudiadas. Esta información
se puede presentar mediante tablas�y�gráficas. Este último procedimiento es
bastante recomendable, ya que permite una visión rápida de los rasgos gene-
rales más importantes.
En la mayoría de las investigaciones también será de interés encontrar relacio-
nes�entre�variables. Éstas se pueden presentar de diferentes formas, ya sea con
una mera descripción segmentada (fragmentada) de una variable en función
de otra (por ejemplo, ver por separado la distribución salarial para hombres y
para mujeres), o con los índices estadísticos correspondientes (χ2; correlacio-
nes y regresiones; diferencias entre medias o porcentajes, etcétera).
© FUOC • PID_00154075 30 El análisis cuantitativo de datos
Si se trata de un diseño de encuestas, en este apartado, se suele presentar la
ficha técnica de la encuesta, donde se especifican la medida de la muestra,
la precisión obtenida, los márgenes de error y otros aspectos técnicos de la
investigación.
8)�Discusión. En este apartado, se analizan los aspectos más relevantes encon-
trados en los resultados y se extraen las conclusiones más importantes. Por
otra parte, se comparan los hallazgos con los objetivos y, en caso de haberlas,
las hipótesis, con el fin de ver en qué medida se han cumplido ambos aspectos.
Por último, se ponen de manifiesto las posibles repercusiones que se puedan
producir a partir de la información obtenida, las posibles investigaciones fu-
turas que completen o complementen el trabajo, y se indican las posibles ca-
rencias o limitaciones que haya podido tener el trabajo.
9)�Referencias. En este apartado se tienen que incluir todas las referencias
bibliográficas que se hayan utilizado a lo largo del trabajo. Se seguirá el orden
alfabético, a partir del apellido del primer autor que firma el trabajo. Para citar
más de un trabajo del mismo autor, se sigue el criterio cronológico.
Con el fin de nombrar correctamente las referencias bibliográficas, dispone-
mos de una serie de estándares para transcribir las citas. Estos estándares de-
penden de la disciplina científica bajo la que se haya llevado a cabo la inves-
tigación, sin embargo, en general, todos incluyen la siguiente información:
Nombre de los autores e institución que realiza el trabajo, fecha de publica-
ción, título del trabajo, el nombre de la publicación (revista, libro...), numero
y páginas donde se encuentra el trabajo (si se trata de una revista o una colec-
ción), ciudad en donde se ha editado y nombre de la editorial.
Por otra parte, hay que tener en cuenta que cada tipo de trabajo se cita de
forma diferente (tesis, libros, artículos...).
Ejemplos de referencias bibliográficas
A continuación, ponemos el ejemplo de diferentes publicaciones en formato APA (Ame-rican Psicological Association): un libro, un artículo publicado en una revista, el capítulode una compilación de trabajos y una tesis doctoral:
A.�Andrés�Pueyo (1993). La inteligencia como fenómeno natural. Valencia: Promolibro.
J.�J.�Aparicio�y�J.�L.�Zaccagnini (1980). Memoria y adquisición del conocimiento. Estu-dios de Psicología (n.° 2, pp. 78-92).
G.�H.�Bower (1975). Cognitive Psychology: an introduction. En W. K. Estes (Ed.). Hand-book of learning and cognitive process. Nueva York: Wiley.
A.�Cosculluela (1990). Rendimiento escolar, inteligencia y velocidad de procesamiento de lainformación. Barcelona: Universidad de Barcelona. [Tesis doctoral no publicada.]
Lecturas recomendadas
Para profundizar en la pre-sentación de los informescientíficos, podéis consultarlas siguientes obras:O.�León;�I.�Montero�(2003).Métodos de investigación (3.ªedición). Madrid: McGraw-Hill.O.�León;�I.�Montero�(2009).Métodos de investigación cuan-titativa. Barcelona: UOC.
© FUOC • PID_00154075 31 El análisis cuantitativo de datos
10)�Anexo. En el anexo se pone toda la información complementaría que los
autores consideran de utilidad para los lectores: un ejemplar de cada cuestio-
nario, listados de resultados o de lugares de interés, tablas...
© FUOC • PID_00154075 32 El análisis cuantitativo de datos
2. Análisis de los datos
Como ya hemos comentado en el subapartado 1.3, dedicado a las variables, el
tipo de análisis que podremos hacer con los datos depende no sólo de nuestros
intereses, sino, básicamente, de la escala en que hayan sido medidas. A pesar
de eso, el proceso siempre empezará por la tabulación de los datos, seguirá con
su descripción y representación gráfica y, en el caso de este tipo de diseños,
añadiremos casi siempre la de relaciones entre variables.
2.1. Descripción de las variables
El objetivo de la estadística es reducir�la�información a una serie de índices en
que puedan ser interpretados. Por lo tanto, el primer paso, una vez tabulados
los datos (introducidos en una matriz de datos), consistirá en describir las
variables que hemos estudiado (qué son; cómo son). El siguiente paso, propio
de la estadística inferencial (básicamente paramétrica), será explicar cómo
son las relaciones entre variables o por qué los fenómenos se producen de
una determinada manera (por qué). Por fin, en algunas ocasiones también
nos interesará poder hacer predicciones de cómo o cuándo se producirá un
fenómeno determinado a partir de la información que tenemos.
Dado que nuestra pretensión está lejos de crear un manual de estadística, la
intención de este subapartado es presentar con la ayuda de un ejemplo algunos
de los índices estadísticos necesarios para el análisis de los datos.
© FUOC • PID_00154075 33 El análisis cuantitativo de datos
Un investigador quiere estudiar la relación entre la valoración que hacen los alumnos deun aula de 3.° de la ESO de la asignatura de Matemáticas mediante una escala de opinióny las notas que obtienen en esta asignatura. Con el fin de llevar a cabo tal investigación,elaboró un cuestionario donde se reflejaban las valoraciones de diferentes aspectos de lasmatemáticas, que, finalmente quedaban recogidas en una puntuación global que estabaen un intervalo entre 50 y 200.
La tabla que presentamos a continuación nos informa, para cada uno de estos 15 jóvenes,de su sexo, del valor obtenido en esta escala y de la nota final del curso en la asignaturade Matemáticas, recogida cuantitativa y cualitativamente.
Niño Sexo Valoración (x) Nota (y) Nota cualitativa
1 Chica 62 5,09 Aprobado
2 Chica 90 5,16 Aprobado
3 Chico 103 5,22 Aprobado
4 Chica 120 5,14 Aprobado
5 Chico 126 5,75 Aprobado
6 Chico 194 6,86 Notable
7 Chica 193 7,34 Notable
8 Chica 188 7,34 Notable
9 Chico 130 6,47 Aprobado
10 Chica 174 6,47 Aprobado
11 Chico 155 6,22 Aprobado
12 Chico 136 6,23 Aprobado
13 Chica 156 6,26 Aprobado
14 Chico 122 5,16 Aprobado
15 Chica 113 5,16 Aprobado
Total 2.062 89,87
2.1.1. Índice de tendencia central de la distribución de una
variable
Los estadísticos de nivel o tendencia central intentan describir cuál es el
valor representativo del centro de un conjunto de datos de una variable.
Los más utilizados son la moda (valor más frecuente), la mediana (valor
que divide la distribución de los datos en dos partes iguales, una vez
hemos ordenado todos los valores) y la media (valor medio de todos
los datos presentes en la distribución).
Media�de�una�variable
Ved también
Podéis consultar la unidad devídeo 4 para complementar lainformación de este subaparta-do.
© FUOC • PID_00154075 34 El análisis cuantitativo de datos
La media del nivel de la escala de valoración x = 2.062/15 = 137,47.
La media de las notas de matemáticas y = 89,87/15 = 5,99.
Mediana�de�la�variable�escala�de�valoración
Primero, ordenamos los valores:
Niño Valoración (x)
1 62
2 90
3 103
15 113
4 120
14 122
5 126
9 130
12 136
11 155
13 156
10 174
8 188
7 193
6 194
En este caso tenemos un número impar de observaciones (quince), por lo tanto
la mediana es el valor que ocupa la posición octava. Si tenemos un número
par de observaciones, la mediana sería el promedio de las dos observaciones
centrales.
La mediana de la escala de valoración es 130.
La mediana de las notas de matemáticas es 6,22.
Moda�de�una�variable
© FUOC • PID_00154075 35 El análisis cuantitativo de datos
La moda tiene el problema de su ambigüedad. Podemos tener más de un valor
repetido (muchas modas) o no tener ninguno. En nuestro ejemplo no hay
moda en la variable escala de valoración, mientras que la variable nota de
matemáticas tiene un valor igual a 5,16.
2.1.2. Índice de dispersión o variabilidad de la distribución de
una variable
Los índices descriptivos de variabilidad nos hablan de la dispersión de
los datos de la distribución alrededor de un valor central (normalmente
la media). Los más utilizados son la varianza (media de las distancias
cuadráticas de las puntuaciones con respecto a la media –ved cuadro de
dispersión o variabilidad–) y la desviación típica o desviación estándar
(índice basado en el anterior).
Varianza�de�una�variable
Desviación�típica
La varianza de la escala s2x = 21.287,72/14 = 1.520,55
Ved también
Podéis consultar la unidad devídeo 6 para complementar lainformación de este subaparta-do.
© FUOC • PID_00154075 36 El análisis cuantitativo de datos
La desviación típica sx = 38,99
La varianza de y: sy 2 = 9,34/14 = 0,67
La desviación típica de Y: sy =0,82
La varianza es un valor de difícil interpretación dado que su unidad de medi-
da es la original de la variable pero elevada al cuadrado. La desviación típica
conserva las unidades de medida originales.
Tablas�de�frecuencias
Las tablas de frecuencias se pueden utilizar tanto para describir variables de
tipo cualitativo como cuantitativo. En este último caso, habrá que "juntar" los
datos formando intervalos.
Ejemplo de tabla de frecuencias de la variable sexo
Valor Frecuencia Porcentaje Porcentaje acumulado
Chico 7 53,33 53,33
Chica 8 46,67 100
Total 15 100
Ejemplo de tabla de frecuencias de la variable escala de valoración de las matemáticas
Intervalo Valor central Frecuencia Porcentaje Porcentaje acumulado
50-69 60 1 6,7 6,7
70-89 80 0 0 6,7
90-109 100 2 13,3 20
110-129 120 4 26,7 46,7
130-149 140 2 13,3 60
150-169 160 2 13,3 73,3
170-189 180 2 13,3 86,7
190-209 200 2 13,3 100
Total 15 100
Dispersión o variabilidad
La dispersión o variabilidad serefiere a lo mucho o poco con-centrados que se encuentranlos datos en torno al valor cen-tral. Las dos series siguientestienen la misma media (= 10),pero la primera es más disper-sa que la segunda.1) 2, 4, 7, 10, 13, 16, 182) 7, 8, 9, 10, 11, 12, 13
© FUOC • PID_00154075 37 El análisis cuantitativo de datos
2.1.3. Representaciones gráficas
La representación gráfica de las variables depende del tipo de variables que
queremos representar. Las variables cualitativas se suelen representar en gráfi-
cos de sectores ("pasteles" o "quesos"), o bien en gráficos de barras. Los valores
pueden estar en frecuencia absoluta (el valor del recuento) o en porcentajes.
Representación gráfica de la variable sexo
Las variables cuantitativas pueden ser representadas de muchas formas. Segui-
damente mostraremos dos de las más frecuentes.
Ejemplo�de�histograma�de� frecuencias� (con� la�distribución�de� la� curva
normal)�de�la�variable�escala�de�valoración�de�las�matemáticas
La distribución�normal es un modelo de probabilidad que siguen
determinadas variables cuantitativas continuas.
Ved también
Podéis consultar las unidadesde vídeo 3, 5 y 7 para comple-mentar la información de estesubapartado.
© FUOC • PID_00154075 38 El análisis cuantitativo de datos
Como vemos en la figura, esta distribución es simétrica con respecto
al valor central. Este valor central viene representado por la media
(μ) de la distribución.
La distribución de valores teóricos es asintótica con respecto al eje
horizontal, esto es, fluctúa entre -∞ y +∞.
La media (μ) y la varianza (σ2) se conocen como los parámetros de
la distribución.
Ejemplo�de�diagrama�de�caja�(boxplot)�de�la�variable�notas�de�matemáticas.
Es útil para ver la distribución de las variables y permite comparar submuestras.
En el diagrama de caja representamos cinco valores de cálculo muy sencillo, los
valores extremos (el más pequeño y el mayor de la serie de datos), la mediana
(comentado anteriormente) y los cuartiles 1 y 3. Estos valores se calculan de
forma simple: una vez calculada la mediana, ésta nos divide la serie de datos
en dos partes iguales. La mediana de la serie inferior de los datos representa el
cuartil 1, la mediana de la serie superior será el cuartil 3.
© FUOC • PID_00154075 39 El análisis cuantitativo de datos
En nuestro ejemplo la comparación de los dos diagramas de caja de la nota de
matemáticas en función del sexo nos permite descubrir diversos aspectos. En
efecto, vemos que la nota mediana de los chicos es superior a la de las chicas,
aunque éstas presentan más dispersión; de hecho, la mejor nota corresponde
a una chica. También podemos ver que los datos no presentan simetría, ya que
en ninguno de los dos casos la mediana se encuentra centrada con respecto
a los cuartiles y a los extremos.
2.2. Relaciones entre variables
2.2.1. Las pruebas de significación o de hipótesis
Cuando tratamos de encontrar relaciones entre variables, estamos llevando a
cabo lo que llamamos una prueba de significación o de hipótesis. A continua-
ción haremos algunas consideraciones generales con respecto a estas pruebas.
Estas pruebas consisten en una serie de procedimientos encaminados a la toma
de decisiones estadísticas. Fundamentalmente, las decisiones se establecerán a
partir de cuestiones que implican encontrar igualdad o diferencia, dependen-
cia o independencia, ajuste o desajuste. Las preguntas que nos haremos serán
aproximadamente las siguientes:
• ¿Hay relación entre la hiperactividad de los niños/as y el sexo?
• ¿Hay diferencia en la cantidad de horas que los niños/as catalanes y los
alemanes ven la televisión?
• ¿Hay diferencias en el conocimiento del idioma inglés según la zona geo-
gráfica del Estado español?
• ¿Estudian más horas las chicas que los chicos en el bachillerato?
• ¿El consumo de alcohol es igual en hombres y mujeres?
Para llevar a cabo una prueba de hipótesis, hay que seguir una serie de pasos
que detallaremos a continuación.
1)�Formular�la�hipótesis�nula. En primer lugar, en estas pruebas estadísticas
partimos de la formulación de una especie de "supuesto de inocencia", al que
llamamos hipótesis nula (H0).
La H0 nos dice que no hay diferencias entre los grupos o relación entre las
variables.
Ved también
Podéis consultar las unidadesde vídeo 20 y 21 para comple-mentar la información de estesubapartado.
© FUOC • PID_00154075 40 El análisis cuantitativo de datos
Hipótesis nula
En términos generales, plantearemos: H0: A = B, H1: A ≠ B, H1: A < B, H1: A > B
a) Dado que la H0 suele contradecir la hipótesis de trabajo de la investigación
(por ejemplo, en igualdad de condiciones laborales, los hombres cobran más
que las mujeres), los análisis tratarán de demostrar que, con un cierto riesgo de
error, podemos rechazar la H0 y, por lo tanto, confirmar la hipótesis de trabajo.
Esta hipótesis es complementaria a la H0, y se llama hipótesis alternativa (H1).
Indica diferencia, desajuste o dependencia entre grupos, tratamientos, varia-
bles...
Ejemplos de hipótesis nula
H0: No hay relación entre la hiperactividad y el sexo.
H0: No hay diferencias en las horas de estudio entre chicos y chicas en el bachillerato.
H0: No hay diferencias en el consumo de alcohol entre los hombres y las mujeres.
H0: No hay diferencias en el nivel intelectual entre hombres y mujeres.
H1: Hay diferencia en el consumo de tabaco entre los dos sexos.
H1: Las chicas estudian más horas que los chicos en el bachillerato.
H1: Hay más niños con trastornos de hiperactividad que niñas.
H1: Los alumnos prefieren las ciencias sociales a las matemáticas.
2)�Nivel�de�riesgo. Como toda toma de decisiones, las decisiones estadísticas
comportan una serie de riesgos que habrá que contemplar. Por lo tanto, el
primer paso será ver qué nivel de riesgo estamos dispuestos a asumir. De esta
manera, fijaremos un riesgo que consiste en fijar a priori el nivel de significa-
ción, estableciendo la región crítica. Este riesgo es el que aceptamos al equivo-
carnos cuando rechazamos una H0 (por ejemplo, diciendo que hay diferencia
entre los grupos) cuando es verdadera (en realidad, no hay diferencias). En la
siguiente figura se puede ver cómo se concreta este paso.
Las pruebas de hipótesis pueden ser unilaterales o bilaterales, según la hipó-
tesis que queramos estudiar. Utilizaremos una prueba bilateral para demos-
trar diferencias sin tener una hipótesis del sentido de esta diferencia (μA ≠ μB),
mientras que utilizaremos una prueba unilateral si únicamente nos interesa
saber, por ejemplo, si A es más grande que B (μA > μB). Es más fácil demostrar
diferencias en pruebas unilaterales que en pruebas bilaterales.
© FUOC • PID_00154075 41 El análisis cuantitativo de datos
3)�Toma�de�decisión. El test de hipótesis es el procedimiento por el que deci-
dimos entre la hipótesis de nulidad y la alternativa. Esta decisión se toma en
función de si el resultado de la prueba estadística cae en la zona de aceptación
de la H0 o fuera de ella (región crítica).
En toda toma de decisiones estadísticas corremos el riesgo de cometer
errores. Los errores que pueden hacer que nos equivoquemos en la de-
cisión estadística son el error de tipo I y el de tipo II. Cometemos un
error�de�tipo�I, o de primera especie, cuando rechazamos una H0 que
en realidad es verdadera; es decir cuando, por ejemplo, afirmamos que
hay diferencias entre dos grupos, y en realidad no las hay.
Podemos conocer su valor, ya que la probabilidad de cometer este error es el
riesgo, o nivel de significación, que fijamos en la prueba estadística (habitual-
mente, α < 0,05). Actualmente, los paquetes estadísticos proporcionan la pro-
babilidad exacta de cometer un error de tipo I (afirmar que hay diferencias o
relación cuando en realidad no es así), llamada nivel de significación o, sim-
plemente, P. En efecto, el nivel de significación (p-value o valor P) nos informa
de la probabilidad real de que sea cierta la H0. Si esta probabilidad es alta, lo
aceptaremos; por el contrario, si es baja, la podremos rechazar. En ciencias so-
ciales los valores de alfa suelen ser 0,01; 0,05; 0,10; siendo el más utilizado el
del 0,05. Por lo tanto, siempre que:
• P ≥ α → decidiremos aceptar H0
• P < α → decidiremos rechazar H0
Cometemos un error�de�tipo�II�(o de segunda especie) cuando acepta-
mos una H0 que en realidad se falsifica (diremos que son iguales, cuan-
do en realidad son diferentes). El riesgo de cometer este error se deno-
mina β y suele ser desconocido, pero está relacionado con el tamaño
de la muestra y también con el nivel de significación, de manera que
podemos decir que, al disminuir un riesgo, aumentaremos el otro; pero
la manera correcta de disminuir este riesgo es aumentar el tamaño de
la muestra.
Tabla resumen de errores tipos I y II
H0 verdadera H0 falsa
Rechazamos�H0 Error tipo I Correcto
Aceptamos�H0 Correcto Error tipo II
Consideraciones finales
Cuando tomamos una muestra muy grande, prácticamente podremos rechazar cualquierH0, aunque la diferencia real (tamaño del efecto) sea muy pequeña. Eso se debe a que
© FUOC • PID_00154075 42 El análisis cuantitativo de datos
la significación estadística está relacionada, además de con el tamaño del efecto, con eltamaño de la muestra.
2.2.2. Las pruebas de relación o independencia
La prueba de relación que utilizaremos estará en función del tipo de variables
con las que estamos trabajando. En la tabla siguiente podemos ver un resumen
de las principales pruebas de relación entre parejas de variables.
Tabla resumen de los tipos de pruebas de relación más utilizados en los diferentes casos
Tipo de variables Prueba estadística
Dos variables cualitativas Prueba de χ2
Dos variables, una cualitativa y una cuantitativa Dos grupos: t de StudentMás de dos grupos: ANOVA
Dos variables cuantitativas Covarianza y correlación de PearsonModelo de la regresión lineal
Relación entre variables cualitativas
La prueba de χ2 permite estudiar la relación o dependencia entre dos varia-
bles cualitativas a partir de las diferencias encontradas entre sus frecuencias
empíricas y teóricas (las esperadas en el caso de independencia o hipótesis de
nulidad).
Para realizar la prueba, tenemos que construir la tabla de contingencia, la cual
constituye una tabla de doble entrada donde expresaremos las frecuencias que
hemos registrado en la muestra.
Imaginemos un ejemplo donde tenemos una muestra de 150 sujetos; hemos
registrado la variable sexo y la nota que han obtenido en una prueba (aprobado
o notable). Queremos ver si hay relación entre estas dos variables, o sea, si el
sexo de los sujetos puede influir o no en la nota obtenida.
Tabla de contingencia nota x sexo
Chico Chica Total
Recuento de aprobados 60 60 120
Recuento de notables 10 20 30
Recuento total 70 80 150
En primer lugar, tenemos que calcular la frecuencia (frecuencia esperada o teó-
rica) que tendríamos que haber encontrado en el caso de que no hubiera rela-
ción entre las variables. Para conseguirlo, por cada casilla multiplicaremos los
totales de frecuencia observada de su hilera y su columna y lo dividiremos por
Lectura recomendada
Hay que considerar que, parautilizar todas estas pruebas,se tienen que cumplir una se-rie de condiciones de aplica-ción (por ejemplo, normali-dad de las distribuciones, nú-mero mínimo de casos, ho-mogeneidad de varianzas...).Si estáis interesados en pro-fundizar en este tema, podéisencontrar la información alrespecto en prácticamentecualquier manual de estadís-tica.
Lecturas recomendadas
Para profundizar sobre la re-lación entre variables cualita-tivas, podéis consultar las si-guientes obras.J.�Guardia;�M.�Freixa;�M.Pero;�J.�Turbany (2007).Análisis de datos en psicología.Madrid: Delta.D.�S.�Moore (2004). Estadísti-ca aplicada básica. Barcelona:Antoni Bosch.
© FUOC • PID_00154075 43 El análisis cuantitativo de datos
el total de la muestra. Por ejemplo, para la combinación "chico" y "aprobado",
multiplicaremos 120 (número de aprobados) por 70 (número de chicos) y lo
dividiremos por 150 (total de la muestra):
En la tabla siguiente tenemos tanto las frecuencias observadas como las fre-
cuencias esperadas; en negrita están los valores esperados en cada casilla si no
hay relación.
Tabla de contingencia nota x sexo
Chico Chica Total
Recuento 60 60 120Aprobados
Frecuenciaesperada
56 64 120
Recuento 10 20 30Notables
Frecuenciaesperada
14 16 30
Recuento 70 80 150Recuento total
Frecuenciaesperada
70 80 150
La lógica de la prueba será la siguiente: si las frecuencias observadas son simi-
lares a las esperadas bajo el supuesto de la no relación (frecuencias esperadas),
entonces aceptaremos la H0 (no hay relación). Si las dos frecuencias son dife-
rentes, entonces decidiremos rechazar el H0 y, por lo tanto, concluiremos que
sí existe relación entre las dos variables.
Formalmente, expresamos las hipótesis de la siguiente manera:
• H0: f observadas ≈ f esperadas
• H1: f observadas ≠ f esperadas
El estadístico de contraste que utilizaremos se denomina χ2, ya que se distri-
buye siguiendo esta distribución teórica conocida. Este hecho nos sirve para,
además de calcular un valor con la expresión de cálculo, saber el valor del
grado de significación (p-value) que nos proporciona la probabilidad de que
sea cierta el H0.
La fórmula de cálculo del estadístico de contraste de χ2 es la siguiente:
© FUOC • PID_00154075 44 El análisis cuantitativo de datos
Aplicando la fórmula a nuestros datos:
El valor de χ2 es de 2,6786. Para saber si se trata de un valor alto o bajo, nece-
sitamos conocer la probabilidad que acompaña a este valor. La distribución de
χ2 no es única, fluctúa en función de los llamados grados de libertad. Para esta
prueba los calculamos con (k - 1)·(l - 1), donde k y l son las categorías de las dos
variables. En nuestro caso, tenemos dos categorías en cada variable categórica,
por lo tanto, los grados de libertad son (2 - 1) · (2 - 1) = 1.
Con la ayuda del Excel o de cualquier programa estadístico, podemos ver que
la probabilidad (p-value) asociada al valor 2,6786, en una distribución de χ2
con un grado de libertad, es 0,1017.
Este valor representa la probabilidad de que sea cierto el H0, o, dicho de otra
manera, la probabilidad que tenemos de equivocarnos en el caso de rechazar
el H0. Si creemos que esta probabilidad es alta, aceptaremos el H0; si conside-
ramos que es baja, la rechazaremos y diremos que parece que haya relación
entre ambas variables.
En nuestro caso, una probabilidad de 0,1017 (grado de significación) es bas-
tante alta, por lo tanto, aceptaríamos la hipótesis de nulidad y diríamos que
no hay relación entre las dos variables. Tened en cuenta que el valor 0,1017
representa la probabilidad de cometer un error tipo I. Normalmente, el valor
máximo (α) de cometer error tipo I más utilizado es 0,05, por lo tanto, 0,1017
es superior a este 0,05, así que consideramos que es bastante alta la probabili-
dad de que sea cierto el H0, y decidiremos aceptarlo (ved el subapartado 2.2.1).
Relación entre dos variables: cualitativa y cuantitativa. Diferen-cia entre medias
Las pruebas de diferencia de medias permiten establecer a partir de qué dife-
rencia se puede considerar que las medias observadas son significativamente
diferentes. También permiten comparar una media observada con la media de
la población.
Las pruebas se pueden hacer por dos medias, ya sean con las medias obteni-
das por los mismos sujetos (medidas repetidas) o por sujetos diferentes (datos
independientes).
© FUOC • PID_00154075 45 El análisis cuantitativo de datos
Por último, señalemos que, cuando comparamos dos medias, utilizamos la
prueba de comparación de medias t de Student, mientras que, si son más de
dos medias, analizaremos los datos con el análisis de la varianza (ANOVA).
Prueba�t�de�Student�para�grupos�independientes
Aplicaremos la prueba t de Student para grupos independientes cuan-
do tengamos dos grupos diferentes de sujetos (o sea, hay una variable
categórica con dos categorías), sobre los que hemos registrado una va-
riable cuantitativa. Para ver si hay o no relación entre las dos variables,
tendremos que observar si existen diferencias estadísticamente signifi-
cativas entre las medias de los dos grupos formados.
H0: media1 media2≈
H1: media1 media2≠
Estandarización
Las unidades de medida siempre nos afectan, en el sentido de que no podemos saber apriori si una diferencia es muy grande o pequeña. La utilización de una estadística quesigue una distribución teórica conocida (sea la normal, la t de Student, la Ji al cuadrado,etcétera) nos estandariza estas diferencias y podremos tomar las decisiones de forma in-dependiente de las unidades originales de las variables.
Suponemos que tenemos los siguientes resultados de la prueba de compara-
ción de medias entre chicos y chicas con respecto a las puntuaciones en la
escala de valoración.
Estadísticas del grupo
Sexo N Media Desviación Error típico de la media
Chico 7 138,0000 29,2062 11,0389Escala
Chica 8 137,0000 48,0565 16,9905
La estadística de contraste que utilizaremos para estandarizar la diferencia en-
tre las medias se denomina t de Student, ya que se distribuye siguiendo es-
ta distribución teórica conocida. La distribución t es una distribución teórica
muy similar a la distribución normal, pero no es única, sino que fluctúa según
los diferentes grados de libertad. En esta prueba, los grados de libertad son (n1
– 1) + (n2 – 1), o sea, se pierde un grado de libertad en cada uno de los dos
grupos, o, lo que es lo mismo, n – 2.
Es importante tener en cuenta que a la hora de aplicar esta prueba se tienen que
comprobar dos supuestos, sobre todo si la muestra es pequeña, inferior a n = 30.
Supondremos que la variable cuantitativa (en nuestro caso, la variable escala
de valoración) se distribuye normalmente en la población de origen y que las
© FUOC • PID_00154075 46 El análisis cuantitativo de datos
varianzas de los dos grupos tienen que ser similares (homocedasticidad). Si no
se cumple una de las dos condiciones, o alguna de los dos, podemos aplicar
una prueba alternativa: la "prueba no paramétrica de la U" de Mann-Whitney.
La fórmula de cálculo de la estadística de contraste t es la siguiente:
donde sp2 es un cálculo de varianza agrupada o ponderada en la que intervie-
nen las varianzas de los dos grupos, según la siguiente fórmula.
Utilizando los valores del ejemplo:
Prueba de muestras independientes
Prueba T para la igualdad de medias
t gl Sig.�(bilateral) Diferenciade�medias
Error�típico�de�la�diferencia
Notes -0,018 13 0,986 -7,86 E-03 0,4376
Se observa una pequeña diferencia en el resultado obtenido con el programa
SPSS; sin embargo, ésta es muy pequeña y se debe a los diferentes decimales
utilizados.
También vemos que el valor de t que utilizamos es de signo positivo, mientras
que el valor de t del listado es negativo, según cuál de las dos medias ponemos
en primer lugar. Pero esto no tiene ninguna incidencia, pues la distribución
t de Student, igual que la normal, es simétrica y está centrada en cero. Por lo
tanto, es exactamente lo mismo trabajar en una parte de la distribución (a la
derecha si es positivo) o en la otra (a la izquierda si el valor se negativo).
© FUOC • PID_00154075 47 El análisis cuantitativo de datos
Con la ayuda de Excel o de cualquier programa estadístico, podemos ver que
la probabilidad (p-value) asociada al valor t = 0,04 en una distribución con 13
grados de libertad es 0,484. Aquí también vemos una diferencia con el listado:
éste, en realidad, está dando el doble (bilateral) de la probabilidad que repre-
senta el grado de significación.
Este valor representa la probabilidad de que sea cierto el H0. En este caso, ve-
mos que éste es muy alto, por lo tanto, aceptaremos el H0 (lo que significa que
no hay relación entre las dos variables). Podemos decir que las dos medias son
similares y que el sexo de los sujetos parece no influir en las puntuaciones de
la escala de valoración.
Prueba�t�de�Student�para�dos�medidas�repetidas
Aplicaremos la prueba t de Student para dos medidas repetidas en el
caso de que tengamos la medida de una variable cuantitativa realizada
en dos momentos temporales diferentes sobre una misma muestra de
sujetos.
Los diseños de medidas repetidas tienen la ventaja sobre los datos indepen-
dientes, en la comparación del mismo grupo de sujetos con ellos mismos; ade-
más, al no dividir la muestra en dos grupos, maximizamos el número de suje-
tos. Por contra, por el hecho de intervenir el tiempo, puede aparecer lo que se
denomina efecto serial, o sea, la contaminación de la respuesta por la medida
anterior.
Suponemos que tenemos los siguientes resultados de una muestra de quince
chicos/as, que han contestado una encuesta de valoración al principio y al
final de un determinado curso.
Chico Valoración inicial Valoración final Y
1 62 98 –36
2 90 116 –26
3 103 198 –95
4 120 140 –20
5 126 75 51
6 194 186 8
7 193 194 –1
8 188 194 –6
9 130 147 –17
© FUOC • PID_00154075 48 El análisis cuantitativo de datos
Chico Valoración inicial Valoración final Y
10 174 174 0
11 155 192 –37
12 136 183 –47
13 156 166 –10
14 122 116 6
15 113 116 –3
La última columna de la tabla representa la diferencia de las dos medidas por
cada sujeto. Para ver si hay o no relación entre la variable cuantitativa y el
momento de medida (variable cualitativa), tendremos que observar si la media
de las diferencias es significativamente diferente de cero.
H0: mediaY ≈ 0
H1: mediaY ≠ 0
La estadística de contraste que utilizaremos para estandarizar la media de las
diferencias es la t de Student, ya que se distribuye siguiendo esta conocida dis-
tribución teórica. En este caso, al tratarse de un sólo grupo de sujetos, única-
mente se pierde un grado de libertad, por lo tanto, aquí los grados de libertad
son n – 1.
Supondremos que la variable cuantitativa Y (diferencia de las puntuaciones)
se distribuye normalmente en la población de origen. Si tenemos evidencias
de que eso no es así, tendremos que aplicar la prueba no paramétrica de la T
de Wilcoxon.
La fórmula de cálculo del estadístico de contraste t es la siguiente:
En nuestro ejemplo, la media de la variable Y es -15,53 y la desviación típica
es 32,17. Utilizando los valores:
© FUOC • PID_00154075 49 El análisis cuantitativo de datos
Prueba t para medias de dos muestras emparejadas
Valoración inicial Valoración final
Media 137,4666667 153
Varianza 1.520,552381 1.637,714286
Observaciones 15 15
Coeficiente�de�correlación�de�Pearson 0,672712441
Diferencia�hipotética�de�las�medias 0
Grados�de�libertad 14
Estadística�t –1,869881748
P(T£�t)�una�cola 0,0412786
Valor�crítico�de�t�(una�cola) 1,761310115
P(T£�t)�dos�colas 0,082557199
Valor�crítico�de�t�(dos�colas) 2,144786681
El valor negativo (–1,87) nos indica que la valoración, en conjunto, es más
alta en la segunda medida (al final del curso) que al inicio. De todas maneras,
el símbolo no es importante, ya que podemos haber hecho la diferencia res-
tando la primera columna a la segunda. Como la distribución t de Student es
simétrica, no importa cuál sea el signo que presente el estadístico de contraste;
en todo caso, éste nos puede ayudar a la interpretación de la posible relación.
Estamos, pues, al límite, si hacemos una prueba unilateral concentrando alfa
en un lado, y si éste es del 0,05, tendríamos que rechazar la hipótesis nula, y,
por lo tanto, diríamos que parece que, si hay relación, la valoración es mayor al
final que al inicio. En cambio, si escogemos hacer una prueba bilateral, donde
repartimos alfa a cada lado, tendremos que aceptar la hipótesis nula; no hay
la suficiente diferencia como para determinar que la valoración inicial y final
son diferentes.
Prueba�del�análisis�de�la�varianza�para�grupos�independientes
© FUOC • PID_00154075 50 El análisis cuantitativo de datos
Aplicaremos la prueba del análisis de la varianza (AVAR o ANOVA) para
grupos independientes cuando tengamos dos o más grupos diferentes
de sujetos (o sea, hay una variable cualitativa con dos o más categorías),
sobre los que hemos registrado una variable cuantitativa. Para ver si
hay o no relación entre las dos variables, tendremos que observar si
existen diferencias estadísticamente significativas entre las medias de
los diferentes grupos formados.
H0: media1 ≈ media2 ≈ media3 ≈ ... ≈ mediak
H1: media1 ≠ media2 ≠ media3 ≠ ... ≠ mediak
Suponemos que tenemos los siguientes resultados de una muestra de quince
chicos/as en las que tenemos la nota final obtenida en una prueba (con tres
resultados: suspenso, aprobado y notable) y las puntuaciones en una escala de
valoración del curso.
Niño Nota final Valoración final
1 Suspenso 98
2 Aprobado 116
3 Notable 198
4 Suspenso 140
5 Suspenso 75
6 Aprobado 186
7 Notable 194
8 Aprobado 194
9 Aprobado 147
10 Aprobado 174
11 Notable 192
12 Aprobado 183
13 Suspenso 166
14 Suspenso 116
15 Notable 116
Suma 2.295
La variación total que presentan los datos se puede descomponer en dos fuen-
tes de variabilidad: por una parte, la producida por el hecho de pertenecer a
diferentes grupos (los suspensos, los aprobados y los notables), que se llama
suma de cuadrados entre grupos; por otra parte, la producida dentro de cada
© FUOC • PID_00154075 51 El análisis cuantitativo de datos
grupo, esto es, la suma de cuadrados intra grupos. A partir de estas variabili-
dades (sumas de cuadrados), se obtienen dos estimaciones independientes de
la varianza de los datos; la razón de estas dos varianzas (llamadas cuadrados
medios) sigue la distribución F de Snedecor.
Los cuadrados medios (varianzas) se calculan haciendo el cociente de las su-
mas de cuadrados entre grupos e intra grupos, con sus respectivos grados de
libertad.
Los grados de libertad, igual que las sumas de cuadrados, presentan una rela-
ción aditiva:
grados de libertadtotal (n - 1) = grados de liber-
tadentre (k - 1) + grados de libertadintra (n - k)
Utilizaremos los datos del ejemplo para presentar las fórmulas más rápidas de
cálculo de las sumas de cuadrados:
Fuente de variación entre grupos (o explicada):
Fuente de variación intra grupos (residual o no explicada):
Fuente de variación total:
© FUOC • PID_00154075 52 El análisis cuantitativo de datos
Se suelen presentar los resultados en una tabla resumen del análisis de la va-
rianza. Un ejemplo aplicado a estos mismos datos es la tabla obtenida median-
te el programa Excel.
Resumen del análisis de varianza de un factor
Grupos Cuenta Suma Media varianza
Suspenso 5 595 119 1.259
Aprobado 6 1.000 166,6 879,07
Notable 4 700 175 1.553,3
Análisis de varianza
Origen de lasvariaciones
Suma decuadrados
Grados delibertad
Media de loscuadrados
F Probabilidad Valor crítico para F
Entre grupos 8.836,67 2 4.418,3 3,76 0,053 3,88
Dentro de los grupos 1.4091,33 12 1.174,2
Total 22.928 14
Se calculan los cuadrados medios (varianzas) entre e intra relacionando las
respectivas sumas de cuadrados con los grados de libertad correspondientes:
Finalmente, para obtener la estadística de contraste, haremos el cociente entre
las dos estimaciones de las varianzas:
La distribución teórica conocida que sigue la estadística de contraste es la F
de Snedecor. Esta distribución fluctúa en función de dos tipos de grados de
libertad: los llamados grados de libertad del numerador (que corresponden a
la fuente de variación entre sujetos) y los del denominador (corresponden a
la fuente intra sujetos).
Es importante resaltar que, para obtener la distribución teórica de la estadística
de contraste, y, por lo tanto, para poder aplicar correctamente la prueba, es
necesario que se cumplan determinados supuestos, como que la distribución
de la variable cuantitativa (en nuestro caso, la puntuación de valoración) y las
diferentes observaciones sean independientes y las varianzas de los diferentes
© FUOC • PID_00154075 53 El análisis cuantitativo de datos
grupos sean homogéneas (similares). Si no se cumple alguna de las condiciones
de aplicación, tendremos que utilizar alguna prueba alternativa del tipo de las
llamadas pruebas no paramétricas.
Con la ayuda de tablas, o bien de un listado de algún programa estadístico,
podremos tomar la decisión. En este caso, vemos que el grado de significación
es 0,053. Si utilizamos como criterio el habitual 0,05, vemos que, en este caso
(por muy poco) es superior; por lo tanto, tenemos que concluir que la decisión
más probable es el H0. Así, según nuestro ejemplo, la nota obtenida no afecta
a la valoración final expresada por los sujetos
Si aplicamos la prueba y llegamos a la conclusión de que rechazamos el H0,
interpretaremos que hay diferencias significativas entre las medias de los di-
ferentes grupos. En este caso, se tendrá que completar con alguna prueba de
contraste para ver cuáles son las medias diferentes entre ellas.
Medida de la covariación o variabilidad conjunta de dos variablescuantitativas
Los índices descriptivos de relación entre dos variables nos indican la variabi-
lidad conjunta que se produce entre los diferentes valores de las variables (có-
mo la modificación de los valores de una de ellas conduce a la modificación
de los valores de la otra).
Tal y como se puede deducir de las fórmulas, la varianza de una variable es
una covarianza de una variable consigo misma (s2x = COVxx).
Ved también
Podéis consultar las unidadesde vídeo 9, 11 y 13 para com-plementar la información deeste subapartado.
© FUOC • PID_00154075 54 El análisis cuantitativo de datos
Ejemplo de cálculo de la covarianza
La covarianza entre X e Y es COVxy = 399,58/14 = 28,54
Medida de la correlación entre dos variables
El problema de la covarianza es que se encuentra afectada por la unidad de
medida y no permite la comparación de las diferentes covariaciones entre di-
ferentes parejas de variables. Una solución a esto es el cálculo del coeficiente de
correlación momento-producto de Pearson. Este valor constituye, de hecho,
una covarianza estandarizada.
Los valores del coeficiente de correlación de Pearson fluctúan entre -1 y 1, y
se interpretan de la siguiente manera.
1) Un valor de correlación cero, o próximo a cero, indica ausencia de relación
lineal entre las dos variables.
© FUOC • PID_00154075 55 El análisis cuantitativo de datos
Ejemplo de no correlación
2) Un valor de correlación igual o próximo a -1 nos indica una fuerte relación
negativa, o a la inversa (a medida que aumentan los valores de una de las va-
riables, disminuyen los de la otra). El valor -1 es la correlación inversa perfecta.
Ejemplo de correlación negativa
3) Un valor de correlación próximo a 1 nos indica una fuerte relación positiva
o directa (a medida que aumentan los valores de una de las variables, también
aumentan los de la otra). El valor 1 es la correlación perfecta.
En el ejemplo propuesto, el valor del coeficiente de correlación es igual a 0,89.
Este valor indica una fuerte relación positiva entre las dos variables. A medida
que aumenta la valoración de la asignatura de Matemáticas, se detecta un au-
mento de la nota obtenida por los niños en esta asignatura.
© FUOC • PID_00154075 56 El análisis cuantitativo de datos
Ejemplo de correlación positiva (notas y valoración)
Representación gráfica de la relación entre la variable escala de valoración de las Matemáticas y lasnotas en Matemáticas mediante un gráfico de dispersión con la recta de regresión.
Regresión lineal
La regresión se fundamenta en la relación que se establece entre las variables
para, mediante una ecuación, poder predecir el valor que esperamos que tome
una variable criterio (Y) en función del valor de la otra variable predictiva (X).
Los parámetros de la ecuación de la recta son su pendiente (b) y la intercepta o
punto de corte del eje de abcisas (a). Por otra parte, el grado de seguridad que
tenemos de que nuestras predicciones son correctas viene determinado por
el cuadrado del índice de correlación, llamado coeficiente de determinación
(corresponde al porcentaje de varianza compartida).
En el ejemplo, los resultados de la regresión son:
Ved también
Podéis consultar la unidad devídeo 12 para complementarla información de este suba-partado.
© FUOC • PID_00154075 57 El análisis cuantitativo de datos
Por lo que la ecuación de regresión sería: Nota�=�3,41�+�(0,0188�escala)
Por ejemplo, un niño que haya puntuado 100 en la escala, seguramente tendrá
una nota de 3,41 + 1,88 = 5,29.
La regresión representa un paso adelante dentro del estudio de las posibles
relaciones entre variables. En efecto, al aplicar la técnica de regresión, estamos
ajustando nuestros datos a un modelo: el llamado modelo lineal general. Den-
tro de este modelo lineal se enmarca tanto la técnica de regresión simple que
hemos comentado, como el modelo del análisis de la varianza. Por otra parte,
este modelo lineal general también nos abre las puertas de la estadística multi-
variante. No nos limitaremos a buscar relaciones entre dos variables, sino que
buscaremos modelos de ajuste en conjuntos de variables.
Regresión múltiple
La regresión múltiple es una técnica multivariante, que nos servirá para
predecir los valores de una variable dependiente a partir de dos o más
variables independientes. En el caso más simple de una VD y dos VI, el
modelo vendrá ajustado por la ecuación de un plano:
Y' = b1X1i + b2X2i +a
Supongamos que tenemos una muestra de quince sujetos y que queremos pre-
decir el valor de la nota de matemáticas (VD), a partir de las puntuaciones
obtenidas en una escala determinada (VI) y el cociente de inteligencia (VI).
Sujeto Escala QI Matemáticas
1 62 91 5,09
2 90 93 5,16
3 70 100 5,22
4 65 98 5,14
5 68 103 5,75
Lecturas recomendadas
Para profundizar sobre la re-gresión lineal, ved la siguien-te bibliografía.J.�Guardia;�M.�Freixa;�M.Pero;�J.�Turbany (2007).Análisis de datos en psicología.Madrid: Delta.D.�Peña (2002). Regresión ydiseño de experimentos. Ma-drid: Alianza.
© FUOC • PID_00154075 58 El análisis cuantitativo de datos
Sujeto Escala QI Matemáticas
6 122 102 6,86
7 126 110 7,34
8 130 115 7,34
9 122 103 6,47
10 120 105 6,47
11 111 110 6,22
12 100 112 6,23
13 103 108 6,26
14 88 95 5,16
15 80 96 5,16
El listado que produce el programa SPSS:
Variables Entered/Removed (b)
Model Variables entered Variables removed Method
1 QI, Escala (a) . Enter
a) All requested variables entered.b) Dependent Variable: Mates.
Model summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 ,945(a) ,892 ,874 ,28871
a) Predictors: (Constant), QI, Escala
ANOVA (b)
Model Sum of Squares Df Mean Square F Sig.
Regression 8,296 2 4,148 49,760 ,000(a)
Residual 1,000 12 ,083
1
Total 9,296 14
a) Predictors: (Constant), QI, Escalab) Dependent Variable: Mates
Coefficients
Unstandardi-zed Coefficients
Standardized Coefficients t Sig.Model
B Std.Error
Beta B Std. Error
1 (Constant) –,663 1,247 –,532 ,604
a) Dependent Variable: Mates
© FUOC • PID_00154075 59 El análisis cuantitativo de datos
Escala ,021 ,004 ,622 4,764 ,000
QI ,045 ,015 ,402 3,080 ,010
a) Dependent Variable: Mates
El valor de R representa el indicador de la correlación múltiple entre la variable
dependiente y las otras dos variables independientes. Recordamos que, en el
caso de la regresión simple (1 VD y 1 VI), este valor coincide con el valor de
correlación de Pearson.
El valor de R Square (R2) representa el porcentaje de variabilidad explicada de
la variable dependiente por las dos independientes. En este caso, un 89,2% de
la varianza de la nota de matemáticas está explicado por la variabilidad pro-
ducida entre las otras dos variables. Un valor igual a 1 o el 100% indicaría una
relación perfecta entre las variables. La predicción no produciría ningún error.
Este valor, junto con la tabla del ANOVA, nos indica si el modelo tiene un
buen ajuste o no. Aquí se trata de un buen ajuste: las dos variables indepen-
dientes nos explican una gran parte de la variabilidad presentada por la varia-
ble dependiente. Si nos fijamos en la tabla del ANOVA, vemos que el grado de
significación es próximo a cero, lo que quiere decir que podemos rechazar la
H0, que nos dice que no hay relación entre las variables.
La tabla de coeficientes nos ofrece la estimación de los coeficientes de la ex-
presión de la regresión. En este caso, además de dar un indicador general de
la significación de la regresión (como lo hemos visto con el ANOVA), tam-
bién nos ofrece la significación de los diferentes coeficientes. Vemos que los
dos coeficientes asociados a las dos variables independientes son significati-
vos (próximos a 0); en cambio, el término constante (a) no es significativo
(el grado de significación asociado es superior a 0,05). Si un coeficiente que
afecta a una variable independiente no es significativo, entonces sacaremos la
variable del modelo de regresión. En cambio, el término constante siempre lo
incluiremos en el modelo sea o no sea significativo.
En nuestro caso, la expresión que nos servirá para predecir la nota de mate-
máticas, a partir de la nota de la escala y el coeficiente de inteligencia, será
la siguiente:
Pred_Matemáticas = 0,021 · Escala + 0,045 · QI – 0,663
2.3. Aproximación al análisis multivariable
La regresión múltiple nos ha abierto la puerta de todas las técnicas de análisis
multivariable. La complejidad de los fenómenos que normalmente queremos
estudiar, donde intervienen muchas variables, junto con el gran desarrollo que
se ha producido en la aplicación de los diferentes programas de paquetes es-
© FUOC • PID_00154075 60 El análisis cuantitativo de datos
tadísticos, ha permitido un gran uso de las diferentes técnicas multivariables.
En este subapartado nos aproximaremos a los objetivos de algunas de las di-
ferentes técnicas de uso más común.
Se pueden hacer varias clasificaciones según diferentes criterios. Una primera
clasificación podría estar en función de la finalidad que persiguen. En el cua-
dro siguiente vemos una clasificación de las diferentes técnicas que presenta-
mos.
Descriptivas Análisis en componentes principalesAnálisis de correspondenciasAnálisis de conglomerados
Explicativas Análisis de regresión múltipleAnálisis multivariable de la varianzaAnálisis discriminanteAnálisis de ecuaciones estructurales
Las técnicas que llamamos descriptivas se utilizan normalmente en contextos
no experimentales; su finalidad consiste en intentar reducir la cantidad inicial
de variables a un número menor de dimensiones relevantes.
Las técnicas explicativas son propias del contexto experimental; pretenden
ver el impacto de un conjunto de variables independientes (predictivas) sobre
una o varias variables dependientes
En general, las diferentes técnicas intentan buscar un modelo de relación de
todas las variables disponibles, reduciendo las que no sean significativas, y
que, por lo tanto, obtienen un modelo lo más parsimonioso (simple) posible.
Existen diferentes modelos y técnicas. Básicamente son las siguientes:
1)�Modelo�lineal�general
a)�Regresión�múltiple. Nos sirve para predecir una variable dependiente o
criterio, a partir de una o varias variables predictivas o independientes.
b)�Análisis�multivariable�de�la�varianza�(MANOVA). Representa una exten-
sión del análisis de la varianza (ANOVA). En este caso, dispondremos de dos
o más variables independientes o factores. Si nos fijamos en el ejemplo que
hemos visto en la aplicación del ANOVA, donde queríamos ver la valoración
de los sujetos en función de la nota obtenida incorporando el género de los
sujetos, el MANOVA nos permitirá ver si hay diferencias de la valoración en
función de la nota, del sexo y de la interacción de las dos variables.
En la siguiente tabla vemos el tipo de variables sobre las que aplicamos estas
técnicas.
© FUOC • PID_00154075 61 El análisis cuantitativo de datos
Técnica Variable dependiente Variable/s independientes
Regresión múltiple Cuantitativa Cuantitativa/s
Análisis de la varianza Cuantitativa Cualitativa/s
2)�Técnicas�factoriales
a)�Análisis�en�componentes�principales. Es una técnica estadística de reduc-
ción de la dimensión de los datos, utilizada para explicar la variabilidad entre
las variables observadas en función de un número menor de variables latentes
(no observadas): componentes o factores.
b)�Análisis�de�correspondencias. Es una técnica similar al análisis en compo-
nentes principales pero aplicados a variables categóricas.
c)�Análisis�discriminante. Se aplica esta técnica cuando disponemos de una
variable dependiente categórica (dos o más grupos) que queremos predecir a
partir de un conjunto de variables cuantitativas. Las variables cuantitativas
se agrupan en combinación lineal, llamada función discriminante, que nos
ayudará a la predicción en la pertenencia de los sujetos a cada uno de los
grupos.
En la siguiente tabla vemos el tipo de variables sobre las que aplicamos estas
técnicas y la reducción que obtenemos.
Técnica Variables Formación de grupos
Análisis en componentes principales Cuantitativas Variables
Análisis de correspondencias Cualitativas Categorías de variables
Análisis discriminante Cuantitativas Categorías de variable (VD)
3)�Técnicas�de�clasificación
a)�Análisis�de�conglomerados�(cluster). Clasifica una muestra (se puede uti-
lizar tanto desde la perspectiva de los sujetos –agrupando éstos– como de las
variables) en un número más pequeño de grupos de forma que, o bien agru-
paremos a los sujetos en función de sus similitudes (similar al discriminante
pero sin saber a priori qué grupos tenemos), o bien agruparemos las diferentes
variables reduciendo la dimensión original de las variables.
La tabla nos muestra el tipo de variables y los grupos formados en la técnica
del análisis cluster.
© FUOC • PID_00154075 62 El análisis cuantitativo de datos
Técnica Variables Formación de grupos
Análisis de conglomerados Cuantitativas y/o cualitativas Variables y/o sujetos
4)�Técnicas�estructurales
a)�Análisis�de� ecuaciones� estructurales. Analizan las relaciones existentes
entre un grupo de variables, representadas por sistemas de ecuaciones simul-
táneas, en las que suponemos que algunas de ellas (llamadas constructivas)
se miden (con error) a partir de variables observables, llamadas indicadores.
Los modelos se especifican en dos partes: un modelo estructural que especifica
las relaciones de dependencia entre las constructivas latentes y un modelo de
medida que especifica cómo los indicadores se relacionan con sus correspon-
dientes constructivas.
La siguiente tabla presenta el tipo de variables sobre las que aplicamos el aná-
lisis de las ecuaciones estructurales.
Técnica Variable de-pendiente
Variables independientes
Análisis de ecuaciones estructurales Cuantitativa Cuantitativas y/o cualitativas
En este apartado hemos intentado ofrecer una primera aproximación a las
principales técnicas, no todas, de análisis multivariable. Cualquier manual es-
pecializado nos permitirá profundizar en aquella o aquellas que podemos ne-
cesitar. También hemos de tener en cuenta que todas estas técnicas tienen
unos requisitos (supuestos) de aplicación con los que hemos de ser cuidadosos
a la hora de ver que se cumplen realmente. Esto último es especialmente ade-
cuado, dado que la facilidad que proporciona la aplicación de los programas
estadísticos hace que muchas veces se apliquen estas técnicas sin comprobar
sus supuestos o condiciones de aplicación.
Lectura recomendada
Para profundizar sobre lastécnicas de análisis multiva-riable podéis consultar la si-guiente obra:J.�P.�Lévy;�J.�Varela (Ed.)(2003). Análisis multivariablepara las ciencias sociales. Ma-drid: McGrawHill.
© FUOC • PID_00154075 63 El análisis cuantitativo de datos
Bibliografía
Arnau, J. (1996a). Model general d'investigació psicològica. Barcelona: UOC.
Arnau, J. (1996b). Quantificació de les observacions: escales de mesura. Barcelona: UOC.
Cabo, I. de (1996). Metodologia de les ciencies socials i humanes. Barcelona: UOC.
Cook, T. D.; Campbell, D. T. (1979). Quasi-experimentation: design and analysis issues forfield settings. Chicago: Rand McNally.
Cosculluela, A.; Fornieles, A; Turbany, J. (2008). Tècniques d'anàlisi de dades quantitati-ves. Barcelona: UOC.
Doménech, J. M. (1995). "El modelo de investigación científica". En: Métodos estadísticos enciencias de la salud. (4). Barcelona: Signo.
Gómez, J. (1996). Constucció d'instruments de mesura. Barcelona: UOC.
Guàrdia, J.; Freixa, M.; Peró, M.; Turbany, J. (2007). Análisis de datos en psicología.Madrid: Delta.
Jáñez, L. (1989). Fundamentos de psicologia matemática. Madrid: Pirámide.
Kenny, D. A. (1979). Correlation and causality. Nueva York: Wiley.
León, O.; Montero, I. (2003). Métodos de investigación. Madrid: McGraw Hill (3.ª edición).
León, O.; Montero, I. (2009). Mètodes de investigació qualitativa. Barcelona: UOC.
Lévy, J. P.; Varela, J. (ed). (2003). Análisis multivariable para las ciencias sociales. Madrid:McGrawHill.
Morales, P. (1988). Medición de actitudes en psicología y educación. San Sebastián: Ttarttalo.
Peña, D. (2002). Regresión y diseño de experimentos. Madrid: Alianza.
Salvador, F. (1996). Model general d'investigació psicològica. Barcelona: UOC.
Sierra Bravo, R. (1985). Técnicas de investigación social: teoría y ejercicios. Madrid: Paraninfo.
Shuman, H.; Presser, S. (1981). Questions and answers in attitude surveys: experiments inquestion form, wordin and context. Nueva York: Academic Press.
Summers, G. (1982). Medición de actitudes. México, DF: Trillas.
Viladrich, M. C.; Doval, E.; Prat, R.; Vall-Llovera, M. (1997). Psicometria. Terrassa:Cardellach (2.ª edición).