-
1
25 UBA Sociales ANIVERSARIO 1988 – 2013 FACULTAD DE CIENCIAS
SOCIALES
CARRERA DE SOCIOLOGÍA – UBA
METODOLOGÍA DE LA INVESTIGACIÓN
CÁTEDRA: COHEN
CUADERNO DE CÁTEDRA Nº 5
“Análisis Descriptivo de los Datos”
Autores: Rebeca Cena, Marcela Grinszpun y Gonzalo Seid
-
2
Cuaderno de cátedra Nº 5
“Análisis Descriptivo de los Datos”
Autores: Rebeca Cena, Marcela Grinszpun y Gonzalo Seid
1. Introducción
En este Cuaderno de Cátedra se presentarán algunas nociones
elementales de
análisis descriptivo de datos producidos con un enfoque
cuantitativo. Si bien en
algunos manuales de metodología de la investigación y
estadística social la
denominación “estadística descriptiva” alude al análisis
univariado, el presente
documento se referirá al análisis que vincula variables entre
sí, advirtiendo que
para cumplir cabalmente objetivos descriptivos no es suficiente
con conocer la
distribución de cada variable por separado, sino que se requiere
complejizar el
análisis introduciéndose en las relaciones entre variables1.
Este Cuaderno de
Cátedra se concentrará en la etapa de análisis cuantitativo de
datos organizados
en tablas, para objetivos descriptivos, de relaciones bivariadas
de cualquier nivel
de medición.
En primer lugar, se presentará un marco general del análisis
descriptivo en
investigaciones con abordajes cuantitativos, de modo tal de
situar el tema de este
trabajo en el proceso general de investigación social. En los
siguientes apartados
se presentarán la prueba de hipótesis de ji cuadrado, los
coeficientes de
asociación y la lectura de porcentajes, en tanto herramientas
cuyo uso conjunto
permite aprovechar su complementariedad.
El Cuaderno de Cátedra Nº 3 “Elaboración y análisis de distintos
tipos de cuadros”
profundiza el proceso de elaboración e interpretación de
cuadros, por lo cual se
recomienda su lectura previa. El Cuaderno Nº 1 “La aplicación de
técnicas
multivariadas en Ciencias Sociales” avanza sobre el análisis de
más de dos
variables simultáneamente, desarrollando contenidos necesarios
para comprender
cómo extender al análisis multivariado las herramientas
desarrolladas en el
presente cuaderno.
En el anexo del Cuaderno, se presenta el desarrollo de un
ejemplo de aplicación
de las herramientas desarrolladas a continuación.
1 El análisis descriptivo requiere del estudio de las relaciones
entre variables, dado que el análisis de cada variable por separado
no es suficiente a tal fin. Complementariamente con ello, el
análisis de las relaciones entre dos variables no implica alcanzar
una explicación del fenómeno en estudio. Para tal fin se requiere
emprender un análisis multivariado. Ver cuaderno de cátedra número
1.
-
3
2. Análisis descriptivo de datos cuantitativos
Un proceso de producción de conocimiento puede tener distintos
tipos de
objetivos, de acuerdo con los cuales se elaborará un adecuado
desarrollo
metodológico de investigación. Los objetivos, en tanto metas que
orientan el
avance de una investigación, permiten llevar a cabo la
producción de los datos
adecuados para intentar responder a los interrogantes que dieron
origen al
proceso (Cohen y Gómez Rojas, 2003). Los objetivos de tipo
descriptivo implican
que la meta consiste en llegar a representar el objeto de
estudio, delineando sus
principales características, refiriendo sus componentes y dando
cuenta del
comportamiento de algunos de sus atributos y relaciones más
relevantes. El
aspecto principal de la descripción para la producción de
conocimiento científico
reside en poder establecer vínculos entre conceptos.
Los datos, a pesar de su origen etimológico (del latín datum, lo
dado), son
construidos siempre desde una perspectiva teórica, para
responder a una
determinada problemática, mediante la aplicación de técnicas y
procedimientos
que también implican supuestos teóricos. Puede advertirse que
expresiones tales
como “recolección de datos” poseen connotaciones que pueden
contribuir al error
de pensar los datos sólo en su contenido informativo, olvidando
que el mismo
resulta inseparable de la elaboración conceptual y operativa del
investigador.
Una vez realizada la etapa de relevamiento, cuando se trabaja
con un abordaje
cuantitativo, se elabora una matriz que clasifica cada caso
según el valor que
asume en cada variable, constituyéndose una estructura
tripartita de los datos
(Galtung, 1973). Esta matriz de datos contiene de manera
desagregada toda la
información que ha sido registrada en la etapa de trabajo de
campo y a partir de la
cual será posible pasar a la etapa del análisis de los datos.
Las variables de una
matriz de datos, cabe destacar, no son sino aquellos conceptos
que se ha
decidido que debían ser considerados en el relevamiento a partir
de los
interrogantes, los objetivos, las hipótesis y el marco teórico
de la investigación.
La matriz vuelve visible la estructura tripartita de los datos
-unidades de análisis,
variables y categorías-, lo que resulta ventajoso puesto que
“poniendo diferentes
referentes del mismo tipo en sus filas y la misma secuencia de
propiedades en sus
columnas, permite relacionar rápida y sistemáticamente un
sinnúmero de estados
de los mismos objetos/sujetos en distintas propiedades,
controlando así si existe
una relación cualquiera entre esas propiedades” (Marradi,
Archenti y Piovani,
2010: 5). Esta ventaja tiene como contracara un costo semántico,
derivado del
supuesto atomista, que implica asumir que cada caso puede
descomponerse en
propiedades, que los estados en una propiedad pueden separarse
de su
-
4
detentador y que los datos con el mismo valor en la misma
variable son
asimilables entre ellos (Op.cit., pp.5-6).
De cualquier manera, con la matriz por sí sola no es posible
avanzar en el análisis.
Es necesario retomar los interrogantes, objetivos e hipótesis
para determinar qué
es lo que ha de analizarse. Es necesario decidir cuáles son las
variables de
estudio cuyo comportamiento merece ser observado individualmente
por presentar
interés en sí mismo y cuáles variables interesan para ser
observadas en su
relación con otras. En este último caso, el hecho de que haya
relaciones entre
variables que se consideren relevantes para analizar obedece a
la existencia de
hipótesis, es decir, supuestos acerca de los posibles vínculos
entre conceptos
susceptibles de ser confrontados con los datos.
Para comenzar a describir cuantitativamente una población,
pueden emplearse
análisis univariados, es decir, del comportamiento de cada una
de las variables de
interés por separado, mediante distribuciones de frecuencias
absolutas, relativas y
acumuladas, gráficos, medidas de tendencia central, de posición
y de dispersión,
como un primer modo de analizar y caracterizar los casos con los
que contamos
en un proceso de investigación. Por ejemplo, cuando las unidades
de análisis son
personas puede ser interesante describir la distribución de los
casos según
variables sociodemográficas como sexo, edad, lugar de
residencia, estado civil,
máximo nivel educativo alcanzado, etc. También puede ser
relevante observar el
comportamiento de las variables de estudio, aquellas en las que
se enfoquen las
preguntas y objetivos, y que en los análisis bivariados
frecuentemente pasarán a
ser las variables dependientes, cuya variación se procurará
comprender. El
análisis univariado brinda, entonces, un panorama introductorio
sobre cómo se
comportan los fenómenos, a partir de la descripción de las
distribuciones de cada
variable por separado. Es a partir del análisis bivariado que se
vuelve posible
describir las relaciones entre variables del fenómeno en
estudio.
Cuando se decide qué es relevante observar de la relación entre
dos o más
variables es porque se ha propuesto una hipótesis de trabajo. Si
bien estas
hipótesis surgen de nuestro enfoque teórico, a lo largo del
proceso de
investigación puede que surjan otras, producto del avance de
nuestro
conocimiento en la problemática. En el proceso de construcción
de las tablas que
concentran nuestros datos es donde nuestras hipótesis comienzan
a verse
reflejadas. Si bien su contrastación permite avanzar en la
producción de
conocimiento, generalmente no agotan en sí mismas los objetivos
de
investigación, sino que es el conjunto de estas hipótesis de
trabajo, contrastadas
en las tablas que se producen, con la articulación teórica y la
ilación lógica que le
-
5
confieren quienes investigan, lo que puede dar respuesta a los
interrogantes y
cumplir los objetivos.
Las hipótesis, constituidas por relaciones entre conceptos del
marco teórico,
permiten vincular este universo conceptual con los datos. Los
datos son producto
de un proceso teórico de construcción y sólo desde la teoría
pueden ser
interpretados, siendo las hipótesis las mediaciones
imprescindibles que expresan
lo que desde la teoría se espera que ocurra con los datos
producidos. En el
momento de planear el análisis, el protagonismo lo tienen las
hipótesis, que
permiten avanzar en el procesamiento para obtener las
tabulaciones previstas a
fin de cumplir los objetivos y responder los interrogantes. Se
deben determinar las
variables que deben ser relacionadas y, preferentemente, tener
en claro de qué
modo se espera que se vinculen las categorías de las variables
entre sí. El tipo de
hipótesis, el nivel de medición de las variables, los roles que
cumplen las variables
en la hipótesis, la cantidad de casos con que se trabaje y la
cantidad de categorías
de las variables -y su posible reagrupamiento en otros sistemas
de categorías- son
todos aspectos que entran en juego en las posibilidades y
restricciones de
tratamiento estadístico de los datos.
El plan de análisis2 implica una labor de previsión y reflexión
sobre las estrategias
de análisis y el detalle de procedimientos que deben llevarse a
cabo para cumplir
los objetivos. El plan de análisis cuantitativo contiene un plan
de cuadros, esto es,
las decisiones relativas a todas las tablas que se
confeccionarán, formalizando las
hipótesis que se tengan, en torno a las cuales se han de
interpretar los datos
producidos. Cada tabla que se elaborará tiene su razón de ser en
que hay un
supuesto teórico acerca de lo que ocurrirá con los datos. Si en
lugar de darle
formato de procesamiento a las hipótesis se procediera
observando todos los
cruces posibles de variables, esta sería una tarea no sólo
innecesaria y engorrosa,
sino ante todo carente de relevancia teórica, que tendría como
resultado datos
desconectados de la teoría, que por sí solos no pueden
constituir un avance en la
producción de conocimiento científico.
Una vez que se ha procesado y tabulado los datos según el plan
de análisis, se
está en condiciones de avanzar en el análisis para cumplir los
objetivos. “La
producción de evidencia empírica es una condición necesaria pero
no suficiente
para llevar a cabo una investigación; los datos construidos u
obtenidos deben ser
2 El plan de análisis expresa aquellos supuestos que nos hemos
planteado respecto a las maneras en que las variables van a
comportarse en función de las vinculaciones que establezcamos a
partir de cómo esperamos que se conecten sus categorías. Esto es,
en función de las hipótesis de trabajo que nos hayamos propuesto
tendremos como resultado un determinado plan de análisis que
expresará luego la manera en que se presentarán en los cuadros
nuestras variables.
-
6
analizados a la luz de la teoría que guía y da sustento al
estudio” (Sautu, 2010:
128). Tanto la producción de datos como las decisiones relativas
al análisis deben
entenderse en el marco de lo que constituye una estrategia
teórico-metodológica
de contrastación del universo de conceptos con el fenómeno de
estudio, para la
resolución de los problemas de investigación que se plantean
desde una
perspectiva teórica con determinado estado de conocimiento
acumulado (Cohen,
1997).
Cuando se trabaja con abordajes cuantitativos, se utilizan
habitualmente
herramientas estadísticas para el análisis, pero es necesario no
asimilar por
completo análisis cuantitativo y análisis estadístico. “No hay
nada más técnico (en
el sentido de conocimiento objetivado, impersonal, basado en
procedimientos
normados, recurrentemente aplicables y ampliamente aceptados) en
la
investigación estándar que sus herramientas de análisis
(estadístico) (…) Esto no
significa que las técnicas estadísticas resuelvan por sí solas
los múltiples y
complejos aspectos que encierra la mediación entre un conjunto
de informaciones
empíricamente construidas y algún tipo de interpretación de
éstas” (Marradi,
Archenti y Piovani, 2010: 264). En el mismo sentido, Blalock
(1986) recuerda que
la estadística no comprende problemas como los de medición, sino
que las
consideraciones estadísticas intervienen en decisiones relativas
a la construcción
de la muestra y a la manipulación de cifras, dando por supuesto
el cumplimiento
de requisitos en la medición. El hecho de que la estadística
sólo intervenga en
algunas decisiones técnicas del muestreo y análisis no debe
entenderse como si
el investigador pudiera llevar a cabo su trabajo sin
conocimiento de estadística y
delegar en un especialista el análisis estadístico, sino que los
problemas del
análisis han de anticiparse, influyendo las consideraciones
estadísticas a lo largo
de todo el proceso de investigación. Teoría, metodología y
técnicas deben
articularse reflexivamente, atendiendo a la coherencia y
ejerciendo vigilancia
epistemológica.
El clásico concepto de espacio de propiedades, desarrollado por
Barton (1973),
resulta elemental para aprehender los fundamentos de la
metodología cuantitativa
y el recurso a las técnicas estadísticas. Pensar en términos de
un espacio de
propiedades significa que las celdas que devienen de la
combinación de dos o
más atributos pueden comprenderse de manera análoga a los puntos
establecidos
a partir de un sistema de coordenadas. Cada espacio de
propiedades clasifica un
subconjunto de casos que presentan simultáneamente las dos o más
propiedades
cuya combinación genera el espacio. A partir de la distribución
de los casos en los
espacios de propiedades, con el auxilio del cálculo de
porcentajes, es posible
examinar las relaciones entre variables mediante una lectura
comparativa de las
frecuencias.
-
7
3. Tres recursos para el análisis de relaciones entre
variables
Siguiendo a García Ferrando (1995: 218), se puede caracterizar
la relación entre
dos variables según la existencia de asociación, la fuerza, la
dirección y la
naturaleza de la misma.
La existencia de asociación implica que la distribución de una
variable difiere de
algún modo entre las categorías de la segunda variable,
alejándose de la
independencia estadística3, lo cual puede determinarse a partir
del análisis de
diferencias porcentuales y de la comparación de las frecuencias
esperadas con las
observadas, mediante la prueba de hipótesis de ji cuadrado, esta
última para los
casos en que se trabaje con muestras probabilísticas.
El grado o fuerza de la asociación varía según cuánto se aleje
la relación de la
independencia estadística. Como las diferencias porcentuales y
la comparación
entre frecuencias observadas y esperadas no varían de una
forma
predeterminada, se han establecido algunos coeficientes
estandarizados, que
varían de forma fija entre un valor mínimo –cero- y un máximo
–uno-, facilitando su
interpretación. Estos coeficientes permiten conocer también,
cuando las variables
son como mínimo de nivel de medición ordinal, la dirección de la
asociación, que
puede ser positiva, cuando los valores altos de una variable se
corresponden con
los valores altos de la otra -y los valores bajos con los
valores bajos-, o negativa, -
cuando los valores altos de una variable se corresponden con los
bajos de la
segunda -y viceversa-4.
Por último, la naturaleza es la forma general en que se
distribuyen los datos en un
cuadro, que puede ser lineal o diagonal, curvilineal o rinconal
e irregular; esta
última forma sólo puede ser examinada mediante la lectura
analítica del cuadro, ya
que las medidas resumen de asociación no permiten medirla sino
que la
presuponen en las operaciones que realizan para calcular la
fuerza.
Siguiendo esta lógica, un primer paso en el análisis de los
datos5 en función de
una hipótesis puede darse mediante el test de significación
estadística de ji
cuadrado (χ2) que permite establecer si existe relación
estadísticamente
significativa entre las variables o si hay independencia
estadística. El ji cuadrado
3 Entendida como la inexistencia de relación entre las variables
analizadas. Ello refiere a que cualquiera sea el valor que asuma
una variable en estudio A, la variable B se mantendrá constante. 4
Es importante aclarar que en las asociaciones observadas para
variables de nivel de medición nominal, éstas también poseen un
sentido en cuanto a su relación, pero este no puede interpretarse a
partir de un signo positivo o negativo, sino que se hace observable
a partir del modo en que se distribuyen las frecuencias al interior
de la tabla. 5 Si bien en este artículo hemos propuesto una
secuencia de estas herramientas no implican en sí mismas un orden
ni jerarquía preestablecida.
-
8
nos permite testear si las relaciones entre las variables e
hipótesis observadas en
una muestra probabilística puede ser extrapolada al universo con
un determinado
nivel de confianza. Esta prueba de hipótesis define el escenario
estadístico en que
se trabaja, por eso constituye un buen primer paso en el
análisis.
Queda definido así el contexto respecto a la existencia o no de
una relación
estadísticamente significativa, e independientemente del
resultado del test6, es
posible contar con un panorama de la fuerza y el sentido de la
relación entre
variables mediante coeficientes de asociación, los cuales son
medidas resúmenes
estandarizadas que permiten conocer grosso modo qué ocurre con
una relación
entre variables. En una única medida se sintetiza la intensidad
de la relación y, en
algunas de ellas, permite conocer también el sentido. Este
sentido o dirección de
la relación puede ser positivo -cuando ambas variables crecen o
decrecen
conjuntamente- o negativo -cuando una crece mientras la otra
decrece- cuyo nivel
de medición es ordinal o mayor.
Con la prueba de hipótesis y los coeficientes de asociación ya
se cuenta con una
primera aproximación global y sintética de la relación
estudiada. Con la lectura
analítica de porcentajes es posible conocer en detalle cómo se
distribuyen las
unidades de análisis en los espacios de propiedades generados
por la tabulación
cruzada de variables de cualquier nivel de medición. Dado que en
la mayoría de
los casos las covariaciones no son perfectas ni lineales, la
lectura de porcentajes
permite analizar las particularidades de cada cuadro con
respecto a la forma de
distribución de unidades de análisis en los espacios de
propiedad, visualizando,
por ejemplo, de qué modo una hipótesis puede tender a
corroborarse
parcialmente, en distinta medida para algunas categorías de la
variable
dependiente que para otras.
En lo que sigue, se presentará cada una de estas tres
herramientas de análisis
descriptivo de relaciones bivariadas: ji cuadrado, coeficientes
de asociación y
lectura de porcentajes. Este conjunto de recursos usados en
combinación
permiten realizar un análisis exhaustivo de lo que ocurre en los
datos para cada
hipótesis de trabajo, complementando la información global que
proporcionan la
prueba de hipótesis y los coeficientes con la lectura
desagregada de las
distribuciones porcentuales en los espacios.
6 Cabe destacar que si en una investigación las relaciones entre
variables observadas no pueden ser extrapolables al universo –no
son estadísticamente significativas-, pueden igualmente ser
teóricamente relevantes para la población a partir de la cual se
han construido los datos.
-
9
Ji cuadrado como prueba de significación estadística
Cuando dos variables están relacionadas varían conjuntamente en
algún grado,
existiendo covariación o varianza en común. Cuando la
covariación o varianza en
conjunto de ambas variables alcanza su nivel máximo -en que toda
la varianza de
una variable coincide con la varianza de otra- existe una
asociación perfecta. Por
la complejidad y multicausalidad del mundo social, no es
habitual en ciencias
sociales encontrar asociaciones perfectas entre variables. De
hecho, cuando se
constata una asociación perfecta, es necesario dilucidar por qué
ocurre,
contemplando la posibilidad de que se trate, por ejemplo, de dos
indicadores de un
mismo concepto.
No obstante, la asociación perfecta es muy útil en tanto
situación extrema con la
cual confrontar los datos con que se dispone en una tabla
bivariada. Cuando hay
asociación perfecta cada categoría de una variable se encuentra
asociada con una
sola categoría de la otra. En una tabla, los casos se concentran
en la diagonal y el
resto de los espacios de propiedades tendrán cero casos, con lo
cual las
diferencias porcentuales serán del 100%. El caso opuesto a la
asociación perfecta
es el de independencia estadística, en que no hay ninguna
covariación entre las
variables, de modo tal que los casos se distribuyen en la tabla
bivariada al igual
que lo harían en una distribución univariable, con lo cual las
diferencias
porcentuales serán de 0%.
El test de ji cuadrado nos permite saber si la relación
observada entre
determinadas variables en nuestra muestra puede ser inferible,
bajo determinados
niveles de confianza, al universo de estudio. Para ello pone en
relación la hipótesis
nula con la hipótesis de trabajo. Una hipótesis nula es una
hipótesis que afirma la
independencia estadística, es decir, la ausencia de asociación
entre variables, lo
contrario a lo que afirma la hipótesis de trabajo7. Cuando se
trabaja con muestras
aleatorias el test de hipótesis de ji cuadrado8 permite decidir
si puede rechazarse
la hipótesis nula para un nivel de confianza dado. Si se rechaza
la hipótesis nula,
se está descartando, asumiendo determinado riesgo, que se trate
de una situación
de independencia estadística y se está aceptando que hay alguna
asociación
estadística entre las variables de la hipótesis de trabajo, con
determinado nivel de
confianza. No rechazar la hipótesis nula implica que la
hipótesis de trabajo no es
7 Ambas hipótesis se excluyen mutuamente: el rechazo de la
hipótesis nula implica que puede aceptarse, con determinados
niveles de confianza, la hipótesis de trabajo. En este caso, lo que
rechazamos es la hipótesis de independencia estadística y por
tanto, implica que la relación entre las variables observadas en la
muestra es inferible al universo en estudio. El no rechazo de la
hipótesis nula a cierto nivel de confianza, implica que no puede
afirmarse que esa relación ocurra también en el universo, lo que no
significa que no tenga relevancia teórica. 8 Existen otros tipos de
test de hipótesis, aquí sólo tomamos uno de ellos.
-
10
estadísticamente significativa para determinado nivel de
confianza, mas no implica
necesariamente que se acepte la hipótesis nula ni que deba darse
por finalizado el
análisis de la relación.
El ji cuadrado no permite analizar las categorías o valores de
las variables, sino
cómo las unidades de análisis se distribuyen en los espacios de
propiedades, por
lo cual puede ser utilizado con variables de cualquier nivel de
medición. Se utiliza
para relaciones entre variables nominales u ordinales, puesto
que existen otras
pruebas para variables intervalares.
El ji cuadrado compara frecuencias absolutas, no porcentajes.
Opera a partir de la
comparación entre las frecuencias observadas y las frecuencias
esperadas. Las
frecuencias observadas son simplemente los casos relevados
distribuidos en los
espacios de una tabla. Las frecuencias esperadas son aquellas
que cabría esperar
si hubiese independencia estadística. Para cada espacio de
propiedad de un
cuadro, la frecuencia esperada se obtiene multiplicando las
frecuencias
marginales entre sí y dividiendo el producto por el total de
casos. De este modo,
se obtiene una distribución de los casos en el cuadro que
mantiene las frecuencias
marginales observadas de cada variable pero distribuye los casos
en los espacios
de propiedades, de modo tal que las frecuencias condicionales
sean las que
cabría esperar por meras desviaciones en la muestra en ausencia
de asociación
en la población.
Es posible elaborar una tabla de frecuencias esperadas o datos
teóricos y
compararla con la tabla de frecuencias observadas o datos
reales. Si no se
observa diferencia entre las mismas se puede decir que hay una
ausencia de
asociación entre las dos variables o independencia estadística.
Si hay diferencia
entre las frecuencias observadas y esperadas, es necesario
evaluar si los datos
reales se alejan lo suficiente de la independencia estadística
como para rechazar
la hipótesis nula con un nivel de confianza razonable. Para
ello, se realiza el
cálculo del ji cuadrado. Siendo Fo las frecuencias observadas y
Fe las frecuencias
esperadas, la fórmula de ji cuadrado es:
χ2 = ∑(Fo−Fe)2
Fe
El residual o diferencia entre frecuencias observadas y
esperadas de cada espacio
se eleva al cuadrado, anulando los signos negativos. Para
normalizar los residuos
elevados al cuadrado de cada espacios de propiedad, se divide
por la frecuencia
esperada. Al sumar los resultados se obtiene el ji cuadrado
empírico (Xe2), que
puede adoptar valores desde cero hasta infinito. Cuanto más
pequeño sea el valor
-
11
de ji cuadrado, más fácil es no estar en condiciones de rechazar
la hipótesis nula.
Como el valor de ji cuadrado aumenta con el tamaño de la
muestra, no habiendo
un límite superior, para decidir el rechazo o no rechazo de la
hipótesis nula, es
necesario compararlo con el ji cuadrado teórico (Xt2). El ji
cuadrado teórico, crítico
o de tabla proviene de una distribución estadística que
relaciona valores teóricos
de ji cuadrado con sus posibilidades de ocurrencia por el sólo
efecto del error
muestral.
La distribución teórica de ji cuadrado permite conocer cuál es
el valor con el que
comparar el ji cuadrado empírico, según los grados de libertad
de la tabla y el nivel
de confianza con que se decida trabajar. Los grados de libertad
de una tabla se
determinan según la mínima cantidad de frecuencias condicionales
que necesitan
conocerse para poder calcular las restantes, para frecuencias
marginales dadas.
Se calcula multiplicando la cantidad de columnas menos uno por
la cantidad de
filas menos uno [GL= (c-1) x (f-1)]. Por ejemplo, una tabla de
dos columnas por
dos filas tiene un grado de libertad.
El nivel de confianza es el complemento del riesgo. Este último
es la probabilidad
de rechazar la hipótesis nula siendo esta verdadera, o lo que es
lo mismo, la
probabilidad de cometer error de tipo I. El error de tipo I
consiste en aceptar la
hipótesis de trabajo, cuando en realidad la relación no existe
en el universo bajo
estudio. La situación inversa es el error de tipo II, o
probabilidad de no rechazar la
hipótesis nula siendo esta falsa. En el error de tipo II se
rechaza la hipótesis de
trabajo, cuando sí es estadísticamente significativa. En ambas
situaciones no se
trata de errores en tanto decisiones desacertadas por la
impericia del investigador,
sino que son errores estadísticos, probabilidades que quienes
investigan asumen
como riesgos propios de los instrumentos estadísticos que se
utilizan. Por
convención, suele trabajarse con un 95% de confianza en Ciencias
Sociales, lo
cual equivale a decir que el riesgo o significación más habitual
es de 0.05. El
cálculo del error de tipo II es más complejo porque requiere de
la utilización de
supuestos adicionales.
Si al comparar los valores obtenidos, el ji cuadrado teórico es
mayor al ji cuadrado
empírico (Xt2 > Xe
2) la hipótesis nula no puede ser rechazada, por lo que la
hipótesis de trabajo no es aceptada. Por el contrario, si el ji
cuadrado teórico es
menor o igual al ji cuadrado empírico (Xt2 ≤ Xe
2) la hipótesis nula se rechaza y se
acepta la hipótesis de trabajo, considerando que existe una
relación
estadísticamente significativa entre las variables.
En la actualidad, los paquetes estadísticos informáticos como el
SPSS -Statistical
Package for the Social Sciences- además de arrojar el valor de
ji cuadrado
-
12
empírico para un cuadro determinado, calculan la significación
empírica o p-valor,
que indica la probabilidad de que sea cierta la hipótesis nula
en la población para
determinado ji cuadrado empírico. El nivel de significación
teórico con el que se
compara habitualmente es 0.05 -eventualmente 0.01-, de modo tal
que los niveles
de significación empírica menores indicarán que se está en
condiciones de
rechazar la hipótesis nula. La ventaja de utilizar este
procedimiento operativo para
hacer la prueba de hipótesis es que se puede conocer con
exactitud y sin
necesidad de consultar la tabla de la distribución teórica de ji
cuadrado con qué
nivel de confianza se puede rechazar la hipótesis nula. Por
ejemplo, si el p-valor
fuera de 0.007, se determina que la hipótesis nula puede
rechazarse con 99.3%
de confianza.
Cuando se analiza el valor que asume ji cuadrado, éste está
indicando
simplemente si la relación supuesta entre las variables en la
hipótesis de trabajo
es estadísticamente significativa o no. Con esto, se define
estadísticamente el
contexto en que se trabaja con la hipótesis, de modo tal que si
la asociación entre
variables es estadísticamente significativa se puede realizar
una inferencia
estadística de la muestra al universo de estudio. Ello quiere
decir que se puede
rechazar con determinado nivel de confianza que la hipótesis
nula sea cierta en el
universo y que la asociación en los casos analizados se deba
solamente a errores
muestrales.
Cuando el ji cuadrado teórico es mayor al ji cuadrado empírico y
la hipótesis nula
no puede ser rechazada, la hipótesis de trabajo no puede ser
aceptada como
estadísticamente significativa. La ausencia de significación
estadística puede
deberse a diversos motivos, tales como el modo de construir las
variables, una
insuficiente cantidad de casos, las características de la
estrategia de medición,
etc. El hecho de que no haya significación estadística en la
relación entre las
variables analizadas, no impide avanzar en la producción de
conocimiento y que
no pueda estarse frente a un caso de “significación” teórica y
sociológica. A los
fines sociológicos, la situación en que el ji cuadrado no asume
significación no
menoscaba la relevancia teórica de una hipótesis y, en
contrapartida, el hecho de
que una relación entre variables sea estadísticamente
significativa no es suficiente
por sí mismo para producir conocimiento científico. Cabe
destacar que este Test
de Hipótesis no es útil para el análisis si es tomado
aisladamente de los otros
recursos con los que contamos como lo son los Coeficientes de
Asociación y la
Lectura Porcentual que veremos a continuación.
-
13
Asociación y medidas de asociación
La asociación es una forma de covariación entre variables,
medida a partir de
cómo se distribuyen las unidades de análisis en los espacios de
propiedades. Las
medidas de asociación, a diferencia de las de correlación, no
operan con las
categorías o valores de las variables. Por este motivo, pueden
ser utilizadas con
variables de cualquier nivel de medición, a diferencia del
coeficiente de correlación
que requiere variables cuantitativas. Los coeficientes de
asociación (también
conocidos como coeficientes no paramétricos) no permiten
realizar inferencias al
universo, sino que indican la fuerza de la relación en la
muestra que se analiza.
Los coeficientes de asociación son medidas resumen de la fuerza
de la asociación
entre variables y, algunos de ellos, permiten también conocer la
dirección. A
diferencia del ji cuadrado (que como veremos más adelante no
tiene límite
superior de variación, puesto que su valor depende de la
cantidad de casos) los
coeficientes de asociación son estandarizados, variando entre
cero, que indica
independencia estadística y uno, que indica asociación
perfecta9.
Phi y V de Cramer (V) son coeficientes derivados de ji cuadrado,
con lo cual
operan a partir de las diferencias entre frecuencias observadas
y esperadas. El
primero es el resultante de dividir el valor de ji cuadrado por
la cantidad de casos
2 / n)], de modo tal que quede un valor estandarizado entre 0 y
1.
Como en tablas de más de dos por dos el valor de Phi puede
superar la unidad, V
de Cramer incorpora un factor de corrección en su fórmula para
poder ser utilizado
en cuadros de cualquier cantidad de categorías. No obstante, por
suponer una
definición exigente de asociación perfecta, V tiende a
subestimar el grado de
relación, lo cual debe ser tenido en cuenta en la interpretación
del valor de este
coeficiente, de la misma manera que, como se desarrollará, en la
interpretación de
los coeficientes rinconales debe tenerse presente que pueden
asumir altos valores
por la definición menos restrictiva de asociación (García
Ferrando, 1995).
Algunos coeficientes, como Tau-b (b), Q de Yule (Q) y Gamma ()
operan en
base a la reducción proporcional del error. La relación entre
las variables puede
entonces también ser interpretada como la proporción en que se
reduce el error de
predicción de las categorías de la variable dependiente cuando
se conoce su
distribución en las categorías de la independiente, contra el
error de predicción
9 Como veremos más adelante en el documento, en los cuadros con
un alto número de casos el ji cuadrado tiende a ser significativo,
una de las razones por las cuales es nodal examinar la fuerza de la
asociación mediante los coeficientes.
-
14
cuando sólo se conoce la distribución univariada de la variable
dependiente
(García Ferrando, 1995: 233; Roales Riesgo, 1999).
Algunos coeficientes pueden llevar signo positivo o negativo, de
modo que varían
entre -1 y 1, pasando por 0, siendo -1 asociación perfecta
negativa y 1 asociación
perfecta positiva. El signo indica el sentido de la relación, el
cual sólo resulta
pertinente cuando se trabaja con ambas variables de nivel de
medición como
mínimo ordinal.
La elección del coeficiente adecuado depende del nivel de
medición de las
variables, del tipo de hipótesis y, en algunas situaciones, del
tamaño del cuadro.
Las variables que hemos seleccionado, las categorías de éstas
que hemos
definido y las relaciones que hemos establecido en nuestras
hipótesis son
producto del enfoque teórico a partir del cual hemos abordado el
fenómeno de
estudio.
-Nivel de medición de las variables. Si son nominales con
cuadros de más de dos
por dos se utiliza V de Cramer; si son nominales u ordinales en
cuadros de dos
por dos se utiliza Phi y Q de Yule y si son ordinales en cuadros
de más de dos por
dos se utiliza Tau b y Gamma. La elección de Tau-b es
recomendable cuando las
tablas son cuadradas, es decir, poseen el mismo número de filas
que de
columnas.
-Tipo de hipótesis. Las hipótesis rinconales son aquellas que
tienen una sola
condición acerca del modo en que se vinculan las variables, es
decir, relacionan
una categoría de la variable dependiente con una categoría de la
variable
independiente. Son hipótesis menos exigentes, puesto que para
que haya
asociación perfecta en una tabla de dos por dos alcanza con que
una sola
frecuencia sea cero. Si la hipótesis es rinconal se utiliza Q o
Gamma, que son
coeficientes curvilineales. En la interpretación de los valores
de estos coeficientes,
debe tenerse presente que los mismos se basan en una definición
menos
restrictiva de asociación perfecta, relativa a una hipótesis
rinconal, que puede
cumplirse a la perfección poniendo una sola condición.
Las hipótesis diagonales son más exigentes puesto que para
corroborarse, los
casos deben concentrarse en la diagonal de una tabla, y para que
exista
asociación perfecta no puede haber ningún caso en los espacios
fuera de la
diagonal. Por ejemplo, si la hipótesis es diagonal se utiliza
Phi, coeficiente lineal,
que pone dos condiciones para que haya asociación perfecta en
tablas de dos por
dos, por lo cual se necesitarían dos espacios de propiedad con
cero casos. Para
-
15
hipótesis diagonales de cuadros de más de 2x2, utilizaremos Tau
b, coeficiente
lineal10.
-Tamaño del cuadro. Q y Phi se utilizan para cuadros de dos por
dos. Si los
cuadros tienen más categorías, se utiliza Gamma en lugar de Q y
Tau-b en lugar
de Phi.
COEFICIENTES DE ASOCIACIÓN11
Hipótesis
Lineal Curvilineal
Tipo de
Variable
Nominal - Más de
2x2 V de Cramer (V)
Nominal/Ordinal
- 2x2 Phi )
Q de Yule
(Q)
Ordinal - Más de
2x2 Tau b (b) Gamma ()
El valor que arroje un coeficiente de asociación ha de ser
interpretado según
cuánto se aproxime al 0 y al 1 (o menos 1), independencia
estadística y asociación
perfecta positiva o negativa, respectivamente. A medida que los
coeficientes
comienzan a alejarse de 0 están expresando algún tipo de
relación entre las
variables.
Ahora bien, el valor de un coeficiente de asociación en un
análisis determinado no
puede ser interpretado aisladamente, sino en función de las
comparaciones que
establezca. Dichas comparaciones12 intentarán mostrar las
maneras en que
nuestra variable dependiente se encuentra afectada por
diferentes variables
independientes. En este sentido, no existen valores altos,
medios o bajos en los
análisis de los coeficientes, sino que el valor que la
covariación entre las variables
adopte será interpretado a la luz del valor que adquiera otra
covariación. Los
fenómenos que estamos analizando no se explican por la
influencia de una sola
variable ni son estáticos.
10 Los coeficientes de asociación y su exigencia para los tipos
de variables e hipótesis constituyen modelos ideales. La elección
del tipo de variable y la hipótesis propuesta dependerá de la
teoría con la que hayamos abordado nuestro fenómeno en estudio. 11
Existen otros coeficientes de asociación, pero estos cinco cubren
las alternativas de uso habitual. 12 Para que las comparaciones
respecto a la fuerza de incidencia de distintas variables
independientes sean correctas, es necesario realizarlas con el
mismo coeficiente, preferentemente para variables nominales si hay
por lo menos una de dicho nivel de medición.
-
16
También el conocimiento teórico acumulado sobre el
comportamiento del
fenómeno contribuirá a determinar cuán alto o bajo es el
resultado, en relación con
expectativas teóricas o derivadas de la experiencia previa.
En consecuencia, el proceso de conocimiento que implica
acercarnos a nuestro
fenómeno de estudio compromete el análisis y la comparación de
un número
significativo de variables dadas por nuestro marco teórico de
análisis. De esta
manera, la comparación se vuelve una instancia nodal de nuestro
proceso de
construcción del conocimiento y la selección de variables y su
interpretación
posibilita subordinar los recursos técnicos a las decisiones
teórico-metodológicas,
contribuyendo a la producción de conocimiento teóricamente
relevante.
Lectura analítica de porcentajes
La lectura de tablas de contingencia permite un análisis
cuantitativo refinado,
analítico y artesanal. Los cuadros o tablas de contingencia
surgen de la tabulación
simultánea de dos o más variables, en función de las
hipótesis.
Una vez que se tiene una tabla con las frecuencias absolutas
distribuidas en los
espacios de propiedades, es necesario calcular porcentajes para
poder realizar
comparaciones válidas con mayor facilidad. Porcentualizar es una
manera de
estandarizar las frecuencias condicionales para liberarlas de
los efectos de las
diferencias de los marginales y hacer comparable una parte
respecto al todo
(Baranger, 1999). No obstante, es necesario saber sobre qué
total de casos han
sido calculados los porcentajes, ya sea para poder
reporcentualizar agrupando
categorías o, más importante, para tener los debidos recaudos en
la interpretación
de porcentajes calculados sobre pocos casos.
Generalmente, los porcentajes pueden presentarse sin decimales o
con un
decimal. La cantidad de decimales con la cual pueda trabajarse
depende de la
cantidad de casos, lo cual debe tenerse en cuenta para evitar
que los porcentajes
aparenten un nivel de exactitud que no pueden tener cuando se
trabaja con una
muestra pequeña.
Los porcentajes pueden ser calculados sobre el total (n) de una
tabla, sobre los
subtotales de fila -asumiendo que se dispuso allí variable
dependiente- o sobre los
subtotales de columna -asumiendo que se trata de la variable
independiente-.
Si se procura conocer qué porcentaje de la población puede ser
clasificado en dos
o más atributos simultáneamente -por ejemplo, varón y de nivel
educativo alto- es
necesario calcular los porcentajes sobre el total de la
tabla.
Si se busca describir perfiles de la población y subpoblaciones,
en ocasiones
puede ser útil calcular los porcentajes de filas, es decir,
aquellos calculados en el
-
17
sentido de la variable dependiente. Estos porcentajes sólo
pueden servir a los
fines descriptivos univariados de las características de
distintos subgrupos. La
variable dependiente no opera como tal sino como si fuera una
constante, por
ejemplo, qué porcentaje de los que tienen nivel educativo alto
son varones,
brindando así una idea de la composición interna o perfil de
cierto subgrupo.
Para realizar una lectura en función de las hipótesis es
necesario calcular los
porcentajes en el sentido de la variable independiente y leerlos
comparando en el
sentido de la variable dependiente (Zeisel, 1974). De este modo,
podemos
analizar la influencia de la variable independiente sobre la
dependiente. Por
ejemplo, saber qué porcentaje de los varones tiene nivel
educativo alto, al
comparar con el porcentaje que tienen las mujeres en dicho nivel
educativo,
permite a partir de las diferencias porcentuales aproximarse a
la incidencia de la
variable sexo en el nivel educativo alcanzado.
Esta distribución porcentual bivariable pone en relación las
distribuciones
condicionales con una distribución global de la variable
dependiente. La
distribución de la variable dependiente dentro de las categorías
de la variable
independiente permite examinar las condiciones que se supone que
influyen en
cómo se distribuye. La variable independiente puede ser
entendida como
condición que hace probable cierto resultado, por lo cual es
necesario comparar
diferentes condiciones -categorías de la variable independiente-
para resultados
equivalentes -de una misma categoría de la variable
dependiente-, examinando
qué le ocurre a la variable de estudio cuando se le “aplica”
cada una de las
categorías de la variable independiente.
La lectura de un cuadro puede comenzarse por las frecuencias
marginales de la
variable dependiente, que no son más que la distribución
univariada de esa
variable, es decir, su distribución sin tomar en cuenta las
categorías de la variable
independiente. Luego, los marginales pueden ser útiles para
comparar con cada
frecuencia condicional, examinando qué ocurre con la
distribución de la variable
dependiente cuando está presente la variable independiente. Si
las distribuciones
de la variable dependiente en cada categoría de la variable
independiente son las
mismas que la distribución univariada, en principio no habría
asociación entre las
variables.
Lo central de la lectura de cuadros bivariados es la lectura de
las frecuencias
condicionales, comparando en el sentido de la variable
dependiente. Según lo que
establezca la hipótesis, se procederá a comparar el porcentaje
de casos que
corresponde a una categoría de la variable dependiente entre la
subpoblación de
una categoría de la variable independiente, con el porcentaje de
casos de otra
-
18
subpoblación -delimitada por otra categoría de la variable
independiente- que
corresponde a la misma categoría de la variable dependiente.
Esta es la
comparación básica a partir de la cual se van introduciendo
complejizaciones,
según la cantidad de categorías que tenga el cuadro.
Cuando se trata de un cuadro de dos por dos, bastará con
comparar dos
porcentajes para leer el cuadro por completo, puesto que
habiendo leído los dos
porcentajes de una categoría de la variable dependiente, los de
la otra categoría
de la variable dependiente son complementarios. La diferencia
entre los dos
porcentajes comparados será la diferencia porcentual o épsilon
que sintetiza
todo el cuadro, indicando la fuerza de la relación. A medida que
se trate de un
cuadro más grande, se van abriendo las posibilidades de
comparaciones.
Probablemente no sea necesario leer todos los porcentajes cuando
haya muchas
categorías de las variables, siendo siempre la hipótesis lo que
orientará la lectura,
indicando qué espacios de propiedad son los más relevantes según
las
expectativas teóricas. En los cuadros de más de dos por dos, ya
no habrá una
única diferencia porcentual sino varias y por ende ninguna de
ellas sintetizará en
una única medida la fuerza de toda la relación.
Cabe poner de relieve que si bien la lectura porcentual permite
analizar
minuciosamente un cuadro, no debe perderse de vista el panorama
general del
plan de análisis, de modo que los avances parciales en el
conocimiento a partir de
la interpretación de cada cuadro, puedan ser articulados de un
modo coherente y
enfocado en dar cumplimiento a los objetivos, confrontando con
los datos
producidos el conjunto de supuestos que se decidió someter a
contrastación en la
investigación. La lectura de un cuadro no debe ser entendida
como un fin en sí
mismo sino como un medio para el análisis e interpretación de
los resultados
“enmarcado en un proceso teórico metodológico, evitando así
miradas
fragmentadas del proceso de investigación” (Aguilar, Alonso,
Kleidermacher y
Vázquez, 2013: 23).
4. Reflexiones finales
El proceso de construcción del dato finaliza al elaborarse los
cuadros, a partir de
las variables que se pongan en relación y de la forma en que
sean categorizadas.
Las distintas posibilidades de agrupar y reagrupar categorías en
distintos sistemas
de categorías implican variaciones en las distribuciones de
casos en los espacios
de propiedades generados y, por lo tanto, en la fortaleza de las
hipótesis. Al
examinar qué ha ocurrido con cada hipótesis sustantiva y los
resultados de un
-
19
cuadro, se está en la etapa del análisis, en que la teoría y los
datos se vinculan y
confrontan mediante las hipótesis.
El análisis de relaciones entre dos variables se sirve de la
prueba de hipótesis de ji
cuadrado, de los coeficientes de asociación y de la lectura
analítica de los
cuadros, en tanto herramientas que en conjunto permiten analizar
y comenzar a
dar respuesta a objetivos descriptivos. La prueba de ji
cuadrado, permite
establecer si existe relación estadísticamente significativa
entre las variables y
complementada por los coeficientes de asociación, permite
examinar la fuerza de
la relación y su sentido. La naturaleza de la relación entre
variables, es decir, si se
aproxima a una forma lineal, curvilineal o irregular, sólo puede
ser examinada
mediante la lectura porcentual analítica al interior del cuadro.
Además, todo tipo de
situaciones intermedias, variaciones sutiles y matices respecto
al modo de relación
entre las variables pueden ser descriptos pormenorizadamente
mediante la lectura
porcentual, lo cual resulta una gran ventaja para analizar
“artesanalmente” datos
sobre fenómenos sociales, los cuales si bien presentan
regularidades, conservan
cierta inestabilidad, indeterminación e irregularidad, que
también deben ser
analizadas.
Así, todas las herramientas estadísticas presentadas, se
utilizan en estrecha
relación con la teoría. En primer lugar, porque ésta condiciona
las hipótesis
plateadas, las variables seleccionadas, las categorizaciones
realizadas y las
comparaciones establecidas. En segundo lugar, porque el análisis
e interpretación
de los resultados obtenidos, se realiza a la luz del marco
teórico seleccionado y
las preguntas y objetivos que guían la investigación.
-
20
5. Anexo: Ejemplo de análisis bivariado
El uso diferencial del tiempo libre. Una aproximación desde
género y clase
En el marco del proyecto de investigación “Heterogeneidad de
clase social:
profundizando los comportamientos de clase de las parejas”1314,
se indagó
respecto del uso diferencial del tiempo libre, concebido como un
aspecto del estilo
de vida de las clases sociales. Se analizaron datos
cuantitativos sobre la
frecuencia y el placer que producen diferentes actividades de
tiempo libre según
clase social y según género. El objetivo del trabajo fue
describir el uso del tiempo
libre de varones y mujeres que trabajan, contándose con
información sobre la
clase social. Para trabajar el concepto de clase, se utilizó el
esquema de
Goldthorpe. Enfocamos al tiempo libre como una de las
expresiones de los
consumos y estilos de vida de las personas, cuyas
características dependen en
gran medida de la clase y el género.
Así, se indagó sobre las diferencias en torno al uso de este
tiempo libre, según
género y clase social, teniendo como hipótesis de trabajo que
cuanto más alta es
la clase social es mayor y más variado el tiempo libre, y que el
tiempo libre de las
mujeres es contaminado o interrumpido por responsabilidades
familiares o tareas
domésticas que pueden incluso ser realizadas simultáneamente a
la actividad de
ocio.
A continuación se presenta como ejemplo, el análisis realizado
para una de las
variables de interés de la investigación que fue la frecuencia
de uso de Internet
como una actividad de tiempo libre. Así, la primera hipótesis de
trabajo,
planteaba: “Se espera una mayor frecuencia de uso en cuanto más
alta sea la
clase social.”
VD: Frecuencia de uso de Internet en el tiempo libre
Nivel de medición: Ordinal
VI: Clase Social
Nivel de medición: Ordinal
Tamaño de la Tabla: 3x4
Grados de Libertad (gl): 6
13 Proyecto UBACyT de la programación 2010-2012, dirigido por la
Dra. Gabriela Gómez Rojas, con sede en el Instituto de
Investigaciones Gino Germani de la UBA.
-
21
Tipo de hipótesis: Diagonal o lineal
En primer lugar se realizó la prueba de Ji Cuadrado para
contrastar la hipótesis
nula que plantearía que no existe relación entre la frecuencia
de uso de internet y
la clase social. Se eligió trabajar con un nivel de confianza
del 95% (que es lo
mismo que decir un nivel de significación de 0.05).
Al buscar en la tabla de Ji Cuadrado, el valor teórico
correspondiente a 0.05 de
significación para 6 grados de libertad es de 12.592. Dado que
el valor empírico de
Ji cuadrado que arroja la prueba -como se observa en la tabla a
continuación
producida con el SPSS- es mayor al valor teórico (regla de
decisión: Xe 121,839 >
Xt 12,592), puede entonces rechazarse con un 95% de confianza la
hipótesis nula
que plantea que no hay asociación entre las variables, y por lo
tanto la hipótesis
de trabajo resulta significativa estadísticamente, lo que quiere
decir que en el
universo de estudio, la relación entre las variables también
estaría ocurriendo15.
Por otro lado, en la tabla a continuación también puede
observarse que bajo la
columna “Sig. Asintótica” se encuentra lo que conocemos como
p-valor o
significancia exacta. Dado que en este caso es prácticamente
cero, podría
también haberse rechazado la hipótesis nula a un nivel de
confianza superior al
99% (regla de decisión: α= 0.05 > p valor= 0.00).
Ambos métodos siempre conducen al mismo resultado del test. Sólo
que el
método del p-valor permite conocer la significancia exacta. Esto
no implica no
definir siempre a priori cuál es el valor de significancia α con
el que se va a
trabajar.
Pruebas de chi-cuadrado
Valor gl
Sig. asintótica
(2 colas)
Chi-cuadrado de Pearson 121,839 6 ,000
Razón de verosimilitud 133,179 6 ,000
Asociación lineal por
lineal
107,252 1 ,000
N de casos válidos 625
Más allá de la significancia estadística hallada, se procedió
luego a analizar el
coeficiente de asociación correspondiente para conocer la fuerza
y sentido de la
15 Cabe aclarar que la prueba de Ji cuadrado no mide magnitudes.
La relación es o no es significativa para el nivel de confianza
dado. No es relevante por cuanto supera el valor de Ji empírico al
teórico.
-
22
relación. Al ser dos variables ordinales en una tabla de más de
2 x 2, para
hipótesis diagonal o lineal el coeficiente que correspondiente
es el Tau-b.
Coeficientes de Asociación
Valor
Error estándar
asintótico Aprox. S Aprox. Sig.
Nominal por Nominal Phi ,442 ,000
V de Cramer ,312 ,000
Ordinal por ordinal Tau-b de Kendall ,391 ,028 13,119 ,000
Gamma ,639 ,043 13,119 ,000
N de casos válidos 625
En primer lugar el signo positivo del coeficiente indica que la
relación se da en el
sentido planteado en la hipótesis, ambas variables se comportan
en la misma
dirección (cuando una aumenta, la otra también lo hace, y
viceversa).
En cuanto a la magnitud, observamos que es de 0.391. Si bien se
aleja del cero
que indica la no asociación, para poder analizar la fuerza de
esta magnitud,
debemos hacerlo de modo comparativo, luego de analizar el
comportamiento del
fenómeno ante otras variables independientes.
Por último, realizaremos la lectura porcentual, presentada en la
siguiente tabla de
contingencia, en la cual, para poder realizar correctamente la
lectura, los
porcentajes fueron calculados en el sentido de la variable
independiente (clase
social).
Frecuencia de tiempo libre en Internet por Clase Entrevistado.
PEA, de 20 a 69 años. Total País, 2007.
% dentro de Clase Entrevistado
Clase Entrevistado
Total
I-III:
Trabajadores
de cuello
blanco
IV: Pequeña
burguesía
V+VI:
Trabajadores
calificados
VII:
Trabajadores
no calificados
Frecuencia de
actividades de
tiempo libre:
Pasar tiempo en
Internet
Hasta Semanal 43% 17% 7% 5% 25%
Mensual o
inferior 17% 12% 13% 5% 13%
Nunca 40% 71% 80% 90% 62%
Total 100% 100% 100% 100% 100%
288 146 61 130 625
Fuente: International Social Survey Program, ISSP, relevada a
nivel nacional en el año 2007 por el CEDOP.
-
23
A partir de la lectura porcentual, podemos observar la tendencia
decreciente en la
frecuencia de uso a medida que se desciende en la clase
social.
La diferencia porcentual observada entre la frecuencia “hasta
semanal” entre los
Trabajadores de Cuello Blanco (43%) y entre los Trabajadores no
calificados (5%)
es de un 38%. También resulta interesante que al pasar de
Trabajadores de
Cuello Blanco, al segmento inmediatamente inferior –Pequeña
Burguesía (17%)-,
la diferencia porcentual es de 25 puntos porcentuales y ésta
sólo es de a 10
puntos entre esta última y los Trabajadores Calificados (17% vs.
7%).
Es decir que la herramienta de las diferencias porcentuales no
limita como muchas
veces aparece el análisis a la comparación entre categorías
extremas, sino que
justamente su riqueza consiste en poder analizar
pormenorizadamente lo que
ocurre en y entre los distintos espacios de propiedades
generados en la tabla de
contingencia.
De igual modo, puede analizarse que en la categoría intermedia
de frecuencia
mensual o inferior, el descenso más pronunciado se observa entre
las dos clases
inferiores (8 puntos porcentuales entre 13% y 5%), manteniéndose
en un rango
similar los porcentajes para las clases intermedias.
Al analizar el comportamiento de las clases para la categoría
Nunca, casi en
espejo a lo observado para la mayor frecuencia de uso, se
produce un quiebre
más marcado entre los Trabajadores de Cuello Blanco y la Pequeña
Burguesía.
Entre los primeros sólo representan al 40%, mientras que para
los segundos este
porcentaje asciende a 71%, presentando una diferencia porcentual
de 31 puntos
porcentuales. Se registra una tendencia ascendente de
aproximadamente 10% en
cada pasaje hacia las siguientes categorías.
La segunda hipótesis de trabajo, plantea la relación entre la
misma variable
analizada en el caso anterior, pero en función del género, dado
que se espera
como ya se mencionó en el planteo general, que “las mujeres
presentan una
frecuencia de uso mensual o inferior, o nunca, mientras que los
hombres utilizan
Internet en su tiempo libre de manera semanal o con mayor
frecuencia.”
VD: Frecuencia de uso de Internet en el tiempo libre
Nivel de medición: Ordinal
VI: Género
Nivel de medición: Nominal
Tamaño de la Tabla: 3x2
Grados de Libertad (gl): 2
-
24
Tipo de hipótesis: Diagonal o lineal
Al igual que lo planteado para la relación anterior, realizamos
la prueba Ji
Cuadrado, para conocer cuál es el contexto en el que nos
encontramos
(significación estadística o no). En este caso, al comparar el
valor del Xe=0.937
contra el teórico Xt=5.991 –correspondiente a 95% de confianza y
2 grados de
libertad-, concluimos que no puede rechazarse la hipótesis nula
que plantea que
no hay relación entre el género y el uso de internet en el
tiempo libre, por lo cual
no podemos descartar la independencia estadística a nivel
poblacional. Si
rechazáramos la hipótesis nula correríamos un riesgo del 62,6%
de equivocarnos
al tomar esa decisión, como indica el p-valor, (nivel de
confianza de 41,4%), por lo
cual al superar el nivel de riesgo o significancia establecido
en este caso (5%).
Vemos nuevamente que por el método del p-valor, tampoco podemos
rechazar la
hipótesis nula –y por tanto, aceptar la de trabajo-, para el
nivel de confianza
establecido.
Pruebas de chi-cuadrado
Valor gl
Sig. asintótica
(2 colas)
Chi-cuadrado de Pearson ,937 2 ,626
Razón de verosimilitud ,942 2 ,625
Asociación lineal por
lineal ,181
1 ,670
N de casos válidos 625
Igualmente, dado que la independencia estadística no implica que
la relación no
pueda ser relevante teóricamente, se procedió con el análisis de
fuerza y sentido a
través del coeficiente de asociación V de Cramer,
correspondiente al cuadro e
hipótesis planteado (ordinal/nominal, más de 2x2, hipótesis
diagonal). En este
caso, al ser una de las variables de nivel de medición nominal,
el signo del
coeficiente no nos brinda información respecto del sentido de la
relación (dado que
no hay una necesariedad lógica en el orden de las categorías en
la tabla). Esto lo
analizaremos a partir de la lectura porcentual.
Como se mencionó, luego se compararán los coeficientes de las
distintas
relaciones para poder dimensionar la fuerza. En este caso
podemos adelantar que
por el valor del V de Cramer de 0.039, matemáticamente muy
próximo al valor
cero se encuentra muy cerca de la independencia estadística.
-
25
Coeficientes de Asociación
Valor
Error estándar
asintótico Aprox. S Aprox. Sig.
Nominal por Nominal Phi ,039 ,626
V de Cramer ,039 ,626
Ordinal por ordinal Tau-b de Kendall -,012 ,039 -,316 ,752
Gamma -,024 ,076 -,316 ,752
N de casos válidos 625
Por último, el análisis de porcentajes, nos muestra que un
cuarto de la muestra
presenta una alta frecuencia de uso de internet, y esta
proporción prácticamente
se mantiene en el mismo nivel en ambos grupos (24% entre los
hombres y 27%
entre las mujeres), con una diferencia sólo de 3% entre ellos.
Al analizar lo que
ocurre con la categoría nunca, la diferencia entre hombres y
mujeres, es aún
menor, sólo del 1%, siguiendo ambos grupos una distribución
prácticamente
idéntica a la del total de la muestra. Estas diferencias
porcentuales próximas a 0%,
nos indican también, en línea a lo observado en la prueba de ji
cuadrado y al valor
del coeficiente V de Cramer, que no habría relación entre estas
variables. El
comportamiento de la variable dependiente, no se modifica ante
los distintos
géneros.
Frecuencia de tiempo libre en Internet por Género. PEA, de 20 a
69 años. Total País, 2007.
% dentro de Género
Género
Total Hombre Mujer
Frecuencia de actividades
de tiempo libre: Pasar
tiempo en Internet
Hasta Semanal 24% 27% 25%
Mensual o inferior 14% 12% 13%
Nunca 62% 61% 62%
Total 100% 100% 100%
387 238 625
Fuente: International Social Survey Program, ISSP, relevada a
nivel nacional en el año 2007 por el CEDOP.
Al avanzar en el análisis, y al observar que en este caso el
género no resultaba
una variable relevante para el caso del uso de Internet en el
tiempo libre, se
plantea desde los distintos abordajes teóricos sobre Tecnologías
de Información y
Comunicación (TICs), que para este tipo de consumo cultural/uso
del tiempo libre,
la franja etaria resulta una variable relevante a
considerar.
-
26
Es por esto que se planteó una tercera hipótesis que plantea que
“la frecuencia
de uso de internet está influida por la edad de manera tal que
entre los de menor
edad la frecuencia de uso es mayor que entre los de más
edad”.
VD: Frecuencia de uso de Internet en el tiempo libre
Nivel de medición: Ordinal
VI: Tramo de Edad
Nivel de medición: Intervalar
Tamaño de la Tabla: 3x4
Grados de Libertad (gl): 6
Tipo de hipótesis: Diagonal o lineal
Siguiendo la misma secuencia que para las relaciones anteriores,
se realizó la
prueba de Ji Cuadrado, definida a un 95% de confianza. Al igual
que en el primer
caso, el tamaño de la tabla define 6 grados de libertad, el
valor de Ji empírico
(17.654) supera al teórico, 12.592. Haciendo el análisis a
partir del p-valor,
comprobamos que puede rechazarse la hipótesis nula con una
confianza del
99.3%, por lo cual podemos descartar para ese nivel la
independencia estadística.
Pruebas de chi-cuadrado
Valor gl
Sig. asintótica
(2 colas)
Chi-cuadrado de Pearson 17,654 6 ,007
Razón de verosimilitud 19,064 6 ,004
Asociación lineal por
lineal 10,074
1 ,002
N de casos válidos 625
El coeficiente adecuado para el nivel de medición de las
variables, el tipo de
hipótesis y el tamaño de la tabla es el Tau-b, que en este caso
confirma el sentido
positivo planteado en la hipótesis y tiene un valor de
0.118.
Si bien como se mencionó el análisis de correlación es la
técnica específica para
variables de nivel de medición intervalar, y también existen
otras técnicas como el
análisis de varianza (ANOVA) para las relaciones entre variables
categóricas e
intervalares, las variables intervalares agrupadas, al
utilizarse en tablas de
contingencia, también pueden ser analizadas con análisis de
asociación.
-
27
Coeficientes de Asociación
Valor
Error estándar
asintóticoa Aprox. Sb Aprox. Sig.
Nominal por Nominal Phi -,168 ,007
V de Cramer ,119 ,007
Ordinal por ordinal Tau-b de Kendall -,118 ,035 3,381 ,001
Gamma -,192 ,056 3,381 ,001
N de casos válidos 625
Finalmente, al realizar la lectura porcentual, se destaca entre
los del tramo de
edad superior una mayor proporción de quienes nunca usan,
alcanzando un 79%,
con una diferencia porcentual de 19% contra la categoría
inmediatamente inferior,
y alcanzando los 24 puntos porcentuales de diferencia al comprar
con los más
jóvenes.
Al analizar la frecuencia de uso hasta semanal, y mensual o
menos, se observan
comportamientos similares entre los tres primeros tramos,
produciéndose el
descenso marcado también al pasar a la categoría de 55 a 69
años, entre quienes
solo un 16% presenta frecuencia semanal o mayor, con una
diferencia de 9% en
comparación con los de 40 a 54 años, y de 14 puntos con respecto
a los más
jóvenes.
Frecuencia de tiempo libre en Internet por Tramos de Edad. PEA,
de 20 a 69 años. Total País, 2007.
% dentro de Tramos de Edad
Tramos de Edad
Total
20 a 29
años
30 a 39
años
40 a 54
años
55 a 69
años
Frecuencia de
actividades de
tiempo libre: Pasar
tiempo en Internet
Nunca 55% 57% 60% 79% 62%
Mensual o
inferior 15% 14% 15% 5% 13%
Hasta Semanal 30% 29% 25% 16% 25%
Total 100% 100% 100% 100% 100%
82 185 246 112 625
Fuente: International Social Survey Program, ISSP, relevada a
nivel nacional en el año 2007 por el CEDOP.
En conclusión, podemos decir que la variable que presenta mayor
fuerza de
asociación con la frecuencia de uso de internet en el tiempo
libre, es la clase. Su
-
28
Tau-b era de 0.39 mientras que para edad este coeficiente es
inferior (0.118). En
estos casos en particular, los coeficientes fueron directamente
comparados dado
que coincidían por el tipo de hipótesis, el tamaño de los
cuadros y el tipo de
variables con el que se trabajo. Sin embargo, para la variable
independiente sexo,
el coeficiente que habíamos utilizado fue V de Cramer. Para
comparar la fuerza de
ésta variable independiente en relación a las otras con las que
hemos trabajado
(Edad y Clase Social) es necesario seleccionar un tipo de
coeficiente que sea
aplicable a las tres hipótesis planteadas. En dicho caso
deberíamos realizar una
comparación a partir de V de Cramer por tener un menor nivel de
exigencia. Bajo
estas condiciones el coeficiente asume un valor de 0.312 para la
variable
independiente clase social, 0.039 para la variable independiente
sexo y un valor
de 0.119 para la variable independiente edad. Podemos afirmar
que dentro de las
variables independientes seleccionadas, la variable clase social
presenta mayor
fuerza de asociación con la frecuencia de uso de internet en el
tiempo libre.
-
29
6. Referencias bibliográficas
Aguilar, M., Alonso, C., Kleidermacher, G. y Vázquez, N. (2013)
Elaboración y
análisis de distintos tipos de cuadros. Cuaderno de Cátedra Nº 3
(mimeo).
Baranger, D. (1999) Construcción y Análisis de Datos.
Introducción al uso de
Técnicas Cuantitativas en la Investigación Social. Posadas:
Editorial Universitaria
de la Universidad Nacional de Misiones.
Barton, A. H. (1973) “Concepto de Espacio de atributos en
Sociología”. En
Boudon, R. y Lazarsfeld, P. Metodología de las Ciencias
Sociales. Tomo I.
Barcelona: Ed. Laia.
Blalock, H. (1986) Estadística social. México: Fondo de Cultura
Económica.
Cohen, N. (1997) “La teoría y el método en la investigación
social: el discurso y la
práctica”. En Luxemburg - Revista de sociología, año 1 N° 2.
Buenos Aires.
Cohen, N. y Gómez Rojas, G. (2003): “Los objetivos, el marco
conceptual y la
estrategia teórico-metodológica triangulando en torno al
problema de
investigación”. En Lago Martínez, G. Gómez Rojas y M. Mauro
(coord.) En torno
de las metodologías: abordajes cualitativos y cuantitativos.
Buenos Aires: Proa
XXI.
García Ferrando, M. (1995) Socioestadística. Introducción a la
estadística en
Sociología. Madrid: Alianza Universidad Textos.
Marradi, A.; Archenti, N. y Piovani, J. (2010) Metodología de
las Ciencias Sociales.
Buenos Aires: Cengage Learning.
Roales Riesgo, M. (comp.) (1999) Claves de la Estadística
Descriptiva e
Inferencial: Análisis Bivariado y Multivariado. Buenos Aires:
Centro de Estudiantes
de Ciencias Sociales UBA.
Sautu, R. (2003) Todo es Teoría. Objetivos y Métodos de
Investigación. Buenos
Aires: Editorial Lumiere.
Zeisel, H. (1974) Dígalo con números. Buenos Aires: Fondo de
Cultura
Económica.