CARRERA DE SOCIOLOGÍA UBA METODOLOGÍA DE LA …metodologiadelainvestigacion.sociales.uba.ar/wp-content/uploads/sit… · metodológico de investigación. Los objetivos, en tanto

1

25 UBA Sociales ANIVERSARIO 1988 – 2013 FACULTAD DE CIENCIAS SOCIALES

CARRERA DE SOCIOLOGÍA – UBA

METODOLOGÍA DE LA INVESTIGACIÓN

CÁTEDRA: COHEN

CUADERNO DE CÁTEDRA Nº 5

“Análisis Descriptivo de los Datos”

Autores: Rebeca Cena, Marcela Grinszpun y Gonzalo Seid

2

Cuaderno de cátedra Nº 5

“Análisis Descriptivo de los Datos”

Autores: Rebeca Cena, Marcela Grinszpun y Gonzalo Seid

1. Introducción

En este Cuaderno de Cátedra se presentarán algunas nociones elementales de

análisis descriptivo de datos producidos con un enfoque cuantitativo. Si bien en

algunos manuales de metodología de la investigación y estadística social la

denominación “estadística descriptiva” alude al análisis univariado, el presente

documento se referirá al análisis que vincula variables entre sí, advirtiendo que

para cumplir cabalmente objetivos descriptivos no es suficiente con conocer la

distribución de cada variable por separado, sino que se requiere complejizar el

análisis introduciéndose en las relaciones entre variables1. Este Cuaderno de

Cátedra se concentrará en la etapa de análisis cuantitativo de datos organizados

en tablas, para objetivos descriptivos, de relaciones bivariadas de cualquier nivel

de medición.

En primer lugar, se presentará un marco general del análisis descriptivo en

investigaciones con abordajes cuantitativos, de modo tal de situar el tema de este

trabajo en el proceso general de investigación social. En los siguientes apartados

se presentarán la prueba de hipótesis de ji cuadrado, los coeficientes de

asociación y la lectura de porcentajes, en tanto herramientas cuyo uso conjunto

permite aprovechar su complementariedad.

El Cuaderno de Cátedra Nº 3 “Elaboración y análisis de distintos tipos de cuadros”

profundiza el proceso de elaboración e interpretación de cuadros, por lo cual se

recomienda su lectura previa. El Cuaderno Nº 1 “La aplicación de técnicas

multivariadas en Ciencias Sociales” avanza sobre el análisis de más de dos

variables simultáneamente, desarrollando contenidos necesarios para comprender

cómo extender al análisis multivariado las herramientas desarrolladas en el

presente cuaderno.

En el anexo del Cuaderno, se presenta el desarrollo de un ejemplo de aplicación

de las herramientas desarrolladas a continuación.

1 El análisis descriptivo requiere del estudio de las relaciones entre variables, dado que el análisis de cada variable por separado no es suficiente a tal fin. Complementariamente con ello, el análisis de las relaciones entre dos variables no implica alcanzar una explicación del fenómeno en estudio. Para tal fin se requiere emprender un análisis multivariado. Ver cuaderno de cátedra número 1.

3

2. Análisis descriptivo de datos cuantitativos

Un proceso de producción de conocimiento puede tener distintos tipos de

objetivos, de acuerdo con los cuales se elaborará un adecuado desarrollo

metodológico de investigación. Los objetivos, en tanto metas que orientan el

avance de una investigación, permiten llevar a cabo la producción de los datos

adecuados para intentar responder a los interrogantes que dieron origen al

proceso (Cohen y Gómez Rojas, 2003). Los objetivos de tipo descriptivo implican

que la meta consiste en llegar a representar el objeto de estudio, delineando sus

principales características, refiriendo sus componentes y dando cuenta del

comportamiento de algunos de sus atributos y relaciones más relevantes. El

aspecto principal de la descripción para la producción de conocimiento científico

reside en poder establecer vínculos entre conceptos.

Los datos, a pesar de su origen etimológico (del latín datum, lo dado), son

construidos siempre desde una perspectiva teórica, para responder a una

determinada problemática, mediante la aplicación de técnicas y procedimientos

que también implican supuestos teóricos. Puede advertirse que expresiones tales

como “recolección de datos” poseen connotaciones que pueden contribuir al error

de pensar los datos sólo en su contenido informativo, olvidando que el mismo

resulta inseparable de la elaboración conceptual y operativa del investigador.

Una vez realizada la etapa de relevamiento, cuando se trabaja con un abordaje

cuantitativo, se elabora una matriz que clasifica cada caso según el valor que

asume en cada variable, constituyéndose una estructura tripartita de los datos

(Galtung, 1973). Esta matriz de datos contiene de manera desagregada toda la

información que ha sido registrada en la etapa de trabajo de campo y a partir de la

cual será posible pasar a la etapa del análisis de los datos. Las variables de una

matriz de datos, cabe destacar, no son sino aquellos conceptos que se ha

decidido que debían ser considerados en el relevamiento a partir de los

interrogantes, los objetivos, las hipótesis y el marco teórico de la investigación.

La matriz vuelve visible la estructura tripartita de los datos -unidades de análisis,

variables y categorías-, lo que resulta ventajoso puesto que “poniendo diferentes

referentes del mismo tipo en sus filas y la misma secuencia de propiedades en sus

columnas, permite relacionar rápida y sistemáticamente un sinnúmero de estados

de los mismos objetos/sujetos en distintas propiedades, controlando así si existe

una relación cualquiera entre esas propiedades” (Marradi, Archenti y Piovani,

2010: 5). Esta ventaja tiene como contracara un costo semántico, derivado del

supuesto atomista, que implica asumir que cada caso puede descomponerse en

propiedades, que los estados en una propiedad pueden separarse de su

4

detentador y que los datos con el mismo valor en la misma variable son

asimilables entre ellos (Op.cit., pp.5-6).

De cualquier manera, con la matriz por sí sola no es posible avanzar en el análisis.

Es necesario retomar los interrogantes, objetivos e hipótesis para determinar qué

es lo que ha de analizarse. Es necesario decidir cuáles son las variables de

estudio cuyo comportamiento merece ser observado individualmente por presentar

interés en sí mismo y cuáles variables interesan para ser observadas en su

relación con otras. En este último caso, el hecho de que haya relaciones entre

variables que se consideren relevantes para analizar obedece a la existencia de

hipótesis, es decir, supuestos acerca de los posibles vínculos entre conceptos

susceptibles de ser confrontados con los datos.

Para comenzar a describir cuantitativamente una población, pueden emplearse

análisis univariados, es decir, del comportamiento de cada una de las variables de

interés por separado, mediante distribuciones de frecuencias absolutas, relativas y

acumuladas, gráficos, medidas de tendencia central, de posición y de dispersión,

como un primer modo de analizar y caracterizar los casos con los que contamos

en un proceso de investigación. Por ejemplo, cuando las unidades de análisis son

personas puede ser interesante describir la distribución de los casos según

variables sociodemográficas como sexo, edad, lugar de residencia, estado civil,

máximo nivel educativo alcanzado, etc. También puede ser relevante observar el

comportamiento de las variables de estudio, aquellas en las que se enfoquen las

preguntas y objetivos, y que en los análisis bivariados frecuentemente pasarán a

ser las variables dependientes, cuya variación se procurará comprender. El

análisis univariado brinda, entonces, un panorama introductorio sobre cómo se

comportan los fenómenos, a partir de la descripción de las distribuciones de cada

variable por separado. Es a partir del análisis bivariado que se vuelve posible

describir las relaciones entre variables del fenómeno en estudio.

Cuando se decide qué es relevante observar de la relación entre dos o más

variables es porque se ha propuesto una hipótesis de trabajo. Si bien estas

hipótesis surgen de nuestro enfoque teórico, a lo largo del proceso de

investigación puede que surjan otras, producto del avance de nuestro

conocimiento en la problemática. En el proceso de construcción de las tablas que

concentran nuestros datos es donde nuestras hipótesis comienzan a verse

reflejadas. Si bien su contrastación permite avanzar en la producción de

conocimiento, generalmente no agotan en sí mismas los objetivos de

investigación, sino que es el conjunto de estas hipótesis de trabajo, contrastadas

en las tablas que se producen, con la articulación teórica y la ilación lógica que le

5

confieren quienes investigan, lo que puede dar respuesta a los interrogantes y

cumplir los objetivos.

Las hipótesis, constituidas por relaciones entre conceptos del marco teórico,

permiten vincular este universo conceptual con los datos. Los datos son producto

de un proceso teórico de construcción y sólo desde la teoría pueden ser

interpretados, siendo las hipótesis las mediaciones imprescindibles que expresan

lo que desde la teoría se espera que ocurra con los datos producidos. En el

momento de planear el análisis, el protagonismo lo tienen las hipótesis, que

permiten avanzar en el procesamiento para obtener las tabulaciones previstas a

fin de cumplir los objetivos y responder los interrogantes. Se deben determinar las

variables que deben ser relacionadas y, preferentemente, tener en claro de qué

modo se espera que se vinculen las categorías de las variables entre sí. El tipo de

hipótesis, el nivel de medición de las variables, los roles que cumplen las variables

en la hipótesis, la cantidad de casos con que se trabaje y la cantidad de categorías

de las variables -y su posible reagrupamiento en otros sistemas de categorías- son

todos aspectos que entran en juego en las posibilidades y restricciones de

tratamiento estadístico de los datos.

El plan de análisis2 implica una labor de previsión y reflexión sobre las estrategias

de análisis y el detalle de procedimientos que deben llevarse a cabo para cumplir

los objetivos. El plan de análisis cuantitativo contiene un plan de cuadros, esto es,

las decisiones relativas a todas las tablas que se confeccionarán, formalizando las

hipótesis que se tengan, en torno a las cuales se han de interpretar los datos

producidos. Cada tabla que se elaborará tiene su razón de ser en que hay un

supuesto teórico acerca de lo que ocurrirá con los datos. Si en lugar de darle

formato de procesamiento a las hipótesis se procediera observando todos los

cruces posibles de variables, esta sería una tarea no sólo innecesaria y engorrosa,

sino ante todo carente de relevancia teórica, que tendría como resultado datos

desconectados de la teoría, que por sí solos no pueden constituir un avance en la

producción de conocimiento científico.

Una vez que se ha procesado y tabulado los datos según el plan de análisis, se

está en condiciones de avanzar en el análisis para cumplir los objetivos. “La

producción de evidencia empírica es una condición necesaria pero no suficiente

para llevar a cabo una investigación; los datos construidos u obtenidos deben ser

2 El plan de análisis expresa aquellos supuestos que nos hemos planteado respecto a las maneras en que las variables van a comportarse en función de las vinculaciones que establezcamos a partir de cómo esperamos que se conecten sus categorías. Esto es, en función de las hipótesis de trabajo que nos hayamos propuesto tendremos como resultado un determinado plan de análisis que expresará luego la manera en que se presentarán en los cuadros nuestras variables.

6

analizados a la luz de la teoría que guía y da sustento al estudio” (Sautu, 2010:

128). Tanto la producción de datos como las decisiones relativas al análisis deben

entenderse en el marco de lo que constituye una estrategia teórico-metodológica

de contrastación del universo de conceptos con el fenómeno de estudio, para la

resolución de los problemas de investigación que se plantean desde una

perspectiva teórica con determinado estado de conocimiento acumulado (Cohen,

1997).

Cuando se trabaja con abordajes cuantitativos, se utilizan habitualmente

herramientas estadísticas para el análisis, pero es necesario no asimilar por

completo análisis cuantitativo y análisis estadístico. “No hay nada más técnico (en

el sentido de conocimiento objetivado, impersonal, basado en procedimientos

normados, recurrentemente aplicables y ampliamente aceptados) en la

investigación estándar que sus herramientas de análisis (estadístico) (…) Esto no

significa que las técnicas estadísticas resuelvan por sí solas los múltiples y

complejos aspectos que encierra la mediación entre un conjunto de informaciones

empíricamente construidas y algún tipo de interpretación de éstas” (Marradi,

Archenti y Piovani, 2010: 264). En el mismo sentido, Blalock (1986) recuerda que

la estadística no comprende problemas como los de medición, sino que las

consideraciones estadísticas intervienen en decisiones relativas a la construcción

de la muestra y a la manipulación de cifras, dando por supuesto el cumplimiento

de requisitos en la medición. El hecho de que la estadística sólo intervenga en

algunas decisiones técnicas del muestreo y análisis no debe entenderse como si

el investigador pudiera llevar a cabo su trabajo sin conocimiento de estadística y

delegar en un especialista el análisis estadístico, sino que los problemas del

análisis han de anticiparse, influyendo las consideraciones estadísticas a lo largo

de todo el proceso de investigación. Teoría, metodología y técnicas deben

articularse reflexivamente, atendiendo a la coherencia y ejerciendo vigilancia

epistemológica.

El clásico concepto de espacio de propiedades, desarrollado por Barton (1973),

resulta elemental para aprehender los fundamentos de la metodología cuantitativa

y el recurso a las técnicas estadísticas. Pensar en términos de un espacio de

propiedades significa que las celdas que devienen de la combinación de dos o

más atributos pueden comprenderse de manera análoga a los puntos establecidos

a partir de un sistema de coordenadas. Cada espacio de propiedades clasifica un

subconjunto de casos que presentan simultáneamente las dos o más propiedades

cuya combinación genera el espacio. A partir de la distribución de los casos en los

espacios de propiedades, con el auxilio del cálculo de porcentajes, es posible

examinar las relaciones entre variables mediante una lectura comparativa de las

frecuencias.

7

3. Tres recursos para el análisis de relaciones entre variables

Siguiendo a García Ferrando (1995: 218), se puede caracterizar la relación entre

dos variables según la existencia de asociación, la fuerza, la dirección y la

naturaleza de la misma.

La existencia de asociación implica que la distribución de una variable difiere de

algún modo entre las categorías de la segunda variable, alejándose de la

independencia estadística3, lo cual puede determinarse a partir del análisis de

diferencias porcentuales y de la comparación de las frecuencias esperadas con las

observadas, mediante la prueba de hipótesis de ji cuadrado, esta última para los

casos en que se trabaje con muestras probabilísticas.

El grado o fuerza de la asociación varía según cuánto se aleje la relación de la

independencia estadística. Como las diferencias porcentuales y la comparación

entre frecuencias observadas y esperadas no varían de una forma

predeterminada, se han establecido algunos coeficientes estandarizados, que

varían de forma fija entre un valor mínimo –cero- y un máximo –uno-, facilitando su

interpretación. Estos coeficientes permiten conocer también, cuando las variables

son como mínimo de nivel de medición ordinal, la dirección de la asociación, que

puede ser positiva, cuando los valores altos de una variable se corresponden con

los valores altos de la otra -y los valores bajos con los valores bajos-, o negativa, -

cuando los valores altos de una variable se corresponden con los bajos de la

segunda -y viceversa-4.

Por último, la naturaleza es la forma general en que se distribuyen los datos en un

cuadro, que puede ser lineal o diagonal, curvilineal o rinconal e irregular; esta

última forma sólo puede ser examinada mediante la lectura analítica del cuadro, ya

que las medidas resumen de asociación no permiten medirla sino que la

presuponen en las operaciones que realizan para calcular la fuerza.

Siguiendo esta lógica, un primer paso en el análisis de los datos5 en función de

una hipótesis puede darse mediante el test de significación estadística de ji

cuadrado (χ2) que permite establecer si existe relación estadísticamente

significativa entre las variables o si hay independencia estadística. El ji cuadrado

3 Entendida como la inexistencia de relación entre las variables analizadas. Ello refiere a que cualquiera sea el valor que asuma una variable en estudio A, la variable B se mantendrá constante. 4 Es importante aclarar que en las asociaciones observadas para variables de nivel de medición nominal, éstas también poseen un sentido en cuanto a su relación, pero este no puede interpretarse a partir de un signo positivo o negativo, sino que se hace observable a partir del modo en que se distribuyen las frecuencias al interior de la tabla. 5 Si bien en este artículo hemos propuesto una secuencia de estas herramientas no implican en sí mismas un orden ni jerarquía preestablecida.

8

nos permite testear si las relaciones entre las variables e hipótesis observadas en

una muestra probabilística puede ser extrapolada al universo con un determinado

nivel de confianza. Esta prueba de hipótesis define el escenario estadístico en que

se trabaja, por eso constituye un buen primer paso en el análisis.

Queda definido así el contexto respecto a la existencia o no de una relación

estadísticamente significativa, e independientemente del resultado del test6, es

posible contar con un panorama de la fuerza y el sentido de la relación entre

variables mediante coeficientes de asociación, los cuales son medidas resúmenes

estandarizadas que permiten conocer grosso modo qué ocurre con una relación

entre variables. En una única medida se sintetiza la intensidad de la relación y, en

algunas de ellas, permite conocer también el sentido. Este sentido o dirección de

la relación puede ser positivo -cuando ambas variables crecen o decrecen

conjuntamente- o negativo -cuando una crece mientras la otra decrece- cuyo nivel

de medición es ordinal o mayor.

Con la prueba de hipótesis y los coeficientes de asociación ya se cuenta con una

primera aproximación global y sintética de la relación estudiada. Con la lectura

analítica de porcentajes es posible conocer en detalle cómo se distribuyen las

unidades de análisis en los espacios de propiedades generados por la tabulación

cruzada de variables de cualquier nivel de medición. Dado que en la mayoría de

los casos las covariaciones no son perfectas ni lineales, la lectura de porcentajes

permite analizar las particularidades de cada cuadro con respecto a la forma de

distribución de unidades de análisis en los espacios de propiedad, visualizando,

por ejemplo, de qué modo una hipótesis puede tender a corroborarse

parcialmente, en distinta medida para algunas categorías de la variable

dependiente que para otras.

En lo que sigue, se presentará cada una de estas tres herramientas de análisis

descriptivo de relaciones bivariadas: ji cuadrado, coeficientes de asociación y

lectura de porcentajes. Este conjunto de recursos usados en combinación

permiten realizar un análisis exhaustivo de lo que ocurre en los datos para cada

hipótesis de trabajo, complementando la información global que proporcionan la

prueba de hipótesis y los coeficientes con la lectura desagregada de las

distribuciones porcentuales en los espacios.

6 Cabe destacar que si en una investigación las relaciones entre variables observadas no pueden ser extrapolables al universo –no son estadísticamente significativas-, pueden igualmente ser teóricamente relevantes para la población a partir de la cual se han construido los datos.

9

Ji cuadrado como prueba de significación estadística

Cuando dos variables están relacionadas varían conjuntamente en algún grado,

existiendo covariación o varianza en común. Cuando la covariación o varianza en

conjunto de ambas variables alcanza su nivel máximo -en que toda la varianza de

una variable coincide con la varianza de otra- existe una asociación perfecta. Por

la complejidad y multicausalidad del mundo social, no es habitual en ciencias

sociales encontrar asociaciones perfectas entre variables. De hecho, cuando se

constata una asociación perfecta, es necesario dilucidar por qué ocurre,

contemplando la posibilidad de que se trate, por ejemplo, de dos indicadores de un

mismo concepto.

No obstante, la asociación perfecta es muy útil en tanto situación extrema con la

cual confrontar los datos con que se dispone en una tabla bivariada. Cuando hay

asociación perfecta cada categoría de una variable se encuentra asociada con una

sola categoría de la otra. En una tabla, los casos se concentran en la diagonal y el

resto de los espacios de propiedades tendrán cero casos, con lo cual las

diferencias porcentuales serán del 100%. El caso opuesto a la asociación perfecta

es el de independencia estadística, en que no hay ninguna covariación entre las

variables, de modo tal que los casos se distribuyen en la tabla bivariada al igual

que lo harían en una distribución univariable, con lo cual las diferencias

porcentuales serán de 0%.

El test de ji cuadrado nos permite saber si la relación observada entre

determinadas variables en nuestra muestra puede ser inferible, bajo determinados

niveles de confianza, al universo de estudio. Para ello pone en relación la hipótesis

nula con la hipótesis de trabajo. Una hipótesis nula es una hipótesis que afirma la

independencia estadística, es decir, la ausencia de asociación entre variables, lo

contrario a lo que afirma la hipótesis de trabajo7. Cuando se trabaja con muestras

aleatorias el test de hipótesis de ji cuadrado8 permite decidir si puede rechazarse

la hipótesis nula para un nivel de confianza dado. Si se rechaza la hipótesis nula,

se está descartando, asumiendo determinado riesgo, que se trate de una situación

de independencia estadística y se está aceptando que hay alguna asociación

estadística entre las variables de la hipótesis de trabajo, con determinado nivel de

confianza. No rechazar la hipótesis nula implica que la hipótesis de trabajo no es

7 Ambas hipótesis se excluyen mutuamente: el rechazo de la hipótesis nula implica que puede aceptarse, con determinados niveles de confianza, la hipótesis de trabajo. En este caso, lo que rechazamos es la hipótesis de independencia estadística y por tanto, implica que la relación entre las variables observadas en la muestra es inferible al universo en estudio. El no rechazo de la hipótesis nula a cierto nivel de confianza, implica que no puede afirmarse que esa relación ocurra también en el universo, lo que no significa que no tenga relevancia teórica. 8 Existen otros tipos de test de hipótesis, aquí sólo tomamos uno de ellos.

10

estadísticamente significativa para determinado nivel de confianza, mas no implica

necesariamente que se acepte la hipótesis nula ni que deba darse por finalizado el

análisis de la relación.

El ji cuadrado no permite analizar las categorías o valores de las variables, sino

cómo las unidades de análisis se distribuyen en los espacios de propiedades, por

lo cual puede ser utilizado con variables de cualquier nivel de medición. Se utiliza

para relaciones entre variables nominales u ordinales, puesto que existen otras

pruebas para variables intervalares.

El ji cuadrado compara frecuencias absolutas, no porcentajes. Opera a partir de la

comparación entre las frecuencias observadas y las frecuencias esperadas. Las

frecuencias observadas son simplemente los casos relevados distribuidos en los

espacios de una tabla. Las frecuencias esperadas son aquellas que cabría esperar

si hubiese independencia estadística. Para cada espacio de propiedad de un

cuadro, la frecuencia esperada se obtiene multiplicando las frecuencias

marginales entre sí y dividiendo el producto por el total de casos. De este modo,

se obtiene una distribución de los casos en el cuadro que mantiene las frecuencias

marginales observadas de cada variable pero distribuye los casos en los espacios

de propiedades, de modo tal que las frecuencias condicionales sean las que

cabría esperar por meras desviaciones en la muestra en ausencia de asociación

en la población.

Es posible elaborar una tabla de frecuencias esperadas o datos teóricos y

compararla con la tabla de frecuencias observadas o datos reales. Si no se

observa diferencia entre las mismas se puede decir que hay una ausencia de

asociación entre las dos variables o independencia estadística. Si hay diferencia

entre las frecuencias observadas y esperadas, es necesario evaluar si los datos

reales se alejan lo suficiente de la independencia estadística como para rechazar

la hipótesis nula con un nivel de confianza razonable. Para ello, se realiza el

cálculo del ji cuadrado. Siendo Fo las frecuencias observadas y Fe las frecuencias

esperadas, la fórmula de ji cuadrado es:

χ2 = ∑(Fo−Fe)2

Fe

El residual o diferencia entre frecuencias observadas y esperadas de cada espacio

se eleva al cuadrado, anulando los signos negativos. Para normalizar los residuos

elevados al cuadrado de cada espacios de propiedad, se divide por la frecuencia

esperada. Al sumar los resultados se obtiene el ji cuadrado empírico (Xe2), que

puede adoptar valores desde cero hasta infinito. Cuanto más pequeño sea el valor

11

de ji cuadrado, más fácil es no estar en condiciones de rechazar la hipótesis nula.

Como el valor de ji cuadrado aumenta con el tamaño de la muestra, no habiendo

un límite superior, para decidir el rechazo o no rechazo de la hipótesis nula, es

necesario compararlo con el ji cuadrado teórico (Xt2). El ji cuadrado teórico, crítico

o de tabla proviene de una distribución estadística que relaciona valores teóricos

de ji cuadrado con sus posibilidades de ocurrencia por el sólo efecto del error

muestral.

La distribución teórica de ji cuadrado permite conocer cuál es el valor con el que

comparar el ji cuadrado empírico, según los grados de libertad de la tabla y el nivel

de confianza con que se decida trabajar. Los grados de libertad de una tabla se

determinan según la mínima cantidad de frecuencias condicionales que necesitan

conocerse para poder calcular las restantes, para frecuencias marginales dadas.

Se calcula multiplicando la cantidad de columnas menos uno por la cantidad de

filas menos uno [GL= (c-1) x (f-1)]. Por ejemplo, una tabla de dos columnas por

dos filas tiene un grado de libertad.

El nivel de confianza es el complemento del riesgo. Este último es la probabilidad

de rechazar la hipótesis nula siendo esta verdadera, o lo que es lo mismo, la

probabilidad de cometer error de tipo I. El error de tipo I consiste en aceptar la

hipótesis de trabajo, cuando en realidad la relación no existe en el universo bajo

estudio. La situación inversa es el error de tipo II, o probabilidad de no rechazar la

hipótesis nula siendo esta falsa. En el error de tipo II se rechaza la hipótesis de

trabajo, cuando sí es estadísticamente significativa. En ambas situaciones no se

trata de errores en tanto decisiones desacertadas por la impericia del investigador,

sino que son errores estadísticos, probabilidades que quienes investigan asumen

como riesgos propios de los instrumentos estadísticos que se utilizan. Por

convención, suele trabajarse con un 95% de confianza en Ciencias Sociales, lo

cual equivale a decir que el riesgo o significación más habitual es de 0.05. El

cálculo del error de tipo II es más complejo porque requiere de la utilización de

supuestos adicionales.

Si al comparar los valores obtenidos, el ji cuadrado teórico es mayor al ji cuadrado

empírico (Xt2 > Xe

2) la hipótesis nula no puede ser rechazada, por lo que la

hipótesis de trabajo no es aceptada. Por el contrario, si el ji cuadrado teórico es

menor o igual al ji cuadrado empírico (Xt2 ≤ Xe

2) la hipótesis nula se rechaza y se

acepta la hipótesis de trabajo, considerando que existe una relación

estadísticamente significativa entre las variables.

En la actualidad, los paquetes estadísticos informáticos como el SPSS -Statistical

Package for the Social Sciences- además de arrojar el valor de ji cuadrado

12

empírico para un cuadro determinado, calculan la significación empírica o p-valor,

que indica la probabilidad de que sea cierta la hipótesis nula en la población para

determinado ji cuadrado empírico. El nivel de significación teórico con el que se

compara habitualmente es 0.05 -eventualmente 0.01-, de modo tal que los niveles

de significación empírica menores indicarán que se está en condiciones de

rechazar la hipótesis nula. La ventaja de utilizar este procedimiento operativo para

hacer la prueba de hipótesis es que se puede conocer con exactitud y sin

necesidad de consultar la tabla de la distribución teórica de ji cuadrado con qué

nivel de confianza se puede rechazar la hipótesis nula. Por ejemplo, si el p-valor

fuera de 0.007, se determina que la hipótesis nula puede rechazarse con 99.3%

de confianza.

Cuando se analiza el valor que asume ji cuadrado, éste está indicando

simplemente si la relación supuesta entre las variables en la hipótesis de trabajo

es estadísticamente significativa o no. Con esto, se define estadísticamente el

contexto en que se trabaja con la hipótesis, de modo tal que si la asociación entre

variables es estadísticamente significativa se puede realizar una inferencia

estadística de la muestra al universo de estudio. Ello quiere decir que se puede

rechazar con determinado nivel de confianza que la hipótesis nula sea cierta en el

universo y que la asociación en los casos analizados se deba solamente a errores

muestrales.

Cuando el ji cuadrado teórico es mayor al ji cuadrado empírico y la hipótesis nula

no puede ser rechazada, la hipótesis de trabajo no puede ser aceptada como

estadísticamente significativa. La ausencia de significación estadística puede

deberse a diversos motivos, tales como el modo de construir las variables, una

insuficiente cantidad de casos, las características de la estrategia de medición,

etc. El hecho de que no haya significación estadística en la relación entre las

variables analizadas, no impide avanzar en la producción de conocimiento y que

no pueda estarse frente a un caso de “significación” teórica y sociológica. A los

fines sociológicos, la situación en que el ji cuadrado no asume significación no

menoscaba la relevancia teórica de una hipótesis y, en contrapartida, el hecho de

que una relación entre variables sea estadísticamente significativa no es suficiente

por sí mismo para producir conocimiento científico. Cabe destacar que este Test

de Hipótesis no es útil para el análisis si es tomado aisladamente de los otros

recursos con los que contamos como lo son los Coeficientes de Asociación y la

Lectura Porcentual que veremos a continuación.

13

Asociación y medidas de asociación

La asociación es una forma de covariación entre variables, medida a partir de

cómo se distribuyen las unidades de análisis en los espacios de propiedades. Las

medidas de asociación, a diferencia de las de correlación, no operan con las

categorías o valores de las variables. Por este motivo, pueden ser utilizadas con

variables de cualquier nivel de medición, a diferencia del coeficiente de correlación

que requiere variables cuantitativas. Los coeficientes de asociación (también

conocidos como coeficientes no paramétricos) no permiten realizar inferencias al

universo, sino que indican la fuerza de la relación en la muestra que se analiza.

Los coeficientes de asociación son medidas resumen de la fuerza de la asociación

entre variables y, algunos de ellos, permiten también conocer la dirección. A

diferencia del ji cuadrado (que como veremos más adelante no tiene límite

superior de variación, puesto que su valor depende de la cantidad de casos) los

coeficientes de asociación son estandarizados, variando entre cero, que indica

independencia estadística y uno, que indica asociación perfecta9.

Phi y V de Cramer (V) son coeficientes derivados de ji cuadrado, con lo cual

operan a partir de las diferencias entre frecuencias observadas y esperadas. El

primero es el resultante de dividir el valor de ji cuadrado por la cantidad de casos

2 / n)], de modo tal que quede un valor estandarizado entre 0 y 1.

Como en tablas de más de dos por dos el valor de Phi puede superar la unidad, V

de Cramer incorpora un factor de corrección en su fórmula para poder ser utilizado

en cuadros de cualquier cantidad de categorías. No obstante, por suponer una

definición exigente de asociación perfecta, V tiende a subestimar el grado de

relación, lo cual debe ser tenido en cuenta en la interpretación del valor de este

coeficiente, de la misma manera que, como se desarrollará, en la interpretación de

los coeficientes rinconales debe tenerse presente que pueden asumir altos valores

por la definición menos restrictiva de asociación (García Ferrando, 1995).

Algunos coeficientes, como Tau-b (b), Q de Yule (Q) y Gamma () operan en

base a la reducción proporcional del error. La relación entre las variables puede

entonces también ser interpretada como la proporción en que se reduce el error de

predicción de las categorías de la variable dependiente cuando se conoce su

distribución en las categorías de la independiente, contra el error de predicción

9 Como veremos más adelante en el documento, en los cuadros con un alto número de casos el ji cuadrado tiende a ser significativo, una de las razones por las cuales es nodal examinar la fuerza de la asociación mediante los coeficientes.

14

cuando sólo se conoce la distribución univariada de la variable dependiente

(García Ferrando, 1995: 233; Roales Riesgo, 1999).

Algunos coeficientes pueden llevar signo positivo o negativo, de modo que varían

entre -1 y 1, pasando por 0, siendo -1 asociación perfecta negativa y 1 asociación

perfecta positiva. El signo indica el sentido de la relación, el cual sólo resulta

pertinente cuando se trabaja con ambas variables de nivel de medición como

mínimo ordinal.

La elección del coeficiente adecuado depende del nivel de medición de las

variables, del tipo de hipótesis y, en algunas situaciones, del tamaño del cuadro.

Las variables que hemos seleccionado, las categorías de éstas que hemos

definido y las relaciones que hemos establecido en nuestras hipótesis son

producto del enfoque teórico a partir del cual hemos abordado el fenómeno de

estudio.

-Nivel de medición de las variables. Si son nominales con cuadros de más de dos

por dos se utiliza V de Cramer; si son nominales u ordinales en cuadros de dos

por dos se utiliza Phi y Q de Yule y si son ordinales en cuadros de más de dos por

dos se utiliza Tau b y Gamma. La elección de Tau-b es recomendable cuando las

tablas son cuadradas, es decir, poseen el mismo número de filas que de

columnas.

-Tipo de hipótesis. Las hipótesis rinconales son aquellas que tienen una sola

condición acerca del modo en que se vinculan las variables, es decir, relacionan

una categoría de la variable dependiente con una categoría de la variable

independiente. Son hipótesis menos exigentes, puesto que para que haya

asociación perfecta en una tabla de dos por dos alcanza con que una sola

frecuencia sea cero. Si la hipótesis es rinconal se utiliza Q o Gamma, que son

coeficientes curvilineales. En la interpretación de los valores de estos coeficientes,

debe tenerse presente que los mismos se basan en una definición menos

restrictiva de asociación perfecta, relativa a una hipótesis rinconal, que puede

cumplirse a la perfección poniendo una sola condición.

Las hipótesis diagonales son más exigentes puesto que para corroborarse, los

casos deben concentrarse en la diagonal de una tabla, y para que exista

asociación perfecta no puede haber ningún caso en los espacios fuera de la

diagonal. Por ejemplo, si la hipótesis es diagonal se utiliza Phi, coeficiente lineal,

que pone dos condiciones para que haya asociación perfecta en tablas de dos por

dos, por lo cual se necesitarían dos espacios de propiedad con cero casos. Para

15

hipótesis diagonales de cuadros de más de 2x2, utilizaremos Tau b, coeficiente

lineal10.

-Tamaño del cuadro. Q y Phi se utilizan para cuadros de dos por dos. Si los

cuadros tienen más categorías, se utiliza Gamma en lugar de Q y Tau-b en lugar

de Phi.

COEFICIENTES DE ASOCIACIÓN11

Hipótesis

Lineal Curvilineal

Tipo de

Variable

Nominal - Más de

2x2 V de Cramer (V)

Nominal/Ordinal

- 2x2 Phi )

Q de Yule

(Q)

Ordinal - Más de

2x2 Tau b (b) Gamma ()

El valor que arroje un coeficiente de asociación ha de ser interpretado según

cuánto se aproxime al 0 y al 1 (o menos 1), independencia estadística y asociación

perfecta positiva o negativa, respectivamente. A medida que los coeficientes

comienzan a alejarse de 0 están expresando algún tipo de relación entre las

variables.

Ahora bien, el valor de un coeficiente de asociación en un análisis determinado no

puede ser interpretado aisladamente, sino en función de las comparaciones que

establezca. Dichas comparaciones12 intentarán mostrar las maneras en que

nuestra variable dependiente se encuentra afectada por diferentes variables

independientes. En este sentido, no existen valores altos, medios o bajos en los

análisis de los coeficientes, sino que el valor que la covariación entre las variables

adopte será interpretado a la luz del valor que adquiera otra covariación. Los

fenómenos que estamos analizando no se explican por la influencia de una sola

variable ni son estáticos.

10 Los coeficientes de asociación y su exigencia para los tipos de variables e hipótesis constituyen modelos ideales. La elección del tipo de variable y la hipótesis propuesta dependerá de la teoría con la que hayamos abordado nuestro fenómeno en estudio. 11 Existen otros coeficientes de asociación, pero estos cinco cubren las alternativas de uso habitual. 12 Para que las comparaciones respecto a la fuerza de incidencia de distintas variables independientes sean correctas, es necesario realizarlas con el mismo coeficiente, preferentemente para variables nominales si hay por lo menos una de dicho nivel de medición.

16

También el conocimiento teórico acumulado sobre el comportamiento del

fenómeno contribuirá a determinar cuán alto o bajo es el resultado, en relación con

expectativas teóricas o derivadas de la experiencia previa.

En consecuencia, el proceso de conocimiento que implica acercarnos a nuestro

fenómeno de estudio compromete el análisis y la comparación de un número

significativo de variables dadas por nuestro marco teórico de análisis. De esta

manera, la comparación se vuelve una instancia nodal de nuestro proceso de

construcción del conocimiento y la selección de variables y su interpretación

posibilita subordinar los recursos técnicos a las decisiones teórico-metodológicas,

contribuyendo a la producción de conocimiento teóricamente relevante.

Lectura analítica de porcentajes

La lectura de tablas de contingencia permite un análisis cuantitativo refinado,

analítico y artesanal. Los cuadros o tablas de contingencia surgen de la tabulación

simultánea de dos o más variables, en función de las hipótesis.

Una vez que se tiene una tabla con las frecuencias absolutas distribuidas en los

espacios de propiedades, es necesario calcular porcentajes para poder realizar

comparaciones válidas con mayor facilidad. Porcentualizar es una manera de

estandarizar las frecuencias condicionales para liberarlas de los efectos de las

diferencias de los marginales y hacer comparable una parte respecto al todo

(Baranger, 1999). No obstante, es necesario saber sobre qué total de casos han

sido calculados los porcentajes, ya sea para poder reporcentualizar agrupando

categorías o, más importante, para tener los debidos recaudos en la interpretación

de porcentajes calculados sobre pocos casos.

Generalmente, los porcentajes pueden presentarse sin decimales o con un

decimal. La cantidad de decimales con la cual pueda trabajarse depende de la

cantidad de casos, lo cual debe tenerse en cuenta para evitar que los porcentajes

aparenten un nivel de exactitud que no pueden tener cuando se trabaja con una

muestra pequeña.

Los porcentajes pueden ser calculados sobre el total (n) de una tabla, sobre los

subtotales de fila -asumiendo que se dispuso allí variable dependiente- o sobre los

subtotales de columna -asumiendo que se trata de la variable independiente-.

Si se procura conocer qué porcentaje de la población puede ser clasificado en dos

o más atributos simultáneamente -por ejemplo, varón y de nivel educativo alto- es

necesario calcular los porcentajes sobre el total de la tabla.

Si se busca describir perfiles de la población y subpoblaciones, en ocasiones

puede ser útil calcular los porcentajes de filas, es decir, aquellos calculados en el

17

sentido de la variable dependiente. Estos porcentajes sólo pueden servir a los

fines descriptivos univariados de las características de distintos subgrupos. La

variable dependiente no opera como tal sino como si fuera una constante, por

ejemplo, qué porcentaje de los que tienen nivel educativo alto son varones,

brindando así una idea de la composición interna o perfil de cierto subgrupo.

Para realizar una lectura en función de las hipótesis es necesario calcular los

porcentajes en el sentido de la variable independiente y leerlos comparando en el

sentido de la variable dependiente (Zeisel, 1974). De este modo, podemos

analizar la influencia de la variable independiente sobre la dependiente. Por

ejemplo, saber qué porcentaje de los varones tiene nivel educativo alto, al

comparar con el porcentaje que tienen las mujeres en dicho nivel educativo,

permite a partir de las diferencias porcentuales aproximarse a la incidencia de la

variable sexo en el nivel educativo alcanzado.

Esta distribución porcentual bivariable pone en relación las distribuciones

condicionales con una distribución global de la variable dependiente. La

distribución de la variable dependiente dentro de las categorías de la variable

independiente permite examinar las condiciones que se supone que influyen en

cómo se distribuye. La variable independiente puede ser entendida como

condición que hace probable cierto resultado, por lo cual es necesario comparar

diferentes condiciones -categorías de la variable independiente- para resultados

equivalentes -de una misma categoría de la variable dependiente-, examinando

qué le ocurre a la variable de estudio cuando se le “aplica” cada una de las

categorías de la variable independiente.

La lectura de un cuadro puede comenzarse por las frecuencias marginales de la

variable dependiente, que no son más que la distribución univariada de esa

variable, es decir, su distribución sin tomar en cuenta las categorías de la variable

independiente. Luego, los marginales pueden ser útiles para comparar con cada

frecuencia condicional, examinando qué ocurre con la distribución de la variable

dependiente cuando está presente la variable independiente. Si las distribuciones

de la variable dependiente en cada categoría de la variable independiente son las

mismas que la distribución univariada, en principio no habría asociación entre las

variables.

Lo central de la lectura de cuadros bivariados es la lectura de las frecuencias

condicionales, comparando en el sentido de la variable dependiente. Según lo que

establezca la hipótesis, se procederá a comparar el porcentaje de casos que

corresponde a una categoría de la variable dependiente entre la subpoblación de

una categoría de la variable independiente, con el porcentaje de casos de otra

18

subpoblación -delimitada por otra categoría de la variable independiente- que

corresponde a la misma categoría de la variable dependiente. Esta es la

comparación básica a partir de la cual se van introduciendo complejizaciones,

según la cantidad de categorías que tenga el cuadro.

Cuando se trata de un cuadro de dos por dos, bastará con comparar dos

porcentajes para leer el cuadro por completo, puesto que habiendo leído los dos

porcentajes de una categoría de la variable dependiente, los de la otra categoría

de la variable dependiente son complementarios. La diferencia entre los dos

porcentajes comparados será la diferencia porcentual o épsilon que sintetiza

todo el cuadro, indicando la fuerza de la relación. A medida que se trate de un

cuadro más grande, se van abriendo las posibilidades de comparaciones.

Probablemente no sea necesario leer todos los porcentajes cuando haya muchas

categorías de las variables, siendo siempre la hipótesis lo que orientará la lectura,

indicando qué espacios de propiedad son los más relevantes según las

expectativas teóricas. En los cuadros de más de dos por dos, ya no habrá una

única diferencia porcentual sino varias y por ende ninguna de ellas sintetizará en

una única medida la fuerza de toda la relación.

Cabe poner de relieve que si bien la lectura porcentual permite analizar

minuciosamente un cuadro, no debe perderse de vista el panorama general del

plan de análisis, de modo que los avances parciales en el conocimiento a partir de

la interpretación de cada cuadro, puedan ser articulados de un modo coherente y

enfocado en dar cumplimiento a los objetivos, confrontando con los datos

producidos el conjunto de supuestos que se decidió someter a contrastación en la

investigación. La lectura de un cuadro no debe ser entendida como un fin en sí

mismo sino como un medio para el análisis e interpretación de los resultados

“enmarcado en un proceso teórico metodológico, evitando así miradas

fragmentadas del proceso de investigación” (Aguilar, Alonso, Kleidermacher y

Vázquez, 2013: 23).

4. Reflexiones finales

El proceso de construcción del dato finaliza al elaborarse los cuadros, a partir de

las variables que se pongan en relación y de la forma en que sean categorizadas.

Las distintas posibilidades de agrupar y reagrupar categorías en distintos sistemas

de categorías implican variaciones en las distribuciones de casos en los espacios

de propiedades generados y, por lo tanto, en la fortaleza de las hipótesis. Al

examinar qué ha ocurrido con cada hipótesis sustantiva y los resultados de un

19

cuadro, se está en la etapa del análisis, en que la teoría y los datos se vinculan y

confrontan mediante las hipótesis.

El análisis de relaciones entre dos variables se sirve de la prueba de hipótesis de ji

cuadrado, de los coeficientes de asociación y de la lectura analítica de los

cuadros, en tanto herramientas que en conjunto permiten analizar y comenzar a

dar respuesta a objetivos descriptivos. La prueba de ji cuadrado, permite

establecer si existe relación estadísticamente significativa entre las variables y

complementada por los coeficientes de asociación, permite examinar la fuerza de

la relación y su sentido. La naturaleza de la relación entre variables, es decir, si se

aproxima a una forma lineal, curvilineal o irregular, sólo puede ser examinada

mediante la lectura porcentual analítica al interior del cuadro. Además, todo tipo de

situaciones intermedias, variaciones sutiles y matices respecto al modo de relación

entre las variables pueden ser descriptos pormenorizadamente mediante la lectura

porcentual, lo cual resulta una gran ventaja para analizar “artesanalmente” datos

sobre fenómenos sociales, los cuales si bien presentan regularidades, conservan

cierta inestabilidad, indeterminación e irregularidad, que también deben ser

analizadas.

Así, todas las herramientas estadísticas presentadas, se utilizan en estrecha

relación con la teoría. En primer lugar, porque ésta condiciona las hipótesis

plateadas, las variables seleccionadas, las categorizaciones realizadas y las

comparaciones establecidas. En segundo lugar, porque el análisis e interpretación

de los resultados obtenidos, se realiza a la luz del marco teórico seleccionado y

las preguntas y objetivos que guían la investigación.

20

5. Anexo: Ejemplo de análisis bivariado

El uso diferencial del tiempo libre. Una aproximación desde género y clase

En el marco del proyecto de investigación “Heterogeneidad de clase social:

profundizando los comportamientos de clase de las parejas”1314, se indagó

respecto del uso diferencial del tiempo libre, concebido como un aspecto del estilo

de vida de las clases sociales. Se analizaron datos cuantitativos sobre la

frecuencia y el placer que producen diferentes actividades de tiempo libre según

clase social y según género. El objetivo del trabajo fue describir el uso del tiempo

libre de varones y mujeres que trabajan, contándose con información sobre la

clase social. Para trabajar el concepto de clase, se utilizó el esquema de

Goldthorpe. Enfocamos al tiempo libre como una de las expresiones de los

consumos y estilos de vida de las personas, cuyas características dependen en

gran medida de la clase y el género.

Así, se indagó sobre las diferencias en torno al uso de este tiempo libre, según

género y clase social, teniendo como hipótesis de trabajo que cuanto más alta es

la clase social es mayor y más variado el tiempo libre, y que el tiempo libre de las

mujeres es contaminado o interrumpido por responsabilidades familiares o tareas

domésticas que pueden incluso ser realizadas simultáneamente a la actividad de

ocio.

A continuación se presenta como ejemplo, el análisis realizado para una de las

variables de interés de la investigación que fue la frecuencia de uso de Internet

como una actividad de tiempo libre. Así, la primera hipótesis de trabajo,

planteaba: “Se espera una mayor frecuencia de uso en cuanto más alta sea la

clase social.”

VD: Frecuencia de uso de Internet en el tiempo libre

Nivel de medición: Ordinal

VI: Clase Social


Tamaño de la Tabla: 3x4

Grados de Libertad (gl): 6

13 Proyecto UBACyT de la programación 2010-2012, dirigido por la Dra. Gabriela Gómez Rojas, con sede en el Instituto de Investigaciones Gino Germani de la UBA.

21

Tipo de hipótesis: Diagonal o lineal

En primer lugar se realizó la prueba de Ji Cuadrado para contrastar la hipótesis

nula que plantearía que no existe relación entre la frecuencia de uso de internet y

la clase social. Se eligió trabajar con un nivel de confianza del 95% (que es lo

mismo que decir un nivel de significación de 0.05).

Al buscar en la tabla de Ji Cuadrado, el valor teórico correspondiente a 0.05 de

significación para 6 grados de libertad es de 12.592. Dado que el valor empírico de

Ji cuadrado que arroja la prueba -como se observa en la tabla a continuación

producida con el SPSS- es mayor al valor teórico (regla de decisión: Xe 121,839 >

Xt 12,592), puede entonces rechazarse con un 95% de confianza la hipótesis nula

que plantea que no hay asociación entre las variables, y por lo tanto la hipótesis

de trabajo resulta significativa estadísticamente, lo que quiere decir que en el

universo de estudio, la relación entre las variables también estaría ocurriendo15.

Por otro lado, en la tabla a continuación también puede observarse que bajo la

columna “Sig. Asintótica” se encuentra lo que conocemos como p-valor o

significancia exacta. Dado que en este caso es prácticamente cero, podría

también haberse rechazado la hipótesis nula a un nivel de confianza superior al

99% (regla de decisión: α= 0.05 > p valor= 0.00).

Ambos métodos siempre conducen al mismo resultado del test. Sólo que el

método del p-valor permite conocer la significancia exacta. Esto no implica no

definir siempre a priori cuál es el valor de significancia α con el que se va a

trabajar.

Pruebas de chi-cuadrado

Valor gl

Sig. asintótica

(2 colas)

Chi-cuadrado de Pearson 121,839 6 ,000

Razón de verosimilitud 133,179 6 ,000

Asociación lineal por

lineal

107,252 1 ,000

N de casos válidos 625

Más allá de la significancia estadística hallada, se procedió luego a analizar el

coeficiente de asociación correspondiente para conocer la fuerza y sentido de la

15 Cabe aclarar que la prueba de Ji cuadrado no mide magnitudes. La relación es o no es significativa para el nivel de confianza dado. No es relevante por cuanto supera el valor de Ji empírico al teórico.

22

relación. Al ser dos variables ordinales en una tabla de más de 2 x 2, para

hipótesis diagonal o lineal el coeficiente que correspondiente es el Tau-b.

Coeficientes de Asociación

Valor

Error estándar

asintótico Aprox. S Aprox. Sig.

Nominal por Nominal Phi ,442 ,000

V de Cramer ,312 ,000

Ordinal por ordinal Tau-b de Kendall ,391 ,028 13,119 ,000

Gamma ,639 ,043 13,119 ,000


En primer lugar el signo positivo del coeficiente indica que la relación se da en el

sentido planteado en la hipótesis, ambas variables se comportan en la misma

dirección (cuando una aumenta, la otra también lo hace, y viceversa).

En cuanto a la magnitud, observamos que es de 0.391. Si bien se aleja del cero

que indica la no asociación, para poder analizar la fuerza de esta magnitud,

debemos hacerlo de modo comparativo, luego de analizar el comportamiento del

fenómeno ante otras variables independientes.

Por último, realizaremos la lectura porcentual, presentada en la siguiente tabla de

contingencia, en la cual, para poder realizar correctamente la lectura, los

porcentajes fueron calculados en el sentido de la variable independiente (clase

social).

Frecuencia de tiempo libre en Internet por Clase Entrevistado. PEA, de 20 a 69 años. Total País, 2007.

% dentro de Clase Entrevistado

Clase Entrevistado

Total

I-III:

Trabajadores

de cuello

blanco

IV: Pequeña

burguesía

V+VI:

Trabajadores

calificados

VII:

Trabajadores

no calificados

Frecuencia de

actividades de

tiempo libre:

Pasar tiempo en

Internet

Hasta Semanal 43% 17% 7% 5% 25%

Mensual o

inferior 17% 12% 13% 5% 13%

Nunca 40% 71% 80% 90% 62%

Total 100% 100% 100% 100% 100%

288 146 61 130 625

Fuente: International Social Survey Program, ISSP, relevada a nivel nacional en el año 2007 por el CEDOP.

23

A partir de la lectura porcentual, podemos observar la tendencia decreciente en la

frecuencia de uso a medida que se desciende en la clase social.

La diferencia porcentual observada entre la frecuencia “hasta semanal” entre los

Trabajadores de Cuello Blanco (43%) y entre los Trabajadores no calificados (5%)

es de un 38%. También resulta interesante que al pasar de Trabajadores de

Cuello Blanco, al segmento inmediatamente inferior –Pequeña Burguesía (17%)-,

la diferencia porcentual es de 25 puntos porcentuales y ésta sólo es de a 10

puntos entre esta última y los Trabajadores Calificados (17% vs. 7%).

Es decir que la herramienta de las diferencias porcentuales no limita como muchas

veces aparece el análisis a la comparación entre categorías extremas, sino que

justamente su riqueza consiste en poder analizar pormenorizadamente lo que

ocurre en y entre los distintos espacios de propiedades generados en la tabla de

contingencia.

De igual modo, puede analizarse que en la categoría intermedia de frecuencia

mensual o inferior, el descenso más pronunciado se observa entre las dos clases

inferiores (8 puntos porcentuales entre 13% y 5%), manteniéndose en un rango

similar los porcentajes para las clases intermedias.

Al analizar el comportamiento de las clases para la categoría Nunca, casi en

espejo a lo observado para la mayor frecuencia de uso, se produce un quiebre

más marcado entre los Trabajadores de Cuello Blanco y la Pequeña Burguesía.

Entre los primeros sólo representan al 40%, mientras que para los segundos este

porcentaje asciende a 71%, presentando una diferencia porcentual de 31 puntos

porcentuales. Se registra una tendencia ascendente de aproximadamente 10% en

cada pasaje hacia las siguientes categorías.

La segunda hipótesis de trabajo, plantea la relación entre la misma variable

analizada en el caso anterior, pero en función del género, dado que se espera

como ya se mencionó en el planteo general, que “las mujeres presentan una

frecuencia de uso mensual o inferior, o nunca, mientras que los hombres utilizan

Internet en su tiempo libre de manera semanal o con mayor frecuencia.”



VI: Género

Nivel de medición: Nominal



24


Al igual que lo planteado para la relación anterior, realizamos la prueba Ji

Cuadrado, para conocer cuál es el contexto en el que nos encontramos

(significación estadística o no). En este caso, al comparar el valor del Xe=0.937

contra el teórico Xt=5.991 –correspondiente a 95% de confianza y 2 grados de

libertad-, concluimos que no puede rechazarse la hipótesis nula que plantea que

no hay relación entre el género y el uso de internet en el tiempo libre, por lo cual

no podemos descartar la independencia estadística a nivel poblacional. Si

rechazáramos la hipótesis nula correríamos un riesgo del 62,6% de equivocarnos

al tomar esa decisión, como indica el p-valor, (nivel de confianza de 41,4%), por lo

cual al superar el nivel de riesgo o significancia establecido en este caso (5%).

Vemos nuevamente que por el método del p-valor, tampoco podemos rechazar la

hipótesis nula –y por tanto, aceptar la de trabajo-, para el nivel de confianza

establecido.


Valor gl

Sig. asintótica

(2 colas)

Chi-cuadrado de Pearson ,937 2 ,626

Razón de verosimilitud ,942 2 ,625


lineal ,181

1 ,670


Igualmente, dado que la independencia estadística no implica que la relación no

pueda ser relevante teóricamente, se procedió con el análisis de fuerza y sentido a

través del coeficiente de asociación V de Cramer, correspondiente al cuadro e

hipótesis planteado (ordinal/nominal, más de 2x2, hipótesis diagonal). En este

caso, al ser una de las variables de nivel de medición nominal, el signo del

coeficiente no nos brinda información respecto del sentido de la relación (dado que

no hay una necesariedad lógica en el orden de las categorías en la tabla). Esto lo

analizaremos a partir de la lectura porcentual.

Como se mencionó, luego se compararán los coeficientes de las distintas

relaciones para poder dimensionar la fuerza. En este caso podemos adelantar que

por el valor del V de Cramer de 0.039, matemáticamente muy próximo al valor

cero se encuentra muy cerca de la independencia estadística.

25


Valor

Error estándar

asintótico Aprox. S Aprox. Sig.

Nominal por Nominal Phi ,039 ,626


Ordinal por ordinal Tau-b de Kendall -,012 ,039 -,316 ,752

Gamma -,024 ,076 -,316 ,752


Por último, el análisis de porcentajes, nos muestra que un cuarto de la muestra

presenta una alta frecuencia de uso de internet, y esta proporción prácticamente

se mantiene en el mismo nivel en ambos grupos (24% entre los hombres y 27%

entre las mujeres), con una diferencia sólo de 3% entre ellos. Al analizar lo que

ocurre con la categoría nunca, la diferencia entre hombres y mujeres, es aún

menor, sólo del 1%, siguiendo ambos grupos una distribución prácticamente

idéntica a la del total de la muestra. Estas diferencias porcentuales próximas a 0%,

nos indican también, en línea a lo observado en la prueba de ji cuadrado y al valor

del coeficiente V de Cramer, que no habría relación entre estas variables. El

comportamiento de la variable dependiente, no se modifica ante los distintos

géneros.

Frecuencia de tiempo libre en Internet por Género. PEA, de 20 a 69 años. Total País, 2007.

% dentro de Género

Género

Total Hombre Mujer

Frecuencia de actividades

de tiempo libre: Pasar

tiempo en Internet

Hasta Semanal 24% 27% 25%

Mensual o inferior 14% 12% 13%

Nunca 62% 61% 62%

Total 100% 100% 100%

387 238 625


Al avanzar en el análisis, y al observar que en este caso el género no resultaba

una variable relevante para el caso del uso de Internet en el tiempo libre, se

plantea desde los distintos abordajes teóricos sobre Tecnologías de Información y

Comunicación (TICs), que para este tipo de consumo cultural/uso del tiempo libre,

la franja etaria resulta una variable relevante a considerar.

26

Es por esto que se planteó una tercera hipótesis que plantea que “la frecuencia

de uso de internet está influida por la edad de manera tal que entre los de menor

edad la frecuencia de uso es mayor que entre los de más edad”.



VI: Tramo de Edad

Nivel de medición: Intervalar




Siguiendo la misma secuencia que para las relaciones anteriores, se realizó la

prueba de Ji Cuadrado, definida a un 95% de confianza. Al igual que en el primer

caso, el tamaño de la tabla define 6 grados de libertad, el valor de Ji empírico

(17.654) supera al teórico, 12.592. Haciendo el análisis a partir del p-valor,

comprobamos que puede rechazarse la hipótesis nula con una confianza del

99.3%, por lo cual podemos descartar para ese nivel la independencia estadística.


Valor gl

Sig. asintótica

(2 colas)

Chi-cuadrado de Pearson 17,654 6 ,007

Razón de verosimilitud 19,064 6 ,004


lineal 10,074

1 ,002


El coeficiente adecuado para el nivel de medición de las variables, el tipo de

hipótesis y el tamaño de la tabla es el Tau-b, que en este caso confirma el sentido

positivo planteado en la hipótesis y tiene un valor de 0.118.

Si bien como se mencionó el análisis de correlación es la técnica específica para

variables de nivel de medición intervalar, y también existen otras técnicas como el

análisis de varianza (ANOVA) para las relaciones entre variables categóricas e

intervalares, las variables intervalares agrupadas, al utilizarse en tablas de

contingencia, también pueden ser analizadas con análisis de asociación.

27


Valor

Error estándar

asintóticoa Aprox. Sb Aprox. Sig.

Nominal por Nominal Phi -,168 ,007


Ordinal por ordinal Tau-b de Kendall -,118 ,035 3,381 ,001

Gamma -,192 ,056 3,381 ,001


Finalmente, al realizar la lectura porcentual, se destaca entre los del tramo de

edad superior una mayor proporción de quienes nunca usan, alcanzando un 79%,

con una diferencia porcentual de 19% contra la categoría inmediatamente inferior,

y alcanzando los 24 puntos porcentuales de diferencia al comprar con los más

jóvenes.

Al analizar la frecuencia de uso hasta semanal, y mensual o menos, se observan

comportamientos similares entre los tres primeros tramos, produciéndose el

descenso marcado también al pasar a la categoría de 55 a 69 años, entre quienes

solo un 16% presenta frecuencia semanal o mayor, con una diferencia de 9% en

comparación con los de 40 a 54 años, y de 14 puntos con respecto a los más

jóvenes.

Frecuencia de tiempo libre en Internet por Tramos de Edad. PEA, de 20 a 69 años. Total País, 2007.

% dentro de Tramos de Edad

Tramos de Edad

Total

20 a 29

años

30 a 39

años

40 a 54

años

55 a 69

años

Frecuencia de

actividades de

tiempo libre: Pasar

tiempo en Internet

Nunca 55% 57% 60% 79% 62%

Mensual o

inferior 15% 14% 15% 5% 13%

Hasta Semanal 30% 29% 25% 16% 25%

Total 100% 100% 100% 100% 100%

82 185 246 112 625


En conclusión, podemos decir que la variable que presenta mayor fuerza de

asociación con la frecuencia de uso de internet en el tiempo libre, es la clase. Su

28

Tau-b era de 0.39 mientras que para edad este coeficiente es inferior (0.118). En

estos casos en particular, los coeficientes fueron directamente comparados dado

que coincidían por el tipo de hipótesis, el tamaño de los cuadros y el tipo de

variables con el que se trabajo. Sin embargo, para la variable independiente sexo,

el coeficiente que habíamos utilizado fue V de Cramer. Para comparar la fuerza de

ésta variable independiente en relación a las otras con las que hemos trabajado

(Edad y Clase Social) es necesario seleccionar un tipo de coeficiente que sea

aplicable a las tres hipótesis planteadas. En dicho caso deberíamos realizar una

comparación a partir de V de Cramer por tener un menor nivel de exigencia. Bajo

estas condiciones el coeficiente asume un valor de 0.312 para la variable

independiente clase social, 0.039 para la variable independiente sexo y un valor

de 0.119 para la variable independiente edad. Podemos afirmar que dentro de las

variables independientes seleccionadas, la variable clase social presenta mayor

fuerza de asociación con la frecuencia de uso de internet en el tiempo libre.

29

6. Referencias bibliográficas

Aguilar, M., Alonso, C., Kleidermacher, G. y Vázquez, N. (2013) Elaboración y

análisis de distintos tipos de cuadros. Cuaderno de Cátedra Nº 3 (mimeo).

Baranger, D. (1999) Construcción y Análisis de Datos. Introducción al uso de

Técnicas Cuantitativas en la Investigación Social. Posadas: Editorial Universitaria

de la Universidad Nacional de Misiones.

Barton, A. H. (1973) “Concepto de Espacio de atributos en Sociología”. En

Boudon, R. y Lazarsfeld, P. Metodología de las Ciencias Sociales. Tomo I.

Barcelona: Ed. Laia.

Blalock, H. (1986) Estadística social. México: Fondo de Cultura Económica.

Cohen, N. (1997) “La teoría y el método en la investigación social: el discurso y la

práctica”. En Luxemburg - Revista de sociología, año 1 N° 2. Buenos Aires.

Cohen, N. y Gómez Rojas, G. (2003): “Los objetivos, el marco conceptual y la

estrategia teórico-metodológica triangulando en torno al problema de

investigación”. En Lago Martínez, G. Gómez Rojas y M. Mauro (coord.) En torno

de las metodologías: abordajes cualitativos y cuantitativos. Buenos Aires: Proa

XXI.

García Ferrando, M. (1995) Socioestadística. Introducción a la estadística en

Sociología. Madrid: Alianza Universidad Textos.

Marradi, A.; Archenti, N. y Piovani, J. (2010) Metodología de las Ciencias Sociales.

Buenos Aires: Cengage Learning.

Roales Riesgo, M. (comp.) (1999) Claves de la Estadística Descriptiva e

Inferencial: Análisis Bivariado y Multivariado. Buenos Aires: Centro de Estudiantes

de Ciencias Sociales UBA.

Sautu, R. (2003) Todo es Teoría. Objetivos y Métodos de Investigación. Buenos

Aires: Editorial Lumiere.

Zeisel, H. (1974) Dígalo con números. Buenos Aires: Fondo de Cultura

Económica.

CARRERA DE SOCIOLOGÍA UBA METODOLOGÍA DE LA …metodologiadelainvestigacion.sociales.uba.ar/wp-content/uploads/sit… · metodológico de investigación. Los objetivos, en tanto

Documents