Top Banner
1 25 UBA Sociales ANIVERSARIO 1988 2013 FACULTAD DE CIENCIAS SOCIALES CARRERA DE SOCIOLOGÍA UBA METODOLOGÍA DE LA INVESTIGACIÓN CÁTEDRA: COHEN CUADERNO DE CÁTEDRA Nº 5 “Análisis Descriptivo de los Datos” Autores: Rebeca Cena, Marcela Grinszpun y Gonzalo Seid
29

CARRERA DE SOCIOLOGÍA UBA METODOLOGÍA DE LA …metodologiadelainvestigacion.sociales.uba.ar/wp-content/uploads/sit… · metodológico de investigación. Los objetivos, en tanto

Feb 04, 2021

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • 1

    25 UBA Sociales ANIVERSARIO 1988 – 2013 FACULTAD DE CIENCIAS SOCIALES

    CARRERA DE SOCIOLOGÍA – UBA

    METODOLOGÍA DE LA INVESTIGACIÓN

    CÁTEDRA: COHEN

    CUADERNO DE CÁTEDRA Nº 5

    “Análisis Descriptivo de los Datos”

    Autores: Rebeca Cena, Marcela Grinszpun y Gonzalo Seid

  • 2

    Cuaderno de cátedra Nº 5

    “Análisis Descriptivo de los Datos”

    Autores: Rebeca Cena, Marcela Grinszpun y Gonzalo Seid

    1. Introducción

    En este Cuaderno de Cátedra se presentarán algunas nociones elementales de

    análisis descriptivo de datos producidos con un enfoque cuantitativo. Si bien en

    algunos manuales de metodología de la investigación y estadística social la

    denominación “estadística descriptiva” alude al análisis univariado, el presente

    documento se referirá al análisis que vincula variables entre sí, advirtiendo que

    para cumplir cabalmente objetivos descriptivos no es suficiente con conocer la

    distribución de cada variable por separado, sino que se requiere complejizar el

    análisis introduciéndose en las relaciones entre variables1. Este Cuaderno de

    Cátedra se concentrará en la etapa de análisis cuantitativo de datos organizados

    en tablas, para objetivos descriptivos, de relaciones bivariadas de cualquier nivel

    de medición.

    En primer lugar, se presentará un marco general del análisis descriptivo en

    investigaciones con abordajes cuantitativos, de modo tal de situar el tema de este

    trabajo en el proceso general de investigación social. En los siguientes apartados

    se presentarán la prueba de hipótesis de ji cuadrado, los coeficientes de

    asociación y la lectura de porcentajes, en tanto herramientas cuyo uso conjunto

    permite aprovechar su complementariedad.

    El Cuaderno de Cátedra Nº 3 “Elaboración y análisis de distintos tipos de cuadros”

    profundiza el proceso de elaboración e interpretación de cuadros, por lo cual se

    recomienda su lectura previa. El Cuaderno Nº 1 “La aplicación de técnicas

    multivariadas en Ciencias Sociales” avanza sobre el análisis de más de dos

    variables simultáneamente, desarrollando contenidos necesarios para comprender

    cómo extender al análisis multivariado las herramientas desarrolladas en el

    presente cuaderno.

    En el anexo del Cuaderno, se presenta el desarrollo de un ejemplo de aplicación

    de las herramientas desarrolladas a continuación.

    1 El análisis descriptivo requiere del estudio de las relaciones entre variables, dado que el análisis de cada variable por separado no es suficiente a tal fin. Complementariamente con ello, el análisis de las relaciones entre dos variables no implica alcanzar una explicación del fenómeno en estudio. Para tal fin se requiere emprender un análisis multivariado. Ver cuaderno de cátedra número 1.

  • 3

    2. Análisis descriptivo de datos cuantitativos

    Un proceso de producción de conocimiento puede tener distintos tipos de

    objetivos, de acuerdo con los cuales se elaborará un adecuado desarrollo

    metodológico de investigación. Los objetivos, en tanto metas que orientan el

    avance de una investigación, permiten llevar a cabo la producción de los datos

    adecuados para intentar responder a los interrogantes que dieron origen al

    proceso (Cohen y Gómez Rojas, 2003). Los objetivos de tipo descriptivo implican

    que la meta consiste en llegar a representar el objeto de estudio, delineando sus

    principales características, refiriendo sus componentes y dando cuenta del

    comportamiento de algunos de sus atributos y relaciones más relevantes. El

    aspecto principal de la descripción para la producción de conocimiento científico

    reside en poder establecer vínculos entre conceptos.

    Los datos, a pesar de su origen etimológico (del latín datum, lo dado), son

    construidos siempre desde una perspectiva teórica, para responder a una

    determinada problemática, mediante la aplicación de técnicas y procedimientos

    que también implican supuestos teóricos. Puede advertirse que expresiones tales

    como “recolección de datos” poseen connotaciones que pueden contribuir al error

    de pensar los datos sólo en su contenido informativo, olvidando que el mismo

    resulta inseparable de la elaboración conceptual y operativa del investigador.

    Una vez realizada la etapa de relevamiento, cuando se trabaja con un abordaje

    cuantitativo, se elabora una matriz que clasifica cada caso según el valor que

    asume en cada variable, constituyéndose una estructura tripartita de los datos

    (Galtung, 1973). Esta matriz de datos contiene de manera desagregada toda la

    información que ha sido registrada en la etapa de trabajo de campo y a partir de la

    cual será posible pasar a la etapa del análisis de los datos. Las variables de una

    matriz de datos, cabe destacar, no son sino aquellos conceptos que se ha

    decidido que debían ser considerados en el relevamiento a partir de los

    interrogantes, los objetivos, las hipótesis y el marco teórico de la investigación.

    La matriz vuelve visible la estructura tripartita de los datos -unidades de análisis,

    variables y categorías-, lo que resulta ventajoso puesto que “poniendo diferentes

    referentes del mismo tipo en sus filas y la misma secuencia de propiedades en sus

    columnas, permite relacionar rápida y sistemáticamente un sinnúmero de estados

    de los mismos objetos/sujetos en distintas propiedades, controlando así si existe

    una relación cualquiera entre esas propiedades” (Marradi, Archenti y Piovani,

    2010: 5). Esta ventaja tiene como contracara un costo semántico, derivado del

    supuesto atomista, que implica asumir que cada caso puede descomponerse en

    propiedades, que los estados en una propiedad pueden separarse de su

  • 4

    detentador y que los datos con el mismo valor en la misma variable son

    asimilables entre ellos (Op.cit., pp.5-6).

    De cualquier manera, con la matriz por sí sola no es posible avanzar en el análisis.

    Es necesario retomar los interrogantes, objetivos e hipótesis para determinar qué

    es lo que ha de analizarse. Es necesario decidir cuáles son las variables de

    estudio cuyo comportamiento merece ser observado individualmente por presentar

    interés en sí mismo y cuáles variables interesan para ser observadas en su

    relación con otras. En este último caso, el hecho de que haya relaciones entre

    variables que se consideren relevantes para analizar obedece a la existencia de

    hipótesis, es decir, supuestos acerca de los posibles vínculos entre conceptos

    susceptibles de ser confrontados con los datos.

    Para comenzar a describir cuantitativamente una población, pueden emplearse

    análisis univariados, es decir, del comportamiento de cada una de las variables de

    interés por separado, mediante distribuciones de frecuencias absolutas, relativas y

    acumuladas, gráficos, medidas de tendencia central, de posición y de dispersión,

    como un primer modo de analizar y caracterizar los casos con los que contamos

    en un proceso de investigación. Por ejemplo, cuando las unidades de análisis son

    personas puede ser interesante describir la distribución de los casos según

    variables sociodemográficas como sexo, edad, lugar de residencia, estado civil,

    máximo nivel educativo alcanzado, etc. También puede ser relevante observar el

    comportamiento de las variables de estudio, aquellas en las que se enfoquen las

    preguntas y objetivos, y que en los análisis bivariados frecuentemente pasarán a

    ser las variables dependientes, cuya variación se procurará comprender. El

    análisis univariado brinda, entonces, un panorama introductorio sobre cómo se

    comportan los fenómenos, a partir de la descripción de las distribuciones de cada

    variable por separado. Es a partir del análisis bivariado que se vuelve posible

    describir las relaciones entre variables del fenómeno en estudio.

    Cuando se decide qué es relevante observar de la relación entre dos o más

    variables es porque se ha propuesto una hipótesis de trabajo. Si bien estas

    hipótesis surgen de nuestro enfoque teórico, a lo largo del proceso de

    investigación puede que surjan otras, producto del avance de nuestro

    conocimiento en la problemática. En el proceso de construcción de las tablas que

    concentran nuestros datos es donde nuestras hipótesis comienzan a verse

    reflejadas. Si bien su contrastación permite avanzar en la producción de

    conocimiento, generalmente no agotan en sí mismas los objetivos de

    investigación, sino que es el conjunto de estas hipótesis de trabajo, contrastadas

    en las tablas que se producen, con la articulación teórica y la ilación lógica que le

  • 5

    confieren quienes investigan, lo que puede dar respuesta a los interrogantes y

    cumplir los objetivos.

    Las hipótesis, constituidas por relaciones entre conceptos del marco teórico,

    permiten vincular este universo conceptual con los datos. Los datos son producto

    de un proceso teórico de construcción y sólo desde la teoría pueden ser

    interpretados, siendo las hipótesis las mediaciones imprescindibles que expresan

    lo que desde la teoría se espera que ocurra con los datos producidos. En el

    momento de planear el análisis, el protagonismo lo tienen las hipótesis, que

    permiten avanzar en el procesamiento para obtener las tabulaciones previstas a

    fin de cumplir los objetivos y responder los interrogantes. Se deben determinar las

    variables que deben ser relacionadas y, preferentemente, tener en claro de qué

    modo se espera que se vinculen las categorías de las variables entre sí. El tipo de

    hipótesis, el nivel de medición de las variables, los roles que cumplen las variables

    en la hipótesis, la cantidad de casos con que se trabaje y la cantidad de categorías

    de las variables -y su posible reagrupamiento en otros sistemas de categorías- son

    todos aspectos que entran en juego en las posibilidades y restricciones de

    tratamiento estadístico de los datos.

    El plan de análisis2 implica una labor de previsión y reflexión sobre las estrategias

    de análisis y el detalle de procedimientos que deben llevarse a cabo para cumplir

    los objetivos. El plan de análisis cuantitativo contiene un plan de cuadros, esto es,

    las decisiones relativas a todas las tablas que se confeccionarán, formalizando las

    hipótesis que se tengan, en torno a las cuales se han de interpretar los datos

    producidos. Cada tabla que se elaborará tiene su razón de ser en que hay un

    supuesto teórico acerca de lo que ocurrirá con los datos. Si en lugar de darle

    formato de procesamiento a las hipótesis se procediera observando todos los

    cruces posibles de variables, esta sería una tarea no sólo innecesaria y engorrosa,

    sino ante todo carente de relevancia teórica, que tendría como resultado datos

    desconectados de la teoría, que por sí solos no pueden constituir un avance en la

    producción de conocimiento científico.

    Una vez que se ha procesado y tabulado los datos según el plan de análisis, se

    está en condiciones de avanzar en el análisis para cumplir los objetivos. “La

    producción de evidencia empírica es una condición necesaria pero no suficiente

    para llevar a cabo una investigación; los datos construidos u obtenidos deben ser

    2 El plan de análisis expresa aquellos supuestos que nos hemos planteado respecto a las maneras en que las variables van a comportarse en función de las vinculaciones que establezcamos a partir de cómo esperamos que se conecten sus categorías. Esto es, en función de las hipótesis de trabajo que nos hayamos propuesto tendremos como resultado un determinado plan de análisis que expresará luego la manera en que se presentarán en los cuadros nuestras variables.

  • 6

    analizados a la luz de la teoría que guía y da sustento al estudio” (Sautu, 2010:

    128). Tanto la producción de datos como las decisiones relativas al análisis deben

    entenderse en el marco de lo que constituye una estrategia teórico-metodológica

    de contrastación del universo de conceptos con el fenómeno de estudio, para la

    resolución de los problemas de investigación que se plantean desde una

    perspectiva teórica con determinado estado de conocimiento acumulado (Cohen,

    1997).

    Cuando se trabaja con abordajes cuantitativos, se utilizan habitualmente

    herramientas estadísticas para el análisis, pero es necesario no asimilar por

    completo análisis cuantitativo y análisis estadístico. “No hay nada más técnico (en

    el sentido de conocimiento objetivado, impersonal, basado en procedimientos

    normados, recurrentemente aplicables y ampliamente aceptados) en la

    investigación estándar que sus herramientas de análisis (estadístico) (…) Esto no

    significa que las técnicas estadísticas resuelvan por sí solas los múltiples y

    complejos aspectos que encierra la mediación entre un conjunto de informaciones

    empíricamente construidas y algún tipo de interpretación de éstas” (Marradi,

    Archenti y Piovani, 2010: 264). En el mismo sentido, Blalock (1986) recuerda que

    la estadística no comprende problemas como los de medición, sino que las

    consideraciones estadísticas intervienen en decisiones relativas a la construcción

    de la muestra y a la manipulación de cifras, dando por supuesto el cumplimiento

    de requisitos en la medición. El hecho de que la estadística sólo intervenga en

    algunas decisiones técnicas del muestreo y análisis no debe entenderse como si

    el investigador pudiera llevar a cabo su trabajo sin conocimiento de estadística y

    delegar en un especialista el análisis estadístico, sino que los problemas del

    análisis han de anticiparse, influyendo las consideraciones estadísticas a lo largo

    de todo el proceso de investigación. Teoría, metodología y técnicas deben

    articularse reflexivamente, atendiendo a la coherencia y ejerciendo vigilancia

    epistemológica.

    El clásico concepto de espacio de propiedades, desarrollado por Barton (1973),

    resulta elemental para aprehender los fundamentos de la metodología cuantitativa

    y el recurso a las técnicas estadísticas. Pensar en términos de un espacio de

    propiedades significa que las celdas que devienen de la combinación de dos o

    más atributos pueden comprenderse de manera análoga a los puntos establecidos

    a partir de un sistema de coordenadas. Cada espacio de propiedades clasifica un

    subconjunto de casos que presentan simultáneamente las dos o más propiedades

    cuya combinación genera el espacio. A partir de la distribución de los casos en los

    espacios de propiedades, con el auxilio del cálculo de porcentajes, es posible

    examinar las relaciones entre variables mediante una lectura comparativa de las

    frecuencias.

  • 7

    3. Tres recursos para el análisis de relaciones entre variables

    Siguiendo a García Ferrando (1995: 218), se puede caracterizar la relación entre

    dos variables según la existencia de asociación, la fuerza, la dirección y la

    naturaleza de la misma.

    La existencia de asociación implica que la distribución de una variable difiere de

    algún modo entre las categorías de la segunda variable, alejándose de la

    independencia estadística3, lo cual puede determinarse a partir del análisis de

    diferencias porcentuales y de la comparación de las frecuencias esperadas con las

    observadas, mediante la prueba de hipótesis de ji cuadrado, esta última para los

    casos en que se trabaje con muestras probabilísticas.

    El grado o fuerza de la asociación varía según cuánto se aleje la relación de la

    independencia estadística. Como las diferencias porcentuales y la comparación

    entre frecuencias observadas y esperadas no varían de una forma

    predeterminada, se han establecido algunos coeficientes estandarizados, que

    varían de forma fija entre un valor mínimo –cero- y un máximo –uno-, facilitando su

    interpretación. Estos coeficientes permiten conocer también, cuando las variables

    son como mínimo de nivel de medición ordinal, la dirección de la asociación, que

    puede ser positiva, cuando los valores altos de una variable se corresponden con

    los valores altos de la otra -y los valores bajos con los valores bajos-, o negativa, -

    cuando los valores altos de una variable se corresponden con los bajos de la

    segunda -y viceversa-4.

    Por último, la naturaleza es la forma general en que se distribuyen los datos en un

    cuadro, que puede ser lineal o diagonal, curvilineal o rinconal e irregular; esta

    última forma sólo puede ser examinada mediante la lectura analítica del cuadro, ya

    que las medidas resumen de asociación no permiten medirla sino que la

    presuponen en las operaciones que realizan para calcular la fuerza.

    Siguiendo esta lógica, un primer paso en el análisis de los datos5 en función de

    una hipótesis puede darse mediante el test de significación estadística de ji

    cuadrado (χ2) que permite establecer si existe relación estadísticamente

    significativa entre las variables o si hay independencia estadística. El ji cuadrado

    3 Entendida como la inexistencia de relación entre las variables analizadas. Ello refiere a que cualquiera sea el valor que asuma una variable en estudio A, la variable B se mantendrá constante. 4 Es importante aclarar que en las asociaciones observadas para variables de nivel de medición nominal, éstas también poseen un sentido en cuanto a su relación, pero este no puede interpretarse a partir de un signo positivo o negativo, sino que se hace observable a partir del modo en que se distribuyen las frecuencias al interior de la tabla. 5 Si bien en este artículo hemos propuesto una secuencia de estas herramientas no implican en sí mismas un orden ni jerarquía preestablecida.

  • 8

    nos permite testear si las relaciones entre las variables e hipótesis observadas en

    una muestra probabilística puede ser extrapolada al universo con un determinado

    nivel de confianza. Esta prueba de hipótesis define el escenario estadístico en que

    se trabaja, por eso constituye un buen primer paso en el análisis.

    Queda definido así el contexto respecto a la existencia o no de una relación

    estadísticamente significativa, e independientemente del resultado del test6, es

    posible contar con un panorama de la fuerza y el sentido de la relación entre

    variables mediante coeficientes de asociación, los cuales son medidas resúmenes

    estandarizadas que permiten conocer grosso modo qué ocurre con una relación

    entre variables. En una única medida se sintetiza la intensidad de la relación y, en

    algunas de ellas, permite conocer también el sentido. Este sentido o dirección de

    la relación puede ser positivo -cuando ambas variables crecen o decrecen

    conjuntamente- o negativo -cuando una crece mientras la otra decrece- cuyo nivel

    de medición es ordinal o mayor.

    Con la prueba de hipótesis y los coeficientes de asociación ya se cuenta con una

    primera aproximación global y sintética de la relación estudiada. Con la lectura

    analítica de porcentajes es posible conocer en detalle cómo se distribuyen las

    unidades de análisis en los espacios de propiedades generados por la tabulación

    cruzada de variables de cualquier nivel de medición. Dado que en la mayoría de

    los casos las covariaciones no son perfectas ni lineales, la lectura de porcentajes

    permite analizar las particularidades de cada cuadro con respecto a la forma de

    distribución de unidades de análisis en los espacios de propiedad, visualizando,

    por ejemplo, de qué modo una hipótesis puede tender a corroborarse

    parcialmente, en distinta medida para algunas categorías de la variable

    dependiente que para otras.

    En lo que sigue, se presentará cada una de estas tres herramientas de análisis

    descriptivo de relaciones bivariadas: ji cuadrado, coeficientes de asociación y

    lectura de porcentajes. Este conjunto de recursos usados en combinación

    permiten realizar un análisis exhaustivo de lo que ocurre en los datos para cada

    hipótesis de trabajo, complementando la información global que proporcionan la

    prueba de hipótesis y los coeficientes con la lectura desagregada de las

    distribuciones porcentuales en los espacios.

    6 Cabe destacar que si en una investigación las relaciones entre variables observadas no pueden ser extrapolables al universo –no son estadísticamente significativas-, pueden igualmente ser teóricamente relevantes para la población a partir de la cual se han construido los datos.

  • 9

    Ji cuadrado como prueba de significación estadística

    Cuando dos variables están relacionadas varían conjuntamente en algún grado,

    existiendo covariación o varianza en común. Cuando la covariación o varianza en

    conjunto de ambas variables alcanza su nivel máximo -en que toda la varianza de

    una variable coincide con la varianza de otra- existe una asociación perfecta. Por

    la complejidad y multicausalidad del mundo social, no es habitual en ciencias

    sociales encontrar asociaciones perfectas entre variables. De hecho, cuando se

    constata una asociación perfecta, es necesario dilucidar por qué ocurre,

    contemplando la posibilidad de que se trate, por ejemplo, de dos indicadores de un

    mismo concepto.

    No obstante, la asociación perfecta es muy útil en tanto situación extrema con la

    cual confrontar los datos con que se dispone en una tabla bivariada. Cuando hay

    asociación perfecta cada categoría de una variable se encuentra asociada con una

    sola categoría de la otra. En una tabla, los casos se concentran en la diagonal y el

    resto de los espacios de propiedades tendrán cero casos, con lo cual las

    diferencias porcentuales serán del 100%. El caso opuesto a la asociación perfecta

    es el de independencia estadística, en que no hay ninguna covariación entre las

    variables, de modo tal que los casos se distribuyen en la tabla bivariada al igual

    que lo harían en una distribución univariable, con lo cual las diferencias

    porcentuales serán de 0%.

    El test de ji cuadrado nos permite saber si la relación observada entre

    determinadas variables en nuestra muestra puede ser inferible, bajo determinados

    niveles de confianza, al universo de estudio. Para ello pone en relación la hipótesis

    nula con la hipótesis de trabajo. Una hipótesis nula es una hipótesis que afirma la

    independencia estadística, es decir, la ausencia de asociación entre variables, lo

    contrario a lo que afirma la hipótesis de trabajo7. Cuando se trabaja con muestras

    aleatorias el test de hipótesis de ji cuadrado8 permite decidir si puede rechazarse

    la hipótesis nula para un nivel de confianza dado. Si se rechaza la hipótesis nula,

    se está descartando, asumiendo determinado riesgo, que se trate de una situación

    de independencia estadística y se está aceptando que hay alguna asociación

    estadística entre las variables de la hipótesis de trabajo, con determinado nivel de

    confianza. No rechazar la hipótesis nula implica que la hipótesis de trabajo no es

    7 Ambas hipótesis se excluyen mutuamente: el rechazo de la hipótesis nula implica que puede aceptarse, con determinados niveles de confianza, la hipótesis de trabajo. En este caso, lo que rechazamos es la hipótesis de independencia estadística y por tanto, implica que la relación entre las variables observadas en la muestra es inferible al universo en estudio. El no rechazo de la hipótesis nula a cierto nivel de confianza, implica que no puede afirmarse que esa relación ocurra también en el universo, lo que no significa que no tenga relevancia teórica. 8 Existen otros tipos de test de hipótesis, aquí sólo tomamos uno de ellos.

  • 10

    estadísticamente significativa para determinado nivel de confianza, mas no implica

    necesariamente que se acepte la hipótesis nula ni que deba darse por finalizado el

    análisis de la relación.

    El ji cuadrado no permite analizar las categorías o valores de las variables, sino

    cómo las unidades de análisis se distribuyen en los espacios de propiedades, por

    lo cual puede ser utilizado con variables de cualquier nivel de medición. Se utiliza

    para relaciones entre variables nominales u ordinales, puesto que existen otras

    pruebas para variables intervalares.

    El ji cuadrado compara frecuencias absolutas, no porcentajes. Opera a partir de la

    comparación entre las frecuencias observadas y las frecuencias esperadas. Las

    frecuencias observadas son simplemente los casos relevados distribuidos en los

    espacios de una tabla. Las frecuencias esperadas son aquellas que cabría esperar

    si hubiese independencia estadística. Para cada espacio de propiedad de un

    cuadro, la frecuencia esperada se obtiene multiplicando las frecuencias

    marginales entre sí y dividiendo el producto por el total de casos. De este modo,

    se obtiene una distribución de los casos en el cuadro que mantiene las frecuencias

    marginales observadas de cada variable pero distribuye los casos en los espacios

    de propiedades, de modo tal que las frecuencias condicionales sean las que

    cabría esperar por meras desviaciones en la muestra en ausencia de asociación

    en la población.

    Es posible elaborar una tabla de frecuencias esperadas o datos teóricos y

    compararla con la tabla de frecuencias observadas o datos reales. Si no se

    observa diferencia entre las mismas se puede decir que hay una ausencia de

    asociación entre las dos variables o independencia estadística. Si hay diferencia

    entre las frecuencias observadas y esperadas, es necesario evaluar si los datos

    reales se alejan lo suficiente de la independencia estadística como para rechazar

    la hipótesis nula con un nivel de confianza razonable. Para ello, se realiza el

    cálculo del ji cuadrado. Siendo Fo las frecuencias observadas y Fe las frecuencias

    esperadas, la fórmula de ji cuadrado es:

    χ2 = ∑(Fo−Fe)2

    Fe

    El residual o diferencia entre frecuencias observadas y esperadas de cada espacio

    se eleva al cuadrado, anulando los signos negativos. Para normalizar los residuos

    elevados al cuadrado de cada espacios de propiedad, se divide por la frecuencia

    esperada. Al sumar los resultados se obtiene el ji cuadrado empírico (Xe2), que

    puede adoptar valores desde cero hasta infinito. Cuanto más pequeño sea el valor

  • 11

    de ji cuadrado, más fácil es no estar en condiciones de rechazar la hipótesis nula.

    Como el valor de ji cuadrado aumenta con el tamaño de la muestra, no habiendo

    un límite superior, para decidir el rechazo o no rechazo de la hipótesis nula, es

    necesario compararlo con el ji cuadrado teórico (Xt2). El ji cuadrado teórico, crítico

    o de tabla proviene de una distribución estadística que relaciona valores teóricos

    de ji cuadrado con sus posibilidades de ocurrencia por el sólo efecto del error

    muestral.

    La distribución teórica de ji cuadrado permite conocer cuál es el valor con el que

    comparar el ji cuadrado empírico, según los grados de libertad de la tabla y el nivel

    de confianza con que se decida trabajar. Los grados de libertad de una tabla se

    determinan según la mínima cantidad de frecuencias condicionales que necesitan

    conocerse para poder calcular las restantes, para frecuencias marginales dadas.

    Se calcula multiplicando la cantidad de columnas menos uno por la cantidad de

    filas menos uno [GL= (c-1) x (f-1)]. Por ejemplo, una tabla de dos columnas por

    dos filas tiene un grado de libertad.

    El nivel de confianza es el complemento del riesgo. Este último es la probabilidad

    de rechazar la hipótesis nula siendo esta verdadera, o lo que es lo mismo, la

    probabilidad de cometer error de tipo I. El error de tipo I consiste en aceptar la

    hipótesis de trabajo, cuando en realidad la relación no existe en el universo bajo

    estudio. La situación inversa es el error de tipo II, o probabilidad de no rechazar la

    hipótesis nula siendo esta falsa. En el error de tipo II se rechaza la hipótesis de

    trabajo, cuando sí es estadísticamente significativa. En ambas situaciones no se

    trata de errores en tanto decisiones desacertadas por la impericia del investigador,

    sino que son errores estadísticos, probabilidades que quienes investigan asumen

    como riesgos propios de los instrumentos estadísticos que se utilizan. Por

    convención, suele trabajarse con un 95% de confianza en Ciencias Sociales, lo

    cual equivale a decir que el riesgo o significación más habitual es de 0.05. El

    cálculo del error de tipo II es más complejo porque requiere de la utilización de

    supuestos adicionales.

    Si al comparar los valores obtenidos, el ji cuadrado teórico es mayor al ji cuadrado

    empírico (Xt2 > Xe

    2) la hipótesis nula no puede ser rechazada, por lo que la

    hipótesis de trabajo no es aceptada. Por el contrario, si el ji cuadrado teórico es

    menor o igual al ji cuadrado empírico (Xt2 ≤ Xe

    2) la hipótesis nula se rechaza y se

    acepta la hipótesis de trabajo, considerando que existe una relación

    estadísticamente significativa entre las variables.

    En la actualidad, los paquetes estadísticos informáticos como el SPSS -Statistical

    Package for the Social Sciences- además de arrojar el valor de ji cuadrado

  • 12

    empírico para un cuadro determinado, calculan la significación empírica o p-valor,

    que indica la probabilidad de que sea cierta la hipótesis nula en la población para

    determinado ji cuadrado empírico. El nivel de significación teórico con el que se

    compara habitualmente es 0.05 -eventualmente 0.01-, de modo tal que los niveles

    de significación empírica menores indicarán que se está en condiciones de

    rechazar la hipótesis nula. La ventaja de utilizar este procedimiento operativo para

    hacer la prueba de hipótesis es que se puede conocer con exactitud y sin

    necesidad de consultar la tabla de la distribución teórica de ji cuadrado con qué

    nivel de confianza se puede rechazar la hipótesis nula. Por ejemplo, si el p-valor

    fuera de 0.007, se determina que la hipótesis nula puede rechazarse con 99.3%

    de confianza.

    Cuando se analiza el valor que asume ji cuadrado, éste está indicando

    simplemente si la relación supuesta entre las variables en la hipótesis de trabajo

    es estadísticamente significativa o no. Con esto, se define estadísticamente el

    contexto en que se trabaja con la hipótesis, de modo tal que si la asociación entre

    variables es estadísticamente significativa se puede realizar una inferencia

    estadística de la muestra al universo de estudio. Ello quiere decir que se puede

    rechazar con determinado nivel de confianza que la hipótesis nula sea cierta en el

    universo y que la asociación en los casos analizados se deba solamente a errores

    muestrales.

    Cuando el ji cuadrado teórico es mayor al ji cuadrado empírico y la hipótesis nula

    no puede ser rechazada, la hipótesis de trabajo no puede ser aceptada como

    estadísticamente significativa. La ausencia de significación estadística puede

    deberse a diversos motivos, tales como el modo de construir las variables, una

    insuficiente cantidad de casos, las características de la estrategia de medición,

    etc. El hecho de que no haya significación estadística en la relación entre las

    variables analizadas, no impide avanzar en la producción de conocimiento y que

    no pueda estarse frente a un caso de “significación” teórica y sociológica. A los

    fines sociológicos, la situación en que el ji cuadrado no asume significación no

    menoscaba la relevancia teórica de una hipótesis y, en contrapartida, el hecho de

    que una relación entre variables sea estadísticamente significativa no es suficiente

    por sí mismo para producir conocimiento científico. Cabe destacar que este Test

    de Hipótesis no es útil para el análisis si es tomado aisladamente de los otros

    recursos con los que contamos como lo son los Coeficientes de Asociación y la

    Lectura Porcentual que veremos a continuación.

  • 13

    Asociación y medidas de asociación

    La asociación es una forma de covariación entre variables, medida a partir de

    cómo se distribuyen las unidades de análisis en los espacios de propiedades. Las

    medidas de asociación, a diferencia de las de correlación, no operan con las

    categorías o valores de las variables. Por este motivo, pueden ser utilizadas con

    variables de cualquier nivel de medición, a diferencia del coeficiente de correlación

    que requiere variables cuantitativas. Los coeficientes de asociación (también

    conocidos como coeficientes no paramétricos) no permiten realizar inferencias al

    universo, sino que indican la fuerza de la relación en la muestra que se analiza.

    Los coeficientes de asociación son medidas resumen de la fuerza de la asociación

    entre variables y, algunos de ellos, permiten también conocer la dirección. A

    diferencia del ji cuadrado (que como veremos más adelante no tiene límite

    superior de variación, puesto que su valor depende de la cantidad de casos) los

    coeficientes de asociación son estandarizados, variando entre cero, que indica

    independencia estadística y uno, que indica asociación perfecta9.

    Phi y V de Cramer (V) son coeficientes derivados de ji cuadrado, con lo cual

    operan a partir de las diferencias entre frecuencias observadas y esperadas. El

    primero es el resultante de dividir el valor de ji cuadrado por la cantidad de casos

    2 / n)], de modo tal que quede un valor estandarizado entre 0 y 1.

    Como en tablas de más de dos por dos el valor de Phi puede superar la unidad, V

    de Cramer incorpora un factor de corrección en su fórmula para poder ser utilizado

    en cuadros de cualquier cantidad de categorías. No obstante, por suponer una

    definición exigente de asociación perfecta, V tiende a subestimar el grado de

    relación, lo cual debe ser tenido en cuenta en la interpretación del valor de este

    coeficiente, de la misma manera que, como se desarrollará, en la interpretación de

    los coeficientes rinconales debe tenerse presente que pueden asumir altos valores

    por la definición menos restrictiva de asociación (García Ferrando, 1995).

    Algunos coeficientes, como Tau-b (b), Q de Yule (Q) y Gamma () operan en

    base a la reducción proporcional del error. La relación entre las variables puede

    entonces también ser interpretada como la proporción en que se reduce el error de

    predicción de las categorías de la variable dependiente cuando se conoce su

    distribución en las categorías de la independiente, contra el error de predicción

    9 Como veremos más adelante en el documento, en los cuadros con un alto número de casos el ji cuadrado tiende a ser significativo, una de las razones por las cuales es nodal examinar la fuerza de la asociación mediante los coeficientes.

  • 14

    cuando sólo se conoce la distribución univariada de la variable dependiente

    (García Ferrando, 1995: 233; Roales Riesgo, 1999).

    Algunos coeficientes pueden llevar signo positivo o negativo, de modo que varían

    entre -1 y 1, pasando por 0, siendo -1 asociación perfecta negativa y 1 asociación

    perfecta positiva. El signo indica el sentido de la relación, el cual sólo resulta

    pertinente cuando se trabaja con ambas variables de nivel de medición como

    mínimo ordinal.

    La elección del coeficiente adecuado depende del nivel de medición de las

    variables, del tipo de hipótesis y, en algunas situaciones, del tamaño del cuadro.

    Las variables que hemos seleccionado, las categorías de éstas que hemos

    definido y las relaciones que hemos establecido en nuestras hipótesis son

    producto del enfoque teórico a partir del cual hemos abordado el fenómeno de

    estudio.

    -Nivel de medición de las variables. Si son nominales con cuadros de más de dos

    por dos se utiliza V de Cramer; si son nominales u ordinales en cuadros de dos

    por dos se utiliza Phi y Q de Yule y si son ordinales en cuadros de más de dos por

    dos se utiliza Tau b y Gamma. La elección de Tau-b es recomendable cuando las

    tablas son cuadradas, es decir, poseen el mismo número de filas que de

    columnas.

    -Tipo de hipótesis. Las hipótesis rinconales son aquellas que tienen una sola

    condición acerca del modo en que se vinculan las variables, es decir, relacionan

    una categoría de la variable dependiente con una categoría de la variable

    independiente. Son hipótesis menos exigentes, puesto que para que haya

    asociación perfecta en una tabla de dos por dos alcanza con que una sola

    frecuencia sea cero. Si la hipótesis es rinconal se utiliza Q o Gamma, que son

    coeficientes curvilineales. En la interpretación de los valores de estos coeficientes,

    debe tenerse presente que los mismos se basan en una definición menos

    restrictiva de asociación perfecta, relativa a una hipótesis rinconal, que puede

    cumplirse a la perfección poniendo una sola condición.

    Las hipótesis diagonales son más exigentes puesto que para corroborarse, los

    casos deben concentrarse en la diagonal de una tabla, y para que exista

    asociación perfecta no puede haber ningún caso en los espacios fuera de la

    diagonal. Por ejemplo, si la hipótesis es diagonal se utiliza Phi, coeficiente lineal,

    que pone dos condiciones para que haya asociación perfecta en tablas de dos por

    dos, por lo cual se necesitarían dos espacios de propiedad con cero casos. Para

  • 15

    hipótesis diagonales de cuadros de más de 2x2, utilizaremos Tau b, coeficiente

    lineal10.

    -Tamaño del cuadro. Q y Phi se utilizan para cuadros de dos por dos. Si los

    cuadros tienen más categorías, se utiliza Gamma en lugar de Q y Tau-b en lugar

    de Phi.

    COEFICIENTES DE ASOCIACIÓN11

    Hipótesis

    Lineal Curvilineal

    Tipo de

    Variable

    Nominal - Más de

    2x2 V de Cramer (V)

    Nominal/Ordinal

    - 2x2 Phi )

    Q de Yule

    (Q)

    Ordinal - Más de

    2x2 Tau b (b) Gamma ()

    El valor que arroje un coeficiente de asociación ha de ser interpretado según

    cuánto se aproxime al 0 y al 1 (o menos 1), independencia estadística y asociación

    perfecta positiva o negativa, respectivamente. A medida que los coeficientes

    comienzan a alejarse de 0 están expresando algún tipo de relación entre las

    variables.

    Ahora bien, el valor de un coeficiente de asociación en un análisis determinado no

    puede ser interpretado aisladamente, sino en función de las comparaciones que

    establezca. Dichas comparaciones12 intentarán mostrar las maneras en que

    nuestra variable dependiente se encuentra afectada por diferentes variables

    independientes. En este sentido, no existen valores altos, medios o bajos en los

    análisis de los coeficientes, sino que el valor que la covariación entre las variables

    adopte será interpretado a la luz del valor que adquiera otra covariación. Los

    fenómenos que estamos analizando no se explican por la influencia de una sola

    variable ni son estáticos.

    10 Los coeficientes de asociación y su exigencia para los tipos de variables e hipótesis constituyen modelos ideales. La elección del tipo de variable y la hipótesis propuesta dependerá de la teoría con la que hayamos abordado nuestro fenómeno en estudio. 11 Existen otros coeficientes de asociación, pero estos cinco cubren las alternativas de uso habitual. 12 Para que las comparaciones respecto a la fuerza de incidencia de distintas variables independientes sean correctas, es necesario realizarlas con el mismo coeficiente, preferentemente para variables nominales si hay por lo menos una de dicho nivel de medición.

  • 16

    También el conocimiento teórico acumulado sobre el comportamiento del

    fenómeno contribuirá a determinar cuán alto o bajo es el resultado, en relación con

    expectativas teóricas o derivadas de la experiencia previa.

    En consecuencia, el proceso de conocimiento que implica acercarnos a nuestro

    fenómeno de estudio compromete el análisis y la comparación de un número

    significativo de variables dadas por nuestro marco teórico de análisis. De esta

    manera, la comparación se vuelve una instancia nodal de nuestro proceso de

    construcción del conocimiento y la selección de variables y su interpretación

    posibilita subordinar los recursos técnicos a las decisiones teórico-metodológicas,

    contribuyendo a la producción de conocimiento teóricamente relevante.

    Lectura analítica de porcentajes

    La lectura de tablas de contingencia permite un análisis cuantitativo refinado,

    analítico y artesanal. Los cuadros o tablas de contingencia surgen de la tabulación

    simultánea de dos o más variables, en función de las hipótesis.

    Una vez que se tiene una tabla con las frecuencias absolutas distribuidas en los

    espacios de propiedades, es necesario calcular porcentajes para poder realizar

    comparaciones válidas con mayor facilidad. Porcentualizar es una manera de

    estandarizar las frecuencias condicionales para liberarlas de los efectos de las

    diferencias de los marginales y hacer comparable una parte respecto al todo

    (Baranger, 1999). No obstante, es necesario saber sobre qué total de casos han

    sido calculados los porcentajes, ya sea para poder reporcentualizar agrupando

    categorías o, más importante, para tener los debidos recaudos en la interpretación

    de porcentajes calculados sobre pocos casos.

    Generalmente, los porcentajes pueden presentarse sin decimales o con un

    decimal. La cantidad de decimales con la cual pueda trabajarse depende de la

    cantidad de casos, lo cual debe tenerse en cuenta para evitar que los porcentajes

    aparenten un nivel de exactitud que no pueden tener cuando se trabaja con una

    muestra pequeña.

    Los porcentajes pueden ser calculados sobre el total (n) de una tabla, sobre los

    subtotales de fila -asumiendo que se dispuso allí variable dependiente- o sobre los

    subtotales de columna -asumiendo que se trata de la variable independiente-.

    Si se procura conocer qué porcentaje de la población puede ser clasificado en dos

    o más atributos simultáneamente -por ejemplo, varón y de nivel educativo alto- es

    necesario calcular los porcentajes sobre el total de la tabla.

    Si se busca describir perfiles de la población y subpoblaciones, en ocasiones

    puede ser útil calcular los porcentajes de filas, es decir, aquellos calculados en el

  • 17

    sentido de la variable dependiente. Estos porcentajes sólo pueden servir a los

    fines descriptivos univariados de las características de distintos subgrupos. La

    variable dependiente no opera como tal sino como si fuera una constante, por

    ejemplo, qué porcentaje de los que tienen nivel educativo alto son varones,

    brindando así una idea de la composición interna o perfil de cierto subgrupo.

    Para realizar una lectura en función de las hipótesis es necesario calcular los

    porcentajes en el sentido de la variable independiente y leerlos comparando en el

    sentido de la variable dependiente (Zeisel, 1974). De este modo, podemos

    analizar la influencia de la variable independiente sobre la dependiente. Por

    ejemplo, saber qué porcentaje de los varones tiene nivel educativo alto, al

    comparar con el porcentaje que tienen las mujeres en dicho nivel educativo,

    permite a partir de las diferencias porcentuales aproximarse a la incidencia de la

    variable sexo en el nivel educativo alcanzado.

    Esta distribución porcentual bivariable pone en relación las distribuciones

    condicionales con una distribución global de la variable dependiente. La

    distribución de la variable dependiente dentro de las categorías de la variable

    independiente permite examinar las condiciones que se supone que influyen en

    cómo se distribuye. La variable independiente puede ser entendida como

    condición que hace probable cierto resultado, por lo cual es necesario comparar

    diferentes condiciones -categorías de la variable independiente- para resultados

    equivalentes -de una misma categoría de la variable dependiente-, examinando

    qué le ocurre a la variable de estudio cuando se le “aplica” cada una de las

    categorías de la variable independiente.

    La lectura de un cuadro puede comenzarse por las frecuencias marginales de la

    variable dependiente, que no son más que la distribución univariada de esa

    variable, es decir, su distribución sin tomar en cuenta las categorías de la variable

    independiente. Luego, los marginales pueden ser útiles para comparar con cada

    frecuencia condicional, examinando qué ocurre con la distribución de la variable

    dependiente cuando está presente la variable independiente. Si las distribuciones

    de la variable dependiente en cada categoría de la variable independiente son las

    mismas que la distribución univariada, en principio no habría asociación entre las

    variables.

    Lo central de la lectura de cuadros bivariados es la lectura de las frecuencias

    condicionales, comparando en el sentido de la variable dependiente. Según lo que

    establezca la hipótesis, se procederá a comparar el porcentaje de casos que

    corresponde a una categoría de la variable dependiente entre la subpoblación de

    una categoría de la variable independiente, con el porcentaje de casos de otra

  • 18

    subpoblación -delimitada por otra categoría de la variable independiente- que

    corresponde a la misma categoría de la variable dependiente. Esta es la

    comparación básica a partir de la cual se van introduciendo complejizaciones,

    según la cantidad de categorías que tenga el cuadro.

    Cuando se trata de un cuadro de dos por dos, bastará con comparar dos

    porcentajes para leer el cuadro por completo, puesto que habiendo leído los dos

    porcentajes de una categoría de la variable dependiente, los de la otra categoría

    de la variable dependiente son complementarios. La diferencia entre los dos

    porcentajes comparados será la diferencia porcentual o épsilon que sintetiza

    todo el cuadro, indicando la fuerza de la relación. A medida que se trate de un

    cuadro más grande, se van abriendo las posibilidades de comparaciones.

    Probablemente no sea necesario leer todos los porcentajes cuando haya muchas

    categorías de las variables, siendo siempre la hipótesis lo que orientará la lectura,

    indicando qué espacios de propiedad son los más relevantes según las

    expectativas teóricas. En los cuadros de más de dos por dos, ya no habrá una

    única diferencia porcentual sino varias y por ende ninguna de ellas sintetizará en

    una única medida la fuerza de toda la relación.

    Cabe poner de relieve que si bien la lectura porcentual permite analizar

    minuciosamente un cuadro, no debe perderse de vista el panorama general del

    plan de análisis, de modo que los avances parciales en el conocimiento a partir de

    la interpretación de cada cuadro, puedan ser articulados de un modo coherente y

    enfocado en dar cumplimiento a los objetivos, confrontando con los datos

    producidos el conjunto de supuestos que se decidió someter a contrastación en la

    investigación. La lectura de un cuadro no debe ser entendida como un fin en sí

    mismo sino como un medio para el análisis e interpretación de los resultados

    “enmarcado en un proceso teórico metodológico, evitando así miradas

    fragmentadas del proceso de investigación” (Aguilar, Alonso, Kleidermacher y

    Vázquez, 2013: 23).

    4. Reflexiones finales

    El proceso de construcción del dato finaliza al elaborarse los cuadros, a partir de

    las variables que se pongan en relación y de la forma en que sean categorizadas.

    Las distintas posibilidades de agrupar y reagrupar categorías en distintos sistemas

    de categorías implican variaciones en las distribuciones de casos en los espacios

    de propiedades generados y, por lo tanto, en la fortaleza de las hipótesis. Al

    examinar qué ha ocurrido con cada hipótesis sustantiva y los resultados de un

  • 19

    cuadro, se está en la etapa del análisis, en que la teoría y los datos se vinculan y

    confrontan mediante las hipótesis.

    El análisis de relaciones entre dos variables se sirve de la prueba de hipótesis de ji

    cuadrado, de los coeficientes de asociación y de la lectura analítica de los

    cuadros, en tanto herramientas que en conjunto permiten analizar y comenzar a

    dar respuesta a objetivos descriptivos. La prueba de ji cuadrado, permite

    establecer si existe relación estadísticamente significativa entre las variables y

    complementada por los coeficientes de asociación, permite examinar la fuerza de

    la relación y su sentido. La naturaleza de la relación entre variables, es decir, si se

    aproxima a una forma lineal, curvilineal o irregular, sólo puede ser examinada

    mediante la lectura porcentual analítica al interior del cuadro. Además, todo tipo de

    situaciones intermedias, variaciones sutiles y matices respecto al modo de relación

    entre las variables pueden ser descriptos pormenorizadamente mediante la lectura

    porcentual, lo cual resulta una gran ventaja para analizar “artesanalmente” datos

    sobre fenómenos sociales, los cuales si bien presentan regularidades, conservan

    cierta inestabilidad, indeterminación e irregularidad, que también deben ser

    analizadas.

    Así, todas las herramientas estadísticas presentadas, se utilizan en estrecha

    relación con la teoría. En primer lugar, porque ésta condiciona las hipótesis

    plateadas, las variables seleccionadas, las categorizaciones realizadas y las

    comparaciones establecidas. En segundo lugar, porque el análisis e interpretación

    de los resultados obtenidos, se realiza a la luz del marco teórico seleccionado y

    las preguntas y objetivos que guían la investigación.

  • 20

    5. Anexo: Ejemplo de análisis bivariado

    El uso diferencial del tiempo libre. Una aproximación desde género y clase

    En el marco del proyecto de investigación “Heterogeneidad de clase social:

    profundizando los comportamientos de clase de las parejas”1314, se indagó

    respecto del uso diferencial del tiempo libre, concebido como un aspecto del estilo

    de vida de las clases sociales. Se analizaron datos cuantitativos sobre la

    frecuencia y el placer que producen diferentes actividades de tiempo libre según

    clase social y según género. El objetivo del trabajo fue describir el uso del tiempo

    libre de varones y mujeres que trabajan, contándose con información sobre la

    clase social. Para trabajar el concepto de clase, se utilizó el esquema de

    Goldthorpe. Enfocamos al tiempo libre como una de las expresiones de los

    consumos y estilos de vida de las personas, cuyas características dependen en

    gran medida de la clase y el género.

    Así, se indagó sobre las diferencias en torno al uso de este tiempo libre, según

    género y clase social, teniendo como hipótesis de trabajo que cuanto más alta es

    la clase social es mayor y más variado el tiempo libre, y que el tiempo libre de las

    mujeres es contaminado o interrumpido por responsabilidades familiares o tareas

    domésticas que pueden incluso ser realizadas simultáneamente a la actividad de

    ocio.

    A continuación se presenta como ejemplo, el análisis realizado para una de las

    variables de interés de la investigación que fue la frecuencia de uso de Internet

    como una actividad de tiempo libre. Así, la primera hipótesis de trabajo,

    planteaba: “Se espera una mayor frecuencia de uso en cuanto más alta sea la

    clase social.”

    VD: Frecuencia de uso de Internet en el tiempo libre

    Nivel de medición: Ordinal

    VI: Clase Social

    Nivel de medición: Ordinal

    Tamaño de la Tabla: 3x4

    Grados de Libertad (gl): 6

    13 Proyecto UBACyT de la programación 2010-2012, dirigido por la Dra. Gabriela Gómez Rojas, con sede en el Instituto de Investigaciones Gino Germani de la UBA.

  • 21

    Tipo de hipótesis: Diagonal o lineal

    En primer lugar se realizó la prueba de Ji Cuadrado para contrastar la hipótesis

    nula que plantearía que no existe relación entre la frecuencia de uso de internet y

    la clase social. Se eligió trabajar con un nivel de confianza del 95% (que es lo

    mismo que decir un nivel de significación de 0.05).

    Al buscar en la tabla de Ji Cuadrado, el valor teórico correspondiente a 0.05 de

    significación para 6 grados de libertad es de 12.592. Dado que el valor empírico de

    Ji cuadrado que arroja la prueba -como se observa en la tabla a continuación

    producida con el SPSS- es mayor al valor teórico (regla de decisión: Xe 121,839 >

    Xt 12,592), puede entonces rechazarse con un 95% de confianza la hipótesis nula

    que plantea que no hay asociación entre las variables, y por lo tanto la hipótesis

    de trabajo resulta significativa estadísticamente, lo que quiere decir que en el

    universo de estudio, la relación entre las variables también estaría ocurriendo15.

    Por otro lado, en la tabla a continuación también puede observarse que bajo la

    columna “Sig. Asintótica” se encuentra lo que conocemos como p-valor o

    significancia exacta. Dado que en este caso es prácticamente cero, podría

    también haberse rechazado la hipótesis nula a un nivel de confianza superior al

    99% (regla de decisión: α= 0.05 > p valor= 0.00).

    Ambos métodos siempre conducen al mismo resultado del test. Sólo que el

    método del p-valor permite conocer la significancia exacta. Esto no implica no

    definir siempre a priori cuál es el valor de significancia α con el que se va a

    trabajar.

    Pruebas de chi-cuadrado

    Valor gl

    Sig. asintótica

    (2 colas)

    Chi-cuadrado de Pearson 121,839 6 ,000

    Razón de verosimilitud 133,179 6 ,000

    Asociación lineal por

    lineal

    107,252 1 ,000

    N de casos válidos 625

    Más allá de la significancia estadística hallada, se procedió luego a analizar el

    coeficiente de asociación correspondiente para conocer la fuerza y sentido de la

    15 Cabe aclarar que la prueba de Ji cuadrado no mide magnitudes. La relación es o no es significativa para el nivel de confianza dado. No es relevante por cuanto supera el valor de Ji empírico al teórico.

  • 22

    relación. Al ser dos variables ordinales en una tabla de más de 2 x 2, para

    hipótesis diagonal o lineal el coeficiente que correspondiente es el Tau-b.

    Coeficientes de Asociación

    Valor

    Error estándar

    asintótico Aprox. S Aprox. Sig.

    Nominal por Nominal Phi ,442 ,000

    V de Cramer ,312 ,000

    Ordinal por ordinal Tau-b de Kendall ,391 ,028 13,119 ,000

    Gamma ,639 ,043 13,119 ,000

    N de casos válidos 625

    En primer lugar el signo positivo del coeficiente indica que la relación se da en el

    sentido planteado en la hipótesis, ambas variables se comportan en la misma

    dirección (cuando una aumenta, la otra también lo hace, y viceversa).

    En cuanto a la magnitud, observamos que es de 0.391. Si bien se aleja del cero

    que indica la no asociación, para poder analizar la fuerza de esta magnitud,

    debemos hacerlo de modo comparativo, luego de analizar el comportamiento del

    fenómeno ante otras variables independientes.

    Por último, realizaremos la lectura porcentual, presentada en la siguiente tabla de

    contingencia, en la cual, para poder realizar correctamente la lectura, los

    porcentajes fueron calculados en el sentido de la variable independiente (clase

    social).

    Frecuencia de tiempo libre en Internet por Clase Entrevistado. PEA, de 20 a 69 años. Total País, 2007.

    % dentro de Clase Entrevistado

    Clase Entrevistado

    Total

    I-III:

    Trabajadores

    de cuello

    blanco

    IV: Pequeña

    burguesía

    V+VI:

    Trabajadores

    calificados

    VII:

    Trabajadores

    no calificados

    Frecuencia de

    actividades de

    tiempo libre:

    Pasar tiempo en

    Internet

    Hasta Semanal 43% 17% 7% 5% 25%

    Mensual o

    inferior 17% 12% 13% 5% 13%

    Nunca 40% 71% 80% 90% 62%

    Total 100% 100% 100% 100% 100%

    288 146 61 130 625

    Fuente: International Social Survey Program, ISSP, relevada a nivel nacional en el año 2007 por el CEDOP.

  • 23

    A partir de la lectura porcentual, podemos observar la tendencia decreciente en la

    frecuencia de uso a medida que se desciende en la clase social.

    La diferencia porcentual observada entre la frecuencia “hasta semanal” entre los

    Trabajadores de Cuello Blanco (43%) y entre los Trabajadores no calificados (5%)

    es de un 38%. También resulta interesante que al pasar de Trabajadores de

    Cuello Blanco, al segmento inmediatamente inferior –Pequeña Burguesía (17%)-,

    la diferencia porcentual es de 25 puntos porcentuales y ésta sólo es de a 10

    puntos entre esta última y los Trabajadores Calificados (17% vs. 7%).

    Es decir que la herramienta de las diferencias porcentuales no limita como muchas

    veces aparece el análisis a la comparación entre categorías extremas, sino que

    justamente su riqueza consiste en poder analizar pormenorizadamente lo que

    ocurre en y entre los distintos espacios de propiedades generados en la tabla de

    contingencia.

    De igual modo, puede analizarse que en la categoría intermedia de frecuencia

    mensual o inferior, el descenso más pronunciado se observa entre las dos clases

    inferiores (8 puntos porcentuales entre 13% y 5%), manteniéndose en un rango

    similar los porcentajes para las clases intermedias.

    Al analizar el comportamiento de las clases para la categoría Nunca, casi en

    espejo a lo observado para la mayor frecuencia de uso, se produce un quiebre

    más marcado entre los Trabajadores de Cuello Blanco y la Pequeña Burguesía.

    Entre los primeros sólo representan al 40%, mientras que para los segundos este

    porcentaje asciende a 71%, presentando una diferencia porcentual de 31 puntos

    porcentuales. Se registra una tendencia ascendente de aproximadamente 10% en

    cada pasaje hacia las siguientes categorías.

    La segunda hipótesis de trabajo, plantea la relación entre la misma variable

    analizada en el caso anterior, pero en función del género, dado que se espera

    como ya se mencionó en el planteo general, que “las mujeres presentan una

    frecuencia de uso mensual o inferior, o nunca, mientras que los hombres utilizan

    Internet en su tiempo libre de manera semanal o con mayor frecuencia.”

    VD: Frecuencia de uso de Internet en el tiempo libre

    Nivel de medición: Ordinal

    VI: Género

    Nivel de medición: Nominal

    Tamaño de la Tabla: 3x2

    Grados de Libertad (gl): 2

  • 24

    Tipo de hipótesis: Diagonal o lineal

    Al igual que lo planteado para la relación anterior, realizamos la prueba Ji

    Cuadrado, para conocer cuál es el contexto en el que nos encontramos

    (significación estadística o no). En este caso, al comparar el valor del Xe=0.937

    contra el teórico Xt=5.991 –correspondiente a 95% de confianza y 2 grados de

    libertad-, concluimos que no puede rechazarse la hipótesis nula que plantea que

    no hay relación entre el género y el uso de internet en el tiempo libre, por lo cual

    no podemos descartar la independencia estadística a nivel poblacional. Si

    rechazáramos la hipótesis nula correríamos un riesgo del 62,6% de equivocarnos

    al tomar esa decisión, como indica el p-valor, (nivel de confianza de 41,4%), por lo

    cual al superar el nivel de riesgo o significancia establecido en este caso (5%).

    Vemos nuevamente que por el método del p-valor, tampoco podemos rechazar la

    hipótesis nula –y por tanto, aceptar la de trabajo-, para el nivel de confianza

    establecido.

    Pruebas de chi-cuadrado

    Valor gl

    Sig. asintótica

    (2 colas)

    Chi-cuadrado de Pearson ,937 2 ,626

    Razón de verosimilitud ,942 2 ,625

    Asociación lineal por

    lineal ,181

    1 ,670

    N de casos válidos 625

    Igualmente, dado que la independencia estadística no implica que la relación no

    pueda ser relevante teóricamente, se procedió con el análisis de fuerza y sentido a

    través del coeficiente de asociación V de Cramer, correspondiente al cuadro e

    hipótesis planteado (ordinal/nominal, más de 2x2, hipótesis diagonal). En este

    caso, al ser una de las variables de nivel de medición nominal, el signo del

    coeficiente no nos brinda información respecto del sentido de la relación (dado que

    no hay una necesariedad lógica en el orden de las categorías en la tabla). Esto lo

    analizaremos a partir de la lectura porcentual.

    Como se mencionó, luego se compararán los coeficientes de las distintas

    relaciones para poder dimensionar la fuerza. En este caso podemos adelantar que

    por el valor del V de Cramer de 0.039, matemáticamente muy próximo al valor

    cero se encuentra muy cerca de la independencia estadística.

  • 25

    Coeficientes de Asociación

    Valor

    Error estándar

    asintótico Aprox. S Aprox. Sig.

    Nominal por Nominal Phi ,039 ,626

    V de Cramer ,039 ,626

    Ordinal por ordinal Tau-b de Kendall -,012 ,039 -,316 ,752

    Gamma -,024 ,076 -,316 ,752

    N de casos válidos 625

    Por último, el análisis de porcentajes, nos muestra que un cuarto de la muestra

    presenta una alta frecuencia de uso de internet, y esta proporción prácticamente

    se mantiene en el mismo nivel en ambos grupos (24% entre los hombres y 27%

    entre las mujeres), con una diferencia sólo de 3% entre ellos. Al analizar lo que

    ocurre con la categoría nunca, la diferencia entre hombres y mujeres, es aún

    menor, sólo del 1%, siguiendo ambos grupos una distribución prácticamente

    idéntica a la del total de la muestra. Estas diferencias porcentuales próximas a 0%,

    nos indican también, en línea a lo observado en la prueba de ji cuadrado y al valor

    del coeficiente V de Cramer, que no habría relación entre estas variables. El

    comportamiento de la variable dependiente, no se modifica ante los distintos

    géneros.

    Frecuencia de tiempo libre en Internet por Género. PEA, de 20 a 69 años. Total País, 2007.

    % dentro de Género

    Género

    Total Hombre Mujer

    Frecuencia de actividades

    de tiempo libre: Pasar

    tiempo en Internet

    Hasta Semanal 24% 27% 25%

    Mensual o inferior 14% 12% 13%

    Nunca 62% 61% 62%

    Total 100% 100% 100%

    387 238 625

    Fuente: International Social Survey Program, ISSP, relevada a nivel nacional en el año 2007 por el CEDOP.

    Al avanzar en el análisis, y al observar que en este caso el género no resultaba

    una variable relevante para el caso del uso de Internet en el tiempo libre, se

    plantea desde los distintos abordajes teóricos sobre Tecnologías de Información y

    Comunicación (TICs), que para este tipo de consumo cultural/uso del tiempo libre,

    la franja etaria resulta una variable relevante a considerar.

  • 26

    Es por esto que se planteó una tercera hipótesis que plantea que “la frecuencia

    de uso de internet está influida por la edad de manera tal que entre los de menor

    edad la frecuencia de uso es mayor que entre los de más edad”.

    VD: Frecuencia de uso de Internet en el tiempo libre

    Nivel de medición: Ordinal

    VI: Tramo de Edad

    Nivel de medición: Intervalar

    Tamaño de la Tabla: 3x4

    Grados de Libertad (gl): 6

    Tipo de hipótesis: Diagonal o lineal

    Siguiendo la misma secuencia que para las relaciones anteriores, se realizó la

    prueba de Ji Cuadrado, definida a un 95% de confianza. Al igual que en el primer

    caso, el tamaño de la tabla define 6 grados de libertad, el valor de Ji empírico

    (17.654) supera al teórico, 12.592. Haciendo el análisis a partir del p-valor,

    comprobamos que puede rechazarse la hipótesis nula con una confianza del

    99.3%, por lo cual podemos descartar para ese nivel la independencia estadística.

    Pruebas de chi-cuadrado

    Valor gl

    Sig. asintótica

    (2 colas)

    Chi-cuadrado de Pearson 17,654 6 ,007

    Razón de verosimilitud 19,064 6 ,004

    Asociación lineal por

    lineal 10,074

    1 ,002

    N de casos válidos 625

    El coeficiente adecuado para el nivel de medición de las variables, el tipo de

    hipótesis y el tamaño de la tabla es el Tau-b, que en este caso confirma el sentido

    positivo planteado en la hipótesis y tiene un valor de 0.118.

    Si bien como se mencionó el análisis de correlación es la técnica específica para

    variables de nivel de medición intervalar, y también existen otras técnicas como el

    análisis de varianza (ANOVA) para las relaciones entre variables categóricas e

    intervalares, las variables intervalares agrupadas, al utilizarse en tablas de

    contingencia, también pueden ser analizadas con análisis de asociación.

  • 27

    Coeficientes de Asociación

    Valor

    Error estándar

    asintóticoa Aprox. Sb Aprox. Sig.

    Nominal por Nominal Phi -,168 ,007

    V de Cramer ,119 ,007

    Ordinal por ordinal Tau-b de Kendall -,118 ,035 3,381 ,001

    Gamma -,192 ,056 3,381 ,001

    N de casos válidos 625

    Finalmente, al realizar la lectura porcentual, se destaca entre los del tramo de

    edad superior una mayor proporción de quienes nunca usan, alcanzando un 79%,

    con una diferencia porcentual de 19% contra la categoría inmediatamente inferior,

    y alcanzando los 24 puntos porcentuales de diferencia al comprar con los más

    jóvenes.

    Al analizar la frecuencia de uso hasta semanal, y mensual o menos, se observan

    comportamientos similares entre los tres primeros tramos, produciéndose el

    descenso marcado también al pasar a la categoría de 55 a 69 años, entre quienes

    solo un 16% presenta frecuencia semanal o mayor, con una diferencia de 9% en

    comparación con los de 40 a 54 años, y de 14 puntos con respecto a los más

    jóvenes.

    Frecuencia de tiempo libre en Internet por Tramos de Edad. PEA, de 20 a 69 años. Total País, 2007.

    % dentro de Tramos de Edad

    Tramos de Edad

    Total

    20 a 29

    años

    30 a 39

    años

    40 a 54

    años

    55 a 69

    años

    Frecuencia de

    actividades de

    tiempo libre: Pasar

    tiempo en Internet

    Nunca 55% 57% 60% 79% 62%

    Mensual o

    inferior 15% 14% 15% 5% 13%

    Hasta Semanal 30% 29% 25% 16% 25%

    Total 100% 100% 100% 100% 100%

    82 185 246 112 625

    Fuente: International Social Survey Program, ISSP, relevada a nivel nacional en el año 2007 por el CEDOP.

    En conclusión, podemos decir que la variable que presenta mayor fuerza de

    asociación con la frecuencia de uso de internet en el tiempo libre, es la clase. Su

  • 28

    Tau-b era de 0.39 mientras que para edad este coeficiente es inferior (0.118). En

    estos casos en particular, los coeficientes fueron directamente comparados dado

    que coincidían por el tipo de hipótesis, el tamaño de los cuadros y el tipo de

    variables con el que se trabajo. Sin embargo, para la variable independiente sexo,

    el coeficiente que habíamos utilizado fue V de Cramer. Para comparar la fuerza de

    ésta variable independiente en relación a las otras con las que hemos trabajado

    (Edad y Clase Social) es necesario seleccionar un tipo de coeficiente que sea

    aplicable a las tres hipótesis planteadas. En dicho caso deberíamos realizar una

    comparación a partir de V de Cramer por tener un menor nivel de exigencia. Bajo

    estas condiciones el coeficiente asume un valor de 0.312 para la variable

    independiente clase social, 0.039 para la variable independiente sexo y un valor

    de 0.119 para la variable independiente edad. Podemos afirmar que dentro de las

    variables independientes seleccionadas, la variable clase social presenta mayor

    fuerza de asociación con la frecuencia de uso de internet en el tiempo libre.

  • 29

    6. Referencias bibliográficas

    Aguilar, M., Alonso, C., Kleidermacher, G. y Vázquez, N. (2013) Elaboración y

    análisis de distintos tipos de cuadros. Cuaderno de Cátedra Nº 3 (mimeo).

    Baranger, D. (1999) Construcción y Análisis de Datos. Introducción al uso de

    Técnicas Cuantitativas en la Investigación Social. Posadas: Editorial Universitaria

    de la Universidad Nacional de Misiones.

    Barton, A. H. (1973) “Concepto de Espacio de atributos en Sociología”. En

    Boudon, R. y Lazarsfeld, P. Metodología de las Ciencias Sociales. Tomo I.

    Barcelona: Ed. Laia.

    Blalock, H. (1986) Estadística social. México: Fondo de Cultura Económica.

    Cohen, N. (1997) “La teoría y el método en la investigación social: el discurso y la

    práctica”. En Luxemburg - Revista de sociología, año 1 N° 2. Buenos Aires.

    Cohen, N. y Gómez Rojas, G. (2003): “Los objetivos, el marco conceptual y la

    estrategia teórico-metodológica triangulando en torno al problema de

    investigación”. En Lago Martínez, G. Gómez Rojas y M. Mauro (coord.) En torno

    de las metodologías: abordajes cualitativos y cuantitativos. Buenos Aires: Proa

    XXI.

    García Ferrando, M. (1995) Socioestadística. Introducción a la estadística en

    Sociología. Madrid: Alianza Universidad Textos.

    Marradi, A.; Archenti, N. y Piovani, J. (2010) Metodología de las Ciencias Sociales.

    Buenos Aires: Cengage Learning.

    Roales Riesgo, M. (comp.) (1999) Claves de la Estadística Descriptiva e

    Inferencial: Análisis Bivariado y Multivariado. Buenos Aires: Centro de Estudiantes

    de Ciencias Sociales UBA.

    Sautu, R. (2003) Todo es Teoría. Objetivos y Métodos de Investigación. Buenos

    Aires: Editorial Lumiere.

    Zeisel, H. (1974) Dígalo con números. Buenos Aires: Fondo de Cultura

    Económica.