Botella
Captulo 1: Conceptos generales
La estadstica actual no slo es un conjunto de tcnicas para
resumir y transmitir informacin cuantitativa, sino que sirve
tambin, y fundamentalmente, para hacer inferencias,
generalizaciones y extrapolaciones de un conjunto relativamente
pequeo de datos a un conjunto mayor. Estas dos grandes funciones de
la estadstica (descripcin y realizacin de inferencias) reflejan la
propia historia del desarrollo de esta ciencia. La estadstica
actual es el producto del encuentro de dos ramas distintas del
saber, la antigua estadstica y el clculo de probabilidades. Lo que
posibilit el clculo de probabilidades fue el desarrollo de mtodos
para extrapolar las conclusiones a entidades no observadas. Es
decir, proporcion el instrumento adecuado para poder hacer
inferencias acerca de grandes cantidades de observaciones
potenciales a partir de unas pocas observaciones reales.
Clsicamente la estadstica se ha dividido en dos partes, la
estadstica descriptiva y la estadstica inferencial. Para hacer un
estudio inferencial primero hay que hacer un estudio descriptivo de
los datos. Es decir, un estudio descriptivo se agota en la
descripcin, mientras que uno inferencial comienza por la descripcin
y luego aborda la inferencia. Mientras que la estadstica
descriptiva puede abordarse sin conocimientos tcnicos previos,
aparte del lgebra elemental, para el estudio de la estadstica
inferencial hay que adquirir nociones bsicas de probabilidad.
Estadstica: Ciencia que se ocupa de la ordenacin y anlisis de
datos procedentes de muestras, y de la realizacin de inferencias
acerca de las poblaciones de las que stas proceden.
Distincin entre estadstica terica y estadstica aplicada: La
primera se dedica al estudio de los mtodos formalmente vlidos para
la realizacin de inferencias. La segunda se dedica a la aplicacin
de esos mtodos y modelos de actuacin a campos reales. Cualquier
trabajo en el que se aplica la estadstica se refiere a un conjunto
de entidades, conocido con el nombre de poblacin.
Se llama poblacin estadstica al conjunto de todos los elementos
que cumplen una o varias caractersticas o propiedades.A los
elementos que componen una poblacin se les denomina entidades
estadsticas o individuos (pueden ser personas, animales, objetos o
nmeros). Dependiendo del nmero de elementos que la compongan, la
poblacin puede ser finita o infinita. La mayor parte de las
poblaciones con las que solemos trabajar son finitas, pero tan
numerosas que a la hora de hacer inferencias acerca de ellas se
pueden considerar infinitas a efectos prcticos. Cuando un
investigador aborda un trabajo emprico debe definir claramente la
poblacin sobre la cual se interesa. La poblacin ha de ser el marco
o conjunto de referencia sobre el cual van a recaer las
conclusiones e interpretaciones, y stas no pueden exceder ese
marco. El hecho de que las poblaciones sean muy numerosas, suele
hacer inaccesible la descripcin de propiedades. De ah que se
trabaje fundamentalmente con muestras.
Una muestra es un subconjunto de los elementos de una
poblacin.La muestra nos va a ofrecer una serie de datos que podemos
ordenar, simplificar y describir. Pero el objetivo fundamental es
el poder describir la poblacin de partida mediante lo que podamos
encontrar en la muestra. Y para poder extraer esas conclusiones lo
ms importante es que las muestras de observaciones sean
representativas. Existe todo un campo de la estadstica, llamado
muestreo, dedicado a estudiar los procedimientos de extraccin de
muestras encaminados a maximizar la representatividad de las
mismas. Por ello un primer objetivo de la estadstica descriptiva
consiste en conseguir resmenes de los datos en ndices compactos y
de gran calidad informativa. Las poblaciones pueden caracterizarse
a partir de unas constantes denominadas parmetros. Como normalmente
los parmetros son desconocidos, una de las tareas de la estadstica
es la de hacer conjeturas lo ms acertada posibles acerca de esas
cantidades. Para ello se utilizan cantidades anlogas obtenidas en
las muestras, que se denominan estadsticos.Un parmetro es una
propiedad descriptiva de una poblacin.Un estadstico es una
propiedad descriptiva de una muestra.Los parmetros y estadsticos no
slo son medias, sino que pueden ser otros tipos de cantidades, como
porcentajes. En la prctica no ser preciso estar repitiendo el
experimento; bastar con obtener una nica muestra y, por lo tanto, a
partir de ella tratar de estimar el parmetro. Para ello es
fundamental que la muestra sea representativa de la poblacin y que
el estadstico calculado rena la informacin necesaria y suficiente
para que a partir de l podamos decir algo acerca de la verdadera
eficacia del tratamiento. Desde un punto de vista simblico,
conviene indicar, para distinguirlos, que los parmetros se suelen
representar por letras griegas mientras que los estadsticos se
suelen simbolizar por letras latinas. En la primera fase de una
investigacin se obtienen los estadsticos, y en la segunda se
utilizan los valores obtenidos para hacer inferencias acerca de los
parmetros.
Cuando estudiamos las entidades que conforman una poblacin nos
interesamos por algunas de las propiedades de sus elementos, y esas
propiedades adoptan distintas variedades.Una caracterstica es una
propiedad o cualidad de un individuo.
Una modalidad es cada una de las maneras como se presenta una
caracterstica.
MEDICINLa estadstica no realiza sus funciones directamente sobre
las modalidades observadas, sino que stas se representan por
nmeros, y la estadstica realiza sus funciones sobre esos nmeros.Se
llama medicin al proceso de atribuir nmeros a las caractersticas.La
asignacin de nmeros a las caractersticas se hace siguiendo unas
reglas; del estudio de los modelos mediante los cuales conocemos
las reglas para una correcta atribucin de los nmeros se ocupa la
Teora de la medida. El objetivo de la medicin de una caracterstica
es conectar un sistema relacional emprico y un sistema relacional
numrico, de tal forma que las relaciones entre las entidades se
reflejen en las relaciones entre los nmeros que los simbolizan. Slo
si se consigue este objetivo ocurrir que de las relaciones entre
los nmeros podrn hacerse inferencias vlidas acerca de las
relaciones entre las entidades. La medicin estudia las condiciones
de construccin de representaciones numricas, y los modelos
desarrollados para la medicin se llaman escalas.
Se utiliza una clase por cada una de las modalidades que adopta
la caracterstica que se est estudiando. Las clases son mutuamente
exclusivas y exhaustivas, es decir, cada observacin es incluida en
una y slo una clase. Se tiene un conjunto de objetos cuya
caracterstica nos interesa para su estudio. sta adopta un nmero k
de modalidades distintas; representamos por m a la modalidad del
objeto. CUALITATIVAS O NOMINALES: Asignamos nmeros a los objetos en
funcin de la modalidad que presentan en esa caracterstica;
representamos por n al nmero asignado al objeto. Al tipo de medicin
que cumple con estas condiciones se la llama escalamiento
cualitativo o nominal, y al conjunto de clases que las integran se
le llama escala nominal. Podran tambin utilizarse otros smbolos,
como letras, palabras, etc, puesto que los nmeros asignados no se
van a utilizar como tales, sino como simples cdigos de
identificacin. La clave de estas escalas de medida es que slo
informan de la igualdad o desigualdad de los individuos en una
caracterstica, pero no de posibles ordenaciones de las mismas (no
puede decirse que las mujeres tengan mas sexo que los hombres). Un
concepto ntimamente ligado al concepto de escala, y que de hecho
las caracteriza, es el de transformacin admisible, que hace
referencia al problema de la unidad de medida. De un conjunto de
valores correctamente atribuidos se puede pasar a otro tambin
correctamente atribuido mediante una transformacin
admisible.ORDINALES: Supongamos que contamos de nuevo con un
conjunto de objetos que difieren en una caracterstica que cada uno
posee en una cierta cantidad. De nuevo el proceso de medicin debe
consistir en la aplicacin de una regla de asignacin de nmeros a las
diferentes cantidades, pero ahora de tal forma que los nmeros
asignados a los objetos reflejen esos distintos grados en los que
se presenta la caracterstica. A aquellas escalas de medida que
cumplen estas caractersticas se les llama escalas ordinales. Dos
objetos con el mismo nmero asignado podemos concluir que presentan
la misma modalidad (en este caso tienen la misma cantidad de esa
propiedad), pero de dos objetos a los que se han asignado nmeros
diferentes no slo puede decirse que son diferentes en esa
caracterstica, sino que pueden establecerse relaciones del tipo
mayor que o menor que; puede decirse cul de esos objetos presenta
una mayor magnitud de esa caracterstica. Dicho de otro modo, los
objetos pueden ordenarse, y de ah es que proviene el nombre de la
escala. Tambin este tipo de escala permite hacer transformaciones
admisibles (que cumplan la condicin de ser transformaciones
crecientes). El problema de este tipo de escala es que, aunque nos
informa de que un objeto presenta la caracterstica en cuestin en
una mayor magnitud que otro objeto, no nos dice en cuanto
ms.INTERVALARES: Para poder extraer conclusiones ms precisas, como
la de en cunto ms presenta la caracterstica un objeto sobre otro,
hay que contar con una unidad de medida, y para ello hay que pasar
al siguiente tipo de escala, escala de intervalo. Esta unidad de
medida y su origen son arbitrarios. La principal limitacin de este
tipo de escalas es que, aunque cuenta con una unidad de medida, no
tiene un cero absoluto. Es decir, el nmero cero no representa
realmente la ausencia de esa caracterstica (ejemplo: la
temperatura).DE RAZN: En la siguiente escala, escala de razn,
cumple la funcin de preservar el significado del valor cero, de
forma que siempre represente la ausencia de esa caracterstica. La
consecuencia fundamental de la presencia de un origen absoluto, y
no arbitrario, es que a dems de poder extraer conclusiones acerca
de la igualdad o desigualdad de diferencias, tambin puede hablarse
de desigualdad o igualdad de razones.
TipoInformacin deducibleTransformacin admisibleEjemplos
NominalRelaciones igual que o distinto queAplicaciones
inyectivasSexo, estado civil, diagnstico clnico
OrdinalRelaciones mayor que o igual queFunciones
crecientesDureza, nivel socioeconmico
IntervaloIgualdad o desigualdad de diferenciasA + b x (b >
0)Temp., calendario, inteligencia
RaznIgualdad o desigualdad de razonesB x (b > 0)Longitud,
peso
VARIABLES: CLASIFICACIN Y NOTACINEn el proceso de medicin se
asignan nmeros a los objetos segn unas reglas, y el conjunto de
valores numricos atribuidos a las modalidades de una caracterstica
constituyen lo que llamamos variable estadstica.Una variable es una
representacin numrica de una caracterstica.Hay veces que una
caracterstica tiene una nica modalidad, en ese caso todas las
entidades estudiadas adoptaran el mismo valor numrico, y decimos
que se trata de una constante.Las variables pueden clasificarse de
varias formas. Las variables cuantitativas (sean de intervalo o
razn) pueden a su vez clasificarse en variables discretas y
variables continuas, en funcin del nmero de valores asumibles por
ellas. Una variable discreta es aquella que adopta valores
aislados. Por tanto, fijados dos consecutivos, no puede tomar
ninguno intermedio (no hay que confundirlos con los valores
enteros, ya que nada tiene que ver una cosa con la otra). En las
variables continuas entre dos valores cualesquiera, por prximos que
sean, siempre pueden encontrarse valores intermedios. Las variables
estadsticas se simbolizan por letras maysculas latinas, y
generalmente con un subndice, para distinguirlas de las constantes.
El subndice sirve para indicar, adems, la posicin que ocupa un
determinado valor en el conjunto de valores de la variable (nada
tiene que ver con la magnitud del valor al que se est refiriendo,
sino simplemente al lugar que dicho valor ocupa dentro de una serie
de valores). El smbolo Xi se dice que es el trmino general y
representa a cualquier valor de la
serie.--------------------------------------------------------------------------------------------------------------------------------------------
Captulo 2: Organizacin y representacin de datosLuego de obtener
un conjunto de valores tomados en una o varias variables hay que
empezar por inspeccionar los datos. Cuando la cantidad de nmeros
recolectados es demasiado grande, se hace difcil hacer una
inspeccin directa que sea realmente comprensiva. Por eso el primer
paso suele consistir en reorganizar los datos. Un instrumento para
conseguir esa ordenacin es la denominada distribucin de
frecuencias, y a partir de ella es frecuente tambin construir
representaciones grficas.
DISTRIBUCIN DE FRECUENCIASLa distribucin de frecuencias es un
instrumento diseado para cumplir tres funciones: a) proporcionar
una reorganizacin y ordenacin racional de los datos recogidos, b)
ofrecer la informacin necesaria para hacer representaciones grficas
y c) facilitar los clculos necesarios para obtener los estadsticos
muestrales. Representaremos por X a la variable con la que
trabajamos, y que puede adoptar distintos valores (X1, X2, X3) pero
cada uno de ellos puede aparecer repetido ms de una vez en los n
elementos que componen la muestra.Se llama frecuencia absoluta de
un valor Xp, y se simboliza por np, al nmero de veces que se repite
el valor Xi en la muestra.Se llama frecuencia relativa de un valor
xp y se simboliza por pp al cociente entre la frecuencia absoluta
de ese valor y el tamao de la muestra.Se llama frecuencia absoluta
acumulada de un valor xp y se simboliza por px al cociente entre su
frecuencia absoluta acumulada y el tamao de la muestra.A veces las
frecuencias relativas, ya sean simples o acumuladas, se expresan en
trminos porcentuales. En esos casos suelen representarse con
maysculas; par obtenerlas basta con multiplicar por 100 las
frecuencias relativas. Construimos la distribucin de frecuencias
siguiendo los pasos descritos:a) Se ponen los valores que toma la
variable en la primera columna de abajo hacia arriba.
b) Para la columna de frecuencias absolutas contamos el nmero de
veces que se repite cada valor. La suma de ellos es igual al tamao
de la muestra. c) Para la columna de frecuencias relativas
dividimos cada frecuencia absoluta por n. Las suma de ellas debe
dar 1 (o en algunos casos dar por ejemplo 0,98 o 1,02, que tambin
se acepta como correcto).d) Para obtener las frecuencias absolutas
acumuladas sumamos para cada valor su frecuencia absoluta ms la
absoluta acumulada del valor anterior. Su suma debe dar tambin
n.
e) Para las frecuencias relativas acumuladas dividimos cada
frecuencia absoluta acumulada por n. La frecuencia relativa de
valor mayor debe ser igual a 1.
En muestras en donde se tienen muchsimos valores que toma la
variable, suele aplicarse lo que se denomina una agrupacin en
intervalos, y que consiste en formar grupos de valores
consecutivos, llamados intervalos, y poner uno de estos grupos en
cada fila, en lugar de poner cada valor individual por separado. A
continuacin se calculan las frecuencias absolutas conjuntas de los
valores incluidos en el intervalo haciendo lo mismo despus con las
frecuencias relativas, las absolutas acumuladas y las relativas
acumuladas. En las distribuciones de frecuencias con valores
agrupados en intervalos aparecen algunos elementos nuevos:Se llama
intervalo a cada uno de los grupos de valores que ocupan una fila
en una determinada distribucin de frecuencias.Se llaman lmites
aparentes o informados de un intervalo a los valores mayor y menor
que puede adoptar la variable dentro de ese intervalo mencionado.Se
llaman lmites exactos de un intervalo a los valores mximo y mnimo
que estn incluidos en dicho intervalo.Se llama punto medio de un
intervalo a la suma de sus lmites exactos partido por dos.Se llama
amplitud de un intervalo a la diferencia entre su lmite exacto
superior y su lmite exacto inferior. Se representa por la letra I.
Hay tres reglas y algunas directrices para hacer una distribucin de
frecuencias: a) El intervalo superior debe incluir al mayor valor
observado.
b) El intervalo inferior debe incluir al menor valor
observado.
c) Cada intervalo debe incluir el mismo nmero de valores. Pero
al ser muchas las agrupaciones diferentes que se pueden realizar,
para decidir entre ellas hay que tener presentes algunas
directrices basadas en dos guas principales: a) dado que el
objetivo de una distribucin es conseguir una ordenacin manejable
que ayude a comprender el significado de los datos, no es
conveniente que el nmero de intervalos sea demasiado grande, b) el
nmero apropiado de intervalos debe ser tal que, simultneamente, con
ella se consiga una agrupacin operativa y que cumpla los objetivos
para los que ha sido diseada la distribucin, pero sin distorsionar
los valores con el error de agrupamiento.Hay casos en los que hacer
un nmero de intervalos siguiente las directrices que acabamos de
plantear distorsionarn demasiado los datos. Para evitar eso se
utilizan lo que se denomina intervalos abiertos, en los cuales no
se pone lmite inferior del intervalo que incluye los valores
menores, el lmite superior del intervalo que incluye los valores
mayores, o no se pone ninguno de estos dos. Y otro de los problemas
que aparecen es el llamado problema de los bordes (se soluciona
incluyendo en la distribucin de frecuencias ciertos
valores).REPRESENTACIONES GRFICASA partir de las distribuciones de
frecuencias se pueden construir representaciones grficas. La funcin
de stas es dar informaciones globales mediante un solo golpe de
vista.a) Diagrama de rectngulos: Se utiliza para variables
nominales u ordinales. Para hacer un diagrama de rectngulos se
colocan en el eje de abscisas las modalidades (o los nmeros que las
representan), y en el eje de ordenadas las frecuencias (puede ser
absolutas o relativas simples o acumuladas). Sobre cada modalidad
se levanta un rectngulo cuya altura es la frecuencia
correspondiente.
b) Perfil octogonal: Se utiliza mucho en informes
psicopedaggicos o de rendimiento. Se colocan puntos en cada posicin
y se unen mediante lneas rectas.
c) Pictograma: Son representaciones en forma de crculos en los
que stos son divididos en secciones cuya superficie es proporcional
a la frecuencia de la modalidad correspondiente.
d) Diagrama de barras: Se utiliza en variables cuantitativas
discretas. En el eje de abscisas se colocan los distintos valores
de la variable y en el eje de ordenadas las frecuencias. Sobre cada
valor de la variable se traza una lnea o barra perpendicular cuya
altura debe ser igual a la frecuencia.
e) Histograma: Se utiliza para variables cuantitativas continuas
con datos agrupados en intervalos. En el eje de abscisas se colocan
los lmites exactos de los intervalos, y en el eje de ordenadas las
frecuencias. Sobre cada intervalo se levanta un rectngulo cuya
altura sea igual a la frecuencia correspondiente.
f) Polgono de frecuencias: Para variables discretas, el polgono
es la figura que resulta de unir los extremos superiores de las que
hubieran sido las barras.
g) Diagrama de barras acumuladas: Se utiliza en variables
discretas. En el eje de abscisas se colocan los valores de la
variable y en el de ordenadas las frecuencias acumuladas, absolutas
o relativas. Sobre cada valor se traza una perpendicular cuya
longitud sea igual a la frecuencia acumulada. Desde el extremo
superior de cada una de estas barras se traza una lnea horizontal
que se une con la barra situada a su derecha.
h) Polgono de frecuencias acumuladas: Se utiliza en variables
continuas. El eje de abscisas se construye igual que en los
histogramas, pero en el de ordenadas se incluyen las frecuencias
acumuladas, ya sean absolutas o relativas. Sobre cada lmite se
levanta una perpendicular cuya longitud sea idntica a la frecuencia
acumulada y se une con los extremos superiores de dichas
perpendiculares.
i) Otros dibujos: Muchas veces se utilizan otras
representaciones, en las que se incluyen los objetos de los que se
estn haciendo recuentos de frecuencias, a algn smbolo que los
identifique de forma muy expresiva.
Convenciones sobre las representaciones grficas: Aunque las
representaciones grficas de los datos incluidos de una distribucin
de frecuencias pueden realizarse de muy distintas formas, vamos a
establecer algunas convenciones para unificar criterios, as como a
sugerir algunas directrices:
a) En el eje de abscisas colocamos los valores de la variable, y
en el de ordenadas las frecuencias (cualquiera)
b) La interseccin de los dos ejes es el origen (de izquierda a
derecha y de arriba abajo, in crescendo)
c) Si el valor mnimo del deje de abscisas fuera excesivamente
grande, se debe cortar la lnea
d) Conviene incluir en cada grfico toda la informacin posible
para evitar ambigedades y facilitar su interpretacin a otras
personas o a nosotros mismos al cabo de un tiempo
e) Cuando en un mismo grfico se representan dos o ms grupos
simultneamente, y stos son de tamaos considerablemente distintos,
se deben utilizar frecuencias relativasTendenciosidad en las
representaciones grficas: Las representaciones grficas pueden
utlizarse de manera tendenciosa para inducir impresiones engaosas e
interesadas. Un primer mtodo consiste en recortar el eje de
ordenadas, eliminando los menores valores de frecuencias con la
excusa de que no hay ninguna observacin que los adopte. Esto tiene
como consecuencia que pequeas diferencias parezcan mayores. Un
segundo tipo de distorsin se produce cuando se utilizan figuras
representativas de aquello que se est midiendo. Estas figuras
suelen hacerse proporcionando sus alturas a las frecuencias
correspondientes. Sin embargo, el incremento de la altura conlleva
tambin un incremento en la anchura. Como consecuencia de ello, la
superficie de las figuras no guarda relacin con las frecuencias
observadas, dando la impresin de que la diferencia es mayor que la
real.PROPIEDADESLos conjuntos de datos de variables cuantitativas
obtenidos en muestras, y que hemos organizado mediante
distribuciones de frecuencias, tienen algunas caractersticas. Son
cuatro:a) Tendencia central: Se refiere a la magnitud general de
las observaciones hechas. Esta magnitud general puede cuantificarse
mediante unos ndices conocidos como ndices de tendencia central o
promedios y que reciben ese nombre porque pretenden ser sntesis de
los valores de la variable.
b) Variabilidad: Esta propiedad se refiere al grado de
concentracin de las observaciones en torno al promedio. Una
distribucin ser homognea o poco variable si los datos difieren poco
entre si, y por tanto, se agolpan en trono a su promedio. Ser
heterognea o muy variable si los datos se dispersan mucho con
respecto al promedio. Esta propiedad es independiente de la
anterior, es decir, dos grupos que tengan distinta variabilidad
pueden tener tendencias centrales muy distintas o similares.
c) Asimetra o sesgo: Esta propiedad se refiere, por tanto, al
grado en que los datos tienden a concentrarse en los valores
centrales, en los valores inferiores al promedio, o en los valores
superiores a ste. Existe simetra perfecta cuando en caso de doblar
la representacin grfica por una vertical trazada sobre la media,
las dos mitades se superponen perfectamente.
d) Curtosis: Se refiere al grado de apuntamiento de la
distribucin. Si es muy apuntada, se llama leptocrtica, y si es muy
aplastada, se llama platicrtica. Generalmente el grado de curtosis
de una distribucin se compara con un modelo de distribucin llamado
distribucin normal, y que respecto a la curtosis se llama
distribucin mesocrtica, pues est entre los dos tipos de curtosis
existentes.--------------------------------------------------------------------------------------------------------------------------------------------
Captulo 3: Medidas de posicin
Que una persona saque 35 en un test de inteligencia no nos da
ningn parmetro de si es bueno o malo. Normalmente lo que nos
interesa es poder hacer una valoracin de las puntuaciones, y esto
slo puede hacerse en trminos relativos, y con respecto a un grupo
de referencia. Para hacer estas valoraciones relativas se pueden
utilizar las llamadas medidas de tendencia central, que son ndices
diseados especialmente para revelar la situacin de una puntuacin
con respecto a un grupo, utilizando a ste como marco de referencia.
Un tipo concreto de medida de posicin son las llamadas medidas de
tendencia central.Centiles o percentiles: Son 99 valores de la
variable que dividen a la distribucin en 100 secciones, cada una
conteniendo a la centsima parte de las observaciones. Se simboliza
por C28 a aquella puntuacin que deja por debajo de si al 28 por 100
de las observaciones y que es superada por el 72 por 100. Los
centiles no suelen calcularse con cantidades de pequeos datos, y
cuando es necesario hacerlo se obtienen sencillamente ordenando las
puntuaciones y calculando la proporcin de stas que superan al valor
que se quiere comparar. Por ejemplo, si un individuo obtiene la
puntuacin 35 y sabemos que C90=35, quiere decir que la puntuacin de
ese sujeto coincide con el centil 90 y, por lo tanto, supera a las
del 90 por 100 de las observaciones del grupo de referencia,
mientras que es superada por solamente el 10 por 100.
Normalmente las distancias entre centiles, en trminos de
puntuacin, no sern constantes. Generalmente las distancias entre
los centiles intermedios sern menores que las distancias entre
centiles extremos. Normalmente los centiles se obtienen sobre datos
agrupados en intervalos, y en su clculo se asume el supuesto de
distribucin homognea intraintervalo. Frmula:
El intervalo crtico es aquel que contiene la puntuacin que
buscamos.Deciles: Son 9 puntuaciones que dividen a la distribucin
en 10 partes, cada una conteniendo al 10 por 100 de las
observaciones. Se representa por Dk, donde k indica el nmero del
decil al que se refiere. As, D4 es la puntuacin que deja por debajo
de si al 40 por 100 de las observaciones y por encima de si al 60
por 100. Por supuesto, existe una equivalencia directa entre los
deciles y los centiles, de forma que el decil primero es igual al
C10. La frmula para calcular los deciles es la misma que la de los
centiles correspondientes a cada decil.
Quartiles: Son 3 puntuaciones que dividen a la distribucin en 4
partes, cada una conteniendo al 25 por 100 de las observaciones. Se
representan por Qk donde k indica el nmero del cuartil al que se
refiere. Existe una equivalencia directa entre los distintos
cuantiles. Gracias a esta equivalencia, las frmulas de clculo de
los cuantiles se resumen en la de los centiles correspondientes al
cuantil que se quiera.
--------------------------------------------------------------------------------------------------------------------------------------------Captulo
4: Medidas de tendencia centralDe todas las posiciones que hay en
un grupo de referencia, hay una (la que representa la posicin
central), suele suscitar una mayor inters que las dems. Se trata de
las medidas de tendencia central. Son ndices que actan como
resmenes numricos de las observaciones hechas. Representan la
magnitud general observada en los valores. Tambin sirven para
comparar conjuntos de valores. Dado que no se pueden comparar
distribuciones completas, lo que se comparan son ciertas
caractersticas resumen de stas. MEDIA ARITMTICAEl ndice de
tendencia central ms utilizado. Se define como la suma de los
valores observados, dividida por el nmero de ellas. Por tanto, si
recogemos n observaciones de la variable X, entonces la media de
los valores observados es determinada por la siguiente frmula: X=Se
dice que la media es un valor tal que, si apoyamos ese eje en un
poste situado a la altura del valor correspondiente a la media, el
conjunto quedar en equilibrio. Es decir, la media se comporta como
si fuera una especie de centro de gravedad de la distribucin.
El procedimiento para hacer los clculos de la media con datos
agrupados en una distribucin de frecuencias: Propiedades de la
media aritmticaA las puntuaciones que hemos venido tratando hasta
aqu, y que no son ms que los valores brutos, las denominaremos a
partir de ahora puntuaciones directas y las representaremos por la
letra de la variable en mayscula. Por el contrario, a las
diferencias de cada sujeto con respecto a la media grupal las
denominaremos puntuaciones diferenciales y las representaremos por
la letra minscula. Por lo tanto:Con las puntuaciones diferenciales
podemos dar una informacin ms precisa que con las directas. Las
propiedades de la media aritmtica se describen a continuacin:
1) La suma de las diferencias de n puntuaciones con respecto a
su media o puntuaciones diferenciales es igual a cero. Frmula:La
razn por la que la suma de las diferenciales es igual a cero es que
unas son positivas y otras negativas (las que superan la media y
las que quedan por debajo de ella) y se compensan con otras. 2) La
suma de los cuadrados de las desviaciones de unas puntuaciones con
respecto a su media es menor que con respecto a cualquier otro
valor. Es decir:A veces nos interesar sumar a las puntuaciones
observadas una cantidad constante, y en esos casos tambin nos
interesar conocer la media de las nuevas puntuaciones.3) Si sumamos
una constante a un conjunto de puntuaciones, la media aritmtica
quedar aumentada en esa misma constante. Es decir: 4) Si
multiplicamos por una constante a un conjunto de puntuaciones, la
media aritmtica quedar multiplicada por esa misma constante. Es
decir: En algunos casos contamos con la media de varios grupos en
una variable y nos interesa conocer la media de todas las
observaciones juntas. Su frmula suele denominarse media
ponderada.5) La media total de un grupo de puntuaciones, cuando se
conocen los tamaos y medias de varios subgrupos hechos a partir de
un grupo total, mutuamente exclusivos y exhaustivos, puede
obtenerse ponderando las medias parciales a partir de los tamaos de
los subgrupos en que han sido calculadas:Otra situacin
relativamente frecuente es aquella en la que se forma una variable
a partir de una combinacin lineal de dos o ms variables, e interesa
conocer la media de la variable resultante.
6) Una variable definida como la combinacin lineal de otras
variables tiene como media la misma combinacin lineal de las medias
de las variables intervinientes en su definicin. Es decir:MEDIANAEs
el ndice, la puntuacin que es superada por la mitad de las
observaciones pero no por la otra mitad. Para su clculo podemos
encontrarnos en dos casos generales, aquel en el que contamos con
un nmero impar de observaciones y aquel en que nos encontramos con
un nmero par de ellas. En el primero se toma como mediana el valor
central, en el segundo se da la circunstancia de que cualquier
valor comprendido entre los dos centrales cumple con la definicin
de la mediana. La mediana corresponde al C50, al D5 y al Q2. Por
tanto, la mediana se obtiene como el C50. Segn el caso, se obtiene
el valor central o el par de valores.MODA
Una tercera va para representar la tendencia central de un
conjunto de valores consiste en informar del valor ms
frecuentemente observado. En esta idea se basa nuestro tercer ndice
de tendencia central, la moda, que se representa por Mo, y se
define sencillamente como el valor de la variable con mayor
frecuencia absoluta. En algunos casos puede llegar a haber dos
modas (se dice que es una distribucin bimodal).COMPARACIN ENTRE
MEDIDAS DE TENDENCIA CENTRAL. Con qu criterios elegimos uno sobre
los dems para representar la magnitud general observada en unos
valores o para comparar la de dos o ms grupos de valores? Si no hay
ningn argumento de peso en contra, se preferir siempre la media.
Hay dos razones para apoyar esta normal general. La primera es que
en ella se basan otros estadsticos y la segunda es que es mejor
estimador de su parmetro que la mediana y la moda. Este segundo
argumento significa que, en trminos generales, las medias halladas
sobre muestras representativas se parecen ms a la media poblacional
que lo que se parecen las medianas y modas muestrales a la mediana
y la moda poblacional. Hay al menos tres situaciones en las que se
preferir la mediana a la media: a) cuando la variable est medida en
una escala ordinal; b) cuando haya valores extremos que
distorsionen la interpretacin de la media y c) cuando haya
intervalos abiertos. Este tercer y ltimo caso se refiere a
situaciones en las que el intervalo superior carece de lmite
superior, el intervalo inferior carece de lmite inferior, o ambas
cosas a la vez. La mediana ser la segunda candidata para
representar la tendencia central y por tanto, si no hay argumentos
de peso en contra, se preferir la mediana a la moda. Pero hay al
menos dos situaciones en las que se dar esa preferencia: a) cuando
se trate de una variable medida en una escala nominal, b) cuando
haya intervalos abiertos y la mediana pertenezca a uno de ellos. En
algunos casos los tres ndices de tendencia central dan valores
parecidos, o incluso pueden coincidir
exactamente.--------------------------------------------------------------------------------------------------------------------------------------------Captulo
5: Medidas de variacin
Tal como se vio en captulos anteriores, los conjuntos de datos
no deben describirse slo mediante medidas de tendencia central,
puesto que dos conjuntos de puntuaciones pueden tener la misma
media y ser, sin embargo, muy distintos. Para conseguir una visin
completa y comprensiva de los datos hay que complementar las
medidas de tendencia central con las de otras propiedades de los
mismos. Una de las propiedades ms importantes de los conjuntos de
datos es el grado en que stos se parecen o se diferencian entre si.
Esta propiedad se denomina variabilidad, dispersin u homogeneidad,
y es diferente de la tendencia central (ej: hermano divide
tierras). Puede haber grupos con la misma tendencia central y
variabilidad diferente, y viceversa.Aunque hay muchos
procedimientos para cuantificar la variabilidad, los ms importantes
son la VARIANZA y la DESVIACIN TPICA, mientras que otros ndices
tienen una importancia menor. A continuacin, se describen:
VARIANZA Y DESVIACIN TPICAUna idea que se ha demostrado til a
las hora de cuantificar la variabilidad es la de trabajar con las
distancias desde los valores hasta algn poste central, que podra
ser la media aritmtica, y basar la medicin de la dispersin en algn
tipo de separacin promedio hasta ese poste. Sin embargo tambin
vimos en el tema anterior que la suma de las diferenciales es
necesariamente igual a cero. Una solucin al problema de que las
distancias con respecto a la media sumen cero consiste en elevar al
cuadrado esas distancias antes de hallar su promedio, dado que los
cuadrados son siempre positivos. El ndice basado en esta idea se
llama varianza, y se representa por la expresin S2x, donde el
subndice recoge la letra con la que se representa la variable.
Cuando se quiere describir el grado de variabilidad de un grupo de
valores basta con obtener este ndice. La frmula es la
siguiente:
La cuestin que puede surgir es la de cmo valorar el grado de
dispersin cuantificando mediante este ndice. Dado que valores de
varianzas que pueden ser normales en ciertas variables y
poblaciones podran parecer exagerados en otros casos, no tiene
sentido comparar varianzas halladas sobre variables distintas. La
varianza sirve sobre todo para comparar el grado de dispersin de
dos o ms conjuntos de valores en una misma variable, llegando a
conclusiones como la siguiente: la poblacin de hombres presenta una
mayor variabilidad en su estatura que la poblacin de mujeres, que
son ms homogneas en esa caracterstica. La razn de esta discrepancia
es que las distancias no se han tratado como tales, sino que para
evitar el problema de que las diferenciales sumen cero se han
elevado stas al cuadrado. Por ello es frecuente, con objeto de
retomar las unidades originales de esas distancias, se calcule la
raz cuadrada de la cantidad obtenida. Al ndice as hallado se lo
llama desviacin tpica, se representa por Sx y se define
sencillamente como la raz cuadrada de la varianza. La frmula:
La desviacin tpica es un mejor descriptor de la variabilidad,
aunque la varianza tenga algunas notables propiedades matemticas
que la hacen idnea para basar en ella los anlisis estadsticos
complejos. Las variaciones entre los datos estn reflejando
variaciones en las caractersticas que estn estudiando, y que en
psicologa suelen ser indicadores de variables psicolgicas o
mediciones del comportamiento. La variabilidad de los datos
reflejando el hecho incuestionable de las diferencias individuales.
Uno de los objetivos de la psicologa es precisamente la explicacin
sistemtica de esas diferencias, en tanto en cuanto presentan
regularidades asociadas a segundas o terceras variables. No siempre
son la varianza y la desviacin tpica los ndices ms apropiados para
representar la variabilidad de un grupo de datos. Hay veces en que
algn dato extremo distorsionara su interpretacin, en otras
ocasiones la variable est medida en una escala ordinal y en otras
no se puede calcular.CLCULOEl clculo de la varianza puede siempre
hacerse por medio de la frmula que la define, pero en muchas
ocasiones resulta ms prctico utilizar otras frmulas derivadas de
aqulla, y en cualquier caso es necesario adaptar la frmula a
aquellas situaciones en las que los valores estn agrupados en
intervalos. La varianza es tambin igual a la media de las
puntuaciones directas elevadas al cuadrado menos el cuadrado de la
media. Esta frmula resultar til en ciertos casos:
PROPIEDADESEn primer lugar, hay que destacar que un conjunto de
valores puede mostrar un mayor o menor grado de homogeneidad, pero
el grado ms pequeo posible de homogeneidad se produce cuando todos
los valores son idnticos. En ese caso las desviaciones de los
valores con respecto a su media son todas cero y en consecuencia
tambin es igual a cero la media de sus cuadrados, por tanto, se es
el mismo valor que puede adoptar la varianza. Igualmente, como
desviacin tpica se toma la raz positiva de la varianza.
1) La varianza y la desviacin tpica, como medidas de la
dispersin, son valores esencialmente positivos. A veces interesa
transformar las puntuaciones observadas sumando una constante y/o
multiplicando por otra constante, tal y como vimos al exponer las
propiedades de la media. En esos casos no har falta calcular la
varianza de las puntuaciones transformadas, sino que podr deducirse
conociendo la varianza de las puntuaciones originales.
2) Si sumamos una constante a un conjunto de puntuaciones, su
varianza no se altera. Si la transformacin consiste en multiplicar
por una constante, la varianza si se ve alterada. Conociendo la
varianza de las puntuaciones originales y la constante multiplicada
se puede obtener fcilmente la varianza de las puntuaciones
obtenidas mediante la multiplicacin de la constante.
3) Si multiplicamos por una constante a un conjunto de
puntuaciones, la varianza quedar multiplicada por el cuadrado de la
constante, y la desviacin tpica por el valor absoluto de esa
constante. En ciertas ocasiones conocemos las varianzas de varios
subgrupos y se quiere obtener la varianza del grupo total. Esto se
puede conseguir aplicando una propiedad que relaciona la varianza
de todas las puntuaciones juntas con las varianzas, medias, y
tamaos de los subgrupos.
4) La varianza total de un grupo de puntuaciones, cuando se
conocen los tamaos, las medias, las varianzas de varios subgrupos
hechos a partir del grupo total, mutuamente exclusivos y
exhaustivos, puede obtenerse sumando la media (ponderada) de las
varianzas y la varianza (ponderada) de las medias.El hecho de que
la desviacin tpica sea un ndice de la dispersin de los datos, y por
tanto pueda tomarse como medida interna de las distancias entre las
puntuaciones y la media, hace que exista una relacin muy estrecha
entre esas distancias y las observaciones que abarcan las
puntuaciones en funcin de su distancias hasta la media. Esta
relacin qued demostrada en la desigualdad de Tchebychev que se
puede describir as:
La desiguadad de Tchebychev recoge el hecho de que las
distancias menores hasta la media son ms frecuentes que las
distancias mayores. As, entre las puntuaciones correspondientes a
la media +- una desviacin tpica se encontrarn menos observaciones
que entre las puntuaciones correspondientes a la media +- una
desviacin tpica y media, y a su vez entre stas habr menos que entre
las correspondientes a la media +- dos desviaciones tpicas. Segn la
desigualdad de Tchebychev, el porcentaje de puntuaciones que quedan
entre las correspondientes a la media +- k desviaciones tpicas es,
como mnimo el (1- 1/k2) por 100 de las observaciones.
OTRAS MEDIDAS DE VARIACINNo siempre se puede calcular la
varianza, ni tampoco es siempre lo ms apropiado. Una forma muy
sencilla de indicar el grado de dispersin consiste en calcular la
distancia entre el mayor y el menor de los valores observados. Este
ndice se llama amplitud total, rango o recorrido y se obtiene
sencillamente hallando la diferencia entre los valores extremos.
Distincin entre ambos tipos de amplitud, que se denominan rango
excluyente y rango incluyente, usadas en variables discretas y
continuas. Esto es muy sensible a los valores extremos y nada
sensibles a los intermedios, pudiendo carecer de toda
representatividad. Otro inconveniente de este ndice es que est
ligado al tamao de la muestra utilizada. Si se quiere comprara la
variabilidad de las dispersin de dos conjuntos de datos de tamao
marcadamente distinto, es probable que la muestra de mayor tamao
presente una mayor amplitud aunque las poblaciones de referencia
tengan la misma variabilidad. Desviacin media: Tomar las
desviaciones c respecto a la media, o puntuaciones diferenc, en
valores absoluto. Amplitud semi-intercuartil: Basada en las
puntuaciones correspondientes a los cuartiles primero y
tercero.
Coeficiente de variacin: A veces se desea comparar la
variabilidad de grupos cuya media es distinta. Este ndice es
expresado como un porcentaje. Este ndice puede construirse como un
ndice de la representatividad de la media. Cuanto mayor es el
coeficiente de variacin, menos representativa es la media.
--------------------------------------------------------------------------------------------------------------------------------------------Captulo
6: Puntuaciones tpicas y escalas derivadasDado que el valor
observado en un individuo, sujeto o unidad de investigacin,
representa la magnitud que esa unidad manifiesta en la variable,
una prctica comn consistir en comparar las magnitudes mediante la
comparacin de los valores asociales a ellas. Otras soluciones, que
se basan en la transformacin de las puntuaciones observadas en
otras que, sin perder o distorsionar la informacin contenida en las
puntuaciones originales, permitan una comparacin directa de las
mismas. Los instrumentos desarrollados para ello son las
puntuaciones tpicas y las escalas derivadas.PUNTUACIN TPICA
Las puntuaciones diferenciales son informaciones insuficientes
para comparar puntuaciones de sujetos pertenecientes a distintos
grupos o a dist variables. Las puntuaciones tpicas, se representa
por letra z. Frmula: Al proceso de obtencin de las puntuaciones
tpicas se llama tipificacin.
La puntuacin tpica de una observacin indica el nmero de
desviaciones tpicas que esa observacin se separa de la media del
grupo de observaciones.Las puntuaciones tpicas permiten, por tanto,
hacer comparaciones entre unidades de distintos grupos, entre
variables medidas de distintas formas, o incluso entre variables
diferentes. En cualquier caso, las puntuaciones tpicas siempre nos
indicarn el nmero de desviaciones tpicas (de las de ese grupo y
variable) que se separan de la media (de ese grupo y variable) y si
esa desviacin es por encima o po debajo de la media (segn el signo
de la puntuacin tpica). Esta simplificacin es de suma utilidad, y
se traduce en que las puntuaciones tpicas tienen unas
caractersticas de tendencia central y variabilidad constantes. Las
tpicas no son ms que una transformacin lineal que consiste en
multiplicar las directas por una constante (el inverso de la
desviacin tpica) y luego sumar a esos productos otra constante (el
cociente entre la media y la desviacin tpica, con signo negativo).
Frmula:
Las caractersticas de las puntuaciones tpicas son universales,
no dependen del tipo de puntuaciones ni de su dispersin, ni de su
nmero. La media de las puntuaciones tpicas es cero, mientras que su
varianza y desviacin tpica son iguales a uno. Las puntuaciones
tpicas reflejan las relaciones esenciales entre las puntuaciones,
con independencia de la unidad de medida que se haya utilizado en
la medicin. Cuando en dos conjuntos de puntuaciones, emparejadas
con algn criterio, a los elementos de cada para les corresponde la
misma puntuacin tpica dentro de su conjunto, puede decirse que
mantienen la misma estructura interna, y se dice entonces que son
puntuaciones equivalentes.ESCALAS DERIVADASA pesar de que las
puntuaciones tpicas tienen las indudables ventajas que hemos
descrito anteriormente, tambin tienen algunos inconvenientes.
Inconvenientes que surgen de las desviaciones tpicas. En concreto y
dado que la media de las tpicas es cero y su desviacin tpica uno,
buena parte de las puntuaciones suelen ser negativas, y casi todas
decimales. Esto hace que resulte incmodo su tratamiento y que
muchas veces se busquen procedimientos que permitan superar esta
dificultad. Un procedimiento consiste en transformar las
puntuaciones tpicas en otras que retengan todas las relaciones que
manifiestan las puntuaciones originales, por tanto que sean
puntuaciones equivalentes, pero evitando la dificultad operativa, y
que constituyen lo que se denomina una escala derivada. Estas
transformaciones se basan en una propiedad de las puntuaciones
tpicas.Si transformamos linealmente las puntaciones tpicas,
multiplicndolas por una constante a, y sumando una constante b,
entonces las puntuaciones transformadas tendrn como media la
constante sumada b, como desviacin tpica el valor de la constante
multiplicada, |a| y como varianza el cuadrado de esta constante,
a2.En resumen la construccin de una escala derivada parte de unas
puntuaciones directas, stas se tipifican, y despus se transforman
linealmente en otras puntuaciones. La cuestin fundamental de las
escalas derivadas consiste en transformar las puntuaciones
originales, Xi, en otras puntuaciones transformadas, Ti, tales que
sean ms cmodas de tratar e interpretar, pero que a la vez retengan
las relaciones comerciales entre los valores, es decir, que sean
puntuaciones equivalentes.
--------------------------------------------------------------------------------------------------------------------------------------------Captulo
7: Medidas de asimetra y curtosis
Adems de la tendencia central y la variabilidad hay otras dos
caractersticas con las que se pueden describir y comparar las
distribuciones de frecuencias. Estas dos caractersticas, aunque de
menor importancia con respecto a las anteriores, ayudan a entender
mejor las diferencias entre los grupos; se trata de la asimetra y
la curtosis.
NDICES DE ASIMETRA
El grado de asimetra de una distribucin hace referencia al grado
en que los datos se reparten equilibradamente por encima y por
debajo de la tendencia central. Una distribucin equilibrada sera
aquella en la que las frecuencias se repartiesen imparcialmente en
torno de la media. Se han propuesto diferentes ndices con los que
cuantificar esta propiedad, de los que aqu vamos a exponer tres.
Relacin entre la media y la moda: Se define como la distancia entre
la media y la moda, medida en desviaciones tpicas, es decir: la
media es inferior a la moda, y por tanto este ndice dar un valor
negativo; la media es superior y el ndice dar positivo; coinciden
los dos ndices de tendencia central y por tanto el ndice de
asimetra dar cero. Las distribuciones como las primeras tienen
asimetra negativa y el ndice da valores menores que cero; las del
segundo tipo asimetra positiva, y este ndice da valores mayores que
cero. En las ltimas se dice que son distribuciones simtricas,
puesto que no estn inclinadas hacia ningn lado; este ndice da en
ellas valores en torno a cero y si la simetra es perfecta entonces
da exactamente cero. Este ndice tiene la dificultad de que slo se
puede calcular en distribuciones unimodales. ndice de asimetra de
Pearson: Es igual al promedio de las puntuaciones tpicas elevadas
al cubo. Los valores menores que cero indican asimetra negativa,
los mayores que cero asimetra positiva y los valores en torno a
cero indican distribuciones aproximadamente simtricas. Es el ndice
ms utilizado. ndice de asimetra intercuartlico: Se basa, en los
cuartiles. Su frmula:
La interpretacin es similar a la de los ndices anteriores. Los
valores mayores de cero indican asimetra positiva, los menores
indican asimetra negativa y los valores en torno a cero reflejan
distribuciones simtricas. Tienen una ventaja sobre los ndices
anteriores, y es que tiene un valor mximo y mnimo con lo que se
facilita su interpretacin en trminos relativos.NDICES DE
CURTOSISSolo vamos a estudiar el que se basa en el promedio de las
tpicas elevadas a la cuarta potencia. Su frmula es:
Quizs lo que ms sorprenda sea el hecho de que al promedio de las
tpicas elevadas a la cuarta potencia se le reste un tres. La razn
es que existe un modelo de distribucin, del que hablaremos en temas
posteriores, en el que ese promedio da exactamente igual a tres. Al
restar un tres al ndice, lo que se consigue es utilizar ese modelo
como patrn de comparacin. Una distribucin en la que el ndice sea
igual a cero tienen un grado de curtosis similar al de la
distribucin normal, y se dice que es mesocrtica, mientras que si es
positivo su grado de apuntamiento es mayor que el de la distribucin
normal, y se dice que es una distribucin leptocrtica y si es
negativo su apuntamiento es menor que el de la distribucin normal y
se dice que es
platicrtica.--------------------------------------------------------------------------------------------------------------------------------------------Captulo
8: Correlacin lineal
Uno de los objetivos principales de la ciencia consiste en
descubrir las relaciones entre variables, y la estadstica ha
desarrollado instrumentos apropiados para esta tarea. La observacin
de relaciones claras y estables entre las variables ayuda a
comprender los fenmenos y a encontrar explicaciones de los mismos,
e indica las vas probablemente ms eficaces para intervenir sobre
las situaciones. El estudio de las relaciones lineales, es
aplicable exclusivamente a las variables de intervalo.
REPRESENTACIN GRFICA DE UNA RELACINSe dice que dos variables X e
Y mantienen una relacin lineal directa cuando los valores altos en
Y tienden a emparejarse con valores altos en X, los valores
intermedios en Y tienden a emparejarse con valores intermedios en
X, y los valores bajos en Y tienden a emparejarse con valores bajos
de X.Se dice que dos variables X e Y mantienen una relacin lineal
inversa cuando los valores altos en Y tienden a emparejarse con
valores bajos en X, los valores intermedios en Y tienden a
emparejarse con valores intermedios en X, y los valores bajos en Y
tienden a emparejarse con valores altos en X.Se dice que hay
relacin lineal nula entre dos variables cuando no hay un
emparejamiento sistemtico entre ellas en funcin de sus valores.Al
hacer una representacin grfica conjunta de dos variables pueden
apreciarse visualmente estos tres tipos de relacin. Para ello se
identifican los pares de valores y se sealan los correspondientes
puntos en unos ejes de coordenadas. Estas nubes de puntos reciben
el nombre de diagramas de dispersin.CUANTIFICACIN DE UNA RELACIN
LINEALUn primer procedimiento consistira en hallar el promedio de
los productos cruzados de las puntuaciones diferenciales. Al hablar
de productos cruzados nos referimos al producto, para cada sujeto o
caso, de sus valores en las dos variables, es decir Xi Y. Estos
productos pueden obtenerse con puntuaciones directas, diferenciales
o tpicas. Cada figura est separa en cuatro cuadrantes, y los puntos
estarn en uno u otro dependiendo de que la observacin supere o no
la media de X y/o la media de Y. En concreto, si supera ambas
medias, el punto aparecer en el cuadrante superior derecho (NE), si
supera la media de X pero no la de Y, como el par aparecer en el
cuadrante inferior derecho (SE); si supera la de Y pero no la de X,
aparecer el cuadrante superior izquierdo (NO); sino supera ninguna
de las medias, aparecer en el cuadrante inferior izquierdo (SO). Al
tratar con puntuaciones diferenciales, stas sern positivas si
superan la media y negativas en caso contrario. Por tanto, aquellas
observaciones que aparezcan en los cuadrantes NE o SO tendrn
productos cruzados positivos, mientras que las que aparezcan en los
cuadrantes NO o SE tendrn productos cruzados negativos. El promedio
de productos cruzados de diferenciales tender a dar positivo si la
relacin es directa, negativo si es inversa, y en torno a cero si es
nula, y a dems su valor absoluto ser mayor cuanto ms acusada sea la
tendencia a la linealidad en el diagrama de
dispersin.PROPIEDADES
La razn principal por la que la covarianza no llegaba a
satisfacer completamente la necesidad de un ndice de la asociacin
lineal era la dificultad de su valoracin, dado que careca de un
mximo y un mnimo estables. Puesto que hemos destacado su
alternativa principal, el coeficiente de correlacin de Pearson,
precisamente porque no tiene esa dificultad. El coeficiente de
correlacin de Pearson no puede valer ms de +1 ni menos de -1
Si hacemos transformaciones lineales de una o las dos variables,
en las que las constantes multiplicadoras son positivas, la
correlacin de Pearson no se altera.VALORACIN E INTERPRETACIN
En la interpretacin de una correlacin de Pearson hay que separar
dos aspectos distintos: su cuanta y su sentido. La cuanta se
refiere al grado en el que la relacin entre dos variables queda
bien descrita con un ndice de asociacin lineal como r, mientras que
el sentido se refiere al tipo de relacin. Una correlacin en torno a
cero indica una relacin lineal baja o nula; una correlacin positiva
indica una relacin lineal directa, mientras que una correlacin
negativa indica una relacin lineal inversa. Cuanto ms cercano quede
un coeficiente del valor cero, menos apto es el modelo lineal como
descripcin de la relacin entre las variables. Por el contrario,
cuanto ms se acerque a los extremos, mejor describe esa relacin.
Reuchlin
Captulo 1: carcter variable de las conductasVariaciones
previsibles y variaciones imprevisibles: las variaciones de las
conductas son previsibles cuando se conoce la situacin, el momento
o la persona. Por otra parte, estas variaciones de las conductas
son imprevisibles a partir de las informaciones de las que dispone
el observador. El psiclogo utiliza a menudo el mtodo estadstico
precisamente porque este mtodo permite tratar con ms eficacia las
observaciones que presentan a la vez variaciones previsibles y
variaciones imprevisibles.
Las fuentes de variacin y anlisis estadstico: las variaciones
que son imprevisibles porque no estn asociadas a ninguna fuente de
variacin sistemtica. Las variaciones imprevisibles se atribuyen as
a un conjunto de fuentes fortuitas de variacin para el
experimentador o encuestador. Las variaciones que son previsibles
porque estn asociadas a fuentes sistemticas de variacin. Si las
variaciones as previstas no son mayores que las variaciones
imprevisibles, el psiclogo comprobar que no se verifica su hiptesis
sobre el efecto de las fuentes sistemticas de variacin que haba
credo introducir en la experiencia o en la encuesta. La comparacin
entre la amplitud de las variaciones previsibles y la amplitud de
las variaciones imprevisibles permite interpretar los resultados de
la experiencia o de la encuesta e identificar, a la vez, algunas
fuentes sistemticas de variacin.
Ponderacin de una fuente sistemtica de variacin: cuando el
experimentador o el encuestador hace la hiptesis de que varias
fuentes sistemticas de variacin producen efectos sobre sus
observaciones, comienza en general por verificar si cada una de
ellas tiene efectivamente un efecto no nulo y significativo. El
experimentador podr intentar averiguar cules son las fuentes de
variacin ms importantes, es decir, las que contribuyen ms a las
variaciones de las observaciones.
Ponderacin de las fuentes fortuitas de variacin: debe evaluar el
peso que toman en sus observaciones las fuentes fortuitas de
variacin. Si este peso es grande, con relacin al de las fuentes
sistemticas de variacin, ser difcil poner en evidencia estas
ltimas, reconocer su significado.
Captulo 2: Resmenes estadsticos en el nivel de las escalas
nominalesEl empleo de la estadstica en psicologa: distinguir dentro
de las observaciones las variaciones fortuitas de las variaciones
sistemticas. Para asumir esta funcin del mtodo estadstico procede a
hacer resmenes de series de observaciones. Por qu tiene necesidad
el psiclogo de efectuar resmenes estadsticos de este tipo? Para
poder razonar sobre conjuntos de observaciones: pueden compararse
dos medias o dos grficos. El resumen de una serie de observaciones
puede hacerse de manera que se ponga en evidencia un aspecto
particular de la informacin contenida en estas observaciones y
llegar as a poseer un instrumento de anlisis de esta informacin.
Hay que examinar algunos mtodos que permiten describir una serie de
observaciones en forma resumida y que pueden tener significaciones
diferentes. La eleccin de uno u otro mtodo depender del problema q
plantee el psiclogo. Niveles de medida: tres niveles, estando
definido cada nivel por las propiedades del conjunto de los valores
que pueden obtener mediante las operaciones de medida. Hay una
jerarqua entre estos tres niveles: en cada uno de ellos los nmeros
gozan de todas las propiedades del nivel inferior y de otras
propiedades.
Construccin de la escala nominal: para construir una escala
nominal basta que el psiclogo sea capaz de repartir sus
observaciones en un cierto nmero de clases, el conjunto de las
cuales constituye la escala, y que deben poseer las dos propiedades
siguientes: cada observacin debe entrar en una clase y solamente en
una. El que dos observaciones entren o no en la misma clase de
equivalencia no se sigue de un criterio estadstico, sino de un
criterio emprico. Se producen dificultades, ya que hay que definir
el conjunto de clases de manera tal que toda observacin entre
dentro de una clase, luego hay que conseguir que cada observacin no
pueda entrar ms que en una nica clase. Se necesitar adoptar una
definicin precisa de cada clase y verificar que los criterios as
propuestos los comprenden de la misma manera utilizadores
diferentes.
Propiedades de los nmeros en una escala nominal: una vez
realizada esta particin de una serie de observaciones se van a
poder utilizar nmeros para describir y resumir esta serie. Pero
cada uno de estos nmeros designar aqu una clase de observaciones.
Estas operaciones slo permiten decir que una observacin que
pertenece a una clase es diferente de una observacin que pertenece
a otra clase; no permiten decir que la primera es mayor o menor que
la segunda. El nmero de observaciones que pertenecen a una clase es
el efectivo de esta clase.
Entropa: la informacin de la distribucin no permite saber si las
posibilidades de pertenecer a otra clase son muy diferentes o
solamente poco diferentes, dicho de otro modo, si las observaciones
son muy diferentes o poco diferentes, si su distribucin est muy
dispersada o poco dispersada. Se admitir que la dispersin podr ser
tanto mayor cuanto mayor sea el nmero de clases. Para un nmero fijo
de clases, ser mayor si las observaciones se reparten igualmente
sobre todas las clases en vez de concentrarse solamente sobre
algunas clases. Se puede explicitar y cuantificar esta nocin
definiendo y calculando la entropa de la distribucin.