-
2Conceptos previos
Ya en el captulo anterior han empezado a aparecer algunas ideas
fundamentales relacionadascon el anlisis de datos (niveles de
indagacin, escalas de medida). En este captulo continua-remos
revisando algunos conceptos bsicos (variable, poblacin, muestra,
parmetro, estads-tico, muestreo) y ofreciendo una exposicin
resumida de la teora de la probabilidad, la cual,segn tendremos
ocasin de constatar repetidamente, constituye el argumento
matemtico enel que se basan gran parte de los procedimientos
estadsticos que estudiaremos en los prxi-mos captulos.
Tipos de variablesUna variable es la representacin numrica de
una caracterstica sometida a medicin. Reci-be ese nombre porque, al
medir una caracterstica en un conjunto de elementos (por ejemplo,la
altura en un grupo de sujetos), los valores que se obtienen no son
idnticos en todos loselementos medidos (las alturas de los sujetos
varan). Normalmente, la caracterstica medida(la altura) tambin
recibe el nombre de variable, aunque hay quien prefiere reservar el
trminopara el resultado de la medicin (los valores obtenidos al
medir la altura).
Los niveles o escalas de medida descritos en el captulo anterior
sirven para hacer una pri-mera clasificacin de los diferentes tipos
de variables. En principio, podramos decir que exis-ten tantos
tipos de variables como escalas o niveles de medida: nominal,
ordinal, de intervalosy de razn. Pero las consideraciones tericas
del captulo anterior deben ser revisadas cuandose adopta un punto
de vista prctico. Por un lado, la distincin entre medidas de
intervalos yde razn carece por completo de relevancia para el
anlisis de datos: aunque las operacionesaritmticas que tiene
sentido hacer con los nmeros que se obtienen con esas dos medidas
noson las mismas, las operaciones estadsticas s lo son (en
estadstica se suele trabajar con dis-tancias; y eso convierte en
irrelevante el hecho de que el cero de la escala sea absoluto o
no).Por otro lado, las reflexiones ya hechas en relacin con la
medida ordinal ponen de manifiestoque existen serios inconvenientes
para asumir que todas las variables tericamente ordinalesson del
mismo tipo. Estas consideraciones (basadas en las reflexiones
hechas en el captuloanterior sobre el rol de las escalas de medida)
justifican, en nuestra opinin, una clasificacinde los diferentes
tipos de variables en slo dos: categricas y cuantitativas.
-
34 Anlisis de datos (vol. I)
Llamamos variables categricas a las mediciones resultantes de
aplicar una escala nomi-nal (sexo: hombre, mujer; tipo de
tratamiento: A, B, control; resultado del tratamiento:
recu-perados, no recuperados; resultado de un ensayo: acierto,
error; tipo de metas motivacionales:aprendizaje, ejecucin; etc.).
Se incluyen aqu las variables que, aun siendo ordinales, slotienen
unas pocas categoras distintas (clase social: baja, media-baja,
media, media-alta, alta;nivel de estudios: primarios, secundarios,
medios, superiores; etc.).
Llamamos variables cuantitativas a las mediciones que resultan
al aplicar una escala deintervalos o de razn (la temperatura medida
en grados Celsius, la altura medida en cm, elpeso medido en kg, el
tiempo de reaccin medido en milisegundos, el nmero de aciertos
enuna prueba de rendimiento, etc.). Incluimos aqu las variables
que, aun no alcanzando el nivelde medida de intervalos (como
ocurre, por ejemplo, con las puntuaciones en una escala de do-lor
percibido), no est claro que puedan reducirse a un nivel de medida
estrictamente ordinal.Esta ltima afirmacin es especialmente
relevante si se tiene en cuenta que en muchas reasde conocimiento
se utilizan escalas para medir actitudes, satisfaccin, habilidades,
emociones,calidad de vida, estado de salud percibido, etc. Este
tipo de escalas arrojan, en teora, medicio-nes ordinales y, por
tanto, variables tambin ordinales, pero de ese tipo de variables
que yahemos calificado como no estrictamente ordinales y, por
tanto, de las que, en la prctica, pue-den tratarse como si en
realidad fueran cuantitativas. Podramos decir que las
herramientasestadsticas que permiten obtener informacin til con
estas variables que estamos calificandode no estrictamente
ordinales son las herramientas diseadas para analizar variables
cuanti-tativas (de intervalos o de razn). Y no olvidemos que uno de
los principales objetivos delanlisis es el de extraer informacin
til de los datos.
Las variables cuantitativas pueden ser discretas o continuas.
Una variable se consideradiscreta cuando entre dos valores
consecutivos no puede darse un valor intermedio; ste esel caso de
variables como el nmero de hijos o la proporcin de aciertos en un
test (se puedentener 2 o 3 hijos, pero no 2,7; y la proporcin de
aciertos en un test toma valores discretos,aunque tenga decimales,
porque procede del nmero de aciertos, que es una variable
discreta).Una variable se considera continua cuando entre dos
valores consecutivos siempre es posibleencontrar un valor
intermedio; ste es el caso de variables como la edad o los tiempos
de reac-cin (se puede tener 21 o 22 aos, pero tambin 21,3 o
21,34571; el nmero de decimales de-pende de la precisin que seamos
capaces de conseguir). En la prctica, dado que la precisincon la
que es posible medir tiene sus limitaciones y que pretender medir
con una precisinilimitada no tiene ningn sentido, todas las
variables son, de hecho, discretas. No obstante,la distincin entre
variables discretas y continuas tiene su importancia terica pues,
segn ve-remos, los modelos de probabilidad diseados para uno y otro
tipo de variables tienen suspeculiaridades.
Para poder trabajar cmodamente con variables es importante estar
familiarizado con lanotacin que utilizaremos. Por lo general, a las
variables las representaremos con letras latinasmaysculas: X, Y, Z
. Y para distinguir una variable de los valores concretos que toma,
aadi-remos un subndice: Xi, Yi, Zi. El subndice no tiene nada que
ver con el valor concreto quetoma la variable, sino con la posicin
que ocupa ese valor en el conjunto de valores de lavariable: X1 se
refiere al primer valor de la variable X; X2 se refiere al segundo
valor de lavariable X; Xn se refiere al ensimo el ltimo valor de la
variable X. As, si la variable Xtoma los valores 3, 7, 9, 12 y 15,
entonces X1 = 3, X2 = 7, ..., y X5 = 15. Ocasionalmenteutilizaremos
letras minsculas para representar una variable (tal es el caso de
las puntuacionesdiferenciales); pero siempre quedar claro de qu se
est hablando.
-
Captulo 2. Conceptos previos 35
Poblacin y muestraEl anlisis de datos debe ser entendido, ante
todo, como un conjunto de herramientas al servi-cio de la
investigacin emprica. Ah es donde encaja como conjunto de
procedimientos dise-ados para organizar los datos, extraer
informacin til y elaborar conclusiones. En ocasiones,los objetivos
de un estudio podrn cubrirse simplemente resumiendo la informacin
medianteherramientas descriptivas; pero, normalmente, ser necesario
aplicar herramientas inferencia-les para poder efectuar
comparaciones y estudiar relaciones.
Ocurre, adems, que, por lo general, las conclusiones de un
estudio se basan en datos par-ticulares. Si se desea, por ejemplo,
probar la eficacia de un nuevo tratamiento para aliviar elinsomnio,
es lgico pensar que no ser posible reunir a todos las personas que
padecen insom-nio; ms bien habr que conformarse con aplicar el
tratamiento slo a algunos pacientes; porotro lado, tampoco parece
razonable aplicar a todos los pacientes con insomnio un
tratamientocuya eficacia se desconoce. Utilizar slo unos pocos
elementos del total es algo con lo quehay que lidiar casi siempre
que se realiza un estudio: para conocer, por ejemplo, la opininde
los espaoles sobre la eutanasia no ser posible recoger la opinin de
todos los espaoles;para saber cmo reaccionan a un estmulo visual
las personas mayores de 60 aos no ser po-sible presentar el estmulo
a todos los humanos mayores de 60 aos; etc. Ocasionalmente setendr
acceso a todos los elementos que se desee estudiar; pero eso ser ms
bien la excepciny no la regla.
Ahora bien, aunque slo se utilicen unos pocos pacientes, o unos
pocos espaoles, o unospocos humanos, lo habitual es que las
conclusiones de un estudio no queden restringidas aesos pocos
sujetos. Lo que realmente suele interesar es poder utilizar la
informacin disponi-ble para elaborar conclusiones sobre el conjunto
total de sujetos de la misma clase (todos lospacientes con
insomnio, todos los espaoles mayores de 60 aos, todos los humanos).
A estesalto de lo particular a lo general es a lo que llamamos
inferencia estadstica.
La inferencia estadstica exige utilizar, por un lado,
procedimientos que ayuden a efectuarcorrectamente el salto de lo
particular a lo general y, por otro, procedimientos que
garanticenque ese salto se apoya en una buena base. Tan importante
es disponer de una buena tcnicade anlisis de datos para realizar la
inferencia como seleccionar apropiadamente los datos quese van a
analizar para, de esta manera, proporcionar una buena base de apoyo
a la inferencia.Las tcnicas de muestreo se encargan de garantizar
que la inferencia se apoya en una buenabase. Y las herramientas
estadsticas englobadas bajo la denominacin general de anlisis
dedatos se encargan de garantizar que la inferencia se desarrolla
correctamente. De esto ltimotratan los prximos captulos, pero antes
conviene repasar algunos conceptos fundamentalesque ayudarn a
entender lo dems.
Una poblacin o universo es un conjunto de elementos (sujetos,
objetos, entidades abs-tractas, etc.) que poseen una o ms
caractersticas en comn. En general, el trmino pobla-cin hace
referencia al conjunto total de elementos que interesa estudiar y
queda definidacuando se hacen explcitas las caractersticas que esos
elementos comparten. Ejemplos de po-blaciones son: las personas
empadronadas en una comunidad autnoma, todos los hombresmayores de
30 aos, los pacientes que sufren depresin, las posibles respuestas
que un sujetopodra emitir en una escala de satisfaccin, el censo de
votantes en unas elecciones, los nme-ros mltiplos de 3; etc.
Las poblaciones pueden ser de muy diversa ndole; algunas son
incluso ficticias, en elsentido de que, aun estando formadas por
elementos observables, no todos ellos resultan acce-
-
36 Anlisis de datos (vol. I)
sibles. Si se quiere trabajar, por ejemplo, con la poblacin de
hombres espaoles mayoresde 30 aos, puede ocurrir que muchos de
ellos no estn censados, a otros no habr forma delocalizarlos, otros
no estarn dispuestos a participar en el estudio, etc. En estas
circunstancias,la poblacin real no ser exactamente la de los
hombres espaoles mayores de 30 aos, sinootra parecida: la de los
hombres espaoles mayores de 30 aos a los que se ha tenido acce-so.
Es muy importante intentar definir con la mayor precisin posible la
poblacin con la quese va a trabajar, pues va a constituir el marco
desde el que se va a iniciar la recogida de datosy sobre el que van
a recaer las conclusiones del anlisis.
Dependiendo del nmero de elementos de que constan, unas
poblaciones son finitas yotras infinitas. Los pacientes que padecen
depresin o los votantes censados son ejemplos depoblaciones
finitas. Los nmeros mltiplos de 3 o las posibles respuestas
(tiempos de reac-cin) que un sujeto puede emitir en una tarea de
discriminacin visual son ejemplos de pobla-ciones infinitas.
Normalmente, las poblaciones con las que interesa trabajar en las
cienciassociales y de la salud son finitas, pero tan grandes que a
todos los efectos pueden considerarseinfinitas. Es precisamente el
hecho de que las poblaciones, por lo general, sean infinitas oestn
formadas por un gran nmero de elementos lo que hace que la
descripcin exacta de suspropiedades sea un objetivo prcticamente
inaccesible. Por esta razn, lo habitual es trabajarcon
muestras.
Una muestra es un subconjunto de elementos de una poblacin. A
diferencia de las po-blaciones, que suelen ser conjuntos de
elementos de gran tamao, las muestras suelen ser con-juntos de
elementos de tamao reducido. Por supuesto, para poder describir con
exactitud laspropiedades de una poblacin cualquiera, sera necesario
examinar todos y cada uno de loselementos que componen esa
poblacin. Pero, dado que las poblaciones que habitualmenteinteresa
estudiar son tan grandes que, normalmente, resulta muy difcil (si
no imposible) teneracceso a todos sus elementos, son las muestras
las que proporcionan la informacin necesariapara poder describir
las propiedades de las poblaciones objeto de estudio.
El conocimiento que se va generando en la vida cotidiana acerca
del mundo est, muy fre-cuentemente, basado en muestras: con slo
comer una vez en un restaurante nos formamosuna opinin acerca de la
calidad de su cocina y de su servicio; con slo conocer a un par
depersonas de un determinado colectivo nos formamos una idea sobre
el tipo de personas queforman ese colectivo; con slo ver dos
pelculas de un director de cine nos aventuramos a en-casillarlo en
un estilo; etc. Con el anlisis de datos se hace algo parecido: se
extraen conclu-siones referidas a todos los elementos (poblacin) a
partir de la observacin de slo unos po-cos elementos (muestra).
Ahora bien, para que estas conclusiones sean vlidas es necesario
que la muestra utilizadasea representativa de la poblacin a la que
se supone que representa, lo cual se consigue me-diante las tcnicas
de muestreo (ver ms adelante, en este mismo captulo). Al hablar de
losdiferentes tipos de muestreo volveremos sobre el concepto de
muestra y ello nos permitir se-guir profundizando en su
significado.
Parmetros y estadsticosUn parmetro es un valor numrico que
describe una caracterstica poblacional. Ya se hadefinido una
poblacin como un conjunto de elementos que poseen una o ms
caractersticasen comn. Pero los elementos de una poblacin poseen,
adems, otras muchas caractersticasque no comparten o en las que no
coinciden. Por ejemplo, la poblacin de hombres espaoles
-
Captulo 2. Conceptos previos 37
mayores de 30 aos est formada por elementos que tienen en comn
ser hombres, espaolesy mayores de 30 aos, pero en esa poblacin es
posible considerar otras muchas caractersti-cas en las que no todos
los elementos poblacionales coinciden: el estado civil, el nivel
educa-tivo, el peso, la altura, la presin arterial, la actitud
hacia la eutanasia, el estado de salud per-cibido, etc. Al medir,
por ejemplo, el estado de salud percibido, se obtendrn tantos
valoresnumricos como elementos formen parte de la poblacin
(suponiendo que se tenga acceso atodos los elementos). Si ahora se
calcula el promedio (un solo nmero) de esos valores num-ricos se
habr definido un parmetro, pues se habr descrito numricamente una
caractersticade la poblacin: el estado de salud percibido medio de
los hombres espaoles mayores de 30aos.
En la poblacin de personas que padecen trastorno depresivo,
todos los elementos de lapoblacin coinciden en una caracterstica
especfica: padecer trastorno depresivo. Pero exis-ten, obviamente,
otras caractersticas en las que no todos los elementos coinciden.
Por ejem-plo, unos pacientes sern hombres y otros mujeres. Si se
tuviera acceso a todos los elementosde esa poblacin, se podra
contar el nmero de pacientes que son hombres (o mujeres) y
esopermitira definir un parmetro; es decir, permitira describir
numricamente una caractersticade la poblacin: la proporcin de
hombres (o mujeres) en la poblacin de pacientes con tras-torno
depresivo. As pues, existen valores numricos como la media o la
proporcin (ademsde otros muchos que tendremos ocasin de estudiar),
que cuando se refieren a alguna caracte-rstica poblacional reciben
el nombre de parmetros.
Hay algunas caractersticas de los parmetros que interesa
resaltar. En primer lugar, losparmetros son, en general, valores
poblacionales desconocidos: puesto que las poblacionescon las que
se suele trabajar son tan grandes que sus elementos raramente
resultan accesiblesen su totalidad, no es posible calcular un valor
numrico basado en todos los elementos. Ensegundo lugar, los
parmetros son valores numricos constantes en el sentido de que son
valo-res nicos (es decir, no son variables): definida una poblacin
cualquiera y un parmetro enella, ese parmetro slo puede tomar un
valor numrico concreto: en un momento dado, laproporcin de hombres
en la poblacin de pacientes con trastorno depresivo es un valor
ni-co. Por ltimo, es necesario sealar que para referirnos a los
parmetros utilizaremos (as escomo suele hacerse) letras griegas
minsculas: , , , , , etc.
Un estadstico es un valor numrico que describe una caracterstica
muestral. Por tanto,un estadstico es a la muestra lo que un
parmetro a la poblacin. Acabamos de ver que en unapoblacin
cualquiera, adems de las caractersticas que la definen y que son
comunes a todoslos elementos, es posible definir otras muchas
caractersticas en las que no todos los elemen-tos coinciden. De una
muestra, lgicamente, cabe decir lo mismo. Y una vez definida una
oms de esas caractersticas en las que no todos los elementos
coinciden, es posible obtenerun valor numrico que las describa: a
ese valor numrico se le llama estadstico.
De la poblacin de hombres espaoles mayores de 30 aos se puede
extraer una muestrade n sujetos. En esa muestra se puede definir y
medir, por ejemplo, la altura. Hecho esto, esposible realizar
diferentes transformaciones con los valores obtenidos: sumarlos,
multiplicar-los, sumarlos y dividirlos por el nmero de valores,
etc. Cada una de estas transformacioneses un valor numrico que
describe un aspecto diferente de la caracterstica medida (la
altura).Es decir, cada una de estas transformaciones es un
estadstico. Pero no todos los estadsticosposeen la misma utilidad.
De hecho, muchos de ellos no tienen ninguna utilidad porque
notienen ningn significado. Otros muchos, como la media, la
mediana, la desviacin tpica, laproporcin, etc., tienen un
significado y utilidad contrastados, y por esta razn se utilizan
paraanalizar datos.
-
38 Anlisis de datos (vol. I)
1 Obviamente, si se est utilizando N para representar el tamao
de una poblacin es porque esa poblacin es finita. En unapoblacin
infinita tambin es infinito el nmero de muestras distintas de tamao
n que es posible extraer.2 El muestreo aleatorio puede realizarse
de dos maneras distintas: (1) con reposicin, es decir, devolviendo
cada elementoa la poblacin una vez que ha sido seleccionado (lo que
implica que ese elemento puede aparecer ms de una vez en la mis-ma
muestra) y (2) sin reposicin, es decir, sin devolver a la poblacin
los elementos que van siendo seleccionados. Si lamuestra se obtiene
con reposicin, el nmero de muestras que es posible obtener viene
dado por N n, es decir, por las varia-ciones con repeticin de N
elementos (tamao de la poblacin) tomados de n en n (tamao de la
muestra). Si la muestra seobtiene sin reposicin, el nmero de
muestras posibles viene dado por N!/(N ! n)!, es decir, por las
variaciones sin repeticinde N elementos tomados de n en n.
Recordemos que los parmetros son valores poblacionales
generalmente desconocidosporque corresponden a elementos a los que
no se tiene acceso en su totalidad. Esto sera unverdadero problema
si no fuera porque cada parmetro poblacional posee su rplica
muestralen un estadstico concreto susceptible de ser calculado.
Esto significa que los estadsticosmuestrales se van a utilizar para
intentar formarnos una idea sobre los verdaderos valores desus
correspondientes parmetros poblacionales desconocidos. Este proceso
consistente enatribuir a un parmetro el valor que toma su
correspondiente estadstico se conoce con elnombre de estimacin. La
estimacin es un concepto especialmente importante en
estadsticainferencial (y, por tanto, tambin en el anlisis de
datos); a ella dedicaremos un captulo com-pleto, pero antes debemos
seguir profundizando en el concepto de estadstico.
Es evidente que de una poblacin cualquiera es posible extraer ms
de una muestra dife-rente del mismo tamao. Esto significa que,
definido un estadstico, cualquiera que ste sea,su valor exacto
depender de los valores concretos que tomen cada uno de los
elementos queformen parte de la muestra obtenida. Ahora bien, de
una poblacin de tamao1 N es posibleextraer N n muestras diferentes2
de tamao n. Si en cada una de esas N n muestras calculamosun
estadstico, encontraremos que el valor de ese estadstico no siempre
es el mismo; es decir,encontraremos que el valor del estadstico
vara de una muestra a otra. Esto significa que unestadstico no es
un valor numrico constante (como lo es un parmetro), sino que es
unavariable: su valor concreto vara dependiendo de la muestra en la
que se calcula.
Resumiendo, mientras un parmetro es un valor poblacional, un
estadstico es un valormuestral; mientras un parmetro es, por lo
general, un valor desconocido, un estadstico esun valor conocido o
susceptible de ser conocido; mientras un parmetro es un valor
numricoconstante, un estadstico es una variable. Estas diferencias
tambin se reflejan en la notacinhabitualmente utilizada para
representar a unos y a otros. Mientras que los parmetros se sue-len
representar con letras griegas minsculas (, , , , , etc.), los
estadsticos se suelen re-presentar con letras latinas maysculas
(X
_, S, P, R, B, etc.).
MuestreoYa hemos sealado que uno de los objetivos fundamentales
del anlisis de datos es el de ex-traer conclusiones de tipo general
a partir de unos pocos datos particulares. Tambin hemossealado que
esto exige utilizar, por un lado, procedimientos que ayuden a
efectuar correcta-mente ese salto (inferencia) de lo particular a
lo general y, por otro, procedimientos que ga-ranticen que el salto
se apoya en una buena base. Tan importante como disponer de una
buenatcnica para analizar los datos es seleccionar apropiadamente
los datos que se van a analizar.Qu datos se analizan condiciona la
utilidad del cmo se analizan.
-
Captulo 2. Conceptos previos 39
Wonnacott y Wonnacott (1990, pg. 4) recogen un ejemplo que
resulta especialmente tilpara ilustrar esta idea. En 1936, los
editores de Literary Digest intentaron pronosticar el resul-tado de
las elecciones presidenciales de Estados Unidos utilizando una
muestra formada porvotantes seleccionados de las guas telefnicas y
de los listados de miembros de varios clubes.La muestra as obtenida
presentaba (como pudo constatarse despus) un fuerte sesgo haciael
bando republicano, lo cual se vio agravado, muy probablemente, por
el hecho de que, detodos los cuestionarios enviados, slo fueron
contestados una cuarta parte. La muestra resultser tan sesgada (es
decir, tan poco representativa de la poblacin de votantes) que llev
alerrneo pronstico de que se producira una victoria republicana. El
da de la votacin se pro-dujo la sorpresa: los republicanos
obtuvieron menos del 40 % de los votos y el candidato de-mcrata,
Roosevelt, fue reelegido presidente por una aplastante mayora. Es
probable que elcandidato republicano, Alf Landon (quien seguramente
se haba levantado esa maana espe-rando ser nombrado presidente),
dejara de confiar en las predicciones elaboradas a partir
deencuestas basadas en muestras.
La ms importante leccin que debe aprenderse del error cometido
por los editores deLiterary Digest es que, cuando se intenta
extraer conclusiones sobre las propiedades de unapoblacin a partir
de la informacin contenida en una muestra de esa poblacin, es
necesario,ante todo, utilizar muestras representativas del total de
la poblacin. El no trabajar con mues-tras apropiadas llevar
inevitablemente a que nuestras predicciones estn, ya desde el
princi-pio, condenadas al fracaso (lo que puede constituir un
verdadero problema cuando, como esfrecuente, esas predicciones estn
en la base de decisiones importantes). Por tanto, para queuna
muestra pueda ofrecer informacin satisfactoria sobre las
propiedades de una poblacines necesario, antes que nada, que sea
representativa de la poblacin. Y esto slo se consiguesi todos los
elementos poblacionales han tenido la oportunidad de ser
elegidos.
El trmino muestreo se refiere al proceso seguido para extraer
una muestra de una po-blacin. El muestreo puede ser de dos tipos:
probabilstico y no-probabilstico. En el muestreoprobabilstico se
conoce (o puede calcularse) la probabilidad asociada a cada una de
las mues-tras que es posible extraer de una determinada poblacin; y
cada elemento poblacional tieneasociada una probabilidad conocida
(o calculable) de pertenecer a la muestra. En el
muestreono-probabilstico se desconoce o no se tiene en cuenta la
probabilidad asociada a cada posibleresultado muestral: el
investigador selecciona aquella muestra que ms representativa le
pare-ce o, simplemente, aquella que considera que puede extraer con
mayor comodidad o menorcoste (voluntarios que responden a un
anuncio, alumnos matriculados en un curso o en uncentro, clientes
que compran un producto, pacientes que acuden a un centro de salud
o a unhospital, etc.).
Lgicamente, slo con el muestreo probabilstico se conoce la
probabilidad asociada acada resultado muestral y, consecuentemente,
slo l permite formarse una idea sobre el gradode representatividad
de una muestra. Por tanto, slo el muestreo probabilstico ofrece una
baseadecuada para inducir las propiedades de una poblacin a partir
de la informacin muestral.Esto no significa que el muestreo no
probabilstico no pueda generar muestras representativas;lo que
ocurre es que al utilizar un muestreo de tipo no probabilstico no
se tiene informacinacerca de si la muestra es o no representativa.
En consecuencia, ya desde ahora, se dejar aun lado el muestreo no
probabilstico y se considerar en todo momento que los datos de
quese dispone constituyen una muestra aleatoriamente seleccionada
de su respectiva poblacin,es decir, una muestra aleatoria.
En el muestreo aleatorio (seleccin al azar) se verifican dos
importantes propiedades. Enprimer lugar, todos los elementos
poblacionales tienen la misma probabilidad de ser elegidos;
-
40 Anlisis de datos (vol. I)
por tanto, cualquiera de ellos puede ser elegido y sta es una
condicin necesaria para obteneruna muestra representativa. En
segundo lugar, el resultado de cada extraccin no afecta ni de-pende
del resultado de cualquier otra; es decir, las extracciones son
independientes entre s;y sta, segn tendremos ocasin de comprobar,
es una condicin que asume la mayora de losprocedimientos
estadsticos que estudiaremos (para profundizar en estos conceptos,
puedeconsultarse Pardo y San Martn, 1998, pgs. 45-55).
Debe tenerse en cuenta que, puesto que las poblaciones con las
que se suele trabajar sondesconocidas, nunca hay forma de saber si
la muestra elegida es o no representativa de la po-blacin
muestreada. Lo que s se sabe es si se ha utilizado o no un mtodo de
seleccin quegarantiza que la muestra elegida es una muestra
representativa de la poblacin. Y ese mtodode seleccin es el
muestreo aleatorio.
Ahora bien, aunque el muestreo aleatorio permite obtener una
muestra apropiada en lamayor parte de los contextos, en ocasiones
es posible que surja la necesidad de trabajar conpoblaciones cuyas
caractersticas estn aconsejando alguna variante. No es ste el lugar
paradescribir con detalle los diferentes tipos de muestreo
aleatorio, pero s nos parece convenienteofrecer una breve
descripcin de los ms utilizados.
En el muestreo aleatorio sistemtico se comienza elaborando una
lista con los N elemen-tos poblacionales numerados de 1 a N. A
continuacin se fija el tamao de la muestra que sedesea obtener (n)
y se efecta una extraccin al azar entre los k = N/n primeros
elementos (sik no es un nmero entero, se redondea al entero ms
prximo). El resto de los n !1 elementosque configurarn la muestra
se obtienen a partir de k. Llamando i a la posicin ocupada porel
primer elemento extrado, la muestra estar formada por los elementos
poblacionales queocupen las posiciones i, i + k, i + 2k, i + 3k,
..., i + (n!1) k.
As, para extraer una muestra aleatoria de tamao 100 de una
poblacin de 2.000 elemen-tos, se comienza elaborando una lista
asignando a cada elemento un nmero de 1 a 2.000. Laconstante que se
debe utilizar es k = N/n = 2.000/100 = 20. Despus, se selecciona al
azar unelemento entre los 20 primeros. Si, por ejemplo, el elemento
seleccionado es el que ocupa laposicin i = 9, el resto de los
elementos de la muestra sern los que ocupen en la lista las
po-siciones 29, 49, 69, 89, ..., 1949, 1969, 1989. Este tipo de
muestreo es til cuando se disponede un listado de toda la poblacin
y se desea obtener una muestra aleatoria homogneamenterepartida a
lo largo de toda la lista.
El muestreo aleatorio estratificado se utiliza cuando una
poblacin est formada por di-ferentes subpoblaciones o estratos. Por
ejemplo, en la poblacin de hombres espaoles mayo-res de 30 aos se
pueden definir diferentes estratos segn el nivel socioeconmico, el
tipo deprofesin, el nivel de estudios, el estado civil, etc. Con el
muestreo aleatorio simple existe laposibilidad de que alguno de los
estratos no est suficientemente representado (particular-mente si
existen estratos muy pequeos). El muestreo aleatorio estratificado
es til cuandoexiste especial inters en que todos los estratos de la
poblacin tengan una adecuada represen-tacin. Se comienza definiendo
los estratos e identificando los elementos que pertenecen acada
estrato. Se tienen as k estratos con tamaos N1, N2, ..., Nk (N1 +
N2 + + Nk = N). Acontinuacin se elaboran k listas (una por estrato)
con los elementos de cada estrato debida-mente numerados y se
procede a extraer aleatoriamente una muestra de cada estrato
mediantemuestreo aleatorio simple o mediante muestreo aleatorio
sistemtico. La muestra total estarformada por las k submuestras
extradas.
El tamao de las submuestras puede o no ser proporcional al tamao
de los estratos. Enla afijacin simple se asigna a todas las
submuestras el mismo tamao. En la afijacin propor-cional el tamao
de las submuestras se fija de forma proporcional al tamao de los
estratos.
-
Captulo 2. Conceptos previos 41
3 En este apartado se ofrece una explicacin ms bien intuitiva y
poco formal del concepto de variable aleatoria y de
suscaractersticas. Este tipo de explicacin es la que nos ha
parecido ms apropiada para quienes se inician en el anlisis
dedatos. El lector interesado en una exposicin ms formal puede
consultar Amn (1984, Captulos 3 a 6).
Y si la variabilidad de los estratos es muy distinta, conviene
extraer submuestras ms grandesde los estratos con mayor varianza:
afijacin ptima. Por ejemplo, si al extraer una muestraaleatoria de
tamao 100 de una poblacin formada por 20.000 personas con un 40 %
de hom-bres y un 60 % de mujeres, queremos que esas proporciones
poblacionales se mantengan enla muestra (afijacin proporcional),
debemos formar dos estratos (es decir, dos grupos: unocon los
hombres y otro con las mujeres) y seleccionar aleatoriamente 40
sujetos del primerestrato y 60 del segundo. Si se conocieran las
varianzas de la variable estudiada y la del grupode hombres fuera
muy diferente de la del grupo de mujeres, convendra seleccionar ms
suje-tos del estrato con mayor varianza.
En el muestreo por conglomerados, las unidades muestrales no son
elementos individua-les, sino grupos de elementos llamados
conglomerados. En lugar de considerar que la pobla-cin est formada
por N elementos, se considera que est formada por k conjuntos o
conglo-merados de elementos. Se selecciona aleatoriamente uno o
varios de esos conglomerados yse acepta como muestra el conjunto de
todos los elementos que forman parte de ese o esosconglomerados
seleccionados. Por ejemplo, en un estudio sobre desarrollo
cognitivo en el quela poblacin de referencia es la de todos los
alumnos de Educacin Primaria de la Comunidadde Madrid, en lugar de
seleccionar una muestra aleatoria de un listado de todos los
alumnosde Educacin Primaria, se podran seleccionar unos pocos
colegios de la poblacin de cole-gios y utilizar como muestra a
todos los alumnos de los colegios seleccionados. Las ventajasde
este tipo de muestreo son evidentes cuando se trabaja con
poblaciones muy grandes: nose necesita un listado de todos los
elementos de la poblacin, sino slo de aquellos que for-man parte de
los conglomerados seleccionados.
En el muestreo aleatorio por conglomerados puede procederse por
etapas; se habla enton-ces de muestreo polietpico. En la primera
etapa se divide la poblacin en k conglomeradosy se elige uno o
varios de ellos (unidades muestrales primarias); en la segunda, los
conglome-rados elegidos se dividen en conglomerados ms pequeos y se
vuelve a elegir uno o variosde ellos (unidades muestrales
secundarias); etc. La muestra definitiva la componen todos
loselementos de los conglomerados seleccionados en la ltima etapa.
Obviamente, cuando seprocede por etapas slo es necesario un listado
de los elementos que forman parte de los con-glomerados
seleccionados en la ltima etapa. Si, en el estudio sobre desarrollo
cognitivo, lapoblacin de referencia fuese la de todos los alumnos
espaoles de enseanza primaria, sepodra comenzar seleccionando unas
pocas comunidades autnomas; despus, una provinciade cada comunidad
autnoma seleccionada; despus, un pueblo o ciudad de esas
provincias;por ltimo, un colegio de cada pueblo o ciudad
seleccionados. Al proceder por etapas, en cadaetapa y dependiendo
de las caractersticas de los conglomerados que finalmente se vayan
amuestrear, es posible utilizar cualquiera de los restantes mtodos
de muestreo aleatorio:simple, sistemtico o estratificado.
Variables aleatoriasEl concepto de variable3 como representacin
numrica de una caracterstica sometida amedicin ya se ha presentado
al hablar de los distintos tipos de variables (ver, en este
mismo
-
42 Anlisis de datos (vol. I)
4 Una variable aleatoria es una funcin que asigna un nmero real,
y slo uno, a cada uno de los sucesos elementales deun espacio
muestral (el lector poco familiarizado con la teora de la
probabilidad puede revisar el apartado sobre conceptosbsicos de
probabilidad que se ofrece en el apndice de este mismo captulo).5
Las variables categricas no suelen ser el objetivo primordial del
anlisis de datos. Esto no quiere decir que variables comoel sexo,
el tipo de tratamiento, o el nivel educativo no tengan inters
analtico, sino que el inters del anlisis suele dirigirse,no
exactamente a esas variables (cuyos valores suelen ser fijos y
conocidos), sino al nmero de veces que aparece cada uno
captulo, el apartado sobre Tipos de variables). En ese momento
se destac el hecho de queuna variable es la representacin de una
caracterstica (sexo, altura, etc.) que no siempre quese mide toma
los mismos valores, es decir, la representacin de una caracterstica
que vara.Ha llegado el momento de sealar otra importante
peculiaridad de las variables que sueleinteresar analizar: la
aleatoriedad resultante del muestreo.
Una variable aleatoria4 es una coleccin de nmeros (al menos
dos). En sentido estricto,hasta que no hay nmeros, no hay variable.
Pero ya sabemos que no todos los nmeros quese asignan en el proceso
de medicin tienen el mismo significado, lo cual nos ha llevado
aclasificar las variables como categricas y cuantitativas.
Al medir una variable en una muestra de tamao n se obtienen n
valores. Si la variablees categrica (por ejemplo, sexo), los
posibles valores distintos sern pocos (hombre, mujer)y cada uno de
ellos se repetir varias veces (pues todos los resultados sern
hombre o mujer).Por el contrario, si la variable es cuantitativa
(por ejemplo, altura), habr muy pocas repeti-ciones o ninguna (si
la medida se hace con suficiente precisin, habr muchos valores
distin-tos y muy pocas repeticiones de un mismo valor). Tras
asignar nmeros a los resultados delmuestreo (por ejemplo, unos a
los hombres y doses a las mujeres; centmetros a las alturas),en
ambos casos tendremos variables aleatorias porque en ambos casos
tendremos nmerosresultantes del muestreo aleatorio.
Ahora bien, saber que la variable sexo toma unos y doses no
aporta informacin til (yase sabe que la variable sexo toma unos y
doses, y que eso no depende del muestreo). Lo inte-resante es saber
cuntos unos y cuntos doses aparecen en una muestra. Es en ese
momento,es decir, cuando a las categoras de la variable sexo se le
asocian los resultados del muestreo,cuando se tiene una variable
aleatoria. Pero centrar la atencin en cuntos hombres (o muje-res)
aparecen en una muestra es centrar la atencin, no en la variable
sexo, sino en una nuevavariable: el nmero de hombres, que es una
variable porque depende de la muestra concretaen la que se calcula
(es decir, porque vara de muestra a muestra) y, adems, es aleatoria
por-que los valores que toma son resultado del muestreo aleatorio.
Por supuesto, la variable sexo(categrica) es estadsticamente
interesante: permite formar grupos y, aunque ya se sabe quvalores
toma, siempre resulta posible aplicar herramientas descriptivas
para conocer con qufrecuencia toma cada valor. Pero la variable
nmero de hombres (cuantitativa) es mucho msinteresante: permite,
segn veremos, efectuar comparaciones y estudiar relaciones
tomandocomo referencia algunos modelos tericos de probabilidad.
Con una variable cuantitativa como la altura ocurre algo
parecido. Aunque los valoresque toma la variable tienen inters en s
mismos (pueden ser ms altos o ms bajos, muy pare-cidos entre s o
muy distintos, etc.), el hecho de que haya muchos valores distintos
hace difcilformarse una idea de las caractersticas de la variable
si no se utiliza algn tipo de resumencomo, por ejemplo, la altura
media. Estos resmenes son, obviamente, cuantitativos, varande
muestra a muestra (es decir, son variables) y sus valores dependen
del muestreo (es decir,son variables aleatorias); y, lo que es ms
interesante, permiten, segn veremos, efectuarcomparaciones y
estudiar relaciones5.
-
Captulo 2. Conceptos previos 43
de sus valores en una muestra concreta. Por tanto, el anlisis de
datos es, bsicamente, anlisis de datos cuantitativos.Cuando se
habla de anlisis de datos categricos o de variables categricas se
est hablando, generalmente, del anlisisde las frecuencias (datos
cuantitativos) asociadas a las categoras de las variables
categricas.
Centro, dispersin y forma de la distribucin
De lo estudiado hasta aqu cabe deducir que el anlisis de datos
es, sobre todo, anlisis devariables aleatorias, es decir, anlisis
de los nmeros que se asignan a los resultados delmuestreo
aleatorio. Pero, qu puede hacerse con estas variables (con estos
nmeros)?
Segn veremos a lo largo de este manual (y de los siguientes
volmenes), el anlisis dedatos suele centrarse en la aplicacin de
herramientas inferenciales con el objetivo de efectuarcomparaciones
y estudiar relaciones. Pero, antes de eso, lo primero que suele
hacerse (y queconviene hacer) con un conjunto de datos es formarse
una idea lo ms exacta posible acercade las caractersticas de cada
variable individualmente considerada. Y esto se consigue apli-cando
herramientas descriptivas. Para esto, tanto las variables
aleatorias directamente resul-tantes del muestreo (sexo, altura)
como las transformaciones que normalmente interesa hacerde ellas
(nmero de hombres o de mujeres, altura media) deben caracterizarse
prestando aten-cin a tres propiedades fundamentales: centro,
dispersin y forma.
1. El centro de una variable es el valor que ms se repite
(variables categricas) o el prome-dio del conjunto de valores
(variables cuantitativas). Indica qu valor de la variable, detodos
los posibles, cabe esperar encontrar con mayor probabilidad. Puede
calcularse dediferentes maneras (ver los dos siguientes captulos),
pero el ms utilizado se conoce co-mo valor esperado o esperanza
matemtica.
En una muestra concreta, el valor esperado de una variable es su
media aritmtica.Pero una muestra concreta no es ms que una de las
muchas (infinitas?) que es posibleextraer de una determinada
poblacin. El concepto de valor esperado incorpora la ideadel centro
que cabra esperar encontrar a la larga, es decir, del que cabra
encontrar en elconjunto de todas las muestras de tamao n que podran
extraerse de una determinada po-blacin; lo cual no es otra cosa que
el centro (media aritmtica) de la poblacin. Y, segntendremos ocasin
de comprobar ms adelante, el concepto de valor esperado
cobraespecial relevancia cuando se utiliza para identificar el
centro de muchas de las distribu-ciones tericas de probabilidad
(binomial, normal, etc.) que se utilizan en estadstica paraentender
mejor el comportamiento de los datos.
2. La dispersin de una variable se refiere al grado de
concentracin o alejamiento de losvalores en torno al centro de la
variable. Al igual que ocurre con el centro, la dispersinde una
variable puede calcularse utilizando diferentes mtodos (ver los
siguientes dos ca-ptulos), pero quiz el ms utilizado es la
desviacin tpica (y su cuadrado, la varianza),que viene a ser una
especie de promedio de distancias al centro de la variable.
3. La forma de la distribucin refleja la frecuencia con la que
se repite cada valor (variablescategricas) o cada rango de valores
(variables cuantitativas).
Aqu es importante distinguir entre distribuciones empricas y
distribuciones tericas.Una distribucin emprica indica cmo se
distribuyen, de hecho, los valores de una varia-ble. Una
distribucin terica es una frmula matemtica (un modelo) que se
utiliza parafacilitar el trabajo con variables aleatorias (en
realidad, las distribuciones tericas son unade las herramientas
estadsticas ms tiles para un analista de datos).
-
44 Anlisis de datos (vol. I)
6 En este contexto es importante recordar la distincin ya
establecida entre variables discretas (entre dos valores
consecu-tivos no puede darse un valor intermedio; por ejemplo, el
nmero de aciertos) y continuas (entre dos valores
consecutivossiempre es posible encontrar un valor intermedio si se
mide con suficiente precisin; por ejemplo, la edad). Esta
distincinentre variables lleva asociada una distincin entre
distribuciones de probabilidad que gusta mucho enfatizar a los
estads-ticos. En una distribucin discreta, cada valor de la
variable tiene asociada una probabilidad concreta (por ejemplo,
laprobabilidad de obtener tres caras en cinco lanzamientos de una
moneda, o la probabilidad de padecer trastorno depresivo).En una
distribucin continua no existe tal cosa; la probabilidad asociada a
un valor concreto es nula (si se define una alturacon muchos
decimales, la probabilidad de que un sujeto tenga exactamente esa
altura es nula; de hecho, en las distribucionescontinuas se habla
de densidad en lugar de probabilidad). Esto puede entenderse
fcilmente si se tiene en cuenta que laprobabilidad del conjunto de
posibles valores de una variable vale 1 y que esa probabilidad hay
que repartirla entre lostericamente infinitos valores de la
variable continua.
Una distribucin emprica est formada por los valores que toma una
variable en unamuestra concreta y por las frecuencias relativas
asociadas a cada valor. Imaginemos queen una determinada poblacin
definimos la variable padecer trastorno depresivo, conposibles
valores s y no; extraemos al azar una muestra de esa poblacin y
asignamosun 1 a las personas que padecen depresin y un 0 a las que
no la padecen; tendremos, porun lado, una variable aleatoria (unos
y ceros resultantes del muestreo) y, adems, el n-mero o proporcin
de unos y ceros; es decir, tendremos la distribucin emprica
formadapor los valores que toma la variable (unos y ceros) y por
las frecuencias relativas asocia-das a cada valor (proporciones de
unos y ceros). Imaginemos ahora que el 10 % de laspersonas de la
poblacin padece depresin; en este nuevo escenario es posible
utilizar elclculo de probabilidades (en concreto, una distribucin
terica llamada binomial; verCaptulo 3) para conocer la probabilidad
asociada a cada posible resultado muestral.
Otro ejemplo. Imaginemos que seleccionamos una muestra al azar
de una determina-da poblacin y medimos la altura de los sujetos;
los nmeros (por ejemplo, centmetros)resultantes del muestreo
constituyen una variable aleatoria; asociando a esos nmeros
lafrecuencia relativa con la que aparecen tendremos la distribucin
emprica de la variablealtura. Imaginemos ahora que asumimos que, en
la poblacin muestreada, las alturas delos sujetos se distribuyen en
forma de campana (muchos casos en torno al centro y pocosen las
orillas); es decir, imaginemos que las alturas de los sujetos se
parecen a una distri-bucin terica llamada normal (ver Captulo 5).
En este nuevo escenario es posible utili-zar la distribucin terica
normal para conocer la probabilidad asociada a cada
posibleresultado muestral.
A la combinacin formada por los valores de una variable
aleatoria y por las probabi-lidades asociadas a cada uno de esos
valores se le suele llamar funcin de probabilidado distribucin de
probabilidad. Aqu, con frecuencia, tambin nos referiremos a
estacombinacin simplemente como distribucin6, intentando dejar
claro en cada caso si setrata de una distribucin emprica o
terica.
As pues, para formarnos una idea apropiada de las caractersticas
de una variable aleatoriavamos a prestar atencin a tres
propiedades: centro, dispersin y forma de la distribucin. Elcentro
es una especie de representante del resto de valores; indica en
torno a qu valor es msprobable encontrar casos. La dispersin ayuda
a precisar si el centro es o no un buen represen-tante del resto de
valores (segn veremos, desempea un papel esencial en la inferencia
esta-dstica). La forma de la distribucin, por ltimo, permite
detectar dnde tienden a agruparselos valores y si existen valores
que se alejan llamativamente de los dems; y, lo que es
msimportante, cul es la probabilidad asociada a cada valor de la
variable y, consecuentemente,cul es la probabilidad asociada a cada
posible resultado muestral.
-
Captulo 2. Conceptos previos 45
ProbabilidadLa teora de la probabilidad es el aparato matemtico
en el que se basa la estadstica para me-jorar la descripcin de los
datos y, sobre todo, para hacer inferencias de lo particular
(muestra)a lo general (poblacin). Entender correctamente muchos de
los procedimientos estadsticosque estudiaremos (al menos, algunos
aspectos concretos de esos procedimientos) requiere es-tar
familiarizado con algunos conceptos bsicos de la teora de la
probabilidad.
Por supuesto, este apartado no es, ni mucho menos, un curso
sobre teora de la probabili-dad (para ello puede recurrirse a
cualquiera de los excelentes manuales de probabilidad exis-tentes
en el mercado). Este apartado incluye nicamente los conceptos de
probabilidad quees necesario manejar para poder trabajar con las
distribuciones de probabilidad que se estu-dian ms adelante.
Lo que se hace al analizar datos es extraer muestras aleatorias
y calcular nmeros con dis-tribucin de probabilidad conocida para
poder interpretar mejor esos nmeros y para podertomar decisiones a
partir de ellos. Por tanto, lo que conviene saber de la teora de la
probabili-dad es, bsicamente, la parte relacionada con la seleccin
de muestras aleatorias y con lasdistribuciones de probabilidad
asociadas a los valores muestrales (nmeros) que se calculanen
ellas.
Espacio muestral y sucesosLlamamos experimento aleatorio a
cualquier accin cuyo resultado no puede predecirse concerteza.
Lanzar una moneda al aire y observar el resultado (no podemos
predecir con certezasi saldr cara o cruz) o medir la altura de un
sujeto elegido al azar (no podemos predecir concerteza cul ser su
altura exacta) son experimentos aleatorios.
El espacio muestral (E) es el conjunto de posibles resultados de
un experimento aleato-rio. En el experimento aleatorio consistente
en lanzar una moneda y observar el resultado, elespacio muestral
est formado por los dos resultados posibles, cara y cruz. En el
experimentoaleatorio consistente en medir la altura de un sujeto,
el espacio muestral est formado por to-dos los posibles resultados
de la medicin; si el experimento aleatorio consiste en lanzar
unamoneda dos veces, el espacio muestral est formado por cuatro
posibles resultados: cara-cara,cara-cruz, cruz-cara, cruz-cruz; si
se miden las alturas de dos sujetos, el espacio muestral estformado
por todas las combinaciones resultantes de combinar las dos
mediciones; etc.
Un suceso (S) es un subconjunto de un espacio muestral. Un
suceso simple o elementalest formado por un nico resultado (por
ejemplo, obtener cara-cara en dos lanzamientosde una moneda). Un
suceso compuesto est formado por ms de un resultado (por
ejemplo,obtener una cara en dos lanzamientos; es decir, obtener
cara-cruz o cruz-cara). Al suce-so formado por todos los resultados
del espacio muestral se le llama suceso seguro; y a losresultados
que no forman parte del espacio muestral, suceso imposible.
La unin (c) de dos sucesos es el conjunto de resultados
distintos que forman parte deuno u otro suceso. La diferencia entre
dos sucesos es el conjunto de resultados que pertene-cen al primer
suceso y no al segundo. La interseccin (1) de dos sucesos es el
conjunto deresultados que forman parte tanto de uno como de otro
suceso. Dos sucesos se consideraniguales cuando incluyen los mismos
resultados; y exclusivos cuando no tienen ningn resulta-do en comn.
Un suceso tiene su complementario en todos los resultados del
espacio mues-tral que no forman parte de l.
-
46 Anlisis de datos (vol. I)
Concepto de probabilidad
Existen diferentes formas de entender el concepto de
probabilidad. Una aproximacin intui-tiva al concepto consiste en
considerarlo como sinnimo de lo fcil o difcil que es observarcada
uno de los sucesos de un espacio muestral. Si lanzamos al aire tres
monedas, el sucesotres caras nicamente puede ocurrir de una manera:
cara-cara-cara; sin embargo, el sucesouna cara puede ocurrir de
tres maneras distintas: cara-cruz-cruz, cruz-cara-cruz,
cruz-cruz-cara. Por tanto, parece ms fcil (ms probable) observar el
suceso una cara que el sucesotres caras. Pero la probabilidad de un
suceso es algo ms que lo fcil o difcil que es obser-varlo: es un
nmero que intenta cuantificar lo fcil o difcil que es
observarlo.
El punto de vista a priori, tambin llamado clsico, asume que
todos los sucesos elemen-tales de un espacio muestral tienen las
mismas posibilidades de ocurrir (principio de indife-rencia) y
cuantifica la probabilidad asociada a un suceso concreto (S ) como
su frecuenciarelativa terica:
P (S ) = [2.1]
es decir, como el nmero de resultados favorables al suceso (ns)
dividido entre el nmero deresultados posibles (n).
En este punto de vista se asume, por ejemplo, que los dos
resultados posibles del lanza-miento de una moneda (cara y cruz)
tienen las mismas posibilidades de ocurrir (es decir,
sonequiprobables); consecuentemente, la probabilidad a priori de
cada uno de ellos vendr dadapor P (cara) = P (cruz) = 1/2 = 0,5.
Del mismo modo, puesto que el suceso cara-cara en doslanzamientos
es uno entre cuatro posibles (cara-cara, cara-cruz, cruz-cara,
cruz-cruz) que seasumen equiprobables, su probabilidad a priori
vendr dada por P (cara-cara) = 1/4 = 0,25.
El punto de vista a posteriori, tambin llamado frecuentista o
estadstico, concibe laprobabilidad de un suceso como el lmite al
que tiende su frecuencia relativa:
P (S ) = [2.2]
(aqu, n no es el nmero de sucesos del espacio muestral, sino el
nmero de veces que se rea-liza el experimento aleatorio). Este
punto de vista no hace ninguna suposicin previa sobrelas
probabilidades de los sucesos; en lugar de eso, la probabilidad que
se asigna a un sucesoes su frecuencia relativa emprica, es decir,
la proporcin de veces que se observa el sucesoal realizar el
experimento aleatorio un nmero infinito de veces. Ahora bien, como
no es posi-ble realizar un experimento un nmero infinito de veces,
la probabilidad a posteriori de unsuceso hay que estimarla
realizando el experimento muchas veces, tantas como sea
necesariohasta observar que el valor de su frecuencia relativa se
estabiliza. Imaginemos, por ejemplo,que se lanza una moneda 100
veces y que se obtienen 54 caras, es decir: P (cara) = 54/100
=0,54; se sigue lanzando hasta 500 veces y se obtienen 242 caras: P
(cara) = 242/500 = 0,484;se lanza 1.000 veces y se obtienen 511
caras: P (cara) = 511/1.000 = 0,511; se lanza 10.000veces y se
obtienen 4.962 caras: P (cara) = 4.942/10.000 = 0,4962; se lanza
20.000 veces yse obtienen 10.062 caras: P (cara) = 10.062/20.000 =
0,5031; se lanza 30.000 veces y se obtie-nen 14.967 caras: P (cara)
= 14.967/30.000 = 0,4989; etc. Lo que ocurre al proceder de
estamanera es que conforme va aumentando el nmero de ensayos
(lanzamientos), la frecuencia
-
Captulo 2. Conceptos previos 47
relativa del suceso cara se va estabilizando en torno a 0,50.
Pues bien, sta es la probabilidada posteriori del suceso cara.
En la prctica, ambas formas de entender la probabilidad (a
priori y a posteriori) son ti-les y, tambin, necesarias. Por
ejemplo, cuando se selecciona una muestra aleatoria de unapoblacin
se est asumiendo que todos los elementos poblacionales tienen la
misma probabili-dad de ser elegidos (principio de indiferencia), es
decir, se est adoptando un punto de vistaa priori. Sin embargo,
para conocer la probabilidad de que una persona de esa poblacin
seahombre o fumador o tenga nivel de estudios superiores o una
altura por encima de 180 cm,etc., no puede asumirse el principio de
indiferencia (es decir, no puede asumirse que hay elmismo nmero de
hombres que de mujeres o el mismo nmero de fumadores que de no
fuma-dores, etc.); a no ser que se tenga informacin sobre todos los
elementos de la poblacin, lasprobabilidades asociadas a esos
sucesos slo pueden estimarse a posteriori, es decir, obser-vando
sus frecuencias relativas empricas.
Sin embargo, adoptar uno u otro punto de vista no tiene
implicaciones relevantes sobrelas conclusiones a las que puede
llegarse. Puesto que tanto las probabilidades a priori comolas a
posteriori se conciben como frecuencias relativas (tericas en el
primer caso y empricasen el segundo), sus propiedades son
idnticas:
1. La probabilidad de todos los sucesos del espacio muestral (el
suceso seguro) vale 1. Esdecir, P (E ) = 1.
2. La probabilidad de un suceso es siempre no negativa. Es
decir, P (S ) >$ 0.3. La probabilidad de la unin de dos o ms
sucesos mutuamente exclusivos es igual a la
suma de las probabilidades individuales de cada suceso. Es
decir, P (S1 c S2 c S3 c ) == P (S1) + P (S2) + P (S3) +
Estas propiedades son precisamente las que han servido para
formular una teora axiomticao formal de la probabilidad.
Adoptndolas como axiomas (pues son propiedades inherentesa
cualquier probabilidad, ya sea sta concebida a priori o a
posteriori) y procediendo a partirde ellas por deduccin se obtienen
una serie de teoremas o reglas que constituyen lo que seconoce como
clculo de probabilidades. De estas reglas destacaremos dos
particularmentetiles: la regla o teorema de la multiplicacin
(referida a la interseccin de sucesos) y la reglao teorema de la
suma (referida a la unin de sucesos).
Regla de la multiplicacin
Entre los conceptos ms interesantes que podemos encontrar en la
teora de la probabilidadse encuentra el de probabilidad
condicional. Se refiere a la probabilidad de que ocurra unsuceso
cuando se impone la condicin de que haya ocurrido otro previamente.
Se representamediante P (S1 | S2) y se lee como probabilidad
condicional de S1 dado S2 o, simplemente,como probabilidad de S1
dado S2.
Para entender fcilmente el significado de una probabilidad
condicional, consideremosel ejemplo propuesto en la Tabla 2.1. Los
resultados que muestra la tabla se han obtenido alclasificar a las
10.000 personas de una determinada poblacin utilizando los
criterios sexo(hombres, mujeres) y tabaquismo (fumadores, no
fumadores).
De acuerdo con la ecuacin [2.1] (nmero de casos favorables
dividido entre el nmerode casos posibles), la probabilidad de que
un sujeto elegido al azar sea fumador, es decir, la
-
48 Anlisis de datos (vol. I)
probabilidad del suceso fumador (F ), asumiendo que cualquier
sujeto tiene la misma proba-bilidad de ser elegido, vale
P (F ) = =
Y la probabilidad de que un sujeto elegido al azar sea hombre (H
) vale
P (H ) = =
Tabla 2.1. Frecuencias conjuntas de sexo y tabaquismo
Fumadores No fumadores Total
Hombres 1.000 3.000 4.000Mujeres 2.500 3.500 6.000
Total 3.500 6.500 10.000
Ahora bien, si se impone la condicin de que el sujeto elegido
sea hombre, entonces cul esla probabilidad de que sea fumador? Es
decir, cul es la probabilidad condicional del sucesofumador dado el
suceso hombre? Para responder a esta pregunta hay que tener en
cuenta quelos casos favorables, es decir, los hombres fumadores,
son 1.000, y que, debido a la restric-cin impuesta, los casos
posibles son 4.000 (slo los hombres). Por tanto:
P (F | H ) = =
El numerador de esta probabilidad condicional recoge los 1.000
hombres fumadores, es decir,los elementos que forman parte de la
interseccin entre el suceso fumador y el suceso hombre(F 1 H ). La
probabilidad de esta combinacin de sucesos (ser fumador y ser
hombre) vale:
P (F 1 H ) = =
Y el denominador de la probabilidad condicional recoge los 4.000
elementos del suceso dado(H ) cuya probabilidad ya sabemos que vale
0,40 (ver ms arriba). En consecuencia:
P (F | H ) = = = =
Es decir, la probabilidad condicional del suceso S1 dado el
suceso S2 es igual a la probabi-lidad de la interseccin de ambos
sucesos dividida entre la probabilidad del suceso dado:
= [2.3]
Precisamente esta definicin de probabilidad condicional, que
contiene en el numerador laprobabilidad de la interseccin de los
dos sucesos, sirve para formular la regla de la multipli-cacin
(tambin llamada regla del producto):
-
Captulo 2. Conceptos previos 49
La probabilidad de la interseccin de dos sucesos es igual a la
probabilidad individualde uno de ellos multiplicada por la
probabilidad condicional del otro.
Es decir,
= = [2.4]
Por tanto, hablar de interseccin en el contexto de los sucesos
de un espacio muestral es equi-valente a hablar de multiplicacin en
el contexto de las probabilidades de esos sucesos.
Pero la definicin [2.4] necesita ser matizada. Es claro que no
todo suceso tiene por qualterar la probabilidad de cualquier otro.
De hecho, muchos sucesos no alteran las probabilida-des de otros
muchos. Pues bien, cuando dos sucesos no ven alteradas sus
respectivas probabi-lidades individuales por la presencia del otro,
decimos que esos sucesos son independientes.Cuando se da esta
circunstancia, la probabilidad condicional de un suceso no difiere
de suprobabilidad individual. Es decir, si dos sucesos son
independientes se verifica
= [2.5]
Por tanto, si dos sucesos son independientes, la regla de la
multiplicacin ya presentada msarriba, se simplifica:
La probabilidad de la interseccin de dos sucesos independientes
es igual al productode sus probabilidades individuales. Y a la
inversa: si la probabilidad de la interseccinde dos sucesos es
igual al producto de sus probabilidades individuales, entonces
esossucesos son independientes.
Volviendo a los datos de la Tabla 2.1, puede decirse que el
suceso hombre es independientedel suceso fumador? Sabemos (ver ms
arriba) que la probabilidad de la interseccin entreesos sucesos
vale 0,10, la del suceso hombre 0,40 y la del suceso fumador 0,35.
Si los dos su-cesos fueran independientes, la probabilidad de su
interseccin (0,10) debera ser igual al pro-ducto de sus
probabilidades individuales (0,40 0,35 = 0,14). Puesto que la
probabilidad 0,10es distinta de la probabilidad 0,14, podemos decir
que los sucesos hombre y fumador no sonindependientes.
Regla de la suma
Si dos sucesos son mutuamente exclusivos (es decir, si no tienen
elementos en comn; verFigura 2.1, grfico de la izquierda), la
probabilidad de su unin es la suma de sus probabili-dades
individuales. Esto es lo que afirma el axioma 3. Ahora bien, si los
sucesos no son exclu-sivos (es decir, si tienen algn elemento en
comn; ver Figura 2.1, grfico de la derecha), ala probabilidad de la
unin hay que restarle la parte que tienen en comn, es decir, la
intersec-cin de ambos. Este razonamiento da pie para formular la
regla de la suma:
Si S1 y S2 son sucesos exclusivos: P (S1 c S2) = P (S1) + P
(S2). [2.6]Si S1 y S2 son sucesos no exclusivos: P (S1 c S2) = P
(S1) + P (S2) ! P (S1 1 S2).
Por tanto, hablar de unin en el contexto de los sucesos de un
espacio muestral es equivalentea hablar de suma en el contexto de
las probabilidades de esos sucesos. En el ejemplo de la
-
50 Anlisis de datos (vol. I)
Figura 2.1, la probabilidad de la unin de los dos sucesos del
grfico de la izquierda se obtie-ne sumando las probabilidades
individuales de ambos sucesos. Sin embargo, en el grfico dela
derecha, la probabilidad de la unin de ambos sucesos no se
corresponde con la suma delas probabilidades individuales; a la
suma de esas probabilidades individuales hay que restarla
probabilidad de la interseccin (es decir, hay que restar la
probabilidad correspondiente alelemento e, pues se ha sumado dos
veces).
Volviendo a los datos de la Tabla 2.1, la regla de la suma puede
utilizarse para conocerla probabilidad de la unin de los sucesos
hombre y fumador, es decir, la probabilidad de queun sujeto elegido
al azar sea hombre o fumador. Obviamente, ser hombre y ser fumador
noson sucesos exclusivos, pues una persona puede ser al mismo
tiempo ambas cosas. Por tanto:
P (H c F ) = P (H ) + P (F ) ! P (H 1 F ) = 0,40 + 0,35 ! 0,10 =
0,65
Figura 2.1. Sucesos exclusivos (izquierda) y no exclusivos
(derecha) en el espacio muestral E
Combinando la regla de la multiplicacin y la regla de la suma se
llega a un teorema, muy co-nocido en estadstica, llamado teorema de
Bayes. No obstante, puesto que no ayuda a resol-ver nada que no se
resuelva con las dos reglas estudiadas, no ser tratado aqu (el
lector inte-resado puede consultar, por ejemplo, Amn, 1984, pgs.
53-59).
Apndice 2
Combinatoria (reglas de contar)
Utilizar el clculo de probabilidades requiere, entre otras
cosas, conocer el espacio muestral con el quese desea trabajar, es
decir, los posibles resultados del correspondiente experimento
aleatorio. Aunquecon espacios muestrales pequeos es fcil calcular
el nmero total de resultados, con espacios mues-trales grandes la
tarea se complica bastante. En estos casos es muy til disponer de
alguna herramientaque facilite el trabajo. Como tambin lo es contar
con herramientas que ayuden a calcular, por ejemplo,cuntas
comparaciones por pares pueden hacerse con un determinado nmero de
elementos; o de cun-tas maneras distintas puede ordenarse un
conjunto de estmulos para presentarlos a una muestra desujetos.
Todos estos clculos pueden realizarse fcilmente con las llamadas
reglas de contar, algunasde las cuales se describen en este
apartado.
Comencemos con el principio fundamental de la combinatoria.
Sirve para resolver muchas delas situaciones que podemos
encontrarnos y es muy fcil de aplicar:
Si el suceso S1 puede ocurrir de n1 maneras, el suceso S2 de n2
maneras, ..., el suceso Sk de nk mane-ras, los k sucesos S1, S2,
..., Sk pueden ocurrir conjuntamente de n1 n2 nk maneras.
E
S1 S2
a b
c d
e f
g h
E
S1 S2
a b
c d
e f
g h
E
S1 S2
a b
c d
f g
j ie
E
S1 S2
a b
c d
f g
j ie
-
Captulo 2. Conceptos previos 51
7 Tambin pueden formarse variaciones, combinaciones y
permutaciones con repeticin, pero su utilidad para el analistade
datos es ms bien escasa y no sern tratadas aqu. El lector
interesado en ellas puede consultar Amn (1979, pg. 33).8 El signo !
se lee factorial (n! se lee n factorial; 5! se lee cinco factorial)
y significa que el nmero que le precede hayque multiplicarlo por
todos los nmeros enteros menores que l hasta llegar a 1. As, 5! = 5
4 3 2 1 = 120. La excep-cin a esta regla la constituye el nmero 0:
se asume que 0! = 1.
Para comprender la utilidad de este principio, vamos a comenzar
con un par de ejemplos de juegos quepueden resultar bastante
familiares. Primero: cuntos resultados posibles tiene una quiniela
de ftbol?Una quiniela tiene 15 resultados, cada uno de los cuales
puede ocurrir de 3 maneras distintas; por tanto,los 15 resultados
juntos pueden ocurrir de 3 3 3 = 3
15 = 14.348.907 maneras distintas. Segundo:cuntos resultados hay
en la lotera primitiva? En este juego se eligen al azar 6 nmeros
entre 49 posi-bles (nmeros del 1 al 49); el primer nmero elegido
puede ser uno cualquiera de los 49 posibles; elsegundo, uno de 48
restantes (pues el segundo resultado no puede ser el nmero que ya
ha salido comoprimer resultado); el tercero, uno de 47 restantes;
...; el sexto, uno de los 44 restantes; por tanto, los 6nmeros
elegidos pueden aparecer de 49 48 47 46 45 44 = 10.068.347.520
maneras.
Aunque ambos casos se resuelven utilizando la misma estrategia,
lo cierto es que difieren en unaspecto importante. En el caso de la
quiniela, cada posible resultado es distinto de cada otro porque
elorden en el que aparecen las quince apuestas es crucial. En la
lotera primitiva, sin embargo, no todoslos posibles resultados son
distintos entre s, sino que hay algunos que son equivalentes a
otros; porejemplo, el resultado {1, 2, 3, 4, 5, 6} es, obviamente,
equivalente al resultado {1, 3, 5, 2, 4, 6}; y tam-bin es
equivalente a cualquier otro que contenga los mismos nmeros aunque
estn en distinto orden.Por tanto, para calcular correctamente los
posibles resultados de la lotera primitiva es necesario teneren
cuenta de cuntas maneras pueden ordenarse 6 nmeros distintos.
Veamos: el primer nmero puedeocupar cualquiera de las 6 posiciones
disponibles; el segundo, cualquiera de las cinco restantes; ...;
elsexto, la nica disponible al final. Aplicando el principio
fundamental de la combinatoria se llega a laconclusin de que 6
nmeros distintos pueden ordenarse de 6 5 4 3 2 1 = 720 maneras
distintas.Dado que esto ocurre con cualquier combinacin de 6
nmeros, el nmero de posibles resultados distin-tos en la lotera
primitiva vendr dado por el cociente entre el primer clculo
realizado (10.068.347.520,cantidad que incluye muchos resultados
equivalentes) y las distintas maneras de ordenar 6 nmeros(720), es
decir, 13.983.816 maneras distintas.
Para terminar de aclarar estas diferencias entre posibles
resultados de un experimento aleatorio,consideremos un ejemplo algo
ms simple. Supongamos que lanzamos una moneda dos veces y
obser-vamos el resultado. Llamando c al resultado cara y x al
resultado cruz, este experimento aleatorio tieneasociados cuatro
posibles resultados: cc, cx, xc, xx. El hecho de que estos cuatro
resultados se conside-ren o no distintos entre s depender del
criterio que se aplique para distinguirlos: (1) si se consideraque
dos resultados son distintos tanto si contienen elementos distintos
como si, conteniendo los mismos,se encuentran en distinto orden,
entonces los 4 resultados son distintos; (2) si se considera que
dos re-sultados son distintos nicamente si contienen elementos
distintos, entonces hay 3 resultados distintos:cc, cx, xx (los
resultados cx y xc cuentan como un nico resultado); (3) por ltimo,
si se considera quedos resultados son distintos nicamente cuando
contienen los mismos elementos pero en distinto orden,entonces hay
2 resultados distintos: cx y xc. A los resultados de aplicar el
primer criterio se les llamavariaciones; a los de aplicar el
segundo criterio, combinaciones; y a los de aplicar el tercer
criterio,permutaciones. Y, aunque todos estos resultados pueden
calcularse utilizando el principio fundamentalde la combinatoria,
existen algunas frmulas que facilitan el trabajo7.
Variaciones ( ): nmero de grupos distintos que es posible formar
con N elementos tomados de nen n, considerando que dos grupos son
distintos tanto si difieren en alguno de sus elementos como
sidifieren en el orden de los mismos8:
= [2.7]
-
52 Anlisis de datos (vol. I)
Supongamos que 10 candidatos optan a 3 puestos de trabajo con
diferente remuneracin. De cuntasmaneras distintas pueden repartirse
los 3 puestos entre los 10 candidatos? Para responder a esta
pregun-ta es necesario tener en cuenta que cada grupo de tres
candidatos es distinto de cada otro tanto si inclu-ye algn
candidato distinto como si los puestos se reparten de forma
distinta entre los mismos tres can-didatos (importa el orden). Por
tanto, se trata de variaciones de 10 elementos tomados de 3 en
3:
= = = maneras
Utilizando el principio fundamental de la combinatoria se llega
al mismo resultado: el primer premiopuede recaer sobre 10 personas
distintas, el segundo sobre 9 y el tercero sobre 8; por tanto, los
trespremios pueden repartirse de 10 9 8 = 720 maneras
distintas.
Combinaciones ( ): nmero de grupos distintos que es posible
formar con N elementos tomadosde n en n, considerando que dos
grupos son distintos nicamente si difieren en alguno de sus
elementos:
= = [2.8]
Supongamos que tenemos que formar grupos de trabajo de 3
personas con los 10 empleados de un de-partamento. Cuntos grupos
distintos de 3 personas pueden formarse? Obviamente, dos grupos
serndistintos nicamente si no contienen las mismas personas; aqu,
el orden en el que se elije a las personasno afecta a la composicin
del grupo. Por tanto, se trata de combinaciones de 10 elementos
tomadosde 3 en 3:
= = = = grupos
Utilizando el principio fundamental de la combinatoria se llega
al mismo resultado: el primer miembrodel grupo puede ser uno
cualquiera de los 10 empleados; el segundo, uno cualquiera de los 9
restantes;el tercero, uno cualquiera de los 8 restantes. Por tanto,
con los 10 empleados es posible formar un totalde 10 9 8 = 720
grupos. Pero, como muchos de estos grupos son equivalentes (estn
formados porlos mismos sujetos aunque en distinto orden), la
cantidad obtenida (720) hay que dividirla entre el n-mero de
ordenaciones distintas que es posible hacer con tres elementos: 3 2
1 = 6. En consecuencia,es posible formar un total de 720 / 6 = 120
grupos distintos.
Permutaciones (Pn): nmero de ordenaciones distintas que es
posible realizar con n elementos:
Pn = n ! [2.9]
Por ejemplo, de cuntas maneras distintas pueden asignarse los 10
empleados del ejemplo anterior alos 10 despachos disponibles en el
departamento? La solucin, ahora, no consiste en hacer
subgrupos,sino en ordenar a los 10 empleados de todas las formas
posibles. Se trata, por tanto, de permutacionesde 10 elementos:
P10 = 10 ! = 10 9 8 1 = 3.628.800 maneras distintas
Utilizando el principio fundamental de la combinatoria se
obtiene el mismo resultado: el primer miem-bro del grupo puede
ocupar uno cualquiera de los 10 despachos disponibles; el segundo,
uno cualquierade los 9 restantes; ...; el dcimo, el nico despacho
disponible; por tanto, los 10 empleados pueden re-partirse en los
10 despachos de 10 9 8 1 = 3.628.800 maneras distintas.
-
Captulo 2. Conceptos previos 53
En lo que a nosotros ms nos interesa, tanto las variaciones como
las combinaciones tienen la importan-te utilidad de permitir
calcular el nmero de muestras distintas que es posible extraer de
una poblacinfinita. Supongamos que se extrae una muestra de n = 5
personas de una poblacin de N = 20 personas(si la poblacin tuviera
20 millones de personas el razonamiento sera el mismo).
Ciertamente, un grupode personas no cambia porque las mismas 5
personas se elijan en un orden u otro. Pero, cuando se ex-traen
muestras aleatorias, lo que interesa es que cualquiera de ellas
tenga la misma probabilidad de serelegida. Y puesto que los
elementos pueden aparecer en distinto orden, cada una de esas
posibilidadestendr asociada una probabilidad. Por tanto, desde este
punto de vista, una muestra debe considerarsedistinta de otra tanto
si contiene algn elemento distinto como si, conteniendo los mismos,
se encuen-tran en distinto orden. Consiguientemente, el nmero de
muestras posibles vendr dado por las variacio-nes de 20 elementos
tomados de 5 en 5:
= = = muestras posibles
Ahora bien, si se considera que una muestra es distinta de otra
nicamente cuando contiene algn ele-mento distinto, entonces el
nmero de muestras posibles vendr dado por las combinaciones de
20elementos tomados de 5 en 5:
= = = = muestras distintas
Es claro que el nmero de muestras posibles que resulta con uno y
otro criterio es muy distinto. Sinembargo, la probabilidad asociada
a cada posible muestra es la misma independientemente del
criterioadoptado. En el primer caso (variaciones), esa probabilidad
vale uno dividido entre las 1.860.480 mues-tras posibles; en el
segundo, uno dividido entre las 15.504 muestras posibles.
Cmo seleccionar una muestra aleatoria
Al trabajar con poblaciones finitas, la extraccin de una muestra
aleatoria requiere, en general, comoprimer paso, que los elementos
poblacionales estn identificados de alguna manera. Una forma
apro-piada de identificarlos consiste en numerar los elementos
poblacionales de 1 a N y, a continuacin, uti-lizar una tabla de
nmeros aleatorios para elegir los elementos que formarn parte de la
muestra.
Las tablas de nmeros aleatorios (como la tabla A del apndice
final) han sido elaboradas de talforma que todos los dgitos del 0
al 9 aparecen con la misma frecuencia y repartidos de forma
aleatoria(los dgitos suelen aparecer en estas tablas formando
grupos para facilitar su lectura, pero esa agrupa-cin no tiene otro
significado).
Para ilustrar cmo utilizar la tabla de nmeros aleatorios,
supongamos que tenemos que extraeruna muestra de tamao n = 50 de
una poblacin de tamao N = 800. El primer paso consiste en
numerarlos elementos poblacionales de 1 a 800 (normalmente se
trabaja con listas que tienen resuelto esto). Acontinuacin, en la
tabla de nmeros aleatorios (la del apndice final est formada por
1.000 dgitos:40 filas por 25 columnas) seleccionamos al azar un
dgito cualquiera. Supongamos que la eleccin recaesobre el dgito
colocado en la 29 fila y en la 13 columna: hemos elegido el nmero
5. Leyendo a partirde esa posicin de izquierda a derecha (aunque
podra hacerse en cualquier otra direccin) encontramoslos siguientes
nmeros de tres dgitos (tres dgitos porque se es el nmero de dgitos
del tamao pobla-cional: 800): 541, 149, 050, etc. Seguimos as hasta
obtener los 50 elementos que deben formar partede la muestra. Si
reanudamos la secuencia donde la hemos dejado, el siguiente nmero
es 944; comoeste nmero es mayor que 800 (tamao poblacional),
desechamos ese valor y continuamos: 109, 341,etc. Por supuesto, se
puede continuar indistintamente en la fila de abajo o en la de
arriba; cualquier di-reccin que se tome ofrecer una secuencia
aleatoria.
-
54 Anlisis de datos (vol. I)
El problema de los mtodos de extraccin basados en tablas de
nmeros aleatorios es que slo re-sultan aplicables cuando se est
trabajando con poblaciones finitas. En una poblacin infinita no es
po-sible, por ejemplo, numerar todos los elementos que la componen.
En estos casos es necesario adoptaruna estrategia de muestreo
diferente. Una de estas estrategias se conoce con el nombre de
simulacin:tcnica de muestreo estadstico controlado utilizada, junto
con un modelo, para obtener respuestasaproximadas sobre problemas
probabilsticos (...) complejos (Lewis y Orav, 1989, pg. 9). En el
apn-dice del Captulo 6 se ofrece una breve explicacin de un mtodo
de simulacin conocido como mtodoMonte Carlo.
Ejercicios
2.1. En el ejercicio 1.1 (ver captulo anterior) hemos propuesto
un conjunto de caractersticas conel objetivo de aprender a
identificar el nivel de medida que era posible alcanzar con
ellas.Ahora se trata de decidir si esas caractersticas, a las que
ya podemos empezar a llamar varia-bles, deben ser clasificadas como
categricas o como cuantitativas.a. Percepcin subjetiva del dolor.b.
Grupo de tratamiento (experimental, control).c. Satisfaccin con un
determinado servicio.d. Peso de los recin nacidos.e. Tiempo de
reaccin.f. Calidad percibida del estado de salud general.g.
Rendimiento en el test de inteligencia Raven.h. Actitud hacia el
aborto (en contra, indiferente, a favor).i. Rendimiento en una
prueba de clculo numrico.j. Nivel socioeconmico (bajo, medio,
alto).k. Nmero de aciertos en una prueba de rendimiento.l. Calidad
del material recordado.m. Nivel de ansiedad.n. Intensidad del ruido
ambiental.. Aos de experiencia educativa de un profesor.o. Color de
un estmulo (rojo, amarillo, verde, azul).p. Dosis de un frmaco (0
mg, 100 mg, 250 mg, 500 mg).q. Grado de dificultad de una
pregunta.r. Nivel de alcohol en sangre (g/l).s. Consumo de alcohol
(nulo, bajo, medio, alto).t. Nmero de cigarrillos/da.u. Tabaquismo
(fumadores, exfumadores, no fumadores).v. Puntuaciones en la escala
de depresin de Hamilton.w. Nmero de accidentes de trfico ocurridos
en fin de semana.x. Tipo de ideologa poltica (izquierda, centro,
derecha).y. Nivel de conservadurismo medido en el continuo
izquierda-derecha.z. Tipo de tratamiento antidepresivo
(farmacolgico, psicolgico, mixto).
-
Captulo 2. Conceptos previos 55
2.2. A continuacin se ofrecen varias afirmaciones que pueden
ayudar a precisar el significadode algunos de los conceptos
introducidos en este captulo. Cul de ellas es verdadera y
culfalsa?a. Un parmetro es una caracterstica individual de cada
elemento de una poblacin.b. Un estadstico es un nmero y, por tanto,
una constante.c. Al seleccionar varias muestras de una misma
poblacin y calcular en cada una de ellas un
estadstico, el valor de ese estadstico ser siempre el mismo slo
si las muestras sonaleatorias y del mismo tamao.
d. Bajo ciertas circunstancias, los estudiantes de la
Universidad Autnoma de Madrid cons-tituyen una poblacin.
e. Una muestra aleatoria de los estudiantes de un colegio de una
ciudad puede ser conside-rada representativa de los estudiantes de
esa ciudad.
2.3. En un ensayo clnico diseado para probar la eficacia de un
nuevo frmaco destinado a pa-cientes con insomnio se utiliza una
muestra de los pacientes con insomnio que acuden a laconsulta de un
determinado hospital durante un determinado periodo de tiempo.
Sealar la(s)alternativa(s) correcta(s):a. Se tiene una muestra
aleatoria de pacientes con insomnio.b. Se tiene una muestra no
aleatoria de pacientes con insomnio.c. La poblacin de referencia es
la de pacientes con insomnio.
2.4. Para estudiar la relacin entre las variables tabaquismo y
enfisema pulmonar se han recogidodatos en tres hospitales de la
zona sur de Madrid. Al comienzo del estudio, los sujetos,elegidos
aleatoriamente entre los pacientes sin enfisema que han acudido a
consulta duranteun ao, se han clasificado como fumadores,
exfumadores y no fumadores. Tras diez aos deseguimiento se ha
registrado la presencia o no de enfisema pulmonar.a. Cul es la
poblacin de referencia?b. Cul es el parmetro que interesa
estudiar?c. Se ha seleccionado una muestra aleatoria de la poblacin
de referencia?d. A qu tipo de conclusin permite llegar un estudio
de estas caractersticas (descriptiva,
relacional, explicativa)?
2.5. Sealar cules de las siguientes afirmaciones son verdaderas
y cules son falsas:a. Si dos sucesos son independientes, la
probabilidad de uno de ellos es la misma tanto si el
otro suceso est presente como si no.b. Si dos sucesos son
independientes, la probabilidad de su suma es igual a la suma de
sus
probabilidades.c. Si dos sucesos son exclusivos, su probabilidad
conjunta es igual al producto de sus proba-
bilidades individuales.d. Si se lanza una moneda al aire cinco
veces y en las cinco ocasiones sale cara, la probabi-
lidad de que salga cara en el sexto lanzamiento es menor que la
probabilidad de que salgacruz (asumimos que la moneda no est
trucada y que el lanzamiento es imparcial).
e. Si se lanza una moneda al aire diez veces, el resultado 5
caras es igual de probable queel resultado 7 caras.
-
56 Anlisis de datos (vol. I)
2.6. Un examen consta de tres preguntas. Todas ellas tienen
cinco alternativas de respuesta de lasque slo una es correcta. Si
un sujeto responde al azar, cul es la probabilidad de que:a. No
acierte ninguna pregunta?b. Acierte una pregunta?c. Acierte dos
preguntas?d. Acierte las tres preguntas?
2.7. En un estudio sobre discriminacin visual se presentan a un
sujeto 10 pares de estmulos lumi-nosos de la misma intensidad. La
tarea consiste en decidir si los estmulos de cada par tieneno no la
misma intensidad. Si el sujeto realiza la tarea respondiendo al
azar:a. Cul es la probabilidad de que no d la respuesta correcta en
ningn par?b. Cul es la probabilidad de que d la respuesta correcta
en un solo par?
2.8. En un estudio dirigido a establecer la prevalencia de la
demencia senil en personas mayoresde 65 aos, se han recogido datos
sobre 5.000 personas. Cada persona se ha clasificado utili-zando
dos criterios: sexo (hombre, mujer) y demencia senil (s, no). La
siguiente tabla muestralos resultados obtenidos:
Demencia senil
Sexo S = s N = no Total
H = hombres 500 1.500 2.000M = mujeres 750 2.250 3.000
Total 1.250 3.750 5.000
a. Son independientes los sucesos ser hombre y padecer
demencia?b. Si se elige una persona al azar, cul es la probabilidad
de que se trate de una mujer que
no padece demencia?c. Si se elige una persona al azar y resulta
ser hombre, cul es la probabilidad de que pa-
dezca demencia?d. Si se elige al azar una persona y resulta que
padece demencia, cul es la probabilidad de
que sea un hombre?
2.9. Supongamos que la poblacin de personas mayores de 60 aos
est formada por un 40 % dehombres (H ) y un 60 % de mujeres (M ).
Supongamos, adems, que el porcentaje de personasdependientes (D )
en esa poblacin es del 10 % entre los hombres y del 20 % entre las
mujeres.Si se elige una persona al azar:a. Cul es la probabilidad
de que la persona elegida sea un hombre dependiente?b. Cul es la
probabilidad de que la persona elegida sea una mujer dependiente?c.
Cul es la probabilidad de que la persona elegida sea dependiente?d.
Si la persona elegida es dependiente, cul es la probabilidad de que
sea un hombre?
2.10. Tres pruebas diagnsticas para la deteccin del Alzheimer
(A, B y C) detectan la enfermedaden el 90, 80 y 70 %,
respectivamente, de las personas que la padecen. Si el diagnstico
de ca-da prueba es independiente del de las dems:
-
Captulo 2. Conceptos previos 57
a. Cul es la probabilidad de detectar la enfermedad si se
aplican las pruebas A y B?b. Cul es la probabilidad de no detectar
la enfermedad si se aplican las pruebas B y C?c. Si se considera
que la enfermedad est presente slo si las tres pruebas la detectan,
cul
es la probabilidad de que un enfermo de Alzheimer sea
diagnosticado como tal?d. Si se considera que la enfermedad est
presente slo si, aplicadas las tres pruebas, al me-
nos dos de ellas la detectan, cul es la probabilidad de que un
enfermo de Alzheimer seadiagnosticado como tal?
2.11. Consideremos dos preguntas de un examen: P1 y P2. Ambas
tienen varias alternativas de res-puesta de las que slo una es
correcta, pero la primera pregunta tiene cuatro alternativas yla
segunda cinco. Un estudiante responde al azar a una de esas dos
preguntas y acierta (A).a. Cul es la probabilidad de que la
pregunta respondida sea la primera?b. Cul es la probabilidad de que
la pregunta respondida sea la segunda?
2.12. Un detector de mentiras diagnostica correctamente al 90 %
de las personas que mienten (M)y al 95 % de las que no mienten. Se
elige al azar una persona de un colectivo de 100 personasdel que se
sabe que 20 mienten.a. Tanto si esa persona miente como si no, cul
es la probabilidad de que el detector ofrez-
ca un diagnstico correcto?b. Si el detector indica que esa
persona miente, cul es la probabilidad de que el diagnsti-
co sea correcto?
2.13. Se sabe que, en una determinada poblacin, la prevalencia
de una enfermedad concreta esdel 30 %. Se dispone de una prueba
diagnstica con una sensibilidad (= diagnstico positivocuando la
persona padece la enfermedad) del 90 % y una especificidad (=
diagnstico negati-vo cuando la persona no padece la enfermedad) del
80 %. Al realizar un diagnstico concretoa un sujeto de esa
poblacin:a. Cul es la probabilidad de que la prueba d un resultado
positivo?b. Cul es la probabilidad de que la prueba d un diagnstico
equivocado?c. Si la prueba da un resultado positivo, cul es la
probabilidad de que la persona no est
enferma?
2.14. El 40 % de los aspirantes a un puesto de trabajo ha
superado (S) una determinada prueba deseleccin. El 80 % de los
aspirantes que superan esa prueba terminan siendo contratados
(C),frente a slo el 5 % de los que no la superan. Si un aspirante
es finalmente contratado, cules la probabilidad de que haya
superado la prueba de seleccin?
2.15. En un determinado instituto de enseanza secundaria, el 48
% de los estudiantes son chicos(O) y el 52 % chicas (A). El 15 % de
los chicos tiene 19 aos o ms; el 5 % de las chicas tiene19 aos o
ms.a. Cul es la probabilidad de que un estudiante elegido al azar
tenga 19 aos o ms?b. Son independientes los sucesos ser chico y
tener 19 aos o ms?c. Si se elige un estudiante al azar y resulta
tener ms de 19 aos, cul es la probabilidad
de que sea una chica?
-
58 Anlisis de datos (vol. I)
2.16. El azar (la seleccin aleatoria) desempea un importante rol
en el anlisis de datos: no sloes la nica estrategia de que
disponemos para obtener muestras representativas, sino que
lasreglas que se derivan de la teora de la probabilidad se basan en
l. Pero el azar, o las leyesdel azar, tienen otras muchas
aplicaciones. Una de ellas, muy interesante, tiene que ver
congarantizar el anonimato en los cuestionarios que contienen
preguntas sensibles.
Imaginemos un estudio en el que se trata de obtener una
estimacin de la proporcin depersonas que defraudan a Hacienda (lo
mismo valdra para conductas como el consumo dedrogas, para los
gustos o inclinaciones sexuales, etc.; es decir, para conductas que
las perso-nas se sienten inclinadas a ocultar o maquillar por ser
socialmente indeseables). Lgicamen-te, pocas personas decidirn
confesar un delito (como defraudar a Hacienda) a no ser que
re-ciban plenas garantas de que su respuesta permanecer en el
anonimato.
Wonnacott y Wonnacott (1990, pgs. 107-108) han propuesto una
ocurrente manera degarantizar el anonimato de las respuestas a un
cuestionario. La estrategia consiste en pediral entrevistado que
lance una moneda en privado con la siguiente indicacin: (1) si sale
cara,responda a la pregunta: ha defraudado alguna vez a Hacienda?;
(2) si sale cruz, vuelvaa lanzar la moneda y diga si ha vuelto a
salir cruz. Al proceder de esta manera, si el entre-vistado
responde s, el entrevistador no tiene forma de saber si el
entrevistado ha defrau-dado a Hacienda o ha obtenido dos cruces. El
anonimato est garantizado.
Por supuesto, esta estrategia no permite conocer las respuestas
individuales de los entre-vistados. Pero s permite obtener una
estimacin de la proporcin de personas que defraudana Hacienda.
a. Supongamos que la verdadera proporcin () de entrevistados que
defrauda a Haciendavale 0,40. Qu proporcin (P) de respuestas s cabe
esperar encontrar en una muestraconcreta con el procedimiento
descrito?
b. Si en una muestra concreta se obtiene P = 0,15, qu valor habr
que estimar para ?c. Para poder responder a las dos preguntas
anteriores es necesario asumir que ciertas cosas
ocurren de cierta manera. Qu cosas y de qu manera?
Soluciones
2.1. En estas soluciones se indica no slo si una variable es
categrica o cuantitativa. En las variables cate-gricas se indica si
son nominales u ordinales. En las cuantitativas se distingue entre
las que son tpi-camente cuantitativas (de intervalos o de razn;
aclarando si son continuas o discretas) y las que, nosiendo
tpicamente cuantitativas, tampoco son estrictamente ordinales.
a. Cuantitativa (no estrictamente ordinal).b. Categrica
(nominal).c. Cuantitativa (no estrictamente ordinal).d.
Cuantitativa (continua).e. Cuantitativa (continua).f. Cuantitativa
(no estrictamente ordinal).g. Cuantitativa (no estrictamente
ordinal).h. Categrica (ordinal).i. Cuantitativa (no estrictamente
ordinal).j. Categrica (ordinal).
-
Captulo 2. Conceptos previos 59
k. Cuantitativa (discreta).l. Cuantitativa (no estrictamente
ordinal).m. Cuantitativa (no estrictamente ordinal).n. Cuantitativa
(continua).. Cuantitativa (discreta).o. Categrica (nominal).p.
Cuantitativa (discreta).q. Cuantitativa (no estrictamente
ordinal).r. Cuantitativa (continua).s. Categrica (ordinal).t.
Cuantitativa (discreta).u. Categrica