Material docente de la Unidad de Bioestadstica Clnica
Material docente de la Unidad de Bioestadstica Clnica
1. Teora de la probabilidad 2. Introduccin a la estadstica 3.
Anlisis de la varianza 4. Modelos de regresin lineal 5. Precisin y
validez de las pruebas diagnsticas 6. Modelos de regresin logstica
7. Modelos de regresin de Poisson 8. Anlisis de Supervivencia 9.
Medidas de frecuencia de la enfermedad 1. Teora de la probabilidad
1.1 Idea intuitiva 1.2 Formalizacin de la probabilidad 1.3
Definicin axiomtica de la probabilidad 1.4 Propiedades de la
probabilidad 1.5 Probabilidad condicionada 1.6 Sucesos
independientes 1.7 Regla de la probabilidad total 1.8 Teorema de
Bayes 1.9 Problemas propuestos Anexo I Repaso de Algebra de
Conjuntos Definiciones Propiedades Funcin de conjunto 2 Estadstica
2.1 Definiciones 2.1.1 Por qu la estadstica? 2.2 Estadstica
descriptiva 2.2.1 Mtodos grficos de representacin de datos 2.2.2
Medidas descriptivas 2.2.3.Medidas de posicin 2.2.4 Medidas de
dispersin 2.3 Variable aleatoria 2.3.1 Induccin de probabilidad a
variables aleatorias 2.3.2 Funcin densidad de probabilidad (fdp)
2.3.3 Funcin acumulativa de
probabilidadhttp://www.hrc.es/bioest/M_docente.html (1 of 5)
[28/12/2002 18:09:39]
Material docente de la Unidad de Bioestadstica Clnica
2.3.4 Parmetros caractersticos de una fdp 2.4 Problemas
propuestos 2.5 Inferencia estadstica 2.6 Estimacin de parmetros
2.6.1 Distribucin muestral de medias 2.6.2 Estimacin de
proporciones 2.7 Problemas propuestos 2.8 Contrastes de hiptesis
2.8.1 Tamao muestral para contrastes sobre medias 2.8.2 Comparacin
de medias 2.8.3 Independencia de v.a. cualitativas 2.9 Estadsticos
de fuerza de asociacin 2.10 Problemas propuestos 2.11 Introduccin a
la causalidad 2.12 Introduccin al anlisis multivariante 3. Anlisis
de la varianza 3.1 Bases del anlisis de la varianza 3.2 Algunas
propiedades 3.3 Ejemplo 1 3.4 Pruebas para la homocedasticidad 3.5
Modelos de Anova 3.5.1 Modelo I o de efectos fijos 3.5.2 Modelo II
o de efectos aleatorios 3.6 Pruebas a posteriori 3.7 Anlisis de la
varianza de dos factores 3.8 Identidad de la suma de cuadrados 3.9
Contrastes de hiptesis en el anova de 2 vas 3.9.1 Modelo I 3.9.2
Modelo II 3.9.3 Modelo mixto 3.10 Ejemplo 2 3.11 Tamaos muestrales
desiguales en un anova de 2 vas 3.12 Casos particulares: Anova sin
repeticin y Bloques completos aleatorios 3.13 Ejemplo 3 3.14
Anlisis de la varianza de ms de dos factores 4. Correlacin y
Modelos de regresin lineal 4.1 Bibliografa 4.2 Generalizacin del
concepto de fdp a variables multidimensionales 4.3 Independencia de
dos variables aleatorias 4.4 Funcin lineal 4.5 Modelo I de regresin
lineal simplehttp://www.hrc.es/bioest/M_docente.html (2 of 5)
[28/12/2002 18:09:39]
Material docente de la Unidad de Bioestadstica Clnica
4.6 Interpretacin del contraste 1=0 4.7 Inferencias sobre la
regresin 4.8 Anlisis de la varianza de la regresin simple 4.9
Modelo II de regresin lineal simple 4.10 Propiedades del
coeficiente de correlacin 4.11 Potencia de los contrastes en
regresin 4.12 Modelo de regresin lineal mltiple 4.13 Estimacin y
contrastes de hiptesis 4.14 Anlisis de la varianza de la regresin
mltiple 4.15 Variables indicadoras ("dummy") 4.16 Interaccin y
confusin en la regresin 4.17 Estrategias de modelizacin 4.18 El
problema de la colinealidad 4.19 Anlisis de los residuos 4.20
Regresin lineal con el PRESTA 5. Errores en las mediciones y
clasificaciones clnicas: Precisin y validez 5.1 ndices de
concordancia 5.2 Problemas del ndice kappa 5.3 Clasificaciones
multinomiales 5.4 ndice kappa con "pesos" 5.5 Distribucin muestral
del ndice kappa 5.6 Clculo del ndice kappa con el PRESTA 5.7
Concordancia para variables continuas 5.8 ndices de validez 5.9
Cocientes de probabilidad (CP) 5.10 Intervalos de confianza para
los CP's 5.11 Tablas Kx2 5.12 Ms de dos enfermedades 5.13 Clculo de
estos ndices con el PRESTA 5.14 Curvas ROC 5.15 Eleccin del punto
de corte ptimo 5.16 Sesgos en la evaluacin de las pruebas
diagnsticas 6. Modelos de regresin logstica 6.1 Bibliografa 6.2
Asociacin entre variables binomiales 6.3 Modelo de regresin
logstica simple 6.4 Estimacin de los coeficientes 6.5 Distribucin
muestral de los coeficientes 6.6 Estimacin por intervalos y
contrastes de hiptesis sobre los coeficientes 6.7 Modelo mltiple
6.8 Prueba de
Hosmer-Lemeshowhttp://www.hrc.es/bioest/M_docente.html (3 of 5)
[28/12/2002 18:09:39]
Material docente de la Unidad de Bioestadstica Clnica
6.9 rea bajo la curva ROC 6.10 Variables indicadoras ("dummy")
6.11 Interaccin y confusin en regresin logstica 6.12 Estrategias de
modelizacin 6.13 La colinealidad en regresin logstica 6.14 Regresin
logstica condicional 6.15 Evaluacin de los modelos de regresin
logstica 7. Modelos de regresin de Poisson 7.1 Bibliografa 7.2
Variables de Poisson 7.3 Modelo de regresin de Poisson 7.4
Estimacin de los coeficientes 7.5 Distribucin muestral de los
estimadores 7.6 Contrastes de hiptesis y estrategias de modelizacin
7.7 La colinealidad en regresin de Poisson 7.8 Relacin entre los
modelos de Poisson y logstico 8. Anlisis de Supervivencia 8.1
Bibliografa 8.2 Introduccin 8.3 Distribucin de la variable tiempo
de espera 8.4 Estimacin de la funcin de supervivencia (mtodo de
Kaplan-Meier) 8.5 Varianza de los estimadores 8.6 Mtodo actuarial
8.7 Comparacin de funciones de supervivencia 8.8 Alternativa
parmetrica 8.8.1 Funcin exponencial 8.8.2 Funcin de Weibull 8.8.3
Funcin lognormal 8.8.4 Funcin gamma 8.9 Modelo de riesgo
proporcional (Cox) 8.10 Estimacin de los coeficientes y contrastes
de hiptesis 8.11 Estrategias de modelizacin 9. Medidas de
frecuencia de la enfermedad 9.1 Bibliografa 9.2 Introduccin 9.3
Prevalencia 9.4 Incidencia 9.4.1 Incidencia acumulada 9.4.2
Densidad de incidencia 9.5 Intervalos de confianza
http://www.hrc.es/bioest/M_docente.html (4 of 5) [28/12/2002
18:09:39]
Material docente de la Unidad de Bioestadstica Clnica
9.6 Medidas de asociacin o efecto 9.6.1 Razn de tasas de
incidencia 9.6.2 Riesgo relativo 9.6.3 Odds ratio 9.6.4 Diferencia
absoluta de riesgo 9.6.5 Reduccin absoluta de riesgo 9.6.6
Diferencia relativa de riesgo 9.6.7 Reduccin relativa de riesgo
9.6.8 Nmero necesario a tratar 9.7 Comparacin de las distintas
medidas 9.8 Intervalos de confianza
http://www.hrc.es/bioest/M_docente.html (5 of 5) [28/12/2002
18:09:39]
TEORIA de la PROBABILIDAD
PROBABILIDADV.Abraira Referencia bibliogrfica A.Prez de Vargas,
V.Abraira. Bioestadstica. Centro de Estudios Ramn Areces. Madrid.
1996. Idea intuitiva Nmero, entre 0 y 1, asociado con la
verosimilitud de que ocurra un suceso, 0 cuando estamos seguros que
el suceso no va a ocurrir y 1 cuando estamos seguros que s va a
ocurrir. El problema es cmo asignar ese nmero en situaciones de
incertidumbre? a) A veces se estima por la frecuencia relativa.
P.e. una manera de aproximarnos a la probabilidad de que una
intervencin quirrgica arriesgada tenga xito es consultar el
registro de las intervenciones quirrgicas realizadas sobre
pacientes similares, si de las ltimas 10, ha sido un xito en 8, la
frecuencia relativa es 8/10=0,8 se parecer a esa probabilidad. La
frecuencia relativa cambia, en el ejemplo anterior si el registro,
en lugar de 10 pacientes, tuviera 11, la frecuencia relativa sera
necesariamente distinta (8/11 9/11), pero hay una ley emprica que
establece que cuando el "nmero de ensayos" (pacientes, en el
ejemplo) es suficientemente grande, la frecuencia relativa se
estabiliza. A veces, se define la probabilidad como el lmite de la
frecuencia relativa. Cmo saber, en cada caso, si el "nmero de
ensayos" es suficientemente grande? Una parte de la estadstica
tiene que ver con este problema. La grfica muestra la evolucin de
la frecuencia relativa del resultado "cara 1" en 4 series de 100
tiradas de un dado. Se observa que la frecuencia relativa oscila,
que la amplitud de las oscilaciones va decreciendo a medida que
aumenta el nmero de tiradas y que todas las series tienden a
estabilizarse a la misma altura, tambin que 100 no es un nmero
"suficientemente grande" para que la frecuencia relativa ya est
estabilizada (los valores finales de las 4 series varan entre 0,17
y 0,21).
b) Hay situaciones en que se puede calcular: si todos los
resultados del experimento son igualmente probables, entonces la
probabilidad se define (definicin clsica o de Laplace) como el
cociente entre el nmero de casos favorables y el nmero de casos
totales.
La probabilidad de que el resultado de tirar un dado sea un uno,
se calculara de esta forma. Comprese el resultado 1/6 obtenido as
con la grfica anterior.
http://www.hrc.es/bioest/Probabilidad_1.html [28/12/2002
18:09:56]
Formalizacin de la probabilidad
Formalizacin de la probabilidad Convenios: Los textos en color
malva corresponden a un mayor nivel de formalizacin y pueden ser
omitidos en una primera lectura. Experimento Aleatorio: experimento
que puede ser repetido bajo "las mismas condiciones", del que puede
establecerse el conjunto de sus posibles resultados, pero no
predecir un resultado concreto. Espacio muestral: conjunto de
posibles resultados. Punto muestral: elemento del espacio muestral.
Suceso: cualquier subconjunto del espacio muestral. Si
representamos el espacio muestral por y a los sucesos por A: A .
Dado que el conjunto vaco es subconjunto de cualquier conjunto ( )
y que todo conjunto es subconjunto de s mismo ( ), tanto el
conjunto vaco como el espacio muestral son sucesos. Si lo necesita
Repaso del lgebra de conjuntos Un problema a tener en cuenta es que
dado un experimento, podemos encontrar ms de un espacio muestral.
Ejemplo 1: una mujer portadora de hemofilia tiene 3 hijos Cul es el
espacio muestral apropiado para estudiar la posible hemofilia de
estos? Opcin a: Cada hijo puede padecer hemofilia (s) o no (n), por
tanto 1={sss, ssn, sns, nss, snn, nsn, nns, nnn} Donde, por
ejemplo, 'sns' significa el primero y el tercero la padecen y el
segundo no. Hay que asegurarse que no se olvida ninguno. En este
espacio muestral, el suceso "dos hijos padecen hemofilia" se
representa como A1={ssn, sns, nss} y el suceso "los dos primeros no
la padecen" como A2={nns, nnn} Opcin b: Pueden padecer hemofilia
los tres hijos (3), dos (2), ... 2={3, 2, 1, 0} En este espacio
muestral, el suceso "dos hijos padecen hemofilia" es A1={2} y el
suceso "los dos primeros no la padecen" no se puede representar
porque en el espacio muestral no est contemplado el orden.
http://www.hrc.es/bioest/Probabilidad_12.html [28/12/2002
18:10:24]
Definicin axiomtica de probabilidad
Definicin axiomtica de probabilidad Convenios: Los textos en
color malva corresponden a un mayor nivel de formalizacin Sea :
espacio muestral, P() conjunto de las partes de , o conjunto de
sucesos, o lgebra de sucesos. Se define probabilidad, o funcin de
probabilidad, a cualquier funcin p: P() (es decir, una regla bien
definida por la que se asigna a cada suceso un, y un solo un, nmero
real) que cumpla los axiomas siguientes i) p(A) 0 A P() ii) p(A1 A2
A3 ...) = p(A1) + p(A2) + p(A3) + ... si Ai Aj = i j (sucesos
mutuamente excluyentes) iii) p() = 1 A la estructura (, P(), p) se
le denomina espacio de probabilidad. Establecer claramente el
espacio de probabilidad ser el primer paso imprescindible para
estudiar una experiencia aleatoria. Muchas de las dificultades que
surgen, en la prctica, en el anlisis estadstico de investigaciones
clnicas tienen que ver con el establecimiento implcito y defectuoso
de este espacio. Obsrvese que es necesario asignar un nmero a todos
los sucesos, no slo a los sucesos elementales, pero si se ha
asignado la probabilidad a los sucesos elementales, a travs de la
propiedad ii) se puede asignar a todos los dems. Ejemplo 1: Para el
experimento aleatorio de tirar un dado, el espacio muestral es =
{1, 2, 3, 4, 5, 6}. En este espacio el conjunto de sucesos es P() =
{, {1}, {2}, ...{1,2}, {1,3}, ...{1,2,3,4,5,6}}. Para establecer
una probabilidad hay que asignar un nmero a todos esos sucesos. Sin
embargo si se ha asignado a los sucesos elementales p({1})= p({2})=
...= p({6})= 1/6, por la propiedad ii), p.e. la probabilidad del
suceso {1, 3} es p({1,3})= p({1})+ p({3})=2/6. Nota: El suceso {1}
es: "el resultado de tirar el dado es la cara 1", el suceso {1, 3}
es: "el resultado de tirar el dado es la cara 1, o la 3", el suceso
{1, 3, 5} es: "el resultado de tirar el dado es una cara
impar".
http://www.hrc.es/bioest/Probabilidad_13.html [28/12/2002
18:10:34]
Propiedades de la probabilidad
Propiedades de la probabilidad Demostraciones 1) p(Ac) = 1 -
p(A) Ac representa el suceso complementario de A, es decir el
formado por todos los resultados que no estn en A. 2) A1 A2 p(A1)
p(A2) 3) p() = 0 4) p(A) 1 5) p(A B) = p(A) + p(B) - p(A B) (Regla
general de la adiccin) Ejemplo 2: Un 15% de los pacientes atendidos
en un hospital son hipertensos, un 10% son obesos y un 3% son
hipertensos y obesos. Qu probabilidad hay de que elegido un
paciente al azar sea obeso o hipertenso? A = {obeso} B =
{hipertenso} A B = {hipertenso y obeso} A B = {obeso o hipertenso}
p(A) = 0,10; p(B) = 0,15; p(A B) = 0,03 p(A B) = 0,10 + 0,15 - 0,03
= 0,22
http://www.hrc.es/bioest/Probabilidad_14.html [28/12/2002
18:10:54]
Probabilidad condicionada
Probabilidad condicionada Como la probabilidad est ligada a
nuestra ignorancia sobre los resultados de la experiencia, el hecho
de que ocurra un suceso, puede cambiar la probabilidad de los dems.
El proceso de realizar la historia clnica, explorar y realizar
pruebas complementarias ilustra este principio. La probabilidad de
que ocurra el suceso A si ha ocurrido el suceso B se denomina
probabilidad condicionada y se define
Esta definicin es consistente, es decir cumple los axiomas de
probabilidad. Cuando ocurre un suceso cambia el espacio muestral,
por eso cambia la probabilidad. A veces es ms fcil calcular la
probabilidad condicionada teniendo en cuenta este cambio de espacio
muestral. Ejemplo 3: Una mujer es portadora de la enfermedad de
Duchenne Cul es la probabilidad de que su prximo hijo tenga la
enfermedad? Segn las leyes de Mendel, todos los posibles genotipos
de un hijo de una madre portadora (xX) y un padre normal (XY) son
xX, xY, XX, XY y tienen la misma probabilidad. El espacio muestral
es = {xX, xY, XX, XY} el suceso A={hijo enfermo} corresponde al
genotipo xY, por tanto, segn la definicin clsica de probabilidad
p(A) = 1/4 = 0,25 La mujer tiene el hijo y es varn qu probabilidad
hay de que tenga la enfermedad? Se define el suceso B = {ser varn}
= {xY, XY} la probabilidad pedida es p(A|B) y aplicando la
definicin anterior p(B) = 0,5; A B = {xY}; p(A B) = 0,25; p(A|B) =
0,25/0,5 = 0,5 Si sabemos que es varn, el espacio muestral ha
cambiado, ahora es B. Por lo tanto se puede calcular p(A|B)
aplicando la definicin clsica de probabilidad al nuevo espacio
muestral p(A|B) = 1/2 = 0,5 Ejemplo 4: Se sabe que el 50% de la
poblacin fuma y que el 10% fuma y es hipertensa. Cul es la
probabilidad de que un fumador sea hipertenso? A = {ser hipertenso}
B = {ser fumador} A B = {ser hipertenso y fumador} p(A|B) =
0,10/0,50 = 0,20 Obsrvese que los coeficientes falso-positivo y
falso-negativo de las pruebas diagnsticas son probabilidades
condicionadas. La frmula anterior se puede poner p(A B) = p(B)
p(A|B) = p(A) p(B|A) llamada regla de la multiplicacin, que se
puede generalizar a ms sucesos p(A1 A2 A3) = p((A1 A2) A3) = p(A1
A2) p(A3|A1 A2) = p(A1) p(A2|A1) p(A3|A1 A2)
http://www.hrc.es/bioest/Probabilidad_15.html (1 of 2)
[28/12/2002 18:11:13]
Probabilidad condicionada
En general p(A1 A2 A3 ...) = p(A1) p(A2|A1) p(A3|A1 A2) ...
llamado principio de las probabilidades compuestas y especialmente
til para aquellas situaciones en que las probabilidades
condicionadas son ms fciles de obtener que las probabilidades de
las intersecciones. Ejemplo 4: Se sabe por estudios previos que el
0,1% de la poblacin tiene problemas vasculares. Un estudio sobre
individuos con problemas vasculares revela que el 20% de ellos son
placas de ateroma. Si el 10% de los individuos con placas de
ateroma estn expuestos a muerte sbita por desprendimiento de
trombos qu probabilidad tiene un individuo cualquiera de estar
expuesto a muerte sbita por desprendimiento de trombos de una placa
de ateroma? A1 = {problemas vasculares}; A2 = {placas de ateroma};
A3 = {expuesto a muerte sbita por ....} p(A1) = 0,001; p(A2|A1) =
0,20; p(A3|A1 A2) = 0,1 p(A1 A2 A3) = 0,001 x 0,20 x 0,1 = 0,000002
Ejemplo 5: Una urna contiene 10 bolas, de las cuales 3 son rojas, 5
verdes y 2 azules. Se extraen al azar 3 bolas. Calcular la
probabilidad de que la primera sea azul, y las otras dos verdes.
Definimos A1 = {la 1 bola es azul}; A2 = {la 2 bola es verde}; A3 =
{la 3 bola es verde} p(A1) = 2/10 aplicando la definicin clsica de
probabilidad, puesto que hay 10 bolas y 2 son verdes. p(A2|A1) =
5/9; si la primera bola extrada es azul, en la urna quedan 9 bolas,
5 de ellas verdes. p(A3|A1 A2) = 4/8; si la primera bola extrada es
azul y la segunda verde en la urna quedan 8 bolas, 4 de ellas
verdes. p(A1 A2 A3) = 2/10 x 5/9 x 4/8 = 1/18
http://www.hrc.es/bioest/Probabilidad_15.html (2 of 2)
[28/12/2002 18:11:13]
Sucesos independientes
Sucesos independientes Dos sucesos son independientes si y slo
si p(A B) = p(A) p(B). Si dos sucesos son independientes
y del mismo modo p(B|A) = p(B) Esta propiedad coincide ms con la
idea intuitiva de independencia y algunos textos la dan como
definicin. Hay que notar, sin embargo, que ambas definiciones no
son estrictamente equivalentes. Ejemplo 6: Para un hijo de una
mujer portadora de Duchenne, el sexo y la enfermedad son
independientes? Segn vimos en el Ejemplo 3 el espacio muestral es =
{xX, xY, XX, XY} Definimos los sucesos A = {varn} = {xY, XY}; B =
{enfermo} = {xY} A B = {xY} por lo tanto p(A) = 0,5; p(B) = 0,25;
p(A B) = 0,25 p(A) p(B) NO son independientes.
http://www.hrc.es/bioest/Probabilidad_16.html [28/12/2002
18:11:32]
Regla de la PROBABILIDAD total
Regla de la probabilidad total Se llama particin a conjunto de
sucesos Ai tales que A1 A2 ... An = y Ai Aj = i j es decir un
conjunto de sucesos mutuamente excluyentes y que cubren todo el
espacio muestral
Regla de la probabilidad total: Si un conjunto de sucesos Ai
forman una particin del espacio muestral y p(Ai) 0 Ai, para
cualquier otro suceso B se cumple
Demostracin Ejemplo 7: La prevalencia de infarto cardaco para
hipertensos es del 0,3% y para no hipertensos del 0,1%. Si la
prevalencia de hipertensin en una cierta poblacin es del 25% Cul es
la prevalencia del infarto en esa poblacin? A1 = {ser hipertenso}
A2 = {no serlo} estos sucesos constituyen una particin B = {padecer
infarto} datos: p(B|A1) = 0,003; p(B|A2) = 0,001; p(A1) = 0,25
evidentemente p(A2) =0,75 por la propiedad 1 p(B) = 0,003x0,25 +
0,001 x 0,75 = 0,0015
http://www.hrc.es/bioest/Probabilidad_17.html [28/12/2002
18:12:21]
Teorema de Bayes
Teorema de Bayes Si los sucesos Ai son una particin y B un
suceso tal que p(B) 0
Demostracin Aplicaciones Diagnstico mdico (en general
clasificaciones no biunvocas): El diagnstico consiste en establecer
la enfermedad de un paciente, a partir de una serie de sntomas.
Pero los sntomas y las enfermedades no estn ligados de un modo
biunvoco. Llamemos Ei al conjunto de enfermedades E1: tuberculosis
pulmonar; E2 :cncer de pulmn; E3: bronquitis obstructiva; etc. y Si
a los sntomas y sndromes asociados con las mismas S1: tos; S2:
estado febril; S3: hemotisis; etc. La informacin accesible en los
libros de patologa, o en un archivo de historias clnicas es del
tipo Para E1: algunos (digamos el 20%) tienen hemotisis; muchos
(80%) tienen tos; etc. y lo mismo para las dems enfermedades En
trminos de probabilidad condicionada, esta informacin es p(S3|E1) =
0,2; p(S1|E1) = 0,8 etc. para diagnosticar la tuberculosis se ha de
evaluar, para los sntomas que presenta el paciente p(E1|Si) para lo
que se puede usar el teorema de Bayes si las enfermedades forman
una particin (son mutuamente excluyentes y se consideran todas las
enfermedades compatibles con el sntoma) y se conocen sus
prevalencias. Ntese que un mismo conjunto de sntomas podra dar
lugar a un diagnstico diferente en poblaciones en las que las
prevalencias fueran diferentes. Pruebas diagnsticas: Supngase una
prueba diagnstica, por ejemplo nivel de glucosa en sangre, en
ayunas, para diagnosticar la diabetes. Se considera que la prueba
es positiva si se encuentra un nivel por encima de un cierto valor,
digamos 120 mg/l. Para evaluar la prueba, (habr que hacerlo para
distintos valores de corte) se somete a la misma a una serie de
individuos diabticos diagnosticados por otro procedimiento (el
patrn de oro o "gold standar") y a una serie de individuos no
diabticos. Los resultados se pueden representar en una tabla de
doble entrada Patrn de oro NE
Pruebahttp://www.hrc.es/bioest/Probabilidad_18.html (1 of 2)
[28/12/2002 18:12:55]
E b r
a
Teorema de Bayes
+
c t
d u
s
Si la prueba fuera perfecta b=c=0, desgraciadamente nunca
ocurre. Se denomina coeficiente falso-positivo (CFP) al cociente
c/t, y es una estimacin de la probabilidad condicionada p(+|NE), se
denomina coeficiente falso-negativo (CFN) al cociente b/u, y es una
estimacin de la probabilidad condicionada p(-|E). Estos dos
coeficientes cuantifican los dos errores que la prueba puede
cometer y caracterizan a la misma. Simtricamente, los coeficientes
que cuantifican los aciertos son la sensibilidad, p(+|E), y la
especificidad p(-|NE). Cuando la prueba se usa con fines
diagnsticos (o de "screening") interesa calcular p(E|+) y/o
p(NE|-). como E y NE son una particin, usando el Teorema de
Bayes
y
Ntese que ambas dependen de la prevalencia de la enfermedad: una
prueba diagnstica que funciona muy bien en la clnica Mayo, puede
ser intil en el Hospital Ramn y Cajal. Ejemplo 8: una prueba
diagnstica para la diabetes tiene un CFP de 4% y un CFN del 5%. Si
la prevalencia de la diabetes en la poblacin donde se usa es del 7%
cul es la probabilidad de que sea diabtico un individuo en el que
la prueba d positiva? y de que no lo sea uno en el que d negativo?
p(+|NE) = 0,04 p(-|NE) = 0,96 p(-|E) = 0,05 p(+|E) = 0,95 p(E) =
0,07 p(NE) = 0,93
y
Pruebas en serie: Cuando se aplican pruebas en serie, para cada
prueba p(E) y p(NE), sern la p(E|+) y p(NE|+) de la prueba anterior
(si dio positiva) o p(E|-) y p(NE|-) si dio negativa.
http://www.hrc.es/bioest/Probabilidad_18.html (2 of 2)
[28/12/2002 18:12:55]
Problemas de probabilidad propuestos:
Problemas de probabilidad propuestos: 1 Una mujer es hija de una
portadora de la enfermedad de Duchenne. Dicha mujer tiene tres
hijos sanos. Calcular la probabilidad de que ella sea portadora de
la enfermedad. Solucin 2 Una prueba diagnstica para el cncer
uterino tiene un coeficiente falso-positivo de 0.05 y
falso-negativo de 0.10. Una mujer con una probabilidad pre-prueba
de padecer la enfermedad de 0.15 tiene un resultado negativo con la
misma. Calcular la probabilidad de que no est enferma. Solucin
http://www.hrc.es/bioest/Probabilidad_pro.html [28/12/2002
18:13:09]
Problemas de probabilidad resueltos:
Problemas de probabilidad resueltos: 1 Una mujer es hija de una
portadora de la enfermedad de Duchenne. Dicha mujer tiene tres
hijos varones sin la enfermedad. Calcular la probabilidad de que
ella sea portadora de la enfermedad. Solucin Si representamos por x
el gen alterado y por X el gen normal, el espacio muestral para el
nacimiento de la mujer ={xX, XX}, cada suceso elemental con la
misma probabilidad (1 ley de Mendel). Por tanto, si A = {xX} = {la
mujer es portadora}, segn la definicin clsica de probabilidad p(A)
= 1/2. Si la mujer fuera portadora, los posibles genotipos para sus
hijos son xX, xY, XX, XY, todos con la misma probabilidad. El
espacio muestral para el nacimiento de un hijo varn es ={xY, XY},
por tanto la probabilidad de que un hijo varn no tenga la
enfermedad es 1/2 (tambin segn la definicin clsica). Cmo los
genotipos de los sucesivos hijos son independientes (2 ley de
Mendel), y de acuerdo a la definicin de independencia, la
probabilidad de que los 3 hijos varones no tengan la enfermedad es
(1/2)x(1/2)x(1/2) = 1/8. Obviamente si la mujer no fuera portadora,
la probabilidad de que los 3 hijos varones no tengan la enfermedad
es 1. Como el suceso A = {la mujer es portadora} y su
complementario Ac = {la mujer no es portadora} forman una particin,
se puede aplicar el teorema de Bayes en relacin con el suceso B =
{los 3 hijos varones no tienen la enfermedad}
2 Una prueba diagnstica para el cncer uterino tiene un
coeficiente falso-positivo de 0,05 y falso-negativo de 0,10. Una
mujer con una probabilidad pre-prueba de padecer la enfermedad de
0,15 tiene un resultado negativo con la misma. Calcular la
probabilidad de que no est enferma. Solucin Sea NE = {la mujer no
est enferma}, + = {el resultado de la prueba es positivo} y - = {el
resultado de la prueba es negativo}. La pregunta pide p(NE|-). Los
datos que se dan son p(+|NE)=0,05; p(-|E)=0,10 y p(E)=0,15. Del
primero se deduce que p(-|NE)=0,95 y del ltimo p(NE)=0,85, por lo
tanto aplicando el teorema de Bayesp(NE|--) = [ p(--|NE) p(NE) ] /
[ p(--|NE) p(NE) + p(--|E) p(E) ] p(NE|--) = [ 0,95 x 0,85 ] / [
0,95 x 0,85 + 0,10 x 0,15 = 0,982
http://www.hrc.es/bioest/Probabilidad_prosul.html [28/12/2002
18:18:34]
REPASO DE ALGEBRA DE CONJUNTOS
REPASO DE ALGEBRA DE CONJUNTOS V.Abraira Definiciones Dado un
conjunto A={a, b, c, d}, la relacin de pertenencia se representa
por a A. Se llama cardinal del conjunto, y se representa car(A), al
nmero de elementos que contiene. Se llama conjunto vaco, y se
representa por , al conjunto que no contiene ningn elemento. No
desespere, estamos de acuerdo en que si no contiene ningn elemento,
no es un conjunto, sin embargo su definicin como tal es muy til. Se
llama universo o conjunto universal, y se suele representar por H,
al conjunto formado por todos los elementos que se estn
considerando. Dado un conjunto A, se llama complementario del
mismo, y se representa por Ac, al conjunto formado por los
elementos del universo que no son de A. Dos conjuntos son iguales
si estn formados por los mismos elementos. Se dice que B es
subconjunto de A, y se representa B A, si todos los elementos de B
pertenecen a A. Se dice tambin que B est incluido en A. Dados dos
conjuntos A y B, se llama unin de ambos, y se representa A B, al
conjunto formado por los elementos que pertenecen a A o a B.
Ejemplo 1: A={a, b, c, d} B={c, d, e, h} A B = {a, b, c, d, e, h}
Ejemplo 2: C={personas obesas} D={personas hipertensas} C D =
{personas obesas o hipertensas} Se llama interseccin y se
representa A B, al conjunto formado por los elementos que
pertenecen a A y a B. Ejemplo 3: para los conjuntos anteriores A B
= {c, d} C D = {hipertensos y obesos} Si dos conjuntos no tienen
elementos comunes, se llaman disjuntos y su interseccin es el
conjunto vaco. Si, para el ejemplo 2, en el universo que se est
considerando no hay nadie que sea hipertenso y obeso C D = Al
conjunto formado por todos los subconjuntos de un conjunto dado se
le denomina conjunto de las partes del conjunto o lgebra y se
representa por P(A) Ejemplo: A = {1, 2, 3} P(A) = { , {1}, {2},
{3}, {1,2}, {1,3}, {2,3}, {1,2,3}} Propiedades Propiedades de la
inclusin i) A A ii) A iii) A B B A ; slo si A = B iv) A B y B D
==> A D
http://www.hrc.es/bioest/Algebra_conjuntos.html (1 of 2)
[28/12/2002 18:31:54]
REPASO DE ALGEBRA DE CONJUNTOS
Propiedades de la unin e interseccin
i) Identidad ii) Idempotencia iii) Commutatividad iv)
Asociatividad v) Distributividad vi) Absorcin vii)
Complementaridad
A=A AA=A AB=BA (A B) D = A (B D) (A B) D = (A D) (B D) A (A B) =
A A Ac = H
A H = A AA=A AB=BA (A B) D = A (B D) (AB) D = (A D) (B D) A (A
B) = A A Ac =
Nota: A todo conjunto en el que se hayan definido dos
operaciones que tengan estas propiedades, se le denomina Algebra de
Boole. Funcin de conjunto: toda regla que de un modo perfectamente
determinado haga corresponder un nmero real a cada elemento del
conjunto. Se representa por f: A el nmero x que le corresponde al
elemento a, se representa por x=f(a) Se denomina imagen de la
funcin al conjunto de nmeros que estn en correspondencia con algn
elemento, a travs de la funcin.
im f = { x ; a A , f(a)=x }
Volver
Ir a Bioestadstica
http://www.hrc.es/bioest/Algebra_conjuntos.html (2 of 2)
[28/12/2002 18:31:54]
Estadstica
ESTADISTICAV.Abraira Referencia bibliogrfica A.Prez de Vargas,
V.Abraira. Bioestadstica. Centro de Estudios Ramn Areces. Madrid.
1996. Definiciones Conjunto de mtodos cientficos ligados a la toma,
organizacin, recopilacin, presentacin y anlisis de datos, tanto
para la deduccin de conclusiones como para tomar decisiones
razonables de acuerdo con tales anlisis. Arte de la decisin en
presencia de incertidumbre. Ciencia que sirve para demostrar que
dos personas han comido 1/2 pollo cada una, cuando en realidad una
ha comido uno y la otra ninguno. Por qu la estadstica? Usaron la
estadstica Galileo, Newton y Einstein? En ciertas ciencias
(Biologa, Ciencias Humanas, algunos campos de la Fsica, ...)
aparece el concepto de experimento aleatorio (experimento que
repetido en las "mismas condiciones" no produce el mismo resultado)
y asociado al mismo el de variable aleatoria. Una variable no
aleatoria (asociada al resultado de una experiencia que s produce
el mismo resultado) est caracterizada por un valor para cada
condicin. Una variable aleatoria est caracterizada por la llamada
funcin densidad de probabilidad, a partir de la cual se obtienen
las probabilidades para sus posibles valores para cada condicin.
Los objetivos de la investigacin cientfica se pueden entender, de
un modo muy general, en trminos de encontrar y describir las
variables de inters y las relaciones entre ellas, para el problema
en estudio. La estadstica es la ciencia que estudia los mtodos que
permiten realizar este proceso para variables aleatorias. Estos
mtodos permiten resumir datos y acotar el papel de la casualidad
(azar). Se divide en dos reas: Estadstica descriptiva: Trata de
describir las variables aleatorias en las "muestras". Estadstica
inductiva o inferencial: Trata de la generalizacin hacia las
poblaciones de los resultados obtenidos en las muestras y de las
condiciones bajo las cuales estas conclusiones son vlidas. Se
enfrenta bsicamente con dos tipos de problemas: Estimacin, que
puede ser puntual o por intervalos.
http://www.hrc.es/bioest/estadis_1.html (1 of 2) [28/12/2002
18:41:40]
Estadstica
Contraste de hiptesis. ESTADISTICA DESCRIPTIVA La descripcin
completa de una variable aleatoria est dada por su funcin densidad
de probabilidad (fdp). Afortunadamente una gran cantidad de
variables de muy diversos campos estn adecuadamente descritas por
unas pocas familias de fdps: binomial, Poisson, normal, gamma, etc.
Dentro de cada familia, cada fdp est caracterizada por unos pocos
parmetros, tpicamente dos: media y varianza. Por tanto la
descripcin de una variable indicar la familia a que pertenece la
fdp y los parmetros correspondientes. Ejemplo: (hipottico) la
concentracin de glucosa en sangre en individuos no diabticos,
medida en mg/dl, es normal con media 98 y varianza 90. El problema
es cmo averiguar la fdp de una variable de inters? La familia,
generalmente, se sabe por resultados de la teora de la
probabilidad, aunque, en cada caso, conviene verificarlo. Para
conocer los parmetros se deberan conocer los resultados de todos
los posibles experimentos (poblacin: conjunto de todos los valores
de una variable aleatoria). Generalmente la poblacin es
inaccesible, bien es infinita, o aunque finita suficientemente
grande para ser inabordable. En consecuencia, se estudian muestras
(subconjuntos de la poblacin) que, en caso de ser aleatorias,
permiten realizar estimaciones tanto de la familia como de los
parmetros de las fdps. Muestra aleatoria: muestra elegida
independientemente de todas las dems, con la misma probabilidad que
cualquier otra y cuyos elementos estn elegidos independientemente
unos de otros y con la misma probabilidad. Mtodos grficos de
representacin de muestras: El mtodo grfico ms frecuente es el
histograma, que puede adoptar distintas formas. Vanse algunos
ejemplos. Advertencias: 1 Estos diagramas tienen un fin
descriptivo: deben ser fciles de leer. 2 El convenio es que la
frecuencia sea proporcional al rea (es proporcional a la altura slo
si las barras tienen la misma anchura). 3 Para fines comparativos
es mejor usar frecuencias relativas. 4 El nmero de clases (barras),
cuando la variable no es cualitativa, no debe ser ni muy grande ni
muy pequeo. Generalmente se recomiendan entre 5 y 20 clases de
igual tamao. Otro criterio es usar la raz cuadrada del nmero de
datos. 5 Los lmites de las clases no deben ser ambiguos, p.e. no
deben coincidir con valores posibles de los datos (una cifra
decimal ms).
http://www.hrc.es/bioest/estadis_1.html (2 of 2) [28/12/2002
18:41:40]
Medidas descriptivas
MEDIDAS DESCRIPTIVAS Medidas de posicin o tendencia Media
muestral: Si tenemos X1, X2, ... , Xn datos, se llama media
muestral de los mismos a su media aritmtica
Moda muestral: El valor que ms se repite (puede no existir y si
existe puede no ser nica). Mediana muestral: Ordenando los Xi, el
valor que est en el medio
Ejemplo: Sean los datos 3, 5, 7, 7, 8, 9 = 39/6 = 6,5; = 7; moda
= 7
Medidas de dispersin Rango: Si Xi estn ordenados Xn - X1
Varianza:
aunque para el clculo se suele usar otra frmula ms cmoda
Desviacin tpica o estndar:
Ojo!! no confundir con error tpico o estndar Coeficiente de
variacin:
http://www.hrc.es/bioest/estadis_2.html (1 of 2) [28/12/2002
18:43:34]
Medidas descriptivas
http://www.hrc.es/bioest/estadis_2.html (2 of 2) [28/12/2002
18:43:34]
VARIABLE ALEATORIA
Variable aleatoria Una funcin que asocia un nmero real,
perfectamente definido, a cada punto muestral. A veces las
variables aleatorias (v.a.) estn ya implcitas en los puntos
muestrales. Ejemplo 1: Experiencia consistente en medir la presin
sistlica de 100 individuos. Un punto muestral (resultado de un
experimento) es ya un nmero (presin sistlica). La v.a. est
implcita. Ejemplo 2: En el ejemplo de la mujer portadora de
hemofilia. = {sss, ssn, sns, snn, nss, nsn, nns, nnn} Se podra
definir una variable que asignara a cada punto muestral el nmero de
orden en el espacio muestral. X: sss 1; ssn 2; sns 3;... 3; ssn 2;
...
Pero otra posible v.a.: a cada punto muestral el nmero de s. X:
sss Los conjuntos pueden ser: discretos: nmero finito o infinito
numerable de elementos. continuos: nmero infinito no numerable de
elementos.
Las v.a. definidas sobre espacios muestrales discretos se llaman
v.a. discretas y las definidas sobre espacios muestrales continuos
se llaman continuas. Una v.a. puede ser continua, aunque nosotros
slo podamos acceder a un subconjunto finito de valores. P.e. la
presin arterial es una v.a. continua pero slo podemos acceder a un
conjunto finito de valores por la limitacin de los aparatos de
medida. En general, las medidas dan lugar a v.a. continuas y los
conteos a v.a. discretas. Induccin de la probabilidad a variables
aleatorias Las v.a permiten definir la probabilidad como una funcin
numrica (de variable real) en lugar de como una funcin de conjunto
como se haba definido antes Ejemplo 3: Tiramos una moneda 3 veces.
Representamos cara por c y cruz por z. = {ccc, ccz, czc, zcc, czz,
zcz, zzc, zzz} La probabilidad de cada suceso elemental es 1/8. Por
ejemplo p(ccc)=1/8, ya que la probabilidad de sacar cara en una
tirada es 1/2 segn la definicin clsica y las tiradas son
independientes. Definimos la v.a. X: nmero de caras, que puede
tomar los valores {0, 1, 2, 3}. Se buscan todos los puntos
muestrales que dan lugar a cada valor de la variable y a ese valor
se le asigna la probabilidad del suceso correspondiente.
http://www.hrc.es/bioest/estadis_21.html (1 of 5) [28/12/2002
18:44:02]
VARIABLE ALEATORIA
x 0 1 2 3 {zzz}
Sucesos
px 1/8 3/8 3/8 1/8
{czz, zcz, zzc} {ccz, czc, zcc} {ccc}
A esta funcin se le denomina funcin densidad de probabilidad
(fdp), que desgraciadamente "funciona" de distinta manera en las
variables discreta que en las continuas. En el caso de las
variables discretas, como en el ejemplo, es una funcin que para
cada valor de la variable da su probabilidad. Ejemplo 4: Supongamos
la variable tipo histolgico de un tumor, con los valores 1, 2, 3,
4. Si la fdp fuera
x 1 2 3 4
f(x) 0,22 0,27 0,30 0,21
significara que la probabilidad del tipo 2 es 0,27, etc. Para
variables continuas la probabilidad de que una variable tome
cualquier valor concreto es 0, por lo tanto la fdp slo permite
calcular la probabilidad para un intervalo del tipo (a1) c. Hallar
p(X=1) d. Hallar p(X1) Ayuda: hacerlo todo grficamente e. Calcular
la media y la varianza (Slo para iniciados). Solucin a. La grfica
de la fdp es La condicin equivalente a
para variables continuas es que el rea bajo la fdp sea 1. De
modo general ese rea se calcula mediante clculo integral, pero en
este caso se puede calcular por la conocida frmula del rea de un
tringulo A = (bxh)/2, es decir A = (2x1)/2=1
b. Grficamente, la probabilidad pedida es el rea coloreada de
verde, por lo tanto se puede calcular tambin con la frmula del rea
del tringulo. Ahora b=1 y para calcular h hay que ver que valor
toma la fdp cuando x=1, y = -1/2 + 1 = 1/2. Por lo tanto, la
probabilidad es (1x1/2)/2 = 1/4
c. Como en toda variable continua la probabilidad de que tome un
valor concreto es 0, por lo tanto p(X=1) = 0 d. Obviamente p(X1) =
p(X >1) = 1/4 e. Media
varianza
http://www.hrc.es/bioest/estadis_prosul.html (3 of 4)
[28/12/2002 18:45:31]
Problemas de estadstica resueltos
http://www.hrc.es/bioest/estadis_prosul.html (4 of 4)
[28/12/2002 18:45:31]
Estadstica inferencial: estimacin de parmetros y contrastes de
hiptesis
Estadstica inferencial Los dos tipos de problemas que resuelven
las tcnicas estadsticas son: estimacin y contraste de hiptesis. En
ambos casos se trata de generalizar la informacin obtenida en una
muestra a una poblacin. Estas tcnicas exigen que la muestra sea
aleatoria. En la prctica rara vez se dispone de muestras
aleatorias, por la tanto la situacin habitual es la que se
esquematiza en la figura
Entre la muestra con la que se trabaja y la poblacin de inters,
o poblacin diana, aparece la denominada poblacin de muestreo:
poblacin (la mayor parte de las veces no definida con precisin) de
la cual nuestra muestra es una muestra aleatoria. En consecuencia
la generalizacin est amenazada por dos posibles tipos de errores:
error aleatorio que es el que las tcnicas estadsticas permiten
cuantificar y crticamente dependiente del tamao muestral, pero
tambin de la variabilidad de la variable a estudiar y el error
sistemtico que tiene que ver con la diferencia entre la poblacin de
muestreo y la poblacin diana y que slo puede ser controlado por el
diseo del estudio. Tamao muestral El tamao muestral juega el mismo
papel en estadstica que el aumento de la lente en microscopa: si no
se ve una bacteria al microscopio, puede ocurrir que: - la
preparacin no la contenga - el aumento de la lente sea
insuficiente. Para decidir el aumento adecuado hay que tener una
idea del tamao del objeto. Del mismo modo, para decidir el tamao
muestral: i) en un problema de estimacin hay que tener una idea de
la magnitud a estimar y del error aceptable. ii) en un contraste de
hiptesis hay que saber el tamao del efecto que se quiere ver.
http://www.hrc.es/bioest/Introducion.html [28/12/2002
18:46:52]
Estimacin de parmetros
Estimacin de parmetros En general, de las variables
experimentales u observacionales no conocemos la fpd. Podemos
conocer la familia (normal, binomial,...) pero no los parmetros.
Para calcularlos necesitaramos tener todos los posibles valores de
la variable, lo que no suele ser posible. La inferencia estadstica
trata de cmo obtener informacin (inferir) sobre los parmetros a
partir de subconjuntos de valores (muestras) de la variable.
Estadstico: variable aleatoria que slo depende de la muestra
aleatoria elegida para calcularla. Estimacin: Proceso por el que se
trata de averiguar un parmetro de la poblacin representado, en
general, por a partir del valor de un estadstico llamado estimador
y representado por El problema se resuelve en base al conocimiento
de la "distribucin muestral" del estadstico que se use. Qu es esto?
Concretemos, p.e. en la media (). Si para cada muestra posible
calculamos la media muestral ( ) obtenemos un valor distinto ( es
un estadstico: es una variable
aleatoria y slo depende de la muestra), habr por tanto una fpd
para , llamada distribucin muestral de medias. La desviacin tpica
de esta distribucin se denomina error tpico de la media.
Evidentemente, habr una distribucin muestral para cada estadstico,
no slo para la media, y en consecuencia un error tpico para cada
estadstico. Si la distribucin muestral de un estadstico estuviera
relacionada con algn parmetro de inters, ese estadstico podra ser
un estimador del parmetro.
http://www.hrc.es/bioest/Introducion_est.html [28/12/2002
18:47:24]
Distribuccin muestral de medias
Distribucin muestral de medias Si tenemos una muestra aleatoria
de una poblacin N(, ), se sabe (Teorema del lmite central) que la
fdp de la media muestral es tambin normal con media y varianza 2/n.
Esto es exacto para poblaciones normales y aproximado (buena
aproximacin con n>30) para poblaciones cualesquiera. Es decir
error estndar de la media. es el error tpico, o
Cmo usamos esto en nuestro problema de estimacin? 1 problema: No
hay tablas para cualquier normal, slo para la normal =0 y =1 (la
llamada z); pero haciendo la transformacin (llamada
tipificacin)
una normal de media y desviacin se transforma en una z. Llamando
z al valor de una variable normal tipificada que deja a su derecha
un rea bajo la curva de , es decir, que la probabilidad que la
variable sea mayor que ese valor es (estos son los valores que
ofrece la tabla de la normal)
podremos construir intervalos de la forma
para los que la probabilidad es 1 - .
Teniendo en cuenta la simetra de la normal y manipulando
algebracamente
que tambin se puede escribir
o, haciendo nfasis en que
es el error estndar de la media,
Recurdese que la probabilidad de que est en este intervalo es 1
- . A un intervalo de este tipo se le denomina intervalo de
confianza con un nivel de confianza del 100(1 - )%, o nivel de
significacin de 100%. El nivel de confianza habitual es el 95%, en
cuyo caso =0,05 y z /2=1,96. Al valor se dice que es un estimador
de . se le denomina estimacin puntual y
http://www.hrc.es/bioest/esti_medias.html (1 of 2) [28/12/2002
18:48:00]
Distribuccin muestral de medias
Ejemplo: Si de una poblacin normal con varianza 4 se extrae una
muestra aleatoria de tamao 20 en la que se calcula se puede decir
que tiene una probabilidad de 0,95 de estar comprendida en el
intervalo
que sera el intervalo de confianza al 95% para En general esto
es poco til, en los casos en que no se conoce tampoco suele
conocerse 2; en el caso ms realista de 2 desconocida los intervalos
de confianza se construyen con la t de Student (otra fdp continua
para la que hay tablas) en lugar de la z.
o, haciendo nfasis en que
es el error estndar estimado de la media,
Este manera de construir los intervalos de confianza slo es
vlido si la variable es normal. Cuando n es grande (>30) se
puede sustituir t por z sin mucho error. Otras lecturas
recomendadas Interpreting study results: confidence intervals.
Guyatt et al. CMAJ. 152:169-173. 1995
http://www.hrc.es/bioest/esti_medias.html (2 of 2) [28/12/2002
18:48:00]
Estimacin de proporciones
Estimacin de proporciones Sea X una variable binomial de
parmetros n y p (una variable binomial es el nmero de xitos en n
ensayos; en cada ensayo la probabilidad de xito (p) es la misma,
por ejemplo: nmero de diabticos en 2000 personas). Si n es grande y
p no est prximo a 0 1 (np 5) X es aproximadamente normal con media
np y varianza npq (siendo q = 1 - p) y se puede usar el estadstico
(proporcin
muestral), que es tambin aproximadamente normal, con error tpico
dado por en consecuencia, un IC para p al 100(1 - )% ser
es decir, la misma estructura que antes: Obsrvese que para
construirlo, se necesita conocer p!. Si n es grande (>30) se
pueden substituir p y q por sus estimadores sin mucho error, en
cualquier caso como pq 0,25 si se substituye pq por 0,25 se obtiene
un intervalo ms conservador (ms grande). Ejemplo: En una muestra de
100 pacientes sometidos a un cierto tratamiento se obtienen 80
curaciones. Calcular el intervalo de confianza al 95% de la
eficacia del tratamiento.
Qu significa este intervalo? La verdadera proporcin de
curaciones est comprendida entre, aproximadamente, 72% y 88% con un
95% de probabilidad. Es suficientemente preciso? Habr que juzgarlo
con criterios clnicos.
http://www.hrc.es/bioest/esti_propor.html [28/12/2002
18:50:15]
Problemas de estadstica propuestos
Problemas de estadstica propuestos (2 parte): 1 En una muestra
aleatoria de 90 pacientes se mide el nivel de glucosa en sangre en
ayunas. Se obtiene hecho? Solucin 2 Para evaluar una vacuna para la
gripe se selecciona un grupo de 200 individuos de riesgo. Se eligen
aleatoriamente a 100 de ellos y se les suministra la vacuna; de
ellos 10 pasan la gripe. Construir un IC al 95% para la
probabilidad de pasar la gripe si se est vacunado. En los otros 100
pacientes sin vacunar la pasan 20. Hay evidencia de que la vacuna
es eficaz? Solucin = 132 mg/dl y s2=109. Construir el IC al 95%
para Qu asuncin se ha
http://www.hrc.es/bioest/estadis_pro2.html [28/12/2002
18:50:45]
Problemas de estadstica resueltos
Problemas de estadstica resueltos (2 parte): 1 En una muestra
aleatoria de 90 pacientes se mide el nivel de glucosa en sangre en
ayunas. Se obtiene hecho? Solucin Usando la frmula general para
cuando 2 es desconocida = 132 mg/dl y s2=109. Construir el IC al
95% para Qu asuncin se ha
podemos, o bien mirar a las tablas de la t (o en un programa de
ordenador) el valor de t0,025 que para 89 grados de libertad (los
grados de libertad son n - 1) es 1,99, o bien como n > 30
aproximar a la z y usar el valor 1,96.
Para poder usar esta frmula es necesario que la variable sea
normal. es abusiva esta asuncin? Ver, por ejemplo The normal
distribution. Altman & Bland. BMJ 1995; 310:298. 2 Para evaluar
una vacuna para la gripe se selecciona un grupo de 200 individuos
de riesgo. Se eligen aleatoriamente a 100 de ellos y se les
suministra la vacuna; de ellos 10 pasan la gripe. Construir un IC
al 95% para la probabilidad de pasar la gripe si se est vacunado.
En los otros 100 pacientes sin vacunar la pasan 20. Hay evidencia
de que la vacuna es eficaz? Solucin La frmula para calcular IC para
proporciones es
y aproximando p y q por sus estimaciones
es decir, hay una probabilidad del 95% de que la probabilidad de
pasar la gripe si se est vacunado est comprendida entre el 4% y el
16%. Para los no vacunados
Existe solapamiento, aunque pequeo, entre ambos intervalos; por
tanto no podemos asegurar que la vacuna sea
eficaz.http://www.hrc.es/bioest/estadis_pro2sul.html (1 of 2)
[28/12/2002 18:50:58]
Problemas de estadstica resueltos
http://www.hrc.es/bioest/estadis_pro2sul.html (2 of 2)
[28/12/2002 18:50:58]
Contrastes de hiptesis
Contrastes de hiptesis Una hiptesis estadstica es una asuncin
relativa a una o varias poblaciones, que puede ser cierta o no. Las
hiptesis estadsticas se pueden contrastar con la informacin extrada
de las muestras y tanto si se aceptan como si se rechazan se puede
cometer un error. La hiptesis formulada con intencin de rechazarla
se llama hiptesis nula y se representa por H0. Rechazar H0 implica
aceptar una hiptesis alternativa (H1). La situacin se puede
esquematizar: H0 cierta H0 falsa H1 cierta Decisin correcta (*)
Error tipo II ()
H0 rechazada
Error tipo I ()
H0 no rechazada Decisin correcta
(*) Decisin correcta que se busca =p(rechazar H0|H0 cierta)
=p(aceptar H0|H0 falsa) Potencia=1-=p(rechazar H0|H0 falsa)
Detalles a tener en cuenta: 1 y estn inversamente relacionadas. 2
Slo pueden disminuirse las dos, aumentando n. Los pasos necesarios
para realizar un contraste relativo a un parmetro son: 1.
Establecer la hiptesis nula en trminos de igualdad
2. Establecer la hiptesis alternativa, que puede hacerse de tres
maneras, dependiendo del inters del investigador
en el primer caso se habla de contraste bilateral o de dos
colas, y en los otros dos de lateral (derecho en el 2 caso, o
izquierdo en el 3) o una cola.
http://www.hrc.es/bioest/Introducion_ch.html (1 of 4)
[28/12/2002 18:54:24]
Contrastes de hiptesis
3. Elegir un nivel de significacin: nivel crtico para 4. Elegir
un estadstico de contraste: estadstico cuya distribucin muestral se
conozca en H0 y que est relacionado con y establecer, en base a
dicha distribucin, la regin crtica: regin en la que el estadstico
tiene una probabilidad menor que si H0 fuera cierta y, en
consecuencia, si el estadstico cayera en la misma, se rechazara H0.
Obsrvese que, de esta manera, se est ms seguro cuando se rechaza
una hiptesis que cuando no. Por eso se fija como H0 lo que se
quiere rechazar. Cuando no se rechaza, no se ha demostrado nada,
simplemente no se ha podido rechazar. Por otro lado, la decisin se
toma en base a la distribucin muestral en H0, por eso es necesario
que tenga la igualdad. 5. Calcular el estadstico para una muestra
aleatoria y compararlo con la regin crtica, o equivalentemente,
calcular el "valor p" del estadstico (probabilidad de obtener ese
valor, u otro ms alejado de la H0, si H0 fuera cierta) y compararlo
con . Ejemplo: Estamos estudiando el efecto del estrs sobre la
presin arterial. Nuestra hiptesis es que la presin sistlica media
en varones jvenes estresados es mayor que 18 cm de Hg. Estudiamos
una muestra de 36 sujetos y encontramos
1. Se trata de un contraste sobre medias. La hiptesis nula (lo
que queremos rechazar) es:
2. la hiptesis alternativa
es un contraste lateral derecho. 3. Fijamos "a priori" el nivel
de significacin en 0,05 (el habitual en Biologa). 4. El estadstico
para el contraste es
y la regin crtica
T>thttp://www.hrc.es/bioest/Introducion_ch.html (2 of 4)
[28/12/2002 18:54:24]
Contrastes de hiptesis
Si el contraste hubiera sido lateral izquierdo, la regin crtica
sera T 0 Para calcular el tamao muestral debemos, adems de fijar y
, concretar H1 Concretando H1: = 0 + . Si n suficientemente grande
para poder usar la normal, es decir
resulta que Si el contraste fuera a dos colas habra que cambiar
z por z/2
http://www.hrc.es/bioest/tamano.html [28/12/2002 18:55:02]
Comparacin de medias
Comparacin de medias La hiptesis nula H0: 1 2 = d0 Generalmente
d0=0 Hay 3 situaciones distintas: 1 2 3 conocidos (poco frecuente).
desconocidos pero iguales. desconocidos pero distintos.
Los estadsticos son distintos (z en 1 y t en 2 y 3) pero el
procedimiento es el mismo. En los 3 casos se supone que las
muestras son independientes; si no lo fueran hay otro estadstico (t
pareada). Todos asumen normalidad. Si no se cumpliera hay que usar
los llamados test no paramtricos. Ejemplo En un ensayo clnico para
evaluar un hipotensor se compara un grupo placebo con el grupo
tratado. La variable medida es la disminucin de la presin sistlica
y se obtiene: grupo placebo n = 35; Hg. y s2 = 33,9; grupo tratado
n = 40; = 3,7 mm de = 15,1 mm de Hg. y s2 = 12,8. Es eficaz el
tratamiento?
Se trata de un contraste sobre diferencias de medias H0: T P = 0
H1: T P > 0 Como no conocemos las varianzas, para realizarlo
debemos decidir si son iguales o distintas, para ello se plantea el
contraste H0: H1: El estadstico es , para el que p
F(k-1,(n-1)k)
http://www.hrc.es/bioest/Anova_2.html (2 of 2) [28/12/2002
19:04:11]
Algunasd propiedades de la tabla de anova
Algunas propiedadesEs fcil ver en la tabla anterior que GLerror+
GLtrata = (n - 1) k + k - 1 = nk - k + k - 1 = nk - 1 = GLtotal No
es tan inmediato, pero las sumas de cuadrados cumplen la misma
propiedad, llamada identidad o propiedad aditiva de la suma de
cuadrados:
SST = SSA + SSEEl anlisis de la varianza se puede realizar con
tamaos muestrales iguales o distintos, sin embargo es recomendable
iguales tamaos por dos motivos: 1) La F es insensible a pequeas
variaciones en la asuncin de igual varianza, si el tamao es igual.
2) Igual tamao minimiza la probabilidad de error tipo II.
http://www.hrc.es/bioest/Anova_3.html [28/12/2002 19:04:53]
Ejemplo de anova
Ejemplo 1Se quiere evaluar la eficacia de distintas dosis de un
frmaco contra la hipertensin arterial, comparndola con la de una
dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se
distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se
le suministra ningn tratamiento, al segundo una dieta con un
contenido pobre en sal, al tercero una dieta sin sal, al cuarto el
frmaco a una dosis determinada y al quinto el mismo frmaco a otra
dosis. Las presiones arteriales sistlicas de los 25 sujetos al
finalizar los tratamientos son: Grupo1 180 173 175 182 181 La tabla
de anova es: Fuente de variacin Tratamiento Error Total GL 4 20 24
SS 2010,64 894,4 2905,04 MS 502,66 44,72 F 11,24 2 172 158 167 160
175 3 163 170 158 162 170 4 158 146 160 171 155 5 147 152 143 155
160
Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hiptesis
nula y concluimos que los resultados de los tratamientos son
diferentes.
Nota: Para hacerlo con un paquete estadstico, p.e. el SPSS,
deberamos crear un archivo con 2 variables: Trata (con un cdigo
distinto para cada grupo, p.e. de 1 a 5) y Presion con la presin
arterial de cada individuo al acabar el estudio. Para calcular el
Anova desplegamos los mens que se ven en la grfica:
http://www.hrc.es/bioest/Anova_4.html (1 of 2) [28/12/2002
19:05:49]
Ejemplo de anova
La tabla de anova que devuelve el programa es
que incluye tambin el valor p asociado al contraste.
http://www.hrc.es/bioest/Anova_4.html (2 of 2) [28/12/2002
19:05:49]
Pruebas para la homocesdasticidad
Pruebas para la homocedasticidadPara que este contraste de
hiptesis, basado en la F, lo sea de la igualdad de medias es
necesario que todas las muestras provengan de una poblacin con la
misma varianza (2), de la que MSE y MSA son estimadores. Por lo
tanto es necesario comprobarlo antes de realizar el contraste. Del
mismo modo que no se puede usar repetidamente la prueba basada en
la en la t para comparar ms de dos medias, tampoco se puede usar la
prueba basada en la F para comparar ms de dos varianzas. La prueba
ms usada para contrastar si varias muestras son homocedsticas
(tiene la misma varianza) es la prueba de Bartlett. La prueba se
basa en que, en la hiptesis nula de igualdad de varianzas y
poblaciones normales, un estadstico calculado a partir de las
varianzas muestrales y MSE sigue una distribucin Otras pruebas para
contrastar la homocedasticidad de varias muestras son la de Cochran
y la de la F del cociente mximo, ambas similares y de clculo ms
sencillo pero restringidas al caso de iguales tamaos muestrales. La
de Cochran es particularmente til para detectar si una varianza es
mucho mayor que las otras En el caso de que las muestras no sean
homocedsticas, no se puede, en principio, realizar el anlisis de la
varianza. Existen, sin embargo, soluciones alternativas: Sokal y
Rohlf describen una prueba aproximada, basada en unas
modificaciones de las frmulas originales. Hay situaciones en que la
heterocedasticidad es debida a falta de normalidad. En estos casos
existen transformaciones de los datos que estabilizan la varianza:
la raz cuadrada en el caso de Poisson, el arco seno de la raz
cuadrada de p para la binomial, el logaritmo cuando la desviacin
estndar es proporcional a la media. En la prctica, si las pruebas
de homocedasticidad obligan a rechazar la hiptesis nula, se prueba
si con alguna de estas transformaciones los datos son
homocedsticos, en cuyo caso se realiza el anova con los datos
transformados. Hay que tener en cuenta que estas pruebas van "al
reves" de lo habitual. La hiptesis nula es lo que se quiere probar,
en consecuencia hay que usarlas con precaucin.
http://www.hrc.es/bioest/Anova_5.html [28/12/2002 19:07:16]
Modelos de anlisis de la varianza
Modelos de anlisis de la varianzaEl anova permite distinguir dos
modelos para la hiptesis alternativa: modelo I o de efectos fijos
en el que la H1 supone que las k muestras son muestras de k
poblaciones distintas y fijas. modelo II o de efectos aleatorios en
el que se supone que las k muestras, se han seleccionado
aleatoriamente de un conjunto de m>k poblaciones. Un ejemplo de
modelo I de anova es el Ejemplo 1, porque en l se asume que existen
cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.)
fijas, de las que se han extrado las muestras. Un ejemplo de modelo
II sera: un investigador est interesado en determinar el contenido,
y sus variaciones, de grasas en las clulas hepticas de cobayas;
toma del animalario 5 cobayas al azar y les realiza, a cada una, 3
biopsias hepticas. La manera ms sencilla de distinguir entre ambos
modelos es pensar que, si se repitiera el estudio un tiempo despus,
en un modelo I las muestras seran iguales (no los individuos que
las forman) es decir corresponderan a la misma situacin, mientras
que en un modelo II las muestras seran distintas. Aunque las
asunciones iniciales y los propsitos de ambos modelos son
diferentes, los clculos y las pruebas de significacin son los
mismos y slo difieren en la interpretacin y en algunas pruebas de
hiptesis suplementarias.
http://www.hrc.es/bioest/Anova_6.html [28/12/2002 19:08:03]
Modelo I de anlisis de la varianza
Modelo I o de efectos fijosUn valor individual se puede escribir
en este modelo como
es la media global, i es la constante del efecto, o efecto fijo,
que diferencia a las k poblaciones. Tambin se puede escribir:
representa la desviacin de la observacin j-sima de la muestra
i-sima, con respecto a su media. A este trmino se le suele llamar
error aleatorio y, teniendo en cuenta las asunciones iniciales del
anlisis de la varianza son k variables (una para cada muestra),
todas con una distribucin normal de media 0 y varianza 2. La
hiptesis nula en este anlisis es que todas las medias son
iguales
que puede escribirse en trminos del modelo como:
Como en H0 se cumplen las condiciones del apartado anterior se
tratar de ver como se modifican las estimaciones de la varianza en
H1. En H0 MSA y MSE son estimadores centrados de 2, es decir y
usando el superndice 0 para indicar el valor de las variables en H0
E[MSA0] = 2 E[MSE0] = 2 Se puede ver que MSE es igual en la
hiptesis nula que en la alternativa. Por lo tanto: E[MSE] = E[MSE0]
= 2 Sin embargo al valor esperado de MSA en la hiptesis alternativa
se le aade un trmino con respecto a su valor en la hiptesis
nula
Al segundo sumando dividido por n se le llama componente de la
varianza aadida por el tratamiento, ya que tiene forma de varianza,
aunquehttp://www.hrc.es/bioest/Anova_7.html (1 of 2) [28/12/2002
19:08:37]
Modelo I de anlisis de la varianza
estrictamente no lo sea pues i no es una variable aleatoria. La
situacin, por lo tanto, es la siguiente: en H0, MSA y MSE estiman
2; en H1, . Contrastar la H0 es equivalente a MSE estima 2 pero MSA
estima contrastar la existencia de la componente aadida o, lo que
es lo mismo, que MSE y MSA estimen, o no, la misma varianza. El
estadstico de contraste es F=MSA/MSE que, en la hiptesis nula, se
distribuye segn una F con k - 1 y (n - 1)k grados de libertad. En
caso de rechazar la H0, MSA - MSE estima .
http://www.hrc.es/bioest/Anova_7.html (2 of 2) [28/12/2002
19:08:37]
Modelo II de anlisis de la varianza
Modelo II o de efectos aleatoriosEn este modelo se asume que las
k muestras son muestras aleatorias de k situaciones distintas y
aleatorias. De modo que un valor aislado Yij se puede escribir
como:
donde es la media global, ij son variables (una para cada
muestra) distribuidas normalmente, con media 0 y varianza 2 (como
en el modelo I) y A varianza .
i
es una variable distribuida normalmente, independiente de las
ij, con media 0 y
La diferencia con respecto al modelo I es que en lugar de los
efectos fijos i ahora se consideran efectos aleatorios Ai. Igual
que en el modelo I se encuentra que MSE no se modifica en la H1 y
que al valor esperado de MSA se le aade el trmino de componente
aadida (que aqu es una verdadera varianza ya que Ai es una variable
aleatoria):
Para llegar a este resultado se utiliza la asuncin de
independencia entre Ai y ij y es, por tanto, muy importante en el
modelo y conviene verificar si es correcta en cada caso. En el
ejemplo de las cobayas significara que las variaciones de grasa en
el hgado de cada cobaya son independientes de las variaciones entre
cobayas. Esta asuncin se violara si, por ejemplo, en el animalario
existieran 2 cepas genticas tales que en una de ellas la
concentracin de grasa en las clulas hepticas fuera mayor y ms
variable que en la otra. Por tanto, en H0 tanto MSA como MSE
estiman 2, mientras que en H1, MSE . La existencia de esta
componente sigue estimando 2 y MSA estima aadida se contrasta con
F=MSA/MSE y en caso afirmativo, la varianza de Ai se estima
como:
http://www.hrc.es/bioest/Anova_8.html [28/12/2002 19:09:33]
Pruebas "a posteriori"
Pruebas a posterioriEn general, en un modelo II el inters del
investigador es averiguar si existe componente aadida y en su caso
estimarla. Sin embargo, en un modelo I, lo que tiene inters son las
diferencias entre los distintos grupos. En el Ejemplo 1, lo que
interesa, una vez visto que la presin arterial media es diferente
para los cinco grupos, es, por ejemplo, estimar el efecto de la
dieta sin sal, 3 1, o el aumento del efecto de la segunda dosis del
frmaco con respecto a la primera dosis 5 4. Las pruebas "a
posteriori" son un conjunto de pruebas para probar todas las
posibles hiptesis del tipo i j = 0. Existen varias, (Duncan,
Newman-Keuls, LSD): todas ellas muy parecidas. Usan el rango
(diferencia entre medias) de todos los pares de muestras como
estadstico y dicho rango debe superar un cierto valor llamado mnimo
rango significativo para considerar la diferencia significativa. La
principal diferencia con respecto a la t de Student radica en que
usan MSE como estimador de la varianza, es decir un estimador
basado en todas las muestras. Una manera semigrfica habitual de
representar los resultados es dibujar una lnea que una cada
subconjunto de medias adyacentes entre las que no haya diferencias
significativas. Para los datos del Ejemplo 1 la salida semigrfica
para la prueba LSD de, por ejemplo, el Statgraphics es
http://www.hrc.es/bioest/Anova_9.html (1 of 2) [28/12/2002
19:10:59]
Pruebas "a posteriori"
que se interpreta como: Los grupos 5 y 4 estn unidos por una
lnea vertical de X por tanto sus medias no son diferentes entre s y
lo mismo los grupos 4, 3 y 2, mientras que la media del grupo 1 es
distinta de la de todos los dems.
http://www.hrc.es/bioest/Anova_9.html (2 of 2) [28/12/2002
19:10:59]
Anlisis de la varianza de dos vas
Anlisis de la varianza de dos factoresEs un diseo de anova que
permite estudiar simultneamente los efectos de dos fuentes de
variacin. En el ejemplo 1, en el que se estudiaban diversos
tratamientos para la hipertensin arterial, se podra plantear que,
quizs, la evolucin de la misma fuera diferente para los hombres y
las mujeres, en cuyo caso, y si el nmero de hombres y mujeres en
cada muestra no fuera el mismo, podra ocurrir que una parte del
efecto atribuido a los tratamientos fuera debido al sexo. En
cualquier caso, el investigador puede estar interesado en estudiar
si hay, o no, diferencia en la evolucin segn el sexo. En un anova
de dos vas se clasifica a los individuos de acuerdo a dos factores
(o vas) para estudiar simultneamente sus efectos. En este ejemplo
se haran cinco grupos de tratamiento para los hombres y otros cinco
para las mujeres, en total diez grupos; en general, si el primer
factor tiene a niveles y el segundo tiene b, se tendrn ab muestras
o unidades experimentales, cada una con n individuos o
repeticiones. Una observacin individual se representa como:
El primer subndice indica el nivel del primer factor, el segundo
el nivel del segundo factor y el tercero la observacin dentro de la
muestra. Los factores pueden ser ambos de efectos fijos (se habla
entonces de modelo I), de efectos aleatorios (modelo II) o uno de
efectos fijos y el otro de efectos aleatorios (modelo mixto). El
modelo matemtico de este anlisis es:
modelo I modelo II modelo mixto donde es la media global, i o Ai
el efecto del nivel i del 1 factor, j o Bj el efecto del nivel j
del 2 factor y ijk las desviaciones aleatorias alrededor de las
medias, que tambin se asume que estn normalmente distribuidas, son
independientes y tienen media 0 y varianza 2. A las condiciones de
muestreo aleatorio, normalidad e independencia, este modelo aade la
de aditividad de los efectos de los factores. A los trminos ()ij,
(AB)ij, (B)ij, se les denomina interaccin entre ambos
factoreshttp://www.hrc.es/bioest/Anova_10.html (1 of 3) [28/12/2002
19:11:37]
Anlisis de la varianza de dos vas
y representan el hecho de que el efecto de un determinado nivel
de un factor sea diferente para cada nivel del otro factor. Para
entender mejor este concepto de interaccin veamos un ejemplo
sencillo sobre un anova de dos factores, cada uno con dos niveles:
supngase un estudio para analizar el efecto de un somnfero teniendo
en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de
hombres y otros dos de mujeres. A un grupo de hombres y otro de
mujeres se les suministra un placebo y a los otros grupos el
somnfero. Se mide el efecto por el tiempo que los sujetos tardan en
dormirse desde el suministro de la pldora. Se trata de un anova de
dos factores (sexo y frmaco) fijos, cada uno con dos niveles
(hombre y mujer para el sexo y somnfero y placebo para el frmaco).
Los dos tipos de resultados posibles se esquematizan en la
figura
A
B
En la figura A se observa que las mujeres tardan ms en dormirse,
tanto en el grupo tratado como en el grupo placebo (hay un efecto
del sexo) y que los tratados con placebo tardan ms en dormirse que
los tratados con somnfero en ambos sexos (hay un efecto del
tratamiento). Ambos efectos son fcilmente observables. Sin embargo
en la figura B es difcil cuantificar el efecto del somnfero pues es
distinto en ambos sexos y, simtricamente, es difcil cuantificar el
efecto del sexo pues es distinto en ambos grupos de tratamiento. En
este caso, se dice que existe interaccin. Podra, incluso, darse el
caso de que se invirtieran los efectos de un factor para los
distintos niveles del otro, es decir, que las mujeres se durmieran
antes con el somnfero y los hombres antes con el placebo. La
interaccin indica, por tanto, que los efectos de ambos factores no
son aditivos: cuando se dan juntos, su efecto no es la suma de los
efectos que tienen cuando estn por separado, por lo que, si en un
determinado estudio se encuentra interaccin entre dos factores, no
tiene sentido estimar los efectos de los factores por separado. A
la interaccin positiva, es decir, cuando el efecto de los factores
actuando juntos es mayor que la suma de efectos actuando por
separado, en Biologa se le denomina sinergia o potenciacin y a la
interaccin negativa inhibicin. En el ejemplo de la figura B, se
dira que el ser mujer inhibe el efecto del somnfero, o que el ser
hombre lo potencia (segn el sexo que se tome
comohttp://www.hrc.es/bioest/Anova_10.html (2 of 3) [28/12/2002
19:11:37]
Anlisis de la varianza de dos vas
referencia).
http://www.hrc.es/bioest/Anova_10.html (3 of 3) [28/12/2002
19:11:37]
Identidad de la suma de cuadrados
Identidad de la suma de cuadradosLa suma de cuadrados total en
un anova de 2 vas, es:
(donde para representar las medias se ha usado la convencin
habitual de poner un punto (.) en el lugar del subndice con
respecto al que se ha sumado) que dividida por sus grados de
libertad, abn - 1, estima la varianza 2 en el supuesto de que las
ab muestras provengan de una nica poblacin. Se puede demostrar
que
que es la llamada identidad de la suma de cuadrados en un anova
de dos factores. Los sucesivos sumandos reciben respectivamente el
nombre de suma de cuadrados del 1 factor (tiene a -1 grados de
libertad y recoge la variabilidad de los datos debida
exclusivamente al 1 factor), del 2 factor (con b -1 grados de
libertad y recoge la variabilidad de los datos debida
exclusivamente al 2 factor), de la interaccin (con (a - 1)(b - 1)
grados de libertad, recoge la variabilidad debida a la interaccin)
y del error (con ab(n - 1) grados de libertad, recoge la
variabilidad de los datos alrededor de las medias de cada muestra).
Los resultados de un anlisis de la varianza de dos factores se
suelen representar en una tabla como la siguiente: Fuente de
variacin 1 factor 2 factor Interaccin Error Total GL a -1 b-1 (a -
1)(b - 1) ab(n - 1) abn - 1 SS SSA SSB SSAB SSE SST MS SSA/(a - 1)
SSB/(b - 1) SSAB/[(a - 1)(b - 1)] SSE/[ab(n - 1)]
Los grados de libertad tambin son aditivos. En ocasiones se aade
una primera lnea llamada de tratamiento o de subgrupos cuyos grados
de libertad y suma de cuadrados son las sumas de los del primer,
segundo factor y la interaccin, que corresponderan a la suma de
cuadrados y grados de libertad del tratamiento de un anlisis de una
va en que las ab muestras se considerarn como muestras de una
clasificacin nica.http://www.hrc.es/bioest/Anova_11.html (1 of 2)
[28/12/2002 19:12:02]
Identidad de la suma de cuadrados
Para plantear los contrastes de hiptesis hay que calcular los
valores esperados de los distintos cuadrados medios.
http://www.hrc.es/bioest/Anova_11.html (2 of 2) [28/12/2002
19:12:02]
Contrastes de hiptesis en anova de 2 vas
Contrates de hiptesis en un anlisis de la varianza de dos
factoresDel mismo modo que se hizo en el anova de una va, para
plantear los contrastes de hiptesis habr que calcular los valores
esperados de los distintos cuadrados medios. Los resultados
son:
Modelo IMSMSA Valor esperado
MSB
MSAB MSE Por lo tanto, los estadsticos MSAB/MSE, MSA/MSE y
MSB/MSE se distribuyen como una F con los grados de libertad
correspondientes y permiten contrastar, respectivamente, las
hiptesis: i) no existe interaccin (MSAB/MSE)
ii) no existe efecto del primer factor, es decir, diferencias
entre niveles del primer factor (MSA/MSE)
iii) no existe efecto del segundo factor (MSB/MSE)
http://www.hrc.es/bioest/Anova_12.html (1 of 2) [28/12/2002
19:13:09]
Contrastes de hiptesis en anova de 2 vas
Si se rechaza la primera hiptesis de no interaccin, no tiene
sentido contrastar las siguientes. En este caso lo que est indicado
es realizar un anlisis de una va entre las ab combinaciones de
tratamientos para encontrar la mejor combinacin de los mismos.
http://www.hrc.es/bioest/Anova_12.html (2 of 2) [28/12/2002
19:13:09]
Contrastes de hiptesis en un anova de 2 vas modelo II
Contraste de hiptesis en un anova de 2 vasModelo IIMS MSA MSB
MSAB MSE donde son, respectivamente las componentes aadidas por el
primer factor, por el segundo y por la interaccin, que tienen la
misma forma que los del modelo I, sin ms que cambiar i y j por Ai y
Bj, respectivamente. La interaccin se contrasta, como en el modelo
I, con MSAB/MSE, si se rechaza la hiptesis nula se contrastaran
cada uno de los factores con MSA/MSAB y MSB/MSAB. En un modelo II,
como no se est interesado en estimar los efectos de los factores
sino slo la existencia de la componente aadida, s tiene sentido
contrastar la existencia de la misma para cada factor incluso
aunque exista interaccin. Aqu el problema se plantea cuando no se
puede rechazar la hiptesis nula y se concluye que no existe
interaccin: entonces tanto MSE como MSAB estiman 2, entonces cul se
elige para contrastar la componente aadida de los factores? En
principio, parece razonable escoger su media (la media de varios
estimadores centrados es tambin un estimador centrado y ms
eficiente), sin embargo si se elige MSAB se independiza el
contraste para los factores de un posible error tipo II en el
contraste para la interaccin. Hay autores que por ello opinan que
es mejor usar MSAB, pero otros proponen promediar si se puede
asegurar baja la probabilidad para el error tipo II. La media de
los cuadrados medios se calcula dividiendo la suma de las sumas de
cuadrados por la suma de los grados de libertad. Valor esperado
http://www.hrc.es/bioest/Anova_13.html (1 of 3) [28/12/2002
19:13:51]
Contrastes de hiptesis en un anova de 2 vas modelo II
Ejemplo A partir de la siguiente tabla de un anova de 2 factores
modelo II, realizar los contrastes adecuados. Fuente de variacin 1
factor 2 factor Interaccin Error Total G.L. 4 3 12 100 119 SS 315,8
823,5 328,9 2308,0 3776,2 MS 78,95 274,5 27,41 23,08
Se empezara contrastando la existencia de interaccin: f =
27,41/23,08 = 1,188 como F0,05(12,100) = 1,849 no se puede, al
nivel de significacin del 95%, rechazar la hiptesis nula y se
concluye que no existe interaccin. Si usamos MSAB para contrastar
los factores: 1 factor: f = 78,95/27,41 = 2,880 como F0,05(4,12) =
3,26 no se rechaza la hiptesis nula y se concluye la no existencia
de componente aadida por este factor. 2 factor: f = 274,5/27,41 =
10,015 como F0,05(3,12) = 3,49 se rechaza la hiptesis nula y se
acepta la existencia de componente aadida por este factor. El
resultado del anlisis es: no existe componente aadida por la
interaccin, tampoco por el 1 factor y s existe componente aadida
por el 2. La estimacin de esta componente es: como a partir de los
grados de libertad de la tabla podemos calcular a = 5, b = 4 y n =
6 resulta que la estimacin de es 274,5 - 27,41 = 247,09; por lo
tanto que representa un 35,7% de componente aadida por el segundo
factor. Si se hubiera optado por promediar, los cuadrados medios
promediados son (328,9+2308,0)/(12+100)= 23,54 con 112 grados de
libertad y hubiera resultado significativo tambin el 1 factor.
La salida de un paquete estadstico, p.e. el Statgraphics, para
un anova de 2 factores modelo
IIhttp://www.hrc.es/bioest/Anova_13.html (2 of 3) [28/12/2002
19:13:51]
Contrastes de hiptesis en un anova de 2 vas modelo II
http://www.hrc.es/bioest/Anova_13.html (3 of 3) [28/12/2002
19:13:51]
Contrastes de hiptesis en un anova de 2 vas (modelo mixto)
Contrastes de hiptesis en un anova de dos vasModelo mixto
Supngase el primer factor de efectos fijos y el segundo de
efectos aleatorios, lo que no supone ninguna perdida de
generalidad, ya que el orden de los factores es arbitrario.
MS MSA MSB MSAB MSE
Valor esperado
Se contrastan la interaccin y el factor aleatorio con el trmino
de error, si la interaccin fuera significativa no tiene sentido
contrastar el efecto fijo y si no lo fuera, el efecto fijo se
contrasta con el trmino de interaccin o con el promedio de
interaccin y error.
http://www.hrc.es/bioest/Anova_14.html [28/12/2002 19:15:28]
Ejemplo
EjemploSe quiere probar la eficacia de un somnfero estudiando
posibles diferencias de la misma por el sexo de los sujetos. Se
eligen al azar dos grupos de insomnes varones y otros dos de
mujeres y tanto para los hombres como para las mujeres se
suministra a un grupo el somnfero y a otro un placebo y se mide, en
minutos, el tiempo que tardan en dormirse. Los resultados son:
Placebo Somnfero 30 35 50 32 45 30 47 25 38 30 50 42 35 30 46 15 25
18 32 23
Hombre
Mujer
Se trata de un anova de dos factores fijos. Llamamos primer
factor a la droga que tiene dos niveles: placebo y somnfero. El
segundo factor es el sexo tambin con 2 niveles: hombres y mujeres.
El tamao de las muestras es n=5. La tabla de anova es: Fuente de
variacin Somnfero Sexo Interaccin Error Total GL 1 1 1 SS 696,2
105,8 0,2 MS 696,2 105,8 0,2 74,85
16 1197,6 19 1999,8
Se empieza contrastando la interaccin: f = 0,2/74,85 = 0,0026
que como es menor que F0,05(1,16)=4,49 no se rechaza la hiptesis
nula de que no existe interaccin. A continuacin se contrastan los
factores: para el somnfero f = 696,2/74,85 = 9,3 que es mayor que
4,49 por lo tanto existe efecto del somnfero y para
elhttp://www.hrc.es/bioest/Anova_15.html (1 of 3) [28/12/2002
19:16:00]
Ejemplo
sexo f = 105,8/74,85 = 1,41 que como es menor que 4,49 no existe
diferencias entre los sexos. La estimacin del efecto del somnfero
ser la diferencia entre las medias de los que lo toman y los que
tomaron placebo, sin tener en cuenta el sexo, una vez que se ha
visto que no tiene efecto.
Para analizarlo con un paquete estadstico, p.e. el Statgraphics,
se necesita crear un archivo con tres variables
y el resultado, pidiendo la tabla de anova
http://www.hrc.es/bioest/Anova_15.html (2 of 3) [28/12/2002
19:16:00]
Ejemplo
y la tabla de medias
Por tanto la estimacin del efecto del somnifero es 39,8 -
28,0=11,8 min
http://www.hrc.es/bioest/Anova_15.html (3 of 3) [28/12/2002
19:16:00]
Tamaos muestrales desiguales en un anova de dos factores
Tamaos muestrales desiguales en un anova de dos factores Aunque
los paquetes estadsticos suelen hacer el anova de dos factores,
tanto en el caso de tamaos muestrales iguales como desiguales,
conviene resaltar que el anlisis es bastante ms complicado en el
caso de tamaos desiguales. La complicacin se debe a que con tamaos
desiguales hay que ponderar las sumas de cuadrados de los factores
con los tamaos muestrales y no resultan ortogonales (su suma no es
la suma de cuadrados total) lo que complica no slo los clculos sino
tambin los contrastes de hiptesis. Por esto, cuando se disea un
anlisis factorial de la varianza se recomienda disearlo con tamaos
iguales. Hay ocasiones en que, sin embargo, por la dificultad de
obtener los datos o por prdida de alguno de ellos es inevitable
recurrir al anlisis con tamaos desiguales. Algunos autores
recomiendan, incluso, renunciar a alguno de los datos para
conseguir que todas las muestras tengan el mismo tamao.
Evidentemente esta solucin es delicada pues podra afectar a la
aleatoriedad de las muestras.
http://www.hrc.es/bioest/Anova_16.html [28/12/2002 19:16:24]
Casos particulares de anova
Casos particulares: Anova de dos factores sin repeticin En
ciertos estudios en que los datos son difciles de obtener o
presentan muy poca variabilidad dentro de cada subgrupo es posible
plantearse un anova sin repeticin, es decir, en el que en cada
muestra slo hay una observacin (n=1). Hay que tener en cuenta que,
como era de esperar con este diseo, no se puede calcular SSE. El
trmino de interaccin recibe el nombre de residuo y que, como no se
puede calcular MSE, no se puede contrastar la hiptesis de
existencia de interaccin. Esto ltimo implica tambin que: a) en un
modelo I, para poder contrastar las hiptesis de existencia de
efectos de los factores no debe haber interaccin (si hubiera
interaccin no tenemos trmino adecuado para realizar el contraste).
b) en un modelo mixto existe el mismo problema para el factor fijo.
Bloques completos aleatorios Otro diseo muy frecuente de anova es
el denominado de bloques completos aleatorios diseado inicialmente
para experimentos agrcolas pero actualmente muy extendido en otros
campos. Puede considerarse como un caso particular de un anova de
dos factores sin repeticin o como una extensin al caso de k
muestras de la comparacin de medias de dos muestras emparejadas. Se
trata de comparar k muestras emparejadas con respecto a otra
variable cuyos efectos se quieren eliminar. Por ejemplo, en un
ensayo clnico para comparar los efectos de dos analgsicos y un
placebo en el que el efecto se mide por el tiempo que tarda en
desaparecer una cefalea. Si se hicieran tres grupos de enfermos y a
cada uno de ellos se le suministrara un tratamiento distinto, habra
una gran variacin individual en las respuestas, debido a que no
todas las cefaleas son de la misma intensidad y no todos los
individuos tienen la misma percepcin del dolor, que dificultara el
hallazgo de diferencias entre los tratamientos. Esta dificultad
desaparece si se aplican los tres tratamientos a los mismos
individuos en diferentes episodios de cefalea. Se ha emparejado a
cada individuo consigo mismo, con lo que se elimina la variacin
individual. En este diseo a los datos de cada individuo se les
denomina bloque y los datos se representan en una tabla de doble
entrada anloga a la del anova de clasificacin nica en la que las a
columnas son los tratamientos y las b filas los bloques, el
elemento Yij de la tabla corresponde al tratamiento i y al bloque
j. Las hiptesis que se pueden plantear son: (igualdad de medias de
tratamientos)http://www.hrc.es/bioest/Anova_17.html (1 of 2)
[28/12/2002 19:16:52]
Casos particulares de anova
y tambin, aunque generalmente tiene menos inters: (igualdad de
medias de bloques) A pesar del parecido con la clasificacin nica,
el diseo es diferente: all las columnas eran muestras
independientes y aqu no. Realmente es un diseo de dos factores, uno
de efectos fijos: los tratamientos, y el otro de efectos
aleatorios: los bloques, y sin repeticin: para cada bloque y
tratamiento slo hay una muestra. El modelo aqu es:
donde i es el efecto del tratamiento i y Bj el del bloque j. No
hay trmino de interaccin ya que, al no poder contrastar su
existencia no tiene inters. Al ser un modelo mixto exige la asuncin
de no existencia de interaccin y los contrastes se hacen usando el
trmino MSE como divisor.
http://www.hrc.es/bioest/Anova_17.html (2 of 2) [28/12/2002
19:16:52]
Ejemplo de anova de bloques completos aleatorios
Ejemplo 3 En el ensayo clnico de los analgsicos descrito
anteriormente se encuentran los siguientes resultados: Placebo 35
40 60 50 50 Analgsico A Analgsico B 20 35 50 40 30 22 42 30 35
22
La tabla de anova correspondiente: Fuente de variacin Analgsico
(tratamiento) Paciente (bloque) Error Total G.L. 2 4 8 14 SS 748,8
767,6 409,2 1925,6 MS 374,4 191,9 51,15
Los contrastes de hiptesis se hacen: para el analgsico
f=374,4/51,15=7,32 que como es mayor que F0,05(2,8)=4,46 existe un
efecto del tratamiento. para los bloques f=191,9/51,15=3,75 que es
menor que F0,05(4,8)=3,84 por tanto no hay componente aadida por
los pacientes. El archivo para analizarlo con en un paquete
estadstisco
http://www.hrc.es/bioest/Anova_18.html (1 of 3) [28/12/2002
19:17:42]
Ejemplo de anova de bloques completos aleatorios
y el resultado
http://www.hrc.es/bioest/Anova_18.html (2 of 3) [28/12/2002
19:17:42]
Ejemplo de anova de bloques completos aleatorios
http://www.hrc.es/bioest/Anova_18.html (3 of 3) [28/12/2002
19:17:42]
Anova de ms de dos factores
Anlisis de la varianza de ms de dos factores Es una
generalizacin del de dos factores. El procedimiento, por lo tanto,
ser: 1) encontrar el modelo, teniendo en cuenta si los factores son
fijos o aleatorios y todos los trminos de interaccin. 2) subdividir
la suma de cuadrados total en tantos trminos ortogonales como tenga
el modelo y estudiar los valores esperados de los cuadrados medios
para encontrar los estadsticos que permitan realizar los contrastes
de hiptesis. Un modelo de tres factores fijos, por ejemplo,
ser:
Los tres primeros subndices para los factores y el cuarto para
las repeticiones, ntese que aparecen trminos de interaccin de
segundo y tercer orden, en general en un modelo de k factores
aparecen trminos de interaccin de orden 2, 3,... hasta k y el nmero
de trminos de interaccin de orden n ser el nmero combinatorio Ck;n.
Este gran nmero de trminos de interaccin dificulta el anlisis de ms
de dos factores, ya que son difciles de interpretar y complican los
valores esperados de los cuadrados medios por lo que tambin resulta
difcil encontrar los estadsticos para los contrastes. Por estas
razones no se suele emplear este tipo de anlisis y cuando interesa
estudiar varios factores a la vez se recurre a otros mtodos de
anlisis multivariante.
http://www.hrc.es/bioest/Anova_19.html [28/12/2002 19:18:31]
Correlacion y modelos de regresion lineal
CORRELACION Y MODELOS DE REGRESION LINEAL V. AbrairaBibliografa:
V. Abraira, A. Prez de Vargas Mtodos Multivariantes en
Bioestadstica. Ed. Centro de Estudios Ramn Areces. 1996. D.G.
Kleinbaum, L.L. Kupper, K.E. Muller Applied Regression Analysis and
Other Multivariables Methods. PWS-KENT Publishing Company. 1988.
Generalizacin del concepto de fdp a variables multidimensionales La
funcin densidad de probabilidad (fdp) para una variable aleatoria
es una funcin a partir de la cual se puede calcular la probabilidad
de los distintos valores de la variable. En el caso discreto:
en el caso continuo:
Esto se puede generalizar a ms de una variable. Para n variables
aleatorias X1, X2, ..., Xn se llama fdp conjunta a una funcin
n-dimensional f(x1,x2,...,xn) a partir de la cual se puede calcular
la probabilidad de los distintos valores de las variables. En el
caso discreto:
en el caso continuo:
Del mismo modo que en el caso unidimensional estas funciones
estn sometidas a las condiciones:
http://www.hrc.es/bioest/Reglin_1.html (1 of 3) [28/12/2002
19:19:23]
Correlacion y modelos de regresion lineal
discreta
continua
Ejemplo 1: En una cierta poblacin se definen dos variables
discretas: X1= hipertensin arterial y X2= consumo excesivo de sal,
ambas con los valores 0=no y 1=s. La fdp conjunta podra ser X1 X2 0
1 0 0,4 0,3 1 0,1 0,2
f(0,0)=0,4 quiere decir que la probabilidad de que un individuo
no sea hipertenso (X1=0) y no tenga un consumo excesivo de sal
(X2=0) es 0,4. Obsrvese que la suma de los valores de la fdp es 1.
A partir de esta fdp se puede calcular p.e. la probabilidad de que
un individuo sea hipertenso como 0,1+0,2=0,3. En general dada una
fdp conjunta (para simplificar la notacin consideremos slo dos
variables X e Y) se pueden calcular las denominadas fdp marginales
como Caso discreto Caso continuo
y simtricamente para la variable Y. En el ejemplo anterior:
X1
http://www.hrc.es/bioest/Reglin_1.html (2 of 3) [28/12/2002
19:19:23]
Correlacion y modelos de regresion lineal
X2 0 1 f1(X1)
0 0,4 0,3 0,7
1 0,1 0,2 0,3
f2(X2) 0,5 0,5
Se definen tambin las fdp condicionadas
que permiten calcular las respectivas probabilidades
condicionadas. En el ejemplo anterior se puede construir, p.e., la
fdp de la hipertensin (X1) condicionada al consumo no excesivo de
sal (X2=0). X1 0 1 0,4/0,5=0,8 0,1/0,5=0,2
Obsrvese que como esto es una fdp, la suma de sus valores debe
ser 1. 0,8 es la probabilidad de que un individuo no sea hipertenso
dado que no tiene un consumo excesivo de sal.
http://www.hrc.es/bioest/Reglin_1.html (3 of 3) [28/12/2002
19:19:23]
Correlacion y modelos de regresion lineal
Independencia de dos variables aleatorias Dos v.a. X e Y se dice
que son estocsticamente independientes si y slo si
f(x,y)=f1(x).f2(y). En caso contrario se dice que estn
correlacionadas. Son independientes las variables del ejemplo
anterior? Como f1(0)=0,7 y f2(0)=0,5 f1(0). f2(0)=0,35 no es igual
a f(0,0)=0,4 no son independientes. Segn la definicin de fdp
condicionada, si X e Y son independientes
que coincide ms con la idea intuitiva de independencia. Cundo
diramos que la hipertensin es independiente del consumo de sal?
Cuando la probabilidad de ser hipertenso es la misma en los
consumidores de sal: f(x1|X2=1), en los no consumidores: f(x1|X2=0)
y en la poblacin general: f1(x1). En el ejemplo, la probabilidad de
ser hipertenso en la poblacin general f1(1)=0,3 y en los
consumidores de sal f(X1=1|X2=1)=0,2/0,5=0,4 por lo tanto tampoco
son independientes desde esta perspectiva (evidentemente, ya que
ambas son equivalentes). Diramos que el consumo de sal y la
hipertensin estn correlacionados o asociados, o que la hipertensin
depende del consumo de sal o, en terminologa epidemiolgica, que el
consumo de sal es un factor de riesgo para la hipertensin. En
cualquier caso, la correlacin no implica dependencia causal. El
problema, en la prctica, es que no se suelen conocer las fdp's. A
partir de una muestra slo se puede obtener una estimacin de la
misma, adems tambin se desean obtener estimaciones de la fuerza de
la asociacin. Los modelos de regresin son modelos matemticos de
dependencia entre variables que permiten resolver ambos problemas.
Hay tantos modelos como funciones matemticas de dependencia se
puedan concebir, los ms usados son lineal, polinmico, logstico, de
Poisson,