medias). Yupanqui Pacheco, Rosalynn Miluska

Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.

Derechos reservados conforme a Ley

Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM

IV. MARCO TEORICO

4.1. ESTADISTICA BAYESIANA

El interés por el teorema de Bayes trasciende esta aplicación clásica,

especialmente cuando se amplía a otro contexto en el que la probabilidad

no se entiende exclusivamente como la frecuencia relativa de un suceso a

largo plazo, sino como el grado de convicción personal acerca de que el

suceso ocurra o pueda ocurrir (definición subjetiva de la probabilidad).

Afirmaciones del tipo "es muy probable que el partido X gane las

próximas elecciones", "es improbable que Juan haya sido quien llamó por

teléfono" o "es probable que se encuentre un tratamiento eficaz para el

sida en los próximos 5 años", normales en el lenguaje común, no pueden

cuantificarse formalmente; resultan ajenas, por tanto, a una metodología

que se desenvuelva en un marco frecuentista. Una cuantificación sobre

base subjetiva resulta, sin embargo, familiar y fecunda para el enfoque

bayesiano. Al admitir un manejo subjetivo de la probabilidad, el analista

bayesiano podrá emitir juicios de probabilidad sobre una hipótesis H y

expresar por esa vía su grado de convicción al respecto, tanto antes como

después de haber observado los datos. En su versión más elemental y en

este contexto, el teorema de Bayes asume la forma siguiente:

P (H | datos) = [P (datos | H) / P (datos)] . P (H)

La probabilidad a priori de una hipótesis, P(H), se ve transformada en

una probabilidad a posteriori, P(H | datos), una vez incorporada la

evidencia que aportan los datos. El caso considerado se circunscribe a la




situación más simple, aquella en que P(H) representa un número único;

sin embargo, si se consiguiera expresar nuestra convicción inicial (y

nuestra incertidumbre) mediante una distribución de probabilidades.

Entonces una vez observados los datos, el teorema nos "devuelve" una

nueva distribución, que no es otra cosa que la percepción probabilística

original actualizada por los datos.

Esta manera de razonar de la inferencia Bayesiana, radicalmente diferente

a la inferencia clásica o frecuentista (que desdeña en lo formal toda

información previa de la realidad que examina), es sin embargo muy

cercana al modo de proceder cotidiano, e inductivo. Debe subrayarse que

esta metodología, a diferencia del enfoque frecuentista, no tiene como

finalidad producir una conclusión dicotómica (significación o no

significación, rechazo o aceptación, etc.) sino que cualquier información

empírica, combinada con el conocimiento que ya se tenga del problema

que se estudia, "actualiza" dicho conocimiento, y la trascendencia de

dicha visión actualizada no depende de una regla mecánica.

Los métodos bayesianos han sido cuestionados argumentando que, al

incorporar las creencias o expectativas personales del investigador,

pueden ser caldo de cultivo para cualquier arbitrariedad o manipulación.

Podemos argüir, por una parte, que el enfoque frecuentista no está exento

de decisiones subjetivas (nivel de significación, usar una o dos colas,

importancia que se concede a las diferencias, etc.); de hecho, la

subjetividad (algo bien diferente de la arbitrariedad o el capricho) es un

fenómeno inevitable, especialmente en un marco de incertidumbre como

en el que operan las ciencias biológicas y sociales. Por otra parte, las




"manipulaciones" son actos de deshonestidad, que pueden producirse en

cualquier caso (incluyendo la posibilidad de que se inventen datos) y que

no dependen de la metodología empleada sino de la honradez de los

investigadores.

Aunque las bases de la estadística Bayesiana datan de hace más de 2

siglos, no es hasta fechas recientes cuando empieza a asistirse a un uso

creciente de este enfoque en el ámbito de la investigación. Una de las

razones que explican esta realidad y que a la vez anuncian un impetuoso

desarrollo futuro es la absoluta necesidad de cálculo computarizado para

la resolución de algunos problemas de mediana complejidad. Hoy ya

existe software disponible (BUGS, macros para MINITAB, próxima

versión de EPIDAT y First Bayes, entre otros) que hace posible operar con

estas técnicas y augura el "advenimiento de una era Bayesiana".

El proceso intelectual asociado a la inferencia Bayesiana es mucho más

coherente con el pensamiento usual del científico que el que ofrece el

paradigma frecuentista. Los procedimientos bayesianos constituyen una

tecnología emergente de procesamiento y análisis de información para la

que cabe esperar una presencia cada vez más intensa en el campo de la

aplicación de la estadística a la investigación clínica y epidemiológica.

4.1.1 ¿QUÉ ES LA INFERENCIA ESTADÍSTICA?

La inferencia estadística es la ciencia de extraer conclusiones a partir de

una muestra aleatoria para ser aplicadas a cantidades desconocidas de la

población de la cual la muestra fue seleccionada. Este proceso origina

muchas preguntas, como por ejemplo: ¿qué es una población?, ¿cómo la




muestra se relaciona con la población?, ¿cómo debe seleccionarse la

muestra si todos tienen la opción de ser elegidos?.

Ejemplo. Supóngase que un ingeniero forestal desea estimar la

proporción de árboles en un bosque de la selva que sufren una

determinada enfermedad. Examinar a todos los árboles es impráctico, por

lo que el ingeniero decide seleccionar una muestra de n árboles elegidos

aleatoriamente de acuerdo a un diseño muestral previamente definido. La

aleatoriedad debe entenderse en el sentido que si θ es la proporción de

árboles que tienen la enfermedad en el bosque, entonces cada árbol en la

muestra tendrá la enfermedad, independientemente de lo que suceda con

los otros árboles en la muestra, con probabilidad θ . Sea X la variable

aleatoria que corresponde al número de árboles enfermos en la muestra,

el ingeniero usará el valor observado de xX = para realizar una

inferencia acerca del parámetro poblacional θ . Esta inferencia podría

tomar la forma de un estimado puntual ( 1.0ˆ =θ ); un intervalo de

confianza (95 % de confianza que θ se encuentre en el intervalo (0.08,

0.12); una prueba de hipótesis (rechazar la hipótesis que θ <0.07 a un

nivel α=0.05), una predicción (sostener que 15% de los árboles serán

afectados por la enfermedad el próximo año); o una decisión (decidir

identificar y remover todos los árboles infectados). En cada caso, el

conocimiento del valor muestral observado es usado para realizar

inferencias acerca de una característica de la población (parámetro).

Más aún, estas inferencias son realizadas mediante un modelo de

probabilidad, que determina cómo, para un valor de θ, las probabilidades

de los diferentes valores de x son distribuidos.




Por ejemplo, bajo las suposiciones del muestreo aleatorio, el modelo para

el problema anterior podría ser:

X | θ ~ b(n, θ)

La inferencia estadística se realiza en base a un valor observado X=x, y

estamos interesados en conocer los valores de θ que tienen la más alta

probabilidad de haber generado el valor x en comparación con aquellos

que tienen la más baja probabilidad de haberlo hecho. (Principio de

máxima verosimilitud).

Antes de estudiar la inferencia Bayesiana en particular es necesario

realizar algunas aclaraciones puntuales respecto de la aproximación

clásica con la Bayesiana. El punto más importante es que el parámetro,

mientras no es conocido, es tratado como una constante en lugar de una

variable aleatoria. Esta es la idea fundamental de la teoría clásica pero

que conduce a problemas de interpretación. Por ejemplo, sostener que

con 95% de confianza el intervalo [.08, 0.12] incluye a la proporción

poblacional de los árboles enfermos es incongruente desde que θ no es

aleatorio. θ está en el intervalo o no lo está. El único elemento aleatorio en

este modelo de probabilidad es el dato, por lo tanto la correcta

interpretación del intervalo es que si aplicamos el procedimiento

estadístico de construcción de intervalos un gran número de veces,

entonces “a la larga” los intervalos construidos incluirán a θ en el 95% de

dichos intervalos.




Todas las inferencias basadas en la teoría clásica son forzadas a tener este

tipo de interpretación de frecuencia “a la larga”; a pesar de que como en

el ejemplo de los árboles, solamente se tiene un intervalo (0.08, 0.12) para

realizar el análisis.

El supuesto de la “intercambiabilidad” es útil en inferencia estadística,

que significa que los n valores observados xi en la muestra pueden ser

intercambiados, es decir, que la distribución conjunta p(x1, x2, ...xn) debe

ser invariante a las permutaciones de los índices. Generalmente, los datos

de una distribución “intercambiable” es útil modelarlos como

independientementes e idénticamente distribuidas (iid) dado algún

vector de parámetros desconocidos θ con distribución p(θ).

4.1.2. ¿QUÉ ES LA INFERENCIA BAYESIANA?

El marco teórico en que se aplica la inferencia Bayesiana es similar a la

clásica: hay un parámetro poblacional respecto al cual se desea realizar

inferencias y se tiene un modelo que determina la probabilidad de

observar diferentes valores de X, bajo diferentes valores de los

parámetros. Sin embargo, la diferencia fundamental es que la inferencia

Bayesiana considera al parámetro como una variable aleatoria. Esto

parecería que no tiene demasiada importancia, pero realmente si lo tiene

pues conduce a una aproximación diferente para realizar el

modelamiento del problema y la inferencia propiamente dicha.

Algunos ejemplos que justifican lo anterior son: la verdadera proporción

de artículos defectuosos que produce un proceso de manufactura puede

fluctuar ligeramente pues depende de numerosos factores, la verdadera




proporción de casas que se pierden por concepto de hipoteca varia

dependiendo de las condiciones económicas, la demanda promedio

semanal de automóviles también fluctuara como una función de varios

factores incluyendo la temporada.

En esencia, la inferencia Bayesiana esta basada en la distribución de

probabilidad del parámetro dado los datos (distribución a posteriori de

probabilidad p(θθ /y) ) , en lugar de la distribución de los datos dado el

parámetro. Esta diferencia conduce a inferencias mucho más naturales, lo

único que se requiere para el proceso de inferencia Bayesiana es la

especificación previa de una distribución a priori de probabilidad p(θθ ),

la cual representa el conocimiento acerca del parámetro antes de obtener

cualquier información respecto a los datos.

La noción de la distribución a priori para el parámetro es el corazón del

pensamiento Bayesiano. El análisis Bayesiano hace uso explícito de las

probabilidades para cantidades inciertas (parámetros) en inferencias

basadas en análisis estadístico de datos.

El análisis Bayesiano la podemos dividir en las siguientes etapas:

Primero: Elección de un modelo de probabilidad completo. Elección de

una distribución de probabilidad conjunta para todas las cantidades

observables y no observables. El modelo debe ser consistente con el

conocimiento acerca del problema fundamental y el proceso de

recolección de la información.

Segundo: Condicionamiento de los datos observados. Calcular e

interpretar la distribución a posteriori apropiada que se define como la




distribución de probabilidad condicional de las cantidades no

observadas de interés, dados los datos observados.

Tercero: Evaluación del ajuste del modelo y las implicancias de la

distribución a posteriori resultante. ¿Es el modelo apropiado a los

datos?, ¿Son las conclusiones razonables?, ¿Qué tan sensibles son los

resultados a las suposiciones de modelamiento de la primera etapa?. Si

fuese necesario, alterar o ampliar el modelo, y repetir las tres etapas

mencionadas.

4.2. CONCEPTOS BAYESIANOS BASICOS

4.2.1 TEOREMA DE BAYES

Sea '21 ),...,( nyyyY = un vector de n observaciones cuya distribución de

probabilidad ( )θ/yp depende de k parámetros involucrados en el vector

( )'21 ,..., kθθθθ = . Supóngase también que θ tiene una distribución de

probabilidades ( )θp . Entonces, la distribución de conjunta de θ e Y es:

( ) ( ) ( ) ( ) ( )ypyppypyp ././, θθθθ ==

de donde la distribución de probabilidad condicional de θ dado el vector

de observaciones y resulta:

( ) ( ) ( )( )yp

pypyp

θθθ .// = con ( ) 0≠yp (1)




A esta ecuación se lo conoce como el Teorema de Bayes, donde ( )yp es la

distribución de probabilidad marginal de y y puede ser expresada como:

=∑∫

)()./(

).()./()(

θθ

θθθ

pyp

dpypyp

si

si θθ

es

es discreto

continuo

donde la suma o integral es tomada sobre el espacio paramétrico de θ . De

este modo, el Teorema de Bayes puede ser escrito como:

)()./()()./(.)/( θθθθθ pyppypcyp ≈= (2)

En esta expresión:

• ( )θp representa lo que es conocido de θ antes de recolectar los datos y

es llamada la distribución a priori de θ .

• ( )yp /θ representa lo que se conoce de θ después de recolectar los

datos y es llamada la distribución posterior de θ dado y .

• c es una constante normalizadota necesaria para que ( )yp /θ sume o

integre uno.

Dado que el vector de datos y es conocido a través de la muestra, ( )θ/yp

es una función de θ y no de y . En este caso a ( )θ/yp se le denomina

función de verosimilitud de θ dado y y se le denota por ( )yl /θ . Entonces

la formula de Bayes puede ser expresada como sigue:

)()./()/( θθθ pylyp ≈ (3)




Ejemplo. Sea el parámetro θ que a priori tiene una distribución uniforme

en el intervalo [0,1] y la variable aleatoria Y que tiene una distribución de

probabilidades Binomial con parámetros m y θ , m conocido por

conveniencia. Entonces se tienen las siguientes funciones de distribución:

1)( =θp 10 ≤≤ θ

ymy

y

myp −−

= )1()/( θθθ my .....1,0=

Ahora, para una muestra aleatoria de tamaño n la función de

verosimilitud estará dada por:

∑−∑

= −

=∏ ii ynmy

n

i iym

yl )1()/(1

θθθ myi ,....1,0= i∀

y aplicar el Teorema de Bayes dado en (2), la distribución a posteriori de

θ dada la muestra y queda expresada como:

∑−∑

−= −

==∏∏

ii ymny

n

ii

n

ii ymy

mncyp )1(

)!(!

)!()/(

11

θθθ

Esta expresión puede escribirse de la siguiente manera:

( ) ( ) 1111

11

)1()!(!

)!()/( −+−−+

==

∑−∑

−=

∏∏ii ynmy

n

ii

n

ii ymy

mncyp θθθ

que tiene la forma de una distribución Beta con parámetros ( )∑ +1iy y

( )∑ +− 1iynm .

Luego el valor adecuado de la constante normalizadota c será:




( )( ) ( )

( )( )!

!!.

112

mn

ymy

ynmynm

c ii

ii

∏∏∑∑

−

+−Γ+Γ+Γ

=

Nótese que es a través de ( )yl /θ que los datos (información muestral)

modifican el conocimiento previo de θ dado por ( )θp . Este proceso de

revisión de las probabilidades iniciales, dada la información muestral, se

ilustra en la siguiente figura:

Por ultimo, es conveniente señalar que la información muestral y por lo

general será introducida en el modelo a través de estadísticas suficientes

para θ , dado que estas contienen toda la información referente a los

datos. Así, dado un conjunto de estadísticas suficientes t para los

parámetros en θ , ( )θ/yp podrá ser intercambiada por ( )θ/tp , para lo cual

bastara con calcular la distribución condicional de t dado θ .

Información Inicial

Información nueva

Dist. a Priori

)(θp

Func. de Verosimilitud

)/( yl θ

Teorema de

Bayes

Dist. a

Posteriori




4.2.2 NATURALEZA SECUENCIAL DEL TEOREMA DE BAYES

Supóngase que se tiene una muestra inicial 1y . Entonces, por la fórmula

de Bayes dada anteriormente se tiene:

)()./()/( 11 θθθ pylyp ∝

Ahora supóngase que se tiene una segunda muestra 2y independiente de

la primera muestra, entonces:

)()./()/()().,/(),/( 212121 θθθθθθ pylylpyylyyp =∝

)/()/(),/( 1221 ypylyyp θθθ ∝

De esta manera, la distribución a posteriori obtenida con la primera

muestra se convierte en la nueva distribución a priori para ser corregida

por la segunda muestra.

En este proceso puede repetirse indefinidamente. Así, si se tienen r

muestras independientes, la distribución a posteriori puede ser

recalculada secuencialmente para cada muestra de la siguiente manera:

),...,/()./(),...,/( 111 −∝ mmm yypylyyp θθθ para rm ,...,2=

Nótese que ),...,/( 1 myyp θ podría también ser obtenido partiendo de ( )θp y

considerando al total de las r muestras como una sola gran muestra.

La naturaleza secuencial del Teorema de Bayes, es tratada por Bernardo

como un proceso de aprendizaje en términos de probabilidades, el cual




permite incorporar al análisis de un problema de decisión, la información

proporcionada por los datos experimentales relacionados con los sucesos

(parámetros) inciertos relevantes.

4.2.3. DISTRIBUCIÓN A PRIORI DIFUSA O NO INFORMATIVA

Como ya se habrá podido notar, la distribución a priori cumple un papel

importante en el análisis Bayesiano ya que mide el grado de conocimiento

inicial que se tiene de los parámetros en estudio. Si bien su influencia

disminuye a medida que más información muestral es disponible, el uso

de una u otra distribución a priori determinara ciertas diferencias en la

distribución a posteriori.

Si se tiene un conocimiento previo sobre los parámetros, este se traducirá

en una distribución a priori. Así, será posible plantear tantas

distribuciones a priori como estados iniciales de conocimiento existan y

los diferentes resultados obtenidos en la distribución a posteriori bajo

cada uno de los enfoques, adquirirán una importancia en relación con la

convicción que tenga el investigador sobre cada estado inicial. Sin

embargo, cuando nada es conocido sobre los parámetros, la selección de

una distribución a priori adecuada adquiere una connotación especial

pues será necesario elegir una distribución a priori que no influya sobre

ninguno de los posibles valores de los parámetros en cuestión.

Estas distribuciones a priori reciben el nombre de difusas o no

informativas y en esta sección se tratara algunos criterios para su

selección:




Método de Jeffreys

En situaciones generales, para un parámetro θ el método mas usado es el

de Jeffreys (1961) que sugiere que, si un investigador es ignorante con

respecto a un parámetro θ , entonces su opinión a cerca de θ dado las

evidencias ~X debe ser la misma que el de una parametrización para θ o

cualquier transformación 1 a 1 de θ , )(θg , una priori invariante sería:

[ ] 21

)()( θθ Ip ∝

donde )(θI es la matriz de información de Fisher:

∂

∂−= 2

2 )/()(

θθ

θ θ

yLnfEI

Si '1 ),...,( pθθθ = es un vector, entonces:

[ ] 21

)(det)( θθ Ip ∝ (4)

donde )(θI es la matriz de información de Fisher de orden pxp . El

elemento )(ij de esta matriz es:

∂∂∂

−=ji

ij

yLnfEI

θθθ)/(2

0

Por transformación de variables, la densidad a priori ( )θp es equivalente

a la siguiente densidad a priori para φ .

φθφθφ

dd

hpp ))(()( 1−== (5)




El principio general de Jeffreys consiste en que al aplicar el método para

determinar la densidad a priori ( )θp , debe obtenerse un resultado

equivalente en )(φp si se aplica la transformación del parámetro para

calcular )(φp a partir de ( )θp en la ecuación (5) o si se obtiene )(φp

directamente a partir del método inicial. Es decir, se debe cumplir la

siguiente igualdad:

[ ] [ ]φθθφ

dd

II 21

21

)()( =

Ejemplo. Sea la variable y con una distribución ( )θ,nB

( ) ( ) ( ) yny

y

nyPyf −−

== θθθθ 1//

( ) )1log(loglog)/(log θθθ −−++

= yny

y

nyf

d f yd

y n ylog ( / )θθ θ θ

= −−−1

d f yd

y n y2

2 2 21log ( / )

( )θ

θ θ θ= − +

−−

( )( )

( )Ey n y n E n y

− +−−

= − − +

−

−

θ θ

θθ θ2 2 2 21 1

( ) ( )Ey n y n

− +−−

=

−θ θ θ θ2 21 1

o

n

θ θ1−




Si dejamos de lado el n, obtenemos que la distribución a priori de θ es

( ) ( )P θ θ θ∝ −− −1 2 1 21/ /

esto es, )5.0,5.0(Beta≈θ

Ejemplo. Se aplicara el método de Jeffreys para calcular una distribución

conjunta a priori para los parámetros de un modelo Normal.

Sea y ~ ),( 2σµN , ambos parámetros desconocidos. Entonces:

−−= 2

2

2)(

exp2

1),/(

σµ

πσσµ

yyf

2

2

2)(

ln2

1ln),/(ln

σµσ

πσσµ −

−−=y

yf

y la matriz de información de Fisher estará dada por:

∂∂∂

∂∂

−=),/(ln

),/(ln

)(2

2

2

0

σµµσ

σµµ

θyf

yf

EI

∂∂

∂∂∂

),/(ln

),/(ln

2

2

2

σµσ

σµσµ

yf

yf

−−

−−=

3

2

0 )(2

1

)(

σµ

σθy

EI

−−

−−

4

2

2

3

)(31

)(2

σµ

σ

σµ

y

y

=

0

1)( 2σθI

2

2

0

σ




Ahora, según la ecuación (4), la distribución a priori no informativa para

),( σµθ = será:

24

12),(

σσσµ ∝∝p

Nótese que aplicando las reglas anteriores, dado que µ es un parámetro

de posición y σ un parámetro de escala, las distribuciones a priori para

µ y σ serian 1)( =µp y 1)( −= σσp , por lo que si se supone independencia

entre ambos parámetros se tendría 1)().(),( −== σσµσµ ppp en vez de 2−σ .

Jeffreys resolvió este problema estableciendo que µ y σ deberían ser

tratados a priori independientemente y por separado. Así, cuando el

método de Jeffreys es aplicado al modelo Normal con σ fijo, resulta una a

priori uniforme para µ y cuando es aplicado con µ fijo, se obtiene la a

priori 1)( −= σσp lo cual conduce a:

1),( −= σσµp

que es lo mas deseable.

4.2.4. DISTRIBUCIÓN A PRIORI CONJUGADA

En este caso, la distribución a priori es determinada completamente por

una función de densidad conocida. Berger presenta la siguiente definición

para una familia conjugada:

Definición: Una clase P de distribuciones a priori es denominada una

familia conjugada para la clase de funciones de densidad F, si )/( yp θ está

en la clase P para todo Fyf ∈)/( θ y Pp ∈)(θ .




En este caso, la distribución inicial dominará a la función de

verosimilitud y )/( yp θ tendrá la misma forma de )(θp , con los

parámetros corregidos por la información muestral.

Ejemplo. Sea el parámetro θ que a priori tiene una distribución Beta con

parámetros α y β la variable aleatoria y que tiene una distribución de

probabilidades Binomial con parámetros m y θ , m conocido por

conveniencia. Entonces se tienen las siguientes funciones de distribución:

( )( ) ( ) ( ) )()1()( 1,0

11 θθθβαβαθ βα Ip −− −

ΓΓ+Γ

=

ymy

y

myp −−

= )1()/( θθθ my ,....1,0=

Ahora para una muestra aleatoria de tamaño n la función de

verosimilitud estará dada por:

∑−∑

= −∏ ii ymny

n

i iym

yl )1()/(01

θθθ myi ,....1,0= i∀

y al aplicar el Teorema de Bayes , la distribución posterior de θ dada la

muestra y queda expresada de la siguiente manera:

11 )1()/( −−+−+ ∑−∑∝ ii ynmyyp βα θθθ




que tiene la forma de una distribución Beta con parámetros ( )∑+ iyα y

( )∑−+ iynmβ . Luego, la distribución tiene la misma forma que la

distribución a priori por lo que la clase de distribuciones a priori Beta es

una familia conjugada para la clase de funciones de densidad Binomial.

Otro caso importante es el de la Distribución Normal

Sea el parámetro θ con una distribución ),( 200 τµN , donde 0µ y 2

0τ son

parámetros conocidos y la variable x con una distribución ),( 2σθN donde

2σ es un parámetro conocido. Entonces tenemos las siguientes funciones

de distribución:

20

20

0

)(21

exp21

)(τµθ

τπθ −

−=p

2

2)(21

exp2

1)/(

σθ

σπθ −

−=x

xp

y al aplicar el Teorema de Bayes , la distribución posterior de θ dada la

muestra x queda expresada de la siguiente manera: (Demostración

anexo )

21

21

1

)(21

exp21

)/(τµθ

τπθ −

−=xp




donde:

220

2020

1 11

11

στ

σµ

τµ+

+=

x

220

21

111σττ

+=

Luego )/( xp θ ~ ),( 211 τµN de donde podemos sacar conclusiones:

Precisiones de las distribuciones a priori y a posteriori:

Varianzaecisión

1Pr =

Precisión a

posteriori =

Precisión a

priori +

Precisión de

los datos

220

21

111σττ

+=

Otro caso importante es el de la Distribución Normal con Múltiples

Observaciones:

Sea '21 ),...,( nxxxx = un vector de n observaciones, ix son observaciones

idénticamente distribuidos.

θ~ ),( 200 τµN




ix ~ ),( 2σθN

Entonces al aplicar el Teorema de Bayes , la distribución posterior de θ

dada la muestra ix queda expresada de la siguiente manera:

)/().../()/()()/()()/( 21 θθθθθθθ nxpxpxppxppxp =∝

∏=

=∝n

iixppxppxp

1

)/()()/()()/( θθθθθ

∏=

−

−×

−

−∝n

i

ixxp

12

2

20

20 )(

21

exp)(

21

exp)/(σ

θτµθ

θ

−+−

−∝ ∑=

n

iix

nxp

1

222

0

20 )()(

21

exp)/( θστ

µθθ

)/( xp θ depende de x únicamente a través de nxxn

ii /

1∑

=

= ; es decir, x es

una estadística suficiente del modelo.

Desde que, θ/x ~ )/,( 2 nN σθ y considerando a x como una simple

observación, se aplican los resultados anteriores, luego:

)/(),...,,/( 21 xpxxxp n θθ = ~ ),/( 2nnN τµθ

donde:

220

2020

1

1

στ

σµ

τµn

xn

n

+

+=

220

2

11σττn

n

+=




NOTA:

Si 220 στ = , entonces la distribución a priori tiene el mismo peso como una

observación extra con el valor 0µ . Es decir, si ∞→0τ con n fijo, o

conforme ∞→n con 20τ fijo, entonces:

)/( xp θ ~ ),/(2

nxN

σθ

4.3. INFERENCIA BAYASIANA

Dado que la distribución posterior, contiene toda la información

concerniente al parámetro de interés θ (información a priori y muestral),

cualquier inferencia con respecto a θ consistirá en afirmaciones hechas a

partir de dicha distribución.

4.3.1. ESTIMACION PUNTUAL

La distribución posterior reemplaza la función de verosimilitud como una

expresión que incorpora toda la información.

)/( yθΠ es un resumen completo de la información acerca del parámetro

θ . Sin embargo, para algunas aplicaciones es deseable (o necesario)

resumir esta información en alguna forma. Especialmente, si se desea

proporcionar un simple “mejor” estimado del parámetro desconocido.

(Nótese la distinción con la estadística clásica en que los estimados

puntuales de los parámetros son la consecuencia natural de una

inferencia).




Por lo tanto, en el contexto Bayesiano, ¿Cómo se puede reducir la

información en una )/( yθΠ a un simple “mejor” estimado? ¿Qué debemos

entender por “mejor”?

Existen dos formas de enfrentar el problema:

a) Estimador de Bayes posterior

b) Aproximación de Teoría de decisión

♦ ESTIMADOR DE BAYES POSTERIOR

El estimador de Bayes posterior se define de la siguiente manera:

Sean 1x , 2x ,…, nx una muestra aleatoria de )/( θxf , donde θes un valor de

la v.a. θcon función de densidad (.)θg . El estimador de Bayes posterior

de )(θτ con respecto a la priori (.)θg es definida como ).,...,,/)(( 21 nxxxE θτ

Ejemplo. Sean 1x , 2x ,…, nx una m.a. de xxxf −−= 1)1()/( θθθ 0,1=x y

)()( )1,0( θθθ Ig = . ¿Cuáles son los estimadores de θ y )1( θθ − ?

∫ ∏

∏

=

== 1

0 1

121

)/()(

)/()(),...,,/(

θθθ

θθθ

θ

θ

dxfg

xfgxxxf

n

ii

n

ii

n

∫ ∑−∑

∑−∑=

−

−

1

0

)1,0(21

)1(

)()1(),...,,/(

θθθ

θθθθ

d

Ixxxf

ii

ii

xnx

xnx

n




∫

∫∑−∑

∑−∑

=−

−

1

0

1

021

)1(

)1(),...,,/(

θθθ

θθθθθ

d

dxxxE

ii

ii

xnx

xnx

n

)1,1(

)1,2(),...,,/( 21 ∑ ∑

∑ ∑+−++−+

=ii

iin xnxB

xnxBxxxE θ

2

1),...,,/( 21 +

+= ∑

n

xxxxE i

nθ

Luego el estimador a posteriori de Bayes de θ es 2

1

+

+∑n

xi es un estimador

sesgado. El estimador máximo verosímil de θ es n

xi∑ que un estimador

insesgado.

∫

∫∑−∑

∑−∑−=−

−

−

1

0

1

021

)1(

)1()1(),...,,/)1((

θθθ

θθθθθθθ

d

dxxxE

ii

ii

xnx

xnx

n

( ) ( )( )

( )( ) ( )∑∑

∑∑+−Γ+Γ

+Γ=

+Γ+−Γ+Γ

=−11

24

22),...,,/)1(( 21

ii

iin xnx

nn

xnxxxxE θθ

( )( )( )( )23

11),...,,/)1(( 21 ++

+−+=− ∑∑

nn

xnxxxxE ii

nθθ

estimador de ( )θθ −1 con respecto a la priori uniforme.

♦ APROXIMACION DE TEORIA DE DECISIÓN

Se especifica una función de perdida ( )aL ,θ que cuantifica las posibles

penalidades en estimar θ por a .




Hay muchas funciones perdida que se puede usar, la elección en

particular de una de ellas dependerá de contexto del problema.

Las más usadas son:

1) Perdida cuadrática: ( ) ( )2, aaL −= θθ

2) Perdida error absoluto: ( ) aaL −= θθ,

3) Perdida 0,1: ( )

=1

0,aL θ si

>∈−

≤∈−

θ

θ

a

a

4) Perdida lineal: para 0, >hg

( ) ( )( )

−−

=ah

agaL

θθ

θ, si θθ

<>

a

a

En cada uno de los casos anteriores, por la minimización de la perdida

esperada posterior, se obtienen formas simples para la regla de decisión

de Bayes, que es considerado como el estimado punto de θ para la

elección en particular de la función perdida.

Nota:

• ( )aL ,θ es la perdida incurrida en adoptar la acción a cuando el

verdadero estado de la naturaleza es θ .

• ( )xa,ρ es la perdida esperada posterior

Luego ( ) ( )( ) ( ) ( ) ( )∫=== θθθρθθ dxpaLxaaLERa /,,,

• Regla de decisión de Bayes (estimador de Bayes): )(xd es la acción

que minimiza a ( )xa,ρ .

• Riesgo de Bayes es ( ) ( )∫= dxxpxxddBR )(),(ρ




Ejemplo.

Sean 1x , 2x ,…, nx una muestra aleatoria de una ( )1,θN . Sea ( ) ( )2, aaL −= θθ ,

sea θ~ ( )1,oN µ .

a) El estimador de Bayes posterior es la media de la distribución

posterior de θ .

( )∫

=θθθ

θθθdxff

xffxf

)/()(

)/()(/

( )( )

( )∫ ∑

∑∞

∞− =

=

−−

−−

−−

−−

=

θµθπ

θπ

µθπ

θπθ

dx

xxf

n

ii

n

n

ii

n

20

1

2

20

1

2

)(21

exp2

121

exp2

1

)(21

exp2

121

exp2

1

/

Considerando 00 µ=x

( )∫ ∑

∑∞

∞− =

=

−−

−−

=θθ

π

θπθ

dx

xxf

n

ii

i

n

i

0

2

2

0

)(21

exp2

1

)(21

exp2

1

/

( )

+

−+

−

+

= ∑=

2

0 121

exp

121

/n

i

i

nxn

n

xf θπ

θ

( ) ∑= +

=n

i

in n

xxxxE

021 1,...,,/θ ( )

11

,...,,/ 21 +=

nxxxVar nθ




b) Aproximación Bayesiana:

R1 Cuando ( ) ( )2, aaL −= θθ , la regla de Bayes (o estimador de Bayes )

es la media de ( ) ( )xx // θρθ =Π

Por lo tanto; el estimador de Bayes o regla de Bayes con respecto a la

perdida cuadrado del error es:

111

00

+

+=

+

+ ∑∑ =

n

x

n

xx

n

ii

iµ

R2 Si ( ) ( )( )2, awaL −= θθθ , la regla de Bayes es:

[ ][ ])(

)()(

)/(

)/(

θθθ

θ

θ

wEwE

xdx

x

Π

Π

=

∫∫=

θθθ

θθθθ

dxfw

dxfwxd

)/()(

)/()()(

R3 Si ( ) 2, aaL −= θθ , cualquier mediana de ( )x/θΠ es un estimador de

Bayes de θ .

R4 Si ( ) ( )( )

−

−=

θθ

θaK

aKaL

1

0, si 0

0

<−≥−

a

a

θθ

cualquier 10

0

KKK+

fractil de

( )x/θΠ es un estimador de Bayes deθ .

RESUMEN

En el contexto Bayesiano, un estimado puntual de un parámetro es una

simple estadística descriptiva de la distribución posterior ( )x/θΠ .




Utilizando la calidad de un estimador a través de la función perdida, la

metodología de la teoría de decisión conduce a elecciones optimas de

estimados puntuales. En particular, las elecciones más naturales de

función perdida conducen respectivamente a la media posterior, mediana

y moda como estimadores puntuales óptimos.

4.3.2. INTERVALOS DE CREDIBILIDAD O REGIONES VERACES

La idea de una región veraz es proporcionar el análogo de un intervalo de

confianza en estadística clásica.

El razonamiento es que los estimados puntuales nos proporcionan una

medida de la precisión de la estimación. Esto causa problemas en la

estadística clásica desde que los parámetros no son considerados como

aleatorios, por lo tanto no es posible dar un intervalo con la

interpretación que existe una cierta probabilidad que el parámetro este en

el intervalo.

En la teoría Bayesiana, no hay dificultad para realizar esta aproximación

porque los parámetros son tratados como aleatorios.

Definición: Un conjunto veraz 100(1-á) para θ es un subconjunto C de θ

tal que:

∫ ∑

∫

Π

Π==≤−

∈

Π

c

c

cx

x

dxdFxcp

θ

θ

θ

θθθα

)/(

)/()()/(1 )/(

(

(caso

caso

)

)discreto

continuo




Un aspecto importante con los conjuntos veraces (y lo mismo sucede con

los intervalos de confianza) es que ellos no son únicamente definidos.

Cualquier región con probabilidad )1( α− cumple la definición. Pero

solamente se desea el intervalo que contiene únicamente los valores “mas

posibles” del parámetro, por lo tanto es usual imponer una restricción

adicional que indica que el ancho del intervalo debe ser tan pequeño

como sea posible.

Para hacer esto, uno debe considerar solo aquellos puntos con ( )x/θΠ

mas grandes. Esto conduce a un intervalo (o región) de la forma:

γθθα ≥== )/(:)( xfxcc

donde γ es elegido para asegurar que ∫ −=c

dxf αθθ 1)/( .

La región c que cumple las anteriores condiciones es denominada

“regiones de densidad posterior mas grande” (HPD).

Generalmente, un HPD es encontrado por métodos numéricos, aunque

para muchas distribuciones univariadas a posteriori, los valores de v.a.

correspondientes son tabulados para un rango de valores de α .

Ejemplo: (Media de una normal) Sean 1x , 2x ,…, nx variables aleatorias

independientes de ),( 2σθN ( 2σ conocido)con una a priori para θ de la

forma

θ ~ ),( 2dbN




Se sabe que

x/θ ~

++

+

2222

22

11

,1

σσ

σn

dn

d

xndb

N

Desde que, la normal es unimodal y simétrica, entonces el 100(1-α )%

HPD para θ es:

21

22

2

22

22

11

1

+±

+

+

σσ

σα n

d

Zn

d

xndb

Si ∞→n , entonces n

Zxσ

α2

± , luego el conjunto veraz es igual al de

estadística clásica. Pero sus interpretaciones son distintas.

4.3.3. PRUEBA DE HIPOTESIS PARA UNA MUESTRA

Pruebas de hipótesis son decisiones de la forma en que se deben elegir

entre dos diferentes hipótesis:

00 : Ω∈θH vs 11: Ω∈θH .

Se considera el caso simple donde 0Ω y 1Ω consisten de puntos simples,

por lo tanto la prueba es de la forma:

11

00

:

:

θθθθ

==

H

H




Aproximación Clásica

Ejecutar la prueba utilizando la razón de verosimilitud:

)/()/(

0

1

θθλ

xfxf

=

Si λ asume valores grandes significa que los datos observados x son mas

probables que hayan ocurrido si θ , es el verdadero valor de θ en lugar de

0θ .

Aproximación Bayesiana

La aproximación natural es realizar la prueba bajo las consideraciones en

las probabilidades a posteriori relativas de los valores formulados en las

hipótesis. Es decir:

)/()()/()(

)/()/(

00

11

2

1

θθθθ

θθλ

xffxff

xfxf

B ==

Razón de

apuestas a

posteriori

= Razón de

apuestas a priori *

Razón de

verosimilitud

Si Bλ asume valores grandes significa que hay preferencia por 1H .




Definición: La razón )/()/(

0

1

0

1

xfxf

θθ

αα

= es la razón de apuestas a posteriori de

1H a 0H , y 0

1

ΠΠ es la razón de apuestas a priori. La cantidad:

prioriaapuestasdeRazónposterioriaapuestasdeRazón

B⋅⋅⋅⋅

⋅⋅⋅⋅=

)()(

)/()/(

0

1

0

1

θθ

θθ

ff

xfxf

=

)/()/(

)()/()()/(

0

1

10

01

10

01

θθλ

αα

θθθθ

xfxf

fxffxf

B ==ΠΠ

==

es denominada el Factor de Bayes en favor de 1Θ .

B es una medida del peso de la información que contienen los datos en

favor de 1H sobre 0H . Si B es grande, este anula cualquier preferencia a

priori por 0H . La preferencia a posteriori es 1H .

4.3.4. PRUEBA DE HIPOTESIS PARA DOS MUESTRAS

A continuación trataremos el caso de dos muestras donde aplicaremos la

prueba de hipótesis para dos muestras, la forma general para tratar este

tema es generalizando el Factor de Bayes para el caso de dos muestras

esto quiere decir en vez de tomar una distribución de probabilidad para

una muestra ahora tomaremos para dos muestras es decir una

distribución conjunta:

Dadas las hipótesis:

211

210

:

:

µµµµ

≠=

H

H




Sean nxxx ,....,, 211 =µ y nyyy ,....,, 212 =µ dos muestras independientes,

entonces la distribución a posteriori será para el caso discreto:

∑∑=

),/(),(),/(),(

)/,(2121

212121 µµµµ

µµµµµµ

xppxpp

xp

la distribución a posteriori será para el caso continuo:

212121

212121

),/(),(

),/(),()/,(

µµµµµµµµµµµµ

ddxff

xffxf

∫∫=

Y se procederá de manera similar que el caso de una muestra.

Nosotros teniendo como premisa que trabajamos con poblaciones

normales tomaremos otra forma de tomar la prueba de hipótesis todo con

fines prácticos:

Suponiendo que nuestras varianzas poblacionales son conocidas

El problema de dos pruebas normales

Ahora se considerara la situación de dos muestras independientes con

distribución normal:

nxxx ,....,, 21 ~ ),( φλN

nyyy ,....,, 21 ~ ),( ψµN

Que son independientes, aunque realmente el valor de interés es la

distribución a posteriori de:

µλδ −=




El problema se da en situaciones comparativas, por ejemplo, en comparar

el logro en la prueba de geometría entre niños y niñas.

Combinaciones pareadas

Antes de continuar, nosotros deberíamos ser advertidos en contra de una

posible mala aplicación del modelo. Si nm = y cada una de las xs esta de

algún sentido emparejados con las ys, es decir que ix y iy deben estar

definidos:

iii yxw −=

Y entonces investiga los ws como una muestra

nwww ,....,, 21 ~ ),( ωδN

Para algún ω . Esto es conocido como el método de comparaciones

pareadas. Podría tener problemas si, por ejemplo, La comparación de

desempeño de niños y niñas estuviera restringida para pares de gemelos

de sexos contrarios. La razón de tal una situación es de no ser tratado

como un problema de dos pruebas en el sentido descrito al principio es

decir no son independientes, es que habrá un efecto común para

cualquier par de gemelos, a fin de que las observaciones en los niños y en

las chicas no serán completamente independientes. Es una técnica, valiosa

que a menudo puede dar una medida mas precisa de un efecto, pero es

importante distinguirla en los casos donde las dos pruebas son

independientes, en ese caso no hay dificultad particular en analizar los

resultados de un experimento pues ahora se tratara como comparación de

medias de unas sola muestra ambas con una distribución normal.




El caso cuando las varianzas son conocidas

En el caso del problema de dos muestras, se tiene tres casos:

i. Cuando φ y ψ son conocidos;

ii. Es conocido que ψφ = pero sus valores son desconocidos;

iii. Cuando φ y ψ son desconocidos.

Por los demás, de acuerdo a la naturaleza del trabajo, restringiremos

nuestro trabajo al caso (i). La razón principal para discutir este caso, es

que el problema de la prueba de una distribución normal, implica menos

complejidades en el caso donde las varianzas son conocidas.

Si λ y µ tienen como referencia unas a prioris independientes (constante)

1)()( ∝= µλ pp entonces como se hemos visto anteriormente con varias

observaciones normales con una a priori normal, la distribución a

posteriori para λ será )/,( mxN φ y de forma similar la distribución a

posteriori para µ será )/,( nyN ψ que es independientemente de λ . De lo

cual deducimos:

µλδ −= ~ )//,( nmyxN ψφ +−

Información a priori importante

El método se generaliza para este caso cuando la información a priori

importante esta disponible. Cuando la distribución a priori para λ es

),( 00 φλN entonces la distribución a posteriori es λ~ ),( 11 φλN donde (como

fue enseñado anteriormente en varias observaciones normales con una

distribución a priori normal).




)//(/

)/(

0011

11101

mx

m

φφλφλ

φφφ

+=

+=−−−

De modo semejante si la distribución a priori para µ es ),( 00 ψµN

entonces la distribución a posteriori para µ es ),( 11 ψµN donde 1ψ y 1µ

están definidos de modo semejante. Como sigue:

µλδ −= ~ ),( 1111 ψφµλ +−N

Y las inferencias se proceden al igual que antes.

medias). Yupanqui Pacheco, Rosalynn Miluska

Documents