Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska . Derechos reservados conforme a Ley Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM IV. MARCO TEORICO 4.1. ESTADISTICA BAYESIANA El interés por el teorema de Bayes trasciende esta aplicación clásica, especialmente cuando se amplía a otro contexto en el que la probabilidad no se entiende exclusivamente como la frecuencia relativa de un suceso a largo plazo, sino como el grado de convicción personal acerca de que el suceso ocurra o pueda ocurrir (definición subjetiva de la probabilidad). Afirmaciones del tipo "es muy probable que el partido X gane las próximas elecciones", "es improbable que Juan haya sido quien llamó por teléfono" o "es probable que se encuentre un tratamiento eficaz para el sida en los próximos 5 años", normales en el lenguaje común, no pueden cuantificarse formalmente; resultan ajenas, por tanto, a una metodología que se desenvuelva en un marco frecuentista. Una cuantificación sobre base subjetiva resulta, sin embargo, familiar y fecunda para el enfoque bayesiano. Al admitir un manejo subjetivo de la probabilidad, el analista bayesiano podrá emitir juicios de probabilidad sobre una hipótesis H y expresar por esa vía su grado de convicción al respecto, tanto antes como después de haber observado los datos. En su versión más elemental y en este contexto, el teorema de Bayes asume la forma siguiente: P (H | datos) = [P (datos | H) / P (datos)] . P (H) La probabilidad a priori de una hipótesis, P(H), se ve transformada en una probabilidad a posteriori, P(H | datos), una vez incorporada la evidencia que aportan los datos. El caso considerado se circunscribe a la
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
IV. MARCO TEORICO
4.1. ESTADISTICA BAYESIANA
El interés por el teorema de Bayes trasciende esta aplicación clásica,
especialmente cuando se amplía a otro contexto en el que la probabilidad
no se entiende exclusivamente como la frecuencia relativa de un suceso a
largo plazo, sino como el grado de convicción personal acerca de que el
suceso ocurra o pueda ocurrir (definición subjetiva de la probabilidad).
Afirmaciones del tipo "es muy probable que el partido X gane las
próximas elecciones", "es improbable que Juan haya sido quien llamó por
teléfono" o "es probable que se encuentre un tratamiento eficaz para el
sida en los próximos 5 años", normales en el lenguaje común, no pueden
cuantificarse formalmente; resultan ajenas, por tanto, a una metodología
que se desenvuelva en un marco frecuentista. Una cuantificación sobre
base subjetiva resulta, sin embargo, familiar y fecunda para el enfoque
bayesiano. Al admitir un manejo subjetivo de la probabilidad, el analista
bayesiano podrá emitir juicios de probabilidad sobre una hipótesis H y
expresar por esa vía su grado de convicción al respecto, tanto antes como
después de haber observado los datos. En su versión más elemental y en
este contexto, el teorema de Bayes asume la forma siguiente:
P (H | datos) = [P (datos | H) / P (datos)] . P (H)
La probabilidad a priori de una hipótesis, P(H), se ve transformada en
una probabilidad a posteriori, P(H | datos), una vez incorporada la
evidencia que aportan los datos. El caso considerado se circunscribe a la
Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
situación más simple, aquella en que P(H) representa un número único;
sin embargo, si se consiguiera expresar nuestra convicción inicial (y
nuestra incertidumbre) mediante una distribución de probabilidades.
Entonces una vez observados los datos, el teorema nos "devuelve" una
nueva distribución, que no es otra cosa que la percepción probabilística
original actualizada por los datos.
Esta manera de razonar de la inferencia Bayesiana, radicalmente diferente
a la inferencia clásica o frecuentista (que desdeña en lo formal toda
información previa de la realidad que examina), es sin embargo muy
cercana al modo de proceder cotidiano, e inductivo. Debe subrayarse que
esta metodología, a diferencia del enfoque frecuentista, no tiene como
finalidad producir una conclusión dicotómica (significación o no
significación, rechazo o aceptación, etc.) sino que cualquier información
empírica, combinada con el conocimiento que ya se tenga del problema
que se estudia, "actualiza" dicho conocimiento, y la trascendencia de
dicha visión actualizada no depende de una regla mecánica.
Los métodos bayesianos han sido cuestionados argumentando que, al
incorporar las creencias o expectativas personales del investigador,
pueden ser caldo de cultivo para cualquier arbitrariedad o manipulación.
Podemos argüir, por una parte, que el enfoque frecuentista no está exento
de decisiones subjetivas (nivel de significación, usar una o dos colas,
importancia que se concede a las diferencias, etc.); de hecho, la
subjetividad (algo bien diferente de la arbitrariedad o el capricho) es un
fenómeno inevitable, especialmente en un marco de incertidumbre como
en el que operan las ciencias biológicas y sociales. Por otra parte, las
Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
"manipulaciones" son actos de deshonestidad, que pueden producirse en
cualquier caso (incluyendo la posibilidad de que se inventen datos) y que
no dependen de la metodología empleada sino de la honradez de los
investigadores.
Aunque las bases de la estadística Bayesiana datan de hace más de 2
siglos, no es hasta fechas recientes cuando empieza a asistirse a un uso
creciente de este enfoque en el ámbito de la investigación. Una de las
razones que explican esta realidad y que a la vez anuncian un impetuoso
desarrollo futuro es la absoluta necesidad de cálculo computarizado para
la resolución de algunos problemas de mediana complejidad. Hoy ya
existe software disponible (BUGS, macros para MINITAB, próxima
versión de EPIDAT y First Bayes, entre otros) que hace posible operar con
estas técnicas y augura el "advenimiento de una era Bayesiana".
El proceso intelectual asociado a la inferencia Bayesiana es mucho más
coherente con el pensamiento usual del científico que el que ofrece el
paradigma frecuentista. Los procedimientos bayesianos constituyen una
tecnología emergente de procesamiento y análisis de información para la
que cabe esperar una presencia cada vez más intensa en el campo de la
aplicación de la estadística a la investigación clínica y epidemiológica.
4.1.1 ¿QUÉ ES LA INFERENCIA ESTADÍSTICA?
La inferencia estadística es la ciencia de extraer conclusiones a partir de
una muestra aleatoria para ser aplicadas a cantidades desconocidas de la
población de la cual la muestra fue seleccionada. Este proceso origina
muchas preguntas, como por ejemplo: ¿qué es una población?, ¿cómo la
Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
muestra se relaciona con la población?, ¿cómo debe seleccionarse la
muestra si todos tienen la opción de ser elegidos?.
Ejemplo. Supóngase que un ingeniero forestal desea estimar la
proporción de árboles en un bosque de la selva que sufren una
determinada enfermedad. Examinar a todos los árboles es impráctico, por
lo que el ingeniero decide seleccionar una muestra de n árboles elegidos
aleatoriamente de acuerdo a un diseño muestral previamente definido. La
aleatoriedad debe entenderse en el sentido que si θ es la proporción de
árboles que tienen la enfermedad en el bosque, entonces cada árbol en la
muestra tendrá la enfermedad, independientemente de lo que suceda con
los otros árboles en la muestra, con probabilidad θ . Sea X la variable
aleatoria que corresponde al número de árboles enfermos en la muestra,
el ingeniero usará el valor observado de xX = para realizar una
inferencia acerca del parámetro poblacional θ . Esta inferencia podría
tomar la forma de un estimado puntual ( 1.0ˆ =θ ); un intervalo de
confianza (95 % de confianza que θ se encuentre en el intervalo (0.08,
0.12); una prueba de hipótesis (rechazar la hipótesis que θ <0.07 a un
nivel α=0.05), una predicción (sostener que 15% de los árboles serán
afectados por la enfermedad el próximo año); o una decisión (decidir
identificar y remover todos los árboles infectados). En cada caso, el
conocimiento del valor muestral observado es usado para realizar
inferencias acerca de una característica de la población (parámetro).
Más aún, estas inferencias son realizadas mediante un modelo de
probabilidad, que determina cómo, para un valor de θ, las probabilidades
de los diferentes valores de x son distribuidos.
Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
Por ejemplo, bajo las suposiciones del muestreo aleatorio, el modelo para
el problema anterior podría ser:
X | θ ~ b(n, θ)
La inferencia estadística se realiza en base a un valor observado X=x, y
estamos interesados en conocer los valores de θ que tienen la más alta
probabilidad de haber generado el valor x en comparación con aquellos
que tienen la más baja probabilidad de haberlo hecho. (Principio de
máxima verosimilitud).
Antes de estudiar la inferencia Bayesiana en particular es necesario
realizar algunas aclaraciones puntuales respecto de la aproximación
clásica con la Bayesiana. El punto más importante es que el parámetro,
mientras no es conocido, es tratado como una constante en lugar de una
variable aleatoria. Esta es la idea fundamental de la teoría clásica pero
que conduce a problemas de interpretación. Por ejemplo, sostener que
con 95% de confianza el intervalo [.08, 0.12] incluye a la proporción
poblacional de los árboles enfermos es incongruente desde que θ no es
aleatorio. θ está en el intervalo o no lo está. El único elemento aleatorio en
este modelo de probabilidad es el dato, por lo tanto la correcta
interpretación del intervalo es que si aplicamos el procedimiento
estadístico de construcción de intervalos un gran número de veces,
entonces “a la larga” los intervalos construidos incluirán a θ en el 95% de
dichos intervalos.
Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
Todas las inferencias basadas en la teoría clásica son forzadas a tener este
tipo de interpretación de frecuencia “a la larga”; a pesar de que como en
el ejemplo de los árboles, solamente se tiene un intervalo (0.08, 0.12) para
realizar el análisis.
El supuesto de la “intercambiabilidad” es útil en inferencia estadística,
que significa que los n valores observados xi en la muestra pueden ser
intercambiados, es decir, que la distribución conjunta p(x1, x2, ...xn) debe
ser invariante a las permutaciones de los índices. Generalmente, los datos
de una distribución “intercambiable” es útil modelarlos como
independientementes e idénticamente distribuidas (iid) dado algún
vector de parámetros desconocidos θ con distribución p(θ).
4.1.2. ¿QUÉ ES LA INFERENCIA BAYESIANA?
El marco teórico en que se aplica la inferencia Bayesiana es similar a la
clásica: hay un parámetro poblacional respecto al cual se desea realizar
inferencias y se tiene un modelo que determina la probabilidad de
observar diferentes valores de X, bajo diferentes valores de los
parámetros. Sin embargo, la diferencia fundamental es que la inferencia
Bayesiana considera al parámetro como una variable aleatoria. Esto
parecería que no tiene demasiada importancia, pero realmente si lo tiene
pues conduce a una aproximación diferente para realizar el
modelamiento del problema y la inferencia propiamente dicha.
Algunos ejemplos que justifican lo anterior son: la verdadera proporción
de artículos defectuosos que produce un proceso de manufactura puede
fluctuar ligeramente pues depende de numerosos factores, la verdadera
Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
proporción de casas que se pierden por concepto de hipoteca varia
dependiendo de las condiciones económicas, la demanda promedio
semanal de automóviles también fluctuara como una función de varios
factores incluyendo la temporada.
En esencia, la inferencia Bayesiana esta basada en la distribución de
probabilidad del parámetro dado los datos (distribución a posteriori de
probabilidad p(θθ /y) ) , en lugar de la distribución de los datos dado el
parámetro. Esta diferencia conduce a inferencias mucho más naturales, lo
único que se requiere para el proceso de inferencia Bayesiana es la
especificación previa de una distribución a priori de probabilidad p(θθ ),
la cual representa el conocimiento acerca del parámetro antes de obtener
cualquier información respecto a los datos.
La noción de la distribución a priori para el parámetro es el corazón del
pensamiento Bayesiano. El análisis Bayesiano hace uso explícito de las
probabilidades para cantidades inciertas (parámetros) en inferencias
basadas en análisis estadístico de datos.
El análisis Bayesiano la podemos dividir en las siguientes etapas:
Primero: Elección de un modelo de probabilidad completo. Elección de
una distribución de probabilidad conjunta para todas las cantidades
observables y no observables. El modelo debe ser consistente con el
conocimiento acerca del problema fundamental y el proceso de
recolección de la información.
Segundo: Condicionamiento de los datos observados. Calcular e
interpretar la distribución a posteriori apropiada que se define como la
Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
distribución de probabilidad condicional de las cantidades no
observadas de interés, dados los datos observados.
Tercero: Evaluación del ajuste del modelo y las implicancias de la
distribución a posteriori resultante. ¿Es el modelo apropiado a los
datos?, ¿Son las conclusiones razonables?, ¿Qué tan sensibles son los
resultados a las suposiciones de modelamiento de la primera etapa?. Si
fuese necesario, alterar o ampliar el modelo, y repetir las tres etapas
mencionadas.
4.2. CONCEPTOS BAYESIANOS BASICOS
4.2.1 TEOREMA DE BAYES
Sea '21 ),...,( nyyyY = un vector de n observaciones cuya distribución de
probabilidad ( )θ/yp depende de k parámetros involucrados en el vector
( )'21 ,..., kθθθθ = . Supóngase también que θ tiene una distribución de
probabilidades ( )θp . Entonces, la distribución de conjunta de θ e Y es:
( ) ( ) ( ) ( ) ( )ypyppypyp ././, θθθθ ==
de donde la distribución de probabilidad condicional de θ dado el vector
de observaciones y resulta:
( ) ( ) ( )( )yp
pypyp
θθθ .// = con ( ) 0≠yp (1)
Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
A esta ecuación se lo conoce como el Teorema de Bayes, donde ( )yp es la
distribución de probabilidad marginal de y y puede ser expresada como:
=∑∫
)()./(
).()./()(
θθ
θθθ
pyp
dpypyp
si
si θθ
es
es discreto
continuo
donde la suma o integral es tomada sobre el espacio paramétrico de θ . De
este modo, el Teorema de Bayes puede ser escrito como:
)()./()()./(.)/( θθθθθ pyppypcyp ≈= (2)
En esta expresión:
• ( )θp representa lo que es conocido de θ antes de recolectar los datos y
es llamada la distribución a priori de θ .
• ( )yp /θ representa lo que se conoce de θ después de recolectar los
datos y es llamada la distribución posterior de θ dado y .
• c es una constante normalizadota necesaria para que ( )yp /θ sume o
integre uno.
Dado que el vector de datos y es conocido a través de la muestra, ( )θ/yp
es una función de θ y no de y . En este caso a ( )θ/yp se le denomina
función de verosimilitud de θ dado y y se le denota por ( )yl /θ . Entonces
la formula de Bayes puede ser expresada como sigue:
)()./()/( θθθ pylyp ≈ (3)
Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
Ejemplo. Sea el parámetro θ que a priori tiene una distribución uniforme
en el intervalo [0,1] y la variable aleatoria Y que tiene una distribución de
probabilidades Binomial con parámetros m y θ , m conocido por
conveniencia. Entonces se tienen las siguientes funciones de distribución:
1)( =θp 10 ≤≤ θ
ymy
y
myp −−
= )1()/( θθθ my .....1,0=
Ahora, para una muestra aleatoria de tamaño n la función de
verosimilitud estará dada por:
∑−∑
= −
=∏ ii ynmy
n
i iym
yl )1()/(1
θθθ myi ,....1,0= i∀
y aplicar el Teorema de Bayes dado en (2), la distribución a posteriori de
θ dada la muestra y queda expresada como:
∑−∑
−= −
==∏∏
ii ymny
n
ii
n
ii ymy
mncyp )1(
)!(!
)!()/(
11
θθθ
Esta expresión puede escribirse de la siguiente manera:
( ) ( ) 1111
11
)1()!(!
)!()/( −+−−+
==
∑−∑
−=
∏∏ii ynmy
n
ii
n
ii ymy
mncyp θθθ
que tiene la forma de una distribución Beta con parámetros ( )∑ +1iy y
( )∑ +− 1iynm .
Luego el valor adecuado de la constante normalizadota c será:
Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
( )( ) ( )
( )( )!
!!.
112
mn
ymy
ynmynm
c ii
ii
∏∏∑∑
−
+−Γ+Γ+Γ
=
Nótese que es a través de ( )yl /θ que los datos (información muestral)
modifican el conocimiento previo de θ dado por ( )θp . Este proceso de
revisión de las probabilidades iniciales, dada la información muestral, se
ilustra en la siguiente figura:
Por ultimo, es conveniente señalar que la información muestral y por lo
general será introducida en el modelo a través de estadísticas suficientes
para θ , dado que estas contienen toda la información referente a los
datos. Así, dado un conjunto de estadísticas suficientes t para los
parámetros en θ , ( )θ/yp podrá ser intercambiada por ( )θ/tp , para lo cual
bastara con calcular la distribución condicional de t dado θ .
Información Inicial
Información nueva
Dist. a Priori
)(θp
Func. de Verosimilitud
)/( yl θ
Teorema de
Bayes
Dist. a
Posteriori
Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.
Derechos reservados conforme a Ley
Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM
4.2.2 NATURALEZA SECUENCIAL DEL TEOREMA DE BAYES
Supóngase que se tiene una muestra inicial 1y . Entonces, por la fórmula
de Bayes dada anteriormente se tiene:
)()./()/( 11 θθθ pylyp ∝
Ahora supóngase que se tiene una segunda muestra 2y independiente de