DISTRIBUCIONES NO INFORMATIVAS EN MODELOS TRUNCADOS NO REGULARES: MODELOS DE BÚSQUEDA DE EMPLEO. BASULTO SANTOS, Jesús Departamento de Economía Aplicada I Universidad de Sevilla Correo-e: [email protected]ORTEGA IRIZO, Fco. Javier Departamento de Economía Aplicada I Universidad de Sevilla Correo-e: [email protected]RESUMEN Ofrecemos una vía de generalización de la Regla de Jeffreys para la obtención de distribuciones a priori, que puede aplicarse también a modelos no regulares. El análisis del caso unidimensional nos permitirá también obtener las distribuciones a priori en modelos multidimensionales, al menos en algunas situaciones específicas. A partir de estas distribuciones, podemos aplicar las técnicas de la Inferencia Bayesiana a aquellos modelos económicos en los que aparecen “parámetros no regulares”, como son los modelos de búsqueda de empleo, de subastas del sector público, etc. Palabras Clave: Inferencia Bayesiana, Distribución a priori no informativa, modelo no regular, modelos de búsqueda de empleo.
24
Embed
DISTRIBUCIONES NO INFORMATIVAS EN … - Leon/ponencias/Basulto... · Palabras Clave: Inferencia Bayesiana, Distribución a priori no informativa, modelo no regular, modelos de búsqueda
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
DISTRIBUCIONES NO INFORMATIVAS EN MODELOS
TRUNCADOS NO REGULARES: MODELOS DE
BÚSQUEDA DE EMPLEO.
BASULTO SANTOS, Jesús Departamento de Economía Aplicada I
En este caso, puesto que los límites de integración dependen de h, para calcular
Q (h) hθ∂ ∂ , aplicamos la fórmula de Leibniz (Apóstol, 1960), obteniendo:
2
1
a ( h)'2 2 2
a ( h)
'1 1 1
f (x | h)Q (h)f (x | ) dx a ( h) f (a ( h) | ) f (a ( h) | h)
h h
a ( h) f (a ( h) | ) f (a ( h) | h)
θ−θ
θ−
∂ θ −∂= θ + θ − θ − θ θ − θ − −
∂ ∂
− θ − θ − θ θ − θ −
∫
13
y así obtenemos:
2
1
a ( ) ' '2 2 1 1a ( )h 0
f (x | )J( , h)lim 8 f (x | ) dx a ( )f (a ( ) | ) a ( )f (a ( ) | ) .h
θ
θ→
⎧ ⎫∂ θθ θ + ⎪ ⎪= θ + θ θ θ − θ θ θ⎨ ⎬∂θ⎪ ⎪⎩ ⎭
∫
Aplicando de nuevo la fórmula de Leibniz, obtenemos que:
2
1
a ( )' '2 2 1 1
a ( )
f (x | )a ( )f (a ( ) | ) a ( )f (a ( ) | ) dxθ
θ
∂ θθ θ θ − θ θ θ = −
∂θ∫
y por tanto:
2 2
1 1
a ( ) a ( )
h 0 a ( ) a ( )
J( , h) f (x | ) f (x | ) log f (x | )lim 4 dx 8 dx 4Eh
θ θ
→ θ θ
θ θ + ∂ θ ∂ θ ∂ θ⎡ ⎤= − = − ⎢ ⎥∂θ ∂θ ∂θ⎣ ⎦∫ ∫ .
Nota: Los modelos más importantes que pertenecen a esta familia son:
1. La familia de localización: 0f (x, ) f (x ), ,θ = − θ θ∈ donde ( )0f z es una densidad en el
intervalo [ )0,+∞ . En este caso, ( )1a θ = θ y ( )2a θ ≡ +∞ .
2. f (x | ) c(x) g( ) , a( ) x b( )θ = θ θ ≤ ≤ θ (donde las funciones verifican las hipótesis
especificadas anteriormente).
Observemos que esta familia incluye a gran cantidad de modelos, entre los que
podemos destacar los modelos uniformes con soporte en (i) [0,θ], θ>0, (ii) [-θ,θ],θ>0,
(iii)[θ,1/θ], 0<θ<1, así como la familia truncada f (x, ) g(x) G( ) , x ,θ = θ > θ donde g(•) es
una densidad en ( )0,+∞ y x
G(x) g(t)dt+∞
= ∫ . Indiquemos que el modelo de Pareto
pertenece a la familia truncada, ya que en este caso la función de densidad es (1 )f (x, ) x , xα − +αθ =αθ > θ y así estamos en la situación descrita tomando 1g(x) x −α= α y
xG( ) g(t)dt
+∞ −αθ = = θ∫ .
Señalemos también que modelos tales como los uniformes en [ ]½, +½θ − θ o en
[ ],2θ θ no están en esta familia por no ser los soportes ni crecientes ni decrecientes en θ
(es decir, dados 1 2θ < θ en general no se verifica ni ( ) ( )1 2sop sopθ ⊆ θ ni ( ) ( )1 2sop sopθ ⊇ θ ).
14
Ejemplo 3.3: Consideremos la familia de localización: 0f (x, ) f (x ), ,θ = − θ θ∈
donde ( )0f z es una densidad en el intervalo [ )0,+∞ .
En este caso, al aplicar el resultado obtenido en la proposición tenemos lo
3.3.2 Propiedades frecuencialistas de los intervalos Bayesianos.
Uno de los argumentos más usados en la literatura para construir distribuciones a
priori no informativas (o para decidir si una determinada distribución a priori no
informativa es una elección buena) es poder calcular con dichas distribuciones
intervalos bayesianos de probabilidad 1-α cuyo nivel de confianza, en el sentido de la
estadística clásica, sea también 1-α ( o al menos, de forma aproximada).
El primer trabajo que puede considerarse en este sentido es el de Welch y Peers
,1963, en el que se demuestra que en modelos regulares y con un sólo parámetro la
distribución de Jeffreys es la única que verifica [ ] 1P g(S, ) | 1 O(n )−θ < α θ = − α + donde
( )g S,α es el extremo superior del intervalo bayesiano unilateral de probabilidad 1-α
obtenido a partir de una muestra S de la variable X , es decir, [ ]P g(S, ) | S 1θ < α = − α , o lo
que es lo mismo, ( )g S,α es el percentil de orden 1− α de la distribución a posteriori de θ
dada la muestra S.
En Ghosal, 1999, se demuestra que, bajo las condiciones descritas en el epígrafe
3.2, cualquier distribución a priori diferenciable lleva a intervalos unilaterales con
probabilidad de cubrimiento en sentido frecuencialista 11 O(n )−− α + ; sin embargo,
también se establece en dicho artículo que la única distribución a priori que verifica que
los intervalos bayesianos unilaterales de probabilidad 1− α tienen probabilidad de
cubrimiento 21 O(n )−− α + , es la obtenida según nuestra propuesta.
Hagamos notar que en esta situación no es aconsejable trabajar con intervalos
bilaterales, ya que tanto la distribución a posteriori como la distribución muestral de θ̂ ,
en el límite, son muy asimétricas y están muy concentradas en uno de los extremos de
su recorrido.
16
Aunque este resultado general es bastante importante, existen varios ejemplos en
los que la coincidencia de resultados entre la inferencia bayesiana y clásica es exacta
(Ortega y Basulto, 2003)
4. Distribuciones multiparamétricas.
Cuando hay más de un parámetro, es decir, cuando mθ∈Θ ⊆ , la regla general
de Jeffreys, aplicable al caso regular, consiste en tomar ( ) I( )π θ ∝ θ , donde ( )I θ
representa el determinante de la matriz de información, lo que sigue asegurando la
invarianza ante reparametrizaciones arbitrarias. No obstante, esta opción presenta
deficiencias importantes, que hacen que en muchos casos no sea la opción
habitualmente elegida (Jeffreys, 1961, Ortega y Basulto, 2003). Para evitar estos
inconvenientes, Jeffreys sugirió una modificación para su regla general en el caso
multiparamétrico que debía aplicarse en los modelos con parámetros de localización y
escala y que resulta equivalente a obtener la distribución de cada parámetro suponiendo
que los otros son fijos y posteriormente, la distribución multiparamétrica será el
producto de las correspondientes unidimensionales (Jeffreys, 1961, p.182-183).
El camino más usual para la construcción de distribuciones a priori
multidimensionales consiste en obtener las mismas a partir de ciertas distribuciones
unidimensionales (marginales o condicionadas), dependiendo el proceso seguido y la
distribución a priori obtenida de si se considera que alguno de los parámetros es el de
interés, siendo el resto parámetros “perturbadores”, o si, por el contrario, se considera
que todos los parámetros son de interés (Bernardo y Smith, 1994, Nicolau, 1993).
Supongamos por simplicidad que ( ) 21 2,θ = θ θ ∈Θ ⊆ ; además, vamos a suponer
también que en nuestro problema ambos parámetros son de interés. En este caso, un
camino posible es obtener las distribuciones condicionadas ( )1|2 1 2π θ θ y ( )2|1 2 1π θ θ
aplicando la regla de obtención de distribuciones unidimensionales y buscar
posteriormente una distribución conjunta ( )1 2,π θ θ compatible con ambas condicionadas,
que no siempre tiene por qué existir (Arnold y otros, 1999). Un problema importante de
este tipo de procedimientos es que, por ejemplo, la distribución ( )1|2 1 2π θ θ quedará
17
determinada salvo una constante arbitraria que puede depender de θ2, y que
posteriormente influye en la obtención de la distribución conjunta.
De esta forma, al aplicar una regla uniparamétrica al parámetro θ1 suponiendo
que θ2 es fijo, obtendremos una expresión del tipo 1|2 1 2 1|2 1 2 1|2 2( | ) g ( , ) C ( )π θ θ ∝ θ θ θ ,
donde 1|2 2C ( )θ es una función arbitraria. De forma análoga, tendremos
2|1 2 1 2|1 1 2 2|1 1( | ) g ( , ) C ( )π θ θ ∝ θ θ θ . En el caso particular de que se verifiquen:
* *1|2 1 2 1|2 2 1|2 1 1|2 2 2|1 1 2 2|1 1 2|1 2 2|1 1g ( , ) C ( ) h ( ) h ( ) y g ( , ) C ( ) h ( ) h ( )θ θ θ = θ θ θ θ θ = θ θ
y siguiendo a Nicolau, 1993 y Ghosal, 1999, proponemos elegir
1 2 1|2 1 2|1 2( , ) h ( ) h ( )π θ θ ∝ θ θ . Observemos que en este caso, como indica Nicolau, 1993,
podemos considerar que ambos parámetros son independientes a priori; la elección de
tomar ambas constantes arbitrarias iguales a 1 es la que conlleva a que las distribuciones
condicionadas coincidan con las correspondientes marginales.
Aunque la solución ofrecida es parcial, es necesario observar que esta situación
es interesante y muy frecuente en la práctica (Ghosal, 1999) , sobre todo cuando en el
modelo uno de los parámetros es regular y el otro no regular.
Ejemplo 4.1: Consideremos el modelo de Pareto, cuya densidad viene dada por (1 )f (x | , ) x , x , , 0.ϕ − +ϕη ϕ = ϕη > η η ϕ > Si consideramos que η es conocido (y por tanto
fijo), el modelo cumple las condiciones de regularidad; diremos que el modelo es
regular con respecto al parámetro ϕ o que “el parámetro ϕ es regular”. Por el contrario,
si consideramos conocido el valor de ϕ, el modelo no verifica las hipótesis de
regularidad, por lo que diremos que “el parámetro η es no regular”.
Ahora, podemos obtener los núcleos de las distribuciones a priori condicionadas,
aplicando la regla univariante. Sea ( )( , | x) log f x | ,η ϕ = η ϕ .
A) Si consideramos η conocido, por ser ϕ regular, la distribución a priori de |ϕ η será
proporcional a la Información de Fisher del modelo (cuando η es conocido). Es fácil
comprobar que 2 2 2E −⎡ ⎤∂ ∂ϕ = −ϕ⎣ ⎦ , y por tanto, obtendremos ( ) 11| C ( )−π ϕ η ∝ ϕ η .
18
B) Si consideramos ϕ conocido, el modelo es no regular y verifica las condiciones
señaladas en la sección 3.2. Teniendo en cuenta que [ ]E ∂ ∂η = ϕ η , obtendremos
12( | ) C ( )−π η ϕ ∝ η ϕ .
Como puede apreciarse, ambas condicionadas pueden descomponerse en
producto de funciones que dependen cada una de un solo parámetro, por lo que la
distribución a priori conjunta que proponemos es ( ) 1 1, .− −π η ϕ ∝ η ϕ
Ejemplo 4.2: Consideremos la familia de localización-escala:
10f (x, ) f ((x ) / ), , 0−θ = ϕ − θ ϕ θ∈ ϕ > donde ( )0f z es una densidad en el intervalo [ )0,+∞ .
Supongamos que el parámetro ϕ es regular y que 0f (0 ) 0+ ≠ , es decir, que el parámetro
θ es no regular. En este caso, se verifican:
21 2
0 2E f (0 ); E k ,− −⎡ ⎤∂ ∂⎡ ⎤ = ϕ + − = ϕ⎢ ⎥⎢ ⎥∂θ⎣ ⎦ ∂ϕ⎣ ⎦ donde
2'0 0 0k 1 xf (x) / f (x) f (x)dx⎡ ⎤= +⎣ ⎦∫
por lo que ( ) 1| 1·C ( )π θ ϕ ∝ ϕ y ( ) 12| ·C ( )−π ϕ θ ∝ ϕ θ , es decir, las condicionadas pueden
descomponerse en producto de funciones dependientes de cada uno de los parámetros y
por lo tanto la distribución a priori conjunta será ( ) 1, .−π θ ϕ ∝ ϕ
En el caso de que no se cumpla esta propiedad, siempre quedaría la opción de
buscar una reparametrización para la cual sí se verifique.
Ejemplo 4.3: Consideremos el modelo Uniforme en ( , )α β , cuya densidad viene
dada por 1f (x | , ) ( ) , x , .−α β = β − α α ≤ ≤ β α < β∈ En este caso, ambos parámetros son
no regulares, verificándose las condiciones de la sección 3.2 si consideramos alguno de
los parámetros fijo. Siendo ( , | x) log f (x | , )α β = α β , podemos comprobar fácilmente que
[ ] [ ] 1E E ( )−∂ ∂α = ∂ ∂β = β − α , con lo que obtendríamos 11( | ) ( ) C ( )−π α β ∝ β − α β y
12( | ) ( ) C ( )−π β α ∝ β − α α , es decir, las densidades a priori condicionadas no pueden
descomponerse en producto de funciones dependientes de un solo parámetro.
Ahora bien, podemos considerar la reparametrización ,µ = α σ = β − α , es decir,
los parámetros pasan a ser el punto inicial de la distribución y la longitud del intervalo
19
(obsérvese que µ es un parámetro de localización y σ de escala). Ahora, 1( , | x) log( ), x−µ σ = σ µ ≤ ≤ µ + σ . Si consideramos σ fijo, estamos básicamente en la
situación del ejemplo 3.2, obteniéndose ( ) 1| 1 C ( )π µ σ ∝ σi , mientras que al considerar µ
fijo estaríamos básicamente en el caso del ejemplo 3.1, obteniendo ( ) 12| C ( )−π σ µ ∝ σ µ .
Por tanto, la distribución a priori conjunta que proponemos en este modelo es