Exposición general e indicaciones para el uso de la distribución lognormal por F. AZ^RIN y M. J. PALACIOS Departamento de Estadística. Facultad de Ciencias Unlversidad Autónoma de Madrid o. INTRODUCCION En diferentes campos de aplicación se hace uso de distribuciones asimétricas con fines de análisis, ajuste, inferencia y predicción; así, en la etapa de elección de modelo representativo o especificación de un sistema estocástico cuyos resulta- dos aparecen más o menos asimétricamente distribuidos, suelen aonsiderarse como posibles candidatos las funciones de d^ensida^d gamma, beta, de Pareto, normal truncada, lognormal y otras. Entre éstas tiene especial interés la lognormal o logarítmico-normal por la sencillez y fácil interpretación del esquema aleatorio que puede originarla y por las propiedades que la caracterizan. Su empleo se ha extendido considerablemente, a lo que, sin duda, ha contribuido la obra monogró,fica de^ Aitchison y 8rown (1957) y su utilidad práctica en aplica- ciones muy diversas: biológicas, económicas, geológicas (estud^io de partículas, concentración en depósitos, espesores de capas, etc.). Pvr ello creemos de interés la presentación sistematizada de los principales ele- mentos que requiere su utilización, para facilitar el trabajo de los interesados en sus posibilidades y limitaciones. 1. DISTRIBUGION LOGNORMAL DE DOS PARAMETROS Se dice que una variable aleatoria tiene distribució^n lognormal o logarítmico- normal cuando su transformada logarítmica (o, rnás generalmente, la transforma- ción lflgarítmica de una transformación lineal de la variable original) tiene una distribución normal. En el caso más simple, que es el que se considera en este apartadb, se dice que la variable X es logn^ormal si la función de densidad de su transformada logarítmica Y! log X, es la normal N(«, a-):
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Exposición general e indicaciones para el usode la distribución lognormal
por F. AZ^RIN y M. J. PALACIOS
Departamento de Estadística. Facultad de CienciasUnlversidad Autónoma de Madrid
o. INTRODUCCION
En diferentes campos de aplicación se hace uso de distribuciones asimétricas
con fines de análisis, ajuste, inferencia y predicción; así, en la etapa de elección
de modelo representativo o especificación de un sistema estocástico cuyos resulta-
dos aparecen más o menos asimétricamente distribuidos, suelen aonsiderarse como
posibles candidatos las funciones de d^ensida^d gamma, beta, de Pareto, normal
truncada, lognormal y otras. Entre éstas tiene especial interés la lognormal o
logarítmico-normal por la sencillez y fácil interpretación del esquema aleatorio
que puede originarla y por las propiedades que la caracterizan.
Su empleo se ha extendido considerablemente, a lo que, sin duda, ha contribuido
la obra monogró,fica de^ Aitchison y 8rown (1957) y su utilidad práctica en aplica-
ciones muy diversas: biológicas, económicas, geológicas (estud^io de partículas,
concentración en depósitos, espesores de capas, etc.).
Pvr ello creemos de interés la presentación sistematizada de los principales ele-
mentos que requiere su utilización, para facilitar el trabajo de los interesados en
sus posibilidades y limitaciones.
1. DISTRIBUGION LOGNORMAL DE DOS PARAMETROS
Se dice que una variable aleatoria tiene distribució^n lognormal o logarítmico-
normal cuando su transformada logarítmica (o, rnás generalmente, la transforma-
ción lflgarítmica de una transformación lineal de la variable original) tiene una
distribución normal. En el caso más simple, que es el que se considera en este
apartadb, se dice que la variable X es logn^ormal si la función de densidad de su
transformada logarítmica Y! log X, es la normal N(«, a-):
8 BSTADISTIGA E.SPAlYO].A
1-. exp (- ^y -- ac)^/2 cr^ para y E(- oo, vc^ [ i.il
cr ti1 2 rr
Aunque en las aplicaciones prácticas se supone el logaritmo decimal, para los
A continua^ción se indican las características de una distribución lognormal, en
la que el logaritmo se ha considerado con base decimal; los 9ímb41os se corres-poncien con las antes empleados:
[2.51
3. EST"IMACI4N Y AJIJSTE
[2.61
[ 2.? )
[2.81
[2.9)
[Z.io^
La media rnuestral, esto es, la media de las observaciones obtenidas con unamuestra aleatoria simple es un estimador insesgado de la media teórica de la
variable en estudio en la población de procedencia. Designando por X esta varia-ble, el estimador insesgado de la media ser^á
_ ^ xt^ni=2, n
y el de la varianza cTx
[3.11
^ _ ^i ^xt - a^^^^ln, -- 1^ [3.21f^l, tt
La pmpiedad de ins^esgamiento se verifica cualquiera que sea la distribuciónde origen; si además hay fundamento para especificar determinada distribución,puede ocurrir que otros estimadores, insesgados o no, tengan propiedades que loshagan preferibles a los antes indicados. Por ejemplo, si la distribución de p^roce-dencia es lognormal, los estimadore^ obtenidos indirectamente a partir d^e los loga-ritmos de las observaciones son m^s precisos en el sentido de que tienen menorvarianza en el muestreo.
La media y la cuasivarianza de los logaritmfls de las observaciones son:
á„ _ ^ log x,^n [3.31tal. w
EXPOSICION GENE^i.AL E INDICACIONES PARA EL USO DB LA DISTRIBUCION IAG NORMAL 8
ó-y = ^ (log xi -- x^}2^(rL - 1^ [3.41
Estas^ expresiones son, por tanto, estimadores insesgados en la distríbución de
los logaritmos; sin embargo, debido a las relaciones [ 2.3 ] y[ 2.41 sus antilogarit-
m^os no serán estimadores insesgados de la variable original, empleándose como
estimadores en esta distribución (Aitchison y Brown y Koch y L.ink) los siguientes:
con ni observa^ciones en dicha clas^e, se puede tomar como estimador de la media
de los logaritmos :
][° 3.7z _ ^,^ ni
i=1, m
en donde log ° x= designa la marca de clase del intervalo i-ésimo. Análogamente,
el estimador de la varianza
^^ ni (2,30258, . . ., logó x1- ^)'^é^I,m
^ry ^ [ 3.81,^ ni - 1
i.--1, m
La elección entre los métodos de estima^cián indicados, y otros posibles, depende
de las propiedades d^e los estimadores correspondientes^ y de las facilidades de
cálculo. Y las propiedades dependen, a su vez, de la distribución de origen y del
procedimiento de muestreo. Por ejemplo, la eficiencia de la media directa, á, de
las ob^servaciones disminuye en forma conocid^a, según demostró Finney (1941), al
aumentar el coeficiente de variación de la distribución Iognormal. Esta eflciencia,
que es del 100 por l00 para S= 0, pasa a s^er del 90 por 100 para ^= 1,2, menor
del ?5 por 100 para ^= 2 y menor del 60 por 100 para ^= 3. Por otra parte, los
estimadores c^ , c^^ pueden tener sesgos si la distribución de p^rocedencia no es,
como se ha supuesto, lognormal, lo que n^o justificaría la mayor complicación de
cálculo en los casos de especificación más dudosa.
Pueden vers^e varaios métodbs de estimación y aj uste y comparacic^n de resulta-
dos en Aitchison y Brown y en Koch y Link; los primeros recorniendan, para
2,30258, . . ., ^ n^ logt^ x^í -^ 1. ^n
^,.
l0 B.SiTADISTICA ESPAÑOLA
rnuestras gra.ndes, una estimación por cuantilas, por su sencillez de cz^.lculo y
porque su eflciencia puede superar al SO por l00 del estimador más eficiente. Las
relaciones entre cuantilas dan para las simétricas del mis^rno orden: log ^rr^,, x=
- Q-- k^ ^r y logl ^r,^,,,^ ^ a^ + k,^ cr, donde ky es la consiante asociada a Ia cuan-
tila en la distribución de I'; por consiguiente, desígnando por pr,^ las cuantilas
observad^as
10$' pr^i. ^ + ^Og pl-r/s. ^c•2 -
2
log p^-r^,.: - log prr.. ^
generalmente se utilizan las cuartillas prirnera y tercera aunque se consigue mayor
eficiencia con las p, ,^, y A^^,^,.
4. APLICACIONES DEL PAPEL PROBABILISTICO A LA DISTRIBUCION
LQGNORMAL (3)
Si X es una variable aleatoria lognormal, L(x, ^-), su función de distribución,
F (x), puede escríbírse:
log x -- aF (x^ _` c^ ^-
[4.11
en donde ^ es la función de distribución de la N(o,l). Por tanto, si se hace la
transformacidn
^ ^ log x , ^^ _ ^-^ [F (x)^ [4.21
la curva [4.11 se transforma en la recta
t4.3]
El papel probabilístico correspondiente al sistema (^, ►^) se llama normal-logarít-
mico o gausso-logarítrnico y consta de :
1. Un eje, el de abscisas, construido a escala logarítmica y con doble escala indi-
cativa; Ia aritmética, correspondiente a los logaritmos y la de los antilogaritmos
(véa,se p. 23).
2. Un e ĵe de ordenadas aritmético en >> _^^-1 [ F(x):) y también con d^oble esca-
la, la segunda correspondiente a F(x^ _^(rj).
(3) Varios ejeniplos de aplicación del papel pr^babilístico a problemas relacionados con la dis-1.ríbucíán Iognormal pueden v^srse en G. CAr.aT (pp. 193 y ss.) y Kocx y LiNK (pp. 23? y as.).
EXPOSICION GENERAL E INDICACIONES PARA EI. USO DE LA DISTRIBUCION IAGNORMAt lI
Un papel de este tipo se incluye en la p^.gina 23. En él está^n señalizados en un
eje los antilogaritmos decimales, aunque para fle^ibilidad de representacián sólo
se indican los dígitos 1, 2, 3, ..., 9, repetidos con ia periodicidad adecuada, lo
que permite representaciones, según los casos, de números del 0,5 aI 20 o del 5 aI 200,
etcétera; el eje vertica^ contiene también dos escalas, una correspondiente a
100 F tx) y otra, aritmética en crr^ (4).
Qr^ EXAbIEN DE LA HIPÓTE.SIS DE LOGNORMALIDAD
Dada una distribución empírica xI, x.,, ..., x,^, con frecuencias relativas n,/N, ...,
n^/N, N- ^ nt sru representacián en papel gausso-logar-ftmico se hará por losf-1, k
puntos (x^, F^), i= i, k, donde Fr .- ^+... + n{ .N
Si la d^istribución está agrupada en intervalos a^ --- a,, aI -- a y, ..., a,^_ 1 -- a,^, confrecuencias r^f/N, los puntos a representar seré.n (ai, Fi), i- 1, h, donde, como en eIcaso anterior, F{ - F (a{).
Si los puntos así representados se alinean sensiblemente, según una recta quesería la ^=(,^ -- a)/o-, se podrá aceptar con este criterio gráfico que la distribuciónempírica es lognormai y sus pará,metros podr^.n estimarse como a continuación seindica.
b) ESTIMACIÓN DS a T cr
i. Puesto que a es la abs^cisa, en la escala aritrnética, del punto de corte de larecta [4.31 con el eje de abscisas, ya que F(x) ^ 0,5 y, por tanto, ^= x, resulta quesi x* es el punto que indica esta intersección, será «^ log x*.
2. Análogamente, F(x) ^ 0,9772. ., si y sólo si ^._- a+ 2 ^; por tanto, si x* * es
el correspondiente valor, será cr ^(1 /2) log (x* */x*), siendo x* y x** tales que
F(x*) ^ lJ,5 y F(x**^ - 0,9772...
Como dice G. Calot, es ►tas estimaciones pueden ser más precisas que las analíti-
cas por no estar afectadas del error d^ agrupamiento en clases; sin embargo, hay
que tener en cuenta que ajustar una recta a los puntos (a,, F^), i.- 1, h, también
puede conllevar un error subj etivo.
C) C^BSERVACIONES SOIIRE LOS INTERVALOS DE PROBABILIDAD PREPTJADA
Es conocido que en Ia distribución N(^► , c^) los intervalos de la forma (« f h a-)
con ^, = 0,68, 1,96, 2,58, 3,29, son importantes en cuanto que son centradas en media
y aontienen, respectivamente, el 50 por 10^0, 95 por 100, 99 por 100, 99,9 por 100 de la
distribución. Ahora bien, se quiere hacer notar que los correspondientss intervalos
í4) Dicho papel contiene, además, líneas verticales equidistantes que pueden utilizarse comolas marcas de clase de una distribución agrupada en intervalos; ello corr?sponde a tomar en ladistribución de los logaritmos clases de amplitud constante (de tamaño múltiplos decimales de0,125 en este papel). En ol ejemplo de la p. 23 no se ha, tenido en cuenta esta posibilidad.
12 BSTADISTICA ESPAÑOLA
para la distribución lognormal serán exp (x --,^ cr), exp {^ -^t ^r) y, por tanto, no
centrados en media ni ta.n siquiera en mediana.Por otra parte, si X es L(a, cr}, entonces el valor x^. tal que P (X > xt) - E puede
obtenerse para e^ 1/2, de xe - exp (ac + crh,^), siendo ^.^ tal que:
^^ -^^ 114. 2^3^^, aC !^2/4^ x I l\^ 114, x+^^(4. x- 2^`^14, r^[7.7^
Esta última expresián tiene interés, ya que permite una aproximación no dema-
siado complicada, además de ser la única analítica, del tercer parámetro de ladistrik^ución lognorznal.
En cuanto al empleo de la distribución lognorrnal de tres par^,metros en algu-
nas aplicacivnes concretas, deben tomarse especiales precauciones por las dificul-
tades en estimar ^3 cuando la muestra es pequeña. En general, una subestimación
de ^ Ileva a varios sesgos en la estimación de la media (Koch y Link), pero s^u
sobreestimación puede dar lugar a límites de confianza demasiado próximos, por
ser demasiado pequeña la varianza de los logaritmos.
8. ACEPTACION O RECHAZO DE LA HIPOTESIS DE LOGNORMI^LIDAD CON
PAPEL PROBABILISTICO
De forma, análoga al caso de la d^istrib^ución lognormal de dos pará,metros, sepuede examinar gráficamente la lognormalidad en una distribución de tres pará-metros; puesto que si X es una variable aleatoria L(^(^, x, rr) tiene función de dis-tribución
F (x) _ ^^ [(log (x - ^^) -- ^)/tT J [8.1 ]
resulta que, según que ^(3 sea conocido o no, se podrá realizar una transformación
sobre el sistema de coordenadas para que la curva 18.1 ] se convierta o no en
una recta.
F:JCPOSICION GSNF:^RAL E INDICACIONES PARA EI. USO DE LA DISTRIBUGION IAGNORMAL
a) Si ^ es conc^cicia.--En un sistema caordena^do (^, r^) donde
y,^ -^^ -^ 1 ( F(x) ], la curva t 8.11 se transf orma en la recta
^-^C8.21
y se mantienen ias consideraciones de la sección 4, con sólo repres^entar los pun-
tos x^ -- ^3 (h = 1, n) en el eje de abscisas. Resultando como estimación de z y cr,
respectivamente:
^ĉ .- log x* = log (x' - ,,^)
siendo x' tal que F(x') --= 1/2.
1 x* * 1 x" --- ^3c.^- - log = log
2 x* 2 x'-^
siendo x" tal que F(ac"^ - 0,9??2...
E1 intervalo [ f3 -1- exp (a -^la-), ^3 + exp (u +^cr)] corresponderá al (« t Ac^-) de la
normal y el valor xg -^3 -{- exp (^ -}- o-^2F) será tal que P(X > xE) .= e.
b) Si /3 es desconacida.--En este caso caben dos posibilidades. Realizar una
estimación analítica del tipo indicado en la sección 7, o bien tratar de encontrar
una estimación gráfica como a continuación se establece.
A1 ser ^ desconocido, la transforma^ción a hacer será ^.^ Iog x y f1 =^-1 [ F(x) ],
con Io que la curva [8.11 se transformará en la
log (exp ^ - ^C3) -- x
a~
A continuación se estudia esta curva distinguiendo que /3 sea pos^itivo o negativo:
1. /3 > 0. La, curva existe para todo valor ^> log /3, siendo ^= log ^f3 y
` a,= ^! asintotas vertical y oblicua, respectfvamente.J
^r
15
= log (x - ^3)
FIGURA 1 FIGURA 2
16 LSTADISTICA ESPAÑOL^►
^. /; ^ o. La curva tendrá existencia para todo valor positivo de ^, siendof^ _. ^ lag (- ^,') - ^^/cr y ,^ _ (^ - =)/^T asintotas horizontal y oblicua.
En cualqu:era de los dos casos, sea (0, r^^) un punto arbitrario del eje y sean(^,, ^^^,) y(^2, .►1u) los puntos correspondientes en la asíntota oblicua y en la curva;entonces:
^1 = ^ -^ ar t]n
ahora,
y ^^ = log ^ IQ + exp ( x+ cr r^c► ) ^
,^ ^= log x' y ^,^ = log x"
por tanto:
,^ -- x" - x^
y ésta será una forma de estimación de ,^3 (véanse figuras 1 y 2).E1 problema práctico consiste en determinar la asíntota oblicua; ello puede
hacerse eligiendo una recta tal que la desviación horizontal entre la curva y ella
se mantenga, aproximadamente, conytante cuando es medida en antiiogaritmos, y
comprobando después que ŝ = log /3 0^^ _[log (- ^3) - x^/^- es asfntota vertical u
horizontal, respectivamente, para ^3 > 0 0^3 < 0 t5).
9. EXTENSI(JN A LA DISTRIBUCION LOGNORMAL DE CUATRC^ O CINCO
PARA1ViETR05 Y A LA DE ASIMETRIA NE(^ATIVA
Si en lugar de las transformaciones de las secciones 1 y 7 se efectúa la más
general :
y = ^s + ^^ log (x ""' ^1) [ 9.11
que se reduce a la de tres parámetros cuando R3 = 0 y^.3^ = 1, y a Ia de dos cuandoadem^ís ^3^ ^ ^, se tiene la función de densidad de la variable aleatoria X:
f (x1 .- ^a e X j 3+ 3,, 1 o x- -^^ 2 v-'' x^ (/^► ^ao jl I p^ l,^ 3 ^. g( ^1) ^/ , lNl^ I
cr ^/ 2 ^t (x - %31^
con cinco parámetros: L (a, ^, ^1, ^2, ^3'3).Para la de cuatro (^33 - 4) se verifica para la función generatriz de momentos:
r r 1 r r^^ ry ^^•' -' ^ ►-, x - (1) 1^1 ^,^-1. .r + . . . -}- - ) ^Q i
y, por tanta, la media
xi.x = I^ji + exp [(x -^- crl/2)/l^•.^
(5) Véase nota (3) de la aección 4.
E3LFOSIGION GENERAL Ir INDICACIONES PARA EL USO DE LA DiSTRIBUGION LAGNOR!tiiAL 1^
según lo cual la distribución asintótica de X, es la lognormal.
11. ALGUNAS APLICACIONES ESPECIFICAS DE LA DISTRIBUCION
LOGNORMAL
Ya se han mencionado en las secciones anteriores algunas aplicaciones de la
distribución lognormal, y en la blbllografla se hace referencia a obras que^ tratan
con detalle algunos cas^os pr^cticos. Aplicaciones geolágicas pueden verse en las
de Agterberg y en las de Koch y Link. En esta última se dedica amplia exten-
sión (cap. 1s) a esta distribución en relación con datos procedentes de minas de
oro en Africa del Sur. Los problemas de muestreo, ensayos, prospección y deci-
sión sobre explotación de yacimientos relativos al oro pueden extenderse en mu-
chas casos a otros elementos, así como a aplicaciones no geológicas.
Una característica que se pone de manifiesto en el caso del oro es que el coefl-
ciente de variación es muy alto (la tabla 16.1 de Koch y Link da valores desde
0,33 a 5,10 donde la mayor parte superan 1,2, lo que apoya la transformación lo-
garítmica). Las distribuc^ones estudiadas se presentan en intervalos de clase de
amplitud 5, desde (0,5) a(82a0, 625) y frecuencias absolutas que configuran una
distribución muy asimétrica, adernás de tener val^ores muy inferiores a 10 a partir
del intervalo (55, 60) (6). Por otra parte, la distribución espacial es muy irregular,
y un gran número de observaciones pueden tener gran efecto en las estimaciones
de medias y varianzas. Esto plantea problernas de exploración y muestreo de
gran interés, pero que no corresponde ahora considerar. Conviene insistir en que
la transfarmacián logarítmica de dos parámetros aplicada a estos datos no es siem-
pre la mejor entre las distribuciones asimétricas. Además de la distribución log-
normal de tres pará,metros, que supone sumar una constante a todos los datos,
pueden ajustarse otras distribuciones asimétricas como las mencionadas en la
sección 1.
(s) Como el contenido de oro de las menas suele ser pequeño, los valor3s de la variable empleadasa expresan en dwt/short ton (el significado es dwt ^ penny weight); un depósito con una onza deoro por ton^slada contiene 34 partes de oro por un millón, esto es 34 gramos por tonelada métricao ^,0034 por i0o de oro. En muchas minas se trabaja con grados de cinco a diez partes de oropor miilón (KocH y LINK, vol. 2, p. 385).
(e) En el resto de la sección ts utilizarán los mismos sfmbolos para los parámetros reales y susestimadores.
(9) Estas expresiones se corresponden, respectivament^, con las i7.1 y t7.51, pero utilizadas aquíen el caso de logaritmo decimal en la trarisforrnacibn.
EXPOS3GION GENERAL E INDIGACIONES PARA EL USO DE LA DISTRIBUCION LoGNORMAL 2i
2. Estimación en la distribución asociada por transformación logarítmica decimal
^^ CARACTERÍSTICAS DE LA DIST^IBUCIóN ASOCIADA
De acuerdo a lo expuesto en la seccidn 3, y adrnitiendo que ^3 =-- 39,5003, debe-
rá considerarse la distribución empfrica de intervalos de clase: log (ak_1 + 39,5003) --
- log (ak -}- 39,5003}, y efectivos nk (k .- 1,11). Los estimadores de la media y va-rianza resultan ser, de acuerda a las expresiones t3.71 y[3.81 consideradas en el
caso de logaritmo decimal:
x= 2,44041g699 y a-'-' = 0,11436995395
con lo que
r^ = 0,338186 y b= 0,13857726
Ŭ ^ CARACTERÍSTICAS DE LA DISTRIBUCIÓN ORIGINAL
A partir del apartado anterior se pueden obtener las características de esta
distribución utilizando las expresiones [ 7.1 l y[ 7.21 para logaritmo decimal:
3. Estimaci^ón mediante el uso de papel probabilistico
Según lo expuesto en la sección 8, puede procederse de dos formas:
Cl^ SUPUESTO ^Q DESCONOCIDO
Representando en papel probabilístico los puntos (ak, F^ = ni --{- n^ -}- n3 -}- ... + r^k)
con h = 1,11 se obtiene una curva del tipo de la figura 2 y+que se representa con
trazo discontinuo en el papel probabilístico (p. 23. Si éste hubiera sido el primer
contacto establecido con la distribución que nos ocupa habría llevado a suponerque era ajustable por una lognormal de tres par^,metros cuyfl tercer parámetro
sería negativo; en ese caso hubiese sido conveniente estimarlo conforme se hahecho . arriba. _
22 BS T'A.t1I 9 TI CA BsPA ĤOL^A
tJ! SUPUESTO ^,3 DADl7
Admitimos que la distribuci^n ®n caso de ser lognormal tendrá parámetro
AGT"ERHERG, F. P. (19?4} : Geom^ath,ematics ( Elsevier) ,
Ai^^soN, J., y BROwrr, J. (1957}: T'he Lo^gncw-mal Distributi+c^n (Cambridge UniversityPress).
CAiAT, G. (1974} : C u rso de es tad ís tica desarip t ivp. i Faraninfo ).
CRA^x, H. (1g48}: Mathematiaai Method's of Statisti^cs. (Traducción española en ^d.Aguflar.}
Frxx^, D. J. t 1941) :•^On the distribution of a variable whose logarithm is no^r^mallydistributed-. Journal Roy. Stat. So^c., vol. 17, núm. 2, p. 155.
KENDALL, M. ..C^^. (1943 y ss.): The Advrxnced Theory of Sta^tistics (Griffinl.
Kocx, G., y Lrxx, R. F. (19741: Statistical Analysis of G^alragicat I^ata (J. Wiley).