Teoría de Muestras e Inferenciaasignaturas.topografia.upm.es/matematicas/Metodos/Apuntes/Inferen... · Los principios estadísticos son independientes de la materia en la que se

Teoría de Muestras e Inferencia

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.

1

1

TEORÍA DE MUESTRAS E INFERENCIA

1. Población y muestra

2. Métodos de muestreo

3. Distribuciones asociadas al proceso de muestreo

3.1 Distribución de la media de una población normal

3.2 Distribución de la varianza

4. Estimación

4.1. Estimación puntual. Propiedades

4.2. Obtención de estimadores

4.2.1. Método de los momentos

4.2.2. Método de máxima verosimilitud

4.2.3. Método de los mínimos cuadrados

4.3. Estimación por intervalo

Intervalo de confianza para la media

Intervalo de confianza para la varianza



2

2

TEORÍA DE MUESTRAS E INFERENCIA

Es un hecho reconocido que la Estadística es necesaria en todos los campos

donde se avance en investigación.

Los principios estadísticos son independientes de la materia en la que se apliquen;

los principios son generales aunque las técnicas pueden ser distintas.

Se hace ciencia cuando el estudio se ocupa de la observación y clasificación de los

hechos. Estadística es la ciencia de los datos. Los datos o hechos numéricos son

esenciales para tomar decisiones en casi todas las áreas de nuestra vida.

Por ejemplo, llevar paraguas depende de la probabilidad de lluvia. Si observamos

que las medidas de una mujer son 90-60-90, esto significa que esa persona tiene unas

proporciones que se consideran perfectas.

En una empresa se manejan muchos datos sobre ventas, inventarios, personal,

gastos, clientes, equipos, etc. Todos estos datos han de ser interpretados de alguna

forma, tarea que requiere presentar los números de manera que su mensaje aparezca

claramente.

Para poder usar los datos con fines concretos debemos resumirlos y

describirlos; esta tarea corresponde a la estadística descriptiva. El análisis de los datos

combina resúmenes numéricos con representaciones gráficas.

Imaginemos que asistimos a una partida de dados: primeramente observamos el

desarrollo de la partida y anotamos los resultados (estadística descriptiva), como

sabemos que con dos dados el resultado más probable es 7 (estadística matemática) y

tomaremos la decisión de jugar o no dependiendo de la comparación de los resultados

(inferencia estadística).

En la estadística descriptiva se ven cosas pero no se pueden probar de una

manera formal. La estadística descriptiva y la estadística matemática son

complementarias.



3

3

El análisis de datos requiere una colaboración dinámica entre el especialista en el

asunto (el que posee los datos) y estadístico (el que los analiza).

El primer paso en un análisis de datos es su inspección, familiarizarse con los

datos y encontrar características extraordinarias. El siguiente paso es la comparación:

comparar datos y comparar modelos. Por último, la interpretación. Muy a menudo el ciclo

entero comienza de nuevo.

La formulación de una hipótesis lógica, sometida a prueba por métodos

experimentales y la evaluación objetiva de dicha hipótesis en base a los resultados

experimentales, constituyen los puntos esenciales del método científico, que empleamos

en estadística.

1. POBLACIÓN Y MUESTRA

Si deseamos conocer alguna característica de una población podríamos observar

dicha característica en todos los miembros de la población y estudiar esos datos con los

métodos de “Estadística Descriptiva”. Esta operación es lo que se denomina censo de

una población. A veces es imprescindible un censo: cuando se necesita información para

cada uno de los individuos de la población, como por ejemplo para hacer el censo

electoral.

Pero en muchos casos un censo resulta imposible por alguna de las siguientes

causas:

• El costo de la observación para toda la población resulta muy elevado.

• Se quieren los resultados en un corto plazo de tiempo, que cuando la población es muy

grande no resulta posible.

• Que el procedimiento de observación sea destructivo, como por ejemplo, estudiar la

duración de unas bombillas o la resistencia de unas barras de acero.



4

4

En estos casos se hace necesario reducir el estudio a una parte de la población

que llamaremos muestra y a partir de la información obtenida tratar de deducir las

características de toda la población. Este proceso recibe el nombre de inferencia.

Las ventajas de estudiar una muestra, además del costo reducido y la gran

rapidez, es que se puede hacer con personal más especializado y establecer mejores

controles, lo que permite reducir muchos errores en la toma de datos.

La limitación principal de trabajar con una muestra es que no obtendremos las

características de la población con exactitud, sino que al hacer la inferencia cometemos

unos errores llamados de muestreo, aunque esos errores se pueden medir y controlar.

Todos estamos acostumbrados a hacer inferencias continuas. así, por ejemplo,

juzgamos a un canal de televisión por unos cuantos programas que vemos; a la E.M.T.

por dos autobuses que cogemos al día; o a un político por alguna de sus actuaciones que

conocemos. En la mayoría de los casos nos basamos en muestras pequeñas y poco

representativas.

Para que la inferencia sea “buena”, la muestra deberá ser representativa de toda la

población. Al proceso de elección de una muestra se denomina muestreo.

2. MÉTODOS DE MUESTREO

Muestreo aleatorio simple

Se caracteriza porque todos los elementos de la población tienen la misma

probabilidad de ser elegidos. El procedimiento práctico de escoger la muestra, puede ser

numerar los elementos de la población, apuntar los números en tarjetas, y sacarlas al

azar. Si la muestra y la población son grandes, en vez de tarjetas se utilizan tablas de

números aleatorios.

Este muestreo puede ser:



5

5

• Con reemplazamiento: se elige un elemento de la población, se estudia y se reintegra

a la población. Así sucesivamente, la probabilidad de obtener cualquier elemento se

mantiene constante, interesa para que los elementos de la muestra sean independientes.

• Sin reemplazamiento: los elementos elegidos en la muestra no se restituyen en la

población. La probabilidad de obtener un elemento va aumentado al disminuir los

elementos posibles.

Muestreo aleatorio estratificado

Cuando la población objeto de estudio se puede dividir en distintas categorías,

clases o extractos, en definitiva, en varias subpoblaciones, atendiendo a alguna

característica común.

Muestreo por conglomerado

Por este método, lo que se elige al azar no son unos cuantos elementos de la

población, sino unos grupos de elementos de la población previamente formados.

Elegidos estos grupos o conglomerados, se pasa posteriormente a la elección, también al

azar de los elementos que han de ser observados dentro de cada conglomerado.

3. DISTRIBUCIONES ASOCIADAS AL PROCESO DE MUESTREO.

Puesto que los elementos que integran una muestra son elegidos aleatoriamente

es evidente el hecho de que las medidas o características son variables aleatorias.

Ahora se nos plantea las siguientes cuestiones:

• ¿Qué función de distribución asociar a la variable aleatoria?

• ¿De qué forma podemos investigar cómo se adapta la función de distribución elegida a

las observaciones?

• Como esta función de distribución tiene en general unos parámetros, tales como media

y varianza en el caso de la distribución normal. ¿Qué podemos deducir sobre los

parámetros de la información contenida en la muestra?

• ¿Qué incertidumbre tiene nuestra información sobre los parámetros?

Iremos viendo como contestar a estas cuestiones. Primeramente, una vez obtenida

la muestra hay que realizar la inferencia sobre la población. Puede ser:



6

6

Inferencia no paramétrica: se desconoce el tipo de distribución que sigue la distribución.

Inferencia paramétrica: en este caso se supone conocida la distribución que sigue la

población, pero se desconocen sus parámetros. El problema es estimar el valor de dichos

parámetros.

Distribución de probabilidad de la población: partimos de una población en la

que una determinada característica sigue una distribución conocida F(x) que depende de

un parámetro θ (cualquier característica cuantitativa de la población). De la población

obtenemos una muestra de tamaño n, en la que la característica estudiada, toma los

valores x x xn1 2, ,..., . Obtenemos, pues n variables aleatorias independientes ξ ξ ξ1 2, ,..., n

que están idénticamente distribuidas como la variable aleatoria ξ que determina la

distribución de la población F(x).

Dada una muestra x x xn1 2, ,..., , se llama estadístico T a cualquier variable aleatoria

definida como una función de dicha muestra, T=T( x x xn1 2, ,..., ). Como las muestras

pueden ser distintas, para cada una de ellas se obtendrá una estimación distinta. Se

tiene, por tanto, que el estadístico ha de ser considerado también como una variable

aleatoria y tendrá su propia distribución de probabilidad.

Llamamos estimador del parámetro θ , y lo denotamos por θ∧

a cualquier función

de los valores de la muestra θ∧

= f( x x xn1 2, ,..., ) cuyo valor tomamos como valor del

parámetro. El estimador es una función que para cada muestra en concreto toma un valor

que llamamos estimación. Si para todas las muestras posibles calculásemos las

estimaciones a que dan lugar, tendríamos todos los posibles valores de θ∧

, con sus

respectivas probabilidades (que serían las probabilidades de elegir cada muestra en

concreto). Así pues, un estimador θ∧

es una variable aleatoria con distribución de

probabilidad que se llama distribución en el muestreo del estimador.

Cuando un estadístico se utiliza para estimar el valor un determinado parámetro

θ de una variable aleatoria, entonces es un estimador de θ .



7

7

1 Ejemplo:

Supongamos una población formada por un conjunto de bolas de una caja, cada

una de las cuales lleva un número que puede ser un 0 ó 1. Desconocemos la proporción

de bolas p marcadas con un uno. La distribución de probabilidad de la variable aleatoria

discreta X: “número pintado en cada bola de la caja”

xi P(X=xi)

0 1-p

1 p

Supongamos que tomamos una muestra de tamaño n=2 para estimar p: (X1,X2)

tendremos dos variables aleatorias con la misma distribución que la población, es decir,

que pueden tomar los valores 0 y 1 con probabilidades 1-p y p respectivamente. La

distribución de la media muestral 1 2X XX

2

+= se expresa en la siguiente tabla:

muestra ix iP(X x )=

(0,0) 0 (1-p)2

(0,1) ½ p(1-p)

(1,0) ½ (1-p)p

(1,1) 1 p2

( )( ) ( )2

1 2P(X 0) P(X 0)P(X 0) 1 p 1 p 1 p= = = = = − − = −

( ) ( ) ( )1 2 1 2

1P(X ) P(X 1)P(X 0) P(X 0)P(X 1) p 1 p 1 p p 2p 1 p

2= = = = + = = = − + − = −

21 2P(X 1) P(X 1)P(X 1) p= = = = =

Veremos en primer lugar las distribuciones en el muestreo de distintos

estimadores, después ciertas propiedades deseables de los estimadores, y métodos de

obtención de los mismos.



8

8

3.1 Distribución de la media de una población normal, cuando se conoce la

varianza:

Cada ξ i es una variable aleatoria con distribución normal,ξ µ σi N≡ ( , ) , la media

muestral será: ξξ ξ ξ

=+ + +1 2 ... n

n.

Si en una población cualquiera con media y varianza finita, se extraen muestras de

tamaño n, la media muestral, al ser suma de variables independientes tiende hacia una

distribución Nn

µσ

,

, según el Teorema Central del Límite, cuando n tiende a infinito.

En la práctica, tiene que ser n>30 si se conoce la varianza de la población, y n>100, si no

se conoce la varianza y hay que estimarla por la varianza muestral.

Veamos que: [ ]E ξ µ= y que [ ]Vn

ξσ

=2

En efecto:

[ ] [ ] [ ]( ) ( )E En n

E En n

nn

nξξ ξ ξ

ξ ξ µ µ µ µ=+ + +

= + + = + + = =

1 2

1

1 1 1...... ... . .

y además:

( )22 n2

1 ni2

i 1

... n. 1V E E E

n n n =

ξ + + ξ µ ξ = ξ −µ = − = ξ −µ = ∑

( )[ ] ( )( )[ ]n

.nn

1

n

1E2E

n

1 22

2

n

1i

22

n

ij

1iji

n

1i

2i2

σ=σ=σ=

µ−ξµ−ξ+µ−ξ= ∑∑∑=

<==

puesto que, ( )( )[ ] ( )[ ] ( )[ ]E E Ei j i jξ µ ξ µ ξ µ ξ µ− − = − −. =0 por ser independientes.

2 Ejemplo:

Sabiendo que los errores de observación de una determinada magnitud siguen una

distribución N(0,1.5), calcular:

a) Probabilidad de que al hacer una observación el error sea mayor que 0,5.



9

9

b) Probabilidad de que al hacer 9 observaciones de la misma magnitud, la media de esas

observaciones tenga un error mayor que 0,5.

c) Número de observaciones necesarias para que el error de la media sea menor que 0,5

con probabilidad 0,95.

Solución:

a) Sea ξ la observación que tiene la misma distribución que la población. Así pues:

( ) ( ) N(0,1.5)P 0,5 1 P 0,5 1 F (0,5) 1 0,630558 0,369442ξ > = − ξ ≤ = − = − =

DERIVE: 1 - NORMAL(0.5, 0, 1.5) = 0.3694413401

EXCEL: =1-DISTR.NORM(0,5;0;1,5;VERDADERO) 0,369441404

WOLFRAMALPHA: Probability x>0.5 normal distribution, mean=0,sd=1.5 0.369441

b) Sea ξ la media de las nueve observaciones. Sabemos que la distribución de ξ es

Nn

µσ

,

=N 0

15

9,

,

=N(0,0.5). Así pues:

( ) ( ) N(0,0.5)P 0,5 1 P 0,5 1 F (0,5) 1 0,8413 0,1587ξ > = − ξ ≤ = − = − =

DERIVE: 1 - NORMAL(0.5, 0, 0.5) = 0.1586552539

EXCEL: =1-DISTR.NORM(0,5;0;0,5;VERDADERO) 0,15865526

WOLFRAMALPHA: Probability x>0.5 normal distribution, mean=0,sd=0.5 0.158655

c) Nos dicen que ( )P ξ < 0 5, = 0,95. Pasando a una N(0,1), se tiene:

( )P P

n n

Pn

ξξ

η< =−

<−

= <

0 5

015

0 5 015 3

,,

,,

= 0,95, siendo )1,0(Nn/5,1

0≡

−ξ=η

Buscamos en las tablas de la N(0,1) un valor que deje a su izquierda una

probabilidad 0,95. Por consiguiente: n

31645= , y de aquí n = 24,35. Como el tamaño de

la muestra tiene que ser un número entero, tomaremos n = 25.

DERIVE:

⎛ ⎛ 1.5 ⎞ ⎞ #1: NSOLVE⎜NORMAL⎜0.5, 0, ⎯⎯⎯⎟ = 0.95, n, Real⎟ ⎝ ⎝ √n ⎠ ⎠ #2: n = 24.34988975

EXCEL: =DISTR.NORM.INV(0,95;0;1) 1,644853476

WOLFRAMALPHA: normal distribution, mean=0,sd=1 1,64485 (Percentil 95)

http://www.wolframalpha.com/input/?i=Probability+0.5%3Cx+normal+distribution%2C+mean%3D0%2C+sd%3D1.5

http://www.wolframalpha.com/input/?i=Probability+0.5%3Cx+normal+distribution%2C+mean%3D0%2C+sd%3D0.5

http://www.wolframalpha.com/input/?i=normal+distribution%2C+mean%3D0%2C+sd%3D1



10

10

3.2 Distribución de la varianza

Si consideramos ξ ξ1,..., n una muestra aleatoria simple de una población,

tendremos:

• ξξ

==∑ i

i

n

n1

que es la media muestral, y µ la media de la población.

• ( )σ ξ ξξ2

2

1

1= −

=∑n ii

n

que es la varianza, y por supuesto ( )22 E σ = ξ −µ la varianza de la

población

• ( )Sn i

i

n2

2

1

1

1=

−−

=∑ ξ ξ la cuasivarianza o varianza muestral

Debe observarse que no hemos hecho ninguna hipótesis de cuál sea la

distribución de probabilidad de la variable ξ .

Si la distribución de partida es N( , )µ σ , se tiene que:

( ) ( ) ( ) ( )n S nii

n

ii

n

− = − = − − −= =∑ ∑1 2 2

1

2 2

1

ξ ξ ξ µ ξ µ y dividiendo por σ 2

( )n Sn

n

i

i

ni

i

n

ii

n

n

−=

−

−−

=

−

−−

= − ≡ −= = =∑ ∑ ∑1 2

21

2 2

1

2

2

2

1

2 212

σξ µσ

ξ µσ

ξ µσ

ξ µσ

η η χ χ

puesto que ξ µ σξ µσ

ηii

iN N≡ ⇒−

= ≡( , ) ( , )01

y que ξ µ σ ξ µσ

η≡ ⇒−

= ≡Nn

n

N( , ) ( , )01 .

Parece lógico utilizar la propiedad aditiva de la distribución ji-cuadrado y concluir

que la distribución 2

2 2 2n 1 n 12

(n 1)S−

−≡ χ −χ = χ

σ. Resultado conocido como teorema de

FISHER. Por otra parte, puede demostrase que las variables aleatorias ξ y S2 son

independientes.



11

11

4. ESTIMACIÓN.

4.1. Estimación puntual. Propiedades.

Partimos de una población F x( ,θ ) con parámetro θ desconocido. Tomemos una

muestra ξ ξ1,..., n de esa población. Definimos una función de esos valores de la muestra

que llamamos estadístico con lo que pretendemos estimar el valor de θ . Para cada

muestra en concreto, el valor que toma el estimador es una estimación puntual del

parámetro θ .

Propiedades de los estimadores:

Son una serie de propiedades que son deseables que posean los estimadores. Las

principales son:

a) Insesgado o centrado

Un estimador θ∧

se llama insesgado cuando E θ θ∧= .

Por el contrario, un estimador es sesgado cuando E θ θ∧= + ( )b θ , donde ( )b θ es el

sesgo o error sistemático del estimador.

b) Consistente

Un estimador θ∧

es consistente, si al tomar como muestra toda la población, es

estimador toma el parámetro poblacional. Es decir, θ θ∧

= si n = N.

c) Eficiente

Cuando un parámetro θ se estima por θ∧

, al error que cometemos θ θ∧

−

2

se le

llama función de perdida. Nos interesa más conocer una medida del error de todas las

posibles estimaciones. Por ello, como θ∧

es una variable aleatoria una medida del error

será la E θ θ∧

−

2

que se llama función de riesgo R θ θ∧

, .



12

12

El estimador será tanto mejor cuanto menor sea la función de riesgo.

Si el estimador es centrado E θ θ∧= , la función de riesgo será: R θ θ

∧

, =

=E θ θ∧

−

2

= V(θ∧

). Por ello, un estimador que sea centrado será tanto mejor cuanto menor

sea su varianza.

A los estimadores insesgados de mínima varianza se les llama eficientes.

Error medio cuadrático

Un concepto interesante es el de error medio cuadrático (EMC). Si θ∧

es un

estimador de θ , se define: EMC θ θ θ∧ ∧

= −

E2

que representa la dispersión del

estimador respecto del parámetro.

Además, se tiene: 2

EMC V E∧ ∧ ∧ θ = θ + θ −θ

.

En efecto:

Sumando y restando E∧ θ

22

EMC E E E E∧ ∧ ∧ ∧ ∧ θ = θ−θ = θ− θ + θ −θ =

2 2

E E 2 E E E∧ ∧ ∧ ∧ ∧ ∧ = θ− θ + θ− θ θ −θ + θ −θ =

2 2

0

2

E E 2 E E E E

V E

∧ ∧ ∧ ∧ ∧ ∧

∧ ∧

θ− θ + θ −θ θ− θ + θ −θ =

= θ + θ −θ

Obsérvese que si θ∧

es centrado, EMC θ θ∧ ∧

=

V .



13

13

d) Suficiente

Este criterio es menos intuitivo y requiere un estudio más complejo, la idea es que

un estimador suficiente recoge toda la información que aporta la muestra para estimar el

parámetro.

e) Robusto

Se dice que un estimador es robusto si su distribución muestral no se ve

seriamente afectada por violaciones de las suposiciones. Son estimadores que funcionan

bien para distintas distribuciones teóricas, por ello son también llamados estimadores no

paramétricos.

Algunos estimadores importantes:

La media muestral que ya hemos calculado ξξ ξ ξ

=+ + +1 2 ... n

n es un estimador

insesgado, ya que [ ]E ξ µ= , consistente, eficiente, puesto que [ ]Vn

ξσ

=2

, y suficiente.

Estimador de la varianza de la población

Si consideramos ( )θ ξ ξ∧

=

= −∑1 2

1n ii

n

como estimador de la varianza, tenemos que:

E θ∧

= ( )En i

i

n1 2

1

ξ ξ−

=∑ = ( )E

n ii

n1 2

1

ξ µ µ ξ− + −

=∑ =

= ( ) ( )( ) ( )12

2 2

1nE i i

i

n

ξ µ ξ µ ξ µ µ ξ− − − − + −

=∑ =

= ( ) ( ) ( ) ( )12

2

1

2

11nE i i

i

n

i

n

i

n

ξ µ ξ µ ξ µ µ ξ− − − − + −

= ==∑ ∑∑ =

= ( ) ( ) ( )12

2 2 2

1nE n ni

i

n

ξ µ ξ µ µ ξ− − − + −

=∑ =

= ( ) ( )1 2 2

1nE ni

i

n

ξ µ ξ µ− − −

=∑ = ( ) ( )1 2

1

2

nE i

i

n

ξ µ ξ µ−

− −

=∑ =

1 22

nn

nσ

σ− = σ

σ22

−n

luego no

es centrado, puesto que [ ]E θ σ≠ 2 .



14

14

Sin embargo, la cuasivarianza muestral ( )Sn i

i

n2

2

1

1

1=

−−

=∑ ξ ξ es un estimador

insesgado de la varianza σ2 .

En efecto: [ ]E S2 = ( )En i

i

n1

1

2

1−−

=∑ ξ ξ = ( )1

1

2

1nE i

i

n

−−

=∑ ξ ξ = [ ]1

1nnE

−θ =

n

n −1σ

σ22

−

n = σ2

Debe observarse que no hemos hecho ninguna hipótesis de cual sea la

distribución de probabilidad de la variable ξ .

4.2. Obtención de estimadores

Hasta ahora hemos visto las propiedades que debe tener un estimador para

considerarlo aceptable. Vamos a ver cómo se obtienen esos estimadores, por principios

que no sean el de analogía.

4.2.1. Método de los momentos

Consiste en igualar momentos muestrales con los momentos de la variable

del mismo orden (momentos poblacionales). Se igualan tantos momentos como

parámetros desconocidos se tengan, de modo que el sistema de ecuaciones resultante

permita despejar los parámetros que se quieren estimar,

4.2.2. Método de máxima verosimilitud

Consiste en elegir el valor del parámetro que hace más probables (más

verosímiles) los valores obtenidos en la muestra.

Este método fue usado por Gauss en el caso especial de la distribución

Normal para justificar el método de los mínimos cuadrados y posteriormente desarrollado

por R. A. Fisher en sus aspectos esenciales.



15

15

Si tomamos una muestra ξ ξ ξ1 2, ,..., n de una población que depende de unos

parámetros 1 2 k, ,...,θ θ θ , sabemos que cada ξ i tiene la misma distribución que la

población: ( )i 1 2 kf x , , ,...,θ θ θ .

La probabilidad de que salga una muestra ξ ξ ξ1 2, ,..., n viene dada por:

( ) ( ) ( ) ( )n

1 1 2 k n 1 2 k i 1 2 k 1 n 1 2 ki 1

f x , , ,..., ...f x , , ,..., f x , , ,..., L x ,..., x , , ,...,=

θ θ θ θ θ θ = θ θ θ = θ θ θ∏ que es la

llamada función de verosimilitud.

La idea de este método es coger como estimadores los valores que hacen

máxima esta función, basándose en el principio lógico de suponer que los parámetros

toman los valores que hacen máxima la probabilidad de obtener cada muestra.

Es más cómodo manejar log L, y lo podemos hacer ya que los valores que

maximicen L, maximizan log L (por ser el logaritmo una función monótona creciente). En

la mayoría de los casos, basta con hallar los valores que anulan su derivada:∂∂θlogL

i

= 0 .

Estas ecuaciones que deben satisfacer los parámetros son las ecuaciones de máxima

verosimilitud.

Observación: El método de máxima verosimilitud no siempre produce estimadores

insesgados.

3 Ejemplo:

Si X1, X2,…,Xn constituyen una muestra aleatoria de tamaño n de una población

Normal con media µ y varianza σ2, hallar los estimadores conjuntos de máxima

verosimilitud de los dos parámetros.

Solución:

Puesto que la función de verosimilitud está dada por:

( ) ( )( )22

1

1

22 2

1

1, , ,

2=

− −µσ

=

∑ µ σ = µ σ = σ π

∏n

ii

nn x

ii

L f x e



16

16

La diferencial parcial de ( )( )2ln ,µ σL con respecto a � y � 2 e igualando a cero nos da:

( )( )( )

2

21 1

ln , 1 10

= =

∂ µ σ= −µ = ⇒µ =

∂µ σ ∑ ∑n n

i ii i

Lx x

n

( )( )( ) ( )

22 22

2 2 41 1

ln , 1 10

2 2 = =

∂ µ σ= − + −µ = ⇒ σ = −µ

∂σ σ σ ∑ ∑n n

i ii i

L n x xn

Obsérvese que se obtienen la media muestral X y la varianza V como estimadores de �

y � 2 respectivamente.

4.2.3. Método de los mínimos cuadrados

Supongamos una curva de ecuación ( )y g xi k= , , ,...,θ θ θ1 2 , que no será, en

general, una función de densidad. Si tenemos n>k valores de x, no es posible resolver el

sistema ( )y g xi k− =, , ,...,θ θ θ1 2 0 (i=1,...,n) para calcular θ θ θ1 2, ,..., k , ya que el sistema será

generalmente incompatible. El principio de mínimos cuadrados consiste en establecer

que la curva de ajuste es la que hace mínima la suma de cuadrados de los residuales:

( )( )min y g xi ki

n

−=∑ , , ,...,θ θ θ1 2

2

1

o sea, que los valores de los parámetros son las soluciones

de las ecuaciones:

( )( )∂∂θ

θ θ θj

i ki

n

y g x− ==∑ , , ,...,1 2

2

1

0 j=1,2,...,k

Estimación mínimo cuadrática de una magnitud directamente medida.

Si tenemos x xn1,..., medidas de una magnitud y sea θ el valor desconocido,

entonces el método de los mínimos cuadrados nos da la condición para la estimación de

θ : ( )min xii

n

−=∑ θ

2

1

( )∂∂θ

θxii

n

− ==∑ 2

1

0

( )− − ==∑2 0

1

xii

n

θ



17

17

x nii

n

− ==∑ θ 0

1

θ∧

=

= ∑1

1nxi

i

n

Resulta el mismo estimador que en el caso del método de máxima verosimilitud

para la media de una población normal; no debe olvidarse que, aunque los resultados

sean idénticos en su aspecto formal, se parte en uno y otro caso, de supuestos teóricos

completamente diferentes.

En el caso de la distribución normal los resultados de ambos métodos son

concordantes.

4.3. Estimación por intervalo

Hemos visto formas de obtener estimadores y propiedades de los mismos

considerando tan sólo la estimación puntual, según la cual la estimación de los

parámetros se resuelve mediante un punto o valor único. Aunque hayamos elegido el

mejor estimador es casi imposible, que el valor de la estimación coincida con el

parámetro, y no sabemos cuánto es el error cometido (aunque sepamos que es el

estimador de menor error, si es eficiente).

Por ello es conveniente acompañar toda estimación de un parámetro de un

intervalo θ θ∧ ∧

− +

h h1 2, y de una medida de la confianza para la media y varianza, y para

ello utilizaremos la distribución en el muestreo de los correspondientes estimadores.

Sea X una variable aleatoria cuya distribución depende de un parámetro

desconocido θ y sea x1, x2,…, xn una muestra aleatoria simple de X.

Fijado un nivel de confianza α−1 buscaremos dos estadísticos T1=T(x1,

x2,…,xn) y T2=T(x1, x2,…,xn) tales que el intervalo de confianza para θ con ese

nivel de confianza sea:



18

18

Ια ( )1 2 1 2h , h T ,T∧ ∧ = θ− θ+ =

de forma que ( ) 1 2P P(T T ) 1αθ∈Ι = ≤ θ ≤ = −α , siendo 0<α<1

• Intervalos de confianza para la media

a) Población normal con varianza conocida

Sabemos que ξ µσ

≡

N

n, , luego η

ξ µσ

=−

≡n

N( , )01 . Queremos calcular un

intervalo Ια de forma que la ( )P µ αα∈ = −Ι 1 .

A α se le llama nivel de significación y es la probabilidad de que el parámetro no

esté en el intervalo.

Buscaremos en la N(0,1) un valor z de forma que:

( )1 / 2 1 / 2P z N(0,1) z−α −α− ≤ ≤ = ( )1 / 2 1 / 2P z z 1−α −α− ≤ η ≤ = −α ( )1 / 2 1 / 2F(z ) P z 1 / 2−α −α⇒ = η ≤ = −α

Tenemos pues que:

1 / 2 1 / 2P z z 1n

−α −α

ξ −µ− ≤ ≤ = −α

σ

1 / 2 1 / 2P z z 1n n

−α −α

σ σ −ξ − ≤ −µ ≤ −ξ + = −α



19

19

1 / 2 1 / 2P z z 1n n

−α −α

σ σ ξ − ≤ µ ≤ ξ + = −α

como z,σ y n son conocidos, tenemos el intervalo 1 / 2 1 / 2z , zn n

α −α −α

σ σ Ι = ξ − ξ +

.

Antes de obtener la muestra concreta ξ es una variable aleatoria y por tanto tiene

sentido hablar de probabilidad. Una vez obtenida la muestra concreta ξ toma un valor

concreto X , y el intervalo también, entonces la media de la población puede estar o no

estar en el intervalo por lo que no tiene sentido hablar de probabilidad. Lo que ocurre es

que no sabemos si está o no, y tenemos un grado de confianza de 1− α de que

efectivamente esté. De ahí el nombre de intervalos de confianza.

El intervalo de confianza sería: 1 / 2X zn

−α

σ±

Los grados de confianza 1−α (frecuentemente expresada en tanto por ciento

equivalente) es la frecuencia relativa de veces que los intervalos de confianza contienen

el parámetro de la población, entendiendo que el proceso de estimación se repite un

número grande de veces.

Con frecuencia antes de tomar la muestra se nos plantea elegir el tamaño de la

misma para conseguir una precisión determinada (amplitud de intervalo) a un

determinado nivel de significación.



20

20

Supongamos que el error máximo que queremos admitir es ε . El intervalo será

( )µ ε µ ε− +, y con nivel de significación α , comparando con el intervalo obtenido,

tenemos que: 2

1 / 2 1 / 21 / 2

z zz n n

n−α −α

−α

σ σσ = ε ⇔ = ⇔ = ε ε

4 Ejemplo:

Observando las mediciones durante 10 días seleccionados al azar de un topógrafo,

obtenemos una media de 40. Suponiendo normalidad con varianza 16 en la distribución

de las mediciones diarias, hallar un intervalo de confianza para la media al 95%.

Solución:

Tenemos X 40;n 10; 4= = σ =

El intervalo de confianza sería: 1 / 2 1 / 2

4X z 40 z

n 10−α −α

σ± = ±

Para 1 0,95− =α en la N(0,1) tenemos que:

( ) ( )1 / 2 0,9751 0,95 1,96 0,975 1,96−< = − = ⇔ < = ⇒ =P Z z P Z zα α

DERIVE:

#1: NSOLVE(NORMAL(z, 0, 1) = 0.975, z, Real)

#2: z = 1.959963977


O directamente

=INTERVALO.CONFIANZA(0,05;4;10) 2,47917861

1 / 2X z 40 2,47917861 n

−α

σ± = ±

WOLFRAMALPHA: normal distribution, mean=0,sd=1 1.95996 (Percentil 97,5)

Resulta, 0,975

4 4I 40 z 40 1,96

10 10= ± = ± = ( )37.52,42.48 un intervalo de confianza para la

media poblacional al 95%.




21

21

b) Población cualquiera de varianza finita y muestras grandes

Sabemos que ξ µσ

≡Nn

( , ) . Razonando igual que antes, si la varianza es conocida

el intervalo será 1 / 2 1 / 2P z z 1n n

−α −α

σ σ ξ − ≤ µ ≤ ξ + = −α

para n>30.

Si la varianza es desconocida la estimamos por la cuasivarianza, y queda:

1 / 2 1 / 2

S SP z z 1

n n−α −α

ξ − ≤ µ ≤ ξ + = −α

para n>100 y el intervalo es 1 / 2

SX z

n−α± .

5 Ejemplo:

Para estudiar el número de pulsaciones por minuto de personas entre 20 y 30 años, se eligen 400 al azar, obteniéndose una media de 75 por minuto y una desviación típica de 9. Calcular: a) Intervalo de confianza del 95% del número medio de pulsaciones por minuto en dicha población. b) Tamaño de la muestra necesario para obtener el intervalo de confianza de la misma amplitud que el anterior y con nivel de confianza del 99%. Solución:

Por ser el tamaño de la muestra suficientemente grande podemos considerar N ,n

σ µ

El intervalo de confianza para una población normal es:

1 / 2X zn

−α

σ±

a) Para nuestros datos: X 75; S 9;n 400; 0.05= σ ≈ = = α =

Tenemos X

Z N(0,1)n

−µ= ≡σ

( ) ( )1 / 2 1 / 2 1 / 2 1 / 2P z Z z 1 1 0.05 0.95 F(z ) P Z z 0.975−α −α −α −α− < < = −α = − = ⇒ = < =

DERIVE:

#1: NSOLVE(NORMAL(z) = 0.975, z, Real)

#2: z = 1.959963962


O directamente

=INTERVALO.CONFIANZA(0,05;9;400) 0,88198379

1 / 2X z 75 0,88198379n

−α

σ± = ±

WOLFRAMALPHA: normal distribution, mean=0,sd=1 1.95996 (Percentil 97,5)




22

22

0.05

9 9I 75 1.96 ,75 1.96

400 400α=

⇒ = − + =

( )74.118,75.882

b) ( ) ( )1 / 2 1 / 2 1 / 2 1 / 2P z Z z 1 1 0.01 0.99 F(z ) P Z z 0.995−α −α −α −α− < < = −α = − = ⇒ = < =

DERIVE:

#1: NSOLVE(NORMAL(z) = 0.995, z, Real)

#2: z = 2.575829327


2 2

1 / 21 / 2

z 2,58 9z 0,88198379 n 693.1125238

0,88198379 0,88198379n−α

−α

⋅σσ ⋅ = ⇒ = = =

Por lo que el tamaño de la muestra será de 694.

c) Población normal con varianza desconocida.

Sabemos que ξ µσ−

≡n

N( , )01 y teniendo en cuenta que 2

2

( 1).n S−σ

(Teorema de

Fisher) se distribuye según una χn−12 . Por tanto, 1

2 212

(0,1)

1 1 11 1

n

n

Nn tS n n S

n n

−

−

ξ −µξ −µ σ= ≡ ≡

−χ

− σ −

, es

una t de Student con n-1 grados de libertad.

Obsérvese que cuando n tiende a infinito la t de Student se distribuye según

N(0,1). Por eso en la práctica la t de Student se utiliza para muestras pequeñas (cuando

n<30).

Buscaremos un valor tα tal que ( ) α−=<<− α−−α− 1tttP 2/11n2/1 .

( ) ( )n 1 1 / 2 1 / 2 n 1 1 / 2P t t 1 F(t ) P t t 1 / 2− −α −α − −α< = −α⇒ = ≤ = −α

y el correspondiente intervalo de confianza será:

( )1 / 2 1 / 2

nP t t 1

S−α −α

ξ −µ − < < = −α

1 / 2 1 / 2

S SP t t 1

n n−α −α

− < ξ −µ < = −α



23

23

1 / 2 1 / 2

S SP t t 1

n n−α −α

−ξ − < −µ < −ξ + = −α

1 / 2 1 / 2

S SP t t 1

n n−α −α

ξ − < µ < ξ + = −α

Para una muestra concreta: 1 / 2

SX t

n−α± y si queremos determinar el tamaño

muestral n, resulta 1 / 2

St

n−α = ε de donde

2

1 / 2t .Sn −α = ε

.

6 Ejemplo:

Sea una variable aleatoria ξ con distribución N(8,σ ) con σ desconocida. Se

obtiene una muestra aleatoria simple de tamaño 25. Calcular ( )P 8.3ξ > sabiendo que la

varianza muestra es 0.64.

Solución:

La distribución de ξ es N 8,25

σ

, pero al desconocer σ y ser la muestra

pequeña, tendremos que pasar a una distribución t de Student.

Sabemos que el estadístico S

n

ξ −µ sigue una distribución t de Student con n-1

grados de libertad. Así pues: 25 1

8t

0.825

−

ξ −= , ya que S2=0.64=0.82.

( )P ξ > 8 3. = ( )24

8 8.3 8P P t 1.875

0.8 0.825 25

ξ − − > = > =

0.036.

DERIVE: 1 - STUDENT(1.875, 24) = 0.03650631929

EXCEL: =DISTR.T(1,875;24;1) 0,036506

WOLFRAMALPHA: Probability x>1.8475 studentTdistribution degrees of freedom 24

http://asignaturas.topografia.upm.es/matematicas/videos/Intervalo_Media.wmv

http://www.wolframalpha.com/input/?i=Probability+X%3E1.8475+StudentTDistribution+degrees+of+freedom+24



24

24

• Intervalos de confianza para la varianza

Se sabe que ( ).n S

n

−≡ −

1 2

2 12

σχ si la población de partida es N( , )µ σ . Por tanto, para

tomar el intervalo de confianza de nivel de significación α , buscamos los valores k1 y k2 ,

tal que: P kn S

k1

2

2 2

11<

−<

= −

( ).

σα .

Se nos plantea el problema de que la distribución χn−12 no es simétrica (como

ocurría con la Normal y la t de Student) por lo que no es posible determinar con exactitud

los valores k1 y k2 para que el intervalo esté centrado en S2.

Una solución aproximada y generalmente buena es determinar k1 y k2 con las

condiciones: ( )P knχα

− < =12

1 2 y ( )P knχ

α− > =1

22 2

Así pues, tendríamos:

21 2

1 22 2 2 2

k k(n 1).S 1P k k P

(n 1).S (n 1).S

−< < = < < = σ − σ −

2 22

2 1

(n 1).S (n 1).SP 1

k k

− −= < σ < = −α



25

25

7 Ejemplo:

Dadas cuatro observaciones {10.1, 10.5, 10.2, 10.4} obtener un intervalo de

confianza para la varianza a un nivel de significación de 0.05.

Solución:

Usamos la distribución 2n 1−χ para la obtención de un intervalo de confianza para la

varianza para observaciones normalmente distribuidas N( ,µ σ ) e independientes

2 22

2 1

(n 1).S (n 1).SP 1

k k

− −< σ < = −α

En nuestro caso:

ixx 10.3

n= =∑ ;

( )2

i2 x x 0.1S

n 1 3

−= =

−∑ ; 0.05α = y n-1=3 grados de libertad,

( ) ( )2 21 n 1 2 1 3 2P k k 1 P k k 0.95−< χ < = −α⇒ < χ < =

Buscaremos los valores de k1 y k2 tales que: ( )( )

23 1

23 2

P k 0.025

P k 0.975

χ < =

χ < = en la función de

distribución, obtenemos k1=0.216 y k2=9.348.

DERIVE:

#1: NSOLVE(CHI_SQUARE(x, 3) = 0.975, x, Real)

#2: x = 9.348403811

#3: NSOLVE(CHI_SQUARE(x, 3) = 0.025, x, Real)

#4: x = 0.2157952822

EXCEL: =INV.CHICUAD.CD(0,975;3) 0,215794901

EXCEL: = INV.CHICUAD.CD (0,025;3) 9,34840397

WOLFRAMALPHA: Chi Square Distribution degrees of freedom 3

0.215795 (Percentil 2.5) 9.3484 (Percentil 97.5)

20,1 0,1P 0,95

9,348 0,216

< σ < = ⇒

20,011 0,462< σ <

http://www.wolframalpha.com/input/?i=Chi+Square+Distribution+degrees+of+freedom+3

http://asignaturas.topografia.upm.es/matematicas/videos/Intervalo_Varianza.wmv

Teoría de Muestras e Inferenciaasignaturas.topografia.upm.es/matematicas/Metodos/Apuntes/Inferen... · Los principios estadísticos son independientes de la materia en la que se

Documents