Teoría de Muestras e Inferencia Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M. 1 1 TEORÍA DE MUESTRAS E INFERENCIA 1. Población y muestra 2. Métodos de muestreo 3. Distribuciones asociadas al proceso de muestreo 3.1 Distribución de la media de una población normal 3.2 Distribución de la varianza 4. Estimación 4.1. Estimación puntual. Propiedades 4.2. Obtención de estimadores 4.2.1. Método de los momentos 4.2.2. Método de máxima verosimilitud 4.2.3. Método de los mínimos cuadrados 4.3. Estimación por intervalo Intervalo de confianza para la media Intervalo de confianza para la varianza
25
Embed
Teoría de Muestras e Inferenciaasignaturas.topografia.upm.es/matematicas/Metodos/Apuntes/Inferen... · Los principios estadísticos son independientes de la materia en la que se
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Teoría de Muestras e Inferencia
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
1
1
TEORÍA DE MUESTRAS E INFERENCIA
1. Población y muestra
2. Métodos de muestreo
3. Distribuciones asociadas al proceso de muestreo
3.1 Distribución de la media de una población normal
3.2 Distribución de la varianza
4. Estimación
4.1. Estimación puntual. Propiedades
4.2. Obtención de estimadores
4.2.1. Método de los momentos
4.2.2. Método de máxima verosimilitud
4.2.3. Método de los mínimos cuadrados
4.3. Estimación por intervalo
Intervalo de confianza para la media
Intervalo de confianza para la varianza
Teoría de Muestras e Inferencia
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
2
2
TEORÍA DE MUESTRAS E INFERENCIA
Es un hecho reconocido que la Estadística es necesaria en todos los campos
donde se avance en investigación.
Los principios estadísticos son independientes de la materia en la que se apliquen;
los principios son generales aunque las técnicas pueden ser distintas.
Se hace ciencia cuando el estudio se ocupa de la observación y clasificación de los
hechos. Estadística es la ciencia de los datos. Los datos o hechos numéricos son
esenciales para tomar decisiones en casi todas las áreas de nuestra vida.
Por ejemplo, llevar paraguas depende de la probabilidad de lluvia. Si observamos
que las medidas de una mujer son 90-60-90, esto significa que esa persona tiene unas
proporciones que se consideran perfectas.
En una empresa se manejan muchos datos sobre ventas, inventarios, personal,
gastos, clientes, equipos, etc. Todos estos datos han de ser interpretados de alguna
forma, tarea que requiere presentar los números de manera que su mensaje aparezca
claramente.
Para poder usar los datos con fines concretos debemos resumirlos y
describirlos; esta tarea corresponde a la estadística descriptiva. El análisis de los datos
combina resúmenes numéricos con representaciones gráficas.
Imaginemos que asistimos a una partida de dados: primeramente observamos el
desarrollo de la partida y anotamos los resultados (estadística descriptiva), como
sabemos que con dos dados el resultado más probable es 7 (estadística matemática) y
tomaremos la decisión de jugar o no dependiendo de la comparación de los resultados
(inferencia estadística).
En la estadística descriptiva se ven cosas pero no se pueden probar de una
manera formal. La estadística descriptiva y la estadística matemática son
complementarias.
Teoría de Muestras e Inferencia
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
3
3
El análisis de datos requiere una colaboración dinámica entre el especialista en el
asunto (el que posee los datos) y estadístico (el que los analiza).
El primer paso en un análisis de datos es su inspección, familiarizarse con los
datos y encontrar características extraordinarias. El siguiente paso es la comparación:
comparar datos y comparar modelos. Por último, la interpretación. Muy a menudo el ciclo
entero comienza de nuevo.
La formulación de una hipótesis lógica, sometida a prueba por métodos
experimentales y la evaluación objetiva de dicha hipótesis en base a los resultados
experimentales, constituyen los puntos esenciales del método científico, que empleamos
en estadística.
1. POBLACIÓN Y MUESTRA
Si deseamos conocer alguna característica de una población podríamos observar
dicha característica en todos los miembros de la población y estudiar esos datos con los
métodos de “Estadística Descriptiva”. Esta operación es lo que se denomina censo de
una población. A veces es imprescindible un censo: cuando se necesita información para
cada uno de los individuos de la población, como por ejemplo para hacer el censo
electoral.
Pero en muchos casos un censo resulta imposible por alguna de las siguientes
causas:
• El costo de la observación para toda la población resulta muy elevado.
• Se quieren los resultados en un corto plazo de tiempo, que cuando la población es muy
grande no resulta posible.
• Que el procedimiento de observación sea destructivo, como por ejemplo, estudiar la
duración de unas bombillas o la resistencia de unas barras de acero.
Teoría de Muestras e Inferencia
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
4
4
En estos casos se hace necesario reducir el estudio a una parte de la población
que llamaremos muestra y a partir de la información obtenida tratar de deducir las
características de toda la población. Este proceso recibe el nombre de inferencia.
Las ventajas de estudiar una muestra, además del costo reducido y la gran
rapidez, es que se puede hacer con personal más especializado y establecer mejores
controles, lo que permite reducir muchos errores en la toma de datos.
La limitación principal de trabajar con una muestra es que no obtendremos las
características de la población con exactitud, sino que al hacer la inferencia cometemos
unos errores llamados de muestreo, aunque esos errores se pueden medir y controlar.
Todos estamos acostumbrados a hacer inferencias continuas. así, por ejemplo,
juzgamos a un canal de televisión por unos cuantos programas que vemos; a la E.M.T.
por dos autobuses que cogemos al día; o a un político por alguna de sus actuaciones que
conocemos. En la mayoría de los casos nos basamos en muestras pequeñas y poco
representativas.
Para que la inferencia sea “buena”, la muestra deberá ser representativa de toda la
población. Al proceso de elección de una muestra se denomina muestreo.
2. MÉTODOS DE MUESTREO
Muestreo aleatorio simple
Se caracteriza porque todos los elementos de la población tienen la misma
probabilidad de ser elegidos. El procedimiento práctico de escoger la muestra, puede ser
numerar los elementos de la población, apuntar los números en tarjetas, y sacarlas al
azar. Si la muestra y la población son grandes, en vez de tarjetas se utilizan tablas de
números aleatorios.
Este muestreo puede ser:
Teoría de Muestras e Inferencia
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
5
5
• Con reemplazamiento: se elige un elemento de la población, se estudia y se reintegra
a la población. Así sucesivamente, la probabilidad de obtener cualquier elemento se
mantiene constante, interesa para que los elementos de la muestra sean independientes.
• Sin reemplazamiento: los elementos elegidos en la muestra no se restituyen en la
población. La probabilidad de obtener un elemento va aumentado al disminuir los
elementos posibles.
Muestreo aleatorio estratificado
Cuando la población objeto de estudio se puede dividir en distintas categorías,
clases o extractos, en definitiva, en varias subpoblaciones, atendiendo a alguna
característica común.
Muestreo por conglomerado
Por este método, lo que se elige al azar no son unos cuantos elementos de la
población, sino unos grupos de elementos de la población previamente formados.
Elegidos estos grupos o conglomerados, se pasa posteriormente a la elección, también al
azar de los elementos que han de ser observados dentro de cada conglomerado.
3. DISTRIBUCIONES ASOCIADAS AL PROCESO DE MUESTREO.
Puesto que los elementos que integran una muestra son elegidos aleatoriamente
es evidente el hecho de que las medidas o características son variables aleatorias.
Ahora se nos plantea las siguientes cuestiones:
• ¿Qué función de distribución asociar a la variable aleatoria?
• ¿De qué forma podemos investigar cómo se adapta la función de distribución elegida a
las observaciones?
• Como esta función de distribución tiene en general unos parámetros, tales como media
y varianza en el caso de la distribución normal. ¿Qué podemos deducir sobre los
parámetros de la información contenida en la muestra?
• ¿Qué incertidumbre tiene nuestra información sobre los parámetros?
Iremos viendo como contestar a estas cuestiones. Primeramente, una vez obtenida
la muestra hay que realizar la inferencia sobre la población. Puede ser:
Teoría de Muestras e Inferencia
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
6
6
Inferencia no paramétrica: se desconoce el tipo de distribución que sigue la distribución.
Inferencia paramétrica: en este caso se supone conocida la distribución que sigue la
población, pero se desconocen sus parámetros. El problema es estimar el valor de dichos
parámetros.
Distribución de probabilidad de la población: partimos de una población en la
que una determinada característica sigue una distribución conocida F(x) que depende de
un parámetro θ (cualquier característica cuantitativa de la población). De la población
obtenemos una muestra de tamaño n, en la que la característica estudiada, toma los
valores x x xn1 2, ,..., . Obtenemos, pues n variables aleatorias independientes ξ ξ ξ1 2, ,..., n
que están idénticamente distribuidas como la variable aleatoria ξ que determina la
distribución de la población F(x).
Dada una muestra x x xn1 2, ,..., , se llama estadístico T a cualquier variable aleatoria
definida como una función de dicha muestra, T=T( x x xn1 2, ,..., ). Como las muestras
pueden ser distintas, para cada una de ellas se obtendrá una estimación distinta. Se
tiene, por tanto, que el estadístico ha de ser considerado también como una variable
aleatoria y tendrá su propia distribución de probabilidad.
Llamamos estimador del parámetro θ , y lo denotamos por θ∧
a cualquier función
de los valores de la muestra θ∧
= f( x x xn1 2, ,..., ) cuyo valor tomamos como valor del
parámetro. El estimador es una función que para cada muestra en concreto toma un valor
que llamamos estimación. Si para todas las muestras posibles calculásemos las
estimaciones a que dan lugar, tendríamos todos los posibles valores de θ∧
, con sus
respectivas probabilidades (que serían las probabilidades de elegir cada muestra en
concreto). Así pues, un estimador θ∧
es una variable aleatoria con distribución de
probabilidad que se llama distribución en el muestreo del estimador.
Cuando un estadístico se utiliza para estimar el valor un determinado parámetro
θ de una variable aleatoria, entonces es un estimador de θ .
Teoría de Muestras e Inferencia
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
7
7
1 Ejemplo:
Supongamos una población formada por un conjunto de bolas de una caja, cada
una de las cuales lleva un número que puede ser un 0 ó 1. Desconocemos la proporción
de bolas p marcadas con un uno. La distribución de probabilidad de la variable aleatoria
discreta X: “número pintado en cada bola de la caja”
xi P(X=xi)
0 1-p
1 p
Supongamos que tomamos una muestra de tamaño n=2 para estimar p: (X1,X2)
tendremos dos variables aleatorias con la misma distribución que la población, es decir,
que pueden tomar los valores 0 y 1 con probabilidades 1-p y p respectivamente. La
distribución de la media muestral 1 2X XX
2
+= se expresa en la siguiente tabla:
muestra ix iP(X x )=
(0,0) 0 (1-p)2
(0,1) ½ p(1-p)
(1,0) ½ (1-p)p
(1,1) 1 p2
( )( ) ( )2
1 2P(X 0) P(X 0)P(X 0) 1 p 1 p 1 p= = = = = − − = −
( ) ( ) ( )1 2 1 2
1P(X ) P(X 1)P(X 0) P(X 0)P(X 1) p 1 p 1 p p 2p 1 p
2= = = = + = = = − + − = −
21 2P(X 1) P(X 1)P(X 1) p= = = = =
Veremos en primer lugar las distribuciones en el muestreo de distintos
estimadores, después ciertas propiedades deseables de los estimadores, y métodos de
obtención de los mismos.
Teoría de Muestras e Inferencia
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
8
8
3.1 Distribución de la media de una población normal, cuando se conoce la
varianza:
Cada ξ i es una variable aleatoria con distribución normal,ξ µ σi N≡ ( , ) , la media
muestral será: ξξ ξ ξ
=+ + +1 2 ... n
n.
Si en una población cualquiera con media y varianza finita, se extraen muestras de
tamaño n, la media muestral, al ser suma de variables independientes tiende hacia una
distribución Nn
µσ
,
, según el Teorema Central del Límite, cuando n tiende a infinito.
En la práctica, tiene que ser n>30 si se conoce la varianza de la población, y n>100, si no
se conoce la varianza y hay que estimarla por la varianza muestral.
Veamos que: [ ]E ξ µ= y que [ ]Vn
ξσ
=2
En efecto:
[ ] [ ] [ ]( ) ( )E En n
E En n
nn
nξξ ξ ξ
ξ ξ µ µ µ µ=+ + +
= + + = + + = =
1 2
1
1 1 1...... ... . .
y además:
( )22 n2
1 ni2
i 1
... n. 1V E E E
n n n =
ξ + + ξ µ ξ = ξ −µ = − = ξ −µ = ∑
( )[ ] ( )( )[ ]n
.nn
1
n
1E2E
n
1 22
2
n
1i
22
n
ij
1iji
n
1i
2i2
σ=σ=σ=
µ−ξµ−ξ+µ−ξ= ∑∑∑=
<==
puesto que, ( )( )[ ] ( )[ ] ( )[ ]E E Ei j i jξ µ ξ µ ξ µ ξ µ− − = − −. =0 por ser independientes.
2 Ejemplo:
Sabiendo que los errores de observación de una determinada magnitud siguen una
distribución N(0,1.5), calcular:
a) Probabilidad de que al hacer una observación el error sea mayor que 0,5.
Teoría de Muestras e Inferencia
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
9
9
b) Probabilidad de que al hacer 9 observaciones de la misma magnitud, la media de esas
observaciones tenga un error mayor que 0,5.
c) Número de observaciones necesarias para que el error de la media sea menor que 0,5
con probabilidad 0,95.
Solución:
a) Sea ξ la observación que tiene la misma distribución que la población. Así pues:
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
21
21
b) Población cualquiera de varianza finita y muestras grandes
Sabemos que ξ µσ
≡Nn
( , ) . Razonando igual que antes, si la varianza es conocida
el intervalo será 1 / 2 1 / 2P z z 1n n
−α −α
σ σ ξ − ≤ µ ≤ ξ + = −α
para n>30.
Si la varianza es desconocida la estimamos por la cuasivarianza, y queda:
1 / 2 1 / 2
S SP z z 1
n n−α −α
ξ − ≤ µ ≤ ξ + = −α
para n>100 y el intervalo es 1 / 2
SX z
n−α± .
5 Ejemplo:
Para estudiar el número de pulsaciones por minuto de personas entre 20 y 30 años, se eligen 400 al azar, obteniéndose una media de 75 por minuto y una desviación típica de 9. Calcular: a) Intervalo de confianza del 95% del número medio de pulsaciones por minuto en dicha población. b) Tamaño de la muestra necesario para obtener el intervalo de confianza de la misma amplitud que el anterior y con nivel de confianza del 99%. Solución:
Por ser el tamaño de la muestra suficientemente grande podemos considerar N ,n
σ µ
El intervalo de confianza para una población normal es:
1 / 2X zn
−α
σ±
a) Para nuestros datos: X 75; S 9;n 400; 0.05= σ ≈ = = α =
Tenemos X
Z N(0,1)n
−µ= ≡σ
( ) ( )1 / 2 1 / 2 1 / 2 1 / 2P z Z z 1 1 0.05 0.95 F(z ) P Z z 0.975−α −α −α −α− < < = −α = − = ⇒ = < =
DERIVE:
#1: NSOLVE(NORMAL(z) = 0.975, z, Real)
#2: z = 1.959963962
EXCEL: =DISTR.NORM.INV(0,975;0;1) 1,9599628
O directamente
=INTERVALO.CONFIANZA(0,05;9;400) 0,88198379
1 / 2X z 75 0,88198379n
−α
σ± = ±
WOLFRAMALPHA: normal distribution, mean=0,sd=1 1.95996 (Percentil 97,5)