Page 1
• La clase anterior
• Presentamos los fundamentos de probabilidades continuas.
• Densidad, distribución, etc.
• Presentamos la Distribución Normal.
IND3100 - Prof. Jorge Vera A. ©2013
• Hoy.
• Veremos por qué todo es “normal”
• Estudiaremos principios de muestreo e inferencia estadística.
¿Por qué la distribución normal parece tan normal?
• Se mide la estatura de un grupo de personas (por ejemplo, en esta sala).
• Si se hace el histograma según rangos de altura, va a parecer normal…
• La altura es resultado de muchos factores, cada uno de los cuales está sujeto a variaciones…
IND3100 - Prof. Jorge Vera A. ©2013
• Es sorprendente que los efectos acumulados de esas variaciones termina teniendo un comportamiento “normal”…
• Uno de los resultados más importantes en probabilidades es el que veremos a continuación…
Page 2
Teorema Central del Límite (TCL)
• Supongamos que tengo n variables aleatorias:
• X1, X2, …, Xn
• Supongamos que todas son independientes e idénticamente distribuidas con media µµµµ, y desviación estándar σ.σ.σ.σ.
• Sea: Sn=X1 + X2 + … + Xn
IND3100 - Prof. Jorge Vera A. ©2013
• Sea: Sn=X1 + X2 + … + Xn
• Entonces, a medida que n se hace grande, Sn
distribuye aproximadamente normal con media µµµµSn = nµµµµ desviación estándar
nS nσ σ=
i
Este resultado es válido independiente de la distribución de probabilidades de los Xi.
Teorema Central del Límite (TCL)
• También podemos concluir que si tomamos el promedio de las variables aleatorias:
• =(Sn/n)=(X1 + X2 + … + Xn)/n
• Entonces, a medida que n se hace grande, el promedio distribuye aproximadamente normal con media y desviación estándar S n
σσ =
S
Sµ µ=
IND3100 - Prof. Jorge Vera A. ©2013
con media y desviación estándar
• Nota: n no necesita ser “muy” grande. Típicamente n ≥ 30 basta.
• Importancia del resultado…
S nσ =
Sµ µ=
Page 3
Ejemplo TCL: Lanzar un dado varias veces
• Supongamos lanzamos un dado n veces y registramos la suma de los números…
• X1 , X2 , … , Xn son las v.a. que representanlos números en cada tirada.
• La suma es X1 + X2 + … + Xn
• Recordemos la tabla con n = 2:
IND3100 - Prof. Jorge Vera A. ©2013
• Recordemos la tabla con n = 2:
1 2 3 4 5 6
1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
0.000
0.050
0.100
0.150
0.200
0.250
1 3 5 7 9
11 13 15 17
n = 1n = 1
Ejemplo TCL: Lanzar un dado varias veces
0.000
0.050
0.100
0.150
0.200
0.250
1 3 5 7 9
11 13 15 17
n = 2n = 2
IND3100 - Prof. Jorge Vera A. ©2013
0.000
0.050
0.100
0.150
0.200
0.250
1 3 5 7 9
11 13 15 17
n = 3n = 3
Page 4
Ejemplos:
• Veamos algunas animaciones…
• http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html
IND3100 - Prof. Jorge Vera A. ©2013
Comentarios sobre el TCL• n no tiene que ser TAN grande (≈30 es suficiente),
especialmente si la distribución de los Xi es “decente”
� Más o menos simétrica y con colas no muy pesadas.
• El TCL es otra forma de las llamadas “leyes de grandes números”
• La distribución de probabilidades de los Xi no importa, más aún, incluso hay formas avanzadas del TCL en donde las
IND3100 - Prof. Jorge Vera A. ©2013
aún, incluso hay formas avanzadas del TCL en donde las v.a. no necesitan ser i.i.d. (con n más grande, eso sí).
• Entonces, la distribución Normal puede aparecer de al menos tres formas:� Como un modelo natural para muchos procesos físicos
� Como la suma de muchas variables aleatorias
� Como una aproximación de la suma o promedio de muchas v.a. iid
Page 5
Supongamos que X es Binomial(n, p)
E(X) = np
VAR(X) = np(1-p)
Sea Y una v.a. normal con media np y varianza np(1-p)
Aproximación de Binomial con Normal
IND3100 - Prof. Jorge Vera A. ©2013
5 p)-n(1y 5 np ≥≥
Entonces, Y es una buena aproximación de X si n es “grande”.
Una buena regla es usar esta aproximación sólo si:
Sea Y una v.a. normal con media np y varianza np(1-p)
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0 5
10 15 20 25
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0 5
10 15 20 25
n = 15n = 15n = 10n = 10
Aplicación del TCL: Binomial(n,0.8)
IND3100 - Prof. Jorge Vera A. ©2013
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0 5
10 15 20 25
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0 5
10 15 20 25
n = 25n = 25n = 20n = 20
Page 6
Ejemplo 3.13 de Bertsimas y Freund
• Sea X el número de defectuosos en el lote de 6000.
• X distribuye Binomial(n,p) con n=6000, p=0,001.
• Un proceso de manufactura de semiconductores tiene unatasa de defectos de 1 en 1.000. ¿Qué tan probable es quehayan al menos 10 piezas defectuosas en un lote de 6.000 unidades?
IND3100 - Prof. Jorge Vera A. ©2013
• Estamos en los rangos válidos de la aproximación y X puede aproximarse por una v.a. normal, Y, con esosparámetros.
6,0; (1 ) 2,448X Xnp np pµ σ= = = − =
( 10)P X ≥ ≈ ( 10)normalP Y ≥ = 6 10 6
2,448 2,448
YP
− − ≥ =
( 1,63) 0,0516P Z ≥ ≈
Muestreo y elementos de Inferencia
Magíster en Ingeniería Industrial
Departamento de Ingeniería Industrial y de Sistemas
Pontificia Universidad Católica de Chile
IND 3100Modelos Cuant. Para la Toma de Dec.
IND3100 - Prof. Jorge Vera A. ©2013
Muestreo y elementos de Inferencia
Estadística
Page 7
NEXNet quiere estimar la cuenta telefónica mensual promedio en las comunidades de Weston, Wayland, y Sudbury, mediante unaencuesta telefónica. Para motivar a la gente a participar, NEXNet
NEXNet es una empresa pequeña pero agresiva en el mercadode telecomunicaciones de la costa Este de EEUU, y estáconsiderando moverse hacia el Norte, al área de Boston.
Un Ejemplo
IND3100 - Prof. Jorge Vera A. ©2013
encuesta telefónica. Para motivar a la gente a participar, NEXNetofrecerá cupones de descuentos en ciertos productos al encuestara los participantes.
• ¿A cuántas personas debería encuestar NEXNet(exitosamente) para estimar en forma “exitosa” la cuentatelefónica promedio en estas tres comunidades?
• ¿Cómo debería analizar NEXNet los resultados de la encuenta?
Qué estudiaremos
• Muestras aleatorias.
• Indicadores de la muestra: media y desviación estándar muestral.
• Distribución de la media muestral.
• Intervalos de confianza para estimar.
• Diseño del tamaño muestral.
IND3100 - Prof. Jorge Vera A. ©2013
• Diseño del tamaño muestral.
• Comparaciones de poblaciones sobre la base de muestras.
Page 8
Población: conjunto de todos los elementos de interés
Muestra: subconjunto de una población
Muestra Aleatoria
IND3100 - Prof. Jorge Vera A. ©2013
Muestra aleatoria: una muestra recolectada de tal forma que cada miembro de la población pueda ser seleccionado con igual probabilidad
Objetivo: Hacer inferencia sobre unapoblación sobre la base de la informaciónde una muestra.
Objetivo: Hacer inferencia sobre unapoblación sobre la base de la informaciónde una muestra.
Usos del Muestreo Estadístico
• ¿Dónde se usa muestreo y estadísticas?
IND3100 - Prof. Jorge Vera A. ©2013
Page 9
Ejemplo: Elección presidencial de EEUU en 1936, Alf Landon vs Franklin D. Roosevelt.
• Octubre 1936, Literary Digest llevó a cabo la encuesta más grande de la historia (10 millones de votantes).
• Su predicción fue que Landon ganaría por 4:3
Una Encuesta que Falló
IND3100 - Prof. Jorge Vera A. ©2013
• Su predicción fue que Landon ganaría por 4:3 en votos populares.
• Un mes después, Roosevelt fue reelecto con la más grande mayoría en la historia de EE.UU.
¿Qué pasó?
• La revista quebró al poco tiempo…
Una Encuesta que Falló
• Problemas:
• Nombres obtenidos principalmente de las guías telefónicas, listas de correo y subscripciones
• Sólo 1 de cada 4 americanos tenía teléfono
IND3100 - Prof. Jorge Vera A. ©2013
• Los pobres tendían a favorecer a Roosevelt
• Literary Digest recibió de regreso sólo el 20% de las encuestas
� Se sabe que los que no responden tienden a diferir de varias formas de los que sí responden
Page 10
Sobre la base de las respuestas a la encuesta, podemospreguntar, por ejemplo:
• ¿Cuál sería un estimador de la probabilidad quela cuenta sea menor a $45? Es decir, Pr(X<=45)
Sigamos con NEXNet…
Volvamos al Ejemplo
IND3100 - Prof. Jorge Vera A. ©2013
la cuenta sea menor a $45? Es decir, Pr(X<=45)
• ¿Cuál sería un estimador de la probabilidadque la cuenta sea menor a $90 y mayor a $75? Es decir, Pr(75<=X<=90)
Sample Data of October Phone Bills (sample size n = 70)
Respondent October Respondent October Respondent October Number Phone Bill Number Phone Bill Number Phone Bill
1 $95.67 25 $79.32 49 $90.022 $82.69 26 $89.12 50 $61.063 $75.27 27 $63.12 51 $51.004 $145.20 28 $145.62 52 $97.715 $155.20 29 $37.53 53 $95.446 $80.53 30 $97.06 54 $31.897 $80.81 31 $86.33 55 $82.358 $60.93 32 $69.83 56 $60.209 $86.67 33 $77.26 57 $92.28
10 $56.31 34 $64.99 58 $120.89
IND3100 - Prof. Jorge Vera A. ©2013
10 $56.31 34 $64.99 58 $120.8911 $151.27 35 $57.78 59 $35.0912 $96.93 36 $61.82 60 $69.5313 $65.60 37 $74.07 61 $49.8514 $53.43 38 $141.17 62 $42.3315 $63.03 39 $48.57 63 $50.0916 $139.45 40 $76.77 64 $62.6917 $58.51 41 $78.78 65 $58.6918 $81.22 42 $62.20 66 $127.8219 $98.14 43 $80.78 67 $62.4720 $79.75 44 $84.51 68 $79.2521 $72.74 45 $93.38 69 $76.5322 $75.99 46 $139.23 70 $74.1323 $80.35 47 $48.0624 $49.42 48 $44.51
Page 11
HistogramaHistogramaF
recu
enci
a(%
)F
recu
enci
a(%
)
10.010.0
8.08.0
Histograma
¿Es esto la distribución de probabilidad del valor de la cuenta telefónica?
IND3100 - Prof. Jorge Vera A. ©2013
00
4.04.0
4040 6060 8080 100100 120120 140140 MásMás
Cuenta Telef. Mensual ($)Cuenta Telef. Mensual ($)
Fre
cuen
cia(
%)
Fre
cuen
cia(
%)
Discutiremos más adelante cómo determinar n, el tamaño de la muestra.
Nuestro problema actual es:
El Problema (formal)
IND3100 - Prof. Jorge Vera A. ©2013
Basado en sólo n valores muestrales X1, X2, . . . , Xn , queremos hacer inferencias acerca de la población entera.
Page 12
Media muestral: suma de todos los elementos de la muestra aleatoria, dividida por el tamaño de la muestra, es decir, el promedio empírico.
Estimador de la Media Poblacional
1 2 ... nX X XX
n
+ + +=
IND3100 - Prof. Jorge Vera A. ©2013
Mediana muestral: el valor para el cual la mitad de los elementos están por debajo, esdecir, el percentil 50.
Xn
=
HistogramaHistograma
00
4.04.0
Fre
cuen
cia(
%)
Fre
cuen
cia(
%)
10.010.0
8.08.0
IND3100 - Prof. Jorge Vera A. ©2013
004040 6060 8080 100100 120120 140140 MásMás
Cuenta Telef. Mensual ($)Cuenta Telef. Mensual ($)
Mediana muestral = $76,65 Media muestral = $79,40
La media muestral toma en cuenta los valores numéricos de cadaobservación, pero puede verse distorsionada por valores extremos.
La mediana muestral no se ve afectada por la magnitud de los valores extremos. Sólo entrega información de posición.
Page 13
La desviación estándar muestral S es:
Usaremos S para estimar la desviación estándar poblacional σ
Estimador para Desv. Est. Poblacional
2
1
( )
1
n
ii
X XS
n=
−=
−
∑
IND3100 - Prof. Jorge Vera A. ©2013
• Cuando n es grande, la diferencia es despreciable.
• La varianza muestral S2 es un “estimador insesgado’’ de la varianza poblacional, es decir, E [S2] = σ2.
Pregunta: ¿Por qué n - 1, y no n?Respuesta: Porque es un mejor estimador
Usaremos S para estimar la desviación estándar poblacional σ
NEXNet se organiza para tener 70 hogares bien encuestadosy seleccionados aleatoriamente. Encuentran que la media muestral observada de la cuenta telefónica mensual es$79,40, y que la desviación estándar muestral observada es$28,79.
¿Cuál es su estimador de la media poblacional µ?
Volvamos al Ejemplo
IND3100 - Prof. Jorge Vera A. ©2013
¿Cuál es su estimador de la desviación estándar poblacional σ?
= $= $79,4079,40x
s = $= $28,7928,79
Page 14
Cada “toma” de la muestra es una v.a.
X1, X2, . . . , Xn son v.a. independientes e idénticamentedistribuidas
Cada Xi tiene la misma distribución que la población entera: E[Xi] = µ, Var[Xi] = σσσσ 2.
¿Cómo entender el procedimiento de muestreo?
IND3100 - Prof. Jorge Vera A. ©2013
es la media muestral (una v.a.)1 2 ... nX X XX
n
+ + +=
2
1
( )
1
n
ii
X XS
n=
−=
−
∑ es la desviación estándar muestral
(una v.a.)
Después de tomar la muestra:
x1, x2, . . . , xn (con minúscula) son valores observados
de la muestra (números)
es nuestro estimador para µ
¿Cómo entender el procedimiento de muestreo?
1 2 ... nx x xx
n
+ + +=
2( )n
x x−∑
IND3100 - Prof. Jorge Vera A. ©2013
es nuestro estimador para σ
Típicamente, obtendremos resultados diferentes de muestras diferentes, es decir, de cada “repetición” de la toma.
2
1
( )
1
ii
x xs
n=
−=
−
∑
Page 15
¿Qué tan buena es la media muestral?• El valor esperado de la media muestral:
• ¡En promedio, estamos estimando lo que queremos!
1 2 ...( ) nX X X
E X En
+ + + =
( )1 2
1... nE X X X
n= + + +
( )1
1( ) ... ( )n
nE X E X
n n
µ µ= + + = =
IND3100 - Prof. Jorge Vera A. ©2013
• ¡En promedio, estamos estimando lo que queremos!
• También:
y:
1 2 ...( ) nX X X
Var X Varn
+ + + =
( )1
1( ) ... ( )nVar X Var X
n= + +
22
2
1( )n
n n
σσ= = ( )SD Xn
σ=
¿Qué tan buena es la media muestral?
• La media muestral es un estimador insesgadode la media poblacional
• A medida que aumenta el tamaño de la muestra, el estimador de la media presentamenos variabilidad…
IND3100 - Prof. Jorge Vera A. ©2013
• Y esto coincide con la intución sobreestimación de promedios…
• Observación: nótese que hemos calculado
no la varianza de X.
( )Var X
Page 16
¿Cuál es la distribución de la media muestral?
• Volvamos al ejemplo:
• ¿Cuál es la probabilidad de que la media estimada estéa lo más a una distancia L de µ?
• Supongamos que la distribución de probabilidad de una cuenta telefónica mensual típica es normal....
IND3100 - Prof. Jorge Vera A. ©2013
cuenta telefónica mensual típica es normal....
( )P L X Lµ− ≤ − ≤/ / /
L X LP
n n n
µσ σ σ − −= ≤ ≤
¿Qué distribución tiene esto?
¿Cuál es la distribución de la media muestral?
• Notar que tendrá distribuciónNormal(0,1) siempre y cuando se conozca el verdaderovalor de σ.
• Pero sólo conocemos un estimador: s.
• Se puede mostrar que la desv. estándar muestral sigue
una distribución “Chi-cuadrado” (denotado χ2 ) con “n-1 grados de libertad”…
( ) / ( / )X nµ σ−
IND3100 - Prof. Jorge Vera A. ©2013
• El cuociente entre una distribución normal y una chi-cuadrado se conoce como una distribución “t-Student”.
• Entonces en:
/ / /
L X LP
s n s n s n
µ − −= ≤ ≤
Tiene distribución “t”
Page 17
La distribución t-student
IND3100 - Prof. Jorge Vera A. ©2013
2−=
k
kσ
¿Cuál es la distribución de la media muestral?
• La “t” tiene colas más pesadas que la normal...
• Pero se parecen mucho cuando n es grande.
• Como consecuencia del Teorema Central del Límitetenemos que si n es grande, entonces
/
X
s n
µ−
IND3100 - Prof. Jorge Vera A. ©2013
• Distribuye aproximadamente Normal(0,1)
• Esto nos permite usar la distribución normal al calcularprobabilidades de la “media muestral normalizada”, perosólo cuando la muestra es “grande”.
/s n
Page 18
NEXNet determina que la media muestral observada de la cuenta telefónica mensual es $79,40, y que la desviaciónestándar muestral observada es $28,79.
¿Qué tan confiados podemos estar de que la media poblacional sea µ=79,40?
Volvamos al Ejemplo
IND3100 - Prof. Jorge Vera A. ©2013
¿Qué tan confiados podemos estar de que $79,40 esté dentrode +/- 1 de la verdadera media poblacional µ?
Pr( 1 1) ?X µ− < − < =
Para un tamaño muestral grande n,
¿Cuánto confiamos en la media muestral?2
( , )snX N µ≈
¿Cuál es la probabilidad de que esté a lo más a unadistancia L de µ?
X
( )P L X Lµ− ≤ − ≤/ / /
L X LP
n n n
µσ σ σ − −= ≤ ≤
IND3100 - Prof. Jorge Vera A. ©2013
/ / /
L X LP
s n s n s n
µ − −= ≤ ≤
/ /
L LP Z
s n s n
− ≈ ≤ ≤
Donde Z es Normal(0,1)
Page 19
¿Qué tan tan confiados podemos estar de que $79,40 estédentro de +/- 1 de la verdadera media poblacional µ?
Volvamos al Ejemplo
10,2906
/ 28,79 / 70
L
s n= =
( 1 1) ( 0,2906 0,2906) 0,229.P X P Zµ− ≤ − ≤ ≈ − ≤ ≤ =
Luego:
IND3100 - Prof. Jorge Vera A. ©2013
Suponga que quiero estar 95% seguro que $79,40 está a L dólares de la verdadera media poblacional. ¿Cuántodebe valer L?
( 1 1) ( 0,2906 0,2906) 0,229.P X P Zµ− ≤ − ≤ ≈ − ≤ ≤ =
Ejemplo (cont.)
0,95 ( )P L X Lµ= − ≤ − ≤
Hay que calcular L tal que:
/ /
L LP Z
s n s n
− = ≤ ≤
El percentil 0,95 de la normal en este caso es 1,96 y:
1,96 L 1,96 28,79/ 70 6,74./
L
s n
− = ⇒ = × =
IND3100 - Prof. Jorge Vera A. ©2013
Por lo tanto, tenemos un 95% de confianza que la media muestral $79,40 se encuentra a lo más a L = $6,74 dólaresde la media poblacional µ
Al intervalo [79,40 – 6,74, 79,40 + 6,74] se le llama “intervalo de confianza al 95%” para la media poblacional.
1,96 L 1,96 28,79/ 70 6,74./s n
= ⇒ = × =
Page 20
¿Que tal si queremos estar 99% seguros?
¿El intervalo es más ancho o más angosto?
Haciendo el cálculo nuevamente tenemos:
Ejemplo (cont.)
2,58 L 2,58 28,79/ 70 8,86.L− = ⇒ = × =
IND3100 - Prof. Jorge Vera A. ©2013
2,58 L 2,58 28,79/ 70 8,86./s n
= ⇒ = × =
Un IC al 99% para µ sería [79,40 – 8,86, 79,40 + 8,86].
Resumen: Intervalos de Confianza• El intervalo de confianza nos permite estimar qué tan
cerca está nuestro estimador del valor verdadero µ.
• Es correcto siempre entregar un intervalo de confianza de la forma
IND3100 - Prof. Jorge Vera A. ©2013
• El nivel de confianza representa la probabilidad de que los intervalos que calculamos incluyan µ.
• L es determinado por el tamaño muestral n, el nivel de confianza, y la desviación estándar σ (o su estimador s)
Page 21
Resumen: Construyendo un IC al β% para µ
Suponga que es la media muestral observada y que s es la desviación estándar muestral observada, ambas calculadas de los datos de una muestra. Si n es suficientemente grande, entonces un IC al β% para la media poblacional sería:
x
,s s
x c x cn n
− +
IND3100 - Prof. Jorge Vera A. ©2013
Para ββββ = 90, c = 1,65Para ββββ = 95, c = 1,96Para ββββ = 99, c = 2,58
Para ββββ = 90, c = 1,65Para ββββ = 95, c = 1,96Para ββββ = 99, c = 2,58
donde c es un número tal que
( ) % , (0,1)P c Z c Z Nβ− ≤ ≤ = ∼
Comentarios• Idealmente, queremos un intervalo angosto (L pequeño)
con un alto nivel de confianza (alto β). Objetivos contrapuestos.
• Para un tamaño muestral fijo (n es fijo), si queremos afirmar algo con un nivel de confianza β más alto, necesitamos un intervalo más ancho (L más grande).
IND3100 - Prof. Jorge Vera A. ©2013
� “trade-off entre ancho del intervalo y el nivel de confianza”
• Para un nivel de confianza fijo (β y c son fijos), si aumentamos el tamaño muestral n, entonces obtendremos un L más pequeño.
� “A mayor tamaño de muestra, más precisos los estimadores”
Page 22
Comentarios• Para un tamaño muestral fijo y un nivel de confianza
fijo, podemos obtener un intervalo más angosto, cuando la población es menos variable (σ y s pequeños).
� “Es más fácil inferir sobre una población con baja dispersión”
IND3100 - Prof. Jorge Vera A. ©2013
• Si tomamos muestras repetidamente, y calculamos los intervalos de confianza, cada vez obtendremos un intervalo diferente.
� Si hacemos esto una y otra vez, el tanto % de los intervalos resultantes incluirán la media poblacional.
Una empresa de investigación de mercado quiere llevar a cabo una encuesta para estimar el monto promedio gastado por cada persona que visita un resort popular. A esta empresa le gustaría estimar el monto promedio en un rango de +/- $120, con un nivel de confianza de un 95%. Asumamos que la SD poblacional del gasto en el resort es de $500.
¿Cuál es el tamaño muestral n que se requerirá para esto?
Diseño Experimental
IND3100 - Prof. Jorge Vera A. ©2013
Pero si no conocemos σ, primero debemos estimarlo con s.
500120 1,96L c
n n
σ= = = ×2
1,96 50067
120n
× ⇒ = ≈
Page 23
Para construir in IC al β% que esté dentro de +/- L de µ, el tamaño muestral requerido esta dado por:
donde c es el número para el cual:
Determinando el tamaño muestral
2c s
nL
× =
( ) % , (0,1)P c Z c Z Nβ− ≤ ≤ = ∼
IND3100 - Prof. Jorge Vera A. ©2013
Para Para ββ = 90, c = 1.65= 90, c = 1.65Para Para ββ = 95, c = 1.96= 95, c = 1.96Para Para ββ = 99, c = 2.58= 99, c = 2.58
Como regla general, n debe ser siempre redondeado hacia arriba, y también debería ser siempre suficientemente grande (mayor a 30) para usar la aproximación normal.
( ) % , (0,1)P c Z c Z Nβ− ≤ ≤ = ∼
Comparando “tratamientos”
• Ejemplo:• Empresa de retail quiere estimar la efectividad de una
campaña de marketing con envío de anuncios por correo. Para esto selecciona dos grupos de 600 personas: al primer grupo se le envía la campaña y al segundo (el “control”) no se le envía. Luego, se investiga la demanda en cada grupo.
IND3100 - Prof. Jorge Vera A. ©2013
• El problema: ¿Hay diferencia significativa entre los que se les envió la publicidad y a los que no?
• Lo que habría que hacer: muestrear en cada grupo, estimar las medias de demanda y ver si son “diferentes”.
Page 24
Comparando “tratamientos”• El primer grupo tiene una media µ1 y desv. est. σ1,
mientras que el segundo grupo tiene media µ2 y desv.est. σ2
• Supongamos se muestrean n1 personas en el primer grupo y n2 en el segundo.
• Sean x1,x2,…,xn1 las observaciones de demanda para el primer grupo.
• Sean y ,y ,…,y las observaciones de demanda para el
IND3100 - Prof. Jorge Vera A. ©2013
• Sean y1,y2,…,yn2 las observaciones de demanda para el segundo grupo.
• Las dos medias muestrales son:
1 21 11 1
1 2
... ...,n nx x y y
x yn n
+ + + += =
Comparando “tratamientos”• Tenemos que (por independencia):
• Ahora:
• Luego,
1 2( ) , ( ) ( ) ( )E X Y Var X Y Var X Var Yµ µ− = − − = +
2 21 2
1 2
( ) , ( )Var X Var Yn n
σ σ= =
( )DS X Y− =2 21 2σ σ+
IND3100 - Prof. Jorge Vera A. ©2013
• Y la variable aleatoria:
• Es aproximadamente normal (0,1), si n1 y n2 son grandes.
( )DS X Y− = 1 2
1 2n n+
1 2
2 21 2
1 2
( ) ( )X YZ
n n
µ µσ σ
− − −=+
Page 25
Comparando “tratamientos”• Lo anterior permite construir un intervalo de confianza
para la diferencia de medias:
• Donde c, como siempre, es el percentil de la distribución N(0,1) para un nivel de confianza dado.
2 2 2 21 2 1 2
1 2 1 2
( ) , ( )x y c x y cn n n n
σ σ σ σ − − + − + +
IND3100 - Prof. Jorge Vera A. ©2013
distribución N(0,1) para un nivel de confianza dado.
Para Para ββ = 90, c = = 90, c = 1,651,65Para Para ββ = 95, c = = 95, c = 1,961,96Para Para ββ = 99, c = = 99, c = 2,582,58
Comparando “tratamientos”• Volviendo al ejemplo:
• Supongamos n1=500, n2=400.
• La media muestral en el grupo 1 es $387 y en el grupo 2 es de $365. Las desv.est. son $223 y $274 respectivamente en grupo 1 y grupo 2.
• La estimación de la diferencia es 387-365=22.
• La desv.est de la diferencia es:
IND3100 - Prof. Jorge Vera A. ©2013
• La desv.est de la diferencia es:
• Y el intervalo de confianza al 98% es:
• ¿Hay diferencias entre los tratamientos?
2 2 2 21 2
1 2
223 27416,95
500 400n n
σ σ+ = + =
[ ]17.43 , 61.43−