A. PRUEBAS DE BONDAD DE AJUSTE: Marta Alperin Profesora Adjunta de Estadística 2014 [email protected]Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov para una muestra Lilliefords Kolmogorov-Smirnov para dos muestras B.T ABLAS DE CONTINGENCIA http://www.fcnym.unlp.edu.ar/catedras/estadistica
17
Embed
A. PRUEBAS BONDAD DE AJUSTEA.PRUEBAS DE BONDAD DE AJUSTE: 1.Chi cuadrado F2 •Objetivo Inferir si la población muestreada, cuyos datos se clasifican en una escala nominal o son agrupados
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Para evitar errores calcular las frecuencias esperadas con 4 decimales
y con 3 decimales. 2
Restricciones: •Los datos deben ser frecuencias
•Las categorías deben ser mutuamente excluyentes
•El test da resultados falsos si se aplica a datos que son porcentajes o
proporciones de ocurrencias de estas categorías mutuamente excluyentes.
•Las categorías no deben ser muchas.
•La frecuencia esperada en cada categoría debe ser al menos de 5 (cinco). Si esto
no ocurre se deben combinar las frecuencias de dos o mas categorías hasta que la
frecuencia esperada se >5.
Ejemplo DISTRIBUCIÓN POISSON
DISTRIBUCIÓN REGULAR DISTRIBUCIÓN AL AZAR DISTRIBUCIÓN CONTAGIOSA
12
X
s1
2
X
s1
2
X
s
n
mX
805,3X
m=n° meteoritos=761
n=n° cuadriculas=200
s2=2,17
((10+14)-(4,4+16,9))2/(4,4+16,9)=0,1125
k
i
cfe
fefo
1
22 )(
20,1372 c
1
2
nestS
estS
X
s
tn
12
1
100,01200
2
estS
¿Los meteoritos se distribuyen al azar?
H0: fo=fe
H1: fo≠fe
=0,05
=8-1-1=6
χ2(6; 0,05)=12,59
=0,05; /2=0,025
=n-1=200-1=199
t(199; 0,025)=-1,960
137,20>12,59; se rechaza H0
Los meteoritos no se distribuyen al azar
¿Los meteoritos están agrupados o se distribuyen unifomemente?
-1,960>-4,297; se rechaza H0
La distribución de los meteoritos no es al azar. El signo de t, y el valor de la relación varianza-media permite afirmar que la distribucion es relativamente uniforme.
1:2
0 X
sH 1:
2
X
sHa
Ejemplo: Desde el verano de 1976 se realizaron trabajos de investigacion
tendientes a estudiar los meteoritos en la Antártida. Se analizaron los meteoritos
caídos en un área de 200 km2. El área fue subdividida con una cuadricula de 1
km2 y se contó el número de meteoritos presentes en cada cuadricula.
A. PRUEBA DE Kolmogorov – Smirnov para dos muestras
Diferencia máxima faA: máxima frecuencia relativa acumulada en A. faB: máxima frecuencia acumulada relativa en B. nA: N° datos muestra A. nB: N° datos muestra B.
faBfaAd max
= 0,05 = 0,01
1 cola 1,22 N´ 1,51 N´
2 colas 1,36 N´ 1,63 N´ BA
BA
nn
nnN
'
• Se usa para comparar dos distribuciones muestrales. • Las variables pueden estar expresadas en cualquier escala: nominal, ordinal, de razón, continua o discreta. • No se asume ningún tipo de distribución de la población de donde se extraen las muestras.
Valores críticos D
La hipótesis nula se rechaza cuando d ≥ D.
Las hipótesis de la prueba son: H0: Las muestras provienen de poblaciones que tienen idéntica distribución . H1: Las muestras provienen de poblaciones que tienen distribuciones diferentes. H0: faA = faB H1: faB ≠ faA
Estadístico de prueba
X=N°
lados f(B) f(F) fr(B) fr(F) fa (B) fa (F) |d|
3 1 1 0.0303 0.0278 0.0303 0.0278 0.0025
4 3 7 0.0909 0.1944 0.1212 0.2222 0.1010
5 8 10 0.2424 0.2778 0.3636 0.5000 0.1364
6 15 8 0.4545 0.2222 0.8182 0.7222 0.0960
7 4 6 0.1212 0.1667 0.9394 0.8889 0.0505
8 1 4 0.0303 0.1111 0.9697 1.0000 0.0303
9 0 0 0.0000 0.0000 0.9697 1.0000 0.0303
10 1 0 0.0303 0.0000 1.0000 1.0000 0.0000
H0: Las dos muestras son tomadas de poblaciones con igual número de lados de los polígonos.
H1: Las dos muestras son tomadas de poblaciones con diferente número de lados de los polígonos.
H0: faB = faF H1: faB ≠ faF
Nivel de significación, = 0,05 D(0,05) = 0,241
Suelo arcilloso
Basalto
1364,0max faFfaBd
Debido a que d < D(0,05) (0,1364 < 0,241), no existen evidencias para rechazar la hipótesis nula. Los procesos que originan las grietas de desecación y la disyunción columnar son similares.
Ejemplo: Los procesos de desecación de suelos arcillosos son similares a los que forman la disyunción columnar de los basaltos y el número de lados de los barquillos de fango (F) y de las columnas de basalto (B) serán iguales pues la contracción por desecación o por enfriamiento es equidistante desde un punto y tiende a formar estructuras hexagonales.
nB = 33; nF = 36
B.TABLAS DE CONTINGENCIA •Objetivo Inferir si en la población de la que es extraída la muestra, existe alguna relación entre las frecuencias de ocurrencia simultanea entre dos variables aleatorias. Las variables son atributos categóricos, codificados o en escalas nominales. Cada individuo se clasifica teniendo en cuenta simultáneamente las dos variables. Se registra la frecuencia de ocurrencia en cada individuo que forma parte de la muestra.
•Hipótesis Hipótesis nula: las variables son independientes. H0: fo=fe
Hipótesis alternativa: las variables no son independientes. H1: fo≠fe
k
i
cfe
fefo
1
22 )(
fo: frecuencia observada en 1 celda
fe: frecuencia esperada en 1 celda
k: número de celdas de la tabla
TF: total de fila
TC: total de columna
TT=N= N° de datos
•Prueba de hipótesis 2
),(
2
c
•Decisión estadística Cuando se acepta la hipótesis nula, se
puede afirmar que la muestra es extraída de
una población en donde las variables son
independientes, con una confianza α.
•Estadístico de prueba
)1)(1( columnasdenumerofilasdenumero
TT
TCTFfe
La hipótesis nula
se rechaza
V1 V2
1 ... n 1 x
...
m
Tabla de contingencia
Ejemplo: El objetivo del trabajo es investigar si en los humanos el color del pelo es independiente del sexo.
H0: fo=fe
H1: fo≠fe
8,987 > 7,81
El valor de 2c es menor al 2 crítico de tabla.
No se encuentran evidencias suficientes para aceptar la H0 de independencia entre el
color del pelo y el sexo trabajando con un nivel de significación de 5%.
H0: El color del pelo es independiente del sexo. H1: El color del pelo no es independiente del sexo.
= 0,05
CORRECCIÓN POR CONTINUIDAD Cuando los grados de libertad =1 y n<200, el estadístico de contraste 2 de la prueba de hipótesis se debe corregir. La corrección por continuidad de Yates
k
i
cfe
fefo
1
2
2)5,0(
000,46000,34000,010
)1016(
90
)9084()( 22
1
22
k
i
cfe
fefo
3611,30250,33361,010
)5,01016(
90
)5,09084()5,0( 22
1
2
2
k
i
cfe
fefo
H0: Los datos provienen de una población con relación 9:1 de G. truncatulinoides
dextrógiras-levógiras.
HA: Los datos provienen de una población donde la relación G. truncatulinoides
dextrógiras-levógiras no es 9:1.
N = 100
fe valvas dextrógiras = (0,9) 100 = 90
fe valvas levógiras = (0,1) 100 = 10
Grados de libertad = k – 1 = 2 – 1 = 1
Nivel de significación = 0,05
= 3,84
Utilizando la corrección por continuidad de Yates se obtiene
Si no se utiliza la corrección de Yates se rechaza la hipótesis nula dado que 4,00 > 3,84.
Si se utiliza la corrección de Yates que no existen evidencias para rechazar la hipótesis
nula puesto que 3,36 < 3,84.
Se puede concluir que los ejemplares provienen de una población donde la relación de G.
truncatulinoides dextrógiras-levógiras es 9:1 lo que indicaría que se trata de aguas cálidas.
Dextrógiras Levógiras
fo 84 16
fe 90 10
Ejemplo. El sentido de enroscamiento de los caparazones del foraminífero
Globorotalia truncatulinoides, se usa para estimar la paleotemperatura del agua de mar. Las valvas dextrógiras ocurren en una relación 9:1 sobre las levógiras en aguas cálidas. El objetivo del estudio es determinar la paleotemperatura del agua en un nivel de un testigo recogido a la latitud de Buenos Aires en la plataforma.