Ejercicio de Regresión Técnico en Riesgos September 22, 2017 Cargamos la base de datos rm(list=ls()) setwd("G:/UCR TR-ESTADISTICA/Curso 21-07-17/Clase 7") WiscLottery<-read.table("WiscLottery.csv",header=TRUE, row.names=1, sep=,) head(WiscLottery,10) ## PERPERHH MEDSCHYR MEDHVL PRCRENT PRC55P HHMEDAGE MEDINC SALES ## 53003 3.0 12.6 71.3 21 38 48 54.2 1285.400 ## 53033 3.2 12.9 98.0 6 28 46 70.7 3571.450 ## 53038 2.8 12.4 58.7 25 35 45 43.6 2407.037 ## 53059 3.1 12.5 65.7 24 29 45 51.9 1223.825 ## 53072 2.6 13.1 96.7 32 27 42 63.1 15046.400 ## 53083 2.7 12.8 66.4 25 38 48 55.7 9128.725 ## 53095 2.8 12.9 91.0 31 37 48 54.9 33181.400 ## 53098 2.9 12.5 61.0 26 40 50 46.9 2242.988 ## 53104 2.8 12.8 91.5 18 35 48 62.3 21587.800 ## 53172 2.6 12.7 68.8 37 39 47 49.1 15693.275 ## POP ## 53003 435 ## 53033 4823 ## 53038 2469 ## 53059 2051 ## 53072 13337 ## 53083 17004 ## 53095 38283 ## 53098 9859 ## 53104 4464 ## 53172 20958 Analicemos la base de datos summary(WiscLottery) ## PERPERHH MEDSCHYR MEDHVL PRCRENT ## Min. :2.200 Min. :12.20 Min. : 34.50 Min. : 6.00 ## 1st Qu.:2.600 1st Qu.:12.50 1st Qu.: 43.77 1st Qu.:19.25 ## Median :2.700 Median :12.60 Median : 53.90 Median :24.00 ## Mean :2.706 Mean :12.70 Mean : 57.09 Mean :24.68 ## 3rd Qu.:2.800 3rd Qu.:12.78 3rd Qu.: 66.47 3rd Qu.:27.00 ## Max. :3.200 Max. :15.90 Max. :120.00 Max. :62.00 1
45
Embed
Ejercicio de Regresiónestadisticaymatematicaucr.mex.tl/imagesnew2/0/0/0/2/1/4/5/8/7/0/... · #Regresión lineal múltiple #Ahora intentemos probar algunas otras especificaciones.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Ejercicio de RegresiónTécnico en RiesgosSeptember 22, 2017
## PERPERHH MEDSCHYR MEDHVL PRCRENT## Min. :2.200 Min. :12.20 Min. : 34.50 Min. : 6.00## 1st Qu.:2.600 1st Qu.:12.50 1st Qu.: 43.77 1st Qu.:19.25## Median :2.700 Median :12.60 Median : 53.90 Median :24.00## Mean :2.706 Mean :12.70 Mean : 57.09 Mean :24.68## 3rd Qu.:2.800 3rd Qu.:12.78 3rd Qu.: 66.47 3rd Qu.:27.00## Max. :3.200 Max. :15.90 Max. :120.00 Max. :62.00
1
## PRC55P HHMEDAGE MEDINC SALES## Min. :25.0 Min. :41.00 Min. :27.90 Min. : 189.0## 1st Qu.:35.0 1st Qu.:46.00 1st Qu.:38.17 1st Qu.: 821.3## Median :40.0 Median :48.00 Median :43.10 Median : 2426.4## Mean :39.7 Mean :48.76 Mean :45.12 Mean : 6494.8## 3rd Qu.:44.0 3rd Qu.:51.00 3rd Qu.:53.62 3rd Qu.:10016.5## Max. :56.0 Max. :59.00 Max. :70.70 Max. :33181.4## POP## Min. : 280## 1st Qu.: 1964## Median : 4406## Mean : 9311## 3rd Qu.:15446## Max. :39098
#SALES:Online lottery sales to individual consumers#POP: Population, in thousands
Revisemos normalidad
# La linea del QQ plot, es la linea que une el cuantil 25 con el 75 de la distribución teórica y la distribución empírica.normalidad <- function(var){
qqnorm(var)qqline(var)hist(var)boxplot(var)
}normalidad(WiscLottery$SALES)
3
−2 −1 0 1 2
050
0015
000
2500
0Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
4
Histogram of var
var
Fre
quen
cy
0 5000 10000 15000 20000 25000 30000 35000
05
1015
2025
30
5
050
0015
000
2500
0
#Nota qqplot:#- En el eje X se presentan los cuantiles de la distribución normal.#- En el eje Y se presentan los cuantiles de la distribución muestral.#- Entre más cercana la distribución empírica a la normal, más se parece el gráfico a una línea recta.
#Además, revisemos cómo es el comportamiento de la variable POPnormalidad(WiscLottery$POP)
6
−2 −1 0 1 2
010
000
2000
030
000
4000
0Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
7
Histogram of var
var
Fre
quen
cy
0 10000 20000 30000 40000
05
1015
2025
8
010
000
2000
030
000
4000
0
Primer Modelo
#Realicemos el primer modelo, dejando de lado la no normalidad de la variable dependiente:modelo1<-lm(SALES~POP, data = WiscLottery)modelo1
#### Call:## lm(formula = SALES ~ POP, data = WiscLottery)#### Residuals:## Min 1Q Median 3Q Max## -6046.7 -1460.9 -670.5 485.6 18229.5##
9
## Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 469.70360 702.90619 0.668 0.507## POP 0.64709 0.04881 13.258 <2e-16 ***## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 3792 on 48 degrees of freedom## Multiple R-squared: 0.7855, Adjusted R-squared: 0.781## F-statistic: 175.8 on 1 and 48 DF, p-value: < 2.2e-16
qnorm(0.025,0,1)
## [1] -1.959964
qnorm(0.975)
## [1] 1.959964
#Calculemos los valores ajustados y errores del primer modelo:valores.ajustados1<-predict(modelo1,data=WiscLottery)plot(WiscLottery$POP,WiscLottery$SALES)lines(WiscLottery$POP,valores.ajustados1,type="l",col="green")
#Tranformación logarítmica#La tranformación mantiene el orden de los valores pero ajustando los valores extremos de la distribución más cerca del resto. Por lo tanto, permiten simetrizar distribuciones que son sesgadas o desviadas.
#Ahora intentemos probar algunas otras especificaciones. Para esto reproduzcamos nuevamente la matriz de correlaciones y veamos cuáles son las variables que se encuentran más correlacionadas con la variable dependiente:
#Ahora ajustemos un modelo más parsimonioso, tomemos en cuenta las variables que tuvieron un alto nivel de correlación y que a su vez resultaron significativas en el modelo3:modelo4<-lm(SALES~MEDSCHYR+MEDHVL+POP,data=WiscLottery)modelo4
## Series: AirPassengers## ARIMA(1,1,1)#### Coefficients:## ar1 ma1## -0.4741 0.8634## s.e. 0.1159 0.0720#### sigma^2 estimated as 975.8: log likelihood=-694.34## AIC=1394.68 AICc=1394.86 BIC=1403.57#### Training set error measures:## ME RMSE MAE MPE MAPE MASE## Training set 1.9209 30.91125 24.12176 0.4150742 8.566115 0.7530918## ACF1## Training set 0.03749257