Regresja logistyczna - ćwiczenia

Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”

I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

1

Regresja logistyczna - ćwiczenia

Budowa karty scoringowej




2

Struktura ćwiczeń

1. Zastosowanie modelu regresji logistycznej w praktyce biznesowej

2. Ocena statystyczna danych

3. Model Regresji Logistycznej- SAS Base

4. Model Regresji Logistycznej- EG

5. Interpretacja wyników

6. Pozostałe zagadnienia

- selekcja zmiennych

- ocena jakości modelu

- dyskryminacja

- obserwacje odstające i wpływowe

- nieliniowość modelu i interakcje

- cross-walidacja




3

Zastosowanie modelu regresji logistycznej w Zastosowanie modelu regresji logistycznej w praktyce biznesowejpraktyce biznesowej

• Marketing – do określenia docelowego segmentu/grupy klientów do których powinna być skierowana akcja promocyjna na podstawie historycznego zachowania dotychczasowych odbiorców i ich charakterystyk.

• Scoring kredytowy – do określenia decyzji kredytowej, na podstawie dotychczasowego zachowania klientów banku określa się czy nowy klient o danych charakterystykach otrzyma pozytywną decyzję kredytową czy nie.

• Wykrywanie fraudów – do określenia próby oszustw na transakcjach typu: karty kredytowe, roszczenia ubezpieczeniowe itp., na podstawie okoliczności i warunków dotyczących historycznych transakcji oraz informacji czy doszło do oszustwa określa się czy nowa transakcja lub roszczenie wymaga szczegółowego przyjrzenia się czy też nie wymaga.




4

Budowa aplikacyjnej karty scoringowejBudowa aplikacyjnej karty scoringowej

• Grupa docelowa: klient indywidualny, osoba fizyczna występująca do Banku o kredyt

• Charakterystyki: głównie charakterystyki demograficzne, społeczno-ekonomiczne i finansowe

• Główny cel budowy karty: celem jest nadanie oceny scoringowej na podstawie informacji zebranych we wniosku, zazwyczaj jest to podział na ocenę: zaakceptowany lub odrzucony.

• Dodatkowa informacja z karty: dodatkowo, w zależności od zastosowanej metody Banki mogą uzyskać informację o prawdopodobieństwie niewywiązania się klienta z zobowiązań (regresja logistyczna). W przypadku np. drzew decyzyjnych, funkcji dyskryminacyjnej lub sieci nuronowych takich informacji nie ma.




5

Etapy budowy i monitoringu karty scoringowejEtapy budowy i monitoringu karty scoringowej

Etap I.

Zbieranie danych i czyszczenie

Etap II.

Budowa statystycznej karty scoringowej

Etap III.

Pre-walidacja i testy użytkowania

Etap IV.

Wdrożenie karty w Banku

Etap V.

Cykliczna walidacja

W zależności od wyników walidacji: przebudowa karty lub jej dalsze użytkowanie




6

Baza danych do budowy kartyBaza danych do budowy karty

Do obejrzenia struktury danych wykorzystamy następujące procedury:

1. Skopiowanie pliku w celu uniknięcia jego nadpisania:

libname karta 'ścieżka do katalogu';data karta.Score;set karta.German;run;




7

Baza danych do budowy kartyBaza danych do budowy karty

Do obejrzenia struktury danych wykorzystamy następujące procedury:

2. Obejrzenie struktury pliku za pomocą procedury:

proc contents data=karta.Score;run;




8

Alphabetic List of Variables and Attributes

# Variable Type Len Format Informat Label

1 acc_status Char 3 $3. $3. acc_status13 age Num 8 age 5 credit_amt Num 8 credit_amt 3 credit_history Char 3 $3. $3. credit_history10 debtors Char 4 $4. $4. debtors21 default Num 8 default 2 duration Num 8 duration 7 employment Char 3 $3. $3. employment20 foreign_worker Char 4 $4. $4. foreign_worker15 housing Char 4 $4. $4. housing 8 instalment Num 8 instalment17 job Char 4 $4. $4. job16 number_of_credit Num 8 number_of_credit14 other_instalments Char 4 $4. $4. other_instalments18 people Num 8 people 9 personal_status Char 3 $3. $3. personal_status 4 pourpose Char 4 $4. $4. pourpose12 property Char 4 $4. $4. property11 residence Num 8 residence 6 savings Char 3 $3. $3. savings19 telephone Char 4 $4. $4. telephone




9

Ocena statystyczna danychOcena statystyczna danych

1. Wartości minimalne i maksymalne

2. Błędy

3. Obserwacje odstające

4. Braki danych

Dla zmiennych numerycznych: ocena za pomocą procedury MEANS

Dla zmiennych nominalnych: ocena za pomocą procedury FREQ




10

Ocena statystyczna zmiennych numerycznychOcena statystyczna zmiennych numerycznych

Dla zmiennych numerycznych ocena może odbyć się za pomocą procedury MEANS:

proc means data=karta.Score n nmiss mean min p5 p95 max;

var age credit_amt default duration instalment

number_of_credit people residence;

run;

* Na wydruku przedstawiono wyniki w zaokrągleniu do 2 miejsc dziesiętnych.




11

The MEANS Procedure

N

Variable Label N Miss Mean Minimum 5th Ptcl 95th Pctl Maximum

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

age age 1000 0 35.55 19.00 22.00 60.00 75.00

credit_amt credit_amt 1000 0 3271.26 250.00 708.50 9214.0 18424.00

default default 1000 0 0.30 0 0 1.00 1.00

duration duration 1000 0 20.90 4.00 6.00 48.00 72.00

instalment instalment 1000 0 2.97 1.00 1.00 4.00 4.00

number_of_credit number_of_credit 1000 0 1.41 1.00 1.00 2.00 4.00

people people 1000 0 1.15 1.00 1.00 2.00 2.00

residence residence 1000 0 2.84 1.00 1.00 4.00 4.00

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ




12

Z przeprowadzonej analizy wynika:

1. Nie występują braki danych, zbiór już jest oczyszczony, w przypadku braków danych należałoby obserwacje usunąć lub zastosować techniki imputacji jeśli stanowiłyby zbyt duży odsetek obserwacji.

2. Dwie zmienne: default oraz people to zmienne binarne. Zmienna default to zmienna celu (zależna) przyjmująca wartość 0 jeśli nie wystąpiło zdarzenie niewykonania zobowiązań lub 1 w przeciwnym przypadku. Odsetek tzw. „defaultów” wynosi 30%.

3. Z porównania wartości 95 centyla i maximum wynika że zmienna credit_amt jest zmienną o rozkładzie asymetrycznym.

4. Zmienne instalment, number_of_credit residence to zmienne numeryczne dyskretne, tylko zmienne age credit_amt duration to zmienne numeryczne o charakterze ciągłym.




13

Ocena statystyczna zmiennych nominalnychOcena statystyczna zmiennych nominalnych

Dla zmiennych nominalnych ocena może odbyć się za pomocą procedury FREQ:

proc freq data=karta.Score;

tables acc_status credit_history debtors employment foreign_worker housing job other_instalments personal_status pourpose property savings telephone;

run;

* Na wydruku przedstawiono wyniki w zaokrągleniu do 2 miejsc dziesiętnych.




14

The FREQ Procedure

acc_status

acc_ Cumulative Cumulativestatus Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA11 274 27.40 274 27.40A12 269 26.90 543 54.30A13 63 6.30 606 60.60A14 394 39.40 1000 100.00

credit_history

credit_ Cumulative Cumulativehistory Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA30 40 4.00 40 4.00A31 49 4.90 89 8.90A32 530 53.00 619 61.90A33 88 8.80 707 70.70A34 293 29.30 1000 100.00




15

debtors

Cumulative Cumulativedebtors Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA101 907 90.70 907 90.70A102 41 4.10 948 94.80A103 52 5.20 1000 100.00

employment

Cumulative Cumulativeemployment Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA71 62 6.20 62 6.20A72 172 17.20 234 23.40A73 339 33.90 573 57.30A74 174 17.40 747 74.70A75 253 25.30 1000 100.00




16

foreign_worker

foreign_ Cumulative Cumulativeworker Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA201 963 96.30 963 96.30A202 37 3.70 1000 100.00

housing

Cumulative Cumulativehousing Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA151 179 17.90 179 17.90A152 713 71.30 892 89.20A153 108 10.80 1000 100.00

job

Cumulative Cumulativejob Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA171 22 2.20 22 2.20A172 200 20.00 222 22.20A173 630 63.00 852 85.20A174 148 14.80 1000 100.00




17

other_instalments

other_ Cumulative Cumulativeinstalments Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA141 139 13.90 139 13.90A142 47 4.70 186 18.60A143 814 81.40 1000 100.00

personal_status

personal_ Cumulative Cumulativestatus Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA91 50 5.00 50 5.00A92 310 31.00 360 36.00A93 548 54.80 908 90.80A94 92 9.20 1000 100.00




18

pourpose

Cumulative Cumulativepourpose Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA40 234 23.40 234 23.40A41 103 10.30 337 33.70A410 12 1.20 349 34.90A42 181 18.10 530 53.00A43 280 28.00 810 81.00A44 12 1.20 822 82.20A45 22 2.20 844 84.40A46 50 5.00 894 89.40A48 9 0.90 903 90.30A49 97 9.70 1000 100.00

property

Cumulative Cumulativeproperty Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA121 282 28.20 282 28.20A122 232 23.20 514 51.40A123 332 33.20 846 84.60A124 154 15.40 1000 100.00




19

savings

Cumulative Cumulativesavings Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA61 603 60.30 603 60.30A62 103 10.30 706 70.60A63 63 6.30 769 76.90A64 48 4.80 817 81.70A65 183 18.30 1000 100.00

telephone

Cumulative Cumulativetelephone Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA191 596 59.60 596 59.60A192 404 40.40 1000 100.00




20

Z przeprowadzonej analizy wynika:

1. Zmienne foreign_worker oraz telephone to zmienne binarne.

2. W zmiennych acc_status credit_history debtors employment foreign_worker job other_instalments personal_status pourpose savings występują kategorie z niską liczbą obserwacji (poniżej 10%), należy rozważyć połączenie tych kategorii z innymi o podobnym profilu ryzyka, profil może być oceniony np. przez proporcję obserwacji „default” czyli zmiennej celu.

3. W przypadku zmiennych z dużą liczbą kategorii, nawet jeśli nie występują kategorie z niską liczbą obserwacji należy pogrupować kategorie w grupy o podobnym profilu np. przez proporcję obserwacji „default”.

4. Zmienne nominalne (nie porządkowe) mogą być włączone do modelu tylko jako zmienne binarne (z zastosowaniem kodowania zero-jedynkowego).




21

Ocena statystyczna zmiennych nominalnychOcena statystyczna zmiennych nominalnych

W celu poprawnej kategoryzacji zmiennych nominalnych należy porównać proporcje „default” dla każdej kategorii zmiennych za pomocą procedury FREQ:proc freq data=karta.Score;

tables acc_status*default credit_history*defaultdebtors*default employment*defaultforeign_worker*default housing*default job*defaultother_instalments*default personal_status*defaultpourpose*default property*default savings*defaulttelephone*default/ nocol nopercent;

run;

* Na wydruku przedstawiono wyniki tylko dla zmiennych wymagających zmian.

tylko udziały w wierszu, bez udziałów kolumnowych i komórkowych




22

Table of acc_status by default

acc_status(acc_status) default(default)Frequency‚Row Pct ‚ 0‚ 1‚ TotalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ11 ‚ 139 ‚ 135 ‚ 274 ‚ 50.73 ‚ 49.27 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ12 ‚ 164 ‚ 105 ‚ 269 ‚ 60.97 ‚ 39.03 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ13 ‚ 49 ‚ 14 ‚ 63 ‚ 77.78 ‚ 22.22 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ14 ‚ 348 ‚ 46 ‚ 394 ‚ 88.32 ‚ 11.68 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 700 300 1000

Propozycja:Połączenie kategorii A13 i A12 ze

względu na:1. Podobieństwo profilu ryzyka2. Najbliższe podobieństwo

merytoryczne:A12 : 0 <= ... < 200 DMA13 : ... >= 200 DM / salary

assignments for at least 1 year




23

Table of credit_history by default

credit_history(credit_history)default(default)

Frequency‚Row Pct ‚ 0‚ 1‚ TotalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ30 ‚ 15 ‚ 25 ‚ 40 ‚ 37.50 ‚ 62.50 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ31 ‚ 21 ‚ 28 ‚ 49 ‚ 42.86 ‚ 57.14 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ32 ‚ 361 ‚ 169 ‚ 530 ‚ 68.11 ‚ 31.89 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ33 ‚ 60 ‚ 28 ‚ 88 ‚ 68.18 ‚ 31.82 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ34 ‚ 243 ‚ 50 ‚ 293 ‚ 82.94 ‚ 17.06 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 700 300 1000

Propozycja:Połączenie kategorii A30 i A31 oraz A32 i

A33 ze względu na:1. Podobieństwo profilu ryzyka2. Najbliższe podobieństwo

merytoryczne:A30 : no credits taken/all credits paid

back duly A31 : all credits at this bank paid

back duly A32 : existing credits paid back duly

till now A33 : delay in paying off in the past




24

Table of debtors by default

debtors(debtors) default(default)

Frequency‚Row Pct ‚ 0‚ 1‚ TotalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ101 ‚ 635 ‚ 272 ‚ 907 ‚ 70.01 ‚ 29.99 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ102 ‚ 23 ‚ 18 ‚ 41 ‚ 56.10 ‚ 43.90 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ103 ‚ 42 ‚ 10 ‚ 52 ‚ 80.77 ‚ 19.23 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 700 300 1000

Propozycja:Brak możliwości połączenie kategorii ze

względu na:1. Niskie podobieństwo profilu ryzyka2. Brak podobieństwa merytorycznego:

Other debtors / guarantorsA101 : none A102 : co-applicant A103 : guarantor

Uwaga: możliwość obciążenia szacowanych estymatorów ze względu na małe liczebności grup!




25

Table of employment by default

employment(employment)default(default)




merytoryczne:A71 : unemployed A72 : ... < 1 year employment




26

The FREQ Procedure

Table of foreign_worker by default

foreign_worker(foreign_worker)default(default)

Frequency‚Row Pct ‚ 0‚ 1‚ TotalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ201 ‚ 667 ‚ 296 ‚ 963 ‚ 69.26 ‚ 30.74 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ202 ‚ 33 ‚ 4 ‚ 37 ‚ 89.19 ‚ 10.81 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 700 300 1000

Propozycja:Brak możliwości połączenie kategorii ze

względu na:1. Niskie podobieństwo profilu ryzyka2. Brak podobieństwa merytorycznego:

foreign worker A201 : yes A202 : no

Uwaga: możliwość obciążenia szacowanych estymatorów ze względu na małą liczebność grupy!




27

Table of job by default

job(job) default(default)

Frequency‚Row Pct ‚ 0‚ 1‚ TotalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ171 ‚ 15 ‚ 7 ‚ 22 ‚ 68.18 ‚ 31.82 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ172 ‚ 144 ‚ 56 ‚ 200 ‚ 72.00 ‚ 28.00 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ173 ‚ 444 ‚ 186 ‚ 630 ‚ 70.48 ‚ 29.52 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ174 ‚ 97 ‚ 51 ‚ 148 ‚ 65.54 ‚ 34.46 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 700 300 1000



merytoryczne:A171 : unemployed/ unskilled -

non-resident A172 : unskilled - resident




28

Table of other_instalments by defaultother_instalments(other_instalments) default(default)

Frequency‚Row Pct ‚ 0‚ 1‚ TotalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ141 ‚ 82 ‚ 57 ‚ 139 ‚ 58.99 ‚ 41.01 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ142 ‚ 28 ‚ 19 ‚ 47 ‚ 59.57 ‚ 40.43 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ143 ‚ 590 ‚ 224 ‚ 814 ‚ 72.48 ‚ 27.52 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 700 300 1000



merytoryczne:Other installment plans

A141 : bank A142 : stores




29

Table of personal_status by default

personal_status(personal_status)default(default)

Frequency‚Row Pct ‚ 0‚ 1‚ TotalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ91 ‚ 30 ‚ 20 ‚ 50 ‚ 60.00 ‚ 40.00 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ92 ‚ 201 ‚ 109 ‚ 310 ‚ 64.84 ‚ 35.16 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ93 ‚ 402 ‚ 146 ‚ 548 ‚ 73.36 ‚ 26.64 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ94 ‚ 67 ‚ 25 ‚ 92 ‚ 72.83 ‚ 27.17 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 700 300 1000

Propozycja:Połączenie kategorii A91, A93 i A94 ze

względu na:1. Częściowe podobieństwo profilu ryzyka

ale znacznie bardziej:2. Najbliższe podobieństwo merytoryczne:

A91:male:divorced/separatedA92:female:divorced/separated/married A93:male : single A94:male : married/widowedA95 : female : single




30

Table of pourpose by default

pourpose(pourpose)default(default)

Frequency‚Row Pct ‚ 0‚ 1‚ TotalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ40 ‚ 145 ‚ 89 ‚ 234 ‚ 61.97 ‚ 38.03 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ41 ‚ 86 ‚ 17 ‚ 103 ‚ 83.50 ‚ 16.50 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ410 ‚ 7 ‚ 5 ‚ 12 ‚ 58.33 ‚ 41.67 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ42 ‚ 123 ‚ 58 ‚ 181 ‚ 67.96 ‚ 32.04 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ43 ‚ 218 ‚ 62 ‚ 280 ‚ 77.86 ‚ 22.14 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ44 ‚ 8 ‚ 4 ‚ 12 ‚ 66.67 ‚ 33.33 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ45 ‚ 14 ‚ 8 ‚ 22 ‚ 63.64 ‚ 36.36 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ46 ‚ 28 ‚ 22 ‚ 50 ‚ 56.00 ‚ 44.00 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ48 ‚ 8 ‚ 1 ‚ 9 ‚ 88.89 ‚ 11.11 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒÂ49 ‚ 63 ‚ 34 ‚ 97 ‚ 64.95 ‚ 35.05 ‚ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 700 300 1000

Propozycja: Połączenie kategorii A46, A410 i A48 oraz

A44 i A45 oraz ze względu na podobieństwo profilu ryzyka oraz podobieństwo merytoryczne: Purpose A40 : car (new) A41 : car (used) A42 : furniture/equipment A43 : radio/television A44 : domestic appliances A45 : repairs A46 : education A47 : vacation A48 : retraining A49 : business A410 : others




31

Table of savings by default

savings(savings) default(default)




merytoryczne:Savings account/bonds

A63 : 500 <= ... < 1000 DM

A64 : .. >= 1000 DM




32

Za pomocą prostego DATA Stepu dokonamy transformacji (grupowania kategorii) zmiennych aby uzyskać dane umożliwiające poprawną estymację modelu:

data karta.Score;set karta.Score; if acc_status="A13" then acc_status="A12"; if credit_history="A31" then credit_history="A30"; if credit_history="A33" then credit_history="A32"; if employment="A72" then employment="A71"; if job="A172" then job="A171"; if other_instalments="A142" then other_instalments="A141"; if personal_status="A93" or personal_status="A94” then personal_status="A91"; if pourpose="A410" or pourpose="A48" then pourpose="A46"; if pourpose="A45" then pourpose="A44"; if savings="A64" then savings="A63";run;




33

Innym sposobem łączenia kategorii zmiennej jest przeprowadzenie analizy skupień.

Jest to przydatna metoda w sytuacji kiedy zmienna posiada kilkanaście lub więcej kategorii np. województwo i nie można zastosować kryterium innego niż np. stopy default, odległość itp. brak podstaw merytorycznych dołączenia kategorii.

W naszym przykładzie można zastosować tą metodę tylko do zmienne pourpose i porównać wyniki z zaproponowanym eksperckim grupowaniem.

Należy wyznaczyć średnie stopy default dla danej kategorii a następnie przyjąć te wartości jako charakterystyki będące podstawą grupowania.

Wykorzystanie analizy skupieńWykorzystanie analizy skupień




34

Analiza obejmuje w takiej sytuacji dwa kroki:1. Zastosowanie procedury PROC MEANS do wyznaczenia proporcji

defaultów dla danej kategorii zmiennej pourpose:

proc means data=karta.Score noprint nway;class pourpose; var default; output out=Cluster mean=proporcja;

run;

2. Zastosowanie procedury PROC CLUSTER do wyznaczenia skupień:

proc cluster data=Cluster method=ward;freq _freq_;

var proporcja;id pourpose;

run;

Wykorzystanie analizy skupieńWykorzystanie analizy skupień




35

The CLUSTER Procedure Ward's Minimum Variance Cluster Analysis

Eigenvalues of the Covariance Matrix

Eigenvalue Difference Proportion Cumulative

1 0.00701187 1.0000 1.0000

Root-Mean-Square Total-Sample Standard Deviation = 0.083737Root-Mean-Square Distance Between Observations = 0.118422

Cluster History T iNCL --Clusters Joined--- FREQ SPRSQ RSQ e

9 A42 A44 193 0.0003 1.008 A45 A49 119 0.0004 .9997 A410 A46 62 0.0008 .9996 A41 A48 112 0.0034 .9955 A40 CL8 353 0.0085 .9874 CL5 CL7 415 0.0312 .9553 CL6 A43 392 0.0421 .9132 CL4 CL9 608 0.0665 .8471 CL2 CL3 1000 0.8468 .000




36

Podsumowując wyniki analizy skupień:

Duże rozbieżności pomiędzy wynikami grupowania z analizy skupień – tylko kryterium ilościowe tzn stopa default a grupowaniem eksperckim

Grupowanie eksperckie uwzględnia również podział merytoryczny

Postępowanie w takich przypadkach powinno obejmować zarówno ocenę ilościową (analiza skupień) jak i jakościową (grupowanie eksperckie – merytoryczne).




37

Regresja logistyczna w systemie SASRegresja logistyczna w systemie SAS

Do estymacji modelu regresji logistycznej w systemie SAS z zastosowaniem metody największej wiarygodności można wykorzystać następujące procedury:

- PROC LOGISTIC

- PROC GENMOD

- PROC CATMOD

- PROC DMREG (Enterprise Miner)




38

PROC LOGISTIC – opcje proceduryPROC LOGISTIC – opcje procedury1. PROC LOGISTIC < options >;

2. BY variables ;

3. CLASS variable <(v-options)> <variable <(v-options)>... > < / v-options >;

4. CONTRAST 'label' effect values <,... effect values>< /options >;

5. EXACT < 'label' >< Intercept >< effects >< / options > ;

6. FREQ variable ;

7. MODEL events/trials = < effects > < / options >;

8. OUTPUT < OUT=SAS-data-set > <keyword=name...keyword=name> / <option>;

9. SCORE < options >;

10. STRATA effects < / options >;

11. < label: > TEST equation1 < , ... , < equationk >> < /option >;

12. UNITS independent1 = list1 < ... independentk = listk > < /option > ;

13. WEIGHT variable </ option >;

1. Wskazanie zbioru danych, opcje ogólne2. Przeprowadzenie analizy w podgrupach (zbiór musi

być wcześniej posortowany)3. Wskazanie zmiennych jakościowych i określenie ich

kodowania4. Przeprowadzenie testu liniowych ograniczeń, przy

czym w testowanym równaniu nie może występować stała

5. Dokładne testy istotności parametrów6. Wskazanie zmiennej określającej częstości

obserwacji (dane pogrupowane)7. Określenie postaci modelu i opcji, np: wyliczenie

dodatkowych miar8. Zapisanie pewnych informacji do zbioru SAS9. Obliczenie score (prawdopodobieństw) z gotowego

modelu na nowych danych10. Przeprowadzenie stratyfikowanej regresji

logistycznej11. Przeprowadzenie testów liniowych ograniczeń12. Zadanie dla jakich zmian wartości zmiennych

ciągłych mają być obliczone ilorazy szans13. Wskazanie zmiennej zawierającej wagi obserwacji




39

Model karty scoringowejModel karty scoringowejInput: zmienna objaśniająca tzw. zmienna celu to zmienna zero-jedynkowa: default:

1 oznacza że klient w ciągu roku od uzyskania kredytu przestał regulować swoje zobowiązania wobec Banku tzw. klient „zły”,

0 oznacza klienta tzw. „dobrego” czyli klienta który w ciągu roku po otrzymaniu kredytu regularnie wywiązywał się ze swoich zobowiązań wobec Banku.

Zmienne objaśniające, charakterystyki opisujące klienta w momencie aplikacji czyli w momencie wniosku o kredyt:acc_status credit_history debtors employment foreign_worker housing job other_instalments personal_status pourpose property savings telephone age credit_amt default duration instalment number_of_credit people residence




40

Zastosowanie modelu regresji logistycznejZastosowanie modelu regresji logistycznej

Estymacja modelu regresji logistycznej do budowy karty scoringowej będzie obejmowała następujące kroki:

1. Budowa prostego modelu włączającego wszystkie zmienne w EG oraz w 4GL (nie wszystkie opcje PROC LOGISTIC są dostępne w EG)

2. Zastosowanie różnych metod selekcji zmiennych oraz porównanie otrzymanych wyników

3. Ocena statystyczna modelu – oszacowanie podstawowych charakterystyk, wykresy ROC i obserwacji wpływowych

4. Walidacja modelu na próbce testowe tzw. cross-walidacja

5. Interpretacja przydatności otrzymanego modelu w praktyce, możliwości prognozy na bazie modelu.




41

Estymacja modelu w EG – wczytanie zmiennychEstymacja modelu w EG – wczytanie zmiennych

order descending




42

Estymacja modelu w EG – wczytanie zmiennychEstymacja modelu w EG – wczytanie zmiennych

Reference




43

Estymacja modelu w EG – tylko efekty główneEstymacja modelu w EG – tylko efekty główne




44

Estymacja modelu w EG – wszystkie zmienne bez selekcjiEstymacja modelu w EG – wszystkie zmienne bez selekcji




45

Estymacja modelu w EG – bez opcji dodatkowychEstymacja modelu w EG – bez opcji dodatkowych




46

Kod 4GL wygenerowany przez EGKod 4GL wygenerowany przez EG

PROC LOGISTIC DATA=Score;CLASS acc_status (PARAM=REF)credit_history (PARAM=REF) pourpose (PARAM=REF)savings (PARAM=REF) employment (PARAM=REF) personal_status (PARAM=REF)debtors (PARAM=REF)property (PARAM=REF) other_instalments (PARAM=REF) housing (PARAM=REF) job (PARAM=REF) telephone (PARAM=REF) foreign_worker (PARAM=REF);MODEL default=age credit_amt duration instalment number_of_credit people residence acc_status credit_history debtors employment foreign_worker housing job other_instalments personal_status pourpose property savings telephone/SELECTION=NONE LINK=LOGIT;

RUN;QUIT;

Wady: brak możliwości ustawienia kategorii referencyjnej; brak możliwości zmiany jednostki w ODDS ratios




47

Interpretacja wyników z EGInterpretacja wyników z EG

Model Information

Data Set WORK.SORT9591

Response Variable default default

Number of Response Levels 2

Model binary logit

Optimization Technique Fisher's scoring

Number of Observations Read 1000

Number of Observations Used 1000

Response Profile

OrderedValue

default TotalFrequency

1 1 300

2 0 700

Ogólne informacje o danych wykorzystanych do modelowania: Zmienna zależna: default, Kolejność: malejąca Liczebność „1”=300 „0”=700 razem 1000




48

Class Level Information

Class Value Design Variables

acc_status A11 1 0

A12 0 1

A14 0 0

credit_history A30 1 0

A32 0 1

A34 0 0

pourpose A40 1 0 0 0 0 0

A41 0 1 0 0 0 0

A42 0 0 1 0 0 0

A43 0 0 0 1 0 0

A44 0 0 0 0 1 0

A46 0 0 0 0 0 1

A49 0 0 0 0 0 0

savings A61 1 0 0

A62 0 1 0

A63 0 0 1

A65 0 0 0

employment A71 1 0 0

A73 0 1 0

A74 0 0 1

A75 0 0 0



personal_status 0 1

1 0

debtors A101 1 0

A102 0 1

A103 0 0

property A121 1 0 0

A122 0 1 0

A123 0 0 1

A124 0 0 0

other_instalments 0 1

1 0

housing A151 1 0

A152 0 1

A153 0 0

job A171 1 0

A173 0 1

A174 0 0

telephone 0 1

1 0

foreign_worker 0 1

1 0

Kategoria referencyjna




49



acc_status A11 1 0

A12 0 1

A14 -1 -1

credit_history A30 1 0

A32 0 1

A34 -1 -1

pourpose A40 1 0 0 0 0 0

A41 0 1 0 0 0 0

A42 0 0 1 0 0 0

A43 0 0 0 1 0 0

A44 0 0 0 0 1 0

A46 0 0 0 0 0 1

A49 -1 -1 -1 -1 -1 -1

Inny sposób kodowania: „Effects”.

Trudność: nieintuicyjna interpretacja




50

Model Fit Statistics

Criterion InterceptOnly

Intercept andCovariates

AIC 1223.729 987.179

SC 1228.636 1168.766

-2 Log L 1221.729 913.179

Testing Global Null Hypothesis: BETA=0

Test Chi-Square DF Pr > ChiSq

Likelihood Ratio 308.5496 36 <.0001

Score 269.2315 36 <.0001

Wald 197.4215 36 <.0001

Model Convergence Status

Convergence criterion (GCONV=1E-8) satisfied.

Kryterium AIC oraz SC do porównywania

modeli

Testowanie hipotezy H0, że wszystkie współczynniki

regresji wynoszą 0 z wyjątkiem wyrazu wolnego

Kryterium zbieżności modelu zostało

osiągnięte




51

Type 3 Analysis of EffectsEffect DF Wald Chi-Square Pr > ChiSqage 1 2.4809 0.1152credit_amt 1 7.2640 0.0070duration 1 9.4888 0.0021instalment 1 12.0256 0.0005number_of_credit 1 1.3063 0.2531people 1 0.5300 0.4666residence 1 0.0088 0.9253acc_status 2 57.2466 <.0001credit_history 2 18.6506 <.0001debtors 2 5.3313 0.0696employment 3 8.8007 0.0321foreign_worker 1 4.9292 0.0264housing 2 5.4390 0.0659job 2 0.2624 0.8770other_instalments 1 6.9681 0.0083personal_status 1 3.8014 0.0512pourpose 6 26.9229 0.0001property 3 3.6033 0.3076savings 3 17.5750 0.0005telephone 1 2.4802 0.1153

Analiza typu 3 pokazuje które ze zmiennych są istotne kontrolując efekt pozostałych zmiennych.

Na poziomie istotności 0,1 siedem zmiennych jest nieistotnych.




52

Analysis of Maximum Likelihood EstimatesParameter DF Estimate Standard

ErrorWaldChi-Square

Pr > ChiSq

Intercept 1 -5.7918 1.1059 27.4267 <.0001age 1 -0.0141 0.00897 2.4809 0.1152credit_amt 1 0.000116 0.000043 7.2640 0.0070duration 1 0.0280 0.00911 9.4888 0.0021instalment 1 0.2977 0.0859 12.0256 0.0005number_of_credit 1 0.1978 0.1730 1.3063 0.2531people 1 0.1749 0.2403 0.5300 0.4666residence 1 0.00791 0.0844 0.0088 0.9253acc_status A11 1 1.6938 0.2270 55.6898 <.0001acc_status A12 1 1.1841 0.2183 29.4287 <.0001credit_history A30 1 1.3921 0.3319 17.5916 <.0001credit_history A32 1 0.7611 0.2393 10.1202 0.0015debtors A101 1 0.9103 0.4158 4.7914 0.0286debtors A102 1 1.1529 0.5603 4.2335 0.0396employment A71 1 0.2438 0.2636 0.8560 0.3549employment A73 1 0.1256 0.2472 0.2581 0.6114employment A74 1 -0.5520 0.2973 3.4469 0.0634foreign_worker 0 1 -1.3966 0.6290 4.9292 0.0264




53

Analysis of Maximum Likelihood Estimates cd.Parameter DF Estimate Standard

ErrorWaldChi-Square

Pr > ChiSq

housing A151 1 0.7679 0.4631 2.7492 0.0973housing A152 1 0.2804 0.4382 0.4096 0.5222job A171 1 0.000676 0.3214 0.0000 0.9983job A173 1 0.0923 0.2684 0.1183 0.7309other_instalments 0 1 -0.5481 0.2076 6.9681 0.0083personal_status 0 1 0.3686 0.1891 3.8014 0.0512pourpose A40 1 0.6863 0.3242 4.4806 0.0343pourpose A41 1 -0.9156 0.4262 4.6145 0.0317pourpose A42 1 -0.0747 0.3437 0.0473 0.8279pourpose A43 1 -0.1914 0.3260 0.3448 0.5571pourpose A44 1 0.3626 0.5096 0.5064 0.4767pourpose A46 1 0.2392 0.4089 0.3422 0.5586property A121 1 -0.7567 0.4118 3.3760 0.0662property A122 1 -0.4928 0.4022 1.5016 0.2204property A123 1 -0.5669 0.3907 2.1057 0.1468savings A61 1 0.9679 0.2578 14.0989 0.0002savings A62 1 0.6867 0.3416 4.0425 0.0444savings A63 1 0.1953 0.3818 0.2616 0.6091telephone 0 1 0.3114 0.1977 2.4802 0.1153




54

Interpretacja parametrówInterpretacja parametrów

1. Wartość parametrów to miara zmiany w logicie (log odds) odpowiadająca jednostkowej zmianie w zmiennej skorygowana na efekt wpływu innych zmiennych włączonych do modelu.

2. Interpretacja parametrów jest utrudniona ze względu na niejednorodną jednostkę pomiaru dla poszczególnych zmiennych, oszacowanie parametrów standaryzowanych jest możliwe tylko dla zmiennych numerycznych (brak takiej opcji w EG).

3. „+” pozytywny wpływ czyli wzrost prawdopodobieństwa wystąpienia zdarzenia.

4. „-” ujemny wpływ czyli spadek prawdopodobieństwa wystąpienia zdarzenia.




55

Odds Ratio EstimatesEffect Point Estimate 95% Wald

Confidence Limitsage 0.986 0.969 1.003credit_amt 1.000 1.000 1.000duration 1.028 1.010 1.047instalment 1.347 1.138 1.594number_of_credit 1.219 0.868 1.711people 1.191 0.744 1.908residence 1.008 0.854 1.189acc_status A11 vs A14 5.440 3.487 8.488acc_status A12 vs A14 3.268 2.130 5.012credit_history A30 vs A34 4.023 2.099 7.711credit_history A32 vs A34 2.141 1.339 3.421debtors A101 vs A103 2.485 1.100 5.614debtors A102 vs A103 3.167 1.056 9.499employment A71 vs A75 1.276 0.761 2.139employment A73 vs A75 1.134 0.698 1.840employment A74 vs A75 0.576 0.322 1.031foreign_worker 0 vs 1 0.247 0.072 0.849




56

Odds Ratio Estimates cd.Effect Point Estimate 95% Wald

Confidence Limitshousing A151 vs A153 2.155 0.870 5.342housing A152 vs A153 1.324 0.561 3.125job A171 vs A174 1.001 0.533 1.879job A173 vs A174 1.097 0.648 1.856other_instalments 0 vs 1 0.578 0.385 0.868personal_status 0 vs 1 1.446 0.998 2.094pourpose A40 vs A49 1.986 1.052 3.750pourpose A41 vs A49 0.400 0.174 0.923pourpose A42 vs A49 0.928 0.473 1.820pourpose A43 vs A49 0.826 0.436 1.564pourpose A44 vs A49 1.437 0.529 3.901pourpose A46 vs A49 1.270 0.570 2.831property A121 vs A124 0.469 0.209 1.052property A122 vs A124 0.611 0.278 1.344property A123 vs A124 0.567 0.264 1.220savings A61 vs A65 2.633 1.588 4.363savings A62 vs A65 1.987 1.017 3.881savings A63 vs A65 1.216 0.575 2.569telephone 0 vs 1 1.365 0.927 2.012




57

Interpretacja parametrów Odds RatioInterpretacja parametrów Odds Ratio

1. Odds Ratio jest miarą efektu wpływu zmiennej niezależnej na zmienną zależną skorygowanego na wpływ pozostałych zmiennych włączonych do modelu.

2. Przykładowo: wartość Odds ratio dla zmiennej foreign_worker wynosi 0,247 czyli odds defaultu jest 0,247 razy mniejsze dla robotnika zagranicznego niż dla krajowego.

3. Standardowo/domyślnie program SAS podaje 95% przedział ufności Walda.




58

Interpretacja wyników z EGInterpretacja wyników z EG

Association of Predicted Probabilities andObserved Responses

Percent Concordant 82.5 Somers' D 0.651

Percent Discordant 17.4 Gamma 0.652

Percent Tied 0.2 Tau-a 0.274

Pairs 210000 c 0.825

Miary prezentowane w powyższej tabeli są oparte na tzw. parach zgodnych i niezgodnych. Para obserwacji jest zgodna jeżeli obserwacja z wynikiem czyli 1 ma prawdopodobieństwo z modelu większe niż obserwacja z wynikiem 0. para jest niezgodna jeżeli wystąpi odwrotna sytuacja. Dla obserwacji z takim samym prawdopodobieństwem będzie para tzw. „tied”.

I wyższa wartość statystyk Sommers’D Gamma Tau-a c tym lepszy model.

AR=2*c-1




59

Selekcja zmiennych objaśniającychSelekcja zmiennych objaśniającychPodstawowe metody selekcji zmiennych objaśniających które powinny

wejść do modelu:

1. Zastosowanie korelacji Spearmana pomiędzy poszczególnymi zmiennymi a zmienną objaśnianą (binarną) z uzupełnieniem o takie miary jak statystyka Hoeffdinga (D).

2. Estymacja modeli z wszystkimi możliwymi kombinacjami zmiennych (co przy dużej liczbie zmiennych będzie raczej uciążliwe) .

3. Metody krokowe: Stepwise Selection (może ominąć istotne zmienne i niekoniecznie znaleźć optymalny zestaw zmiennych), Forward Selection i Backward Selection (bezpieczniejsza niż Stepwise Selection)

4. Metoda wyboru zmiennych najmniej ze sobą skorelowanych (ograniczenie: tylko dla zmiennych numerycznych).

5. Preselekcja na podstawie modelu jednoczynnikowego (nie uwzględnia związków i wpływu pomiędzy zmiennymi objaśniającymi).




60

Wybór zmiennych - Selekcja BackwardWybór zmiennych - Selekcja Backward




61

Summary of Backward Elimination

Step EffectRemoved

DF NumberIn

WaldChi-Square

Pr > ChiSq VariableLabel

1 residence 1 19 0.0088 0.9253 residence

2 job 2 18 0.2618 0.8773 job

3 people 1 17 0.4870 0.4853 people

4 property 3 16 3.6509 0.3017 property

5 number_of_credit 1 15 1.3408 0.2469 number_of_credit

6 telephone 1 14 2.2760 0.1314 telephone

7 age 1 13 3.2442 0.0717 age

8 personal_status 1 12 3.8065 0.0511 personal_status

Zmienne wyeliminowane z modelu




62

Type 3 Analysis of Effects

Effect DF WaldChi-Square

Pr > ChiSq

credit_amt 1 6.0153 0.0142

duration 1 12.7384 0.0004

instalment 1 10.5399 0.0012

acc_status 2 59.2689 <.0001

credit_history 2 20.5192 <.0001

debtors 2 6.0951 0.0475

employment 3 10.8725 0.0124

foreign_worker 1 5.3673 0.0205

housing 2 8.9695 0.0113

other_instalments 1 6.8620 0.0088

pourpose 6 27.4786 0.0001

savings 3 17.7085 0.0005

Istotność poszczególnych zmiennych bez uwzględniania wpływu pozostałych zmiennych, zmienne które weszły do modelu na poziomie istotności 0,05




63

Analysis of Maximum Likelihood Estimates

Parameter DF Estimate StandardError

WaldChi-Square

Pr > ChiSq

Intercept 1 -5.6750 0.7708 54.2087 <.0001

credit_amt 1 0.000098

0.000040

6.0153 0.0142

duration 1 0.0315 0.00884 12.7384 0.0004

instalment 1 0.2703 0.0833 10.5399 0.0012

acc_status A11 1 1.7049 0.2237 58.0764 <.0001

acc_status A12 1 1.1717 0.2155 29.5687 <.0001

credit_history A30 1 1.3746 0.3140 19.1592 <.0001

credit_history A32 1 0.6600 0.2062 10.2404 0.0014

debtors A101 1 0.9357 0.4033 5.3832 0.0203

debtors A102 1 1.2196 0.5511 4.8981 0.0269




64

Analysis of Maximum Likelihood Estimates cd.Parameter DF Estimate Standard

ErrorWaldChi-Square

Pr > ChiSq

employment A71 1 0.3892 0.2394 2.6416 0.1041employment A73 1 0.2132 0.2270 0.8815 0.3478employment A74 1 -0.4663 0.2820 2.7341 0.0982foreign_worker 0 1 -1.4337 0.6189 5.3673 0.0205housing A151 1 0.5438 0.3156 2.9685 0.0849housing A152 1 -0.0917 0.2712 0.1144 0.7352other_instalments 0 1 -0.5336 0.2037 6.8620 0.0088pourpose A40 1 0.7487 0.3176 5.5570 0.0184pourpose A41 1 -0.8429 0.4137 4.1515 0.0416pourpose A42 1 0.0711 0.3315 0.0461 0.8301pourpose A43 1 -0.1066 0.3165 0.1134 0.7363pourpose A44 1 0.4636 0.5001 0.8591 0.3540pourpose A46 1 0.3550 0.4000 0.7873 0.3749savings A61 1 0.9427 0.2521 13.9871 0.0002savings A62 1 0.7547 0.3347 5.0853 0.0241savings A63 1 0.1753 0.3766 0.2167 0.6415




65

Odds Ratio Estimates

Effect Point Estimate 95% WaldConfidence Limits

credit_amt 1.000 1.000 1.000

duration 1.032 1.014 1.050

instalment 1.310 1.113 1.543

acc_status A11 vs A14 5.501 3.548 8.529

acc_status A12 vs A14 3.227 2.116 4.924

credit_history A30 vs A34 3.954 2.136 7.317

credit_history A32 vs A34 1.935 1.291 2.898

debtors A101 vs A103 2.549 1.156 5.618

debtors A102 vs A103 3.386 1.150 9.972

employment A71 vs A75 1.476 0.923 2.360

employment A73 vs A75 1.238 0.793 1.931

employment A74 vs A75 0.627 0.361 1.090




66

Odds Ratio Estimates cd.

Effect Point Estimate 95% WaldConfidence Limits

foreign_worker 0 vs 1 0.238 0.071 0.802

housing A151 vs A153 1.723 0.928 3.197

housing A152 vs A153 0.912 0.536 1.553

other_instalments 0 vs 1 0.586 0.393 0.874

pourpose A40 vs A49 2.114 1.135 3.940

pourpose A41 vs A49 0.430 0.191 0.968

pourpose A42 vs A49 1.074 0.561 2.056

pourpose A43 vs A49 0.899 0.483 1.672

pourpose A44 vs A49 1.590 0.596 4.237

pourpose A46 vs A49 1.426 0.651 3.124

savings A61 vs A65 2.567 1.566 4.207

savings A62 vs A65 2.127 1.104 4.098

savings A63 vs A65 1.192 0.570 2.493




67





Pairs 210000 c 0.820

Porównując wyniki dla modelu pełnego ze wszystkimi zmiennymi wartości statystyk Sommers’D Gamma Tau-a oraz c nieznacznie spadły. Spadek jednak jest nieporównywalny do liczby zmiennych wykluczonych z modelu.Association of Predicted Probabilities and

Observed Responses




Pairs 210000 c 0.825

Nowy model z 12 zmiennymi

Model ze wszystkimi zmiennymi




68

Model jednoczynnikowyModel jednoczynnikowy

Dla porównania wyników selekcji zastosujemy również analizę jednoczynnikową, z wykorzystaniem następującego kodu w 4GL:

proc logistic data=tmp1.score;

class zmienna (param=ref); /*dla zmiennych nominalnych*/;

model default=zmienna;

run;

Za zmienną należy podstawić po kolei zmienne ze zbioru a następnie odczytać wyniki z okna Output




69

c AR Backwardage 0,571 14,2% credit_amt 0,555 11,0% TAKduration 0,629 25,8% TAKinstalment 0,543 8,6% TAKnumber_of_credit 0,525 5,0% people 0,501 0,2% residence 0,500 0,0% acc_status 0,701 40,2% TAKcredit_history 0,626 25,2% TAKdebtors 0,526 5,2% TAKemployment 0,580 16,0% TAKforeign_worker 0,517 3,4% TAKhousing 0,567 13,4% TAKjob 0,520 4,0% other_instalments 0,548 9,6% TAKpersonal_status 0,538 7,6% pourpose 0,603 20,6% TAKproperty 0,585 17,0% savings 0,599 19,8% TAKtelephone 0,520 4,0%




70

Ocena statystyczna modeluOcena statystyczna modelu




71

Profile Likelihood Confidence Interval for ParametersParameter Estimate 95% Confidence LimitsIntercept -5.6750 -7.2221 -4.1965credit_amt 0.000098 0.000020 0.000177duration 0.0315 0.0143 0.0490instalment 0.2703 0.1086 0.4353acc_status A11 1.7049 1.2726 2.1509acc_status A12 1.1717 0.7546 1.6006credit_history A30 1.3746 0.7647 1.9977credit_history A32 0.6600 0.2613 1.0710debtors A101 0.9357 0.1789 1.7725debtors A102 1.2196 0.1534 2.3241employment A71 0.3892 -0.0789 0.8608employment A73 0.2132 -0.2301 0.6610employment A74 -0.4663 -1.0251 0.0822foreign_worker 0 -1.4337 -2.8031 -0.3274housing A151 0.5438 -0.0729 1.1662housing A152 -0.0917 -0.6215 0.4438other_instalments 0 -0.5336 -0.9324 -0.1328pourpose A40 0.7487 0.1339 1.3812pourpose A41 -0.8429 -1.6693 -0.0424pourpose A42 0.0711 -0.5746 0.7272pourpose A43 -0.1066 -0.7217 0.5216pourpose A44 0.4636 -0.5283 1.4410pourpose A46 0.3550 -0.4283 1.1432savings A61 0.9427 0.4592 1.4494savings A62 0.7547 0.0995 1.4142savings A63 0.1753 -0.5779 0.9046




72

Wald Confidence Interval for ParametersParameter Estimate 95% Confidence LimitsIntercept -5.6750 -7.1857 -4.1643credit_amt 0.000098 0.000020 0.000176duration 0.0315 0.0142 0.0489instalment 0.2703 0.1071 0.4335acc_status A11 1.7049 1.2665 2.1434acc_status A12 1.1717 0.7494 1.5940credit_history A30 1.3746 0.7591 1.9902credit_history A32 0.6600 0.2558 1.0642debtors A101 0.9357 0.1453 1.7260debtors A102 1.2196 0.1395 2.2998employment A71 0.3892 -0.0801 0.8585employment A73 0.2132 -0.2318 0.6581employment A74 -0.4663 -1.0190 0.0864foreign_worker 0 -1.4337 -2.6467 -0.2208housing A151 0.5438 -0.0748 1.1624housing A152 -0.0917 -0.6234 0.4399other_instalments 0 -0.5336 -0.9329 -0.1344pourpose A40 0.7487 0.1262 1.3712pourpose A41 -0.8429 -1.6538 -0.0321pourpose A42 0.0711 -0.5785 0.7208pourpose A43 -0.1066 -0.7270 0.5138pourpose A44 0.4636 -0.5167 1.4438pourpose A46 0.3550 -0.4291 1.1390savings A61 0.9427 0.4486 1.4367savings A62 0.7547 0.0988 1.4106savings A63 0.1753 -0.5628 0.9134




73

Profile Likelihood Confidence Interval for Adjusted Odds RatiosEffect Unit Estimate 95% Confidence Limitscredit_amt 1.0000 1.000 1.000 1.000duration 1.0000 1.032 1.014 1.050instalment 1.0000 1.310 1.115 1.546acc_status A11 vs A14 1.0000 5.501 3.570 8.593acc_status A12 vs A14 1.0000 3.227 2.127 4.956credit_history A30 vs A34 1.0000 3.954 2.148 7.372credit_history A32 vs A34 1.0000 1.935 1.299 2.918debtors A101 vs A103 1.0000 2.549 1.196 5.886debtors A102 vs A103 1.0000 3.386 1.166 10.218employment A71 vs A75 1.0000 1.476 0.924 2.365employment A73 vs A75 1.0000 1.238 0.794 1.937employment A74 vs A75 1.0000 0.627 0.359 1.086foreign_worker 0 vs 1 1.0000 0.238 0.061 0.721housing A151 vs A153 1.0000 1.723 0.930 3.210housing A152 vs A153 1.0000 0.912 0.537 1.559other_instalments 0 vs 1 1.0000 0.586 0.394 0.876pourpose A40 vs A49 1.0000 2.114 1.143 3.980pourpose A41 vs A49 1.0000 0.430 0.188 0.958pourpose A42 vs A49 1.0000 1.074 0.563 2.069pourpose A43 vs A49 1.0000 0.899 0.486 1.685pourpose A44 vs A49 1.0000 1.590 0.590 4.225pourpose A46 vs A49 1.0000 1.426 0.652 3.137savings A61 vs A65 1.0000 2.567 1.583 4.261savings A62 vs A65 1.0000 2.127 1.105 4.113savings A63 vs A65 1.0000 1.192 0.561 2.471




74

Wald Confidence Interval for Adjusted Odds RatiosEffect Unit Estimate 95% Confidence Limitscredit_amt 1.0000 1.000 1.000 1.000duration 1.0000 1.032 1.014 1.050instalment 1.0000 1.310 1.113 1.543acc_status A11 vs A14 1.0000 5.501 3.548 8.529acc_status A12 vs A14 1.0000 3.227 2.116 4.924credit_history A30 vs A34 1.0000 3.954 2.136 7.317credit_history A32 vs A34 1.0000 1.935 1.291 2.898debtors A101 vs A103 1.0000 2.549 1.156 5.618debtors A102 vs A103 1.0000 3.386 1.150 9.972employment A71 vs A75 1.0000 1.476 0.923 2.360employment A73 vs A75 1.0000 1.238 0.793 1.931employment A74 vs A75 1.0000 0.627 0.361 1.090foreign_worker 0 vs 1 1.0000 0.238 0.071 0.802housing A151 vs A153 1.0000 1.723 0.928 3.197housing A152 vs A153 1.0000 0.912 0.536 1.553other_instalments 0 vs 1 1.0000 0.586 0.393 0.874pourpose A40 vs A49 1.0000 2.114 1.135 3.940pourpose A41 vs A49 1.0000 0.430 0.191 0.968pourpose A42 vs A49 1.0000 1.074 0.561 2.056pourpose A43 vs A49 1.0000 0.899 0.483 1.672pourpose A44 vs A49 1.0000 1.590 0.596 4.237pourpose A46 vs A49 1.0000 1.426 0.651 3.124savings A61 vs A65 1.0000 2.567 1.566 4.207savings A62 vs A65 1.0000 2.127 1.104 4.098savings A63 vs A65 1.0000 1.192 0.570 2.493




75

Partition for the Hosmer and Lemeshow Test

Group Total default = 1 default = 0

Observed Expected Observed Expected

1 100 2 2.57 98 97.43

2 100 5 5.78 95 94.22

3 100 12 9.08 88 90.92

4 100 10 13.42 90 86.58

5 100 21 19.41 79 80.59

6 100 31 26.99 69 73.01

7 100 33 37.14 67 62.86

8 100 43 48.23 57 51.77

9 100 70 59.99 30 40.01

10 100 73 77.40 27 22.60

Wartości obserwowane i oczekiwane w 10 równych grupach obserwacji dla default i nie-default




76

Hosmer and Lemeshow Goodness-of-Fit Test

Chi-Square DF Pr > ChiSq

10.3644 8 0.2404

Test Hosmer and Lemeshow – jest testem służącym do weryfikacji jak prawdopodobieństwa prognozowane są dopasowane do prawdopodobieństw (częstości) obserwowanych Mała wartość p-value świadczy o słabym dopasowaniu, wysoka wartość świadczy do dobrym dopasowaniu. W naszym przykładzie wartość 0,24 jest wartością średnią świadczącą o umiarkowanej precyzji dopasowania.




77

Classification TableProbLevel

Correct Incorrect PercentagesEvent Non-

EventEvent Non-

EventCorrect Sensi-

tivitySpeci-ficity

FalsePOS

FalseNEG

0.000 300 0 700 0 30.0 100.0 0.0 70.0 .0.020 300 27 673 0 32.7 100.0 3.9 69.2 0.00.040 297 94 606 3 39.1 99.0 13.4 67.1 3.10.060 292 150 550 8 44.2 97.3 21.4 65.3 5.10.080 285 205 495 15 49.0 95.0 29.3 63.5 6.80.100 279 254 446 21 53.3 93.0 36.3 61.5 7.60.120 277 302 398 23 57.9 92.3 43.1 59.0 7.10.140 272 334 366 28 60.6 90.7 47.7 57.4 7.70.160 269 364 336 31 63.3 89.7 52.0 55.5 7.80.180 263 391 309 37 65.4 87.7 55.9 54.0 8.60.200 252 421 279 48 67.3 84.0 60.1 52.5 10.20.220 244 436 264 56 68.0 81.3 62.3 52.0 11.40.240 238 452 248 62 69.0 79.3 64.6 51.0 12.10.260 229 469 231 71 69.8 76.3 67.0 50.2 13.10.280 223 486 214 77 70.9 74.3 69.4 49.0 13.70.300 217 501 199 83 71.8 72.3 71.6 47.8 14.20.320 210 518 182 90 72.8 70.0 74.0 46.4 14.80.340 205 525 175 95 73.0 68.3 75.0 46.1 15.30.360 202 540 160 98 74.2 67.3 77.1 44.2 15.40.380 190 550 150 110 74.0 63.3 78.6 44.1 16.70.400 185 563 137 115 74.8 61.7 80.4 42.5 17.00.420 179 570 130 121 74.9 59.7 81.4 42.1 17.50.440 172 581 119 128 75.3 57.3 83.0 40.9 18.10.460 168 593 107 132 76.1 56.0 84.7 38.9 18.20.480 159 603 97 141 76.2 53.0 86.1 37.9 19.00.500 149 613 87 151 76.2 49.7 87.6 36.9 19.8




78

Classification TableProbLevel

Correct Incorrect PercentagesEvent Non-

EventEvent Non-

EventCorrect Sensi-

tivitySpeci-ficity

FalsePOS

FalseNEG

0.520 141 627 73 159 76.8 47.0 89.6 34.1 20.20.540 129 632 68 171 76.1 43.0 90.3 34.5 21.30.560 120 643 57 180 76.3 40.0 91.9 32.2 21.90.580 113 648 52 187 76.1 37.7 92.6 31.5 22.40.600 99 653 47 201 75.2 33.0 93.3 32.2 23.50.620 88 657 43 212 74.5 29.3 93.9 32.8 24.40.640 77 666 34 223 74.3 25.7 95.1 30.6 25.10.660 69 667 33 231 73.6 23.0 95.3 32.4 25.70.680 68 673 27 232 74.1 22.7 96.1 28.4 25.60.700 56 674 26 244 73.0 18.7 96.3 31.7 26.60.720 55 679 21 245 73.4 18.3 97.0 27.6 26.50.740 45 684 16 255 72.9 15.0 97.7 26.2 27.20.760 40 687 13 260 72.7 13.3 98.1 24.5 27.50.780 32 690 10 268 72.2 10.7 98.6 23.8 28.00.800 29 693 7 271 72.2 9.7 99.0 19.4 28.10.820 24 696 4 276 72.0 8.0 99.4 14.3 28.40.840 19 696 4 281 71.5 6.3 99.4 17.4 28.80.860 13 697 3 287 71.0 4.3 99.6 18.8 29.20.880 8 697 3 292 70.5 2.7 99.6 27.3 29.50.900 5 698 2 295 70.3 1.7 99.7 28.6 29.70.920 4 698 2 296 70.2 1.3 99.7 33.3 29.80.940 2 699 1 298 70.1 0.7 99.9 33.3 29.90.960 1 700 0 299 70.1 0.3 100.0 0.0 29.90.980 0 700 0 300 70.0 0.0 100.0 . 30.0




79

Moc predykcyjna (dyskryminacja) modeluMoc predykcyjna (dyskryminacja) modeluOgólną moc dyskryminacyjną modelu można mierzyć za pomocą miar lub statystyk określających jak dobrze model odróżnia klientów „złych” od „dobrych”:- Pomiar odległości pomiędzy rozkładami prawdopodobieństw dla tych dwóch grup klientów, im bardziej te rozkłady zachodzą na siebie tym słabszy jest model. Miarą ogólną jest tzw. statystyka Dywergencji oparta na różnicy średnich pomiędzy rozkładami. Innym sposobem jest zastosowanie testu t na różnicę dwóch średnich (uwaga na założenia testu).- Znany ogólnie jest test Kołmogorowa-Smirnowa oparty na róznicy dystrubuant. Statystyka testująca D przyjmuje wartości 0-1 im bliżej 0 tym słabszy model, im bliżej 1 tym lepsza separacja.- Najbardziej odpornym na kształt rozkładu testem jest test Wilcoxon-Mann-Whitney odpowiadający polu pod krzywą ROC. Pole pod krzywą ROC odpowiada współczynnikowi Giniego (2*c-1=AR czyli Gini)




80

Macierz klasyfikacjiMacierz klasyfikacji

Macierz klasyfikacji przedstawia dwuwymiarowy rozkład dla wartości zmiennej zależnej rzeczywistych i prognozowanych przez model. Określa to dokładność predykcji. Statystyką służącą do pomiaru jest Accuracy. Jeśli określimy zdarzenie czyli w tym przypadku default jako negatywne zdarzenie a nie-default jako pozytywne to tablica będzie następująca:

Przewidywana

0

Klasa

1

Aktualna 0 Prawdziwe pozytywne

Fałszywe pozytywne

Aktualne pozytywne

Klasa 1 Fałszywe negatywne

Prawdziwe negatywne

Aktualne negatywne

Przewidywane pozytywne

Przewidywane negatywne




81

Accuracy

(prawdziwe pozytywne+prawdziwe negatywne)/(ogółem)

Błąd ogółem:

(fałszywe pozytywne+fałszywe negatywne)/(ogółem)

Sensytywność (Sensitivity)

(prawdziwe negatywne)/(ogółem aktualne negatywne)

Specyficzność (Specificity)

(prawdziwe pozytywne)/(ogółem aktualne pozytywne)




82

Krzywa ROC jest wykresem zależności Sensitivity od (1-Specificty) dla wszystkich możliwych wartości cut-off czyli inaczej dla wartości prawdopodobieństwa decydującego czy dana obserwacja jest zaklasyfikowana do „złych” czy do „dobrych” klientów.

Wartość cut-off można ustalić na dowolnym punkcie np.0.5 lub 0.3

Classification Table

ProbLevel

Correct Incorrect Percentages

Event Non-Event

Event Non-Event

Correct Sensi-tivity

Speci-ficity

FalsePOS

FalseNEG

0.500 148 612 88 152 76.0 49.3 87.4 37.3 19.9

0.300 221 499 201 79 72.0 73.7 71.3 47.6 13.7

Ponad 70% wszystkich przypadków zostało poprawnie zaklasyfikowanych




83

ROC curve i ARROC curve i ARPole pod krzywą ROC czyli c może być określone z rang (określonych w klasie pierwszej). -Wartości prawdopodobieństw otrzymane z modelu są posortowane i porangowane, wartość c wyznacza się wówczas jako:

- Gdzie suma w liczniku to suma rang w pierwszej klasie. - Dla idealnej sytuacji ROC byłby krzywą poziomą w 1, czyli statystyka c wynosiła by 1.- Statystyka c przyjmuje wartości 0-1, nie powinna jednak być niższa niż 0,5. - Wartość 0,5 to model losowy czyli nie dyskryminuje klientów.

1

1 1{ | 1}

1 0

1 12

n

ii y

R n n

cn n




84

0,01




85

Association of Predicted Probabilities andObserved ResponsesPercent Concordant 81.9 Somers' D 0.640Percent Discordant 17.9 Gamma 0.642Percent Tied 0.2 Tau-a 0.269Pairs 210000 c 0.820

Statystyka c wynosi 0,82 czyli AR=0,82*2-1=0,64.

Poziom współczynnika Giniego 64% dla karty scoringowej jest poziomem zadowalającym.




86

Obserwacje odstające i wpływoweObserwacje odstające i wpływowe

Szczegóły miar – patrz wykład z regresji




87




88

Nieliniowość w modelu i interakcje zmiennychNieliniowość w modelu i interakcje zmiennychWykrycie nieliniowości w modelu zazwyczaj odbywa się poprzez graficzną

analizę empirycznych logitów:

1. Podział zmiennych objaśniających na przedziały (ok. 100) i wyznaczenie dla każdego przedziału proporcji default (odsetka)

2. Wyznaczenie logitów czyli ln(DRi) dla każdego przedziału gdzie DR jest to proporcja defaultów

3. Graficzne przedstawienie logitów na wykresie w zależności od wartości zmiennej (mediana lub średnia lub po prostu środek przedziału dla każdego przedziału zmiennej)

4. Ocena: czy jest to zależność zbliżona do liniowej, jeśli nie jest należy dokonać modyfikacji danej zmiennej: transformacja zmiennej (np. logitowa lub standaryzacja lub dyskretyzacja) lub wprowadzić do modelu jej iteracje z innymi zmiennymi lub postać wielomianu tej zmiennej.




89

libname karta "D:\Score";%let zmienna=credit_amt;

proc rank data=Score groups=50 out=wynik;var &zmienna;ranks przedzial;

run;proc print data=wynik (obs=10);

var &zmienna przedzial;run;proc means data=wynik noprint nway;

class przedzial; var default &zmienna;output out=przedzialy mean=default &zmienna;

run;proc print data=przedzialy (obs=10) ;run;data przedzialy;set przedzialy;logit=log(default);run;

Tworzymy przedziały

Wyznaczamy proporcje default dla przedziałów

Wyznaczamy logity




90

Zależność pomimo silnych wahań (mało obserwacji w przedziałach) zbliżona jest do liniowej




91

Włączenie interakcji do modeluWłączenie interakcji do modelu




92

Type 3 Analysis of Effects

Effect DF WaldChi-Square

Pr > ChiSq

duration 1 12.6873 0.0004

instalment 1 7.2072 0.0073

acc_status 2 61.8834 <.0001

credit_history 2 20.2310 <.0001

debtors 2 6.3676 0.0414

employment 3 11.8331 0.0080

foreign_worker 1 5.1516 0.0232

housing 2 5.8915 0.0526

pourpose 6 21.3721 0.0016

savings 3 20.2802 0.0001

credit_amt 1 3.9015 0.0482

credit_am*credit_amt 1 5.7792 0.0162

credit*credit*credit 1 4.4354 0.0352

housing*job 4 10.6218 0.0312

job 2 8.0876 0.0175

other_instalments 1 6.7804 0.0092

Istotne na poziomie 0.05




93





Pairs 210000 c 0.828

Wartość statystyki c wzrosła z 0,82 do 0,828 czyli poziom AR=2*0,828-1=0,656 czyli 65,6%

Uwaga: dodawanie zmiennych i ich interakcji może doprowadzić do tzw. overfitting; taki model musi być zweryfikowany na próbie walidacyjnej.




94

Cross-walidacjaCross-walidacja

Walidacja czyli testowanie/sprawdzenie poprawności działania modelu odbywać się może na kilka sposobów:

1. Podział próby do budowy modelu na: deweloperską i testową (zazwyczaj 70% i 30%), warunek: wystarczająca liczebność próby i dostępność zdarzeń czyli w tym przypadku defaultów.

2. Wylosowanie próby np. 30-50% z całej próby wykorzystanej do budowy modelu i przeprowadzenie walidacji.

3. Resampling (bootstrapping) polegająca na próbkowaniu w takiej liczebności próbek jak próba wyjściowa użyta do konstrukcji modelu.




95

Cross-walidacjaCross-walidacja

Walidacja czyli testowanie/sprawdzenie poprawności działania modelu powinna obejmować następujące elementy:

1. Sprawdzenie predykcyjności modelu czyli stabilności siły dyskryminacyjnej (nie powinna znacznie odbiegać od próby deweloperskiej).

2. Sprawdzenie stabilności oszacowań parametrów modelu.

3. Sprawdzenie stabilności rozkładów scorów/ocen prawdopodobieństw wynikających z modelu.




96




97

Losowanie bez zwracania




98

Inne zagadnieniaInne zagadnieniaW budowie modelu mogą pojawić się inne zagadnienia których

rozwiązanie wykracza poza ramy ścieżki podstawowej:

1. Oversampling czyli sytuacja kiedy w próbie do budowy modelu jest bardzo mała liczba obserwacji ze zdarzeniem czyli tzw defaultów a bardzo duża liczba obserwacji nie-default gdzie odsetek defaultów wynosi poniżej kilku %, należy wówczas do próby deweloperskiej włączyć wszystkie defualty i wylosować nie-defaulty w proporcji max. 1:5 a następnie dokonać korekty wyników np. poprzez dodanie czynnika skalującego:

*

_ _

* *_ _ _ _

ˆˆ

ˆ ˆ1i ndef próba def org

i

i def próba ndef org i ndef próba def org

p p pp

p p p p p p




99

Inne zagadnieniaInne zagadnienia2. Włączenie zmiennych nieistotnych statystycznie, lub współliniowych ale

istotnych z punktu widzenia merytorycznej zawartości np. wielkość firmy, wiek osoby, region itp. W takiej sytuacji można zastosować metodę głównych składowych i dopiero główne składowe (liczba zmiennych w zależności od wyników) włączyć do modelu.

3. Współliniowości zmiennych lub redukcji wymiaru (liczby zmiennych) można również dokonać stosując analizę skupień. Poprzez pogrupowanie zmiennych w skupienia, które są wewnątrz skupienia najsilniej skorelowane a pomiędzy skupieniami jak najsłabiej.

4. Nadawanie ocen punktowych tzw. scorów. Jeżeli oprócz decyzji „tak” „nie” interesuje nas nadanie klientowi oceny punktowej (np. do wykorzystania w zróżnicowaniu marży) wówczas można wykorzystać procedurę PROC SCORE.




100

Ćwiczenie do samodzielnego wykonaniaĆwiczenie do samodzielnego wykonania1. Przeprowadzić cross-walidację modelu na próbie 25% z oryginalnej

próby klientów

2. Dokonać oceny stabilności otrzymanych wyników na poziomie:

- Różnica w AR model vs. Test

- Stabilność parametrów model vs. Test

- Stabilność rozkładów model vs. Test

Wnioski: Czy model spełnia wymagania do stosowania w praktyce?

Regresja logistyczna - ćwiczenia

Documents