Studia Podyplomowe ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA” I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009. 1 Regresja logistyczna - ćwiczenia Budowa karty scoringowej
Regresja logistyczna - ćwiczenia. Budowa karty scoringowej. Struktura ćwiczeń 1. Zastosowanie modelu regresji logistycznej w praktyce biznesowej 2. Ocena statystyczna danych 3. Model Regresji Logistycznej- SAS Base 4. Model Regresji Logistycznej- EG 5. Interpretacja wyników - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
1
Regresja logistyczna - ćwiczenia
Budowa karty scoringowej
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
2
Struktura ćwiczeń
1. Zastosowanie modelu regresji logistycznej w praktyce biznesowej
2. Ocena statystyczna danych
3. Model Regresji Logistycznej- SAS Base
4. Model Regresji Logistycznej- EG
5. Interpretacja wyników
6. Pozostałe zagadnienia
- selekcja zmiennych
- ocena jakości modelu
- dyskryminacja
- obserwacje odstające i wpływowe
- nieliniowość modelu i interakcje
- cross-walidacja
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
3
Zastosowanie modelu regresji logistycznej w Zastosowanie modelu regresji logistycznej w praktyce biznesowejpraktyce biznesowej
• Marketing – do określenia docelowego segmentu/grupy klientów do których powinna być skierowana akcja promocyjna na podstawie historycznego zachowania dotychczasowych odbiorców i ich charakterystyk.
• Scoring kredytowy – do określenia decyzji kredytowej, na podstawie dotychczasowego zachowania klientów banku określa się czy nowy klient o danych charakterystykach otrzyma pozytywną decyzję kredytową czy nie.
• Wykrywanie fraudów – do określenia próby oszustw na transakcjach typu: karty kredytowe, roszczenia ubezpieczeniowe itp., na podstawie okoliczności i warunków dotyczących historycznych transakcji oraz informacji czy doszło do oszustwa określa się czy nowa transakcja lub roszczenie wymaga szczegółowego przyjrzenia się czy też nie wymaga.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
4
Budowa aplikacyjnej karty scoringowejBudowa aplikacyjnej karty scoringowej
• Grupa docelowa: klient indywidualny, osoba fizyczna występująca do Banku o kredyt
• Charakterystyki: głównie charakterystyki demograficzne, społeczno-ekonomiczne i finansowe
• Główny cel budowy karty: celem jest nadanie oceny scoringowej na podstawie informacji zebranych we wniosku, zazwyczaj jest to podział na ocenę: zaakceptowany lub odrzucony.
• Dodatkowa informacja z karty: dodatkowo, w zależności od zastosowanej metody Banki mogą uzyskać informację o prawdopodobieństwie niewywiązania się klienta z zobowiązań (regresja logistyczna). W przypadku np. drzew decyzyjnych, funkcji dyskryminacyjnej lub sieci nuronowych takich informacji nie ma.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
5
Etapy budowy i monitoringu karty scoringowejEtapy budowy i monitoringu karty scoringowej
Etap I.
Zbieranie danych i czyszczenie
Etap II.
Budowa statystycznej karty scoringowej
Etap III.
Pre-walidacja i testy użytkowania
Etap IV.
Wdrożenie karty w Banku
Etap V.
Cykliczna walidacja
W zależności od wyników walidacji: przebudowa karty lub jej dalsze użytkowanie
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
6
Baza danych do budowy kartyBaza danych do budowy karty
Do obejrzenia struktury danych wykorzystamy następujące procedury:
1. Skopiowanie pliku w celu uniknięcia jego nadpisania:
libname karta 'ścieżka do katalogu';data karta.Score;set karta.German;run;
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
7
Baza danych do budowy kartyBaza danych do budowy karty
Do obejrzenia struktury danych wykorzystamy następujące procedury:
2. Obejrzenie struktury pliku za pomocą procedury:
proc contents data=karta.Score;run;
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
8
Alphabetic List of Variables and Attributes
# Variable Type Len Format Informat Label
1 acc_status Char 3 $3. $3. acc_status13 age Num 8 age 5 credit_amt Num 8 credit_amt 3 credit_history Char 3 $3. $3. credit_history10 debtors Char 4 $4. $4. debtors21 default Num 8 default 2 duration Num 8 duration 7 employment Char 3 $3. $3. employment20 foreign_worker Char 4 $4. $4. foreign_worker15 housing Char 4 $4. $4. housing 8 instalment Num 8 instalment17 job Char 4 $4. $4. job16 number_of_credit Num 8 number_of_credit14 other_instalments Char 4 $4. $4. other_instalments18 people Num 8 people 9 personal_status Char 3 $3. $3. personal_status 4 pourpose Char 4 $4. $4. pourpose12 property Char 4 $4. $4. property11 residence Num 8 residence 6 savings Char 3 $3. $3. savings19 telephone Char 4 $4. $4. telephone
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
9
Ocena statystyczna danychOcena statystyczna danych
1. Wartości minimalne i maksymalne
2. Błędy
3. Obserwacje odstające
4. Braki danych
Dla zmiennych numerycznych: ocena za pomocą procedury MEANS
Dla zmiennych nominalnych: ocena za pomocą procedury FREQ
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
12
Z przeprowadzonej analizy wynika:
1. Nie występują braki danych, zbiór już jest oczyszczony, w przypadku braków danych należałoby obserwacje usunąć lub zastosować techniki imputacji jeśli stanowiłyby zbyt duży odsetek obserwacji.
2. Dwie zmienne: default oraz people to zmienne binarne. Zmienna default to zmienna celu (zależna) przyjmująca wartość 0 jeśli nie wystąpiło zdarzenie niewykonania zobowiązań lub 1 w przeciwnym przypadku. Odsetek tzw. „defaultów” wynosi 30%.
3. Z porównania wartości 95 centyla i maximum wynika że zmienna credit_amt jest zmienną o rozkładzie asymetrycznym.
4. Zmienne instalment, number_of_credit residence to zmienne numeryczne dyskretne, tylko zmienne age credit_amt duration to zmienne numeryczne o charakterze ciągłym.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
Cumulative Cumulativetelephone Frequency Percent Frequency PercentƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒA191 596 59.60 596 59.60A192 404 40.40 1000 100.00
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
20
Z przeprowadzonej analizy wynika:
1. Zmienne foreign_worker oraz telephone to zmienne binarne.
2. W zmiennych acc_status credit_history debtors employment foreign_worker job other_instalments personal_status pourpose savings występują kategorie z niską liczbą obserwacji (poniżej 10%), należy rozważyć połączenie tych kategorii z innymi o podobnym profilu ryzyka, profil może być oceniony np. przez proporcję obserwacji „default” czyli zmiennej celu.
3. W przypadku zmiennych z dużą liczbą kategorii, nawet jeśli nie występują kategorie z niską liczbą obserwacji należy pogrupować kategorie w grupy o podobnym profilu np. przez proporcję obserwacji „default”.
4. Zmienne nominalne (nie porządkowe) mogą być włączone do modelu tylko jako zmienne binarne (z zastosowaniem kodowania zero-jedynkowego).
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
W celu poprawnej kategoryzacji zmiennych nominalnych należy porównać proporcje „default” dla każdej kategorii zmiennych za pomocą procedury FREQ:proc freq data=karta.Score;
względu na:1. Podobieństwo profilu ryzyka2. Najbliższe podobieństwo
merytoryczne:Savings account/bonds
A63 : 500 <= ... < 1000 DM
A64 : .. >= 1000 DM
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
32
Za pomocą prostego DATA Stepu dokonamy transformacji (grupowania kategorii) zmiennych aby uzyskać dane umożliwiające poprawną estymację modelu:
data karta.Score;set karta.Score; if acc_status="A13" then acc_status="A12"; if credit_history="A31" then credit_history="A30"; if credit_history="A33" then credit_history="A32"; if employment="A72" then employment="A71"; if job="A172" then job="A171"; if other_instalments="A142" then other_instalments="A141"; if personal_status="A93" or personal_status="A94” then personal_status="A91"; if pourpose="A410" or pourpose="A48" then pourpose="A46"; if pourpose="A45" then pourpose="A44"; if savings="A64" then savings="A63";run;
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
33
Innym sposobem łączenia kategorii zmiennej jest przeprowadzenie analizy skupień.
Jest to przydatna metoda w sytuacji kiedy zmienna posiada kilkanaście lub więcej kategorii np. województwo i nie można zastosować kryterium innego niż np. stopy default, odległość itp. brak podstaw merytorycznych dołączenia kategorii.
W naszym przykładzie można zastosować tą metodę tylko do zmienne pourpose i porównać wyniki z zaproponowanym eksperckim grupowaniem.
Należy wyznaczyć średnie stopy default dla danej kategorii a następnie przyjąć te wartości jako charakterystyki będące podstawą grupowania.
Wykorzystanie analizy skupieńWykorzystanie analizy skupień
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
34
Analiza obejmuje w takiej sytuacji dwa kroki:1. Zastosowanie procedury PROC MEANS do wyznaczenia proporcji
defaultów dla danej kategorii zmiennej pourpose:
proc means data=karta.Score noprint nway;class pourpose; var default; output out=Cluster mean=proporcja;
run;
2. Zastosowanie procedury PROC CLUSTER do wyznaczenia skupień:
obserwacji (dane pogrupowane)7. Określenie postaci modelu i opcji, np: wyliczenie
dodatkowych miar8. Zapisanie pewnych informacji do zbioru SAS9. Obliczenie score (prawdopodobieństw) z gotowego
modelu na nowych danych10. Przeprowadzenie stratyfikowanej regresji
logistycznej11. Przeprowadzenie testów liniowych ograniczeń12. Zadanie dla jakich zmian wartości zmiennych
ciągłych mają być obliczone ilorazy szans13. Wskazanie zmiennej zawierającej wagi obserwacji
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
39
Model karty scoringowejModel karty scoringowejInput: zmienna objaśniająca tzw. zmienna celu to zmienna zero-jedynkowa: default:
1 oznacza że klient w ciągu roku od uzyskania kredytu przestał regulować swoje zobowiązania wobec Banku tzw. klient „zły”,
0 oznacza klienta tzw. „dobrego” czyli klienta który w ciągu roku po otrzymaniu kredytu regularnie wywiązywał się ze swoich zobowiązań wobec Banku.
Zmienne objaśniające, charakterystyki opisujące klienta w momencie aplikacji czyli w momencie wniosku o kredyt:acc_status credit_history debtors employment foreign_worker housing job other_instalments personal_status pourpose property savings telephone age credit_amt default duration instalment number_of_credit people residence
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
40
Zastosowanie modelu regresji logistycznejZastosowanie modelu regresji logistycznej
Estymacja modelu regresji logistycznej do budowy karty scoringowej będzie obejmowała następujące kroki:
1. Budowa prostego modelu włączającego wszystkie zmienne w EG oraz w 4GL (nie wszystkie opcje PROC LOGISTIC są dostępne w EG)
2. Zastosowanie różnych metod selekcji zmiennych oraz porównanie otrzymanych wyników
3. Ocena statystyczna modelu – oszacowanie podstawowych charakterystyk, wykresy ROC i obserwacji wpływowych
4. Walidacja modelu na próbce testowe tzw. cross-walidacja
5. Interpretacja przydatności otrzymanego modelu w praktyce, możliwości prognozy na bazie modelu.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
41
Estymacja modelu w EG – wczytanie zmiennychEstymacja modelu w EG – wczytanie zmiennych
order descending
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
42
Estymacja modelu w EG – wczytanie zmiennychEstymacja modelu w EG – wczytanie zmiennych
Reference
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
43
Estymacja modelu w EG – tylko efekty główneEstymacja modelu w EG – tylko efekty główne
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
44
Estymacja modelu w EG – wszystkie zmienne bez selekcjiEstymacja modelu w EG – wszystkie zmienne bez selekcji
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
45
Estymacja modelu w EG – bez opcji dodatkowychEstymacja modelu w EG – bez opcji dodatkowych
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
46
Kod 4GL wygenerowany przez EGKod 4GL wygenerowany przez EG
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
54
Interpretacja parametrówInterpretacja parametrów
1. Wartość parametrów to miara zmiany w logicie (log odds) odpowiadająca jednostkowej zmianie w zmiennej skorygowana na efekt wpływu innych zmiennych włączonych do modelu.
2. Interpretacja parametrów jest utrudniona ze względu na niejednorodną jednostkę pomiaru dla poszczególnych zmiennych, oszacowanie parametrów standaryzowanych jest możliwe tylko dla zmiennych numerycznych (brak takiej opcji w EG).
3. „+” pozytywny wpływ czyli wzrost prawdopodobieństwa wystąpienia zdarzenia.
4. „-” ujemny wpływ czyli spadek prawdopodobieństwa wystąpienia zdarzenia.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
55
Odds Ratio EstimatesEffect Point Estimate 95% Wald
Confidence Limitsage 0.986 0.969 1.003credit_amt 1.000 1.000 1.000duration 1.028 1.010 1.047instalment 1.347 1.138 1.594number_of_credit 1.219 0.868 1.711people 1.191 0.744 1.908residence 1.008 0.854 1.189acc_status A11 vs A14 5.440 3.487 8.488acc_status A12 vs A14 3.268 2.130 5.012credit_history A30 vs A34 4.023 2.099 7.711credit_history A32 vs A34 2.141 1.339 3.421debtors A101 vs A103 2.485 1.100 5.614debtors A102 vs A103 3.167 1.056 9.499employment A71 vs A75 1.276 0.761 2.139employment A73 vs A75 1.134 0.698 1.840employment A74 vs A75 0.576 0.322 1.031foreign_worker 0 vs 1 0.247 0.072 0.849
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
56
Odds Ratio Estimates cd.Effect Point Estimate 95% Wald
Confidence Limitshousing A151 vs A153 2.155 0.870 5.342housing A152 vs A153 1.324 0.561 3.125job A171 vs A174 1.001 0.533 1.879job A173 vs A174 1.097 0.648 1.856other_instalments 0 vs 1 0.578 0.385 0.868personal_status 0 vs 1 1.446 0.998 2.094pourpose A40 vs A49 1.986 1.052 3.750pourpose A41 vs A49 0.400 0.174 0.923pourpose A42 vs A49 0.928 0.473 1.820pourpose A43 vs A49 0.826 0.436 1.564pourpose A44 vs A49 1.437 0.529 3.901pourpose A46 vs A49 1.270 0.570 2.831property A121 vs A124 0.469 0.209 1.052property A122 vs A124 0.611 0.278 1.344property A123 vs A124 0.567 0.264 1.220savings A61 vs A65 2.633 1.588 4.363savings A62 vs A65 1.987 1.017 3.881savings A63 vs A65 1.216 0.575 2.569telephone 0 vs 1 1.365 0.927 2.012
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
57
Interpretacja parametrów Odds RatioInterpretacja parametrów Odds Ratio
1. Odds Ratio jest miarą efektu wpływu zmiennej niezależnej na zmienną zależną skorygowanego na wpływ pozostałych zmiennych włączonych do modelu.
2. Przykładowo: wartość Odds ratio dla zmiennej foreign_worker wynosi 0,247 czyli odds defaultu jest 0,247 razy mniejsze dla robotnika zagranicznego niż dla krajowego.
3. Standardowo/domyślnie program SAS podaje 95% przedział ufności Walda.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
58
Interpretacja wyników z EGInterpretacja wyników z EG
Association of Predicted Probabilities andObserved Responses
Percent Concordant 82.5 Somers' D 0.651
Percent Discordant 17.4 Gamma 0.652
Percent Tied 0.2 Tau-a 0.274
Pairs 210000 c 0.825
Miary prezentowane w powyższej tabeli są oparte na tzw. parach zgodnych i niezgodnych. Para obserwacji jest zgodna jeżeli obserwacja z wynikiem czyli 1 ma prawdopodobieństwo z modelu większe niż obserwacja z wynikiem 0. para jest niezgodna jeżeli wystąpi odwrotna sytuacja. Dla obserwacji z takim samym prawdopodobieństwem będzie para tzw. „tied”.
I wyższa wartość statystyk Sommers’D Gamma Tau-a c tym lepszy model.
AR=2*c-1
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
59
Selekcja zmiennych objaśniającychSelekcja zmiennych objaśniającychPodstawowe metody selekcji zmiennych objaśniających które powinny
wejść do modelu:
1. Zastosowanie korelacji Spearmana pomiędzy poszczególnymi zmiennymi a zmienną objaśnianą (binarną) z uzupełnieniem o takie miary jak statystyka Hoeffdinga (D).
2. Estymacja modeli z wszystkimi możliwymi kombinacjami zmiennych (co przy dużej liczbie zmiennych będzie raczej uciążliwe) .
3. Metody krokowe: Stepwise Selection (może ominąć istotne zmienne i niekoniecznie znaleźć optymalny zestaw zmiennych), Forward Selection i Backward Selection (bezpieczniejsza niż Stepwise Selection)
4. Metoda wyboru zmiennych najmniej ze sobą skorelowanych (ograniczenie: tylko dla zmiennych numerycznych).
5. Preselekcja na podstawie modelu jednoczynnikowego (nie uwzględnia związków i wpływu pomiędzy zmiennymi objaśniającymi).
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
65
Odds Ratio Estimates
Effect Point Estimate 95% WaldConfidence Limits
credit_amt 1.000 1.000 1.000
duration 1.032 1.014 1.050
instalment 1.310 1.113 1.543
acc_status A11 vs A14 5.501 3.548 8.529
acc_status A12 vs A14 3.227 2.116 4.924
credit_history A30 vs A34 3.954 2.136 7.317
credit_history A32 vs A34 1.935 1.291 2.898
debtors A101 vs A103 2.549 1.156 5.618
debtors A102 vs A103 3.386 1.150 9.972
employment A71 vs A75 1.476 0.923 2.360
employment A73 vs A75 1.238 0.793 1.931
employment A74 vs A75 0.627 0.361 1.090
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
66
Odds Ratio Estimates cd.
Effect Point Estimate 95% WaldConfidence Limits
foreign_worker 0 vs 1 0.238 0.071 0.802
housing A151 vs A153 1.723 0.928 3.197
housing A152 vs A153 0.912 0.536 1.553
other_instalments 0 vs 1 0.586 0.393 0.874
pourpose A40 vs A49 2.114 1.135 3.940
pourpose A41 vs A49 0.430 0.191 0.968
pourpose A42 vs A49 1.074 0.561 2.056
pourpose A43 vs A49 0.899 0.483 1.672
pourpose A44 vs A49 1.590 0.596 4.237
pourpose A46 vs A49 1.426 0.651 3.124
savings A61 vs A65 2.567 1.566 4.207
savings A62 vs A65 2.127 1.104 4.098
savings A63 vs A65 1.192 0.570 2.493
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
67
Association of Predicted Probabilities andObserved Responses
Percent Concordant 81.9 Somers' D 0.640
Percent Discordant 17.9 Gamma 0.642
Percent Tied 0.2 Tau-a 0.269
Pairs 210000 c 0.820
Porównując wyniki dla modelu pełnego ze wszystkimi zmiennymi wartości statystyk Sommers’D Gamma Tau-a oraz c nieznacznie spadły. Spadek jednak jest nieporównywalny do liczby zmiennych wykluczonych z modelu.Association of Predicted Probabilities and
Observed Responses
Percent Concordant 82.5 Somers' D 0.651
Percent Discordant 17.4 Gamma 0.652
Percent Tied 0.2 Tau-a 0.274
Pairs 210000 c 0.825
Nowy model z 12 zmiennymi
Model ze wszystkimi zmiennymi
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
68
Model jednoczynnikowyModel jednoczynnikowy
Dla porównania wyników selekcji zastosujemy również analizę jednoczynnikową, z wykorzystaniem następującego kodu w 4GL:
proc logistic data=tmp1.score;
class zmienna (param=ref); /*dla zmiennych nominalnych*/;
model default=zmienna;
run;
Za zmienną należy podstawić po kolei zmienne ze zbioru a następnie odczytać wyniki z okna Output
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
73
Profile Likelihood Confidence Interval for Adjusted Odds RatiosEffect Unit Estimate 95% Confidence Limitscredit_amt 1.0000 1.000 1.000 1.000duration 1.0000 1.032 1.014 1.050instalment 1.0000 1.310 1.115 1.546acc_status A11 vs A14 1.0000 5.501 3.570 8.593acc_status A12 vs A14 1.0000 3.227 2.127 4.956credit_history A30 vs A34 1.0000 3.954 2.148 7.372credit_history A32 vs A34 1.0000 1.935 1.299 2.918debtors A101 vs A103 1.0000 2.549 1.196 5.886debtors A102 vs A103 1.0000 3.386 1.166 10.218employment A71 vs A75 1.0000 1.476 0.924 2.365employment A73 vs A75 1.0000 1.238 0.794 1.937employment A74 vs A75 1.0000 0.627 0.359 1.086foreign_worker 0 vs 1 1.0000 0.238 0.061 0.721housing A151 vs A153 1.0000 1.723 0.930 3.210housing A152 vs A153 1.0000 0.912 0.537 1.559other_instalments 0 vs 1 1.0000 0.586 0.394 0.876pourpose A40 vs A49 1.0000 2.114 1.143 3.980pourpose A41 vs A49 1.0000 0.430 0.188 0.958pourpose A42 vs A49 1.0000 1.074 0.563 2.069pourpose A43 vs A49 1.0000 0.899 0.486 1.685pourpose A44 vs A49 1.0000 1.590 0.590 4.225pourpose A46 vs A49 1.0000 1.426 0.652 3.137savings A61 vs A65 1.0000 2.567 1.583 4.261savings A62 vs A65 1.0000 2.127 1.105 4.113savings A63 vs A65 1.0000 1.192 0.561 2.471
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
74
Wald Confidence Interval for Adjusted Odds RatiosEffect Unit Estimate 95% Confidence Limitscredit_amt 1.0000 1.000 1.000 1.000duration 1.0000 1.032 1.014 1.050instalment 1.0000 1.310 1.113 1.543acc_status A11 vs A14 1.0000 5.501 3.548 8.529acc_status A12 vs A14 1.0000 3.227 2.116 4.924credit_history A30 vs A34 1.0000 3.954 2.136 7.317credit_history A32 vs A34 1.0000 1.935 1.291 2.898debtors A101 vs A103 1.0000 2.549 1.156 5.618debtors A102 vs A103 1.0000 3.386 1.150 9.972employment A71 vs A75 1.0000 1.476 0.923 2.360employment A73 vs A75 1.0000 1.238 0.793 1.931employment A74 vs A75 1.0000 0.627 0.361 1.090foreign_worker 0 vs 1 1.0000 0.238 0.071 0.802housing A151 vs A153 1.0000 1.723 0.928 3.197housing A152 vs A153 1.0000 0.912 0.536 1.553other_instalments 0 vs 1 1.0000 0.586 0.393 0.874pourpose A40 vs A49 1.0000 2.114 1.135 3.940pourpose A41 vs A49 1.0000 0.430 0.191 0.968pourpose A42 vs A49 1.0000 1.074 0.561 2.056pourpose A43 vs A49 1.0000 0.899 0.483 1.672pourpose A44 vs A49 1.0000 1.590 0.596 4.237pourpose A46 vs A49 1.0000 1.426 0.651 3.124savings A61 vs A65 1.0000 2.567 1.566 4.207savings A62 vs A65 1.0000 2.127 1.104 4.098savings A63 vs A65 1.0000 1.192 0.570 2.493
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
75
Partition for the Hosmer and Lemeshow Test
Group Total default = 1 default = 0
Observed Expected Observed Expected
1 100 2 2.57 98 97.43
2 100 5 5.78 95 94.22
3 100 12 9.08 88 90.92
4 100 10 13.42 90 86.58
5 100 21 19.41 79 80.59
6 100 31 26.99 69 73.01
7 100 33 37.14 67 62.86
8 100 43 48.23 57 51.77
9 100 70 59.99 30 40.01
10 100 73 77.40 27 22.60
Wartości obserwowane i oczekiwane w 10 równych grupach obserwacji dla default i nie-default
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
76
Hosmer and Lemeshow Goodness-of-Fit Test
Chi-Square DF Pr > ChiSq
10.3644 8 0.2404
Test Hosmer and Lemeshow – jest testem służącym do weryfikacji jak prawdopodobieństwa prognozowane są dopasowane do prawdopodobieństw (częstości) obserwowanych Mała wartość p-value świadczy o słabym dopasowaniu, wysoka wartość świadczy do dobrym dopasowaniu. W naszym przykładzie wartość 0,24 jest wartością średnią świadczącą o umiarkowanej precyzji dopasowania.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
79
Moc predykcyjna (dyskryminacja) modeluMoc predykcyjna (dyskryminacja) modeluOgólną moc dyskryminacyjną modelu można mierzyć za pomocą miar lub statystyk określających jak dobrze model odróżnia klientów „złych” od „dobrych”:- Pomiar odległości pomiędzy rozkładami prawdopodobieństw dla tych dwóch grup klientów, im bardziej te rozkłady zachodzą na siebie tym słabszy jest model. Miarą ogólną jest tzw. statystyka Dywergencji oparta na różnicy średnich pomiędzy rozkładami. Innym sposobem jest zastosowanie testu t na różnicę dwóch średnich (uwaga na założenia testu).- Znany ogólnie jest test Kołmogorowa-Smirnowa oparty na róznicy dystrubuant. Statystyka testująca D przyjmuje wartości 0-1 im bliżej 0 tym słabszy model, im bliżej 1 tym lepsza separacja.- Najbardziej odpornym na kształt rozkładu testem jest test Wilcoxon-Mann-Whitney odpowiadający polu pod krzywą ROC. Pole pod krzywą ROC odpowiada współczynnikowi Giniego (2*c-1=AR czyli Gini)
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
80
Macierz klasyfikacjiMacierz klasyfikacji
Macierz klasyfikacji przedstawia dwuwymiarowy rozkład dla wartości zmiennej zależnej rzeczywistych i prognozowanych przez model. Określa to dokładność predykcji. Statystyką służącą do pomiaru jest Accuracy. Jeśli określimy zdarzenie czyli w tym przypadku default jako negatywne zdarzenie a nie-default jako pozytywne to tablica będzie następująca:
Przewidywana
0
Klasa
1
Aktualna 0 Prawdziwe pozytywne
Fałszywe pozytywne
Aktualne pozytywne
Klasa 1 Fałszywe negatywne
Prawdziwe negatywne
Aktualne negatywne
Przewidywane pozytywne
Przewidywane negatywne
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
82
Krzywa ROC jest wykresem zależności Sensitivity od (1-Specificty) dla wszystkich możliwych wartości cut-off czyli inaczej dla wartości prawdopodobieństwa decydującego czy dana obserwacja jest zaklasyfikowana do „złych” czy do „dobrych” klientów.
Wartość cut-off można ustalić na dowolnym punkcie np.0.5 lub 0.3
Classification Table
ProbLevel
Correct Incorrect Percentages
Event Non-Event
Event Non-Event
Correct Sensi-tivity
Speci-ficity
FalsePOS
FalseNEG
0.500 148 612 88 152 76.0 49.3 87.4 37.3 19.9
0.300 221 499 201 79 72.0 73.7 71.3 47.6 13.7
Ponad 70% wszystkich przypadków zostało poprawnie zaklasyfikowanych
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
83
ROC curve i ARROC curve i ARPole pod krzywą ROC czyli c może być określone z rang (określonych w klasie pierwszej). -Wartości prawdopodobieństw otrzymane z modelu są posortowane i porangowane, wartość c wyznacza się wówczas jako:
- Gdzie suma w liczniku to suma rang w pierwszej klasie. - Dla idealnej sytuacji ROC byłby krzywą poziomą w 1, czyli statystyka c wynosiła by 1.- Statystyka c przyjmuje wartości 0-1, nie powinna jednak być niższa niż 0,5. - Wartość 0,5 to model losowy czyli nie dyskryminuje klientów.
1
1 1{ | 1}
1 0
1 12
n
ii y
R n n
cn n
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
84
0,01
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
85
Association of Predicted Probabilities andObserved ResponsesPercent Concordant 81.9 Somers' D 0.640Percent Discordant 17.9 Gamma 0.642Percent Tied 0.2 Tau-a 0.269Pairs 210000 c 0.820
Statystyka c wynosi 0,82 czyli AR=0,82*2-1=0,64.
Poziom współczynnika Giniego 64% dla karty scoringowej jest poziomem zadowalającym.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
86
Obserwacje odstające i wpływoweObserwacje odstające i wpływowe
Szczegóły miar – patrz wykład z regresji
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
87
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
88
Nieliniowość w modelu i interakcje zmiennychNieliniowość w modelu i interakcje zmiennychWykrycie nieliniowości w modelu zazwyczaj odbywa się poprzez graficzną
analizę empirycznych logitów:
1. Podział zmiennych objaśniających na przedziały (ok. 100) i wyznaczenie dla każdego przedziału proporcji default (odsetka)
2. Wyznaczenie logitów czyli ln(DRi) dla każdego przedziału gdzie DR jest to proporcja defaultów
3. Graficzne przedstawienie logitów na wykresie w zależności od wartości zmiennej (mediana lub średnia lub po prostu środek przedziału dla każdego przedziału zmiennej)
4. Ocena: czy jest to zależność zbliżona do liniowej, jeśli nie jest należy dokonać modyfikacji danej zmiennej: transformacja zmiennej (np. logitowa lub standaryzacja lub dyskretyzacja) lub wprowadzić do modelu jej iteracje z innymi zmiennymi lub postać wielomianu tej zmiennej.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
90
Zależność pomimo silnych wahań (mało obserwacji w przedziałach) zbliżona jest do liniowej
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
91
Włączenie interakcji do modeluWłączenie interakcji do modelu
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
92
Type 3 Analysis of Effects
Effect DF WaldChi-Square
Pr > ChiSq
duration 1 12.6873 0.0004
instalment 1 7.2072 0.0073
acc_status 2 61.8834 <.0001
credit_history 2 20.2310 <.0001
debtors 2 6.3676 0.0414
employment 3 11.8331 0.0080
foreign_worker 1 5.1516 0.0232
housing 2 5.8915 0.0526
pourpose 6 21.3721 0.0016
savings 3 20.2802 0.0001
credit_amt 1 3.9015 0.0482
credit_am*credit_amt 1 5.7792 0.0162
credit*credit*credit 1 4.4354 0.0352
housing*job 4 10.6218 0.0312
job 2 8.0876 0.0175
other_instalments 1 6.7804 0.0092
Istotne na poziomie 0.05
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
93
Association of Predicted Probabilities andObserved Responses
Percent Concordant 82.7 Somers' D 0.657
Percent Discordant 17.1 Gamma 0.658
Percent Tied 0.2 Tau-a 0.276
Pairs 210000 c 0.828
Wartość statystyki c wzrosła z 0,82 do 0,828 czyli poziom AR=2*0,828-1=0,656 czyli 65,6%
Uwaga: dodawanie zmiennych i ich interakcji może doprowadzić do tzw. overfitting; taki model musi być zweryfikowany na próbie walidacyjnej.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
94
Cross-walidacjaCross-walidacja
Walidacja czyli testowanie/sprawdzenie poprawności działania modelu odbywać się może na kilka sposobów:
1. Podział próby do budowy modelu na: deweloperską i testową (zazwyczaj 70% i 30%), warunek: wystarczająca liczebność próby i dostępność zdarzeń czyli w tym przypadku defaultów.
2. Wylosowanie próby np. 30-50% z całej próby wykorzystanej do budowy modelu i przeprowadzenie walidacji.
3. Resampling (bootstrapping) polegająca na próbkowaniu w takiej liczebności próbek jak próba wyjściowa użyta do konstrukcji modelu.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
95
Cross-walidacjaCross-walidacja
Walidacja czyli testowanie/sprawdzenie poprawności działania modelu powinna obejmować następujące elementy:
1. Sprawdzenie predykcyjności modelu czyli stabilności siły dyskryminacyjnej (nie powinna znacznie odbiegać od próby deweloperskiej).
3. Sprawdzenie stabilności rozkładów scorów/ocen prawdopodobieństw wynikających z modelu.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
96
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
97
Losowanie bez zwracania
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
98
Inne zagadnieniaInne zagadnieniaW budowie modelu mogą pojawić się inne zagadnienia których
rozwiązanie wykracza poza ramy ścieżki podstawowej:
1. Oversampling czyli sytuacja kiedy w próbie do budowy modelu jest bardzo mała liczba obserwacji ze zdarzeniem czyli tzw defaultów a bardzo duża liczba obserwacji nie-default gdzie odsetek defaultów wynosi poniżej kilku %, należy wówczas do próby deweloperskiej włączyć wszystkie defualty i wylosować nie-defaulty w proporcji max. 1:5 a następnie dokonać korekty wyników np. poprzez dodanie czynnika skalującego:
*
_ _
* *_ _ _ _
ˆˆ
ˆ ˆ1i ndef próba def org
i
i def próba ndef org i ndef próba def org
p p pp
p p p p p p
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
99
Inne zagadnieniaInne zagadnienia2. Włączenie zmiennych nieistotnych statystycznie, lub współliniowych ale
istotnych z punktu widzenia merytorycznej zawartości np. wielkość firmy, wiek osoby, region itp. W takiej sytuacji można zastosować metodę głównych składowych i dopiero główne składowe (liczba zmiennych w zależności od wyników) włączyć do modelu.
3. Współliniowości zmiennych lub redukcji wymiaru (liczby zmiennych) można również dokonać stosując analizę skupień. Poprzez pogrupowanie zmiennych w skupienia, które są wewnątrz skupienia najsilniej skorelowane a pomiędzy skupieniami jak najsłabiej.
4. Nadawanie ocen punktowych tzw. scorów. Jeżeli oprócz decyzji „tak” „nie” interesuje nas nadanie klientowi oceny punktowej (np. do wykorzystania w zróżnicowaniu marży) wówczas można wykorzystać procedurę PROC SCORE.
Studia PodyplomoweANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.
100
Ćwiczenie do samodzielnego wykonaniaĆwiczenie do samodzielnego wykonania1. Przeprowadzić cross-walidację modelu na próbie 25% z oryginalnej
próby klientów
2. Dokonać oceny stabilności otrzymanych wyników na poziomie:
- Różnica w AR model vs. Test
- Stabilność parametrów model vs. Test
- Stabilność rozkładów model vs. Test
Wnioski: Czy model spełnia wymagania do stosowania w praktyce?