Analiza Sk adowych G ównych i CzynnikowaM3... · 2018-04-25 · Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod Wstęp oraz cele Wprowadzenie W jednej ze swoich
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Wprowadzenie
W jednej ze swoich prac, A.E. Maxwell podaje, że analizaskładowych głównych znacznie wzrosła poprzez podjęte w owychczasach próby identyfikacji kryminalistów, które odbywały się zapomocą zbioru cech antropometrycznych. Alphonse Bertillionzaangażował się w rozwiązanie tego problemu pod koniec XIXwieku, napisał w roku 1893 dzieło pod tytułem ’Identificationanthropometrique’, w którym przedstawił swoje poglądy.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Wprowadzenie
Alphonse Bertillion zaproponował, by posłużyć się dwunastomaróżnymi pomiarami ciała dla identyfikacji. Jednakże jego procedurazostała skrytykowana przez Francisa Galtona, który zauważył, iżniektóre z pomiarów są wysoko ze sobą skorelowane (jak naprzykład długość ramienia i nogi), dlatego wykorzystywanie obucech nie miało większego sensu. Zaproponował on wybór takichcech, które nie będą ze sobą znacznie skorelowane.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Wprowadzenie
Pracę nad tym tematem kontynuował Karl Pearson (1901), któryna podstawie swoich badań stwierdził, że najlepszymi dowykorzystania pomiarami będą te, które korespondują z pionowymiosiami wielowymiarowej elipsoidy w p-wymiarowej przestrzenipomiarów. Uważa się, że teoretyczne podstawy analizy składowychgłównych zostały wprowadzone właśnie przez Pearsona.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Wprowadzenie
W dalszym ciągu metoda była rozwijana przez HaroldaHotellinga (1933), to jego technika wyznaczała główne składoweoraz ładunki składnikowe. Koncepcja analizy składowych głównychbyła stosowana jako losowy wektor, którą rozwijał Hotelling.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Terminologia
Współcześnie spotykamy się z nazwą analiza głównychskładowych (z ang. principal component analysis) lub analizaskładowych, bądź analiza składnikowa (z ang. componentanalysis). Czasami można się spotkać z metodą składowychgłównych lub techniką, wszystkie te określenia są wymienne.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Cel
Celem analizy składowych głównych jest redukcja wymiarowościzłożonego zjawiska, a co za tym idzie redukcja danych, jak równieżbadanie korelacji pomiędzy zmiennymi, a także badanie grupowaniasię, następnie zaklasyfikowanie jednostek do wydzielonych grup.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Przykład
Potrzebna jest ocena nowo powstałego towaru na rynku, jakim sączekoladowe babeczki. Aby dowiedzieć się, czy są onewystarczająco smaczne i czy będą lubiane przez smakoszy, wartojest przeprowadzić ankietę, która zawierać będzie różne cechytowaru, między innymi smak, zapach, kolor, konsystencja, czynawet kolor opakowania.Ankieta ta zawiera 25 pytań, w tym cechy przedstawione wyżej.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Przykład
Wykorzystując analizę składowych głównych można sprawdzić, czyjest możliwość wyodrębnienia najważniejszych cech. Zamiana paruzmiennych na jedną ogólną, przebiega następująco:
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Definicja, model i kryteria
Definicja
Przypuszczono, że X jest wektorem o p-tej liczbie zmiennychlosowych, oraz że wariancja tych zmiennych losowych i strukturakowariancji lub korelacji pomiędzy p-tą liczbą zmiennych są godnezainteresowania. Chyba, że p jest niewielkie, lub struktura jestbardzo prosta, zazwyczaj wtedy nie jest zbyt pomocne prostespoglądanie na wariancję p i wszystkich z 1
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Definicja, model i kryteria
Metoda Hotellinga
Metoda Hotellinga jest jedną z najczęściej stosowanych proceduruzyskiwania składowych głównych. Powstała w roku 1933.Wykorzystuje metodę mnożników Lagrange’a maksymalizacjifunkcji wielu zmiennych.Przyjmijmy, że punktem wyjścia analizy jest macierz kowariancji S.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Definicja, model i kryteria
Metoda Hotellinga
Równanie (*) możemy zapisać:
Sw1 = λ1w1
Wiemy, że λ1 jest wartością własną macierzy S, zaś wektor w1 jestzwiązanym z nią wektorem własnym.Mnożąc następnie powyższe równanie lewostronnie przez w1 iwykorzystując ograniczenie w
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Definicja, model i kryteria
Metoda Hotellinga
Ponieważ wektor współczynników ma być wybrany tak, abymaksymalizował wariancję S2(Y1), to λ1 musi być największąwartością własną macierzy S.Pierwsza składowa jest zatem w pełni wyznaczona przez parę:wartość własną - wektor własny (λ1,w1).
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Definicja, model i kryteria
Kryteria dla liczby składowych
Procent wyjaśnianej wariancji
Wszystkie składowe główne razem stanowią 100% wariancji.Należy wybrać najmniejsza liczbę składowych głównych, którerazem stanowią znaczny procent wariancji (w odniesieniu do sumywszystkich wariancji), wówczas takowe składowe mogą wzadowalający sposób zastąpić pierwotne zmienne.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Definicja, model i kryteria
Kryteria dla liczby składowych
Kryterium Kaisera
Kaiser (1960)Wyodrębnianie istotnych składowych głównych odbywa się to zapomocą interpretowania wysokości pojedynczych wariancji.Kryterium bierze tylko pod uwagę te składowe, których wartośćwłasna przekracza lub jest bliska wartości 1.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Definicja, model i kryteria
Kryteria dla liczby składowych
Wykres osypiska
Cattell (1966)Metoda graficzna - wykres liniowy, który przedstawia wartościwłasne, tempo ich spadku, czyli procentu wyjaśnionej wariancji.Wyznaczanie ilości pozostawionych składowych głównych odbywasię w taki sposób, ze analityk określa miejsce najłagodniejszegospadku, od tego momentu w prawo odrzucane zostają wartościwłasne, ponieważ reprezentują znikoma część wariancji.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Definicja, model i kryteria
Interpretacja składowych
Analiza składowych głównych ma za zadanie wyznaczyć nowezmienne, tak zwane składowe główne. Interpretacja poleganajczęściej na analizie ’wkładu’ zmiennych pierwotnych w nowazmienna. ’Wkład’ ten rozumieć należy jako kombinacje liniowazmiennych pierwotnych. Każda składowa główna wyjaśnia pewnaczęść zmienności zmiennych pierwotnych.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Algorytm działania
Krok 1: Wstępna analiza, sprawdzenie założeń
NORMALNOŚĆ ROZKŁADUCzy dany zbiór jest normalny? Założenie to nie jest konieczne, gdyzbiór zawiera bardzo dużą ilość danych.
WIELKOŚĆ PRÓBYWiarygodność otrzymanych wyników analizy zależy od wielkościpróby, która z kolei zależy od siły korelacji między zmiennymi wpopulacji. Przyjmuje się, że minimalna liczebność próby to 50obserwacji.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Algorytm działania
Krok 1: Wstępna analiza, sprawdzenie założeń
PUNKTY NIETYPOWENietypowe, odstające punkty w zbiorze nie są mile widziane.Zwykle są wynikiem złego pomiaru danych. Wpływają negatywniena wyniki analizy, mogą nawet sfałszować faktyczne zależnościpomiędzy zmiennymi. Najlepszym sposobem by się ich pozbyć, jestwcześniejsze usunięcie je ze zbioru.
BRAKI DANYCHZbiory danych z brakującymi informacjami również nie wpływająpozytywnie na analizę. Dlatego właśnie w sytuacji z brakamidanych najlepiej zastąpić je przez średnie lub usunąć przypadki zbrakującymi danymi.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Algorytm działania
Krok 2: Wybór macierzy
Należy przyjrzeć się oryginalnym zmiennym. Jeżeli analizowanezmienne będą porównywalne, znaczy to, że będą wyrażone w tychsamych jednostkach (będą znormalizowane), wówczas wykorzystujesię macierz kowariancji. Jeżeli jednak zmienne różnią sięjednostkami, to najlepszym sposobem jest skorzystanie z macierzykorelacji. Wybór jest bardzo ważny, ponieważ nie zawsze składowegłówne otrzymane dla macierzy kowariancji oraz korelacji będąmiały takie same wartości.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Algorytm działania
Krok 3: Wyznaczenie wartości i wektorów własnych
Za pomocą procedury PROC PRINCOMP w programie SASEnterprise Guide, wygenerowano tabelę wartości własnychmacierzy korelacji. Wartości własne są miarą zmiennościpierwotnych danych przedstawionych we współrzędnychskładowych głównych.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Algorytm działania
Krok 4: Wybór składowych głównych
Poniżej przedstawiono schemat dwóch pierwszych składowychgłównych. Obrazuje on nam jak bardzo skorelowane są zmienne zesobą.
Interpretacja: Wykroczenia, które na poniższym schemacie leżąblisko siebie są wysoce ze sobą skorelowane (np. Assault orazRape), zaś te które leżą na przeciwko siebie (np. Auto Theft iMurder) są skorelowane ze sobą ujemnie.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Analiza czynnikowa
Twórcami głównej koncepcji tej metody są psychologowie CharlesSpearman i Louis Leon Thurstone. Spearman wprowadził pojęciepojedynczego czynnika ogólnego dla wyjaśnienia wyników testówinteligencji. Dopiero Louis Leon Thurstone stworzył podstawyteoretyczne analizy czynnikowej.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Wprowadzenie
Analiza czynnikowa jest testem statystycznym, który używany jest,by znaleźć relację pomiędzy wielokrotnie skorelowanymi miarami.Jest to metoda statystyczna używana do opisu zmienności wśródobserwowanych, korelacji zmiennych w zakresie potencjalniemniejszej liczby nieobserwowanych zmiennych zwanych czynnikami.Obserwowane zmienne są modelowane jako kombinacje liniowepotencjalnych czynników.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Model analizy czynnikowej
Zapis macierzowy
Xpx1 − µpx1 = Lpxm · Fmx1 + εpx1
Oznaczenia
X - wektor wartości obserwowalnych,µ - macierz wartości oczekiwanych X ,L - macierz ładunków czynnikowych,F - wektor czynników wspólnych,ε - wektor czynników specyficznych.
i - wariancja wspólna, część całkowitej wariancji, która jestwspólna z innymi zmiennymi.- Ψi - wariancja specyficzna, czyli część wariancji całkowitej,która jest właściwa tylko tej konkretnej zmiennej.
Składowe wariancji X
Wariancja Xi = wariancja wspólna + wariancja specyficzna
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Model czynnikowy X− µ = L · F + ε nie jest unikatowy, cooznacza, że dla dwóch różnych par (L,F ) oraz (L, F ) możemyotrzymać tę samą macierz kowariancji Σ.
Uzasadnienie
Weźmy dowolną macierz ortogonalną T o wymiarach m ×m.Wówczas model możemy zapisać jako:X − µ = LF + ε = LTT ′F + ε = LF + εgdzie L = LT i F = T ′F .Wtedy zachodzi:E (F ) = T ′E (F ) = 0Cov(F ) = T ′Cov(F )T = T ′T = I
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Wstęp oraz cele
Oznacza to, że współczynniki F i F oraz L i L generują tę samąmacierz kowariancji Σ:
Σ = LL′ + Ψ = LL′ + Ψ
W dalszej części prezentacji pokażemy, jak tę niejednoznacznośćmożna wykorzystać do ułatwienia interpretacji wyników uzyskanychw metodzie analizy czynnikowej.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Metody estymacji
Metody estymacji
Rozwiązanie analizy czynnikowej polega na wyznaczeniu układuczynników wspólnych F , dokonuje się tego wykorzystując jedną zpodstawowych metod estymacji, do których należą:1. Metoda głównych składowych,2. Metoda głównego czynnika,3. Metoda największej wiarygodności,4. Metoda centroidalna.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Metody estymacji
Metoda głównych składowych
Chociaż przedstawiona analiza macierzy Σ jest poprawna, nie jestona szczególnie użyteczna w praktyce, ponieważ używa tyle samowspólnych czynników ile jest zmiennych i nie pozwala najakąkolwiek wariancję specyficzną Ψ (czyli Ψi = 0).Preferuje się wzory, które wyjaśniają strukturę kowariancji wodniesieniu do czynników wspólnych.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Metody estymacji
Metoda głównych składowych
Analiza głównego składnika modelu czynnikowego macierzy próbkikowariancji S jest określona za pomocą par złożonych z wartościwłasnej i wektora własnego: (λ1, e1), (λ2, e2), . . . , (λp, ep).Niech m < p będzie liczbą czynników wspólnych. Wówczas macierzprzybliżonych ładunków czynnikowych lij jest postaci:
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Metody estymacji
W jaki sposób wybrać liczbę czynników m?
Jeżeli liczba czynników wspólnych nie jest określona przezpostawione wcześniej założenia, wybór liczby m czynników możeopierać się na przybliżonych wartościach własnych tak, jak naczynnikach głównych.Rozważmy macierz residuum
S − (LL′ + Ψ)
Diagonalne elementy są zerami i jeśli elementy nie leżące naprzekątnej są także małe, możemy przyjąć, że m-czynnikowy modeljest poprawny.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Metody estymacji
Metoda największej wiarygodności
Jeśli założymy, że czynniki wspólne F i czynniki specyficzne ε mająrozkład normalny, to możemy uzyskać estymatory największejwiarygodności ładunków czynnikowych i wariancji specyficznej.Jeśli Fj i εj mają rozkład normalny, to obserwacjeXj − µ = LFj + εj też mają rozkład normalny. Funkcjaprawdopodobieństwa wygląda wtedy następująco:
i jest zależna od L i Ψ ze wzoru Σ = LL′ + Ψ.Agata Weltrowska, Paulina Zalewska Politechnika Gdańska
Analiza Składowych Głównych i Czynnikowa
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Metody estymacji
Metoda największej wiarygodności
Ten model nie jest najlepiej zdefiniowany, ze względu nawielokrotność wyboru macierzy L możliwej przez transformacjeortogonalne. Jednoznacznego wyboru L dokonujemy przeznałożenie dodatkowego warunku:
∆ = L′Ψ−1L
gdzie ∆ jest macierzą diagonalną.Estymacje największej wiarygodności L i Ψ muszą być uzyskaneprzez numeryczną maksymalizację prawdopodobieństwa L(µ,Σ).
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Metody estymacji
Przykład: Przestępcy
Murder = 0.578Factor1− 0.685Factor2
Czynnik 1. możemy interpretować jako wskaźnik ogólnejprzestępczości, czynnik 2. ma wartości dodatnie dla przestępstwnaruszających cudze mienie, a ujemne dla związanych ze zdrowiemi życiem.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Rotacja czynnika
Rotacja czynników
Jak mówiłyśmy wcześniej, macierz ładunków L nie zmienia swoichwłasności po wymnożeniu jej przez dowolną macierz ortogonalną.Taką transformację utożsamiać można z obrotem osi układuwspółrzędnych, które w naszym przypadku odpowiadają kolejnymczynnikom F1, . . . ,Fm. Z tego powodu transformację tą nazywamyrotacją czynników.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Rotacja czynnika
Teoria
Celem rotacji czynników jest uzyskanie macierzy L∗, którapozwoliłaby na prostą interpretację zależności poszczególnychzmiennych od czynników wspólnych. Najlepiej byłoby, gdyby każdaze zmiennych ma duży ładunek tylko na jednym czynniku i małeładunki na pozostałych. Zdarza się to bardzo rzadko, dlategostosujemy rotację macierzy L, dzięki której jesteśmy w stanieotrzymać prostsze w interpretacji wyniki.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Rotacja czynnika
Teoria
Do zilustrowania rotacji posłużymy się przykładem dla dwóchczynników (m = 2). W tym przypadku problem można częstorozwiązać graficznie: osie układu współrzędnych oznaczamy przezF1 i F2, a pary ładunków (li1, li2) dla i = 1, . . . , p traktujemy jakopunkty układu. Najprostszym przykładem rotacji jest obrót osi okąt Φ.Wówczas macierz obrotu T jest postaci
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Rotacja czynnika
Ładunki na czynniku pierwszym (F1) są dodatnie dla wszystkichzmiennych. Można interpretować go więc jako czynnik ogólnejinteligencji. Ładunki na czynniku drugim (F2) są dodatnie dlaprzedmiotów humanistycznych, a ujemne dla matematycznych,więc można założyć, że wskazuje on na typ inteligencji (zdolnościmatematyczne lub humanistyczne).
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Rotacja czynnika
Ładunki zmiennych matematycznych są wysokie na F ∗1 i małoistotne na F ∗2 . F ∗1 może być nazwany czynnikiem matematycznychzdolności. Podobnie trzy zmienne testów niematematycznych mająwysokie ładunki na F ∗2 i stosunkowo małe ładunki na F ∗1 . F ∗2można być nazwany jako czynnik umiejętności humanistycznych.
Wpływ czynnika ogólnej inteligencji rozbił się więc na dwa noweczynniki umożliwiając bardziej precyzyjną interpretację.
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Porównanie dwóch metod
Kiedy stosować daną metodę?
Analizę Składowych Głównych stosujemy, gdy:
1 nie dysponujemy potencjalnym modelem ”głębokiej” strukturyczynników wyjaśniających związki pomiędzy zmiennymi, takimodel nie jest celem naszej analizy lub nie chcemy ”wtłaczać”w taki model posiadanych danych empirycznych
2 chcemy wyliczyć nieskorelowane główne składowe w celuzastosowania ich w dalszych analizach wielowymiarowych (np.regresji lub dyskryminacji)
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Porównanie dwóch metod
3 wiemy, że wariancja specyficzna i wariancja wynikająca zbłędu jest niewielka, a także, gdy analizujemy dużo (np.więcej niż 15) skorelowanych zmiennych lub gdy korelacjamiędzy zmiennymi jest względnie wysoka
4 celem jest eksploracja, rozpoznanie struktury zbioru danych,chcemy przedstawić graficznie strukturę zbioru danych wprzestrzeni dwu- lub trójwymiarowej, szukamy skupieńobiektów ze względu na podobieństwo w zakresieanalizowanych cech, określamy minimalną liczbę wymiarów
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Porównanie dwóch metod
Kiedy stosować daną metodę?
Analizę Czynnikową stosujemy, gdy:
1 chcemy wyjaśnić zaobserwowaną korelację między zmiennymiprzy pomocy modelu przyczynowego opartego na strukturzezwiązków zmiennych obserwowalnych z ukrytymi czynnikami
2 koncentrujemy się na wyjaśnieniu korelacji między zmiennymi idlatego chcemy wyłączyć z analizy wariancję swoistązmiennych
Analiza Składowych Głównych Analiza Czynnikowa Porównanie Metod
Porównanie dwóch metod
Podsumowanie
Analiza czynnikowa i analiza głównych składowych tonajpowszechniej stosowane techniki analizy wielowymiarowej. Sąsprawdzonymi i dobrymi narzędziami, pod warunkiem dobregozrozumienia. Wiele wyborów dokonywanych przez badacza macharakter arbitralny. Z drugiej strony, jak to zauważyliśmy, analizaczynnikowa daje podobne rezultaty przy różnych metodachwyodrębniania czynników oraz podobne do analizy głównychskładowych. W selekcji i interpretacji czynników ważne jestdoświadczenie analityka i merytoryczna znajomość problemu.