Top Banner

of 40

Materi 6-Analisis Komponen Utama 2

Jan 14, 2016

Download

Documents

Erwin Hermawan

ff
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • Analisis MultivariatAnalisis Komponen Utama

  • Pengamatan Peubah Gandamemerlukan sumberdaya lebih, dalam analisisinformasi tumpang tindih pada beberapa peubah

  • Apa itu Komponen UtamaMerupakan kombinasi linear dari peubah yang diamati informasi yang terkandung pada KU merupakan gabungan dari semua peubah dengan bobot tertentuKombinasi linear yang dipilih merupakan kombinasi linear dengan ragam paling besar memuat informasi paling banyakAntar KU bersifat ortogonal tidak berkorelasi informasi tidak tumpang tindih

  • Analisis Komponen UtamaGugus peubah asal{X1, X2, , Xp}Gugus KU{KU1, KU2, , KUp}Hanya dipilih k < p KU saja, namun mampu memuat sebagian besar informasi

  • Ilustrasi Komponen UtamaUntuk menceritakan bagaimana wajah pacar kita waktu SMA, tidak perlu disebutkan hidungnya mancung, kulitnya halus, rambutnya indah tergerai dan sebagainya. Tapi cukup katakan Pacar saya waktu SMA orangnya cantik. Kata cantik sudah mampu menggambarkan uraian sebelumnya.

  • Bentuk Komponen UtamaKU1 = a1x = a11x1 + + a1pxp Jika gugus peubah asal {X1, X2, , Xp} memiliki matriks ragam peragam maka ragam dari komponen utama adalah

    = a1a1 =

    Tugas kita adalah bagaimana mendapatkan vektor a1 sehingga ragam di atas maksimum (vektor ini disebut vektor koefisien)

  • Mendapatkan KU pertamaVektor a1 merupakan vektor ciri matriks yang berpadanan dengan akar ciri paling besar.Kombinasi linear dari {X1, X2, , Xp} berupa KU1 = a1x = a11x1 + + a1pxp dikenal sebagai KU pertama dan memiliki ragam sebesar 1 = akar ciri terbesar

  • KU keduaBentuknya KU2 = a2x = a21x1 + + a2pxp Mencari vektor a2 sehingga ragam dari KU2 maksimum, dan KU2 tidak berkorelasi dengan KU1a2 tidak lain adalah vektor ciri yang berpadanan dengan akar ciri terbesar kedua dari matriks .

  • Komponen UtamaMisalkan 1 2 p > 0 adalah akar ciri yang berpadanan dengan vektor ciri a1, a2, , ap dari matriks , dan panjang dari setiap vektor itu masing masing adalah 1, atau aiai = 1 untuk i = 1, 2, , p. Maka KU1 = a1x, KU2 = a2x, , KUp = apx berturut-turut adalah komponen utama pertama, kedua, , ke-p dari x. Lebih lanjut var(KU1) = 1, var(KU2) = 2, , var(KUp) = p, atau akar ciri dari matriks ragam peragam adalah ragam dari komponen-komponen utama.

  • Kontribusi setiap KURagam dari setiap KU sama dengan akar ciri , yaitu iTotal ragam peubah asal seluruhnya adalah tr(), dan ini sama dengan penjumlahan dari seluruh akar ciriJadi kontribusi setiap KU ke-j adalah sebesar

  • Interpretasi setiap KUInterpretasi setiap KU didasarkan pada nilai pada vektor aj, karena nilai ini berhubungan linear dengan korelasi antara X dengan KUInformasi pada KU didominasi oleh informasi X yang memiliki koefisien besar.

  • Permasalahan Umum dalam AKUPenentuan KU menggunakan matriks ragam-peragam vs matriks korelasiPenentuan banyaknya KU

  • Menggunakan matriks korelasi atau ragam peragam?Secara umum ini adalah pertanyaan yang sulit. Karena tidak ada hubungan yang jelas antara akar ciri dan vektor ciri matriks ragam peragam dengan matriks korelasi, dan komponen utama yang dihasilkan oelh keduanya bisa sangat berbeda. Demikian juga dengan berapa banyak komponen utama yang digunakan.

  • Menggunakan matriks korelasi atau ragam peragam?Perbedaan satuan pengukuran yang umumnya berimplikasi pada perbedaan keragaman peubah, menjadi salah satu pertimbangan utama penggunaan matriks korelasi. Meskipun ada juga beberapa pendapat yang mengatakan gunakan selalu matriks korelasi.

  • Menggunakan matriks korelasi atau ragam peragam?Penggunaan matriks korelasi memang cukup efektif kecuali pada dua hal. Pertama, secara teori pengujian statistik terhadap akar ciri dan vektor ciri matriks korelasi jauh lebih rumit. Kedua, dengan menggunakan matriks korelasi kita memaksakan setiap peubah memiliki ragam yang sama sehingga tujuan mendapatkan peubah yang kontribusinya paling besar tidak tercapai.

  • Penentuan Banyaknya KUMetode 1didasarkan pada kumulatif proporsi keragaman total yang mampu dijelaskan. Metode ini merupakan metode yang paling banyak digunakan, dan bisa diterapkan pada penggunaan matriks korelasi maupun matriks ragam peragam.Minimum persentase kergaman yang mampu dijelaskan ditentukan terlebih dahulu, dan selanjutnya banyaknya komponen yang paling kecil hingga batas itu terpenuhi dijadikan sebagai banyaknya komponen utama yang digunakan. Tidak ada patokan baku berapa batas minimum tersebut, sebagian bukau menyebutkan 70%, 80%, bahkan ada yang 90%.

  • Penentuan Banyaknya KUMetode 2hanya bisa diterapkan pada penggunaan matriks korelasi. Ketika menggunakan matriks ini, peubah asal ditransformasi menjadi peubah yang memiliki ragam sama yaitu satu. Pemilihan komponen utama didasarkan pada ragam komponen utama, yang tidak lain adalah akar ciri. Metode ini disarankan oleh Kaiser (1960) yang berargumen bahwa jika peubah asal saling bebas maka komponen utama tidak lain adalah peubah asal, dan setiap komponen utama akan memiliki ragam satu. Dengan cara ini, komponen yang berpadanan dengan akar ciri kurang dari satu tidak digunakan. Jollife (1972) setelah melakukan studi mengatakan bahwa cut off yang lebih baik adalah 0.7.

  • Penentuan Banyaknya KUMetode 3penggunaan grafik yang disebut plot scree. Cara ini bisa digunakan ketika titik awalnya matriks korelasi maupun ragam peragam. Plot scree merupakan plot antara akar ciri k dengan k. Dengan menggunakan metode ini, banyaknya komponen utama yang dipilih, yaitu k, adalah jika pada titik k tersebut plotnya curam ke kiri tapi tidak curam di kanan. Ide yang ada di belakang metode ini adalah bahwa banyaknya komponen utama yang dipilih sedemikian rupa sehingga selisih antara akar ciri yang berurutan sudah tidak besar lagi. Interpretasi terhadap plot ini sangat subjektif.

  • Kegunaan Lain KUPlot skor KU dua dimensi sebagai alat awal diagnosis pada analisis gerombolKU yang saling bebas mengatasi masalah multikolinear dalam analisis regresi

  • Contoh Penerapan AKU

  • Ilustrasi berikut menggunakan catatan waktu pada olimpiade Los Angeles tahun 1984 untuk berbagai nomor lari putri di cabang atletik. Ada tujuh nomor yang dicatat, yaitu lari 100 meter, 200 meter, 400 meter, 800 meter, 1500 meter, 3000 meter, dan maraton. Tiga nomor pertama catatan waktu dalam satuan detik, sedangkan empat nomor yang lain dalam menit. Data yang tersedia ada 55 negara peserta.

  • Masalah yang ingin dipecahkan adalah memeringkatkan negara berdasarkan performa dari keseluruhan nomor. Cara yang paling sederhana sebenarnya adalah dengan cara merata-ratakan catatan ketujuh nomor, setelah terlebih dahulu menyamakan satuan menjadi detik (atau menit). Namun seperti yang dibahas sebelumnya, rata-rata tidak mampu memberikan informasi sebanyak jika menggunakan komponen utama. Pemilihan komponen utama pertama, namapaknya cukup beralasan.

  • Yang menjadi permasalah dalam penggunaan komponen utama adalah, matriks ragam peragam ataukah matriks korelasi yang harus digunakan untuk mendapatkannya. Perbedaan satuan pada peubah yang ada menyebabkan pemilihan korelasi merupakan ide yang lebih baik. Penggunaan matriks ragam peragam akan menyebabkan dominasi dari catatan di nomor maraton, karena ragamnya paling besar.

  • Correlation Matrix

    m100 m200 m400 m800 m1500 m3000 marathonm100 1.0000 0.9528 0.8350 0.7277 0.7163 0.7417 0.5423m200 0.9528 1.0000 0.8572 0.7241 0.7029 0.7099 0.5444m400 0.8350 0.8572 1.0000 0.8981 0.7757 0.7776 0.5507m800 0.7277 0.7241 0.8981 1.0000 0.8260 0.8636 0.6545m1500 0.7163 0.7029 0.7757 0.8260 1.0000 0.9031 0.6996m3000 0.7417 0.7099 0.7776 0.8636 0.9031 1.0000 0.7966marathon 0.5423 0.5444 0.5507 0.6545 0.6996 0.7966 1.0000

  • Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative1 5.53319890 4.81746883 0.7905 0.79052 0.71573007 0.35411502 0.1022 0.89273 0.36161505 0.15335511 0.0517 0.94444 0.20825995 0.11607781 0.0298 0.97415 0.09218213 0.04086896 0.0132 0.98736 0.05131317 0.01361245 0.0073 0.99467 0.03770072 0.0054 1.0000

  • Plot Scree

  • Penentuan Banyaknya KUMetode 1: Menggunakan 2 KU sudah mencapai proporsi keragaman 89.27%Metode 2: Hanya 2 KU yang memiliki akarciri lebih besar dari 0.7Metode 3: Pada k = 2 terlihat gambar scree plot sangat curam di kiri tapi landai di kanan. Jadi 2 KU yang digunakan sudah mencukupi.

  • Eigenvectors Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7m100 0.378202 -.426104 0.359297 -.165099 -.331229 0.225902 0.598584 m200 0.376416 -.452874 0.363819 -.011005 0.175249 0.037974 -.698982 m400 0.391311 -.272232 -.325636 0.378804 0.371464 -.556664 0.274544 m800 0.390624 0.067673 -.512111 0.402954 -.250932 0.579870 -.137794 m1500 0.385043 0.230072 -.245359 -.680608 0.481480 0.195655 0.072641 m3000 0.395890 0.308242 -.074146 -.249112 -.615938 -.509888 -.203317 marathon 0.323383 0.621855 0.551857 0.376128 0.217762 0.056004 0.110204

  • KU PertamaDengan menggunakan matriks korelasi sebagai dasar analisis, diperoleh bahawa akar ciri pertama sebesar 5.53 (yang juga merupakan ragam komponen pertama), dan mampu menerangkan keragaman data sebesar 79.05%. Akar ciri pertama yang berpadanan dengannya adalah(0.378202, 0.376416, 0.391311, 0.390624, 0.385043, 0.395890, 0.323383)memiliki nilai yang semua positif dan hampir sama besar, bisa diartikan sebagai ukuran performa keseluruhan nomor. Perhatikan bahwa karena peubah asalnya adalah catatan waktu di berbagai nomor, maka negara dengan nilai yang lebih kecil merupakan negara yang memiliki pelari lebih cepat.

  • KU PertamaJika skor komponen pertama ini diurutkan maka diperoleh hasil 10 terbaik adalahObs country Prin1 Prin21 USSR -3.46947 0.297982 USA -3.33124 0.504013 Czech -3.10484 0.975374 FRG -2.93434 0.346715 GB&NI -2.79248 0.442746 Poland -2.69963 0.706267 Canada -2.61758 0.531968 GDR -2.54492 3.071449 Finland -2.19832 0.5213410 Italy -2.12838 -0.34299

  • KU KeduaKomponen utama kedua memiliki ragam sebesar akar ciri terbesar kedua yaitu 0.71 dan memberikan kontribusi keragaman total 10.22%. Sehingga jika digunakan dua komponen utama akan didapatkan keragaman total yang mampu dijelaskan keduanya adalah 89.27%. Akar ciri dari komponen kedua ini adalah(-.426104, -.452874, -.272232, 0.067673, 0.230072, 0.308242, 0.621855)Komponen kedua ini bisa diartikan sebagai kontras antara catatan waktu nomor jarak dekat dengan jarak menengah dan jauh. Negara dengan nilai skor komponen utama kedua mendekati nol, berarti memiliki kemampuan yang merata di kedua jenis nomor.

  • Plot Skor KU

  • CONTOH APLIKASI REGRESI KOMPONEN UTAMAREGRESI PENGARUH SIFAT SIFAT KUANTITATIF PADI SAWAH TERHADAP HASIL

  • MasalahBanyak PeubahSulit dalam AnalisisMultikolinearitasKesimpulan tidak Valid

  • Langkah-Langkah Analisis Hub antar Peubah Pemeriksaan Multikolinearitas Analisis KU Regresi KU dengan Peubah Respon Y Transformasi Regresi KU ke Peubah Baku Z Transformasi Regresi Z ke Peubah Asal X

  • Korelasi Antar Peubah Bebas

    Sheet1

    X1X2X3X4X5X6X7

    X11,0000.80610.85110.90150.9157-0.83970.7843

    0.00.00010.00010.00010.00010.00010.0001

    X20.80611,0000.62790.73610.8448-0.66240.7592

    0.00010.00.00530.00050.00010.00270.0003

    X30.85110.62791,0000.842440.70182-0.80790.70844

    0.00010.00530.00.00010.00120.00010.0010

    X40.90150.73610.842441,0000.8538-0.77670.8297

    0.00010.00050.00010.00.00010.00010.0001

    X50.91570.84480.701820.85381,000-0.77920.8536

    0.00010.00010.00120.00010.00.00010.0001

    X6-0.8397-0.6624-0.8079-0.7767-0.77921,000-0.6512

    0.00010.00270.00010.00010.00010.00.0034

    X70.78430.75920.708440.82970.8536-0.65121,000

    0.00010.00030.00100.00010.00010.00.0

    X1X2X3X4X5X6X7

  • Nilai VIF (deteksi multikolinearitas)

    Sheet1

    Peubah Bebas (Xi)Varians Inflantion Factor (VIF)

    X116.40

    X23.70

    X36.80

    X47.60

    X514.20

    X64.20

    X75.40

  • Analisis Komponen Utama

    Sheet1

    PeubahKomponen Utama

    K1K2K3K4K5K6K7

    Z10.4030.0830.1340.0630.4470.410-0.664

    Z20.358-0.5210.4390.556-0.227-0.2160.006

    Z30.3650.541-0.2610.506-0.2160.3080.329

    Z40.3920.096-0.3390.0240.473-0.7020.069

    Z50.393-0.2930.142-0.3870.2940.3570.613

    Z6-0.364-0.453-0.4930.4510.3840.2540.082

    Z70.368-0.368-0.588-0.279-0.4930.074-0.253

    Akar ciri (Ragam )57,3450.50380.29930.18900.15020.08970.0336

    Proporsi0.8190.0720.0430.0270.0210.0130.005

    Proporsi kumulatif0.8190.8910.9340.9610.9820.9951,000

  • Analisis Regresi dengan 4 KU PertamaY = 6.66 + 0.634 K1 0.424 K2

    Sheet1

    PeubahKoefSt.devt-studentP

    Konstan6.6650.093271.530.000

    K1-0.63390.040015.830.000

    K2-0.42390.1351-3.140.011

    K3-0.07830.1753-0.450.664

    K4-0.41000.2206-1.860.093

  • Transformasi ke peubah ZTransformasi ke peubah asal XY = 6.66 + 0.112 Z1 + 0.351 Z2 + 0.096 Z3 + 0.102 Z4 + 0.267 Z5 0.059 Z6 + 0.286 Z7Y = 18.47 + 0.0166 X1 + 0.139 X2 + 0.013 X3 + 0.059 X4 + 0.0158 X5 0.009 X6 + 0.140 X7