Metode Regresi Kuadrat Terkecil Parsial Untuk Pra-Pemrosesan Data Luaran GCM CSIRO Mk-3 TUGAS AKHIR Oleh: Alin Fitriani 1306 100 066 Pembimbing: Dr.Ir. Setiawan, M.S NIP 198701 1 001 JURUSAN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2010
29
Embed
METODE PARTIAL LEAST SQUARES UNTUK PRA … · Metode Regresi Kuadrat Terkecil Parsial Untuk Pra ... terdiri dari berbagai persamaan numerik dan deterministik yang terpadu dan mengikuti
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Metode Regresi Kuadrat Terkecil Parsial Untuk Pra-Pemrosesan Data
Luaran GCM CSIRO Mk-3
TUGAS AKHIR
Oleh:
Alin Fitriani
1306 100 066
Pembimbing:
Dr.Ir. Setiawan, M.S
NIP 198701 1 001
JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT TEKNOLOGI SEPULUH NOPEMBER
SURABAYA
2010
Latar Belakang
iklim Gas rumah kaca Pemanasanglobal
Perubahan iklimPola curah hujan
GCM
Resolusirendah, skala
tinggidownscalling
multikolinieritas Reduksi dimensi
Permasalahan
Bagaimana memodelkan data hujan lokal (variabel respon) dengan data luaran GCM (reduksi) dengan metode PCA danmetode PLS (Partial Least Squares).
Bagaimana hasil kinerja reduksi dimensi dan pemodelan menggunakan metode PCA dan metode PLS (Partial Least Squares).
Tujuan penelitian
Memodelkan data hujan lokal (variabel respon) dengan dataluaran GCM (reduksi)dengan metode PCA dan metode PLS(Partial Least Squares).
Membandingkan hasil kinerja reduksi dimensi dan pemodelanmenggunakan metode PCA dan metode PLS (Partial LeastSquares).
Manfaat Penelitian
Memberikan alternatif bagi BMKG, LAPAN, dan instansilainnya untuk kajian-kajian dampak iklim dengan basisluaran GCM dalam tahap pra-pemrosesan data luaran GCMyang kemudian akan digunakan untuk memodelkanStatistical Downscaling (SD).
Batasan Masalah Studi kasus pra-pemrosesan pada data pemodelan
statistical downscaling adalah data luaran GCM CSIRO-Mk3
dengan 5 statiun yang digunakan sebagai daerah penelitian
yaitu Losarang, Indramayu, Juntinyuat, Kroya, dan
Sumurwatu .
Data luaran GCM diasumsikan bersifat linear
Reduksi dimensi dengan metode PLS (Partial Least Squares)
untuk mengatasi adanya multikolinieritas.
Penelitian Terdahulu
Metode regresi robust PCA dilakukan Chusnul Khotimah
tahun 2009
Transformasi wavelet diskrit dengan mother wavelet Harr
dilakukan Anggreini Suprapti tahun 2009
Tinjauan Pustaka
Regresi Linear
Regresi linier adalah metode statistika yang digunakan untukmembentuk model hubungan antara variabel terikat (dependen;respon; Y) dengan satu atau lebih variabel bebas (independen,prediktor, X) (Deni, 2008).Apabila banyaknya variabel bebas hanya ada satu, disebut sebagairegresi linier sederhana, sedangkan apabila terdapat lebih dari satuvariabel bebas, disebut sebagai regresi linier berganda.Secara umum model yang menggambarkan hubungan antara variabelpenjelas (X) dengan variabel respon (Y) adalah:
Multikolinieritas
Multikolinearitas (kolinearitas ganda) adalah hubungan linear yang sempurnaatau pasti diantara beberapa atau semua variabel eksplanatori (bebas) darimodel regresi ganda.Multikolinieritas yang tinggi akan menyebabkan koefisien regresi yangdiperoleh tidak unik.Salah satu ukuran untuk mendeteksi adanya multikolinieritas adalah VIF(Variation Inflation Factor). VIF merupakan faktor yang mengukur seberapabesar kenaikan varian dari koefisien regresi dibandingkan dengan variabelbebas lain yang saling orthogonal.
dengan adalah koefisien determinasi dari variabel bebas Xi jika diregresikandengan semua variabel bebas X lainnya di dalam model
Principal Component Analysis (PCA)
Metode PCA merupakan prosedur untuk mereduksi dimensi data dengan caramentransformasi variabel-variabel asal yang berkorelasi menjadi sekumpulanvariabel baru yang tidak berkorelasi. Variabel-variabel baru itu dikatakan sebagaiprincipal component (PC) (Johnson and Winchren, 2002).
Partial Least Squares (PLS)
Metode PLS merupakan metode statistik yang menggeneralisasi danmengkombinasikan antara metode analisis faktor, principal component analysisdan multiple regression (Abdi, 2007). Tujuan PLS adalah membentuk komponenyang dapat menangkap informasi dari variabel bebas untuk memprediksi variabelresponPCA terfokus pada keragaman di dalam variabel bebas, sedangkan PLS fokus padakovarians diantara variabel bebas dan variabel tak bebas.
data
Buliding set (membangun model)
Validation
(prediction set)
Validasi Model
Ukuran kebaikan model yang digunakan untuk validasi data RMSE dan RMSEP
R2 dan R2prediction
General Circulation Model (GCM)
GCM (General Circulation Model) adalah suatu model berbasis komputer yangterdiri dari berbagai persamaan numerik dan deterministik yang terpadu danmengikuti kaidah-kaidah fisika (Wigena, 2006).
Donwscaling
Downscaling didefinisikan sebagai upaya menghubungkan antara sirkulasivariabel skala global (variabel penjelas) dan variabel skala lokal (variabelrespon) (Sutikno, 2008).
Statistical Donwscaling
Statistical Downscaling (SD) adalah suatu proses downscaling yangbersifat statik dimana data pada grid-grid berskala besar dalam periodedan jangka waktu tertentu digunakan sebagai dasar untuk menentukandata pada grid berskala lebih kecil (Wigena, 2006).Metode Statistical Downscaling (SD) didasarkan pada asumsi bahwa iklimregional dikendalikan oleh dua faktor yaitu: kondisi iklim skala besar(resolusi rendah) dan kondisi/karakteristik fisiografik regional/lokal(misal: topografi distribusi daratan-lautan dan tataguna lahan) (vonStroch et al. 1999 dalam Sutikno, 2008).Kegunaaan penggunaan metode SD menggunakan data regional atauglobal adalah untuk memperoleh hubungan fungsional antara skala lokaldengan skala global GCM.
Metodologi Penelitian
Sumber Data
Data yang digunakan dalam penelitian ini adalah data sekunder yang diperolehdari data luaran GCM model CSIRO-Mk3 dari Australia dengan eksperimen“20th century in coupled models” (20 C3M).Data diambil pada tahun 1967-2000 dengan lokasi grid berada ditengah tengahKabupaten Indramayu. Grid yang digunakan adalah 3x3, 8x8, dan 12x12dengan domain GCM yang digunakan domain 3x3 (9 grid), yaitu 4.660 LS- 8.390
BT - 114.380 BT, dan domain 12x12 (144 grid), yaitu 2.790 LU-17.720 LS; 97.500
BT – 118.1250 BT
gambar
Variabel Penelitian
Data luaran GCM CSIRO- Mk3 yang merupakan variabel prediktor meliputi:precipitable water (prw), tekanan permukaan laut (slp), komponen anginmeridional (va), komponen zonal (ua), ketinggian geopotensial (zg), dankelembaban spesifik (hus). Ketinggian (level) yang digunakan dalam penelitianadalah 850 hPa, 500 hPa, dan 200 hPa.Variabel respon adalah data curah hujan bulanan meliputi stasiun: Losarang(6.410 LS, 108.150 BT) pada tahun 1967-1999, Indramayu (6.350 LS, 108.320 BT)pada tahun 1974-1999, Tulangkacang (6.360 LS, 107.010 BT ) pada tahun 1991-1999, Sumurwatu (6.520 LS, 108.100 BT) pada tahun 1978-1999, dan Juntinyuat(6.430 LS, 108.440 BT) pada tahun 1974-1999.
gambar
Analisa dan Pembahasan
Tabel 4.1 Matrik korelasi antar variabel HUSS pada grid 3x3
RMSEP dan R2 Pemodelan SD Menggunakan Metode Regresi PCA dan Regresi PLS (reduksi dimensi
lengkap dan per variabel)
Kesimpulan dan Saran
Jumlah Principal Component data luaran GCM yang dihasilkan setiap grid tidak lebih dari 5komponen kecuali untuk variabel HUSS.
Pemodelan dengan menggunakan metode PLS model terbaik berdasarkan RMSEP, grid 3x3pada stasiun Juntinyuat, grid 9x9 dan grid 12x12 pada stasiun Kroya. Berdasarkan nilai R2
model terbaik pada grid 3x3, grid 9x9, dan grid 12x12 terdapat stasiun yang sama yaitustasiun Indramayu.
Pemodelan terbaik berdasarkan nilai RMSEP dengan metode PCA, grid 3x3 pada stasiunJuntinyuat, grid 9x9 pada stasiun Losarang, dan grid 12x12 pada stasiun Indramayu.Sedangkan dengan nilai R2 metode terbaik grid 3x3 pada stasiun Kroya, grid 9x9 dan grid12x12 pada stasiun Losarang.
Pemodelan dengan menggunakan metode regresi PLS lebih baik dibandingkan denganpemodelan regresi dengan pra-pemrosesan PC. Walaupun tidak terlalu besar perbedaanya,pada regresi PLS menghasilkan RMSEP yang lebih kecil dan R2 yang lebih besar dibandingkandengan RMSEP dan R2 yang dihasilkan dengan menggunakan metode regresi dengan pra-pemrosesan PC kecuali pada Stasiun Kroya dengan grid 3x3.
KESIMPULAN
Metode PLS dan PCA hanya cocok untuk data yang bersifat linear,sedangkan data luaran GCM bersifat nonlinier. Hal ini menyebabkanpemodelan menghasilkan R2 yang Kecil. Oleh karena itu, perlu dilakukanpenelitian lebih lanjut untuk mengatasi masalah non linier pada dataluaran GCM tersebut.
SARAN
Daftar PustakaAnonim (a), (2009), Verifikasi dan Validasi Model. http://didi.staff.gunadarma.ac.id [12 Oktober2009]
Anonim (b), (2009). Analisis Komponen Utama.http://www.wikipwedia.org [ 10 September 2009].
Draper, N.R & Smith, H. (1992). Analisis Regresi Terapan. Edisi Kedua. Jakarta: PT. GramediaPustaka Utama