Tugas 6 Analisis Data Kategorik

STATISTIKA DAN METODE PENELITIAN

Resume Pertemuan ke-6

ANALISIS DATA KATEGORIK

Oleh:

Sahrul Sahar

P2800212003

Teknik Perencanaan Prasarana

Pascasarjana Universitas Hasanuddin

1. Data Kategorik

Data kategorik adalah data yang skala pengukurannya terdiri dari sekumpulan

kategorik ordinal atau nominal. Data kategorik juga dapat di artikan sebagai data yang hanya

berupa kategori, level, pernyataan, simbol, penamaan, pengkodean dan lain-lain.

a) Data dari Skala Pengukuran Nominal, yaitu jenis data yang penggolongannya atau

pengkategoriannya hanya berupa nama saja, tidak ada urutan yang memberikan makna

tertentu. Yang termasuk dalam data ini, misalnya :

Jenis kelamin : laki-laki, perempuan;

Warna : jingga,abu-abu, merah, orange, dsb;

Nama orang : bambang, Ucok, Rahmat, dsb.

Tempat tinggal/region (Urban, Rural).

b) Data dari Skala Pengukuran Ordinal, yaitu jenis data yang pengkategoriannya bisa

diurutkan berdasarkan kriteria tertentu yang bermakna. Yang termasuk dalam jenis

data ini, misalnya:

Tingkat pendidikan (SD, SMP, SLTA, PT).

Respon konsumen pada produk (puas, cukup, kurang puas).

Kode 1 (motivasi rendah), kode 2 (motivasi tinggi) dan kode 3 (motivasi sangat

tinggi).

2. Analisis Data Kategorik

Analisis data kategorik dapat dilakukan, bilamana kita mencoba membuat analisa,

ada keterkaiatan satu faktor/variabel kategorik dengan faktor lain. Seperti adanya

keterkaitan antara tingkat keaktifan kerja dengan tingkat pendidikan atau keterkaitan antara

perbedaan jenis kelamin dengan tingkat pendidikan, atau tempat tinggal.

1

a) Analisis Asosiasi, yaitu untuk melihat adanya perbedaan, sehingga dikatakan

adanya hubungan antar faktor/variabel yang diteliti. Untuk analisis ini digunakan

ukuran selisih proporsi pada faktor utama untuk perbedaan level/kategori.

Seperti perbedaan proporsi atau persentase dari laki-laki dan perempuan, yang

menyenangi punya banyak anak.

b) Analisis Perbandingan (Ratio Prevalensi), yaitu ukuran yang dapat dipakai dalam

analisis data kategorik untuk melihat perbandingan dari adanya perbedaan

dalam level/kategori faktor utama. Seperti, kita ingin tahu berapa kali lebih

banyak/lebih sedikit antara mahasiswa dan mahasiswi yang bolos kuliah.

c) Analisis Kecenderungan (Odd’s Value), yaitu ukuran yang dipakai untuk melihat

kecenderungan dari setiap kategori/level pada faktor utama, dengan perbedaan

kategori faktor lain (faktor kedua, ketiga, atau ke-n ; yang untuk kemudian

disebut faktor/variabel tujuan). Untuk itu juga diperbandingkan nilai proporsi

kategori tertentu pada faktor utama, untuk perbedaan level/kategori faktor

tujuan.

3. Distribusi Analisis Data Kategorik

a) Distribusi Binomial

Distribusi Binomial adalah distribusi probabilitas diskret jumlah keberhasilan

dalam n percobaan ya/tidak (berhasil/gagal) yang saling bebas, dimana setiap hasil

percobaan memiliki probabilitas p. Contohnya:

Sebuah dadu dilempar sepuluh kali dan dihitung berapa jumlah muncul angka

empat. Distribusi jumlah acak ini adalah distribusi binomial dengan n = 10 dan p

= 1/6.

Sebuah uang logam dilambungkan tiga kali dan dihitung berapa jumlah muncul

sisi depan. Distribusi jumlah acak ini merupakan distribusi binomial dengan n =

3 dan p = 1/2.

Adapun karakteristik distribusi binomial yaitu:

1) Percobaan diulang sebanyak n kali.

2) Hasil setiap ulangan dapat dikategorikan ke dalam 2 kelas, misal :

"Berhasil" atau "Gagal";

"Ya" atau "Tidak";

"Success" atau "Failed";

3) Peluang berhasil/sukses dinyatakan dengan p dan dalam setiap ulangan nilai p

tetap. peluang gagal dinyatakan dengan q, dimana q = 1 - p.

2

4) Setiap ulangan bersifat bebas (independent) satu dengan yang lainnya.

5) Besaran sampel (n) < 20 dan nilai peluang berhasil dalam setiap ulangan (p) >

0.05.

b) Distribusi Poisson

Distribusi poisson adalah distribusi probabilitas diskret yang menyatakan

peluang jumlah peristiwa yang terjadi pada periode waktu tertentu apabila rata-rata

kejadian tersebut diketahui dan dalam waktu yang saling bebas sejak kejadian terakhir.

Distribusi poisson juga dapat digunakan untuk jumlah kejadian pada interval tertentu

seperti jarak, luas, atau volume. Distribusi poisson digunakan jika besarnya sampel (n) ≥

20 dan nilai peluang berhasil dalam setiap ulangan (p) ≤ 0.05.

4. Metode Analisis Data

a) Chi-Square

Uji Chi-Kuadrat adalah pengujian hipotesis mengenai perbandingan antara

frekuensi observasi yang benar-benar terjadi/aktual dengan frekuensi

harapan/ekspektasi. Frekuensi observasi adalah nilai yang didapat dari hasil observasi

sedangkan frekuensi harapan adalah nilai yang didapat dari penghitungan secara

teoritis. Uji Chi-Kuadrat digunakan untuk mengetahui adanya hubungan antara peubah

yang diukur tersebut signifikan atau tidak.

Kegunaan uji Chi-Kuadrat adalah:

1) Untuk menguji apakah ada perbedaan yang cukup berarti antara pengamatan suatu

objek (respon tertentu) terhadap nilai harapan.

2) Untuk menguji apakah ada hubungan antara satu peubah berdasarkan

pengkategorian (klasifikasi) terhadap peubah lainnya yang juga diberikan

pengkategorian (klasifikasi).

Hipotesa yang dipergunakan adalah:

H0 : Pijk = Pi.. P.j. P..k

H0 : Pijk ≠ Pi.. P.j. P..k

Interpretasi dari hasil uji chi-square, adalah:

Apabila peluang lebih dari 5% maka persamaan distribsi yang digunakan dapat

diterima.

Apabila peluang kurang dari 5%, maka persamaan distribsi yang digunakan

tidak dapat diterima.

3

Apabila nilai peluang diantara 1-5% maka tidak mungkin diambil keputusan,

diperlukan data tambahan.

b) Regresi Logistik

Regresi logistik digunakan untuk mengetahui pengaruh satu variable

independen atau lebih (X) terhadap satu variable dependen (Y), dengan syarat:

1) Variabel dependent harus merupakan variable dummy yang hanya punya dua

alternatif. Misalnya Puas atau Tidak Puas, dimana jika responden menjawab puas

maka kita beri skor 1 dan jika menjawab tidak puas kita beri skor 0.

2) Variabel independent mempunyai skala data interval atau rasio.

c) Tabel Kontingensi

Tabel kontingensi bisa digunakan untuk melihat hubungan dua peubah

kategorik. Dari tabel kontingensi ini bisa dibuat kesimpulan apakah ada hubungan

antara satu variabel dengan variabel lainnya. Untuk menegaskan pembahasan dari tabel

kontingensi, dilakukan pengujian formal yang dikenal dengan uji Khi-Kuadrat (Chi-

Square Test)

Contoh Kasus:

Seorang pegawai PDAM kota Makassar mencatatat terjadi 220 kejadian

kebocoran pipa di Kota Makassar dalam kurun waktu satu bulan. Kebocoran ini

kemudian dikelompokan pada 2 jenis tingkatan kerusakan (rusak ringan dan rusak

berat). Pegawai tersebut menduga kebocoran tersebut berhubungan dengan jalur pipa

yang melintasi jalan raya, drainase, dan kompleks perumahan. Untuk menguji dugaan

tersebut diperoleh data sebagai berikut:

Jalur Pipa Tingkat KebocoranRusak Ringan Rusak Berat

Jalan 40 65Drainase 15 20Perumahan 45 35

Hipotesis yang akan diuji:

H0 : Kedua variabel saling bebas (tidak ada asosiasi antara tingkat kebocoran pipa terhadap

jalur pipa).

H1 : Kedua variabel tidak bebas (ada asosiasi antara tingkat kebocoran pipa terhadap jalur

pipa).

4

Dengan tingkat signifikansi 5%, pegawai tersebut akan mencoba menguji dugaannya.

Penyelesaian

Membuka program SPSS, dan pada jendela Variabel View, menuliskan nama-nama

variabel yang akan diuji. Baris pertama diisi dengan nama Jalur_Pipa, dan baris kedua

kedua diisi dengan nama Tingkat_Kebocoran.

Pada Variabel View, Jalur_Pipa nilai [Value], isi dengan 1 dan [Label] isi dengan Jalan

lalu klik [add], input kembali [Value] isi dengan 2 dan [Label] isi dengan Drainase lalu

klik [add], input kembali [Value] isi dengan 3 dan [Label] isi dengan Perumahan lalu

klik [add]. Selanjutnya tekan [OK].

Untuk Tingkat_Kebocoran nilai [Value], isi dengan 1 dan [Label] isi dengan Rusak

Ringan lalu klik [add], input kembali [Value] isi dengan 2 dan [Label] isi dengan Rusak

Berat lalu klik [add]. Selanjutnya tekan [OK].

Selanjutnya data yang tersedia diinput ke Data_View.

Kemudian data dianalisis dengan memilih menu [Analyze] lalu pilih [Descriptive

Statistics] dan klik [Crosstabs…].

5

Selanjutnya akan muncul kotak toolbar Crosstabs, klik Jalur_Pipa lalu input ke [Row(s)].

Kemudian klik Tingkat_Kebocoran lalu input ke [Column(s)].

Klik [Statistics] lalu akan muncul kotak toolbar Crosstabs: Statistics lalu centang [Chi-

square], [Correlations] dan [Contingency coefficient],lalu plih [Continue].

Centang [Display clustered bar chart].

Kemudian klik [OK] untuk melihat hasilnya.

Hasil output analisis dapat dilihat pada tabel- tabel berikut:

6

Tabel.1 Case Processing Summary

Cases

Valid Missing Total

N Percent N Percent N Percent

Jalur_Pipa * Tingkat_Kebocoran 220 100.0% 0 .0% 220 100.0%

Pada tabel 1 ini dijelaskan mengenai kesahihan variabel Jalur_Pipa dan

Tingkat_Kebocoran.

Tabel.2 Jalur_Pipa * Tingkat_Kebocoran Crosstabulation

Count

Tingkat_Kebocoran

TotalRusak Ringan Rusak Berat

Jalur_Pipa Jalan 40 65 105

Drainase 15 20 35

Permukiman 45 35 80

Total 100 120 220

Tabel 2 ini merupakan tabel tabulasi silang antar variabel Jalur_Pipa dengan

Tingkat_Kebocoran. Variabel Jalur_Pipa pada baris dan variabel Tingkat_Kebocoran pada kolom.

Tabel.3Chi-Square Tests

Value dfAsymp. Sig. (2-

sided)

Pearson Chi-Square 6.149a 2 .046

Likelihood Ratio 6.159 2 .046

Linear-by-Linear Association

5.902 1 .015

N of Valid Cases 220

a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 15,91.

Untuk menguji hasil tabel tabulasi silang dilakukan uji chi-square sesuai dengan tabel 3.

Diketahui bahwa nilai chi-square sebesar 6.149 dengan nilai p-value sebesar 0.046 pada kolom

Asymp.Sig.(2-sided). Nilai 0.046 < 0.05 sehingga H0 ditolak dengan kata lain terdapat

asosiasi/hubungan antara Jalur_Pipa dengan Tingkat_Kebocoran. Selain itu nilai dari frekuensi

harapan minimum 15.91 dan nilai ini lebih dari 5 sehingga memenuhi syarat uji Chi-square.

7

Tabel.4Symmetric Measures

ValueAsymp. Std.

Errora Approx. Tb Approx. Sig.a

Nominal by Nominal

Contingency Coefficient

.165 .046

Interval by Interval Pearson's R -.164 .067 -2.457 .015c

Ordinal by Ordinal Spearman Correlation -.163 .067 -2.436 .016c

N of Valid Cases 220

a. Not assuming the null hypothesis.

b. Using the asymptotic standard error assuming the null hypothesis.

c. Based on normal approximation.

Sesuai gambar diagram diketahui bahwa tingkat kerusakan pipa rusak berat lebih tinggi

dibanding rusak ringan yaitu sebesar 62% yang melewati jalan (65 dari 105 sampel), yang

melewati drainase 57% (20 dari 35 sampel) dan 44% yang melewati permukiman (35 dari 80

sampel).

8

Menggunakan Analisis Regresi Logistik, sebagai berikut:

Contoh Kasus:

Seorang peneliti ingin mengetahui seberapa besar pengaruh dari pelaksana

pekerjaan terhadap hasil pekerjaan. Penelitian ini dilakukan dengan mengambil sampel

sebanyak 220 orang. Pelaksanan pekerjaan dibedakan atas 3 yaitu pemerintah, swasta

dan masyarakat lokal. Adapun data yag diperoleh sebagai berikut:

Pelaksana Hasil PekerjaanBaik Kurang Baik

Pemerintah 40 65Swasta 25 10Masyarakat Lokal 45 35

Dengan tingkat signifikansi 5%, pegawai tersebut akan mencoba menguji dugaannya.

Membuka program SPSS, dan pada jendela Variabel View, menuliskan nama-nama

variabel yang akan diuji. Baris pertama diisi dengan nama Pelaksana, dan baris kedua

kedua diisi dengan nama Hasil_Pekerjaan.

Pada Variabel View, Pelaksana nilai [Value], isi dengan 1 dan [Label] isi dengan

Pemerintah lalu klik [add], input kembali [Value] isi dengan 2 dan [Label] isi dengan

Swasta lalu klik [add], input kembali [Value] isi dengan 3 dan [Label] isi dengan

Masyarakat Lokal lalu klik [add]. Selanjutnya tekan [OK].

Untuk Hasil_Pekerjaan nilai [Value], isi dengan 1 dan [Label] isi dengan Baik lalu klik

[add], input kembali [Value] isi dengan 2 dan [Label] isi dengan Kurang Baik lalu klik

[add]. Selanjutnya tekan [OK].

9

Selanjutnya data yang tersedia diinput ke Data_View.

Kemudian data dianalisis dengan memilih menu [Analyze] lalu pilih [Regression] dan klik

[Binary Logistic…].

10

Selanjutnya akan muncul kotak toolbar Logistic Regression, klik Hasil_Pekerjaan lalu

input ke [Dependent]. Kemudian klik Pelaksana lalu input ke [Covariates].

Kemudian klik [OK] untuk melihat hasilnya.

Hasil output analisis dapat dilihat pada tabel- tabel berikut:

Tabel.1Case Processing Summary

Unweighted Casesa N Percent

Selected Cases Included in Analysis 200 100.0

Missing Cases 0 .0

Total 200 100.0

Unselected Cases 0 .0

Total 200 100.0

a. If weight is in effect, see classification table for the total number of cases.

Tabel.2Dependent Variable

Encoding

Original Value Internal Value

Baik 0

Kurang Baik 1

11

Tabel.3Classification Tablea,b

Observed

Predicted

Hasil_Pekerjaan Percentage CorrectBaik Kurang Baik

Step 0 Hasil_Pekerjaan Baik 105 0 100.0

Kurang Baik 95 0 .0

Overall Percentage 52.5

a. Constant is included in the model.

b. The cut value is ,500

Tabel.4Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 0 Constant -.100 .142 .500 1 .480 .905

Tabel.5Variables not in the Equation

Score df Sig.

Step 0 Variables Pelaksana 3.877 1 .049

Overall Statistics 3.877 1 .049

Tabel.6Omnibus Tests of Model Coefficients

Chi-square df Sig.

Step 1 Step 3.893 1 .048

Block 3.893 1 .048

Model 3.893 1 .048

Tabel.7Model Summary

Step-2 Log

likelihoodCox & Snell R

SquareNagelkerke R

Square

1 272.866a .019 .026

a. Estimation terminated at iteration number 3 because parameter estimates changed by less than ,001.

12

Tabel.8Classification Tablea

Observed

Predicted

Hasil_Pekerjaan Percentage CorrectBaik Kurang Baik

Step 1 Hasil_Pekerjaan Baik 70 35 66.7

Kurang Baik 45 50 52.6

Overall Percentage 60.0

a. The cut value is ,500

Tabel.9Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 1a Pelaksana -.310 .158 3.846 1 .050 .734

Constant .509 .341 2.230 1 .135 1.664

a. Variable(s) entered on step 1: Pelaksana.

13

Tugas 6 Analisis Data Kategorik

Documents