analisis hasil ujian nasional tahun 2016-2019

ANALISIS HASIL UJIAN NASIONAL TAHUN 2016-2019

TINGKAT SEKOLAH MENENGAH PERTAMA

DENGAN PENDEKATAN SAINS DATA

TESIS

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Magister Pendidikan

Program Studi Pendidikan Matematika Program Magister

MARGARETHA NOBILIO PASIA JANU

NIM : 181442009

PROGRAM STUDI PENDIDIKAN MATEMATIKA PROGRAM MAGISTER

JURUSAN PENDIDIKAN MATEMATIKA DAN ILMU PENGETAHUAN ALAM

FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2020

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

i

ANALISIS HASIL UJIAN NASIONAL TAHUN 2016-2019

TINGKAT SEKOLAH MENENGAH PERTAMA

DENGAN PENDEKATAN SAINS DATA

TESIS

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Magister Pendidikan

Program Studi Pendidikan Matematika Program Magister

MARGARETHA NOBILIO PASIA JANU

NIM : 181442009

PROGRAM STUDI PENDIDIKAN MATEMATIKA PROGRAM MAGISTER

JURUSAN PENDIDIKAN MATEMATIKA DAN ILMU PENGETAHUAN ALAM

FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2020


iv

MOTTO DAN HALAMAN PERSEMBAHAN

“...Dan bukan hanya itu saja, kita malah bermegah juga dalam kesengsaraan

kita. Karena kita tahu, bahwa kesengsaraan itu menimbulkan ketekunan, dan

ketekunan menimbulkan tahan uji, dan tahan uji menimbulkan pengharapan”

(Roma 5:3:4)

Karya ini kupersembahkan untuk Tuhan Yesus yang penuh dengan kesetiaan juga

untuk Papa Nober, Mama Bibiana, dan para sahabat (Grace,Atok, Lolik, Jimi).


vii

ABSTRAK

Janu, Margaretha Nobilio Pasia.(2020).Analisis Hasil Ujian Nasional Tahun

2016-2019 Tingkat Sekolah Menengah Pertama dengan Pendekatan Sains

Data.

Penelitian ini bertujuan untuk: (1) mengetahui hasil analisis hasil Ujian

Nasional semua provinsi di Indonesia yang diperoleh melalui visualisasi data, (2)

mengetahui nilai mana yang paling berpengaruh terhadap capaian nilai ujian

nasional, dan (3) mengetahui hasil analisis klaster pada data Ujian Nasional.

Jenis penelitan yang dipakai adalah deskriptif-kuantitatif dengan analisis.

Objek penelitian dalam tulisan ini adalah data UN 2016-2019 tingkat Sekolah

Menengah Pertama. Langkah analisis data dimulai dengan (1) mengumpulkan dan

membaca berbagai literatur Sains Data, (2) mengumpulkan data hasil Ujian

Nasional dari laman puspendik.kemdikbud.go.id/hasilun/, (3) membuat

visualisasi, (4) menganalisis hasil visualisasi, (5) melakukan Analisis Komponen

Utama dengan bantuan perangkat lunak R, dan (6) melakukan analisis hasil

klasterisasi wilayah.

Dengan menggunakan uji Friedmann yang bertujuan untuk melihat ada

tidaknya perbedaan rata-rata yang signifikan terhadap capaian UN, diketahui

bahwa secara nasional terdapat perbedaan rata-rata antara tahun 2016 dengan

tahun 2017,2018, dan 2019 untuk semua mata pelajaran. Pemberlakuan soal

HOTS, pelakasanaan UNBK dan pelaksanaan USBN diprediksi turut

berpengaruh terhadap turunnya rata-rata Ujian Nasional. Pembagian wilayah

berdasarkan zona waktu menunjukkan terdapat perbedaan rata-rata di zona WIT,

WITA, dan WIB setiap tahunnya, sementara berdasarkan tahun pelaksanaannya

disimpulkan tidak ada perbedaan rata-rata yang signifikan antar ketiga zona

waktu. Terdapat tujuh provinsi yang menunjukkan hasil capaian nilai rata-rata

berada di bawah capaian nilai rata-rata secara nasional yaitu provinsi

Aceh,Jambi,Sumatera Selatan,Kalimantan Barat,Lampung,NTB, dan Banten.

Hasil Analisis Komponen Utama menunjukkan tahun 2016 dan 2019 mata

pelajaran yang menyumbang nilai cukup besarterhadap tinggiatau

rendahnyacapaian nilai rata-rata UN secara nasional adalah Bahasa Inggris dan

IPA.Sementara pada tahun 2017 dan 2018 adalah Matematika dan IPA. Hasil

analisis klaster pada tingkat nasional dengan K-Means Clustering menunjukkan

dari empat klaster yang terbentuk ada enam provinsi lain yang masuk dalam

klaster yang sama dengan ketujuh provinsi yang mencapai nilai rata-rata terendah

selama empat tahun terakhir untuk semua mata pelajaran. Proses klasterisasi pada

provinsi Nusa Tenggara Timur menghasilkan tiga klaster. Klaster dengan capaian

rata-rata rendah adalah klaster 3. Kabupaten-kabupaten di pulau Flores masuk

dalam kelompok klaster dengan capaian nilai yang cukup baik.Proses klasterisasi

di Kabupaten Manggarai menghasilkan empat klaster. Daerah di desa lebih

banyak berada pada klaster terbaik.

Kata Kunci : Sains Data, Unsupervised Learning, Analisis Komponen Utama,

Klaster


viii

ABSTRACT

Janu, Margaretha Nobilio Pasia. (2020). Analysis of the 2016-2019 National

Exam Results for Junior High Schools Using Data Science Approach.

This study aims to: (1) find out an analysis result of National Examination result

of all provinces in Indonesia obtained through of all provinces in Indonesia,

which are obtained through data visualization, (2) find out which scores influence

the national exam result the most, and (3) acknowledge the results of cluster

analysis on the National exam data.

This is a descriptive-quantitative with analysis research. The object of this

research is junior high school’s 2016-2019 national examination result. The data

was analysedby (1) collecting and reading various Data Science literature, (2)

collecting the National Examination results as a data from

puspendik.kemdikbud.go.id/hasilun/, (3) creating visualizations, (4) analyzing the

results of the visualization, (5) analyzing the Principle Component using R

software, and (6) performing an analysis of the regional clustering results.

By using the Friedmann test which aims to see whether there is a significant

difference in the average on National Examination results. It is acknowledged that

there is a national average difference within 2016 to 2017 and 2018 to 2019 for

all subjects. The implementation of HOTS questions, the implementation of UNBK

and the implementation of USBN are predicted to have an effect on the decline in

the National Exam average. The division of regions based on time zones shows

that there are average differences in the WIT, WITA, and WIB zones each year.

However there is no significant difference in the average between the three time

zones based on the year of the implementation. There are seven provinces which

results are below the national average, namely the provinces of Aceh, Jambi,

South Sumatra, West Kalimantan, Lampung, NTB, and Banten. The results of the

main component analysis show that in 2016 and 2019 the subjects that

contributed significantly to the fluctuation in the national examination average

were English and Science, while in 2017 and 2018 were Mathematics and

Science. The results of the cluster analysis at the national level with K-Means

Clustering show that out of the four clusters formed, there are six other provinces

that are included in the same cluster with those which achieved the lowest

average score over the last four years for all subjects. The clustering process in

the province of East Nusa Tenggara resulted in three clusters. The cluster with

low average performance is the third cluster. The districts on the island of Flores

are included in the cluster group with fairly good scores. The clustering process

in Manggarai Regency produces four clusters. Most of the areas in the village are

in the best cluster.

Keywords: Sains Data, Unsupervised Learning, Analisis Komponen Utama,

Klaster


xi

DAFTAR ISI

HALAMAN JUDUL i

HALAMAN PERSETUJUAN PEMBIMBING ii

HALAMAN PENGESAHAN iii

HALAMAN MOTTO DAN PERSEMBAHAN iv

HALAMAN PERNYATAAN KEASLIAN KARYA v

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA

ILMIAH UNTUK KEPENTINGAN AKADEMIS

vi

ABSTRAK vii

ABSTRACT viii

KATA PENGANTAR ix

DAFTAR ISI xi

DAFTAR GAMBAR xiv

DAFTAR TABEL xvii

BAB I PENDAHULUAN 1

A. Latar Belakang 1

B. Rumusan Masalah 7

C. Tujuan Penelitian 7

D. Tinjauan Pustaka 8

E. Kebaruan Penelitian 8

F. Batasan Masalah 8

G. Metode Penelitian 8


xii

H. Sistematika Penulisan 9

BAB II LANDASAN TEORI 11

A. Pengertian Data 11

B. Sains Data 12

C. Visualisasi Data 17

D. Ukuran Pemusatan dan Penyebaran Data 20

E. Uji Statistik-Uji Friedmann 22

F. Analisis Komponen Utama 26

G. Analisis Klaster Berbasis K-Means 33

BAB III METODOLOGI PENELITIAN 36

A. Jenis Penelitian 36

B. Objek Penelitian 36

C. Jenis Data 36

D. Teknik Pengumpulan dan Analisis Data 36

BAB IV HASIL DAN PEMBAHASAN 37

A. Capaian Nilai Rata-Rata Nasional Tahun 2016-2019 37

B. Capaian Nilai Rata-Rata Provinsi Tahun 2016-2019 44

C. Capaian Nilai Rata-Rata Provinsi untuk Setiap Mata Pelajaran 51

D. Capaian Nilai Rata-Rata Berdasarkan Zona Waktu 71

E. Perbandingan Capaian Nilai Rata-Rata Antar Zona Waktu 79

F. Provinsi-Provinsi dengan Capaian Rata-Rata di bawah Rata-Rata

Nasional

83

G. Analisis Komponen Utama pada Ujian Nasional 93


xiii

H. Hasil Klasterisasi Provinsi di Indonesia 99

I. Hasil Klasterisasi Kabupaten di Nusa Tenggara Timur 104

J. Hasil Klasterisasi Sekolah di Kabupaten Manggarai 107

BAB V KESIMPULAN, SARAN, DAN REFLEKSI 112

A. Kesimpulan 112

B. Saran 115

C. Refleksi 116

DAFTAR PUSTAKA 119

LAMPIRAN A 123

LAMPIRAN B 124

LAMPIRAN C 125

LAMPIRAN D 128

LAMPIRAN E 129

LAMPIRAN F 130

LAMPIRAN G 137

LAMPIRAN H 138


xiv

Daftar Gambar

Gambar 2.1. Diagram venn sains data 13

Gambar 2.2. Supervised Learning 14

Gambar 2.3. Regresi dalam supervised learning 15

Gambar 2.4. Klasifikasi dalam supervised learning 15

Gambar 2.5. Unsupervised Learning 16

Gambar 2.6. Klasterisasi dalam unsupervised learning 16

Gambar 2.7. Bentuk-bentuk visualisasi 17

Gambar 2.8. Boxplot tanpa outlier 18

Gambar 2.9. Boxplot dengan outlier 19

Gambar 2.10. Macam-macam histogram 20

Gambar 2.11. Scree plot 29

Gambar 2.12. Visualisasi elbow method 35

Gambar 4.1. Capaian nilai rata-rata nasional tahun 2016-2019 38

Gambar 4.2. Boxplot capaian nilai rata-rata nasional tahun 2016 -2019 39

Gambar 4.3. Capaian nilai rata-rata nasional Bahasa Indonesia 41

Gambar 4.4. Capaian nilai rata-rata nasional Bahasa Inggris 41

Gambar 4.5. Capaian nilai rata-rata nasional Matematika 41

Gambar 4.6. Capaian nilai rata-rata nasional IPA 41

Gambar 4.7. Boxplot mapel secara nasional 42

Gambar 4.8. Boxplot capaian nilai rata-rata provinsi 45

Gambar 4.9. Histogram 2016 47


xv




Gambar 4.13. Boxplot capaian nilai rata-rata provinsi mapel Bahasa

Indonesia

52

Gambar 4.14. Histogram Bahasa Indonesia 2016 54




Gambar 4.18. Boxplot capaian nilai rata-rata provinsi mapel Bahasa

Inggris

57

Gambar 4.19. Histogram Bahasa Inggris 2016 59




Gambar 4.23. Boxplot capaian nilai rata-rata provinsi mapel Matematika 62

Gambar 4.24. Histogram Matematika 2016 64




Gambar 4.28. Boxplot capaian nilai rata-rata provinsi mapel IPA 67

Gambar 4.29. Histogram IPA 2016 69



xvi



Gambar 4.33. Boxplot capaian nilai rata-rata WIT 73

Gambar 4.34. Boxplot capaian nilai rata-rata WITA 75

Gambar 4.35. Boxplot capaian nilai rata-rata WIB 77

Gambar 4.36. Boxplot Zona Waktu 2016 79




Gambar 4.40. Capaian selisih provinsi Aceh 86

Gambar 4.41. Capaian selisih provinsi Jambi 87

Gambar 4.42. Capaian selisih provinsi Sumsel 88

Gambar 4.43. Capaian selisih provinsi Lampung 90

Gambar 4.44. Capaian selisih provinsi Kalbar 91

Gambar 4.45. Capaian selisih provinsi NTB 92

Gambar 4.46. Capaian selisih provinsi Banten 93

Gambar 4.47. Scree plot provinsi 100

Gambar 4.48. Scree plot kabupaten 104

Gambar 4.49. Scree plot sekolah 107


xvii

Daftar Tabel

Tabel 2.1. Rancangan uji Friedmann 22

Tabel 2.2. Kemampuan logam menahan korosi 24

Tabel 2.3. Nilai eigen contoh 2.2 30

Tabel 2.4. Vektor eigen contoh 2.2 31

Tabel 2.5. Komponen utama contoh 2.2 31

Tabel 4.1. Capaian nilai rata-rata nasional tahun 2016-2019 37

Tabel 4.2. Deskripsi boxplot capaian nilai rata-rata tahun 2016-2019 39

Tabel 4.3. Capaian nilai rata-rata mata pelajaran secara nasional 40

Tabel 4.4. Deskripsi boxplot capaian nilai rata-rata mata pelajaran

secara nasional

42

Tabel 4.5. Capaian nilai rata-rata provinsi 44

Tabel 4.6. Informasi boxplot capaian nilai rata-rata provinsi 45

Tabel 4.7. Capaian nilai rata-rata provinsi mapel Bahasa Indonesia 51

Tabel 4.8. Informasi boxplot capaian nilai rata-rata Bahasa Indonesia 53

Tabel 4.9. Capaian nilai rata-rata provinsi mapel Bahasa Inggris 56

Tabel 4.10. Informasi boxplot capaian nilai rata-rata Bahasa Inggris 58

Tabel 4.11. Capaian nilai rata-rata provinsi mapel Matematika 61

Tabel 4.12. Informasi boxplot capaian nilai rata-rata Matematika 63

Tabel 4.13. Capaian nilai rata-rata mapel IPA 66

Tabel 4.14. Informasi boxplot capaian nilai rata-rata IPA 68

Tabel 4.15. Data nama provinsi di setiap zona waktu 71


xviii

Tabel 4.16. Jumlah siswa di setiap zona waktu 71

Tabel 4.17. Jumlah siswa di setiap zona waktu 71

Tabel 4.18. Informasi boxplot capaian nilai rata-rata WIT 73

Tabel 4.19. Informasi boxplot capaian nilai WITA 75

Tabel 4.20. Informasi boxplot capaian nilai rata-rata WIB 77

Tabel 4.21. Informasi boxplot capaian nilai rata-rata antar zona waktu

2016

80


2017

80


2018

81


2019

81

Tabel 4.25. Hasil uji Kruskal Wallis dengan Python 83

Tabel 4.26. Provinsi dengan capaian kurang dari rata-rata nasional 84

Tabel 4.27. Nilai eigen tahun 2016 94

Tabel 4.28. Vektor eigen tahun 2016 94

Tabel 4.29. Komponen utama 2016 95










xix


Tabel 4.39. Pusat data provinsi setelah proses normalisasi 101

Tabel 4.40. Pusat data provinsi 101

Tabel 4.41. Klaster provinsi 101

Tabel 4.42. Pusat data kabupaten setelah proses normalisasi 105

Tabel 4.43. Pusat data kabupaten 105

Tabel 4.44. Klaster kabupaten di NTT 106

Tabel 4.45. Pusat data sekolah setelah proses normalisasi 108

Tabel 4.46. Pusat data sekolah 108

Tabel 4.47. Klaster sekolah di Manggarai 109


1

BAB I

PENDAHULUAN

A. Latar Belakang

Dewasa ini, keberadaan data dalam berbagai bidang kehidupan

sangatlah penting. Disadari atau tidak, manusia senantiasa menghasilkan

dan berhubungan dengan data. Data bisa ditemukan dengan mudah dalam

kehidupan sehari-hari dengan bentuk beragam yang dapat berupa angka,

gambar, rekaman, atau tulisan.

Menurut Kamus Besar Bahasa Indonesia (KBBI), data adalah

keterangan atau bahan nyata yang dapat dijadikan dasar kajian baik

sebagai bahan analisis atau untuk menarik kesimpulan. Data dapat

dipandang pula sebagai sekumpulan keterangan yang diperoleh dari suatu

pengamatan yang dapat berupa angka, lambang, maupun sifat (Kuswandi,

2004). Sementara itu, menurut Webster’s New World Dictionary, data

berarati sesuatu yang dapat memberikan gambaran tentang suatu keadaan

atau persoalan. Data dapat juga dipandang sebagai semua fakta dan angka-

angka yang dapat dijadikan sebagai bahan untuk menyusun sebuah

informasi (Suharsimi Arikunto, 2002:96).

Bertolak dari beberapa pengertian tentang data di atas, penulis

dapat menyimpulkan bahwa data adalah sekumpulan fakta, keterangan

atau informasi mentah yang tidak terorganisir, berupa angka, simbol, kata-


2

kata, atau sifat yang diperoleh melalui proses pengamatan atau pencarian

ke sumber-sumber tertentu.

Perkembangan teknologi yang pesat memungkinkan data diambil,

disimpan, didistribusikan, dan diproses secara cepat dan murah.

Berdasarkan pengamatan penulis, beberapa tahun terakhir, data semakin

heterogen dan kompleks. Volumenya pun meningkat cepat secara

eksponensial. “Data never sleeps”, demikian bunyi salah satu istilah yang

dipakai untuk menggambarkan bagaimana pada akhirnya seluruh aspek

kehidupan diubah ke dalam data. Hal inipun dipaparkan secara gamblang

oleh Jhon Gantz dan David Reinsel dalam Suryanto (2019). Pada tahun

2011 volume data mencapai dan meningkat lebih dari 50%

menjadi pada tahun 2012. Volume data sudah menjadi

di tahun 2013 dan diperkirakan volume data akan terus

meningkat hingga mencapai di tahun 2020.

Meskipun diketahui jumlahnya begitu besar dan peningkatannya

terjadi amat cepat, banyak pihak yang tidak menyadari arti penting data.

Umumnya data dalam jumlah banyak tersebut dibiarkan begitu saja.

Padahal, data perlu diolah agar dapat diperoleh manfaat darinya. Sejalan

dengan perkembangan ilmu pengetahuan dan teknologi, data menjadi

bahan penting untuk melakukan analisis terhadap suatu gejala tertentu.

Ketika diproses, data akan menghasilkan informasi yang selanjutnya bisa

bermanfaat untuk memproduksi pengetahuan baru.


3

Dewasa ini, analisis data berkenaan dengan proses pengolahan dan

penyajian data. Analisis data menjadi penting sebab pola data perlu

dikenali, sehingga dapat kita temukan kecenderungan tertentu dari data

tersebut. Lewat data dapat dibuat keputusan atau kesimpulan yang tepat

dari gejala yang ada. Selain itu melalui proses analisis data dapat dibuat

prediksi atas apa yang akan terjadi di masa depan. Dengan demikian

proses analisis data menjadi penting karena data menjadi berguna setelah

diproses, ditafsirkan, diorganisir, disusun ataupun disajikan, sehingga

dapat dimengerti oleh pihak-pihak yang menerimanya.

Dalam kurun waktu satu dekade terakhir, Sains Data berkembang

menjadi suatu disiplin ilmu baru dalam pembahasan tentang data dan

proses analisisnya. Sains Data adalah bagian dari Artificial Intellegence

(AI) yakni bidang yang berusaha mengajari suatu mesin menirukan cara

manusia belajar. Tentu saja komponen dasar yang dipakai adalah data.

Sains Data dapat dipandang juga sebagai sebuah bidang interdisipliner

yang menggunakan metode saintifik, algoritma, dan proses untuk

mendapatkan pengetahuan dan pemahaman mendalam tentang data.

Dalam pembahasan selanjutnya, Sains Data dapat dipandang sebagai

interseksi matematika dan statistik, computer science, dan

domain/bussiness knowladge.

Sains Data berkembang dalam berbagai ranah kehidupan. Di

bidang kesehatan dan bioinformatika misalnya, Sains Data memiliki

potensi besar untuk memperbaiki sistem kesehatan. Data dapat dianalisis


4

guna mengidentifikasi praktik terbaik untuk meningkatkan perawatan dan

mengurangi biaya. Di bidang bioinformatika, Sains Data dapat dipakai

untuk proses penemuan gen, inferensi fungsi protein, diagnosis penyakit,

dan lain-lain.

Di bidang analisis pasar, Sains Data dapat dihubungkan dengan

teknik pemodelan yang didasari teori bahwa jika seorang membeli

kelompok item tertentu, maka orang tersebut akan cenderung membeli

kelompok item lainnya. Teknik ini memungkinkan pengecer memahami

perilaku pembelian pembeli. Untuk menyelidiki kejahatan, Sains Data

dapat dipakai mendeteksi penipuan (Fraud Detection). Beberapa contoh

tersebut menunjukkan data sebagai bahan mentah dapat diolah lebih lanjut

dan memiliki kebermanfaatan.

Di Indonesia sendiri, terdapat ribuan jenis data dari berbagai

bidang kehidupan yang belum dimanfaatkan secara optimal. Sebagai calon

pendidik, penulis melihat bahwa salah satu data penting di Indonesia

adalah data-data dari bidang pendidikan. Data-data pendidikan yang

tersedia sebenarnya akan sangat berguna untuk meningkatkan kualitas

pendidikan di Indonesia.

Upaya pemerintah untuk meningkatkan mutu pendidikan di

Indonesia antara lain melakukan perbaikan baik dalam hal kurikulum,

profesionalitas dan kualitas guru, serta infrastruktur. Salah satu sektor

penting dalam bidang pendidikan selain yang telah disebutkan sebelumnya

adalah sistem evaluasi. Menurut Ralph Tyler (1950) dalam Arikunto


5

(2018), evaluasi adalah sebuah proses pengumpulan data untuk

menentukan sejauh mana, dalam hal apa, dan bagaimana tujuan

pendidikan sudah tercapai. Lebih lanjut Cronbach dan Stufflebeam

menambahkan bahwa evaluasi bukan sekedar mengukur sejauh mana

tujuan tercapai, tetapi digunakan untuk membuat keputusan.

Salah satu hal yang dibuat dalam proses evaluasi di Indonesia

adalah penilaian pendidikan yang terdiri atas penilaian hasil belajar oleh

pendidik, satuan pendidikan, dan pemerintah (PP no.19/2005 pasal 63).

Bentuk evaluasi yang dilakukan pemerintah ialah dengan dilaksanakannya

penilaian yang termaktub dalam penyelenggaraan Ujian Nasional (UN).

Ujian Nasional bertujuan untuk menilai pencapaian kompetensi lulusan

secara nasional pada mata pelajaran tertentu .

Selanjutnya, seperti yang dikutip dari laman

puspendik.kemdikbud.go.id/hasilun/, Ujian Nasional (UN)

diselenggarakan untuk mengukur pencapaian kompetensi lulusan peserta

didik pada jenjang satuan pendidikan dasar dan pendidikan menengah

sebagai hasil dari proses pembelajaran sesuai dengan Standar Kompetensi

Lulusan (SKL). Tujuan penyelenggaraan UN seperti yang telah dijelaskan

sebelumnya merupakan tujuan umum yang ditetapkan pemerintah pusat.

Dengan kata lain, capaian nilai Ujian Nasional hanya dipakai untuk

pencapaian tujuan-tujuan tersebut.

Volume data Ujian Nasional yang cukup besar membuat hal-hal

lain yang penting dan menarik tidak segera terlihat. Padahal dalam


6

praktiknya data Ujian Nasional dapat dianalisis lebih lanjut untuk melihat

pola lain yang ingin disampaikan data-data tersebut tentang pendidikan itu

sendiri, sehingga diperoleh suatu pengetahuan baru untuk membuat

keputusan dan alat prediksi di masa mendatang.

Sains Data pada akhirnya dapat digunakan oleh sebuah institusi

untuk mengambil keputusan yang akurat dan juga untuk memprediksi

hasil siswa. Data yang tersedia divisualisasikan terlebih dahulu untuk

dianalisis lebih lanjut. Melalui hasil yang diperoleh, sebuah institusi bisa

fokus pada apa yang harus diajarkan dan bagaimana cara mengajarnya,

sehingga dapat digunakan untuk perbaikan mutu.

Beberapa penelitian di bidang pendidikan telah menggunakan data

ujian nasional sebagai bahan pengolahan datanya. Hampir semua

penelitian yang dilakukan terbatas pada suatu daerah tertentu, misalnya

pada penelitian milik Aris Dwiatmoko, dkk dengan judul “Analisis

Statistik Data Nilai Ujian Nasional dan Nilai Sekolah Menengah Atas Di

Daerah Istimewa Yogyakarta” yang dilaksanakan pada tahun 2015, atau

pada penelitian milik Pakpahan dan Juni Miniarti (2013) dengan judul

“Pengelompokan Sekolah Menengah Pertama Berdasarkan Rata-Rata

Nilai Ujian Akhir Nasional Di Kota Binjai dengan Analisis Hierrarkhi

Clustering”, juga pada penelitian yang dilakukan Prihatiningtyas (2011)

“Analisis Hasil Ujian Nasional Tingkat SMA di Kabupaten Banyumas

Menggunakan Analisis Cluster dan Biplot”.


7

Oleh karena itu, penulis tertarik menggunakan pendekatan Sains

Data untuk menganalisis capaian hasil Ujian Nasional seluruh daerah di

Indonesia pada jenjang Sekolah Menengah Pertama, sehingga dapat

diperoleh suatu pengetahuan yang baru untuk pengambilan keputusan atau

kebijakan yang lebih tepat di masa yang akan datang.

B. Rumusan Masalah

Berdasarkan latar belakang yang telah dipaparkan penulis, rumusan

masalah penulisan tesis ini adalah sebagai berikut :

1. Bagaimana hasil analisis nilai rata-rata Ujian Nasional semua provinsi

di Indonesia yang diperoleh melalui visualisasi data yang diperoleh?

2. Nilai mata pelajaran manakah yang berpengaruh besar terhadap

capaian hasil Ujian Nasional?

3. Bagaimana hasil analisis klaster pada data Ujian Nasional?

C. Tujuan Penelitian

Berdasarkan rumusan masalah yang telah dipaparkan penulis,

tujuan penulisan tesis ini adalah sebagai berikut :

1. Mengetahui hasil analisis nilai rata-rata Ujian Nasional semua provinsi

di Indonesia yang diperoleh melalui visualisasi data.

2. Mengetahui nilai pada mata pelajaran manakah yang paling

berpengaruh terhadap capaian nilai Ujian Nasional.

3. Mengetahui hasil analisis klaster pada data Ujian Nasional


8

D. Tinjauan Pustaka

Pada bagian ini, penulis membahas apa itu Data, Sains Data,

Visualisasi Data, Ukuran Pemusatan dan Penyebaran Data, Uji Statistik-

Uji Friedmann, Analisis Komponen Utama, dan Proses Clustering.

E. Kebaruan Penelitian

Jika pada penelitian yang telah dilakukan sebelumnya, analisis data

dilakukan dalam lingkup yang lebih sederhana dan cakupan wilayah

penelitian yang lebih sempit, maka pada penulisan tesis ini data yang

dianalisis mencakup data ujian nasional selama kurun waktu 2016-2019

untuk seluruh wilayah di Indonesia dengan pendekatan Sains Data dan

divisualisasikan dengan bantuan program Python.

F. Batasan Masalah

Penelitian ini terbatas pada penggunaan data hasil UN jenjang

SMP di seluruh Indonesia tahun 2016-2019.

G. Metode Penelitian

Metode penelitian yang digunakan penulis adalah studi pustaka dan

analisis data menggunakan pendekatan Sains Data dengan langkah-

langkah sebagai berikut :

1. Mengumpulkan dan membaca berbagai literatur yang berhubungan

dengan Sains Data.


9

2. Mengumpulkan data hasil Ujian Nasional tahun 2016-2019 pada

jenjang SMP dimana data diperoleh dari laman

puspendik.kemdikbud.go.id/hasilun/.

3. Membuat visualisasi data dengan bantuan perangkat lunak Python.

4. Menganalisis hasil visualisasi data Ujian Nasional tahun 2016-2019.

5. Melakukan Analisis Komponen Utama dengan bantuan perangkat

lunak R.

6. Melakukan analisis hasil klasterisasi wilayah berdasarkan capaian

Ujian Nasional.

H. Sistematika Penulisan

Secara umum, sistematika penulisan tesis ini terdiri dari enam

pokok bahasan sebagai berikut :

1. Bab I : Pendahuluan

Pada bab ini, penulis menjelaskan latar belakang masalah, rumusan

masalah, tujuan penulisan, tinjauan pustaka, kebaruan penelitian,

batasan masalah, metode penelitian, dan sistematika penulisan.

2. Bab II : Landasan Teori

Pada bab ini, penulis menjelaskan beberapa teori yang mendukung

penulisan tesis ini antara lain Data, Sains Data, Visualisasi Data,

Ukuran Pemusatan dan Penyebaran Data , Uji Statistik-Uji Friedmann,


10

Analisis Komponen Utama, dan Analisis Klaster Berbasis K-Means

Clustering.

3. Bab III : Metode Penelitian

Bagian ini berisi jenis penelitian, objek penelitian, jenis data, teknik

pengumpulan dan analisis data.

4. Bab IV : Hasil dan Pembahasan

Pada bab ini, penulis menganalisis hasil visualisasi data nilai rata-rata

Ujian Nasional, menganalisis komponen utama untuk mengetahui nilai

pada mata pelajaran mana yang paling berpengaruh terhadap capaian

nilai ujian nasional, juga menganalisis hasil klasterisasi data UN.

5. Bab V : Penutup

Pada bab ini, penulis menuliskan kesimpulan yang diperoleh dari bab

IV serta menuliskan saran yang sekiranya bermanfaat untuk

kepentingan penelitian berikutnya.

6. Bab IV : Refleksi Penulisan Tesis

Pada bab ini terdapat refleksi penulis tentang penulisan tesis.


11

BAB II

LANDASAN TEORI

A. Pengertian Data

Data memiliki kegunaan yang beragam. Untuk memperoleh

gambaran tentang keadaan ekonomi suatu negara, pemerintah harus

mengumpulkan data tentang kegiatan-kegiatan ekonomi masyarakat

seperti kegiatan produksi, konsumsi, besar pendapatan, harga barang, dan

lain sebagainya. Untuk mengetahui jumlah penduduk, Badan Pusat

Statistik memerlukan data jumlah anggota keluarga, berapa besar angka

kelahiran dan kematian, dan lain sebagainya. Beberapa contoh tersebut

memberikan gambaran tentang kegunaan data yakni sebagai sarana

membuat keputusan. Selain itu beberapa kegunaan lain dari data adalah

sebagai dasar perencanaan, alat pengendalian, atau sebagai dasar evaluasi.

Menurut Kamus Besar Bahasa Indonesia (KBBI), data adalah

keterangan atau bahan nyata yang dapat dijadikan dasar kajian baik

sebagai bahan analisis atau untuk menarik kesimpulan. Data dapat

dipandang sebagai sekumpulan keterangan yang diperoleh dari suatu

pengamatan yang dapat berupa angka, lambang, maupun sifat (Kuswandi,

2004). Sementara itu, menurut Webster’s New World Dictionary, data

berarti sesuatu yang dapat memberikan gambaran tentang suatu keadaan

atau persoalan. Data dapat juga dipandang sebagai semua fakta dan angka-

angka yang dapat dijadikan sebagai bahan untuk menyusun sebuah

informasi (Suharsimi Arikunto, 2002:96).


12

Bertolak dari beberapa pengertian tentang data di atas, penulis

dapat menyimpulkan bahwa data adalah sekumpulan fakta, keterangan

atau informasi mentah yang tidak terorganisir, berupa angka, simbol, kata-

kata, atau sifat yang diperoleh melalui proses pengamatan atau pencarian

ke sumber-sumber tertentu.

B. Sains Data

Dalam kurun waktu satu dekade terakhir, Sains Data berkembang

menjadi suatu disiplin ilmu baru dalam pembahasan tentang data. Menurut

Chikio Hayashi dari Institut Statistika Matematika Sakuragaoka sains data

adalah ilmu pengetahuan yang interdisipliner tentang metode komputasi

untuk mendapatkan wawasan berharga yang dapat ditindaklanjuti dari

kumpulan data yang mencakup tiga fase yaitu desain data, mengumpulkan

data, dan analisis data.

Sains data adalah bagian dari Artificial Intellegence (AI) yakni

bidang yang berusaha mengajari suatu mesin menirukan cara manusia

belajar. Tentu saja komponen dasar yang dipakai adalah data. Sains Data

dapat dipandang juga sebagai sebuah bidang interdisipliner yang

menggunakan metode saintifik, algoritma, dan proses untuk mendapatkan

pengetahuan dan pemahaman mendalam tentang data. Dalam pembahasan

selanjutnya, Sains Data dapat dipandang sebagai interseksi matematika

dan statitik, computer science, dan domain/bussiness knowladge. Hal

tersebut dapat kita lihat pada gambar 2.1 berikut :


13

Gambar 2.1. Diagram venn sains data

Matematika yang dipakai biasanya berkaitan dengan optimisasi,

computer science berkaitan dengan proses pengolahan data yang besar dan

memanipulasi data agar data dapat digunakan. Sementara domain/bussines

knowladge artinya dimana sains data akan dipakai. Data scientis tidak

akan menginterpretasikan data dengan baik jika tidak memiliki

pengetahuan yang cukup tentang bidang yang ingin diselidiki tersebut. Ciri

dari sains data adalah segala prosesnya dimulai dari data baik itu untuk

diekstrak, diinterpretasikan, dan untuk memperoleh pengetahuan baru baik

dari data terstruktur maupaun data yang tidak terstruktur.

Ada dua aliran pada Sains Data yakni Supervised Learning dan

Unsupervised Learning.

1. Supervised Learning

Supervised Learning adalah sebuah pendekatan dimana sudah terdapat

data yang dilatih, dan terdapat variabel yang ditargetkan sehingga


14

tujuan dari pendekatan ini adalah mengelompokan suatu data ke data

yang sudah ada.

Representasi dari Supervised Learning dapat dilihat pada Gambar 2.2

berikut :

Gambar 2.2. Supervised Learning

Pada pembahasan Supervised Learning terdapat dua tipe problem

yakni regresi dan klasifikasi.

a. Regresi

Dalam sains data regresi banyak digunakan untuk melakukan

prediksi terhadap suatu gejala. Misalnya dalam penelitian

pendidikan apakah kehadiran siswa di kelas mempengaruhi

prestasi belajar siswa. Data kehadiran siswa dapat dimasukan ke

dalam sistem, sehingga dapat dibuat prediksi tentang prestasi

belajar siswa. Bentuk regresi dapat kita lihat pada Gambar 2.3


15

Gambar 2.3. Regresi dalam Supervised Learning

b. Klasifikasi

Pada Gambar 2.4 berikut akan ditampilkan contoh klasifikasi

dalam Supervised Learning. Klasifikasi dalam sains data dipakai

untuk membuat algoritma pengklasifikasian kelas secara otomatis.

Misalnya pengklasifikasian sentimen analisis dalam bidang politik.

Gambar 2.4. Klasifikasi dalam Supervised Learning

2. Unsupervised Learning

Lain halnya dengan Supervised Learning, Unsupervised Learning

tidak memiliki data yang dilatih, sehingga dari data yang ada, kita


16

mengelompokan data tersebut menjadi 2 bagian atau 3 bagian dan

seterusnya. Bentuknya dapat kita lihat pada Gambar 2.5 berikut ini :

Gambar 2.5. Unsupervised Learning

Proses yang sering muncul dalam pembahasan Unsupervised Learning

adalah proses klasterisasi. Pada Gambar 2.6 berikut akan ditampilkan

contoh klasterisasi dalam Unsupervised Learning

Gambar 2.6. Klasterisasi dalam Unsupervised Learning

Pembahasan tentang sains data pun tidak lepas dari Machine Learning.

Secara ringkas Machine Learning merupakan cabang dari Artificial

Intelligence dengan kemampuan mesin untuk mengakses data yang ada

dengan perintah mereka sendiri. Machine Learning juga mampu

mempelajari data yang ada dan melakukan tugas-tugas tertentu. Machine


17

Learning mampu melakukan ini dengan metode mempelajari algoritma

dan model statistik yang ada. Hal ini dapat kita bandingkan pula dengan

gambar sebelumnya dimana Machine Learning dapat dipandang sebagai

irisan dari computer science dengan ilmu matematika dan statistika.

C. Visualisasi Data

Dalam sains data, visualisasi sangat diperlukan. Visualisasi data

memiliki dua kegunaan yaitu memudahkan analisis bagi perancang dan

memudahkan proses membaca sebuah informasi oleh pengguna. Beberapa

teknik visualisasi data yang dapat digunakan diantaranya visualisasi

berorientasi pixel, berorientasi geometris, dan berbasis ikon (J han et all,

2012).

Beberapa bentuk visualisasi yang kita kenal ditunjukkan pada Gambar 2.7

berikut :

Gambar 2.7.Bentuk-bentuk visualisasi


18

Dalam tulisan ini dibahas beberapa bentuk visualisasi yang dipakai

diantaranya boxplot dan histogram, yang masing –masing akan dijelaskan

sebagai berikut :

1. Boxplot

Boxplot (juga dikenal sebagai diagram box-and-whisker) merupakan

suatu box (kotak berbentuk bujur sangkar). Boxplot adalah salah satu

cara dalam statistik deskriptif untuk menggambarkan secara grafis data

numeris melalui lima nilai yakni nilai minimum, nilai Q1, Q2, dan Q3,

juga nilai maksimum. Dalam boxplot juga ditunjukkan nilai outlier

dari observasi (jika ada). Boxplot dapat digunakan untuk menunjukkan

perbedaan antara populasi tanpa menggunakan asumsi distribusi

statistik yang mendasarinya. Jarak antara bagian-bagian dari box

menunjukkan derajat dispersi (penyebaran) dan skewness

(kecondongan) dalam data. Dalam penggambarannya, boxplot dapat

digambarkan secara horisontal maupun vertikal. Pada Gambar 2.8 dan

Gambar 2.9 berikut akan ditampilkan boxplot vertikal dan horisontal

tanpa outlier dan dengan outlier.

Gambar 2.8.Boxplot tanpa outlier


19

Gambar 2.9. Boxplot dengan outlier

Adanya outlier disebabkan oleh adanya data yang nilainya terlampau

besar atau terlampau kecil dalam suatu set data. Secara matematis

dapat ditulis :

2. Histogram

Bentuk visualisasi data berikutnya adalah histogram. Histogram adalah

adalah tampilan grafis dari tabulasi frekuensi. Tiap tampilan batang

menunjukkan proporsi frekuensi pada masing-masing deret kategori

yang berdampingan dengan interval yang tidak tumpang tindih.


20

Gambar 2.10. Macam-macam histogram

D. Ukuran Pemusatan dan Penyebaran Data

Dalam tulisan ini akan dibahas beberapa ukuran pemusatan dan

penyebaran data tunggal yang mendukung analisis data penelitian.

1. Rata-Rata (Mean)

Mean data tunggal dinotasikan dengan , dan dirumuskan sebagai :

∑

2. Median

Median didefinisikan sebagai data tengah setelah data diurutkan.

Median untuk data ganjil adalah :

Sementara untuk data genap, median dapat ditentukan dengan cara :

(

*


21

3. Modus

Modus adalah data yang paling sering muncul, atau data dengan nilai

terbanyak.

4. Quartil

Quartil ialah suatu nilai yang membagi data yang telah diurutkan ke

dalam empat bagian yang nilainya sama besar. Quartil pada suatu data

dapat didapatkan dengan cara membagi data tersebut secara terurut ke

dalam empat bagian yang memiliki nilai sama besar. Quartil itu sendiri

terdiri atas tiga macam diantaranya Quartil bawah (Q1), Quartil tengah

/ median (Q2), dan Quartil atas (Q3).

5. Rentang (range)

Range (R) adalah selisih antara nilai maksimum dan nilai minimum.

6. Inter Quatile Range (IQR)

IQR didefinisikan sebagai selisih antara quartil ketiga (Q3) dengan

quartil pertama (Q1), Dapat ditulis :

7. Standar Deviasi

Standar deviasi untuk sampel disimbolkan dengan , sedangkan

Standar deviasi untuk sampel disimbolkan dengan . Kuadrat dari

standar deviasi adalah varians, sehingga varians untuk sampel

disimbolkan dengan dan varians untuk populasi disimbolkan

dengan .


22

√∑

∑

Dan

√∑

∑

E. Uji Statistik-Uji Friedmann

Uji Friedmann merupakan metode nonparametrik yang digunakan untuk

rancangan acak kelompok lengkap. Tujuannya adalah untuk melihat ada

tidaknya pengaruh antar perlakuan. Ketika perlakuan memiliki pengaruh

yang berbeda, respon dan subjek yang diberi suatu perlakuan akan

memiliki median yang sama dengan respon dari subjek yang diberi

perlakuan lainnya, setelah pengaruh pengelompokkan peubah dihilangkan.

Rancangan data untuk uji Friedmann ditampilkan pada Tabel 2.1. berikut :

Tabel 2.1. Rancangan uji Friedmann

Kelompok Perlakuan


23

Dimana :

Data di setiap perlakuan

Ranking untuk setiap kelompok perlakuan

Asumsi :

a) Data terdiri dari kelompok yang saling bebas dengan ukuran

perlakuan.

b) Peubah yang diamati bersifat kontinu.

c) Tidak ada interaksi antar kelompok perlakuan.

d) Pengamatan dalam setiap kelompok dapat diperingkat berdasarkan

besarnya.

Hipotesis :

atau perlakuan memiliki median yang sama

= Ada minimal satu , dimana , dan

Statistik Uji Friedmann ditentukan dengan prosedur berikut :

a) Data pengamatan diurutkan dalam kelompok terpisah

b) Jika terdapat ties (nilai yang sama) dalam kelompok, maka ranking

yang dipakai adalah nilai tengahnya

c) Statistik Uji Friedmann diperoleh melalui rumus :

∑


24

Dimana

Apabila terdapat ties maka,

∑

(∑ ∑ )

Catatan :

= banyaknya kelompok

= banyaknya perlakuan

= jumlah peringkat perlakuan ke-i

= banyaknya pengamatan yang bernilai sama (ties)

Contoh 2.1 :

Di bawah ini adalah data jumlah korosi berbagai jenis logam pada tiga

jenis segel. Dengan uji Friedmann selediki apakah ketiga jenis segel

memiliki kemampuan menahan korosi yang berbeda (gunakan taraf nyata

Tabel 2.2. Kemampuan logam menahan korosi

Logam Segel

A B C

1 21 2 23 3 15 1

2 29 2 30 3 21 1

3 16 1 19 3 18 2

4 20 3 19 2 18 1

5 13 2 10 1 14 3

6 5 1 12 3 6 2

7 8 1 18 3 12 2

8 26 2 32 3 21 1

9 17 2 20 3 9 1

10 4 2 10 3 2 1

18 27 15


25

Dengan menggunakan rumus uji Friedmann diperoleh :

Selanjutnya dengan nilai dan diperoleh nilai

. Dari tabel khi-kuadrat, diperoleh

.

Karena

, maka ditolak artinya ada minimal satu

pasang nilai media yang berbeda.

Selanjutnya untuk melihat nilai median manakah yang berbeda digunakan

prosedur perbandingan berganda untuk uji Friedmann. Untuk

membandingkan semua kemungkinan pasangan perlakuan pada taraf nyata

, dan banyak kelompok adalah besar, maka :

| |

√

Untuk dari tabel normal diperoleh

,sehingga diperoleh :

√

Jumlah peringkat adalah

| | | | | | .

Dapat disimpulkan bahwa segel jenis B dan C mempunyai kemmapuan

menahan korosi yang berbeda karena nilai | |


26

F. Analisis Komponen Utama

Data multivariat melibatkan banyak variabel sehingga cukup sulit

dianalisis. Principle Component Analysis (PCA) atau Analisis Komponen

Utama hadir dengan tujuan mereduksi dimensionalitas himpunan data

multivariat dengan mentransformasi suatu himpunan variabel ke himpunan

variabel baru yang disebut komponen utama.

Komponen utama dapat dipandang sebagai kombinasi linear dari

variabel asal yang tidak berkorelasi dan diurutkan sedemikian, sehingga

sejumlah variabel urutan pertama menjelaskan sebagian besar variansi dari

variabel-variabel asal. Hasil dari analisis komponen utama adalah

terbentuknya sejumlah kecil variabel baru (komponen utama), sehingga

tersedia bentuk yang lebih sederhana untuk keperluan analisis grafis data

multivariat lebih lanjut. Analisis Komponen Utama dapat dibuat secara

geometris dan aljabar. Dalam tulisan ini akan dibahas Analisis Komponen

Utama secara aljabar.

Pada intrepretasi geometris , penerapan Analisis Komponen Utama untuk

data dengan jumlah variabel yang banyak cukup sulit dilakukan, sehingga

perlu interpretasi secara aljabar. Pada pendekatan aljabar, komponen

utama adalah kombinasi linear dari peubah acak , dan

variabel adalah sebuah vektor dengan pengamatan pada data

multivariat, sehingga komponen utama dapat didefenisikan sebagai berikut

:


27

Di mana :

(

) , adalah Komponen Utama

(

)

(

) , adalah transpose dari vektor

eigen

(

) , adalah variabel ke , di mana

Komponen utama pertama adalah komponen utama dari seluruh

variabel yang memiliki nilai varians terbesar. Defenisi dari komponen

utama pertama adalah sebagai berikut :

Komponen utama kedua adalah komponen utama dari seluruh variabel

yang memiliki nilai varians terbesar kedua. Definisi dari komponen utama

kedua adalah sebagai berikut :

Komponen Utama ke , diperoleh dari kombinasi linear

peubah acak yang didefinisiskan sebagai berikut :


28

Dengan demikian, bentuk analisis komponen utama yang diasumsikan

menjadi variabel , sebagai berikut :

Dalam pendekatan aljabar, komponen utama dapat dianalisis dengan

langkah-langkah sebagai berikut :

1. Menentukan matriks kovarian.

2. Menentukan nilai eigen.

3. Menentukan vektor eigen.

4. Menentukan banyak komponen utama.

Ada tiga cara dalam menentukan banyak komponen utama .

1. Menggunakan scree plot

Pada Gambar 2.11 berikut akan ditampilkan scree plot untuk

menentukan banyak komponen utama. Banyanya komponen utama

dipilih dengan melihat titik sebelum kurva menurun tajam atau mulai

melandai.


29

Gambar 2.11 Scree plot

2. Menggunakan proporsi kumulatif varians terhadap total

Jika menggunakan cara ini, maka rumus yang dapat dipakai adalah

∑

∑

Untuk

3. Menggunakan nilai eigen yang bernilai lebih besar dari satu .

Pada bagian ini dipilih dan dibahas tentang cara menentukan banyak

komponen utama menggunakan nilai eigen yang diperkuat dengan

menggunakan proporsi kumulatif pada cara kedua.

Contoh 2.2 (Contoh ini diambil dari skripsi Devita Nurin Sari, 2020) :

Terdapat 3 kelompok rugby dengan anggota masing-masing 30 orang di

setiap kelompoknya. Diketahui ada enam variabel yang mempengaruhi

design helm para pemain. Adapun variabel-variabel tersebut antara lain :


30

: Ukuran lebar kepala terbesar

: Ukuran lingkar kepala

: Ukuran jarak dari mata ke kepala bagian belakang

: Ukuran jarak dari mata ke kepala bagaian atas

: Ukuran jarak dari telinga ke kepala bagaian atas

: Ukuran panjang rahang

Dengan menggunakan langkah-langkah Analisis Komponen Utama

diperoleh :

1. Matriks kovarian

(

)

2. Nilai eigen :

Setelah memperoleh matriks kovarian, diperoleh data nilai eigen pada

Tabel 2.3 berikut :

Tabel 2.3. Nilai eigen contoh 2.2

Nilai Eigen


31

3. Vektor eigen

Pada Tabel 2.4 berikut akan ditampilkan nilai vektor eigen dari contoh

di atas.

Tabel 2.4. Vektor eigen contoh 2.2

4. Menentukan banyak komponen utama

Selanjutnya pada Tabel 2.5 berikut akan ditampilkan enam komponen

utama yang diperoleh melalui perangkat lunak R.

Tabel 2.5. Komponen utama contoh 2.2


32

Dari Tabel 2.3 diketahui terdapat dua nilai eigen yang lebih dari satu,

sehingga dapat disimpulkan bahwa untuk menganalisis faktor yang

mempengaruhi desain helm cukup dengan menggunakan dua

komponen utama saja dan sudah cukup baik untuk menggambarkan

keseluruhan data. Dengan menggunakan proporsi kumulatif

diperoleh :

Artinya dua komponen utama dapat menjelaskan data secara

keseluruhan.

Dari sana diperoleh :

Komponen utama 1 didominasi oleh variabel (ukuran lingkar

kepala), (ukuran dari mata ke kepala bagian belakang), dan

(ukuran rahang). Sementara komponen utama 2 didominasi oleh

variabel (ukuran lebar kepala terbesar), (ukuran dari mata ke

kepala bagian atas), dan (ukuran dari telinga ke kepala bagian

atas).


33

G. Analisis Klaster Berbasis K-Means Clustering

Proses mengklaster adalah salah satu ciri dari Unsupervised Learning.

Klastering merupakan pekerjaan memisahkan data/vektor ke dalam

sejumlah kelompok menurut karateristiknya. Data dengan kemiripan

karateristik akan berkumpul dalam satu klaster yang sama, dan data-data

dengan karateriktik berbeda akan terpisah dalam klaster berbeda. Tidak

diperlukan label kelas untuk setiap data yang diproses karena nantinya

label baru akan diberikan ketika klaster sudah terbentuk.

K-Means adalah salah satu cara yang dapat digunakan untuk proses

pengklasteran. Algoritma K-Means merupakan algoritma pengelompokan

iteratif yang melakukan partisi set data ke dalam sejumlah klaster.

K-Means dapat diterapkan pada data dimensi ruang tempat. K-Means

mengelompokkan set data r-dimensi, { | }, di mana

, yang menyatakan data ke sebagai titik data. Algoritma K-

Means mengelompokkan semua titik data dalam , sehingga setiap titik

hanya jatuh dalam satu dari partisi.

Untuk set data dalam dikelompokkan berdasarkan konsep kedekatan

atau kemiripan, tetapi kuantitas yang digunakan untuk mengukurnya

adalah ketidakmiripan. Artinya, data-data dengan ketidakmiripan yang

kecil atau dekat dapat bergabung membentuk sebuah klaster. Data dengan

ketidakmiripan yang kecil dari pusat data dapat diketahui melalui konsep

jarak Euclidean berikut :


34

‖ ‖ √∑

dan adalah fitur ke dari dan , sedangkan adalah

jumlah fitur dalam vektor.

Berikut ini adalah algoritma K-Means Clustering :

1. Pilih buah titik centroid secara acak.

2. Kelompokkan data sehingga terbentuk buah klaster dengan titik

centroid dari setiap cluster merupakan titik centroid yang telah dipilih

sebelumnya.

3. Perbaharui nilai titik centroid.

4. Ulangi langkah 2 dan 3 sampai nilai dari titik centroid tidak lagi

berubah.

Perbedaan jarak atau besaran angka yang cukup jauh dalam data,

dapat menyulitkan proses pengelompokan. Salah satu solusi yang

digunakan untuk memperkecil besaran angka antar variabel adalah

melakukan normalisasi dengan menggunakan rumus :

Selain itu untuk menentukan berapa banyak klaster yang paling optimal

digunakan dapat digunakan elbow method. Penentuan banyaknya klaster

sama seperti cara melihat scree plot pada pembahasan sebelumnya. Pada


35

Gambar 2.12 berikut akan ditampilkan visualisasi elbow method untuk

menentukan banyak klaster optimal.

Gambar 2.12.Visualisasi elbow methods

Untuk memudahkan perhitungan, maka proses pengklasteran pada tulisan

ini akan menggunakan perangkat lunak Python.


36

BAB III

METODOLOGI PENELITIAN

A. Jenis Penelitian

Penelitian yang dipakai adalah deskriptif-kuantitatif dengan analisis,

dimana data-data diuraikan dan dijabarkan melalui hasil analisis.

B. Objek Penelitian

Objek penelitian dalam tulisan ini adalah data UN 2016-2019 tingkat

Sekolah Menengah Pertama.

C. Jenis Data

Jenis data yang dipakai adalah data sekunder berupa data capaian nilai

ujian nasional tahun 2016-2019.

D. Teknik Pengumpulan dan Analisis Data

1. Mengumpulkan dan membaca berbagai literatur yang berhubungan

dengan Sains Data.

2. Mengumpulkan data hasil Ujian Nasional tahun 2016-2019 pada

jenjang SMP dari laman puspendik.kemdikbud.go.id/hasilun/.

3. Membuat visualisasi dengan bantuan perangkat lunak Python.

4. Menganalisis hasil visualisasi data ujian nasional tahun 2016-2019.

5. Melakukan Analisis Komponen Utama dengan bantuan perangkat

lunak R.

6. Melakukan analisis hasil klasterisasi wilayah berdasarkan capaian

Ujian Nasional.


37

BAB IV

HASIL DAN PEMBAHASAN

Pada bagian ini akan disajikan beberapa bentuk pembahasan. Pada

pembahasan pertama penulis akan berfokus pada hasil capaian nilai rata-rata

secara nasional, pada pembahasan berikutnya akan dibahas capaian nilai rata-rata

provinsi juga capaian nilai berdasarkan zona waktu. Selanjutnya akan dibahas

pula analisis komponen utama (PCA) dan proses pengklasteran dengan algoritma

K-Means Clustering pada tingkat provinsi, kabupaten, dan sekolah. Sebelum

memulai pembahasan yang lebih jauh tentang hasil capaian Ujian Nasional,

dikumpulkan berbagai jenis data berupa capaian nilai rata-rata hasil UN pada

laman

https://puspendik.kemdikbud.go.id/hasilun/.

A. Capaian Nilai Rata-Rata Nasional Tahun 2016-2019

Dari laman https://puspendik.kemdikbud.go.id/hasilun/, diperoleh data

capaian nilai Ujian Nasional baik capaian secara nasional maupun capaian per

provinsi.

Capaian nilai rata-rata secara nasional dapat dilihat pada Tabel 4.1 berikut :

Tabel 4.1. Capaian nilai rata-rata nasional tahun 2016-2019

No Pelaksanaan

UN

Jumlah Satuan

Pendidikan

Jumlah

Peserta UN

CapaianNilai

Rata-Rata

1 Tahun 2016 2 Tahun 2017 3 Tahun 2018 4 Tahun 2019


https://puspendik.kemdikbud.go.id/hasilun/

https://puspendik.kemdikbud.go.id/hasilun/

38

Selanjutnya dibuat visualisasi sederhana dari data tersebut. Hasil visualisasi

dapat dilihat pada Gambar 4.1 dan Gambar 4.2 berikut :

Gambar.4.1. Capaian nilai rata-rata nasional tahun 2016-2019

Dari Gambar 4.1 di atas diketahui secara nasional nilai rata-rata berkisar

pada nilai dan , artinya secara nasional terdapat cukup banyak

wilayah yang memperoleh kisaran nilai di atas

Dari segi capaian nilai rata-rata secara nasional terjadi penurunan secara

berturut-turut sekitar dari tahun 2016 sampai tahun 2018,

dan kenaikan sekitar dari tahun 2018 ke tahun 2019. Selanjutnya

pada Gambar 4.2 berikut diberikan sebuah boxplot yang dapat memberikan

informasi penting lain terkait capaian nilai rata-rata nasional selama empat

tahun terakhir.

58,61

54,25 51,1 51,76

Tahun 2016 Tahun 2017 Tahun 2018 Tahun 2019

Grafik Capaian Nilai Rata-Rata Nasional

Series1


39

Gambar 4.2. Boxplot capaian nilai rata-rata nasional tahun 2016-2019

Tabel 4.2. Deskripsi boxplot capaian nilai rata-rata tahun 2016-2019

No Informasi Capaian Nilai

1 Nilai Minimum 2 Nilai Maksimum 3 Range

4 Q1 5 Q2

6 Q3 7 IQR

8 Mean 9 Standar Deviasi

10 Koefisien Variansi

Nilai maksimum dicapai pada tahun 2016 dan nilai minimum dicapai pada

tahun 2018. Dari boxpolot di atas diketahui pula bahwa 25 % data berada di

bawah nilai 51.59, 50 % berada di bawah nilai 53.01 dan 75 % lainnya berada

di bawah nilai 55.34. Panjang whisker atas menunjukan bahwa jarak antara

nilai maksimum dengan Q3 cukup jauh. Jarak antar kuartil pun tidak begitu


40

besar. Jarak antar kuartil ini memberikan gambaran kepada kita tentang

bagaimana data tersebut menyebar di sekitar 50 % set data yang dimiliki.

Hal lain lain yang akan diamati adalah bagaimana capaian nilai mata

pelajaran secara nasional tahun 2016-2019. Pada Tabel 4.3 berikut ini akan

ditampilkan capaian nilai rata-rata nasional untuk setiap mata pelajaran.

Tabel.4.3.Capaian nilai rata-rata mata pelajaran secara nasional

Mata Pelajaran

Tahun

Pelaksanaan

UN

Capaian

Nilai

Rata-Rata

Bahasa Indonesia


Bahasa Inggris


Matematika


IPA


Informasi yang dapat kita ketahui dari tabel di atas adalah bahwa secara umum

nilai rata-rata UN paling tinggi untuk semua mata pelajaran dicapai pada tahun

2016, kecuali pada mata pelajaran Matematika. Sejauh amatan penulis ada beberapa

faktor yang diprediksi menjadi penyebab turunnya nilai rata-rata ujian nasional

setelah tahun 2016 antara lain mulai diperkenalkannya soal HOTS, pelakasanaan UN

berbasis komputer, dan pelakasanaan USBN yang menjadikan UN bukan lagi alat

utama penentu kelulusan.


41

Hasil visualisasi dari data pada tabel di atas dapat dilihat pada Gambar 4.3,

Gambar 4.4, Gambar 4.5, dan Gambar 4.6 berikut :

Dari gambar di atas dapat kita ketahui, nilai Bahasa Indonesia dan IPA

memiliki trend yang sama dengan capaian rata-rata secara nasional untuk

keeempat mata pelajaran. Sementara itu trend yang ditampilkan mata

pelajaran Bahasa Inggris, sama untuk tahun 2016-2018 dan cukup berbeda

pada tahun 2019. Lain halnya pula dengan mata pelajaran Matematika. Trend

yang ditampilkan berbeda dengan capaian rata-rata nasional untuk keempat

mata pelajaran.

Hal lain yang dapat kita amati pada gambar di atas adalah penurunan nilai

yang cukup ekstrem terjadi pada mata pelajaran Bahasa Indonesia dan Bahasa

Inggris pada tahun 2016 ke tahun 2017, dan pada mata pelajaran Matematika

Gambar.4.3. Capaian nilai rata-rata

nasional Bahasa Indonesia

Gambar.4.4. Capaian nilai rata-rata

nasional Bahasa Inggris

Gambar.4.5.Capaian nilai rata-rata

nasional Matematika

Gambar.4.6.Capaian nilai rata-rata

nasional IPA


42

pada tahun 2017 ke tahun 2018. Sementara itu, penurunan pada mata

pelajaran IPA cenderung memiliki selisih nilai yang tidak ekstrem.

Untuk mendukung hasil visualisasi di atas, dibuat boxplot yang dapat dipakai

untuk memberikan gambaran lain tentang data tersebut. Boxplot tersebut

dapat dilihat pada Gambar 4.7 berikut ini :

Gambar 4.7. Boxplot mapel secara nasional

Informasi lain yang dapat diketahui dari boxplot di atas dapat diamati pada

Tabel 4.4 berikut :

Tabel 4.4. Deskripsi boxplot capaian nilai rata-rata mata pelajaran

secara nasional

No Informasi Bahasa

Indonesia

Bahasa

Inggris Matematika IPA

1 Nilai Minimum

2 Nilai Maksimum 3 Range 4 Q1

5 Q2 6 Q3

7 IQR

8 Mean

9 Standar Deviasi

10 Koefisien Variansi


43

Pada boxplot di atas dapat kita ketahui terdapat perbedaan capaian

nilai rata-rata yang cukup besar antara mata pelajaran Bahasa Indonesia

dengan tiga mata pelajaran lainnya. Nilai minumum mata pelajaran

Bahasa Indonesia, Matematika, dan IPA dicapai pada tahun 2018,

sementara untuk nilai Bahasa Inggris dicapai pada tahun 2019. Nilai

maksimum mata pelajaran Bahasa Indonesia, Bahasa Inggris, dan IPA

dicapai pada tahun 2016, sementara untuk nilai matematika dicapai pada

tahun 2017. Capaian nilai Q1 menunjukkan bahwa terdapat 25 % data

berada di bawah nilai tersebut sementara capaian Q2 dan Q3 berturut-

turut menunjukkan terdapat 50% dan 75 % data berada di bawah nilai

tersebut.

Boxplot untuk mata pelajaran Bahasa Indonesia dan Bahasa Inggris

cukup mirip. Keduanya memiliki sebuah outlier dan tidak ada whisker

dari Q3 ke nilai maksimum. Artinya nilai maksimum terlampau besar

sehingga menyebabkan nilai tersebut menjadi outlier. Jarak antar mean

dan median pun tidak begitu besar. Berbeda dengan nilai Bahasa

Indonesia dan Bahasa Inggris, pada mata pelajaran Matematika jarak

antara Q3 dan nilai maksimum sangat dekat, namun tidak menjadi outlier.

Sementara itu berbeda dengan capaian nilai pada mata pelajaran lainnya,

data capaian nilai IPA cenderung terdistribusi secara merata. Nilai standar

deviasi di keempat mata pelajaranpun cukup kecil artinya data cenderung

tidak menyebar dan tidak begitu berbeda satu sama lain.


44

B. Capaian Nilai Rata-Rata Provinsi Tahun 2016-2019

Setelah mengetahui capaian nilai rata-rata nasional dari tahun 2016-2019,

selanjutnya akan dilihat capaian nilai rata-rata dari setiap provinsi tahun

2016-2019. Pada Tabel 4.5 berikut akan ditampilkan data yang dimaksud.

Tabel 4.5. Capaian nilai rata-rata provinsi

No Nama Provinsi

Rerata

Nilai

2016

Rerata

Nilai

2017

Rerata

Nilai

2018

Rerata

Nilai

2019

1 DKI Jakarta 61.06 57.16 57.98 60.71

2 Jawa Barat 62.05 58.86 52.92 52.19

3 Jawa Tengah 55.74 54.06 54.3 55.88

4 DI Yogyakarta 63.95 62.11 62.46 64.57

5 Jawa Timur 62.26 54.78 52.71 54.33

6 Aceh 55.56 47.96 42.81 44.36

7 Sumatera Utara 66.38 57.75 48.23 48.69

8 Sumatera Barat 53.84 51.37 52.41 53.19

9 Riau 61.78 53.93 48.47 51.84

10 Jambi 54.93 48.55 46.83 47.49

11 Sumatera Selatan 53.08 48.69 46.12 46.04

12 Lampung 55.01 50.88 46.87 47.33

13 Kalimantan Barat 52.81 48.46 46.52 47.67

14

Kalimantan

Tengah 59.07 55.12 52.15 50.87

15

Kalimantan

Selatan 58.88 52.82 50.59 51.14

16 Kalimantan Timur 58.94 51.38 51.82 53.05

17 Sulawesi Utara 61.27 57.01 48.18 47.43

18 Sulawesi Tengah 55.79 52.08 47.15 47.41

19 Sulawesi Selatan 59.36 54.71 48.56 48.51

20 Sulawesi Tenggara 57.03 55.63 51.65 49.42

21 Maluku 59.45 56.51 55.67 52.86

22 Bali 56.94 53.01 53.35 53.63

23

Nusa Tenggara

Barat 53.49 50.5 44.39 45.17

24

Nusa Tenggara

Timur 51.99 51.8 51.16 50.68

25 Papua 54.85 50.98 51.82 50.27

26 Bengkulu 48.49 46.88 45.91 47.24

27 Maluku Utara 61.35 54.7 54.1 52.58


45

28 Bangka Belitung 51.27 50.13 50.87 52.12

29 Gorontalo 55.61 52.08 46 46.25

30 Banten 49.77 47.42 46.42 48.57

31 Kepulauan Riau 56.06 53.24 53.79 55.53

32 Sulawesi Barat 49.2 47.16 44.82 44.41

33 Papua Barat 64.46 58.88 52.83 51.97

34 Kalimantan Utara 50.03 49.15 49.29 49.86

Bentuk visualisasi dari data pada Tabel 4.5 di atas dapat dilihat pada Gambar

4.8 berikut ini.

Gambar 4.8. Boxplot capaian nilai rata-rata provinsi

Informasi yang dapat diketahui dari boxplot di atas dapat diamati pada Tabel

4.6 berikut :

Tabel 4.6. Informasi boxplot capaian nilai rata-rata provinsi

Informasi

Capaian Nilai Rata-Rata

Tahun

2016

Tahun

2017

Tahun

2018

Tahun

2019

Nilai Minimum Nilai Maksimum Range Q1 Q2


46

Q3 IQR Mean Standar Deviasi Koefisien Variansi

Informasi yang dapat kita ketahui dari boxplot dan Tabel 4.6 tersebut

diantaranya adalah sebagai berikut, nilai minimum dicapai pada tahun 2018

dan nilai maksimum dicapai pada tahun 2016. Nilai maksimum pada tahun

2016 dicapai oleh provinsi Sumatera Utara, sementara dari tahun 2017-2019

nilai maksimum dicapai oleh provinsi D.I Yogyakarta. Nilai minimum pada

tahun 2016-2017 dicapai oleh Provinsi Bengkulu dan dari tahun 2018-2019

nilai minimum dicapai oleh provinsi Aceh. Dari sini dapat kita ketahui bahwa

perlu ada perhatian khusus bagi dua provinsi dengan capaian nilai minimum

tersebut. Dari segi capaian nilai minimum terjadi penurunan nilai sekitar

dari tahun 2016 ke tahun 2017, dari tahun 2017 ke tahun 2018,

dan terjadi kenaikan sekitar dari tahun 2018 ke tahun 2019. Sementara

itu dari capaian nilai maksimum diketahui bahwa terjadi penurunan nilai

sekitar dari tahun 2016 ke tahun 2017, kenaikan sekitar dari

tahun 2017 ke tahun 2018, dan sekitar dari tahun 2018 ke tahun 2019.

Dari segi capaian range dapat diketahui bahwa tahun 2017 memilki capaian

yang cukup baik karena selisih antara nilai maksimum dan minimumnya paling

kecil dibanding tahun-tahun lainnya.

Dari segi capaian nilai rata-rata terjadi penurunan berturut-turut sebesar

dari tahun 2016-2017 dan 2017-2018 juga kenaikan sekitar


47

dari tahun 2018 ke tahun 2019. Terdapat outlier pada tahun 2018 dan

2019. Outlier yang diperoleh ini diakibatkan oleh adanya data yang memiliki

nilai yang cukup jauh berbeda dengan nilai-nilai lain di tahun tersebut. Selain

itu outlier ini disebabkan pula karena nilai tersebut ternyata lebih dari satu

setengah kali nilai IQR ditambah nilai Q3. Adapun wilayah dengan perolehan

nilai ekstrem tersebut adalah provinsi D.I Yogyakarta. Nilai standar deviasi

yang tidak begitu besar menandakan data capaian nilai rata-rata provinsi

selama empat tahun tidak begitu menyebar dan memiliki kecenderungan setiap

data mirip antar satu sama lain.

Selain boxplot akan diberikan bentuk visualisasi yang lain untuk data-data

capaian nilai rata-rata provinsi melalui histogram pada Gambar 4.9, Gambar

4.10, Gambar 4.11, dan Gambar 4.12 berikut :

Gambar 4.9. Histogram 2016



48



Outlier yang ditampakkan pada boxplot sebelumnya dapat dilihat pula

pada Gambar 4.11 dan Gambar 4.12. Hal itu dapat kita lihat dari adanya bin

yang terpisah pada histogram tersebut. Adapun wilayah yang masuk dalam

outlier ini adalah daerah D.I Yogyakarta. Dari histogram di atas hal lain yang

dapat kita ketahui adalah pada tahun 2016 nilai yang sering muncul adalah nilai

pada rentang 53-56, pada tahun 2017 dan 2018 pada rentang 51-53, tahun 2019

pada rentang 50-52.

Pada boxplot sebelumnya diketahui terjadi overlapping boxplot. Hal ini

dapat kita lihat dari capaian nilai Q1 dan Q3, sehingga kita tidak dapat secara

serta merta menyimpulkan bahwa rata-ratanya turun atau naik secara signifikan

selama empat tahun terakhir. Untuk itu perlu dilakukan uji statistik untuk

melihat seberapa signifikan perbedaan rata-rata tersebut. Adapun uji yang

dipakai dalam hal ini uji Friedmann. Dengan menggunakan langkah pengujian

yang sama seperti yang telah dijelaskan pada bab kedua diperoleh hasil uji

sebagai berikut :


49

Hipotesis :

= ujian nasional selama empat tahun memiliki rata-rata yang sama

= ada minimal satu pasang tahun yang memiliki rata-rata tidak sama

Dari data diperoleh :

∑

Sehingga,

( ) ( )

( )

Dengan menggunakan pendekatan khi-kuadrat diperoleh :

( )( )

Sehingga :

( )( )

Dari tabel sebaran Khi-Kuadrat diperoleh ( )


50

Karena ( )

, maka ditolak.

Dengan demikian karena ditolak kita tahu bahwa ada minimal satu pasang

nilai yang memiliki rata-rata yang tidak sama.

Selanjutnya, akan dicari nilai rata-rata mana yang berbeda dengan

menggunakan perbandingan berganda uji Friedmann untuk membandingkan

semua kemungkinan pasangan perlakuan dalam hal ini nilai ujian nasional

setiap tahunnya. Pada taraf nyata , dan banyak kelompok adalah besar, maka

:

| | ( )

√ ( )

Untuk dari tabel normal diperoleh ,

sehingga diperoleh :

√ ( )( )


| | | | | |

| | | | | |

Dapat disimpulkan bahwa terdapat perbedaan rata-rata antara tahun 2016 dan

2017, tahun 2016 dan 2018, juga tahun 2016 dan 2019 karena nilai

| |


51

Selanjutnya dengan bantuan program Python akan ditentukan nilai khi-

kuadrat untuk membantu perhitungan agar lebih ringkas.

C. Capaian Nilai Rata-Rata Provinsi untuk Setiap Mata Pelajaran

Pada bagian ini akan ditampilkan capaian nilai rata-rata setiap mata

pelajaran tahun 2016-2019 dari masing-masing provinsi.

1. Mata Pelajaran Bahasa Indonesia

Pada Tabel 4.7 berikut akan ditampilkan capaian nilai rata-rata provinsi

untuk mata pelajaran Bahasa Indonesia.

Tabel 4.7. Capaian nilai rata-rata provinsi mapel Bahasa Indonesia

NO NAMA PROVINSI

RERATA NILAI BAHASA INDONESIA

RERATA

NILAI

2016

RERATA

NILAI

2017

RERATA

NILAI

2018

RERATA

NILAI

2019

1 DKI Jakarta 76.49 71.69 71.91 72.88

2 Jawa Barat 71.37 63.71 64.54 64.24

3 Jawa Tengah 74.88 69.62 70.37 70.85

4 DI Yogyakarta 79.86 77.35 76.6 78.15

5 Jawa Timur 73.55 66.6 67.04 67.25

6 Aceh 64.46 55.12 54.79 54.57

7 Sumatera Utara 71.69 62.94 56.76 59.17

8 Sumatera Barat 72.03 65.36 68.21 68.83

9 Riau 73.03 64.19 58.78 65.16

10 Jambi 68.02 58.4 60.61 60.12


12 Lampung 70.3 61.35 62.56 62


14 Kalimantan Tengah 70.78 64.75 65.09 63.65

15 Kalimantan Selatan 70.21 67.77 65.47 66.59


17 Sulawesi Utara 66.41 61.53 57.11 57.71

18 Sulawesi Tengah 63.64 61.14 58.39 60.33




52

21 Maluku 66.78 61.19 62.21 60.3

22 Bali 68.89 67.54 67.76 69.42

23

Nusa Tenggara

Barat 61.64 59.2 56.16 56.87

24

Nusa Tenggara

Timur 63.37 61.21 61.8 64.75

25 Papua 62.93 57.48 59.27 58.76

26 Bengkulu 67.95 60.07 62.13 62.61

27 Maluku Utara 65.61 58.12 60.16 58.49

28 Bangka Belitung 73.03 66.93 67.88 67.89

29 Gorontalo 64.34 61.12 56.81 56.04

30 Banten 65.3 58.76 59.74 60.29

31 Kepulauan Riau 73.97 66.93 69.98 70.19

32 Sulawesi Barat 60.29 56.91 56.11 55.4

33 Papua Barat 69.55 64.02 61.29 61.11


Hasil visualisasi dari data tersebut dapat dilihat pada Gambar 4.13 berikut

:

Gambar 4.13. Boxplot capaian nilai rata-rata provinsi mapel

Bahasa Indonesia

Informasi mengenai boxplot dapat dilihat pada Tabel 4.8 berikut :


53

Tabel 4.8. Informasi boxplot capaian nilai rata-rata Bahasa Indonesia

Informasi

Capaian Nilai Rata-Rata Nasional

Tahun

2016

Tahun

2017

Tahun

2018

Tahun

2019

Nilai Minimum Nilai Maksimum Range Q1 Q2 Q3 IQR Mean Standar Deviasi Koefisien Variansi

Dari informasi pada Tabel 4.8 tersebut diketahui nilai minimum

dicapai pada tahun 2019 dan nilai maksimum dicapai pada tahun 2016.

Pada tahun 2016-2019 nilai maksimum pada mata pelajaran Bahasa

Indonesia dicapai oleh provinsi D.I Yogyakarta, sementara nilai minumum

pada tahun 2016 dicapai oleh provinsi Sulawesi Barat dan sejak tahun

2017-2019, nilai minimum dicapai oleh provinsi Aceh.

Terdapat satu outlier pada tahun 2017. Outlier yang diperoleh ini

diakibatkan oleh adanya data yang memiliki nilai yang cukup jauh berbeda

dengan nilai-nilai lain di tahun tersebut, yakni pada data nilai maksimum.

Provinsi yang membuat data tersebut memiliki outlier adalah provinsi D.I

Yogyakarta. Hal ini diperkuat oleh histogram capaian nilai rata-rata ujian

nasional pada Gambar 4.14, Gambar 4.15, Gambar 4.16 ,dan Gambar 4.17

berikut :


54


pada Gambar 4,15. Hal tersebut dapat kita lihat dari adanya bin yang

terpisah pada histogram tersebut. Adapun wilayah yang masuk dalam

outlier ini adalah daerah D.I Yogyakarta. Dari histogram di atas hal lain

yang dapat kita ketahui adalah pada tahun 2016 nilai yang sering muncul

adalah nilai pada rentang 68-70, pada tahun 2017 nilai pada rentang 59-

61, tahun 2018 nilai pada rentang 59-62, dan pada tahun 2019 nilai pada

rentang 58-61.

Gambar 4.14. Histogram

Bahasa Indonesia 2016








55

Dari capaian nilai Q1 dan Q3 terjadi overlapping antar boxplot ,

sehingga kita tidak dapat secara serta merta menyimpulkan bahwa rata-rata

nilai Bahasa Indonesia turun atau naik secara signifikan selama empat

tahun terakhir.

Dengan menggunakan langkah pengujian Friedmann diperoleh hasil uji

sebagai berikut :

Hipotesis :


= ada minimal satu pasang nilai yang memiliki rata-rata tidak sama

Dengan menggunakan Program Python diperoleh nilai


Karena ( )

, maka ditolak, artinya ada perbedaan rata-

rata.

Dengan menggunakan perbandingan berganda untuk uji Friedmann untuk

dari tabel normal diperoleh ,

diperoleh :

√ ( )( )



56

| | | | | |

| | | | | |

Dapat disimpulkan bahwa terdapat perbedaan rata-rata Bahasa Indonesia

antara tahun 2016 dan 2017, tahun 2016 dan dan 2018, dan tahun 2016

dan 2019 karena nilai | | .

2. Mata Pelajaran Bahasa Inggris

Pada Tabel 4.9 berikut akan ditampilkan capaian nilai rata-rata untuk

mata pelajaran Bahasa Inggris

Tabel 4.9. Capaian nilai rata-rata provinsi mapel Bahasa Inggris

NO NAMA PROVINSI

RERATA NILAI BAHASA INGGRIS

RERATA

NILAI

2016

RERATA

NILAI

2017

RERATA

NILAI

2018

RERATA

NILAI

2019

1 DKI Jakarta 61.65 51.86 58.23 60.98

2 Jawa Barat 61.89 58.03 51.27 50.64

3 Jawa Tengah 50.56 45.05 50.6 50.83

4 DI Yogyakarta 58.53 51.06 58.07 58.73

5 Jawa Timur 61.5 49.78 50.16 51.15

6 Aceh 56.71 45.28 41.03 43.12

7 Sumatera Utara 66.96 54,12 49,14 47,12

8 Sumatera Barat 50 43.66 49.29 47.85

9 Riau 62,15 48,61 48.64 48.45

10 Jambi 54,55 44,95 45,2 45,14

11 Sumatera Selatan 51 46.24 44,74 43,86

12 Lampung 52.9 46 44.58 44.39





17 Sulawesi Utara 60 56.09 49.11 47.46

18 Sulawesi Tengah 53.76 50.39 45.85 44.48




57

21 Maluku 59.68 58.17 58.18 51.69

22 Bali 54.22 50.41 53.82 52.19

23

Nusa Tenggara

Barat 54.73 48.19 42.95 43.26

24

Nusa Tenggara

Timur 50.03 49.63 51.63 45.9

25 Papua 54.43 50.91 52.46 48.46

26 Bengkulu 44.3 41.26 43.67 43.81

27 Maluku Utara 62.71 57 57.8 52.6

28 Bangka Belitung 46.9 42.99 47.67 48.33

29 Gorontalo 53.49 48.67 44.91 44.69

30 Banten 49.25 44.27 46.47 48.1

31 Kepulauan Riau 55.56 49.2 54.07 54.25

32 Sulawesi Barat 46.59 44.48 43.12 42.09

33 Papua Barat 63.69 58.08 52.53 49.51


Hasil visualisasi dapat dilihat pada Gambar 4.18 berikut :

Gambar 4.18. Boxplot capaian nilai rata-rata provinsi mapel Bahasa Inggris

Informasi mengenai boxplot tersebut dapat dilihat pada Tabel 4.10 berikut :


58

Tabel 4.10. Informasi boxplot capaian nilai rata-rata Bahasa Inggris

Informasi


Tahun

2016

Tahun

2017

Tahun

2018

Tahun

2019


Dari informasi pada Tabel 4.10 tersebut dapat diketahui nilai minimum

dicapai pada tahun 2018 dan nilai maksimum dicapai pada tahun 2016. Nilai

maksimum untuk mata pelajaran Bahasa Inggris pada 2016 dicapai oleh

provinsi Sumatera Utara, tahun 2017 oleh provinsi Maluku dan dari tahun

2018-2019 dicapai oleh provinsi DKI Jakarta. Sementara untuk capaian nilai

minimum, pada tahun 2016-2017 dicapai oleh provinsi Bengkulu, tahun 2018

oleh provinsi Aceh dan tahun 2019 oleh provinsi Sulawesi Barat.

Dari segi capaian range dapat diketahui bahwa tahun 2017 memiliki

capaian yang cukup baik karena selisih antara nilai maksimum dan

minimumnya paling kecil dibanding tahun-tahun lainnya.

Terdapat outlier pada tahun 2019 . Outlier yang diperoleh ini diakibatkan

oleh adanya data yang memiliki nilai yang cukup jauh berbeda dengan nilai-

nilai lain set data di tahun tersebut, yakni pada capaian nilai maksimum pada

provinsi DKI Jakarta. Hal lain yang menyebabkan outlier ini muncul tentu saja


59

karena nilai tersebut lebih besar dari satu setengah kali nilai IQR ditambah nilai

Q3. Histogram capaian nilai rata-rata Bahasa Inggris dapat dilihat pada

Gambar 4.19, Gambar 4.20, Gambar 4.21, dan Gambar 4.22 berikut :


Bahasa Inggris 2016


Bahasa Inggris 2017


Bahasa Inggris 2018


Bahasa Inggris 2019


pada Gambar 4.22. Hal tersebut dapat kita lihat dari adanya bin yang terpisah

pada histogram tersebut. Adapun wilayah yang masuk dalam outlier ini adalah

daerah DKI Jakarta. Hal lain yang dapat kita ketahui dari histogram di atas

adalah pada tahun 2016 nilai yang sering muncul adalah nilai pada rentang 54-


60

57, pada tahun 2017 nilai pada rentang 48-50, tahun 2018 nilai pada rentang

48-50, dan pada tahun 2019 nilai pada rentang 47-49.

Dari capaian nilai Q1 dan Q3 terjadi overlapping antar beberapa boxplot,

namun terlihat dari capaian nilai Q1 dan Q3 pada tahun 2017 dan 2018 rata-

ratanya hampir sama. Oleh karena itu kita tidak dapat secara serta merta

menyimpulkan bahwa rata-ratanya turun atau naik secara signifikan selama

empat tahun terakhir. Dengan menggunakan langkah pengujian Friedmann

diperoleh hasil uji sebagai berikut :

Hipotesis :



Dengan menggunakan Program Phyton diperoleh nilai


Karena ( )

, maka ditolak, artinya ada perbedaan rata-rata.


dari tabel normal diperoleh diperoleh

:


61

√ ( )( )


| | | | | |

| | | | | |

Dapat disimpulkan bahwa terdapat perbedaan rata-rata Bahasa Inggris antara

tahun 2016 dan 2017, tahun 2016 dan dan 2018, juga tahun 2016 dan 2019

karena nilai | | .

3. Mata Pelajaran Matematika

Pada Tabel 4.11 berikut akan ditampilkan capaian nilai rata-rata untuk

mata pelajaran Matematika

Tabel 4.11. Capaian nilai rata-rata provinsi mapel Matematika

NO NAMA PROVINSI

RERATA NILAI MATEMATIKA

RERATA

NILAI

2016

RERATA

NILAI

2017

RERATA

NILAI

2018

RERATA

NILAI

2019

1 DKI Jakarta 48.19 51.47 49.15 53.26

2 Jawa Barat 56.9 56.9 46.07 46.14

3 Jawa Tengah 43.79 48.65 45.63 49.28

4 DI Yogyakarta 55.71 59.32 57.19 60.22

5 Jawa Timur 52.9 49.6 44.5 48.03

6 Aceh 49.46 45.27 35.16 38.79

7 Sumatera Utara 61.38 56.45 42.37 43.6

8 Sumatera Barat 41.95 46.84 44.1 46.76

9 Riau 54.14 51.38 43.38 46.06

10 Jambi 45.81 43.2 38.71 41.26


12 Lampung 44,51 46,91 37,31 40,03



15 Kalimantan Selatan 47.83 45.67 41 42.05


62


17 Sulawesi Utara 57.93 56.3 41.44 40.84

18 Sulawesi Tengah 49.46 47.87 39.38 41.12


20 Sulawesi Tenggara 51.18 52.78 45.19 44,47

21 Maluku 53,68 55,38 51,53 50.47

22 Bali 46.55 43.63 41.62 43.87

23 Nusa Tenggara Barat 47.62 46.02 36.32 38.76

24 Nusa Tenggara Timur 42.51 47.88 43.47 46.29

25 Papua 48.98 48.12 46.91 46.23

26 Bengkulu 35.51 41.32 35.88 39.74

27 Maluku Utara 57.81 53.56 49.86 49.15

28 Bangka Belitung 37.2 42.97 40.95 44.34

29 Gorontalo 49.21 48.24 38.24 40.74

30 Banten 38.86 42.16 37.47 41.91

31 Kepulauan Riau 43.12 47.34 43.86 47.5

32 Sulawesi Barat 40.62 42.28 37.37 39.68

33 Papua Barat 61.46 58.41 48.13 48.28



Gambar 4.23. Boxplot capaian nilai rata-rata provinsi

mapel Matematika



63

Tabel 4.12. Informasi boxplot capaian nilai rata-rata Matematika

Informasi


Tahun

2016

Tahun

2017

Tahun

2018

Tahun

2019


Dari informasi pada Tabel 4.12 tersebut diketahui nilai minimum dicapai

pada tahun 2018 dan nilai maksimum dicapai pada tahun 2016. Nilai

maksimum pada tahun 2016 dicapai oleh provinsi Papua Barat, dan dari tahun

2017-2019 nilai maksimum dicapai oleh provinsi D.I Yogyakarta. Sementara

itu nilai minimum dicapai oleh provinsi Bengkulu pada tahun 2016, provinsi

Kalimantan Utara pada tahun 2017, provinsi Aceh pada tahun 2018, dan

provinsi NTB pada tahun 2019. Dari segi capaian range dapat diketahui bahwa

tahun 2017 memilki capaian yang cukup baik karena selisih antara nilai

maksimum dan minimumnya paling kecil dibanding tahun-tahun lainnya.

Terdapat outlier pada tahun 2018 dan 2019. Outlier yang diperoleh ini


dengan nilai-nilai lain dalam set data di tahun tersebut sekaligus karena capaian

nilainya lebih besar dari satu setengah kali IQR ditambah nilai Q3. Adapun

provinsi yang mendapat capaian nilai yang menyebabkan munculnya outlier

adalah provinsi D.I Yogyakarta. Hal ini diperkuat oleh histogram capaian nilai


64

rata-rata Bahasa Inggris berikut pada Gambar 4.24, Gambar 4.25, Gambar

4.26, dan Gambar 4.27 berikut :


Matematika 2016


Matematika 2017


Matematika 2018


Matematika 2019


pada Gambar 4.26 dan 4.27. Hal tersebut dapat kita lihat dari adanya bin yang

terpisah pada histogram tersebut. Adapun wilayah yang masuk dalam outlier

ini adalah daerah D.I Yogyakarta. Dari histogram di atas hal lain yang dapat

kita ketahui adalah pada tahun 2016 nilai yang sering muncul adalah nilai pada


65

rentang 42-50, pada tahun 2017 nilai pada rentang 45-48, tahun 2018 nilai

pada rentang 40.5-46, dan pada tahun 2019 nilai pada rentang 38-41.

Dari capaian nilai rata-rata, tahun 2016 dan 2017 memiliki nilai yang

cukup dekat. Sama halnya dengan capaian mean pada tahun 2018 dan 2019.

Untuk itu perlu dilakukan uji statistik untuk melihat seberapa signifikan

perbedaan rata-rata tersebut. Hal ini diperkuat dari capaian nilai Q1 dan Q3

terjadi overlapping antar boxplot, sehingga kita tidak dapat secara serta merta

menyimpulkan bahwa rata-ratanya berbeda secara signifikan selama empat

tahun terakhir. Dengan menggunakan langkah pengujian Friedmann diperoleh

hasil uji sebagai berikut :

Hipotesis :





Karena ( )


Dengan menggunakan perbandingan berganda untuk uji Friedmann, untuk

dari tabel normal diperoleh , diperoleh

:


66

√ ( )( )


| | | | | |

| | | | | |

Dapat disimpulkan bahwa terdapat perbedaan rata-rata nilai Matematika antara

tahun 2016 dan 2018, tahun 2017 dan dan 2018, tahun 2017 dan 2019 dan

tahun 2018 dengan 2019 karena nilai | | .

4. Mata Pelajaran IPA

Pada Tabel 4.13 berikut akan ditampilkan capaian nilai rata-rata provinsi

untuk mata pelajaran IPA.

Tabel 4.13. Capaian nilai rata-rata mapel IPA

NO NAMA PROVINSI

RERATA NILAI IPA

RERATA

NILAI

2016

RERATA

NILAI

2017

RERATA

NILAI

2018

RERATA

NILAI

2019

1 DKI Jakarta 57.9 53.63 52.63 55.71

2 Jawa Barat 58.04 56.79 49.81 47.74

3 Jawa Tengah 53.73 52.92 50.59 52.54

4 DI Yogyakarta 61.71 60.7 57.98 61.16

5 Jawa Timur 61.1 53.14 49.14 50.89

6 Aceh 51.62 46.18 40.27 40.95

7 Sumatera Utara 65.48 57.47 44.63 44.87

8 Sumatera Barat 51.37 49.6 48.03 49.31

9 Riau 57.8 51.55 43.07 47.67

10 Jambi 51.33 47.63 42.81 43.45


12 Lampung 52.33 49.25 43.03 42.88





67


17 Sulawesi Utara 60.74 54.13 45.05 43.72

18 Sulawesi Tengah 56.29 48.93 44.97 43.71



21 Maluku 57.66 51.29 50.77 48.98

22 Bali 58.11 50.45 50.21 49.03

23 Nusa Tenggara Barat 49.95 48.59 42.14 41.79

24 Nusa Tenggara Timur 52.04 48.48 47.72 45.78

25 Papua 53.05 47.4 48.65 47.63

26 Bengkulu 46.18 44.85 41.94 42.78

27 Maluku Utara 59.27 50.11 48.58 50.07

28 Bangka Belitung 47.93 47.64 46.99 47.9

29 Gorontalo 55.38 50.3 44.05 43.51

30 Banten 45.67 44.5 41.98 43.98

31 Kepulauan Riau 51.57 49.48 47.24 50.18

32 Sulawesi Barat 49.31 44.97 42.69 40.45

33 Papua Barat 63.12 54.99 49.37 48.96



Gambar 4.28. Boxplot capaian nilai rata-rata provinsi mapel IPA



68

Tabel 4.14. Informasi boxplot capaian nilai rata-rata IPA

Informasi


Tahun

2016

Tahun

2017

Tahun

2018

Tahun

2019



dicapai pada tahun 2018 dan nilai maksimum dicapai pada tahun 2016. Nilai

maksimum pada tahun 2016 dicapai oleh provinsi Sumatera Utara, dan dari

tahun 2017-2019 dicapai oleh provinsi D.I. Yogyakarta. Sementara untuk

capaian nilia minimum dari tahun 2016-2017 dicapai oleh provinsi Banten,

tahun 2018 dicapai oleh provinsi Aceh dan tahun 2019 dicapai oleh provinsi

Sulawesi Barat. Panjang whisker pada keempat boxplot juga menunjukkan

bahwa selisih antara nilai maksimum dengan nilai pada kuartil ketiga cukup

besar. Selain itu, terdapat outlier pada tahun 2019. Outlier yang diperoleh ini


dengan nilai-nilai lain pada set data di tahun tersebut, yakni nilai maksimum.

Seperti yang telah dijelaskan sebelumnya provinsi D.I Yogyakarta memperoleh

capaian nilai tertinggi dan ternyata capaian nilai tersebut memiliki selisih yang

cukup besar dengan capaian nilai pada provinsi lainnya. Hal ini diperkuat oleh


69

histogram capaian nilai rata-rata Bahasa Inggris berikut pada Gambar 4.29,

Gambar 4.30, Gambar 4.31, dan Gambar 4.32 berikut :

Gambar 4.29. Histogram IPA 2016





pada Gambar 4.32. Hal tersebut dapat kita lihat dari adanya bin yang terpisah

pada histogram tersebut. Adapun wilayah yang masuk dalam outlier ini adalah

daerah D.I Yogyakarta. Dari histogram di atas hal lain yang dapat kita ketahui

adalah pada tahun 2016 nilai yang sering muncul adalah nilai pada rentang 56-


70

59, pada tahun 2017 nilai pada rentang 44-46, tahun 2018 nilai pada rentang

40-42, dan pada tahun 2019 nilai pada rentang 45-48.

Boxplot tersebut menunjukkan adanya penurunan nilai rata-rata selama emapat

tahun. Hal ini diperkuat pula dengan capaian nilai Q1 dan Q3 dimana terjadi

overlapping antar boxplot, sehingga kita tidak dapat secara serta merta

menyimpulkan bahwa rata-ratanya turun secara signifikan selama empat tahun

terakhir. Untuk itu perlu dilakukan uji statistik untuk melihat seberapa

signifikan perbedaan rata-rata tersebut. Dengan menggunakan langkah

pengujian Friedmann diperoleh hasil uji sebagai berikut :

Hipotesis :





Karena ( )



dari tabel normal diperoleh , sehingga

diperoleh :


71

√ ( )( )


| | | | | |

| | | | | |

Dapat disimpulkan bahwa terdapat perbedaan rata-rata IPA antara tahun 2016

dan 2017, tahun 2016 dan dan 2018, 2016 dan 2019, 2017 dan 2018, 2017 dan

2019 karena nilai | | .

D. Capaian Nilai Rata-Rata Berdasarkan Zona Waktu

Selain menganalisis capaian nilai rata-rata nasional dan nilai rata-rata provinsi

berikutnya akan dianalisis juga capaian nilai rata-rata yang diperoleh masing-

masing provinsi berdasarkan zona waktu. Di Indonesia, terdapat tiga zona waktu

yakni Waktu Indonesia Timur (WIT), Waktu Indonesia Tengah (WITA), dan

Waktu Indonesia Barat (WIB). Pada Tabel 4.15 dan Tabel 4.16, dan Tabel 4.17

akan diberikan data nama provinsi di setiap zona waktu. jumlah provinsi, dan

jumlah sisiwa di setiap zona waktu.

Tabel 4.15. Data nama provinsi di setiap zona waktu

Zona

Waktu

Jumlah

Provinsi Nama Provinsi

WIT 4 Papua,Maluku, Maluku Utara, dan Papua Barat

WITA 12 Sulawesi Barat, Sulawesi Tenggara, Sulawesi

Selatan, Sulawesi Utara, Sulawesi Tengah,

Gorontalo, Kalimantan Utara, Kalimantan

Selatan,Kalimantan Timur, Nusa Tenggara Barat,

Nusa Tenggara Timur, dan Bali.


72

WIB 18 Kalimantan Barat, Kalimantan Tengah, Sumatera

Utara, Sumatera Barat, Sumatera Selatan, Jambi,

Lampung, Aceh, Bengkulu, Riau, Kepulauan Riau,

Bangka Belitung, Banten, DKI Jakarta, Jawa

Tengah, Jawa Barat, Jawa Timur, dan DI

Yogyakarta.

Tabel 4.16. Jumlah siswa di setiap zona waktu

Zona

Waktu

Banyak Siswa


WIT WITA WIB

Total

Tabel 4.17. Jumlah siswa di setiap zona waktu

Zona

Waktu

Persentase Banyak Siswa (dalam persen)

Tahun 2016 Tahun

2017 Tahun 2018 Tahun 2019

WIT WITA WIB

Total

Berikutnya akan ditampilkan boxplot capaian nilai rata-rata di zona waktu

WIT, WITA, dan WIB.

1. Zona WIT

Pada Gambar 4.33 berikut akan ditampilkan boxplot capaian nilai rata-rata

di zona waktu WIT.


73

Gambar 4.33. Boxplot capaian nilai rata-rata WIT


Tabel 4.18. Informasi boxplot capaian nilai rata-rata WIT

Informasi


Tahun

2016

Tahun

2017

Tahun

2018

Tahun

2019



dicapai pada tahun 2019 dan nilai maksimum dicapai pada tahun 2016. Adapun

wilayah dengan capaian nilai maksmimum dari tahun 2016-2017 adalah

provinsi Papua Barat, dan dari tahun 2018-2019 dicapai oleh provinsi Maluku.


74

Sementara itu selama empat tahun terakhir nilai minimum dicapai oleh provinsi

Papua. Terlihat dari boxplot yang ada, terjadi penurunan nilai rata-rata pada

zona WIT. Hal ini diperkuat dengan capaian nilai Q1 dan Q3, sehingga terjadi

overlapping antar boxplot. Akibatnya, kita tidak dapat secara serta merta

menyimpulkan bahwa rata-rata di zona waktu ini turun secara signifikan

selama empat tahun terakhir.

Dari hasil perankingan nilai rata-rata di zona waktu WIT diperoleh nilai

, dan nilai ( )

Karena ( )

, maka ditolak.

Selanjutnya dilakukan prosedur perbandingan berganda. Dari sana diperoleh :


| | | | | |

| | | | | |


2019 di zona waktu WIT karena nilai | | .

2. Zona WITA


di zona waktu WITA.


75

Gambar 4.34. Boxplot capaian nilai rata-rata WITA


Tabel 4.19. Informasi boxplot capaian nilai WITA

Informasi


Tahun

2016

Tahun

2017

Tahun

2018

Tahun

2019



dicapai pada tahun 2018 dan nilai maksimum dicapai pada tahun 2016.

Adapun wilayah yang memperoleh capaian nilai maksimum dari tahun 2016-

2017 adalah provinsi Sulawesi Utara dan dari tahun 2018-2019 dicapai oleh

provinsi Bali. Sementara untuk capaian nilai minimum dari tahun 2016-2017

dicapai oleh provinsi Sulawesi Barat dan dari tahun 2018 dicapai oleh provinsi


76

NTB dan tahun 2019 kembali dicapai oleh provinsi Sulawesi Barat. Dari sini

kita dapat melihat bahwa perlu ada perhatian khusus bagi wilayah provinsi

Sulawesi Barat.

Terdapat outlier pada tahun 2017 dikarenakan terdapat nilai yang

capaiannya lebih dari satu setengah kali IQR ditambah nilai Q3 sebagai outlier

atas dan nilai Q1 kurang satu setengah kali IQR sebagai outlier bawah. Adapun

wilayah yang menyebabkan munculnya outlier tersebut adalah Sulawesi Barat

sebagai outlier bawah dan Sulawesi Utara sebagai outlier atas.

Dari boxplot dapat kita amati bahwa terjadi penurunan nilai rata-rata dari tahun

2016 sampai 2018, sementara tahun 2018 dan 2019, rata-ratanya cukup sama.

Hal ini dapat kita lihat pula dari capaian nilai Q1 dan Q3 antar boxplot dimana

terjadi overlapping, sehingga kita tidak dapat secara serta merta menyimpulkan

bahwa rata-ratanya turun secara signifikan selama empat tahun terakhir.

Dengan menggunakan uji Friedmann diperoleh hasil perankingan nilai rata-rata

di zona waktu WITA.

Diperoleh nilai , dan nilai ( )

.

Karena ( )

, maka ditolak. Selanjutnya dilakukan prosedur

perbandingan berganda. Dari sana diperoleh :


| | | | | |

| | | | | |


77


2017, tahun 2016 dan 2018, tahun 2016 dan 2019, di zona waktu WITA

karena nilai | | .

3. Zona WIB


di zona waktu WIB.

Gambar 4.35. Boxplot capaian nilai rata-rata WIB


Tabel 4.20. Informasi boxplot capaian nilai rata-rata WIB

Informasi


Tahun

2016

Tahun

2017

Tahun

2018

Tahun

2019

Nilai Minimum Nilai Maksimum Range Q1 Q2 Q3 IQR


78

Mean Standar Deviasi Koefisien Variansi

Dari informasi pada Tabel 4.20 tersebut diketahui nilai minimum dicapai

pada tahun 2018 dan nilai maksimum dicapai pada tahun 2016. Adapun

wilayah dengan capaian nilai maksimum pada tahun 2016 dicapai oleh

provinsi Sumatera Utara dan selama tiga tahun berikutnya dicapai oleh provinsi

D.I Yogyakarta. Sementara itu capaian nilai minimum dari tahun 2016-2017

dicapai oleh provinsi Bengkulu dan dan dari tahun 2018-2019 dicapai oleh

provinsi Aceh.

Hal lain yang dapat kita amati dari boxplot di atas, terlihat rata-ratanya

turun dari tahun 2016 sampai 2018 dan mengalami kenaikan dari tahun 2018

ke tahun 2019. Hal ini dapat kita lihat pula dari capaian nilai Q1 dan Q3 antar

boxplot dimana terjadi overlapping, sehingga kita tidak dapat secara serta

merta menyimpulkan bahwa rata-ratanya turun atau naik secara signifikan

selama empat tahun terakhir. Selain itu pada tahun 2018 dan 2019 terdapat

outlier dimana provinsi D.I Yogyakarta memperoleh capaian nilai yang cukup

tinggi dibanding dengan wilayah-wilayah lainnya. Untuk itu perlu dilakukan

uji statistik untuk melihat seberapa signifikan perbedaan rata-rata tersebut.

Dengan menggunakan uji Friedmann diperoleh hasil sebagai berikut :

Dari hasil perankingan nilai rata-rata diperoleh nilai ,

dan nilai ( ) .

Karena ( )

, maka ditolak. Selanjutnya dilakukan prosedur

perbandingan berganda. Dari sana diperoleh :


79


| | | | | |

| | | | | |

Dapat disimpulkan bahwa terdapat perbedaan rata- rata antara tahun 2016 dan

2017, tahun 2016 dan 2018, tahun 2016 dan 2019 di zona waktu WIB karena

nilai | | .

E. Perbandingan Capaian Nilai Rata-Rata Antar Zona Waktu

Selanjutnya dibuat boxplot untuk melihat perbandingan capaian nilai antara

wilayah-wilayah yang berada di tiga zona waktu di Indonesia pada tahun yang

sama. Berikut adalah tabel capaian nilai yang diperoleh oleh masing-masing

provinsi di tiga zona waktu di Indonesia.

Pada Gambar 4.36, Gambar 4.37, Gambar 4.38, dan Gambar 4.39 berikut akan

ditampilkan boxplot capaian nilai rata-rata antar zona waktu tahun 2016-2019

Gambar 4.36.Boxplot zona waktu

2016


2017


80


2018


2019

Informasi terkait boxplot-boxplot di atas akan ditampilkan dalam Tabel 4.21,

Tabel 4.22, Tabel 4.23 dan Tabel 4.24 berikut ini :

Tabel 4.21. Informasi boxplot capaian nilai rata-rata antar zona waktu 2016

Informasi Capaian Nilai Rata-Rata Zona Waktu 2016

WIT WITA WIB




WIT WITA WIB

Nilai Minimum Nilai Maksimum Range Q1 Q2 Q3 IQR


81

Mean Standar Deviasi Koefisien Variansi



WIT WITA WIB




WIT WITA WIB


Dari informasi pada Tabel 4.21, Tabel 4.22, Tabel 4.23, dan Tabel 4.24 di

atas diketahui pada tahun 2016-2019 nilai minimum sekaligus nilai maksimum

dicapai oleh zona waktu WIB. Dari segi capaian range zona waktu WIT

memilki capaian yang cukup baik karena selisih antara nilai maksimum dan

minimumnya paling kecil dibanding zona waktu lainnya selama empat tahun

terakhir.


82

Pola yang cukup mirip dapat kita lihat pada boxplot di atas, yakni capaian nilai

rata-rata di zona WIT lebih tinggi dari dua zona waktu lainnya. Hal ini dapat

saja disebabkan oleh jenis atau tipe soal yang berbeda pada ketiga zona waktu.

Seperti yang dilansir dari makalah milik Aris Dwiatmoko (2015), tingkat

kesulitan soal yang berbeda antara daerah bagian barat dengan daerah bagian

timur barangkali turut berpengaruh pada hasil di atas.

Pola yang mirip pada boxplot di atas juga ditunjukkan pada tahun 2018 dan

2019. Sebaran data pada kedua tahun di tiga zona waktu tersebut cukup

seragam.

Selanjutnya perlu dilihat seberapa besar perbedaan rata-rata di ketiga zona

waktu tersebut. Uji yang digunakan adalah Kruskal Wallis. Uji ini dapat

dipakai untuk melihat perbedaan rata-rata jika varibelnya lebih dari dua.

Dengan menggunakan langkah pengujian hipotesis menggunakan Uji Kruskal

Wallis diperoleh :

Kesimpulan : Jika nilai diterima, sehingga , artinya

tidak ada perbedaan nilai rata-rata antara ketiga zona waktu. Sebaliknya jika

nilai , artinya ada perbedaan nilai rata-rata antara ketiga zona waktu

Pada Tabel 4.25 berikut akan ditampikan hasil uji hipotesis dengan bantuan

perangkat lunak Python.


83

Tabel 4.25. Hasil uji Kruskal Wallis dengan Python

Zona

Waktu

P-Value per tahun

Kesimpulan Tahun

2016

Tahun

2017

Tahun

2018

Tahun

2019

WIT-

WITA-

WIB

Karena nilai , disimpulkan

tidak ada perbedaan rata-rata antara

WIT-WITA-WIB pada tahun 2016-

2019 .

Dari hasil uji hipotesis ini dapat kita lihat walaupun boxplot seolah-olah

menujukkan bahwa terdapat perbedaan rata-rata, uji hipotesis secara tegas

menunjukkan bahwa sebenarnya tidak ada perbedaan yang cukup signifikan di

ketiga zona waktu tersebut. Untuk itu agar dapat melihat mutu pendidikan di

setiap zona waktu harus dipakai standar soal dengan tingkat kesulitan yang

sama.

F. Provinsi-Provinsi dengan Capaian Rata-Rata di bawah Rata-Rata

Nasional

Pada bagian ini akan ditampilkan beberapa hasil visualisasi data yang

menunjukkan capaian nilai rata-rata mata pelajaran yang diperoleh oleh setiap

provinsi. Selanjutnya dicari provinsi mana saja yang selama empat tahun

terakhir memperoleh capaian nilai di bawah capaian nasional setiap mata

pelajaran.

Dari hasil pelaksanaan Ujian Nasional selama empat tahun terakhir terdapat

beberapa wilayah yang ternyata memperoleh capaian nilai di bawah nilai rata-

rata nasional untuk setiap mata pelajaran. Tabel 4.26 menunjukkan irisan


84

kelompok provinsi yang memperoleh capaian nilai rata-rata provinsi di bawah

rata-rata nasional untuk semua mata pelajaran selama empat tahun terakhir.

Tabel 4.26. Provinsi dengan capaian kurang dari rata-rata nasional

Mapel Provinsi Irisan provinsi

Bahasa Indonesia Aceh, Jambi, Sumatera

Selatan, Lampung,

Kalimantan Barat, Sulawesi

Utara, Sulawesi Tengah,

Sulawesi Selatan, Sulawesi

Tenggra, Maluku, NTB,

Papua, Bengkulu, Maluku

Utara, Gorontalo, Banten,

Sulawesi Barat, Papua

Barat

Aceh, Jambi, Sumatera

Selatan, Lampung,

Kalimantan Barat, NTB,

Banten

Bahasa Inggris Aceh, Sumatera Barat,

Jambi, Sumatera Selatan,

Lampung, Kalimantan

Barat, NTB, Bengkulu,

Bangka Belitung,

Gorontalo, Banten,

Kalimantan Utara

Matematika Aceh, Jambi, Sumatera

Selatan, Lampung,

Kalimantan

Barat,Kalimantan Selatan,

Sulawesi Tengah, Bali,

NTB, Bengkulu, Bangka

Belitung, Gorontalo,

Banten, Sulawesi Barat,

Kalimantan Utara

IPA Aceh, Jambi, Sumatera

Selatan, Lampung,

Kalimantan Barat,NTB,

Banten, Sulawesi Barat,

Kalimantan Utara

Ketujuh provinsi yang menunjukkan hasil capaian nilai rata-rata berada di

bawah capaian nilai rata-rata secara nasional untuk semua mata pelajaran

ternyata ada di dua zona waktu, yakni di zona WIB dan WITA. Di zona WIB

ada provinsi Aceh, Jambi, Sumatera Selatan, Kalimantan Barat,Lampung,dan

Banten. Sementara di zona WITA ada provinsi NTB. Walaupun hasil uji


85

hipotesis menunjukkan bahwa tidak ada perbedaan rata-rata secara signfikan

antara ketiga zona waktu, namun ternyata menunjukkan bahwa walau demikian

capaian zona WIT tidak masuk dalam wilayah yang memperoleh capaian nilai

mata pelajaran di bawah nilai rata-rata nasional selama empat tahun. Artinya

masih ada nilai-nilai pada mata pelajaran tertentu yang lebih tinggi dari capaian

secara nasional. Misalnya pada provinsi Maluku dan Papua yang memperoleh

capaian nilai Bahasa Indonesia yang rendah selama empat tahun, namun tidak

pada mata pelajaran lainnya.

Setelah mengetahui provinsi mana saja yang memperoleh capaian nilai di

bawah nilai rata-rata nasional untuk keempat mata pelajaran selama empat

tahun terakhir, selanjutnya penulis mencari selisih antara capaian nilai mata

pelajaran secara nasional dengan capaian nilai mata pelajaran pada provinsi

tersebut. Hasilnya akan dibandingkan dengan capaian nilai secara nasional

untuk melihat kesamaan ataupun perbedaan trend yang ditunjukkan oleh

ketujuh provinsi tersebut.

a. Provinsi Aceh

Pada Gambar 4.40 berikut ini akan ditampilkan visualisasi yang

menunjukkan selisih antara capaian mapel nasional dengan capaian nilai rata-

rata mapel provinsi Aceh :


86

Gambar 4.40. Capaian selisih provinsi Aceh

Capaian selisih paling kecil untuk keempat mata pelajaran dicapai pada

tahun 2016, kecuali untuk mata pelajaran IPA pada tahun 2018. Artinya jarak

antara rata-rata mata pelajaran secara nasional dengan rata-rata mapel provinsi

yang cukup baik dicapai pada tahun-tahun ini. Trend yang sama ditunjukkan

oleh mata pelajaran lain kecuali mata pelajaran IPA dimana terjadi kenaikan

selisih mulai tahun 2016-2018 di ketiga mata pelajaran pada daerah ini.

Kenaikan selisih ini mengindikasikan adanya penurunan nilai rata-rata selama

3 tahun pada provinsi ini. Sementara pada tahun 2019 terjadi penurunan selisih

yang mengindikasikan adanya peningkatan nilai rata-rata di keempat mata

pelajaran. Hal ini sejalan dengan trend yang ditampilkan pada hasil capaian

nilai rata-rata secara nasional. Trend yang cukup seragam selanjutnya adalah

pada mata pelajaran Bahasa Inggris dan Matematika, dimana capaian nilai di

kedua mata pelajaran ini cenderung sama.


87

b. Provinsi Jambi

Pada Gambar 4.41 berikut ini akan ditampilkan visualisasi yang

menunjukkan selisih antara capaian mapel nasional dengan capaian nilai rata-

rata mapel provinsi Jambi :

Gambar 4.41. Capaian selisih provinsi Jambi

Capaian selisih paling kecil pada mata pelajaran Bahasa Indonesia dan

Bahasa Inggris dicapai pada tahun 2016, mata pelajaran Matematika pada

tahun 2019, dan mata pelajaran IPA pada tahun 2018. Artinya jarak antara rata-

rata mata pelajaran secara nasional dengan rata-rata mapel provinsi yang cukup

baik dicapai pada tahun ini. Terjadi kenaikan selisih pada mata pelajaran

Bahasa Indonesia, Bahasa Inggris, dan Matematika dari tahun 2016 ke tahun

2017 dan penurunan selisih pada tahun 2018. Artinya, terjadi penurunan nilai

rata-rata pada tahun 2017 dan kenaikan rata-rata pada tahun 2018 di ketiga

mata pelajaran tersebut. Berbeda dengan ketiga mata pelajaran lainnya, pada

mata pelajaran IPA terjadi penurunan selisih pada tahun 2017 sampai 2018,

dan kenaikan pada tahun 2019. Pola yang ditunjukkan oleh keempat mata


88

pelajaran ini cukup berbeda dengan hasil yang diperoleh pada capaian nilai

rata-rata nasional yang mengalami penurunan nilai rata-rata sejak tahun 2016-

2018 dan kenaikan pada tahun 2019. Artinya walaupun dari segi capaian nilai

rata-rata terjadi kenaikan, ternyata kenaikan tersebut tidak begitu besar.

Akibatnya capaian nilainya tetap berada di bawah nilai rata-rata nasional untuk

semua mata pelajaran.

c. Provinsi Sumatera Selatan

Pada Gambar 4.42 berikut ini akan ditampilkan visualisasi yang menunjukkan

selisih antara capaian mapel nasional dengan capaian nilai rata-rata mapel

provinsi Sumsel :

Gambar 4.42. Capaian selisih provinsi Sumsel

Capaian selisih paling kecil pada mata pelajaran Bahasa Indonesia dicapai pada

tahun 2016, pada mata pelajaran Bahasa Inggris dicapai pada tahun 2017, dan

pada mata pelajaran Matematika dan Bahasa IPA pada tahun 2018. Artinya jarak


89

antara rata-rata nasional mata pelajaran dengan rata-rata mapel provinsi yang

cukup baik dicapai pada tahun-tahun ini. Trend yang sama ditunjukkan pada mata

pelajaran Bahasa Indonesia dan IPA, dimana terjadi kenaikan selisih pada tahun

2017, artinya ada penurunan rata-rata, terjadi penurunan selisih pada tahun 2018

artinya ada kenakan nilai rata-rata, dan kembali terjadi kenaikan selisih pada

tahun 2019. Trend yang cukup mirip ialah pada mata pelajaran IPA dan

Matematika. Dari grafik yang ada dapat kita ketahui capaian nilai di kedua mata

pelajaran tersebut sebenarnya tidak berbeda.

Sementara itu pola berbeda ditunjukkan oleh mata pelajaran Bahasa Inggris

dan Matematika. Pada mata pelajaran Bahasa Inggris ada kenaikan selisih yang

cukup besar pada tahun 2018 yang artinya terjadi penurunan nilai rata-rata yang

cukup besar. Sementara pada mata pelajaran matematika terjadi penurunan selisih

pada tahun 2017 dan 2018 dan kenaikan selisih pada tahun 2019. Keempat mata

pelajaran tidak menunjukkan trend yang sama dengan capaian nilai rata-rata

nasional. Artinya, walaupun terjadi peningkatan atau penurunan nilai di masing-

masing mata pelajaran, kenaikan atau penurunan tersebut tidak cukup besar

sehingga menyebabkan capaian nilainya tetap berada di bawah capaian nilai rata-

rata nasional.

d. Provinsi Lampung



provinsi Lampung :


90

Gambar 4.43. Capaian selisih provinsi Lampung

Capaian selisih paling kecil pada mata pelajaran Bahasa Indonesia dan Bahasa

Inggris dicapai pada tahun 2016 , sementara untuk mata pelajaran Matematika

dicapai pada tahun 2017, dan IPA pada tahun 2018, artinya jarak antara rata-rata

nasional mata pelajaran dengan rata-rata mapel provinsi yang cukup baik dicapai

pada tahun-tahun ini. Kenaikan dan penurunan selisih pada empat mata pelajaran

mengindikasikan bahwa walaupun terjadi penurunan dan kenaikan nilai rata-rata,

ternyata capaian nilai tersebut tidak begitu besar, sehingga provinsi Lampung

tetap berada di bawah nilai rata-rata nasional.

e. Provinsi Kalimantan Barat



provinsi Kalimantan Barat :


91

Gambar 4.44. Capaian selisih provinsi Kalbar

Capaian selisih paling kecil pada mata pelajaran Bahasa Indonesia dicapai pada

tahun 2016, Bahasa Inggris dan Matematika dicapai pada tahun 2019, dan IPA

dicapai pada tahun 2018 artinya jarak antara rata-rata nasional mata pelajaran

dengan rata-rata mapel provinsi yang cukup baik dicapai pada tahun ini. Keempat

mata pelajaran menunjukkan trend yang berbeda setiap tahunnya dan juga berbeda

dengan trend yang ditunjukkan oleh capaian nilai secara nasional. Kenaikan dan

penurunan selisih pada keempat mata pelajaran lainnya mengindikasikan bahwa

walaupun terjadi penurunan dan kenaikan nilai rata-rata, ternyata capaian nilai

tersebut tidak begitu besar, sehingga provinsi Kalbar tetap berada di bawah nilai

rata-rata nasional.

f. Provinsi NTB



provinsi NTB :


92

Gambar 4.45. Capaian selisih provinsi NTB

Capaian selisih paling kecil pada mata pelajaran Bahasa Indonesia, Bahasa

Inggris, dicapai pada tahun 2017 sementara untuk mata pelajaran Matematika

dicapai pada tahun 2016, dan IPA dicapai pada tahun 2018 artinya jarak antara

rata-rata nasional mata pelajaran dengan rata-rata mapel provinsi yang cukup

baik dicapai pada tahun ini.

Keempat mata pelajaran menunjukkan trend yang berbeda setiap tahunnya, namun

pada mata pelajaran Matematika trend yang sama ditunjukkan dengan capaian

nilai rata-rata nasional. Kenaikan dan penurunan selisih pada setiap mata

pelajaran mengindikasikan bahwa walaupun terjadi penurunan dan kenaikan nilai

rata-rata, ternyata capaian nilai tersebut tidak begitu besar, sehingga provinsi NTB

tetap berada di bawah nilai rata-rata nasional.


93

g. Provinsi Banten



provinsi Banten :

Gambar 4.46. Capaian selisih provinsi Banten

Capaian selisih paling kecil untuk mata pelajaran dicapai pada tahun 2019,

selain mata pelajaran IPA pada tahun 2018 artinya jarak antara rata-rata nasional

mata pelajaran dengan rata-rata mapel provinsi yang cukup baik dicapai pada

tahun ini. Trend yang sama ditunjukkan pada mata pelajaran Bahasa Inggris dan

Matematika. Trend ini cukup berbeda dengan trend yang ditunjukkan capaian

nilai rata-rata nasional. Di kedua mata pelajaran tersebut, tampak adanya

penurunan selisih yang artinya terjadi peningkatan nilai rata-rata selama empat

tahun terakhir. Namun demikian, peningkatan ini sepertinya tidak begitu besar,

sehingga menyebabkan capaian nilai rata-rata provinsi Banten tetap berada di

bawah capaian nilai rata-rata nasional.


94

G. Analisis Komponen Utama pada Ujian Nasional

Analisis Komponen Utama pada bagian ini dipakai untuk melihat nilai mana

yang paling mempengaruhi capaian nilai lain dalam pelaksanaan Ujian Nasional.

Sebelumnya dicari matriks kovarian, nilai eigen dan vektor eigen dari masing-

masing tahun pelaksanaan ujian nasional.

Misalkan mata pelajaran Bahasa Indonesia dilambangkan dengan , mata

pelajaran Bahasa Inggris dilambangkan dengan , Matematika dilambangkan

dengan dan IPA dilambangkan dengan , maka :

1. Tahun 2016

Nilai eigen dan vektor eigen, dan komponen utama tahun 2016 akan

ditampilkan pada Tabel 4.27, Tabel 4.28, dan Tabel 4.29 berikut :

a) Matriks Kovarian

(

)

b) Nilai Eigen

Tabel 4.27. Nilai eigen tahun 2016

Mata Pelajaran

c) Vektor Eigen

Tabel 4.28. Vektor eigen tahun 2016

Mapel


95

d) Menetukan Komponen Utama

Tabel 4.29. Komponen utama 2016

Mapel

Dari capaian nilai eigen yang ada, diketahui bahwa terdapat satu nilai yang

besarnya lebih dari satu, sehingga dengan menggunakan satu komponen utama

ternyata sudah cukup baik untuk menggambarkan keseluruhan data. Hal ini

diperkuat oleh capaian besar proporsi komulatif buah komponen utama

seperti yang telah dijelaskan pada Bab II. Didapat besar proporsi kumulatif

adalah .

Diperoleh :

Adapun komponen utama tersebut didominasi oleh variabel (Bahasa

Inggris) dan variabel (IPA).

2. Tahun 2017

Nilai eigen dan vektor eigen, dan komponen utama yang dicapai tahun 2017

akan ditampilkan pada Tabel 4.30, Tabel 4.31, dan Tabel 4.32 berikut :

a) Matriks Kovarian

(

)


96

b) Nilai Eigen


Mata Pelajaran

c) Vektor Eigen


d) Komponen Utama

Tabel 4.32. Komponen Utama 2017

Mapel



ternyata sudah cukup baik untuk menggambarkan keseluruhan data. Besar

proporsi kumulatif adalah

Diperoleh :

Adapun komponen utama tersebut didominasi oleh variabel (Matematika)

dan variabel (IPA).


97

3. Tahun 2018


akan ditampilkan pada Tabel 4.33, Tabel 4.33 dan Tabel 4.34 berikut :

a) Matriks Kovarian

(

)

b) Nilai Eigen


Mata Pelajaran

c) Vektor Eigen


d) Komponen Utama


Mapel


98



ternyata sudah cukup baik untuk menggambarkan keseluruhan data. Besar

proporsi kumulatif adalah

Diperoleh :

Adapun komponen utama tersebut didominasi oleh variabel (Matematika)

dan variabel (IPA).

4. Tahun 2019


akan ditampilkan pada Tabel 4.36, Tabel 4.37, dan Tabel 4.38 berikut :

a) Matriks Kovarian

(

)

b) Nilai Eigen


Mata Pelajaran


99

c) Vektor Eigen


d) Komponen Utama


Mapel

Dari capaian nilai eigen yang ada, diketahui bahwa terdapat satu nilai

yang besarnya lebih dari satu, sehingga dengan menggunakan satu komponen

utama ternyata sudah cukup baik untuk menggambarkan keseluruhan data.

Besar proporsi kumulatif adalah

Diperoleh :

Adapun komponen utama tersebut didominasi oleh variabel (Bahasa

Inggris) dan variabel (IPA).

H. Hasil Klasterisasi Provinsi di Indonesia

Pada bagian ini akan ditampilkan hasil klasterisasi wilayah berdasarkan

provinsi-provinsi di Indonesia. Seperti yang telah diketahui sebelumnya

terdapat tiga zona waktu di Indonesia yakni WIT, WITA, dan WIB. Hal yang


100

akan diamati selain hasil klasterisasinya adalah apakah hasil dari proses

klasterisasi tersebut menunjukkan provinsi-provinsi yang berada dalam satu

zona waktu memang terklaster dalam klaster yang sama atau tidak.

Pengklasteran ini didasarkan pada capaian nilai rata-rata semua mata pelajaran

selama empat tahun terakhir. Selanjutnya dibuat scree plot untuk memperoleh

banyak klaster yang paling optimal digunakan dengan menggunakan elbow

method. Penentuan klasternya menggunakan algoritma K-Means Klastering

seperti yang telah dijelaskan sebelumnya. Scree plot dapat dilihat pada Gambar

4.47 berikut :

Gambar.4.47. Scree plot provinsi

Dari gambar tersebut nilai k yang paling optimal untuk penentuan banyak

klaster adalah k=4.

Melalui proses normalisasi diperoleh pusat data yang dapat dilihat pada Tabel

4.39 berikut:


101

Tabel.4.39. Pusat data provinsi setelah proses normalisasi

Klaster Bahasa

Indonesia

Bahasa


1 2 3 4

Untuk mengetahui pusat data sebenarnya data hasil normalisasi dikembalikan

ke data awal. Hasilnya dapat dilihat pada Tabel 4.40 berikut :

Tabel.4.40. Pusat data provinsi

Klaster Bahasa

Indonesia

Bahasa


Rata-

rata

Klaster

1 2 3 4

Ternyata setelah melihat rata-rata dari pusat data yang ada, kita dapat

menyimpulkan bahwa .

Ternyata hasil tersebut tidak konsisten untuk mata pelajaran Bahasa Indonesia

dan konsisten untuk tiga mata pelajaran lainnya. Setelah mengetahui pusat

data dari klaster-klaster tersebut selanjutnya akan dilihat kabupaten mana saja

yang menjadi anggota tiap klaster pada Tabel 4.41 berikut :

Tabel 4.41. Klaster provinsi

Klaster Nama Provinsi Rata-Rata

Klaster

Zona

Waktu

Jumlah

Provinsi

Setiap

Klaster

1 DKI Jakarta WIB 2 provinsi

DI Yogyakarta WIB

2

Jawa Barat WIB 6 provinsi

Sumatera Utara WIB


102

Sulawesi Utara WIB

Maluku WIT

Maluku Utara WIT

Papua Barat WIT

3 Jawa Tengah WIB 13 provinsi

Jawa Timur

WIB

Sumatera Barat

WIB

Riau

WIB

Kalimantan Tengah

WIB

Kalimantan Selatan

WITA

Kalimantan Timur

WITA

Sulawesi Selatan

WITA

Sulawesi Tenggara

WITA

Bali

WITA

Nusa Tenggara Timur

WITA

Papua

WIT

Kepulauan Riau

WIB

4 Aceh

WIB 13 provinsi

Jambi WIB

Sumatera Selatan WIB

Lampung WIB

Kalimantan Barat WIB

Sulawesi Tengah WITA

Nusa Tenggara Barat WITA

Bengkulu WIB

Bangka Belitung WIB

Gorontalo WITA

Banten WIB

Sulawesi Barat WITA

Kalimantan Utara WITA

Dari hasil klasterisasi tersebut dapat kita ketahui bahwa daerah-daerah

pada suatu klaster tidak selalu berasal dari zona waktu yang sama. Hasil

pengklasteran menunjukkan selama empat tahun terakhir tidak semua provinsi

yang ada terklaster menurut zona waktunya.

Hal menarik lain dari hasil klasterisasi ini ternyata sesuai dengan hasil yang

dtunjukkan pada pembahasan tentang provinsi mana saja yang berada di


103

bawah capaian nilai rata-rata nasional selama empat tahun terakhir. Hasil

klasterisasi ini menunjukkan bahwa ketujuh provinsi yang berada di bawah

capaian rata-rata nasional berada dalam satu klaster. Selain ketujuh provinsi

itu, ternyata ada enam provinsi lain yakni Sulawesi Tengah, Bengkulu,

Bangka Belitung, Sulawesi Barat, Gorontalo dan Kalimantan Utara yang

masuk dalam klaster yang sama. Setelah dicek kembali, ternyata pada mata

pelajaran tertentu provinsi-provinsi ini berada di bawah nilai rata-rata

nasional. Artinya, nilai yang dicapai enam provinsi tersebut sebenarnya tidak

begitu berbeda jauh dengan ketujuh provinsi. Misalnya pada provinsi

Bengkulu yang memperoleh nilai Bahasa Indonesia, Bahasa Inggris, dan

Matematika di bawah rata-rata nasional, tetapi tidak demikian untuk capaian

nilai IPA. Akibatnya provinsi ini tidak masuk dalam irisan ke dalam kelompok

yang sama dengan tujuh provinsi lainnya. Dengan kata lain, jika diambil rata-

rata dari keempat mata pelajaran selama empat tahun, provinsi Bengkulu

sebenarnya memiliki capaian nilai yang cukup dekat dengan capaian ketujuh

provinsi lainnya.

Provinsi DKI Jakarta dan D.I Yogyakarta merupakan dua provinsi outlier

dengan capaian nilai rata-rata jauh melebihi provinsi lainnya. Dapat pula kita

amati bahwa zona WIB tampil di semua klaster. Artinya di WIB sendiri ada

variansi capaian nilai UN dari level terbaik sampai level terendah. Zona

WITA tampil di klaster 3 dan 4, artinya variansi nilai UN pada zona waktu ini

sebenarnya berada pada rentang nilai rata-rata klaster tersebut. Sama halnya

dengan zona WIT yang berada di klaster 2 dan 3.


104

I. Hasil Klasterisasi Kabupaten di Nusa Tenggara Timur

Dengan cara yang sama untuk menentukan banyak klaster dan hasil

klasterisasi di tingkat nasional, akan ditampilkan hasil visualisasi untuk klaster

tingkat yang lebih rendah, yakni di tingkat provinsi. Dalam tulisan ini, penulis

akan berfokus pada hasil klaster di wilayah Nusa Tenggara Timur. Selain

karena penulis berasal dari provinsi ini, alasan lain yang ingin penulis ketahui

adalah bentuk klaster di wilayah provinsi NTT sebagai akibat dari hasil klaster

di tingkat nasional yang menunjukkan bahwa NTT masuk dalam klaster

dengan capaian nilai yang cukup rendah.

Di wilayah NTT sendiri terdapat 22 kabupaten yang tersebar di lima pulau

yakni Pulau Flores, Pulau Sumba, Pulau Alor, Pulau Timor dan Lembata.

Pada Gambar 4.48 berikut akan ditampilkan scree plot yang diperoleh dari

teknik elbow method.

Gambar 4.48. Scree plot kabupaten


105

Dari hasil visualisasi tersebut diperoleh nilai k=3. Dengan menggunakan nilai

k=3

Selanjutnya dengan proses normalisasi diperoleh pusat data yang ditampilkan

pada Tabel 4.42 sebagai berikut :

Tabel.4.42. Pusat data kabupaten setelah proses normalisasi

Klaster Bahasa

Indonesia

Bahasa


1 2 3

Untuk mengetahui pusat data sebenarnya data hasil normalisasi dikembalikan

ke data awal. Hasilnya dapat dilihat pada Tabel 4.43 berikut :

Tabel.4.43. Pusat data kabupaten

Klaster Bahasa

Indonesia

Bahasa


Rata-

Rata

Klaster

1 2 3


menyimpulkan bahwa .Ternyata hasil

tersebut konsisten jika kita melihat pusat data setiap klaster untuk setiap mata

pelajaran. Setelah mengetahui pusat data dari klaster-klaster tersebut

selanjutnya akan dilihat kabupaten mana saja yang menjadi anggota tiap

klaster pada Tabel 4.44 berikut :


106

Tabel.4.44. Klaster kabupaten di NTT

Klaster Nama Kabupaten Rata-Rata

Klaster

Jumlah

kabupaten

dalam Klaster

1 Alor 9 kabupaten

Manggarai Barat

Manggarai

ManggaraiTimur

Rote Ndao

Sabu Raijua

Sumba Barat Daya

Sumba Tengah

TTS

2 Ende 9 kabupaten

Flores Timur

Kota Kupang

Lembata

Malaka

Nagekeo

Ngada

Sikka

TTU

3 Belu 4 kabupaten

Kabupaten Kupang

Sumba Barat

Sumba Timur

Hasil klasterisasi ini menunjukkan daerah-daerah pada suatu klaster tidak

selalu berasal dari pulau waktu yang sama. Daerah-daerah di Pulau Flores

tidak terklaster di klaster 3, artinya capaian nilai rata-rata pulau Flores cukup

tinggi dibanding pulau-pulau lainnya di NTT.


107

J. Hasil Klasterisasi Sekolah di Kabupaten Manggarai

Setelah melakukan proses klaster pada tingkat nasional dan tingkat

kabupaten, dengan cara serupa akan dibuat pula klaster untuk tingkat sekolah.

Adapun sekolah-sekolah yang dipilih adalah sekolah-sekolah yang ada di

Kabupaten Manggarai, Nusa Tenggara Timur. Kabupaten Manggrai sendiri

berada pada klaster 1 di wilayah Nusa Tenggara Timur, namun demkian sama

seperti sebelumnya pemilihan wilayah ini didasarkan juga pada fakta bahwa

penulis berasal dari daerah tersebut, sehingga proses analilis data dapat lebih

spesifik. Di wilayah Kabupaten Manggarai terhitung ada sebanyak 64 sekolah

pada tahun 2016, 66 sekolah pada tahun 2017, dan 77 sekolah pada tahun

2018 dan 2019. Adapun data yang dipakai untuk kepentingan penelitian ini

adalah 62 sekolalah yang keberadaannya konsisten selama empat tahun

terakhir yang tersebar di 12 kecamatan. Pada Gambar 4.49 berikut akan

ditampilkan scree plot yang diperoleh dari teknik elbow method.

Gambar 4.49. Scree plot sekolah


108

Dari hasil visualisasi tersebut diperoleh nilai k=4. Dengan menggunakan nilai

k=4, dibuat visualisasi untuk menampilkan klaster dan pusat data yang dapat

dilihat pada Gambar 4.45 dan 4.46 berikut :

Selanjutnya dengan proses normalisasi diperoleh pusat data yang ditampilkan

pada Tabel 4.45 sebagai berikut :

Tabel.4.45. Pusat data sekolah setelah proses normalisasi

Klaster

Bahasa

Indonesia

Bahasa


1 0.74893727 0.75563165 0.69515522 0.82933095

2 0.74479059 0.82178778 0.54798369 0.13146119

3 0.49161258 0.51409023 0.42172916 0.54731131

4 0.13410908 0.10483649 0.14221959 0.13931507

Untuk mengetahui pusat data sebenarnya data hasil normalisasi dikembalikan ke

data awal. Hasilnya dapat dilihat pada Tabel 4.46 berikut :

Tabel.4.46. Pusat data sekolah

Klaster Bahasa

Indonesia

Bahasa


Rata-

Rata

1 2 3

4


menyimpulkan bahwa , namun

jika melihat pusat data setiap klaster untuk setiap mata pelajaran, hasil tersebut

ternyata konsisten untuk mata pelajaran Bahasa Indonesia dan Matematika, dan


109

tidak konsisten untuk mata pelajaran Bahasa Inggris dan IPA. Selain itu, dari hasil

visualisasi klaster pada gambar sebelumnya kita dapat melihat bahwa nilai-nilai

pada klaster empat cukup konsisten mengumpul di satu tempat dengan jarak dari

pusat data tidak begitu jauh. Sementara itu jarak antar pusat data pada klaster 1

dan klaster 4 tidak begitu jauh. Akibatnya nilai-nilai di sekitar pusat data juga

mengumpul di tempat-tempat yang cukup dekat.

Dari klaster-klaster tersebut selanjutnya akan dilihat sekolah mana saja yang

menjadi anggota tiap klaster pada Tabel 4.47 berikut :

Tabel.4.47. Klaster sekolah di Manggarai

Klaster Nama Sekolah Rata-Rata

Klaster

Jumlah

sekolah

1 SMP Negeri 1 Satarmese 23 sekolah

SMP Negeri 3 Satarmese



SMP Negeri 1 Cibal

SMP Negeri 2 Cibal

SMP Negeri 3 Cibal

SMP Negeri 4 Cibal

SMP Negeri 5 Cibal

SMP Negeri 2 Reok

SMP Negeri Satu Atap Lemarang

SMP Negeri 3 Ruteng Watu Benta

Mts Amanah

SMP Negeri 6 Cibal

SMP Negeri 7 Cibal


SMP Negeri 4 Reok

SMP Negeri Satap Nuca Molas

SMP Satu Atap Rangkang Kalo


SD-SMP Negeri Satap Wae Belang


SD-SMP Negeri Satap Pongmeleng


110

2 SMP Negeri 1 Cancar 8 Sekolah

SMP Negeri 2 Ruteng-Beokina

Mts Negeri Reo

SMP.St.Stefanus

SMP Negeri 5 Ruteng Gelong

SMP Negeri 8 Ruteng

SMP Negeri 6 Ruteng

SMP Negeri 3 Wae Rii

3 SMP Negeri 1 Langke Rembong 17 Sekolah

SMP Negeri 1 Reok

SMP Negeri 3 Reok


SMP Immaculata

SMP Bina Kusuma

SMPk St. Fransiskus Xaverius

SMP St.Klaus

SMPk Tri Bhakti Reo

SMP Negeri 4 Ruteng Lengor

SMP Negeri 10 Satar Mese

SMP Negeri 8 Satar Mese

SMP Negeri 5 Langke Rembong



SMP Negeri 9 Ruteng

SMP Negeri Satap Mowol

4

SMP Negeri 2 Langke Rembong 14 Sekolah




SMP Darma Bhakti

SMP Widya Bakti

SMP Karya

SMP Bintang Timur

SMPk St. Petrus

SMP Widyarti Loce

SMP Sinar Ponggeok



SMP Negeri 7 Ruteng


111

Hal menarik yang dapat diamati penulis sebagai warga Kabupaten

Manggarai adalah bahwa klaster 1 didominasi oleh sekolah-sekolah yang berada

di desa, sementara sebagian besar sekolah-sekolah yang berada di kota berada di

klaster 3, yang mana capaian nilai rata-rata klasternya tidak lebih baik dari klaster

1. Jumlah sekolah di klaster 1 juga lebih banyak dibanding klaster lainnya.

Hal menarik lainnya beberapa sekolah yang berada di klaster ketiga adalah

beberapa sekolah di pusat kabupaten yang merupakan sekolah favorit menurut

persepsi masyarakat. Sekolah-sekolah tersebut adalah SMPN 1 Langke Rembong,

SMPK St.Fransiskus Xaverius, SMPK Immaculata, dan SMPK St.Klaus. Selain

keempat sekolah tersebut ada sekolah dalam kota yang juga masuk dalam klaster

yang sama di mana menurut persepsi masyarakat sekolah tersebut tidak begitu

bagus dari segi kualitas pendidikan yakni SMP Bina Kusuma.

Selain itu, penting bagi pemerintah Kabupaten memperhatikan secara khusus

sekolah-sekolah pada klaster keempat.


112

BAB V

KESIMPULAN, SARAN, DAN REFLEKSI

A. Kesimpulan

Dari hasil analisis pada bab IV, diperoleh beberapa kesimpulan sebagai

berikut :

1. Dengan menggunakan uji statistik diketahui bahwa secara nasional

terdapat perbedaan rata-rata antara tahun 2016 dengan tahun-tahun

lainnya untuk semua mata pelajaran. Capaian tertinggi secara nasional

dicapai pada tahun 2016. Pemberlakuan soal HOTS, pelaksanaan

UNBK, dan pelaksanaan USBN yang mengakibatkan UN tidak

menjadi alat utama penentu kelulusan pada tahun-tahun setelahnya

diprediksi turut berpengaruh terhadap capaian nilai rata-rata UN,

sehingga perlu dikaji lebih lanjut.

2. Jika melihat capaian setiap mata pelajaran maka perbedaan rata-rata

yang signifikan pada mata pelajaran Bahasa Indonesia dan Bahasa

Inggris terjadi antara tahun 2016 dengan tahun-tahun setelahnya. Pada

mata pelajaran Matematika terjadi antara tahun 2016 dan 2018, tahun

2017 dan dan 2018, tahun 2017 dan 2019 dan tahun 2018 dengan

2019. Sementara pada mata pelajaran IPA antara tahun 2016 dengan

tahun-tahun setelahnya, juga antara tahun 2017 dan 2018, dan 2017

dengan tahun 2019.


113

3. Perbedaan rata-rata juga terjadi di tiga zona waktu setiap tahunnya.

Terdapat perbedaan rata-rata yang signifikan antara tahun 2016 dan

2019 di zona waktu WIT, perbedaan rata-rata yang signifikan antara

tahun 2016 dan 2017, tahun 2016 dan 2018, tahun 2016 dan 2019, di

zona waktu WITA , dan perbedaan rata-rata yang signifikan antara

tahun 2016 dan 2017, tahun 2016 dan 2018, tahun 2016 dan 2019 di

zona waktu WIB.

4. Dengan menggunakan uji Kruskal Wallis, penulis melakukan uji

hipotesis pada tiga zona waktu. Berdasarkan nilai p-value, disimpulkan

tidak ada perbedaan rata-rata yang signifikan diantara ketiga zona

waktu tersebut. Banyak faktor yang dapat mempengaruhi hasil

tersebut, salah satu prediksinya adalah perbedaan tingkat kesulitan soal

di masing-masing wilayah.

5. Terdapat tujuh provinsi yang menunjukkan hasil capaian nilai rata-rata

berada di bawah capaian nilai rata-rata secara nasional yaitu provinsi

Aceh, Jambi, Sumatera Selatan, Kalimantan Barat,Lampung, NTB,

dan Banten, sehingga perlu perhatian khusus bagi provinsi-provinsi ini.

6. Hasil Analisis Komponen Utama menunjukkan nilai pada tahun 2016

dan 2019 nilai yang berpengaruh pada capaian nilai UN adalah Bahasa

Inggris dan IPA, sementara pada tahun 2017 dan 2018 nilai yang

berpengaruh pada capaian nilai UN adalah Matematika dan IPA.

7. Hasil analisis klaster menunjukkan selain ketujuh provinsi dengan

capaian nilai di bawah nilai rata-rata nasional selama empat tahun


114

terakhir untuk semua mata pelajaran, ternyata ada enam provinsi lain

yakni Sulawesi Tengah, Bengkulu, Bangka Belitung, Sulawesi Barat,

Gorontalo dan Kalimantan Utara yang masuk dalam klaster yang sama.

Setelah dicek kembali, ternyata pada mata pelajaran terterntu provinsi-

provinsi ini berada di bawah nilai rata-rata nasional. Artinya, nilai

sebenarnya tidak begitu berbeda jauh dengan ke depalan provinsi

tersebut. Hal ini dapat juga disebabkan rata-rata dari provinsi-provinsi

tersebut sebenarnya memiliki capaian nilai yang cukup dekat dengan

capaian kedelapan provinsi lainnya.

8. Proses klasterisasi pada provinsi NTT menghasilkan 3 klaster. Klaster

dengan capaian rata-rata rendah adalah klaster ketiga dengan anggota

Kabupaten Belu, Kabupaten Kupang, Kabupaten Sumba Barat, dan

Kabupaten Sumba Timur, sehingga perlu ada perhatian khusus bagi

kabupaten-kabupaten ini. Adapun kabupaten-kabupaten di pulau Flores

masuk dalam kelompok klaster dengan capaian nilai yang cukup baik.

9. Proses klasterisasi di Kabupaten Manggarai menghasilkan empat

klaster. Hal menarik yang dapat diamati penulis sebagai warga

Kabupaten Manggarai adalah bahwa klaster 1 didominasi oleh

sekolah-sekolah yang berada di desa, sementara sebagian besar

sekolah-sekolah yang berada di kota berada di klaster 3, yang mana

capaian nilai rata-rata klasternya tidak lebih baik dari klaster 1. Selain

itu beberapa sekolah yang berada di klaster ketiga adalah beberapa


115

sekolah di pusat kabupaten yang merupakan sekolah favorit menurut

persepsi masyarakat.

B. Saran

1. Penelitian ini dapat dikembangkan untuk jenjang SMA atau perguruan

tinggi.

2. Penelitian dapat berfokus pada mata pelajaran tertentu dengan jumlah

data yang lebih banyak. Bisa pada mata pelajaran Bahasa Inggris atau

IPA atau Matematika seturut hasil yang diperoleh pada analisis

komponen utama.

3. Penelitian ini dapat dikembangkan lebih lanjut dengan menambah

rentang waktu pelaksanaan Ujian Nasional

4. Untuk mengukur mutu pendidikan di Indonesia, perlu ditambah

variabel-variabel lain misalnya data kinerja guru, soal-soal yang biasa

dipakai di suatu wilayah, dan lain sebagainya.

5. Analisis nilai eigen pada pembahasan tentang komponen utama dapat

dibahas untuk penelitian lanjutan.


116

C. Refleksi

“...Dan bukan hanya itu saja, kita malah bermegah juga dalam kesengsaraan

kita. Karena kita tahu, bahwa kesengsaraan itu menimbulkan ketekunan, dan

ketekunan menimbulkan tahan uji, dan tahan uji menimbulkan pengharapan”

(Roma 5:3:4)

Bagi saya, berangkat ke sebuah tujuan kadang menjadi perjalanan penuh rasa sakit

dan kegembiraan, penuh pertanyaan dan penemuan, perjalanan dengan rasa lapar

dan kelegaan, dan porsi untuk semuanya itu harus dibayar dengan sebuah

kesungguhan.

Perjalanan menulis tesis ini dimulai pada semester satu. Saat itu saya putuskan

untuk dibimbing oleh Pak Hartono. Bukan tanpa alasan saya memilih beliau.

Setelah hampir satu semester belajar bersama, saya akhirnya dapat menemukan

cara belajar yang tepat untuk saya ikuti. Beliau membiarkan kami salah,

memberikan kami waktu bertanya, dan berekspolarasi lebih banyak. Saya

sungguh merasakan betapa sulitnya memahami sesuatu yang baru, namun

karenanya saya dibentuk untuk memandang sesuatu bukan hanya sebagai sesuatu,

tetapi juga memandang nilai penting apa yang ada di dalamnya.

Di semester dua dan tiga saya mengikuti dua kelas. Data Science Club di semester

dua bersama mahasiswa semester enam program studi matematika menggunakan

program R dan di semester tiga saya mengikuti kuliah pemrograman bersama

mahasiswa program studi matematika semester tiga menggunakan program

Python. Betapa beruntungnya saya karena beberapa teman di kelas tersebut


117

dengan sigap membantu jika saya memiliki kesulitan. Pengalaman belajar

bersama teman-teman program studi matematika membuat saya menyadari bahwa

umur bukan jaminan untuk tahu lebih banyak. Pengalaman belajar setiap orang

berbeda, dan yang tahu lebih banyak adalah mereka yang mencoba lebih banyak

pula. Seorang pembelajar adalah dia yang siap menerima tantangan dan kesulitan

baru, berani gagal, dan bangkit kembali untuk memperbaiki yang salah.

Covid-19 muncul ketika saya masuk semester keempat. Semangat saya menulis

tesis mulai hilang. Saya sempat meninggalkan pekerjaan menulis tesis selama dua

bulan dan lagi-lagi betapa beruntungnya saya karena menjadi tidak tenang. Saya

kembali menulis dan bertemu dosen pembimbing. “Kita pasti bisa

menyelesaikannya. Kuncinya bersabar”, demikian kalimat yang Pak Har

sampaikan. Beliau masih sama : percaya pada murid-muridnya saat mereka

sendiri penuh keragu-raguan. Selama proses pengerjaan materi tesis di semester

empat ini, beberapa kali kami mencoba mendalami beberapa hal. Pengerjaan

hipotesis yang belum sampai ke tujuan, sampai penggunaan sebuah metode baru

yang harus saya pelajari di detik-detik terakhir. Saat itu saya akui, saya lebih

sering mengeluh dan cepat lelah.

Di akhir bulan agustus kesabaran saya diuji kembali. Di detik-detik terakhir

penyelesaian tesis, saya jatuh sakit dan mau tidak mau saya harus dirawat di

rumah sakit. Banyak hal yang jadi beban saya saaat itu; tesis yang belum beres,

biaya rumah sakit, dan kapan saya akan sembuh. Untungnya pikiran-pikiran

tersebut dapat ditepis lebih cepat. Saya fokus pada kesembuhan dan setelah

sembuh saya mulai berkutat lagi dengan penyelesaian tesis saya. Di tengah


118

kesulitan-kesulitan yang saya alami, orang tua, para sahabat, dan juga dosen

pembimbing datang memberi dukungan dengan caranya sendiri. Mereka adalah

berkat!

Setiap menulis, saya diberi pengharapan baru. Pengharapan membuat saya tidak

menyerah dan sikap tersebut membuat saya menjadi lebih gembira. Mengeluh

atau menangis tentu boleh, tetapi mengerjakan tesis ini dengan penuh

kegembiraan dan tanggung jawab adalah cara untuk membayar semua

kepercayaan yang telah saya peroleh. Puas itu melelahkan.

Pada akhirnya saya sadar tidak ada tantangan yang tidak dapat kita hadapi selama

kita mau bertekun dan berpengharapan.


119

DAFTAR PUSTAKA

Suharsimi, Arikunto. 2002. Prosedur Penelitian: suatu pendekatan praktek. Jakarta

: Rineka Cipta.

Suharsimi, Arikunto. 2018. Prosedur Penelitian: suatu pendekatan praktek. Jakarta

: Rineka Cipta.

S. Tom and Ian Davidson. 2002. Visual Data Mining. Jhon Willey and Sons

Kuswandi, 2004. Cara mengukur Kepuasan Karyawan. Elex Media, Jakarta

Mulyana S, Edi Winarko. Teknik Visulalisasi dalam Data Mining. Seminar

Nasional Informatika. Mei 2009. UPN Veteran Yogyakarta.

Analisis Data Kategorik. 2010. Modul. Departemen Statistika-FMIPA IPB.

Juni Miniarti . 2013. “Pengelompokan Sekolah Menengah Pertama Berdasarkan

Rata-Rata Nilai Ujian Akhir Nasional Di Kota Binjai dengan Analisis

Hierrarkhi Clustering”. Skripsi.

Pareira D.G, A. Alfonso, and F.M. Medeiros. Overview of Friedman’s Test and

Post-Hoc Analysis. Communication in Statistics-Simulation and

Computation. November, 2015.

Ig. Aris Dwiatmoko, Paulina H. Prima Rosa dan Ridowati Gunawan. Analisis

Statistis Data Nilai Ujian Nasional Dan Nilai Sekolah Menengah Atas di

Daerah Istimewa Yogyakarta. Jurnal Widya Teknik Volume 14 (2). 2015.


120

G. Ian, Y. Bengio, and A.Courville. 2016. Deep Learning. The MIT Press,

London.

Sano A.V.D, H. Nindito. Application of K-Means Algorithm for Cluster Analysis

on Proverty of Provinces in Indonesia. Com Tech Vol 7 No 2. Hal (141-150).

Juni 2016.

Keyser J. 2016. How to Program Computer Scinnce Concepts and Python

Exercises Course Guide Book. USA.

Halswanter T. 2016. An Introduction to Statistics with Python. Springer, USA.

James G, D.Witten, T.Hestie, and R.Tibshirani. 2017. An Introduction to

Statistical Learning with Application in R. Springer, USA.

Liu M, Yueh-Min Huang. The Use of Data Science for Education : The Case of

Social Emotional Learning. Smart Leraning Enviroments.Volume 4 No 1.

2017.

Gries P., J. Campbell, J.Montojo. 2017. Practical Programming : An Introduction

to Computer Science using Python 3.6-3rd Edition. The Pragmatic Bookself :

USA

V. Jan and K. D. Witte. Data Analytic Applications in Education. 2018. CRC

Press, London

Kadir. 2018.Statitika Terapan : Konsep, contoh, dan Analisis Data. Jakarta :

Rajawali Press.


121

Stevencua , Jhon Setiawan . Data Visualization of Proverty Level at Provinces in

Indonesian from The Year 2013-2015. International Journal of New Media

Technology (JNMT). Vol V No1, Juni 2018.

Ahmar A.S,D.Napitulu, R.Rahim, R.Hidayat, Y.Sonata, M.Azmi. Using K-Means

Clustering to Cluster Provinces in Indonesia. 2nd International Conference

on Statistics, Mathematics, Teaching, and Research. IOP Conferencee Series

1028 (2018).

Pradana C.C.B. 2019. Pengelompokkan Data Evaluasi Pembelajaran

Menggunakan Algoritma K-Means++ Clustering. Skripsi : Universitas

Sanata Dharma.

M.Eric. 2019. Python Crush Course 2nd Edition. San Fransisco.

Watt J, Borhani R, K K Aggelos. 2020. Machine Learning Refined : Foundation,

Algorithms, and Application. Cambridge University Press, USA

Sari N. Devita. 2020. Analisis Komponen Utama untuk Menentukan Faktor-

Faktor yang Mempengaruhi Pemilihan Transportasi Online. Skripsi :

Universitas Sanata Dharma

V. Anton, T. Albrecht. Unsupervised Classification of Single-Molecule Data with

Autoencoders and Transfer Learning. Machine Learning Science and

Technology. IOP Publishing. Volume 1 (2020)

Rao C.R, E.J Wegman, and J.L.Solka. Data Mining and Data Visualization.


122

coursera-statistics-making-sense-of-data (video pembelajaran)

Data Processing Using Python (video pembelajaran)

Applied Data Science with Python Specialization (video pembelajaran)

Unsupervised Machine Learning Project with R (video pembelajaran)

https://www.coursera.org/courses?query=free (video pembelajaran)

https://sdm.data.kemdikbud.go.id/upload/files/15Arus%20Siswa%20Revisi.pdf

(diakses pada Mei 2020)

Data Science dan Prospeknya di Era Digital-Medium.com (diakses Juni 2020)

https://www.datacamp.com/community/tutorials/k-means-clustering-python.

(diakses pada Juli 2020)

https://medium.com/@gifadelyaninursyafitri/k-means-clustering-menggunakan-

python-deeb0881333c (diakses pada Juli 2020)

https://scikit-learn.org/stable/modules/manifold.html (diakses pada Juli 2020)

https://pythonspot.com/matplotlib-scatterplot/ (diakses pada Juli 2020)

https://rstudiopubsstatic.s3.amazonaws.com/634784_ce55ab9fd5c945049153dac5

dcfe6b0b.html#normalisasi-data (diakses pada Juli 2020)

https://www.geeksforgeeks.org/elbow-method-for-optimal-value-of-k-in-kmeans/

(diakses pada Agustus 2020)

https://www.guru99.com/scipy-tutorial.html


https://www.coursera.org/courses?query=free

https://sdm.data.kemdikbud.go.id/upload/files/15Arus%20Siswa%20Revisi.pdf

https://www.datacamp.com/community/tutorials/k-means-clustering-python

https://medium.com/@gifadelyaninursyafitri/k-means-clustering-menggunakan-python-deeb0881333c

https://medium.com/@gifadelyaninursyafitri/k-means-clustering-menggunakan-python-deeb0881333c

https://scikit-learn.org/stable/modules/manifold.html

https://pythonspot.com/matplotlib-scatterplot/

https://rstudiopubsstatic.s3.amazonaws.com/634784_ce55ab9fd5c945049153dac5dcfe6b0b.html#normalisasi-data

https://rstudiopubsstatic.s3.amazonaws.com/634784_ce55ab9fd5c945049153dac5dcfe6b0b.html#normalisasi-data

https://www.geeksforgeeks.org/elbow-method-for-optimal-value-of-k-in-kmeans/

https://www.guru99.com/scipy-tutorial.html

123

LAMPIRAN A: PROGRAM UNTUK CAPAIAN NILAI SECARA NASIONAL

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\etak.xlsx") data2=data1.parse("Sheet60") print(data2) plt.boxplot([data2.nilai_un]) plt.title('Box Plot Capaian Nilai Rata-Rata Nasional') plt.show()

Program untuk mennampilkan boxplot nilai rata-rata nasional 2016-2019

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt from matplotlib.pyplot import legend data1=pd.ExcelFile("D:\Thonny\etak.xlsx") data3=data1.parse("Sheet61") data4=data1.parse("Sheet62") data5=data1.parse("Sheet63") data6=data1.parse("Sheet64") plt.boxplot([data3.bindo,data4.bing,data5.matek,data6.ipa]) data3.describe() data4.describe() data5.describe() data6.describe() print(data3.describe()) print(data4.describe()) print(data5.describe()) print(data6.describe()) plt.legend(["1=Bahasa Indonesia","2=Bahasa Inggris","3=Matematika","4=IPA"]) plt.title('Box Plot Capaian Nilai Rata-Rata Nasional Mata Pelajaran') plt.show()

Program untuk menampilkan boxplot nilai rata-rata nasional mata pelajaran 2016-2019


124

LAMPIRAN B: PROGRAM UNTUK CAPAIAN NILAI RATA-RATA PROVINSI

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\margaretha.xlsx") data2=data1.parse("Sheet1") print(data2) plt.label=['tahun 2016','tahun 2017','tahun 2018','tahun 2019'] plt.boxplot([data2.tahun_2016,data2.tahun_2017,data2.tahun_2018,data2.tahun_2019]) data2.describe() print(data2.describe()) plt.title('Box Plot Capaian Nilai Rata-Rata Nasional 2016-2019') plt.legend(["1=tahun 2016","2=tahun 2017","3=tahun 2018","4=tahun 2019"]) plt.show()

Program untuk menampilkan boxplot capaian nilai rata-rata provinsi selama empat tahun

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\etak.xlsx") data2=data1.parse("Sheet17") print(data2) bins=[0,10,20,30,40,50,60,70,80,90,100] plt.hist(data2.tahun_2016,bins=7) #plt.hist(data2.tahun_2017,bins=7) #plt.hist(data2.tahun_2018,bins=9) #plt.hist(data2.tahun_2019) _=plt.xlabel("Nilai Rata-Rata 2016") #_=plt.xlabel("Nilai Rata-Rata 2017") #_=plt.xlabel("Nilai Rata-Rata 2018") #_=plt.xlabel("Nilai Rata-Rata 2019") _=plt.ylabel("Frekuensi") plt.title('Histogram Capaian Nilai 2016') #plt.title('Histogram Capaian Nilai 2017') #plt.title('Histogram Capaian Nilai 2018') #plt.title('Histogram Capaian Nilai 2019') plt.show()

Histogram capaian nilai rata-rata provinsi


125

LAMPIRAN C: PROGRAM UNTUK CAPAIAN NILAI RATA-RATA PROVINSI PER MATA PELAJARAN

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\margaretha.xlsx") data2=data1.parse("Sheet5") print(data2) plt.label=['tahun 2016','tahun 2017','tahun 2018','tahun 2019'] plt.boxplot([data2.bindo_2016,data2.bindo_2017,data2.bindo_2018,data2.bindo_2019]) data2.describe() print (data2.describe()) plt.legend(["1=tahun 2016","2=tahun 2017","3=tahun 2018","4=tahun 2019"]) plt.title('Box Plot Capaian Nilai Rata-Rata Provinsi Mapel Bahasa Indonesia 2016-2019') plt.show()

Boxplot mapel Bindo

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\margaretha.xlsx") data2=data1.parse("Sheet5") print(data2) bins=[0,10,20,30,40,50,60,70,80,90,100] plt.hist(data2.bindo_2016,bins=7) #plt.hist(data2.bindo_2017,bins=10) #plt.hist(data2.bindo_2018,bins=8) #plt.hist(data2.bindo_2019,bins=7) _=plt.xlabel("Bahasa Indonesia 2016") #_=plt.xlabel("Bahasa Indonesia 2017") #_=plt.xlabel("Bahasa Indonesia 2018") #_=plt.xlabel("Bahasa Indonesia 2019") _=plt.ylabel("Frekuensi") plt.title('Histogram Capaian Bahasa Indonesia 2016') #plt.title('Histogram Capaian Bahasa Indonesia 2017') #plt.title('Histogram Capaian Bahasa Indonesia 2018') #plt.title('Histogram Capaian Bahasa Indonesia 2019') plt.show()

Histogram Bahasa Indonesia

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\margaretha.xlsx") data2=data1.parse("Sheet6") print(data2) plt.boxplot([data2.bing_2016,data2.bing_2017,data2.bing_2018,data2.bing_2019]) data2.describe() print(data2.describe()) plt.xlabel=('tahun 2016','tahun 2017','tahun 2018','tahun 2019') plt.legend(["1=tahun 2016","2=tahun 2017","3=tahun 2018","4=tahun 2019"])

Boxplot mapel Bing


126

plt.title('Box Plot Capaian Nilai Rata-Rata Provinsi Mapel Bahasa Inggris 2016-2019') plt.show()

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\margaretha.xlsx") data2=data1.parse("Sheet6") print(data2) bins=[0,10,20,30,40,50,60,70,80,90,100] plt.hist(data2.bing_2016,bins=7) #plt.hist(data2.bing_2017,bins=7) #plt.hist(data2.bing_2018,bins=7) #plt.hist(data2.bing_2019,bins=7) _=plt.xlabel("Bahasa Inggris 2016") #_=plt.xlabel("Bahasa Inggris 2017") #_=plt.xlabel("Bahasa Inggris 2018") #_=plt.xlabel("Bahasa Inggris 2019") _=plt.ylabel("Frekuensi") plt.title('Histogram Capaian Bahasa Inggris 2016') #plt.title('Histogram Capaian Bahasa Inggris 2017') #plt.title('Histogram Capaian Bahasa Inggris 2018') #plt.title('Histogram Capaian Bahasa Inggris 2019') plt.show()

Histogram Bahasa Inggris

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\margaretha.xlsx") data2=data1.parse("Sheet7") print(data2) plt.label=['tahun 2016','tahun 2017','tahun 2018','tahun 2019'] plt.boxplot([data2.matek_2016,data2.matek_2017,data2.matek_2018,data2.matek_2019]) data2.describe() print(data2.describe()) plt.legend(["1=tahun 2016","2=tahun 2017","3=tahun 2018","4=tahun 2019"]) plt.title('Box Plot Capaian Nilai Rata-Rata Provinsi Mapel Matematika 2016-2019') plt.show()

Boxplot mapel Matematika

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\margaretha.xlsx") data2=data1.parse("Sheet7") print(data2) bins=[0,10,20,30,40,50,60,70,80,90,100] plt.hist(data2.matek_2016,bins=7) #plt.hist(data2.matek_2017,bins=7) #plt.hist(data2.matek_2018,bins=8) #plt.hist(data2.matek_2019,bins=7) _=plt.xlabel("Matematika 2016") #_=plt.xlabel("Matematika 2017")

Histogram Matematika


127

#_=plt.xlabel("Matematika 2018") #_=plt.xlabel("Matematika 2019") _=plt.ylabel("Frekuensi") plt.title('Histogram Capaian Matematika 2016') #plt.title('Histogram Capaian Matematika 2017') #plt.title('Histogram Capaian Matematika 2018') #plt.title('Histogram Capaian Matematika 2019') plt.show()

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\margaretha.xlsx") data2=data1.parse("Sheet8") print(data2) plt.label=['tahun 2016','tahun 2017','tahun 2018','tahun 2019'] plt.boxplot([data2.ipa_2016,data2.ipa_2017,data2.ipa_2018,data2.ipa_2019]) data2.describe() print(data2.describe()) plt.legend(["1=tahun 2016","2=tahun 2017","3=tahun 2018","4=tahun 2019"]) plt.title('Box Plot Capaian NilaiRata-Rata Provinsi Mapel IPA 2016-2019') plt.show()

Boxplot mapel IPA

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\margaretha.xlsx") data2=data1.parse("Sheet8") print(data2) bins=[0,10,20,30,40,50,60,70,80,90,100] plt.hist(data2.ipa_2016,bins=7) #plt.hist(data2.ipa_2017,bins=7) #plt.hist(data2.ipa_2018,bins=6) #plt.hist(data2.ipa_2019,bins=8) _=plt.xlabel("IPA 2016") #_=plt.xlabel("IPA 2017") #_=plt.xlabel("IPA 2018") #_=plt.xlabel("IPA 2019") _=plt.ylabel("Frekuensi") plt.title('Histogram Capaian IPA 2019') #plt.title('Histogram Capaian IPA 2017') #plt.title('Histogram Capaian IPA 2018') #plt.title('Histogram Capaian IPA 2019') plt.show()

Histogram IPA


128

LAMPIRAN D: PROGRAM UNTUK CAPAIAN NILAI RATA-RATA PER ZONA WAKTU

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\margaretha.xlsx") data2=data1.parse("Sheet2") print(data2) plt.label=['tahun 2016','tahun 2017','tahun 2018','tahun 2019'] plt.boxplot([data2.tahun_2016,data2.tahun_2017,data2.tahun_2018,data2.tahun_2019]) data2.describe() print (data2.describe()) plt.legend(["1=tahun 2016","2=tahun 2017","3=tahun 2018","4=tahun 2019"]) plt.title('Box Plot Capaian Nilai Rata-Rata Nasional WIT 2016-2019') plt.show()

Boxplot WIT

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\margaretha.xlsx") data2=data1.parse("Sheet3") print(data2) plt.label=['tahun 2016','tahun 2017','tahun 2018','tahun 2019'] plt.boxplot([data2.tahun_2016,data2.tahun_2017,data2.tahun_2018,data2.tahun_2019]) data2.describe() print(data2.describe()) plt.legend(["1=tahun 2016","2=tahun 2017","3=tahun 2018","4=tahun 2019"]) plt.title('Box Plot Capaian Nilai Rata-Rata Nasional WITA 2016-2019') plt.show()

Boxplot WITA

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\margaretha.xlsx") data2=data1.parse("Sheet4") print(data2) plt.label=['tahun 2016','tahun 2017','tahun 2018','tahun 2019'] plt.boxplot([data2.tahun_2016,data2.tahun_2017,data2.tahun_2018,data2.tahun_2019]) data2.describe() print(data2.describe()) plt.legend(["1=tahun 2016","2=tahun 2017","3=tahun 2018","4=tahun 2019"]) plt.title('Box Plot Capaian Nilai Rata-Rata Nasional WIB 2016-2019') plt.show()

Boxplot WIB


129

LAMPIRAN E: PROGRAM UNTUK CAPAIAN NILAI RATA-RATA ANTAR ZONA WAKTU

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt data1=pd.ExcelFile("D:\Thonny\marto.xlsx") data2=data1.parse("Sheet6") data3=data1.parse("Sheet7") data4=data1.parse("Sheet8") ax=plt.gca() ax.set_ylim([40,68]) ax.set_xlim([0,4]) plt.boxplot([data2.wit_2016,data3.wita_2016,data4.wib_2016]) #plt.boxplot([data2.wit_2017,data3.wita_2017,data4.wib_2017]) #plt.boxplot([data2.wit_2018,data3.wita_2018,data4.wib_2018]) #plt.boxplot([data2.wit_2019,data3.wita_2019,data4.wib_2019]) plt.legend(["1=WIT","2=WITA","3=WIB"]) plt.title('Box Plot Perbandingan Nilai Per Satuan Waktu 2016') data2.describe() data3.describe() data4.describe() print(data2.describe()) print(data3.describe()) print(data4.describe()) plt.show()

Boxplot zona waktu


130

LAMPIRAN F: HASIL LISTING PROGRAM UNTUK PCA (PERANGAKAT LUNAK R)

>data<-read.csv(file.choose(),header=T,sep=",") >data y1 y2 y3 y4 1 76.49 61.65 48.19 57.90 2 71.37 61.89 56.90 58.04 3 74.88 50.56 43.79 53.73 4 79.86 58.53 55.71 61.71 5 73.55 61.50 52.90 61.10 6 64.46 56.71 49.46 51.62 7 71.69 66.96 61.38 65.48 8 72.03 50.00 41.95 51.37 9 73.03 62.15 54.14 57.80 10 68.02 54.55 45.81 51.33 11 66.88 51.00 44.17 50.26 12 70.30 52.90 44.51 52.33 13 70.34 50.40 43.19 47.31 14 70.78 57.16 52.51 55.83 15 70.21 57.96 47.83 59.51 16 70.49 55.62 52.57 57.07 17 66.41 60.00 57.93 60.74 18 63.64 53.76 49.46 56.29 19 66.87 57.48 54.06 59.04 20 65.50 54.47 51.18 56.98 21 66.78 59.68 53.68 57.66 22 68.89 54.22 46.55 58.11 23 61.64 54.73 47.62 49.95 24 63.37 50.03 42.51 52.04 25 62.93 54.43 48.98 53.05 26 67.95 44.30 35.51 46.18 27 65.61 62.71 57.81 59.27 28 73.03 46.90 37.20 47.93 29 64.34 53.49 49.21 55.38 30 65.30 49.25 38.86 45.67 31 73.97 55.56 43.12 51.57 32 60.29 46.59 40.62 49.31 33 69.55 63.69 61.46 63.12 34 66.57 47.59 38.05 47.91 >attach(data) > data[]=lapply(data,function(x) if(is.numeric(x)){scale(x,center=TRUE,scale=TRUE)}else x) >eigen(cov(data)) eigen() decomposition $values [1] 2.90585095 0.91390082 0.12582050 0.05442774 $vectors [,1] [,2] [,3] [,4] [1,] -0.2332135 0.95895776 -0.04032885 -0.1561572 [2,] -0.5647950 -0.08281114 -0.64924283 0.5026258 [3,] -0.5568060 -0.26640223 -0.08699446 -0.7819392 [4,] -0.5626590 -0.05071671 0.75451262 0.3339960 >data_pca=prcomp(data,center=TRUE,scale=TRUE) >data_pca Standard deviations (1, .., p=4): [1] 1.7046557 0.9559816 0.3547119 0.2332975


131

Rotation (n x k) = (4 x 4): PC1 PC2 PC3 PC4 y1 -0.2332135 -0.95895776 0.04032885 0.1561572 y2 -0.5647950 0.08281114 0.64924283 -0.5026258 y3 -0.5568060 0.26640223 0.08699446 0.7819392 y4 -0.5626590 0.05071671 -0.75451262 -0.3339960 >install.packages('psych') --- Please select a CRAN mirror for use in this session --- Warning: failed to download mirrors file (cannot open URL 'https://cran.r-project.org/CRAN_mirrors.csv'); using local file 'C:/PROGRA~1/R/R-36~1.0/doc/CRAN_mirrors.csv' Warning: unable to access index for repository https://repo.bppt.go.id/cran/src/contrib: cannot open URL 'https://repo.bppt.go.id/cran/src/contrib/PACKAGES' Warning: unable to access index for repository https://repo.bppt.go.id/cran/bin/windows/contrib/3.6: cannot open URL 'https://repo.bppt.go.id/cran/bin/windows/contrib/3.6/PACKAGES' Warning messages: 1: In download.file(url, destfile = f, quiet = TRUE) : InternetOpenUrl failed: 'The server name or address could not be resolved' 2: package ‘psych’ is not available (for R version 3.6.0) >library(psych) Warning message: package ‘psych’ was built under R version 3.6.2 > fit <- principal(data, nfactors=1, rotate="varimax") > fit Principal Components Analysis Call: principal(r = data, nfactors = 1, rotate = "varimax") Standardized loadings (pattern matrix) based upon correlation matrix PC1 h2 u2 com y1 0.40 0.16 0.842 1 y2 0.96 0.93 0.073 1 y3 0.95 0.90 0.099 1 y4 0.96 0.92 0.080 1 PC1 SS loadings 2.91 Proportion Var 0.73 Mean item complexity = 1 Test of the hypothesis that 1 component is sufficient. The root mean square of the residuals (RMSR) is 0.1 with the empirical chi square 4.2 with prob< 0.12 Fit based upon off diagonal values = 0.98> >data<-read.csv(file.choose(),header=T,sep=",") >data y1 y2 y3 y4 1 71.69 51.86 51.47 53.63 2 63.71 58.03 56.90 56.79 3 69.62 45.05 48.65 52.92 4 77.35 51.06 59.32 60.70 5 66.60 49.78 49.60 53.14 6 55.12 45.28 45.27 46.18 7 62.94 54.12 56.45 57.47 8 65.36 43.66 46.84 49.60 9 64.19 48.61 51.38 51.55 10 58.40 44.95 43.20 47.63 11 57.47 46.24 45.18 45.88 12 61.35 46.00 46.91 49.25


132

13 61.23 41.68 44.78 46.16 14 64.75 50.41 52.82 52.49 15 67.77 48.81 45.67 49.02 16 68.14 47.86 42.80 46.71 17 61.53 56.09 56.30 54.13 18 61.14 50.39 47.87 48.93 19 63.41 51.62 51.65 52.16 20 63.45 52.76 52.78 53.54 21 61.19 58.17 55.38 51.29 22 67.54 50.41 43.63 50.45 23 59.20 48.19 46.02 48.59 24 61.21 49.63 47.88 48.48 25 57.48 50.91 48.12 47.40 26 60.07 41.26 41.32 44.85 27 58.12 57.00 53.56 50.11 28 66.93 42.99 42.97 47.64 29 61.12 48.67 48.24 50.30 30 58.76 44.27 42.16 44.50 31 66.93 49.20 47.34 49.48 32 56.91 44.48 42.28 44.97 33 64.02 58.08 58.41 54.99 34 64.90 45.64 40.69 45.36 >attach(data) The following objects are masked from data (pos = 4): y1, y2, y3, y4 >data=read.csv(file.choose(),header=T) Error in file.choose() : file choice cancelled > data[]=lapply(data,function(x) if(is.numeric(x)){scale(x,center=TRUE,scale=TRUE)}else x) >eigen(cov(data)) eigen() decomposition $values [1] 2.80002588 0.96637104 0.19316564 0.04043744 $vectors [,1] [,2] [,3] [,4] [1,] -0.3070382 0.8569975 -0.3560571 0.2109649 [2,] -0.5025958 -0.4433962 -0.7257534 -0.1551747 [3,] -0.5690559 -0.2181653 0.3784050 0.6966987 [4,] -0.5738470 0.1461475 0.4509046 -0.6678515 >data_pca=prcomp(data,center=TRUE,scale=TRUE) >>data_pca Error: unexpected '>' in ">" >data_pca Standard deviations (1, .., p=4): [1] 1.6733278 0.9830417 0.4395061 0.2010906 Rotation (n x k) = (4 x 4): PC1 PC2 PC3 PC4 y1 -0.3070382 -0.8569975 -0.3560571 -0.2109649 y2 -0.5025958 0.4433962 -0.7257534 0.1551747 y3 -0.5690559 0.2181653 0.3784050 -0.6966987 y4 -0.5738470 -0.1461475 0.4509046 0.6678515 > fit <- principal(data, nfactors=1, rotate="varimax") > fit Principal Components Analysis


133

Call: principal(r = data, nfactors = 1, rotate = "varimax") Standardized loadings (pattern matrix) based upon correlation matrix PC1 h2 u2 com y1 0.51 0.26 0.736 1 y2 0.84 0.71 0.293 1 y3 0.95 0.91 0.093 1 y4 0.96 0.92 0.078 1 PC1 SS loadings 2.8 Proportion Var 0.7 Mean item complexity = 1 Test of the hypothesis that 1 component is sufficient. The root mean square of the residuals (RMSR) is 0.17 with the empirical chi square 11.24 with prob< 0.0036 Fit based upon off diagonal values = 0.93> >data=read.csv(file.choose(),header=T) > >data=read.csv(file.choose(),header=T) >data y1 y2 y3 y4 1 71.91 58.23 49.15 52.63 2 64.54 51.27 46.07 49.81 3 70.37 50.60 45.63 50.59 4 76.60 58.07 57.19 57.98 5 67.04 50.16 44.50 49.14 6 54.79 41.03 35.16 40.27 7 56.76 49.14 42.37 44.63 8 68.21 49.29 44.10 48.03 9 58.78 48.64 43.38 43.07 10 60.61 45.20 38.71 42.81 11 59.20 44.74 38.62 41.90 12 62.56 44.58 37.31 43.03 13 62.36 44.74 36.86 42.12 14 65.09 50.54 45.48 47.48 15 65.47 48.65 41.00 47.22 16 66.87 51.16 41.85 47.38 17 57.11 49.11 41.44 45.05 18 58.39 45.85 39.38 44.97 19 59.12 47.60 41.49 46.01 20 61.99 50.26 45.19 49.16 21 62.21 58.18 51.53 50.77 22 67.76 53.82 41.62 50.21 23 56.16 42.95 36.32 42.14 24 61.80 51.63 43.47 47.72 25 59.27 52.46 46.91 48.65 26 62.13 43.67 35.88 41.94 27 60.16 57.80 49.86 48.58 28 67.88 47.67 40.95 46.99 29 56.81 44.91 38.24 44.05 30 59.74 46.47 37.47 41.98 31 69.98 54.07 43.86 47.24 32 56.11 43.12 37.37 42.69 33 61.29 52.53 48.13 49.37 34 64.78 47.19 39.48 45.69


134

>attach(data) The following objects are masked from data (pos = 3): y1, y2, y3, y4 The following objects are masked from data (pos = 5): y1, y2, y3, y4 > data[]=lapply(data,function(x) if(is.numeric(x)){scale(x,center=TRUE,scale=TRUE)}else x) >eigen(cov(data)) eigen() decomposition $values [1] 3.32822563 0.51812326 0.10365996 0.04999115 $vectors [,1] [,2] [,3] [,4] [1,] -0.4300257 0.85538110 -0.1537894 -0.2444378 [2,] -0.5146113 -0.33010198 -0.7580451 0.2271024 [3,] -0.5151896 -0.39894199 0.3170072 -0.6891527 [4,] -0.5336972 0.01418239 0.5488378 0.6432288 > fit <- principal(data, nfactors=1, rotate="varimax") > fit Principal Components Analysis Call: principal(r = data, nfactors = 1, rotate = "varimax") Standardized loadings (pattern matrix) based upon correlation matrix PC1 h2 u2 com y1 0.78 0.62 0.385 1 y2 0.94 0.88 0.119 1 y3 0.94 0.88 0.117 1 y4 0.97 0.95 0.052 1 PC1 SS loadings 3.33 Proportion Var 0.83 Mean item complexity = 1 Test of the hypothesis that 1 component is sufficient. The root mean square of the residuals (RMSR) is 0.09 with the empirical chi square 3.52 with prob< 0.17 Fit based upon off diagonal values = 0.99> >data=read.csv(file.choose(),header=T) >data y1 y2 y3 y4 1 72.88 60.98 53.26 55.71 2 64.24 50.64 46.14 47.74 3 70.85 50.83 49.28 52.54 4 78.15 58.73 60.22 61.16 5 67.25 51.15 48.03 50.89 6 54.57 43.12 38.79 40.95 7 59.17 47.12 43.60 44.87 8 68.83 47.85 46.76 49.31 9 65.16 48.45 46.06 47.67 10 60.12 45.14 41.26 43.45 11 58.12 43.86 40.34 41.85


135

12 62.00 44.39 40.03 42.88 13 62.32 45.05 40.52 42.78 14 63.65 48.51 45.04 46.29 15 66.59 48.85 42.05 47.08 16 68.82 51.32 44.12 47.92 17 57.71 47.46 40.84 43.72 18 60.33 44.48 41.12 43.71 19 59.97 46.33 42.47 45.26 20 61.80 45.75 44.47 45.65 21 60.30 51.69 50.47 48.98 22 69.42 52.19 43.87 49.03 23 56.87 43.26 38.76 41.79 24 64.75 45.90 46.29 45.78 25 58.76 48.46 46.23 47.63 26 62.61 43.81 39.74 42.78 27 58.49 52.60 49.15 50.07 28 67.89 48.33 44.34 47.90 29 56.04 44.69 40.74 43.51 30 60.29 48.10 41.91 43.98 31 70.19 54.25 47.50 50.18 32 55.40 42.09 39.68 40.45 33 61.11 49.51 48.28 48.96 34 64.45 47.55 42.40 45.04 >attach(data) The following objects are masked from data (pos = 3): y1, y2, y3, y4 The following objects are masked from data (pos = 4): y1, y2, y3, y4 The following objects are masked from data (pos = 6): y1, y2, y3, y4 > data[]=lapply(data,function(x) if(is.numeric(x)){scale(x,center=TRUE,scale=TRUE)}else x) >eigen(cov(data)) eigen() decomposition $values [1] 3.53054718 0.32439639 0.12677534 0.01828109 $vectors [,1] [,2] [,3] [,4] [1,] -0.4641254 0.8545390 0.1213037 -0.1990880 [2,] -0.5051840 -0.1972462 -0.8227453 -0.1702156 [3,] -0.5021493 -0.4651447 0.5245839 -0.5062590 [4,] -0.5265196 -0.1204051 0.1821739 0.8216401 > fit <- principal(data, nfactors=1, rotate="varimax") > fit Principal Components Analysis Call: principal(r = data, nfactors = 1, rotate = "varimax") Standardized loadings (pattern matrix) based upon correlation matrix PC1 h2 u2 com y1 0.87 0.76 0.239 1 y2 0.95 0.90 0.099 1 y3 0.94 0.89 0.110 1


136

y4 0.99 0.98 0.021 1 PC1 SS loadings 3.53 Proportion Var 0.88 Mean item complexity = 1 Test of the hypothesis that 1 component is sufficient. The root mean square of the residuals (RMSR) is 0.06 with the empirical chi square 1.43 with prob< 0.49 Fit based upon off diagonal values = 1>


137

LAMPIRAN G : PROGRAM K MEANS

import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns import matplotlib.pyplot as plt from kneed import KneeLocator from sklearn.cluster import KMeans from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import LabelEncoder data1=pd.ExcelFile("D:\Thonny\marto.xlsx") data2=data1.parse("Sheet28") #print(data2) #plt.scatter([data2.bindo],[data2.bing], [data2.matek],[data2.ipa]) #plt.show() x_array=np.array(data2) print(x_array) scaler=MinMaxScaler() x_scaled=scaler.fit_transform(x_array) print(x_scaled) kmeans=KMeans(n_clusters=4, random_state=123) kmeans.fit(x_scaled) print(kmeans.cluster_centers_) print(kmeans.labels_) data2["kluster"]=kmeans.labels_ print(data2) fig,ax=plt.subplots() sct = ax.scatter(x_scaled[:,1], x_scaled[:,0], s = 100,c = data2.kluster, marker = "o", alpha = 0.5) centers = kmeans.cluster_centers_ ax.scatter(centers[:,1], centers[:,0], c='blue', s=200, alpha=0.5) plt.title("Hasil Klustering K-Means") #plt.show() #continuous_features=['bindo','bing','matek','ipa'] #data2[continuous_features].describe() #print(data2[continuous_features].describe()) #nms=MinMaxScaler() #nms.fit(data2) #data2_transformed=nms.transform(data2) #Sum_of_squared_distances=[] #K=range(1,15) #for k in K: # km=KMeans(n_clusters=k) # km=km.fit(data2_transformed) # Sum_of_squared_distances.append(km.inertia_) #plt.plot(K,Sum_of_squared_distances,"bx-") #plt.plot(range (1,15),Sum_of_squared_distances) #plt.xlabel("k") #plt.ylabel("Sum_of_squared_distances") #plt.title("Elbow Method For Optimal k") #kl=KneeLocator( # range(1,15),Sum_of_squared_distances, curve="convex", direction="decreasing" # ) #kl.elbow #print(kl.elbow) #plt.show()

Dengan cara yang sama program dipakai untuk klaster kabupaten dan sekolah


138

LAMPIRAN H: PROGRAM UJI STATISTIK

import numpy as np import pandas as pd from scipy.stats import friedmanchisquare data1=pd.ExcelFile("D:\Thonny\etak.xlsx") #data2=data1.parse("Sheet32") #data2=data1.parse("Sheet33") #data2=data1.parse("Sheet34") #data2=data1.parse("Sheet35") #data2=data1.parse("Sheet36") data3=data1.parse("Sheet26") print(data3) #data2=data1.parse("Sheet27") #data3=data1.parse("Sheet28") #stat,p=friedmanchisquare(data2.bindo_2016,data2.bindo_2017,data2.bindo_2018,data2.bindo_2019) #stat,p=friedmanchisquare(data2.bing_2016,data2.bing_2017,data2.bing_2018,data2.bing_2019) #stat,p=friedmanchisquare(data2.matek_2016,data2.matek_2017,data2.matek_2018,data2.matek_2019) #stat,p=friedmanchisquare(data2.ipa_2016,data2.ipa_2017,data2.ipa_2018,data2.ipa_2019) #stat,p=friedmanchisquare(data2.tahun_2016,data2.tahun_2017,data2.tahun_2018,data2.tahun_2019) print((stat,p)) alpha=0.05 if p>alpha : print('mean sama') else : print('mean tidak sama')

Uji Friedmann

import numpy as np import pandas as pd from scipy import stats data1=pd.ExcelFile("D:\Thonny\marto.xlsx") data2=data1.parse("Sheet19") data3=data1.parse("Sheet20") data4=data1.parse("Sheet21") stats.kruskal(data2.wit_2016,data3.wita_2016,data4.wib_2016) print(stats.kruskal(data2.wit_2016,data3.wita_2016,data4.wib_2016)) #stats.kruskal(data2.wit_2017,data3.wita_2017,data4.wib_2017) #print(stats.kruskal(data2.wit_2017,data3.wita_2017,data4.wib_2017)) #stats.kruskal(data2.wit_2018,data3.wita_2018,data4.wib_2018) #print(stats.kruskal(data2.wit_2018,data3.wita_2018,data4.wib_2018)) #stats.kruskal(data2.wit_2019,data3.wita_2019,data4.wib_2019) #print(stats.kruskal(data2.wit_2019,data3.wita_2019,data4.wib_2019))

Uji Kruskal Wallis


analisis hasil ujian nasional tahun 2016-2019

Documents