0% menganggap dokumen ini bermanfaat (0 suara)
103 tayangan10 halaman

Model Klasifikasi Calon Mahasiswa Baru Untuk Sistem Rekomendasi Program Studi Sarjana Berbasis Machine Learning

Model klasifikasi calon mahasiswa baru untuk sistem rekomendasi program studi berbasis machine learning dikembangkan untuk membantu calon mahasiswa memilih program studi yang tepat. Penelitian menggunakan data mahasiswa dan lulusan UII untuk melatih model klasifikasi Random Forest yang menghasilkan akurasi 86% untuk merekomendasikan program studi. Model ini lebih baik dari model regresi logistik multinomial dan support vector machine. Model ini akan diterapkan pada sistem rekomendasi program stud

Diunggah oleh

Abigael Azron
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
103 tayangan10 halaman

Model Klasifikasi Calon Mahasiswa Baru Untuk Sistem Rekomendasi Program Studi Sarjana Berbasis Machine Learning

Model klasifikasi calon mahasiswa baru untuk sistem rekomendasi program studi berbasis machine learning dikembangkan untuk membantu calon mahasiswa memilih program studi yang tepat. Penelitian menggunakan data mahasiswa dan lulusan UII untuk melatih model klasifikasi Random Forest yang menghasilkan akurasi 86% untuk merekomendasikan program studi. Model ini lebih baik dari model regresi logistik multinomial dan support vector machine. Model ini akan diterapkan pada sistem rekomendasi program stud

Diunggah oleh

Abigael Azron
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 10

Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) DOI: 10.25126/jtiik.

202294311
Vol. 9, No. 4, Agustus 2022, hlm. 725-734 p-ISSN: 2355-7699
Akreditasi KEMENRISTEKDIKTI, No. 36/E/KPT/2019 e-ISSN: 2528-6579

MODEL KLASIFIKASI CALON MAHASISWA BARU UNTUK SISTEM


REKOMENDASI PROGRAM STUDI SARJANA BERBASIS MACHINE LEARNING
Ahmad R. Pratama*1, Rio Rizky Aryanto2, Arif Taufiq M. Pratama3
1,2,3
Universitas Islam Indonesia, Kabupaten Sleman
Email: [email protected], [email protected], [email protected]
1

*Penulis Korespondensi

(Naskah masuk: 08 November 2020, diterima untuk diterbitkan: 15 Agustus 2022)

Abstrak

Proses pemilihan program studi bagi calon mahasiswa baru, khususnya bagi mereka yang masih duduk di bangku
SMA atau sederajat, merupakan salah satu momen pengambilan keputusan penting. Tak jarang pilihan yang salah
berujung pada kegagalan studi atau kesulitan lain selepas menamatkan studi. Meski sudah mulai marak dilakukan
di berbagai negara maju, sistem rekomendasi program studi berbasis machine learning untuk calon mahasiswa
baru masih belum banyak dikembangkan di Indonesia. Penelitian ini dilakukan sebagai upaya rintisan sistem
rekomendasi tersebut dengan menggunakan data pribadi dan akademik dari semua mahasiswa dan alumni program
sarjana di Universitas Islam Indonesia (UII), di mana data prestasi akademik di masing-masing program studi
digunakan sebagai ground truth label. Dari hasil penelitian ini, didapatkan sebuah model berbasis Random Forest
(RF) dengan tingkat akurasi 86%, presisi 84%, recall 86%, dan AUC 97%. Model ini memiliki kinerja yang jauh
lebih baik jika dibandingkan dengan model berbasis Multinomial Logistic Regression (MLR) maupun Support
Vector Machine (SVM). Sesuai peta jalan penelitian, model yang dihasilkan dari penelitian ini akan digunakan
untuk pengembangan sistem rekomendasi yang dapat membantu calon mahasiswa baru dalam memilih program
studi saat proses penerimaan mahasiswa baru (PMB), khususnya di lingkungan UII.

Kata kunci: rekomendasi, program studi, machine learning, random forest

A CLASSIFICATION MODEL OF PROSPECTIVE STUDENTS FOR A MACHINE


LEARNING-BASED COLLEGE MAJOR RECOMMENDATION SYSTEM

Abstract

Choosing a major for the prospective undergraduate students is one of the most important moments in their life,
especially for the high school graduates. Not infrequently, a wrong choice can lead to academic failure or even
other difficulties after graduating from college. While a machine learning-based college major recommendation
system is not strange in some developed countries, it is not the case in Indonesia. This study aims to serve as a
pilot project for such a recommendation system by using personal and academic data of all students and alumni
of the undergraduate programs in Universitas Islam Indonesia (UII) where academic achievement data is used as
the ground truth label. Out of three models used and evaluated in this study, we found that Random Forest-based
model to be the best option with an accuracy of 86%, precision on 84%, recall of 86%, and AUC of 97%. We also
found that this model has a much better performance than other models with Multinomial Logistic Regression
(MLR) or Support Vector Machine (SVM). The resulting model from this study will be deployed to develop a
college major recommendation system that can help the prospective students choose their majors during college
admission process, particularly in the context of UII as per research roadmap.

Keywords: recommendation, undergraduate major, machine learning, random forest

1. PENDAHULUAN pendidikan tinggi ini lah untuk pertama kalinya siswa


dihadapkan pada pilihan prodi bahkan sejak sebelum
Proses pemilihan program studi bagi calon
memulai proses pendidikan di jenjang barunya
mahasiswa baru di jenjang sarjana, terlebih bagi
tersebut. Dalam banyak kasus, pilihan ini berperan
mereka yang masih duduk di bangku Sekolah
besar dalam menentukan masa depan individu yang
Menengah Atas (SMA) merupakan salah satu momen
menjalaninya, baik di sisi kenyamanan dan
pengambilan keputusan penting dalam hidup
kecocokan selama menjalani masa studi, peluang
seseorang. Pada proses perpindahan ke jenjang
725
726 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 9, No. 4, Agustus 2022, hlm. 725-734

keberhasilan menyelesaikan studi, hingga pilihan ranking organization method for enrichment
karir selepas berhasil menamatkan studi. Singkat evaluation (Promethee) (Faizal, 2015; Kumala dkk.,
kata, pilihan program studi ini menentukan banyak 2015). Meski tidak bisa dinafikan bahwa penelitian-
hal terkait dengan peluang dan risiko yang muncul penelitian tersebut juga memiliki kontribusinya
dari pilihan yang telah diambil dan akan dijalani. tersendiri, namun masih ada ruang besar untuk
Faktanya, masih banyak hal yang belum perbaikan dan peningkatan dari sisi metode yang
diketahui terkait dengan proses pemilihan program masih belum memanfaatkan teknologi machine
studi oleh calon mahasiswa baru. Seperti yang learning dalam proses pemberian rekomendasi
ditunjukkan sebuah penelitian longitudinal, di sisi tersebut, dan terlebih lagi dari sisi kualitas hasil
mahasiswa pun tak jarang terjadi pergeseran rekomendasi yang diberikan.
keyakinan akan program studi yang telah dipilih Kesenjangan inilah yang akan diisi oleh
sebelumnya, terutama ketika mahasiswa yang penelitian ini. Penelitian ini dilakukan dalam rangka
bersangkutan menyadari bahwa kemampuannya inisiasi pemanfaatan sains data dalam proses
untuk mengikuti pembelajaran di bidang tertentu, penerimaan mahasiswa baru (PMB) di dunia
dalam hal ini matematika dan ilmu alam, lebih rendah pendidikan tinggi di Indonesia pada umumnya, dan di
daripada yang mereka bayangkan sebelumnya Universitas Islam Indonesia (UII) pada khususnya.
(Stinebrickner dan Stinebrickner, 2011). Sumber data pada penelitian ini berasal dari data
Permasalahan terkait pemilihan program studi terkait calon mahasiswa baru, mahasiswa aktif,
ini juga terlihat dari hasil survei yang dilakukan oleh hingga lulusan di semua prodi di UII. Dalam rangka
Indonesia Career Center Network (ICNN) pada tahun keamanan dan privasi, data yang digunakan berupa
2017. Dilansir dari situs berita Jawa Pos National agregasi yang telah disinonimkan sebelumnya
Network (JPNN) pada tanggal 7 Februari 2019 yang
mengutip hasil survei ICNN, disebutkan bahwa 2. METODE PENELITIAN
terdapat 87% mahasiswa di Indonesia merasa telah
Penelitian menggunakan data internal UII.
mengambil program studi yang tidak tepat. Proporsi
yang cukup besar tersebut menunjukkan bahwa Dataset tersebut berisi informasi terkait mahasiswa
baik selama duduk di bangku universitas maupun
kesalahan pemilihan program studi bagi mahasiswa
sekolah menengah atas (SMA). Beberapa informasi
Indonesia masih sering terjadi. Tantangan tersebut
tersebut yaitu program studi mahasiswa, jumlah
tentu perlu mendapatkan perhatian lebih mengingat
satuan kredit semester (SKS), indeks prestasi
urgensi dari pemilihan program studi terkait
kumulatif (IPK) dan status mahasiswa pada saat data
kesuksesan menamatkan studi di perguruan tinggi,
diambil. Selanjutnya terdapat juga informasi dari
bahkan juga dapat mempengaruhi jenjang karier
mahasiswa ketika duduk di bangku SMA seperti jenis
selepas tamat studi.
sekolah dan jurusan yang diambil, nilai akademik
Terkait dengan hal ini, telah ada beberapa
pada mata pelajaran selama enam semester, total nilai
penelitian menggunakan berbagai macam pendekatan
rapor per semester dan total nilai ujian nasional.
yang berbeda untuk memberikan solusi, semisal
Informasi yang lebih umum juga terdapat pada
dengan model eksperimental (Wiswall dan Zafar,
dataset, seperti contohnya jenis kelamin, hobi,
2015) atau pemodelan yang didorong oleh data (data-
prestasi, tempat tanggal lahir dan informasi wali
driven) dalam mengidentifikasi faktor penentu
murid atau orang tua.
pengambilan keputusan dalam pemilihan program
Sistem rekomendasi yang dikembangkan
studi. Singkat kata, pemanfaatan sains data dalam
bertujuan untuk membantu calon mahasiswa
rangka proses pemilihan program studi di sisi calon
mengetahui program studi yang cocok dilihat baik
mahasiswa baru atau proses PMB di sisi PT sudah
dari sisi akademik maupun non-akademik. Guna
mulai marak dilakukan di negara maju seperti
mendukung tujuan tersebut peneliti memilih
Amerika Serikat (Picciano, 2012; Waters dan
beberapa atribut yang sekiranya mampu
Miikkulainen, 2014; Liu dan Tan, 2020), ataupun
merepresentasikan lingkup permasalahan. Atribut
negara lain seperti RRC (Wang dan Shi, 2016) dan
tersebut terdiri dari variabel kategorikal maupun
Arab Saudi (Khanam dan Alkhaldi, 2019), namun
numerik seperti yang disajikan pada Tabel 1.
masih cukup asing di Indonesia. Mengingat tiap
negara memiliki ciri khas budayanya masing-masing, Tabel 1. Jenis Variabel
maka hasil dari satu negara tidak bisa otomatis Jenis Contoh Variabel
diaplikasikan begitu saja ke negara lain. Variable
Sementara itu, penelitian terkait pemilihan Kategorikal Jenis kelamin, hobi, jenis sekolah, jurusan
program studi di Indonesia banyak berkutat pada SMA
sistem pakar berbasis aturan (rule-based) baik yang Numerikal nilai rata-rata dari setiap mata pelajaran
seperti matematika, bahasa Indonesia,
berupa aturan asosiasi (association rule) yang relatif
bahasa Inggris, biologi, fisika, kimia,
sederhana (Rumaisa, 2012), hingga yang lebih geografi, sejarah, ekonomi, agama dan
kompleks dengan menggunakan inferensi fuzzy kompetensi keahlian/kejuruan
(Sam’an, 2015; Rozi dan Purnomo, 2018), naïve Secara garis besar terdapat empat tahapan utama
Bayes (Suryadi, 2018) atau metode Preference dalam pengembangan model klasifikasi yang akan
Ahmad R. dkk, Model Klasifikasi Calon Mahasiswa… 727

digunakan sebagai algoritma untuk sistem yang relatif lama. Mahasiswa pada kelompok tersebut
rekomendasi program studi ini, yaitu preprocessing, dinilai mempunyai kecocokan yang lebih tinggi
training & validation, testing, dan evaluation. terhadap program studi dibandingkan mahasiswa-
Gambar 1 menunjukkan diagram alir yang digunakan mahasiswa lainnya. Tidak hanya berdasarkan jumlah
pada penelitian ini beserta beberapa detail informasi SKS dan IPK, status mahasiswa juga diperhatikan
untuk masing-masing tahapan tersebut. pada saat seleksi dataset. Peneliti hanya
menggunakan data mahasiswa dengan status yang
sudah lulus maupun yang masih aktif. Sebaliknya,
mahasiswa dengan status selain itu tidak akan
dimasukkan ke dalam dataset, tidak peduli seberapa
baik nilai IPK maupun jumlah SKS yang pernah
diambil.
Seleksi dataset juga dilakukan berdasarkan
jurusan SMA dan nilai rerata pada mata pelajaran
tertentu. Bagi individu dengan jurusan SMA IPA,
maka individu tersebut haruslah mempunyai nilai
rerata pada beberapa mata pelajaran seperti
matematika, bahasa Indonesia, bahasa Inggris,
biologi, kimia, fisika dan agama agar dapat
diikutsertakan pada data latih model. Untuk jurusan
IPS, yang menjadi pertimbangan adalah mata
pelajaran matematika, bahasa Indonesia, bahasa
Inggris, geografi, sejarah, ekonomi dan agama
sedangkan untuk jurusan Non-IPA-IPS yang menjadi
pertimbangan hanyalah nilai rerata pada mata
pelajaran kompetensi keahlian/kejuruan.
Terakhir, dilakukan seleksi berdasarkan jenis
program studi. Pada penelitian ini, program studi
yang digunakan hanya melibatkan program studi
sarjana reguler yang merupakan mayoritas dari
program sarjana yang ada di UII. Program studi
dengan jenjang berbeda, seperti diploma dan
pascasarjana, serta program internasional tidak
disertakan dalam penelitian ini dikarenakan
keterbatasan data yang akan sangat mempengaruhi
hasil klasifikasi yang akan didapatkan. Setelah
Gambar 1. Tahapan penelitian
melakukan preprocessing, didapatkan total 24
program studi jenjang sarjana pada dataset (label 0
2.1. Preprocessing
s.d label 23). Tabel 2 menunjukkan program studi dan
Tahapan ini dilakukan untuk menyiapkan jumlah kemunculannya pada dataset diurutkan dari
dataset sebelum diimplementasikan pada model kemunculan terbanyak sampai dengan yang paling
klasifikasi. Beberapa teknik seperti agregasi dan sedikit, sementara contoh data yang telah melalui
seleksi (filtering) dilakukan pada tahapan proses preprocessing dapat dilihat pada Gambar 2.
preprocessing. Teknik agregasi dilakukan untuk
mendapatkan nilai rerata dari setiap mata pelajaran Tabel 2. Jumlah kemunculan masing-masing prodi pada dataset
Prodi n Prodi n
pada tiap individu. Peneliti juga membagi jurusan
SMA ke dalam tiga kelompok yaitu Ilmu Akuntansi 265 Ilmu Komunikasi 78
Pengetahuan Alam (IPA), Ilmu Pengetahuan Sosial Manajemen 244 Informatika 76
(IPS), dan Non-IPA-IPS. Hal tersebut dilakukan Teknik Kimia 139 Teknik Sipil 65
karena pada dataset terdapat lebih dari sepuluh jenis Psikologi 123 Perbankan dan Keuangan 42
jurusan SMA sehingga perlu pengelompokan ke
Ekonomi Pembangunan 116 Ekonomi Islam 40
dalam kategori yang lebih umum.
Selanjutkan melakukan seleksi atau filtering Hukum 110 Pendidikan Agama Islam 30
dataset yang dilakukan berdasarkan jumlah SKS dan Teknik Lingkungan 99 Teknik Elektro 29
nilai IPK mahasiswa. Nantinya, peneliti hanya Statistika 93 Ahwal Al-Syakhshiyah 23
menggunakan data mahasiswa yang mempunyai Teknik Industri 83 Pendidikan Bahasa Inggris 17
jumlah SKS minimal 80 dan IPK minimal 3.00.
Farmasi 83 Teknik Mesin 17
Peneliti berasumsi bahwa mahasiswa dengan
karakteristik tersebut adalah mahasiswa yang dinilai Kimia 82 Hubungan Internasional 16
cukup berhasil menjalankan studi pada jangka waktu Arsitektur 79 Kedokteran 7
728 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 9, No. 4, Agustus 2022, hlm. 725-734

Gambar 2. Contoh data penelitian setelah melalui tahapan preprocessing

2.2. Training & Validation


2.3. Testing
Berdasarkan hasil pada tahapan preprocessing,
Tahapan berikutnya adalah menguji performa
peneliti menemukan adanya ketidakseimbangan
model menggunakan data testing yang belum pernah
jumlah program studi pada dataset (imbalanced
dikenali oleh model. Pada tahapan ini digunakan
dataset). Ketimpangan jumlah data terlihat pada
model dengan parameter hasil hyperparameter
beberapa program studi seperti Teknik Elektro,
tuning. Artinya, model yang diuji adalah model
Pendidikan Bahasa Inggris, Teknik Mesin, Hubungan
terbaik dari semua kemungkinan model klasifikasi
Internasional dan Kedokteran. Hal tersebut dapat
yang telah diujicoba pada proses validasi.
mempengaruhi performa model klasifikasi yang akan
dikembangkan sehingga peneliti memutuskan untuk
memperbaiki hal tersebut dengan teknik 2.4. Evaluation
oversampling. Tahapan yang terakhir adalah melakukan proses
Teknik oversampling adalah suatu teknik yang evaluasi atas ketiga model yang telah dikembangkan
bertujuan untuk menghasilkan (generate) data baru untuk didapatkan model terbaik yang layak untuk
pada kelompok program studi dengan jumlah dikembangkan ke dalam sistem rekomendasi ini.
kemunculan yang lebih kecil dibandingkan kelompok Dalam hal ini, terdapat tujuh buah metrik yang
lainnya. Proses generate data baru tersebut dilakukan digunakan, mulai dari accuracy yang mengukur
dengan cara pengambilan acak atau random sampling tingkat akurasi atau rasio prediksi benar dari model
dari dataset asli. Artinya, proses ini hanya akan klasifikasi, precision yang mengukur rasio prediksi
menambah jumlah records data namun tidak positif benar jika dibandingkan dengan keseluruhan
mengubah karakteristik kelompok tersebut. Melalui hasil yang diprediksi positif oleh model klasifikasi,
oversampling dengan Synthetic Minority Over- recall yang mengukur sensitivitas model klasifikasi
Sampling Method (SMOTE) yang mensintesis data melalui rasio prediksi positif benar jika dibandingkan
baru pada kelas minoritas dengan karakteristik dengan keseluruhan data yang memang benar positif,
menyerupai data aslinya, dataset yang sebelumnya F1-Score yang merupakan ukuran keseimbangan
berjumlah total 1,956 records data berubah menjadi antara precision dan recall, AUC (Area Under The
total 6,360 records data. Curve) ROC (Receiver Operating Characteristics)
Selain oversampling, pada proses pembelajaran dan Gini Coefficient yang dapat digunakan untuk
model juga dilakukan standarisasi nilai pada variabel evaluasi visual atas performa model untuk masing-
numerik. Hal ini untuk menyamakan satuan unit pada masing threshold klasifikasi dan sangat bermanfaat
masing-masing variabel numerik tersebut. Langkah dalam kondisi class imbalance, serta Log Loss yang
berikutnya adalah membagi dataset tersebut menjadi membandingkan probabilitas hasil prediksi dengan
2 bagian yaitu data latih (train & validation) dan data ground truth label yang dikuantifikasi dengan cross-
uji (test). Proporsi yang digunakan adalah 80:20 di entropy. Adapun ketiga model yang akan
mana proporsi yang lebih besar diambil sebagai data diperbandingkan adalah model berbasis Multinomial
latih model. Selanjutnya data latih tersebut akan Logistic Regression (MLR), Random Forest (RF),
dipecah lagi menjadi 2 bagian dengan proporsi yang dan Support Vector Model (SVM).
sama yaitu 80:20. Proporsi yang lebih kecil Model pertama menggunakan Multinomial
digunakan sebagai data validasi pada proses Logistic Regression (MLR) yang merupakan model
hyperparameter tuning model klasifikasi. Setelah klasifikasi berbasis regresi logistik sederhana. Model
dipecah terdapat total 4,071 records untuk data latih MLR sendiri dapat digunakan untuk kasus klasifikasi
atau training, 1,017 records data validasi dan 1,272 di mana hasil luaran yang akan diprediksi mempunyai
records data uji atau testing. lebih dari dua kelas. Hal ini lah yang membedakan
MLR dengan model regresi logistik sederhana yang
digunakan untuk memprediksi hasil luaran dengan
kelas biner. Model klasifikasi ini mampu
Ahmad R. dkk, Model Klasifikasi Calon Mahasiswa… 729

mengidentifikasi bagaimana hubungan antara non-linear. Konsep tersebut bekerja dengan cara
variabel dependen dengan variabel independen. membawa data ke dalam dimensi yang lebih tinggi
Fungsi logistik berupa kurva S (sigmoid curve) sehingga lebih mudah untuk dipetakan hyperplane-
digunakan pada model klasifikasi untuk memprediksi nya. Dengan konsep kernel, hyperplane pada model
probabilitas semua hasil luaran yang memungkinkan. SVM dapat berbentuk non-linear. Beberapa contoh
Dalam implementasinya, model MLR menggunakan kernel yang dapat digunakan antara lain polynomial,
pendekatan one-versus-one (OVO) atau one-versus- radial basis function (RBF) dan sigmoid. Sama
rest (OVS) sehingga dapat digunakan untuk kasus seperti MLR, model SVM sendiri sebenarnya
klasifikasi dengan banyak kelas. Pendekatan OVO digunakan untuk kasus klasifikasi dengan kelas biner.
akan membandingkan satu per satu antar kelas, Untuk kasus dengan banyak kelas maka pendekatan
sedangkan OVS akan membandingkan secara OVO atau OVS dapat digunakan. Fungsi aktivasi
spesifik satu kelas terhadap semua kelas lainnya. softmax juga dapat digunakan untuk memprediksi
Artinya, pada model MLR akan didapatkan banyak kelas hasil luaran akhir model SVM. Beberapa sistem
model regresi logistik sederhana. Untuk memprediksi rekomendasi yang dibangun menggunakan SVM di
kelas hasil luaran akhir, digunakan fungsi aktivasi antaranya adalah yang terkait berita (Fortuna,
softmax yang menormalisasi probabilitas kelas Fortuna, & Mladenić, 2010) dan penentuan dosen
menggunakan semua probabilitas hasil luaran dari pembimbing (Pradana, 2020).
masing-masing model regresi logistik sederhana yang
didapatkan Salah satu contoh sistem rekomendasi 3. HASIL DAN PEMBAHASAN
yang dibangun dengan MLR adalah untuk tim
olahraga kriket (Jayanth dkk, 2018). 3.1. Performa Model Tahap Validation
Model kedua adalah Random Forest (RF) yang
merupakan model klasifikasi berbasis konsep pohon Model dikembangkan menggunakan bahasa
keputusan (decision tree). Model ini pemrograman Python dan mengimplementasikan
mengagregasikan banyak pohon keputusan yang paket Scikit-Learn (Sklearn). Tabel 3 menunjukkan
independen guna memprediksi kelas hasil luaran. performa 3 model klasifikasi machine learning yang
Tidak seperti pohon keputusan biasa yang dilatih menggunakan nilai default atau parameter
menggunakan semua prediktor dan semua data bawaan paket Sklearn. Dilihat dari beberapa metrik
sampel, RF hanya menggunakan beberapa prediktor evaluasi, terlihat bahwa model RF memiliki performa
saja. Sedangkan untuk data sampelnya, RF dapat yang paling baik dibandingkan MLR maupun SVM
memilih untuk menggunakan semua data sampel atau dilihat dari sisi akurasi maupun metrik evaluasi
melakukan sampling, tergantung konfigurasi yang lainnya.
digunakan oleh peneliti. Pemilihan prediktor dan data Metrik evaluasi yang digunakan pada penelitian
sampel tersebut dilakukan secara acak (random). Hal ini antara lain accuracy, precision, recall, F1-score,
ini membuat setiap pohon keputusan yang terdapat Area Under Receiver Operating Characteristic
pada model RF akan memiliki atribut yang unik dan Curve (AUC-ROC), Gini coefficient, dan Log loss.
berbeda dari pohon keputusan lainnya. Konsep yang Formula untuk menghitung skor dari beberapa metrik
diusung tersebut membuat model RF mampu seperti accuracy, precision, recall, F1-score, dan
mengenali dan mempelajari banyak opsi dari satu AUC-ROC dapat dilihat pada penelitian (Hossin dan
jenis dataset saja. Konsep tersebut juga yang Sulaiman, 2015), sedangkan formula untuk metrik
membuat model RF semakin kaya akan informasi Gini coefficient dan Log loss masing-masing
meskipun mengusung konsep yang cukup sederhana. didapatkan dari referensi (Srivastava, 2019) dan
Untuk memprediksi kelas hasil luaran digunakan (Bishop, 2006).
skema voting. Kelas yang paling banyak muncul Walaupun sudah mendapatkan performa yang
sebagai hasil prediksi dari semua pohon keputusan cukup bagus pada model RF, akan tetapi proses
yang tersedia akan dipilih sebagai kelas hasil luaran hyperparameter tuning akan tetap dilakukan. Hal ini
akhir. Beberapa sistem rekomendasi yang dibangun untuk melihat apakah proses tersebut mampu
menggunakan RF di antaranya adalah yang terkait mendongkrak performa model terutama pada MLR
produk (Khanvilkar dan Vora, 2018) dan kredit bank dan SVM yang dinilai masih belum maksimal.
(Putra, 2019) Hyperparameter tuning dilakukan dengan metode
Model ketiga adalah Support Vector Machine random search setelah mengatur beberapa
(SVM) yang secara konsep digunakan untuk kemungkinan parameter model (grid parameter).
menemukan suatu batas atau dikenal dengan Pada proses optimisasi tersebut, performa model akan
hyperplane yang mampu memaksimalkan jarak antar diukur menggunakan data validasi yang proporsinya
kelas. Pada dasarnya, model SVM digunakan untuk diambil 20% dari data latih.
kasus linear, artinya hyperplane yang dicari adalah
suatu garis linear yang mampu menjadi pemisah antar
kelas. Namun bukan berarti model SVM tidak dapat
digunakan pada kasus non-linear. Konsep kernel atau
kernel tricks dapat digunakan pada kasus klasifikasi
730 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 9, No. 4, Agustus 2022, hlm. 725-734

Tabel 3. Performa model klasifikasi dengan default parameter pada Sklearn


Model Akrs Pres. Recall F1-Score Avg AUCROC Gini Coef Log Loss
MLR 0.17 0.17 0.17 0.14 0.74 0.48 2.73
RF 0.84 0.83 0.84 0.83 0.97 0.95 0.87
SVM 0.11 0.07 0.11 0.07 0.69 0.41 2.90

Tabel 4. Performa model klasifikasi menggunakan Parameter hasil hyperparameter tuning


Model Akurasi Presisi Recall F1-Score Avg AUCROC Gini Coef Log Loss

MLR 0.21 0.23 0.20 0.19 0.76 0.53 2.62


RF 0.84 0.82 0.84 0.83 0.97 0.94 0.74
SVM 0.20 0.23 0.20 0.17 0.78 0.57 2.61

Cross validation dengan jumlah validasi dilakukan untuk mengetahui bagaimana


sebanyak 3 dilakukan untuk mengukur kemampuan performa model klasifikasi menggunakan dataset
model, sedangkan untuk kombinasi parameter model yang belum pernah dikenali. Model yang
akan dicoba sebanyak 100 kombinasi parameter. diimplementasikan adalah model yang sudah
Artinya, proses hyperparameter tuning akan menggunakan parameter hasil hyperparameter
membandingkan performa dari 300 model yang tuning. Tabel 6 menunjukkan performa dari masing-
berbeda untuk dicari parameter mana yang mampu masing model klasifikasi pada tahap ini. Model RF
memberikan performa terbaik. Tabel 4 menunjukkan masih mengungguli kedua model lainnya dengan
performa dari masing-masing model klasifikasi nilai akurasinya di angka 86%. Nilai akurasi tersebut
menggunakan parameter hasil hyperparameter tidak jauh berbeda dibandingkan performa model
tuning. Pada model RF, didapatkan performa yang pada proses sebelumnya. Namun model RF pada data
tidak jauh berubah walaupun terlihat nilai log loss- testing memiliki nilai skor AUC dan koefisien Gini
nya yang menurun dibandingkan model sebelumnya, terbaik dibandingkan pengujian sebelumnya
sedangkan untuk metrik evaluasi lain terlihat tidak sekaligus terbaik dibandingkan model MLR dan
ada perubahan yang signifikan. Berbeda dari model SVM. Selain itu model RF juga memiliki nilai Log
RF, pada model MLR maupun SVM terlihat bahwa loss yang paling rendah. Sedangkan pada model MLR
terdapat perbaikan terutama terkait akurasi model. dan SVM terlihat performa yang sedikit lebih baik
Bahkan pada model SVM, nilai precision dan F1 walaupun tidak terlalu signifikan jika dibandingkan
score-nya naik cukup banyak. Akan tetapi, secara dengan performa pada proses sebelumnya.
keseluruhan performa terbaik masih diberikan oleh
model klasifikasi RF. Selain menggunakan metrik evaluasi di atas,
Tabel 5 menunjukkan parameter pada setiap performa model juga dapat dilihat melalui kurva ROC
model klasifikasi setelah melalui hyperparameter yang dapat dilihat pada Gambar 3, Gambar 4, dan
tuning. Parameter-parameter tersebut menjadi inisiasi Gambar 5. Baik model MLR, RF dan SVM ketiganya
parameter pada model klasifikasi yang dilatih memiliki kurva ROC yang mana masing-masing garis
menggunakan paket Sklearn pada bahasa kurvanya berada di atas garis diagonal. Artinya,
pemrograman Python. Peneliti menggunakan nilai setiap model klasifikasi tersebut sebenarnya memiliki
default bawaan paket Sklearn Python untuk performa prediksi yang cukup bagus, bahkan lebih
parameter-parameter model yang tidak disebutkan baik dibandingkan model klasifikasi acak atau
pada Tabel 5. Model klasifikasi yang dilatih random yang divisualisasikan menggunakan garis
menggunakan parameter tersebut selanjutnya akan diagonal pada kurva ROC. Meskipun performa yang
disimpan untuk kemudian diujikan pada data testing. bagus tersebut mungkin hanya terjadi pada beberapa
kelas program studi tertentu saja. Hal ini ditunjukkan
Tabel 5. Parameter pada model klasifikasi pada beberapa garis kurva yang letaknya tidak jauh di
Model Parameter model paket Sklearn Python atas garis diagonal. Kurva sejenis tersebut dapat
MLR solver = ‘newton-sg’; penalty = ‘l2’; ditemukan pada kurva ROC model MLR dan SVM.
multi_class = ‘multinomial’; max_iter =
640; C = 1438.450
Di antara ketiga model klasifikasi yang
RF n_estimator = 400; min_samples_split = 2; dikembangkan, model RF kembali menunjukkan
min_samples_leaf = 2; max_features = performa yang paling baik jika dinilai hanya
‘sqrt’; max_depth = 64; bootstrap = false menggunakan kurva ROC. Hal ini ditunjukkan dari
SVM probability = true; kernel = ‘linear’; gamma garis kurva yang letaknya cukup jauh di atas garis
= ‘scale’; decision _function_shape = diagonal dan lebih mendekati ke sudut kiri atas.
‘ovo’; class_weight = ‘balanced’; C = 1.0

3.2. Performa Model Tahap Testing


Proses selanjutnya adalah menguji performa
dari ketiga model menggunakan data testing. Hal ini
Ahmad R. dkk, Model Klasifikasi Calon Mahasiswa… 731

Tabel 6. Performa Model Klasifikasi pada Tahap Data Testing


Model Akurasi Presisi Recall F1-Score Avg AUCROC Gini Coef Log Loss
MLR 0.21 0.21 0.21 0.19 0.78 0.57 2.58
RF 0.86 0.84 0.86 0.84 0.97 0.95 0.66
SVM 0.22 0.24 0.22 0.17 0.79 0.58 2.58

Artinya, tidak seperti model MLR dan SVM Secara detail, model RF tersebut mempunyai
yang hanya cukup bagus untuk memprediksi program total 400 pohon keputusan untuk menentukan hasil
studi tertentu, model RF mempunyai kemampuan klasifikasi. Masing-masing pohon keputusan
prediksi yang cukup bagus hampir untuk semua memiliki kedalaman maksimal sebanyak 64 dan
program studi yang terdapat pada dataset. menggunakan semua records data dalam
Berdasarkan evaluasi yang telah dilakukan pembentukannya. Sebaliknya, setiap pohon
menggunakan beberapa metrik evaluasi sekaligus keputusan tidak menggunakan semua atribut yang
kurva ROC, dapat diambil kesimpulan bahwa model tersedia pada dataset, melainkan hanya menggunakan
RF memberikan performa yang paling baik tiga sampai dengan empat atribut saja. Artinya, pohon
dibandingkan model MLR dan SVM. Tidak hanya keputusan yang terdapat pada model RF memiliki
untuk beberapa program studi tertentu, akan tetapi karakteristik yang berbeda-beda.
model RF mempunyai kekuatan prediksi yang cukup
bagus untuk hampir semua jenis program studi.

Gambar 3. Kurva ROC untuk model MLR

Gambar 4. Kurva ROC untuk model RF


732 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 9, No. 4, Agustus 2022, hlm. 725-734

Gambar 5. Kurva ROC untuk model SVM

4. KESIMPULAN
DAFTAR PUSTAKA
Dalam penelitian ini, tim penulis telah berhasil
mengembangkan sebuah sistem rekomendasi BISHOP, C.M., 2006. Pattern Recognition and
pemilihan program studi sarjana berbasis machine Machine Learning. Switzerland: Springer
learning dengan menggunakan data mahasiswa dan New York.
lulusan program sarjana di Universitas Islam FAIZAL, E., 2015. Analisis Pemilihan Jurusan
Indonesia. Di antara ketiga model yang Favorit Menggunakan Metode Promethee
dikembangkan (MLR, RF, dan SVM), algoritma RF (Studi Kasus Pada STMIK El Rahma
memberikan kinerja terbaik berdasarkan semua Yogyakarta). Jurnal Fahma, 13.
metrik yang ada, mulai dari akurasi 86%, presisi 84%,
FORTUNA, B., FORTUNA, C. dan MLADENIĆ,
recall 86%, dan F1-Score 84%, hingga AUC-ROC
D., 2010, September. Real-time news
97%, Koefisien Gini 95%, dan Log-Loss 0,66.
recommender system. In Joint European
Sesuai dengan peta jalan penelitian yang
Conference on Machine Learning and
menaungi penelitian ini, tahapan penelitian
Knowledge Discovery in Databases (pp.
berikutnya bertujuan untuk meningkatkan kualitas
583-586). Springer, Berlin, Heidelberg.
hasil rekomendasi yang diberikan, salah satunya
dengan eksplorasi beberapa teknik tingkat lanjut HOSSIN, M. dan SULAIMAN, M.N., 2015. A
seperti multi-stage machine learning (Mardani dkk., Review on Evaluation Metrics for Data
2020) atau collaborative filtering (Nguyen dkk, 2020; Classification Evaluations. International
Wei dkk., 2017), serta dengan mengintegrasikan data Journal of Data Mining & Knowledge
baru berbasis psikometri, khususnya dalam rangka Management Process (IJDKP), 4-5
memfasilitasi minat dan bakat calon mahasiswa baru JAYANTH, S.B., ANTHONY, A., ABHILASHA,
dalam proses rekomendasi pemilihan prodi yang akan G., SHAIK, N. dan SRINIVASA, G., 2018.
diberikan. Selain itu, penelitian selanjutnya juga akan A team recommendation system and
menambahkan purwarupa sistem rekomendasi outcome prediction for the game of cricket.
berbasis web dan aplikasi perangkat bergerak agar Journal of Sports Analytics, 4(4), pp.263-
hasil dari penelitian ini dapat langsung dimanfaatkan 273.
oleh calon mahasiswa baru dalam proses PMB KHANVILKAR, G. dan VORA, D., 2018. Sentiment
sebelum memilih program studi yang akan mereka analysis for product recommendation using
jalani nantinya. random forest. International Journal of
Engineering & Technology, 7(3), pp.87-89.
UCAPAN TERIMA KASIH
KHANAM, Z., dan ALKHALDI, S., 2019. An
Tim penulis mengucapkan terima kasih kepada Intelligent Recommendation Engine for
Jurusan Informatika, Fakultas Teknologi Industri, Selecting the University for Graduate
Universitas Islam Indonesia yang telah mendanai Courses in KSA: SARS Student Admission
penelitian ini dan kepada Badan Sistem Informasi Recommender System. In International
Universitas Islam Indonesia yang telah menyediakan Conference on Inventive Computation
data yang dibutuhkan dalam penelitian ini
Ahmad R. dkk, Model Klasifikasi Calon Mahasiswa… 733

Technologies (pp. 711-722). Springer, Keputusan Pemilihan Program Studi di


Cham. Perguruan Tinggi. UNNES Journal of
KUMALA, A.T., BENARKAH, N. dan TJANDRA, Mathematics, 4(1).
E., 2015. Pembuatan Sistem Pendukung SRIVASTAVA, T., 2019. Analytics Vidhya [online].
Keputusan Pemilihan Jurusan Kuliah Bagi Tersedia di:
Siswa SMA Berbasis Web dengan Metode https://www.analyticsvidhya.com/blog/201
Promethee. Calyptra, 4(2), pp.1-10 9/08/11-important-model-evaluation-error-
LIU, R., dan TAN, A., 2020. Towards interpretable metrics/ [Diakses 11 Mei 2021]
automated machine learning for STEM STINEBRICKNER, T.R. dan STINEBRICKNER,
career prediction. Journal of Educational R., 2011. Math or science? Using
Data Mining, 12(2), pp.19-32 longitudinal expectations data to examine
MARDANI, A., LIAO, H., NILASHI, M., the process of choosing a college major (No.
ALRASHEEDI, M., dan CAVALLARO, F. w16869). National Bureau of Economic
2020. A multi-stage method to predict Research
carbon dioxide emissions using SURYADI, A., 2018. Sistem Rekomendasi
dimensionality reduction, clustering, and Penerimaan Mahasiswa Baru Menggunakan
machine learning techniques. Journal of Naive Bayes Classifier Di Institut
Cleaner Production, 275. Pendidikan Indonesia. Joutica, 3(2), pp.171-
MESYA, 2019. JPNN [online]. Tersedia di: 182.
https://www.jpnn.com/news/hasil-survei- WANG, Z., dan SHI, Y., 2016. Prediction of the
87-persen-mahasiswa-pilih-jurusan-tidak- admission lines of college entrance
sesuai-minat [Diakses 11 Mei 2021] examination based on machine learning. In
NGUYEN, L. V., HONG, M. S., JUNG, J. J., dan 2016 2nd IEEE International Conference on
SOHN, B. S. 2020. Cognitive Similarity- Computer and Communications (ICCC) (pp.
Based Collaborative Filtering 332-335). IEEE.
Recommendation System. Applied WATERS, A. dan MIIKKULAINEN, R., 2014.
Sciences, 10(12). Grade: Machine learning support for
PICCIANO, A. G., 2012. The evolution of big data graduate admissions. AI Magazine, 35(1),
and learning analytics in American higher pp.64-64.
education. Journal of asynchronous learning WEI, J., HE, J., CHEN, K., ZHOU, Y., dan TANG,
networks, 16(3), pp.9-20. Z., 2017. Collaborative filtering and deep
PRADANA, Y.R., 2020. Sistem Rekomendasi Dosen learning-based recommendation system for
Pembimbing Berdasarkan Latar Belakang cold start items. Expert Systems with
Menggunakan Metode Multi-Class Support Applications, 69, pp.29-39.
Vector Machine Dan Weighted Product WISWALL, M. dan ZAFAR, B., 2015. Determinants
(Doctoral dissertation, Universitas of college major choice: Identification using
Brawijaya). an information experiment. The Review of
PUTRA, M.I., 2019. Sistem rekomendasi kelayakan Economic Studies, 82(2), pp.791-824.
kredit menggunakan metode Random Forest
pada BRI Kantor Cabang Pelaihari
(Doctoral dissertation, UIN Sunan Ampel
Surabaya).
ROZI, A.F., and PURNOMO, A.S., 2018.
Rekomendasi Pemilihan Minat Studi
Menggunakan Metode Mamdani Studi
Kasus: Program Studi Sistem Informasi FTI
UMBY. INFORMAL: Informatics Journal,
2(3), pp.138-147.
RUMAISA, F., 2012. Penentuan Association Rule
Pada Pemilihan Program Studi Calon
Mahasiswa Baru Menggunakan Algoritma
Apriori Studi Kasus pada Universitas
Widyatama Bandung. In Seminar Nasional
Aplikasi Teknologi Informasi 2012, Jurusan
Teknik Informatika, Universitas Islam
Indonesia, Yogyakarta.
SAM’AN, M., 2015. Implementasi Fuzzy Inference
System sebagai Sistem Pengambilan
Halaman ini sengaja dikosongkan

Anda mungkin juga menyukai