Model Klasifikasi Calon Mahasiswa Baru Untuk Sistem Rekomendasi Program Studi Sarjana Berbasis Machine Learning
Model Klasifikasi Calon Mahasiswa Baru Untuk Sistem Rekomendasi Program Studi Sarjana Berbasis Machine Learning
202294311
Vol. 9, No. 4, Agustus 2022, hlm. 725-734 p-ISSN: 2355-7699
Akreditasi KEMENRISTEKDIKTI, No. 36/E/KPT/2019 e-ISSN: 2528-6579
*Penulis Korespondensi
Abstrak
Proses pemilihan program studi bagi calon mahasiswa baru, khususnya bagi mereka yang masih duduk di bangku
SMA atau sederajat, merupakan salah satu momen pengambilan keputusan penting. Tak jarang pilihan yang salah
berujung pada kegagalan studi atau kesulitan lain selepas menamatkan studi. Meski sudah mulai marak dilakukan
di berbagai negara maju, sistem rekomendasi program studi berbasis machine learning untuk calon mahasiswa
baru masih belum banyak dikembangkan di Indonesia. Penelitian ini dilakukan sebagai upaya rintisan sistem
rekomendasi tersebut dengan menggunakan data pribadi dan akademik dari semua mahasiswa dan alumni program
sarjana di Universitas Islam Indonesia (UII), di mana data prestasi akademik di masing-masing program studi
digunakan sebagai ground truth label. Dari hasil penelitian ini, didapatkan sebuah model berbasis Random Forest
(RF) dengan tingkat akurasi 86%, presisi 84%, recall 86%, dan AUC 97%. Model ini memiliki kinerja yang jauh
lebih baik jika dibandingkan dengan model berbasis Multinomial Logistic Regression (MLR) maupun Support
Vector Machine (SVM). Sesuai peta jalan penelitian, model yang dihasilkan dari penelitian ini akan digunakan
untuk pengembangan sistem rekomendasi yang dapat membantu calon mahasiswa baru dalam memilih program
studi saat proses penerimaan mahasiswa baru (PMB), khususnya di lingkungan UII.
Abstract
Choosing a major for the prospective undergraduate students is one of the most important moments in their life,
especially for the high school graduates. Not infrequently, a wrong choice can lead to academic failure or even
other difficulties after graduating from college. While a machine learning-based college major recommendation
system is not strange in some developed countries, it is not the case in Indonesia. This study aims to serve as a
pilot project for such a recommendation system by using personal and academic data of all students and alumni
of the undergraduate programs in Universitas Islam Indonesia (UII) where academic achievement data is used as
the ground truth label. Out of three models used and evaluated in this study, we found that Random Forest-based
model to be the best option with an accuracy of 86%, precision on 84%, recall of 86%, and AUC of 97%. We also
found that this model has a much better performance than other models with Multinomial Logistic Regression
(MLR) or Support Vector Machine (SVM). The resulting model from this study will be deployed to develop a
college major recommendation system that can help the prospective students choose their majors during college
admission process, particularly in the context of UII as per research roadmap.
keberhasilan menyelesaikan studi, hingga pilihan ranking organization method for enrichment
karir selepas berhasil menamatkan studi. Singkat evaluation (Promethee) (Faizal, 2015; Kumala dkk.,
kata, pilihan program studi ini menentukan banyak 2015). Meski tidak bisa dinafikan bahwa penelitian-
hal terkait dengan peluang dan risiko yang muncul penelitian tersebut juga memiliki kontribusinya
dari pilihan yang telah diambil dan akan dijalani. tersendiri, namun masih ada ruang besar untuk
Faktanya, masih banyak hal yang belum perbaikan dan peningkatan dari sisi metode yang
diketahui terkait dengan proses pemilihan program masih belum memanfaatkan teknologi machine
studi oleh calon mahasiswa baru. Seperti yang learning dalam proses pemberian rekomendasi
ditunjukkan sebuah penelitian longitudinal, di sisi tersebut, dan terlebih lagi dari sisi kualitas hasil
mahasiswa pun tak jarang terjadi pergeseran rekomendasi yang diberikan.
keyakinan akan program studi yang telah dipilih Kesenjangan inilah yang akan diisi oleh
sebelumnya, terutama ketika mahasiswa yang penelitian ini. Penelitian ini dilakukan dalam rangka
bersangkutan menyadari bahwa kemampuannya inisiasi pemanfaatan sains data dalam proses
untuk mengikuti pembelajaran di bidang tertentu, penerimaan mahasiswa baru (PMB) di dunia
dalam hal ini matematika dan ilmu alam, lebih rendah pendidikan tinggi di Indonesia pada umumnya, dan di
daripada yang mereka bayangkan sebelumnya Universitas Islam Indonesia (UII) pada khususnya.
(Stinebrickner dan Stinebrickner, 2011). Sumber data pada penelitian ini berasal dari data
Permasalahan terkait pemilihan program studi terkait calon mahasiswa baru, mahasiswa aktif,
ini juga terlihat dari hasil survei yang dilakukan oleh hingga lulusan di semua prodi di UII. Dalam rangka
Indonesia Career Center Network (ICNN) pada tahun keamanan dan privasi, data yang digunakan berupa
2017. Dilansir dari situs berita Jawa Pos National agregasi yang telah disinonimkan sebelumnya
Network (JPNN) pada tanggal 7 Februari 2019 yang
mengutip hasil survei ICNN, disebutkan bahwa 2. METODE PENELITIAN
terdapat 87% mahasiswa di Indonesia merasa telah
Penelitian menggunakan data internal UII.
mengambil program studi yang tidak tepat. Proporsi
yang cukup besar tersebut menunjukkan bahwa Dataset tersebut berisi informasi terkait mahasiswa
baik selama duduk di bangku universitas maupun
kesalahan pemilihan program studi bagi mahasiswa
sekolah menengah atas (SMA). Beberapa informasi
Indonesia masih sering terjadi. Tantangan tersebut
tersebut yaitu program studi mahasiswa, jumlah
tentu perlu mendapatkan perhatian lebih mengingat
satuan kredit semester (SKS), indeks prestasi
urgensi dari pemilihan program studi terkait
kumulatif (IPK) dan status mahasiswa pada saat data
kesuksesan menamatkan studi di perguruan tinggi,
diambil. Selanjutnya terdapat juga informasi dari
bahkan juga dapat mempengaruhi jenjang karier
mahasiswa ketika duduk di bangku SMA seperti jenis
selepas tamat studi.
sekolah dan jurusan yang diambil, nilai akademik
Terkait dengan hal ini, telah ada beberapa
pada mata pelajaran selama enam semester, total nilai
penelitian menggunakan berbagai macam pendekatan
rapor per semester dan total nilai ujian nasional.
yang berbeda untuk memberikan solusi, semisal
Informasi yang lebih umum juga terdapat pada
dengan model eksperimental (Wiswall dan Zafar,
dataset, seperti contohnya jenis kelamin, hobi,
2015) atau pemodelan yang didorong oleh data (data-
prestasi, tempat tanggal lahir dan informasi wali
driven) dalam mengidentifikasi faktor penentu
murid atau orang tua.
pengambilan keputusan dalam pemilihan program
Sistem rekomendasi yang dikembangkan
studi. Singkat kata, pemanfaatan sains data dalam
bertujuan untuk membantu calon mahasiswa
rangka proses pemilihan program studi di sisi calon
mengetahui program studi yang cocok dilihat baik
mahasiswa baru atau proses PMB di sisi PT sudah
dari sisi akademik maupun non-akademik. Guna
mulai marak dilakukan di negara maju seperti
mendukung tujuan tersebut peneliti memilih
Amerika Serikat (Picciano, 2012; Waters dan
beberapa atribut yang sekiranya mampu
Miikkulainen, 2014; Liu dan Tan, 2020), ataupun
merepresentasikan lingkup permasalahan. Atribut
negara lain seperti RRC (Wang dan Shi, 2016) dan
tersebut terdiri dari variabel kategorikal maupun
Arab Saudi (Khanam dan Alkhaldi, 2019), namun
numerik seperti yang disajikan pada Tabel 1.
masih cukup asing di Indonesia. Mengingat tiap
negara memiliki ciri khas budayanya masing-masing, Tabel 1. Jenis Variabel
maka hasil dari satu negara tidak bisa otomatis Jenis Contoh Variabel
diaplikasikan begitu saja ke negara lain. Variable
Sementara itu, penelitian terkait pemilihan Kategorikal Jenis kelamin, hobi, jenis sekolah, jurusan
program studi di Indonesia banyak berkutat pada SMA
sistem pakar berbasis aturan (rule-based) baik yang Numerikal nilai rata-rata dari setiap mata pelajaran
seperti matematika, bahasa Indonesia,
berupa aturan asosiasi (association rule) yang relatif
bahasa Inggris, biologi, fisika, kimia,
sederhana (Rumaisa, 2012), hingga yang lebih geografi, sejarah, ekonomi, agama dan
kompleks dengan menggunakan inferensi fuzzy kompetensi keahlian/kejuruan
(Sam’an, 2015; Rozi dan Purnomo, 2018), naïve Secara garis besar terdapat empat tahapan utama
Bayes (Suryadi, 2018) atau metode Preference dalam pengembangan model klasifikasi yang akan
Ahmad R. dkk, Model Klasifikasi Calon Mahasiswa… 727
digunakan sebagai algoritma untuk sistem yang relatif lama. Mahasiswa pada kelompok tersebut
rekomendasi program studi ini, yaitu preprocessing, dinilai mempunyai kecocokan yang lebih tinggi
training & validation, testing, dan evaluation. terhadap program studi dibandingkan mahasiswa-
Gambar 1 menunjukkan diagram alir yang digunakan mahasiswa lainnya. Tidak hanya berdasarkan jumlah
pada penelitian ini beserta beberapa detail informasi SKS dan IPK, status mahasiswa juga diperhatikan
untuk masing-masing tahapan tersebut. pada saat seleksi dataset. Peneliti hanya
menggunakan data mahasiswa dengan status yang
sudah lulus maupun yang masih aktif. Sebaliknya,
mahasiswa dengan status selain itu tidak akan
dimasukkan ke dalam dataset, tidak peduli seberapa
baik nilai IPK maupun jumlah SKS yang pernah
diambil.
Seleksi dataset juga dilakukan berdasarkan
jurusan SMA dan nilai rerata pada mata pelajaran
tertentu. Bagi individu dengan jurusan SMA IPA,
maka individu tersebut haruslah mempunyai nilai
rerata pada beberapa mata pelajaran seperti
matematika, bahasa Indonesia, bahasa Inggris,
biologi, kimia, fisika dan agama agar dapat
diikutsertakan pada data latih model. Untuk jurusan
IPS, yang menjadi pertimbangan adalah mata
pelajaran matematika, bahasa Indonesia, bahasa
Inggris, geografi, sejarah, ekonomi dan agama
sedangkan untuk jurusan Non-IPA-IPS yang menjadi
pertimbangan hanyalah nilai rerata pada mata
pelajaran kompetensi keahlian/kejuruan.
Terakhir, dilakukan seleksi berdasarkan jenis
program studi. Pada penelitian ini, program studi
yang digunakan hanya melibatkan program studi
sarjana reguler yang merupakan mayoritas dari
program sarjana yang ada di UII. Program studi
dengan jenjang berbeda, seperti diploma dan
pascasarjana, serta program internasional tidak
disertakan dalam penelitian ini dikarenakan
keterbatasan data yang akan sangat mempengaruhi
hasil klasifikasi yang akan didapatkan. Setelah
Gambar 1. Tahapan penelitian
melakukan preprocessing, didapatkan total 24
program studi jenjang sarjana pada dataset (label 0
2.1. Preprocessing
s.d label 23). Tabel 2 menunjukkan program studi dan
Tahapan ini dilakukan untuk menyiapkan jumlah kemunculannya pada dataset diurutkan dari
dataset sebelum diimplementasikan pada model kemunculan terbanyak sampai dengan yang paling
klasifikasi. Beberapa teknik seperti agregasi dan sedikit, sementara contoh data yang telah melalui
seleksi (filtering) dilakukan pada tahapan proses preprocessing dapat dilihat pada Gambar 2.
preprocessing. Teknik agregasi dilakukan untuk
mendapatkan nilai rerata dari setiap mata pelajaran Tabel 2. Jumlah kemunculan masing-masing prodi pada dataset
Prodi n Prodi n
pada tiap individu. Peneliti juga membagi jurusan
SMA ke dalam tiga kelompok yaitu Ilmu Akuntansi 265 Ilmu Komunikasi 78
Pengetahuan Alam (IPA), Ilmu Pengetahuan Sosial Manajemen 244 Informatika 76
(IPS), dan Non-IPA-IPS. Hal tersebut dilakukan Teknik Kimia 139 Teknik Sipil 65
karena pada dataset terdapat lebih dari sepuluh jenis Psikologi 123 Perbankan dan Keuangan 42
jurusan SMA sehingga perlu pengelompokan ke
Ekonomi Pembangunan 116 Ekonomi Islam 40
dalam kategori yang lebih umum.
Selanjutkan melakukan seleksi atau filtering Hukum 110 Pendidikan Agama Islam 30
dataset yang dilakukan berdasarkan jumlah SKS dan Teknik Lingkungan 99 Teknik Elektro 29
nilai IPK mahasiswa. Nantinya, peneliti hanya Statistika 93 Ahwal Al-Syakhshiyah 23
menggunakan data mahasiswa yang mempunyai Teknik Industri 83 Pendidikan Bahasa Inggris 17
jumlah SKS minimal 80 dan IPK minimal 3.00.
Farmasi 83 Teknik Mesin 17
Peneliti berasumsi bahwa mahasiswa dengan
karakteristik tersebut adalah mahasiswa yang dinilai Kimia 82 Hubungan Internasional 16
cukup berhasil menjalankan studi pada jangka waktu Arsitektur 79 Kedokteran 7
728 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 9, No. 4, Agustus 2022, hlm. 725-734
mengidentifikasi bagaimana hubungan antara non-linear. Konsep tersebut bekerja dengan cara
variabel dependen dengan variabel independen. membawa data ke dalam dimensi yang lebih tinggi
Fungsi logistik berupa kurva S (sigmoid curve) sehingga lebih mudah untuk dipetakan hyperplane-
digunakan pada model klasifikasi untuk memprediksi nya. Dengan konsep kernel, hyperplane pada model
probabilitas semua hasil luaran yang memungkinkan. SVM dapat berbentuk non-linear. Beberapa contoh
Dalam implementasinya, model MLR menggunakan kernel yang dapat digunakan antara lain polynomial,
pendekatan one-versus-one (OVO) atau one-versus- radial basis function (RBF) dan sigmoid. Sama
rest (OVS) sehingga dapat digunakan untuk kasus seperti MLR, model SVM sendiri sebenarnya
klasifikasi dengan banyak kelas. Pendekatan OVO digunakan untuk kasus klasifikasi dengan kelas biner.
akan membandingkan satu per satu antar kelas, Untuk kasus dengan banyak kelas maka pendekatan
sedangkan OVS akan membandingkan secara OVO atau OVS dapat digunakan. Fungsi aktivasi
spesifik satu kelas terhadap semua kelas lainnya. softmax juga dapat digunakan untuk memprediksi
Artinya, pada model MLR akan didapatkan banyak kelas hasil luaran akhir model SVM. Beberapa sistem
model regresi logistik sederhana. Untuk memprediksi rekomendasi yang dibangun menggunakan SVM di
kelas hasil luaran akhir, digunakan fungsi aktivasi antaranya adalah yang terkait berita (Fortuna,
softmax yang menormalisasi probabilitas kelas Fortuna, & Mladenić, 2010) dan penentuan dosen
menggunakan semua probabilitas hasil luaran dari pembimbing (Pradana, 2020).
masing-masing model regresi logistik sederhana yang
didapatkan Salah satu contoh sistem rekomendasi 3. HASIL DAN PEMBAHASAN
yang dibangun dengan MLR adalah untuk tim
olahraga kriket (Jayanth dkk, 2018). 3.1. Performa Model Tahap Validation
Model kedua adalah Random Forest (RF) yang
merupakan model klasifikasi berbasis konsep pohon Model dikembangkan menggunakan bahasa
keputusan (decision tree). Model ini pemrograman Python dan mengimplementasikan
mengagregasikan banyak pohon keputusan yang paket Scikit-Learn (Sklearn). Tabel 3 menunjukkan
independen guna memprediksi kelas hasil luaran. performa 3 model klasifikasi machine learning yang
Tidak seperti pohon keputusan biasa yang dilatih menggunakan nilai default atau parameter
menggunakan semua prediktor dan semua data bawaan paket Sklearn. Dilihat dari beberapa metrik
sampel, RF hanya menggunakan beberapa prediktor evaluasi, terlihat bahwa model RF memiliki performa
saja. Sedangkan untuk data sampelnya, RF dapat yang paling baik dibandingkan MLR maupun SVM
memilih untuk menggunakan semua data sampel atau dilihat dari sisi akurasi maupun metrik evaluasi
melakukan sampling, tergantung konfigurasi yang lainnya.
digunakan oleh peneliti. Pemilihan prediktor dan data Metrik evaluasi yang digunakan pada penelitian
sampel tersebut dilakukan secara acak (random). Hal ini antara lain accuracy, precision, recall, F1-score,
ini membuat setiap pohon keputusan yang terdapat Area Under Receiver Operating Characteristic
pada model RF akan memiliki atribut yang unik dan Curve (AUC-ROC), Gini coefficient, dan Log loss.
berbeda dari pohon keputusan lainnya. Konsep yang Formula untuk menghitung skor dari beberapa metrik
diusung tersebut membuat model RF mampu seperti accuracy, precision, recall, F1-score, dan
mengenali dan mempelajari banyak opsi dari satu AUC-ROC dapat dilihat pada penelitian (Hossin dan
jenis dataset saja. Konsep tersebut juga yang Sulaiman, 2015), sedangkan formula untuk metrik
membuat model RF semakin kaya akan informasi Gini coefficient dan Log loss masing-masing
meskipun mengusung konsep yang cukup sederhana. didapatkan dari referensi (Srivastava, 2019) dan
Untuk memprediksi kelas hasil luaran digunakan (Bishop, 2006).
skema voting. Kelas yang paling banyak muncul Walaupun sudah mendapatkan performa yang
sebagai hasil prediksi dari semua pohon keputusan cukup bagus pada model RF, akan tetapi proses
yang tersedia akan dipilih sebagai kelas hasil luaran hyperparameter tuning akan tetap dilakukan. Hal ini
akhir. Beberapa sistem rekomendasi yang dibangun untuk melihat apakah proses tersebut mampu
menggunakan RF di antaranya adalah yang terkait mendongkrak performa model terutama pada MLR
produk (Khanvilkar dan Vora, 2018) dan kredit bank dan SVM yang dinilai masih belum maksimal.
(Putra, 2019) Hyperparameter tuning dilakukan dengan metode
Model ketiga adalah Support Vector Machine random search setelah mengatur beberapa
(SVM) yang secara konsep digunakan untuk kemungkinan parameter model (grid parameter).
menemukan suatu batas atau dikenal dengan Pada proses optimisasi tersebut, performa model akan
hyperplane yang mampu memaksimalkan jarak antar diukur menggunakan data validasi yang proporsinya
kelas. Pada dasarnya, model SVM digunakan untuk diambil 20% dari data latih.
kasus linear, artinya hyperplane yang dicari adalah
suatu garis linear yang mampu menjadi pemisah antar
kelas. Namun bukan berarti model SVM tidak dapat
digunakan pada kasus non-linear. Konsep kernel atau
kernel tricks dapat digunakan pada kasus klasifikasi
730 Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), Vol. 9, No. 4, Agustus 2022, hlm. 725-734
Artinya, tidak seperti model MLR dan SVM Secara detail, model RF tersebut mempunyai
yang hanya cukup bagus untuk memprediksi program total 400 pohon keputusan untuk menentukan hasil
studi tertentu, model RF mempunyai kemampuan klasifikasi. Masing-masing pohon keputusan
prediksi yang cukup bagus hampir untuk semua memiliki kedalaman maksimal sebanyak 64 dan
program studi yang terdapat pada dataset. menggunakan semua records data dalam
Berdasarkan evaluasi yang telah dilakukan pembentukannya. Sebaliknya, setiap pohon
menggunakan beberapa metrik evaluasi sekaligus keputusan tidak menggunakan semua atribut yang
kurva ROC, dapat diambil kesimpulan bahwa model tersedia pada dataset, melainkan hanya menggunakan
RF memberikan performa yang paling baik tiga sampai dengan empat atribut saja. Artinya, pohon
dibandingkan model MLR dan SVM. Tidak hanya keputusan yang terdapat pada model RF memiliki
untuk beberapa program studi tertentu, akan tetapi karakteristik yang berbeda-beda.
model RF mempunyai kekuatan prediksi yang cukup
bagus untuk hampir semua jenis program studi.
4. KESIMPULAN
DAFTAR PUSTAKA
Dalam penelitian ini, tim penulis telah berhasil
mengembangkan sebuah sistem rekomendasi BISHOP, C.M., 2006. Pattern Recognition and
pemilihan program studi sarjana berbasis machine Machine Learning. Switzerland: Springer
learning dengan menggunakan data mahasiswa dan New York.
lulusan program sarjana di Universitas Islam FAIZAL, E., 2015. Analisis Pemilihan Jurusan
Indonesia. Di antara ketiga model yang Favorit Menggunakan Metode Promethee
dikembangkan (MLR, RF, dan SVM), algoritma RF (Studi Kasus Pada STMIK El Rahma
memberikan kinerja terbaik berdasarkan semua Yogyakarta). Jurnal Fahma, 13.
metrik yang ada, mulai dari akurasi 86%, presisi 84%,
FORTUNA, B., FORTUNA, C. dan MLADENIĆ,
recall 86%, dan F1-Score 84%, hingga AUC-ROC
D., 2010, September. Real-time news
97%, Koefisien Gini 95%, dan Log-Loss 0,66.
recommender system. In Joint European
Sesuai dengan peta jalan penelitian yang
Conference on Machine Learning and
menaungi penelitian ini, tahapan penelitian
Knowledge Discovery in Databases (pp.
berikutnya bertujuan untuk meningkatkan kualitas
583-586). Springer, Berlin, Heidelberg.
hasil rekomendasi yang diberikan, salah satunya
dengan eksplorasi beberapa teknik tingkat lanjut HOSSIN, M. dan SULAIMAN, M.N., 2015. A
seperti multi-stage machine learning (Mardani dkk., Review on Evaluation Metrics for Data
2020) atau collaborative filtering (Nguyen dkk, 2020; Classification Evaluations. International
Wei dkk., 2017), serta dengan mengintegrasikan data Journal of Data Mining & Knowledge
baru berbasis psikometri, khususnya dalam rangka Management Process (IJDKP), 4-5
memfasilitasi minat dan bakat calon mahasiswa baru JAYANTH, S.B., ANTHONY, A., ABHILASHA,
dalam proses rekomendasi pemilihan prodi yang akan G., SHAIK, N. dan SRINIVASA, G., 2018.
diberikan. Selain itu, penelitian selanjutnya juga akan A team recommendation system and
menambahkan purwarupa sistem rekomendasi outcome prediction for the game of cricket.
berbasis web dan aplikasi perangkat bergerak agar Journal of Sports Analytics, 4(4), pp.263-
hasil dari penelitian ini dapat langsung dimanfaatkan 273.
oleh calon mahasiswa baru dalam proses PMB KHANVILKAR, G. dan VORA, D., 2018. Sentiment
sebelum memilih program studi yang akan mereka analysis for product recommendation using
jalani nantinya. random forest. International Journal of
Engineering & Technology, 7(3), pp.87-89.
UCAPAN TERIMA KASIH
KHANAM, Z., dan ALKHALDI, S., 2019. An
Tim penulis mengucapkan terima kasih kepada Intelligent Recommendation Engine for
Jurusan Informatika, Fakultas Teknologi Industri, Selecting the University for Graduate
Universitas Islam Indonesia yang telah mendanai Courses in KSA: SARS Student Admission
penelitian ini dan kepada Badan Sistem Informasi Recommender System. In International
Universitas Islam Indonesia yang telah menyediakan Conference on Inventive Computation
data yang dibutuhkan dalam penelitian ini
Ahmad R. dkk, Model Klasifikasi Calon Mahasiswa… 733