Modul Evaluasi Model
Modul Evaluasi Model
KATA PENGANTAR
Dunia saat ini berada pada era industri 4.0 yang lebih banyak menggunakan teknologi
digital dan Indonesia telah mempersiapkan diri untuk masuk ke dalam tahap industri
4.0 tersebut melalui agenda percepatan transformasi digital. Salah satu langkah yang
dilakukan dalam percepatan transformasi digital adalah penyiapan talenta digital.
Laporan Bank Dunia tahun 2019 menyatakan bahwa Indonesia memiliki kekurangan 9
juta pekerja berketerampilan teknologi informasi dan komunikasi, sehingga perlu
dilakukan penyiapan talenta digital untuk memenuhi kebutuhan tersebut dengan
alokasi 600.000 orang setiap tahun. Upaya penyiapan talenta digital dilakukan oleh
berbagai unsur baik pemerintah, institusi pendidikan, industri, komunitas masyarakat,
maupun media publik.
Sejak tahun 2018, Kementerian Komunikasi dan Informatika melalui Badan Penelitian
dan Pengembangan Sumber Daya Manusia menginisiasi Program Beasiswa Pelatihan
Digital bernama Digital Talent Scholarship (DTS) yang telah berhasil dianugerahkan
kepada lebih dari 300.000 penerima pelatihan bidang teknologi informasi dan
komunikasi. Program Digital Talent Scholarship ini ditujukan untuk memberikan
pelatihan dan sertifikasi berbagai tema pada bidang informatika, komunikasi, dan
telekomunikasi, serta diharapkan melengkapi pemenuhan kebutuhan talenta digital
Indonesia.
Program DTS tahun 2023 secara garis besar dibagi menjadi delapan akademi, salah
satunya Vocational School Graduate Academy (VSGA). VSGA merupakan program
pelatihan berbasis kompetensi kerja nasional bagi lulusan pendidikan vokasi
SMK/sederajat dan diploma bidang Science, Technology, Engineering, Mathematics
(STEM) yang belum mendapatkan pekerjaan atau sedang tidak bekerja. Tujuan
Program VSGA adalah menyiapkan talenta digital dengan standar kompetensi sesuai
Standar Kompetensi Kerja Nasional Indonesia (SKKNI). Oleh karena itu, penyusunan
modul pelatihan untuk Program VSGA disusun dengan berbasis pada kompetensi
(Competency Based Training). Kami berpesan agar modul pelatihan berbasis
kompetensi yang telah disusun ini dapat menjadi referensi bagi peserta dan pengajar
agar pelatihan berjalan efektif dan efisien.
Selamat mengikuti Pelatihan Digital Talent Scholarship, mari persiapkan diri kita
menjadi talenta digital Indonesia yang kompeten.
Unit kompetensi ini berhubungan dengan pengetahuan, keterampilan, dan sikap kerja
yang dibutuhkan dalam dalam mengumpulkan data untuk data science.
A. Tujuan Umum
Setelah mempelajari modul ini peserta latih diharapkan mampu menjelaskan metode
evaluasi model.
B. Tujuan Khusus
Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan
Associate Data Scientist ini guna memfasilitasi peserta latih sehingga pada akhir
pelatihan diharapkan memiliki kemampuan melakukan evaluasi model menggunakan
MAE, MSE, RMSE.
LATAR BELAKANG
Unit kompetensi ini dinilai berdasarkan tingkat kemampuan dalam merancang website.
Adapun penilaian dilakukan dengan menggabungkan serangkaian metode untuk
menilai kemampuan dan penerapan pengetahuan pendukung penting. Penilaian
dilakukan dengan mengacu kepada Kriteria Unjuk Kerja (KUK) dan dilaksanakan di
Tempat Uji Kompetensi (TUK), ruang simulasi atau workshop dengan cara:
1.1 Lisan
1.2 Wawancara
1.3 Tes tertulis
1.4 Demonstrasi
1.5 Metode lain yang relevan.
DESKRIPSI PELATIHAN
TUJUAN PEMBELAJARAN
Setelah mempelajari modul ini peserta latih diharapkan mampu menggunakan metode
AI untuk menyelesaikan suatu permasalahan.
KOMPETENSI DASAR
1
INDIKATOR HASIL BELAJAR
INFORMASI PELATIHAN
INFORMASI PEMBELAJARAN
2
Unit Kompetensi Materi Kegiatan Durasi Rasio Sumber
pembelajaran pembelajaran Pelatihan Praktek : pembelajaran
Teori
Materi Pokok
- Evaluasi Model
- Metrik Pengukuran Evaluasi Model untuk Regresi
- Pengukuran Evaluasi Model untuk Klasifikasi
- Pengukuran Evaluasi Model untuk Klastering
3
Mengevaluasi Hasil Pemodelan
Tujuan dari model MLnya adalah mempelajari pola yang menggeneralisasi dengan baik
untuk data yang tak terlihat, bukan hanya menghafal data yang ditunjukkan selama
pelatihan. Setelah Anda memiliki model, penting untuk memeriksa apakah model Anda
berkinerja baik pada contoh tak terlihat yang belum Anda gunakan untuk melatih
model. Untuk melakukan ini, Anda menggunakan model untuk memprediksi jawaban
pada dataset evaluasi (diadakan data) dan kemudian membandingkan target yang
diprediksi dengan jawaban yang sebenarnya (ground truth). Sejumlah metrik digunakan
dalam ML untuk mengukur keakuratan prediktif model. Pilihan metrik akurasi
tergantung pada tugas ML-nya. Penting untuk meninjau metrik ini untuk memutuskan
apakah model Anda berkinerja baik.
Klasifikasi Biner
Output aktual dari banyak algoritma klasifikasi biner adalah skor prediksi. Skor
menunjukkan kepastian sistem bahwa pengamatan yang diberikan milik kelas positif.
Untuk membuat keputusan tentang apakah pengamatan harus diklasifikasikan sebagai
positif atau negatif, sebagai konsumen dari skor ini, Anda akan menafsirkan skor dengan
memilih ambang klasifikasi (cut-off) dan membandingkan skor terhadapnya. Setiap
pengamatan dengan skor yang lebih tinggi dari ambang batas kemudian diprediksi
sebagai kelas positif dan skor lebih rendah dari ambang yang diprediksi sebagai kelas
negatif.
4
Gambar 1: Distribusi Skor untuk Model Klasifikasi Biner
AUC adalah jenis metrik yang berbeda. Ini mengukur kemampuan model untuk
memprediksi skor yang lebih tinggi untuk contoh-contoh positif dibandingkan dengan
contoh-contoh negatif. Karena AUC tidak tergantung pada ambang batas yang dipilih,
Anda bisa merasakan kinerja prediksi model Anda dari metrik AUC tanpa memilih
ambang batas.
5
Tergantung pada masalah bisnis Anda, Anda mungkin lebih tertarik pada model yang
berkinerja baik untuk subset tertentu dari metrik ini. Misalnya, dua aplikasi bisnis
mungkin memiliki persyaratan yang sangat berbeda untuk model ML-nya:
• Satu aplikasi mungkin perlu sangat yakin tentang prediksi positif yang sebenarnya
positif (presisi tinggi) dan mampu mengklasifikasikan beberapa contoh positif sebagai
negatif (recall moderat).
• Aplikasi lain mungkin perlu memprediksi dengan benar sebanyak mungkin contoh
positif (recall tinggi) dan akan menerima beberapa contoh negatif yang salah
diklasifikasikan sebagai positif (presisi moderat).
Di Amazon IL, pengamatan mendapatkan skor yang diprediksi dalam kisaran [0,1].
Ambang batas skor untuk membuat keputusan mengklasifikasikan contoh sebagai 0
atau 1 diatur secara default menjadi 0,5. Amazon IL memungkinkan Anda untuk
meninjau implikasi memilih ambang skor yang berbeda dan memungkinkan Anda untuk
memilih ambang batas yang sesuai dengan kebutuhan bisnis Anda.
Klasifikasi Multiclass
Berbeda dengan proses untuk masalah klasifikasi biner, Anda tidak perlu memilih
ambang skor untuk membuat prediksi. Jawaban yang diprediksi adalah kelas (yaitu,
label) dengan skor prediksi tertinggi. Dalam beberapa kasus, Anda mungkin ingin
menggunakan jawaban yang diprediksi hanya jika diprediksi dengan skor tinggi. Dalam
hal ini, Anda dapat memilih ambang batas pada skor yang diprediksi berdasarkan mana
Anda akan menerima jawaban yang diprediksi atau tidak.
Metrik tipikal yang digunakan dalam multiclass sama dengan metrik yang digunakan
dalam kasus klasifikasi biner. Metrik dihitung untuk setiap kelas dengan
memperlakukannya sebagai masalah klasifikasi biner setelah mengelompokkan semua
kelas lain sebagai milik kelas kedua. Kemudian metrik biner rata-rata atas semua kelas
untuk mendapatkan rata-rata makro (memperlakukan setiap kelas sama) atau rata-rata
tertimbang (tertimbang dengan frekuensi kelas) metrik. Di Amazon ML-rata-rata makro
digunakan untuk mengevaluasi keberhasilan prediktif dari classifier multiclass.
6
Gambar 2: Kebingungan Matrix untuk model klasifikasi multiclass
Regresi
Untuk tugas regresi, metrik akurasi khas adalah root mean square error (RMSE) dan
mean absolute percentage error (MAPE). Metrik ini mengukur jarak antara target
numerik yang diprediksi dan jawaban numerik aktual (ground truth). Di Amazon MLE,
metrik RMSE digunakan untuk mengevaluasi akurasi prediktif model regresi.
7
Gambar 3: Distribusi residu untuk model Regresi
Ini adalah praktik umum untuk meninjauresiduuntuk masalah regresi. Sisa untuk
pengamatan dalam data evaluasi adalah perbedaan antara target sebenarnya dan target
yang diprediksi. Residu mewakili bagian dari target bahwa model tidak dapat
memprediksi. Sisa positif menunjukkan bahwa model meremehkan target (target
sebenarnya lebih besar dari target yang diprediksi). Residual negatif menunjukkan
overestimation (target sebenarnya lebih kecil dari target yang diprediksi). Histogram
residu pada data evaluasi ketika didistribusikan dalam bentuk lonceng dan berpusat
pada nol menunjukkan bahwa model membuat kesalahan secara acak dan tidak secara
sistematis atas atau di bawah memprediksi kisaran tertentu nilai target. Jika residu
tidak membentuk bentuk lonceng berpusat nol, ada beberapa struktur dalam kesalahan
prediksi model. Menambahkan lebih banyak variabel ke model mungkin membantu
model menangkap pola yang tidak ditangkap oleh model saat ini.
8
mendapatkan model yang sangat prediktif dalam iterasi pertama, atau Anda mungkin
ingin meningkatkan model Anda untuk mendapatkan prediksi yang lebih baik. Untuk
meningkatkan kinerja, Anda dapat melakukan iterasi melalui langkah-langkah berikut:
1. Mengumpulkan data: Meningkatkan jumlah contoh pelatihan
2. Pengolahan fitur: Tambahkan lebih banyak variabel dan pemrosesan fitur yang
lebih baik
3. Penyetelan parameter model: Pertimbangkan nilai alternatif untuk parameter
pelatihan yang digunakan oleh algoritma pembelajaran Anda
Kinerja yang buruk pada data pelatihan bisa jadi karena modelnya terlalu sederhana
(fitur input tidak cukup ekspresif) untuk menggambarkan target dengan baik. Kinerja
9
dapat ditingkatkan dengan meningkatkan fleksibilitas model. Untuk meningkatkan
fleksibilitas model, coba hal berikut:
• Tambahkan fitur khusus domain baru dan lebih banyak fitur produk Cartesian, dan
ubah jenis
pemrosesan fitur yang digunakan (misalnya, meningkatkan ukuran n-gram)
• Mengurangi jumlah regularisasi yang digunakan
Jika model Anda kelebihan data pelatihan, masuk akal untuk mengambil tindakan yang
mengurangi fleksibilitas model. Untuk mengurangi fleksibilitas model, coba hal berikut:
• Pilihan fitur: pertimbangkan untuk menggunakan kombinasi fitur yang lebih sedikit,
kurangi ukuran ngram,dan kurangi jumlah tempat sampah atribut numerik.
• Meningkatkan jumlah regularisasi yang digunakan.
Akurasi pada data pelatihan dan uji bisa menjadi buruk karena algoritma pembelajaran
tidak memiliki cukup data untuk dipelajari. Anda dapat meningkatkan kinerja dengan
melakukan hal berikut:
• Meningkatkan jumlah contoh data pelatihan.
• Tingkatkan jumlah pass pada data pelatihan yang ada.
10
Metrik Untuk Evaluasi Model
Dimana :
11
At = Nilai Aktual permintaan
Ft =Nilai hasil peramalan
n = banyaknya data
MAE (Mean Absolute Error) adalah rata-rata selisih mutlak nilai sebenarnya (aktual)
dengan nilai prediksi (peramalan).
MAE digunakan untuk mengukur keakuratan suatu model statistik dalam melakukan
prediksi atau peramalan.
MAE bersama dengan MAPE (Mean Absolute Percentage Error) merupakan ukuran
keakuratan yang paling sering digunakan dalam analisis deret waktu (time series).
12
Tugas Dan Proyek Pelatihan
1. Sebuah department store ingin menganalisa kelompok perilaku belanja dari pelanggannya, dengan
data set yang diberikan buatlah analisa:
a. gunakan kolom ke 2 hingga 4 sebagai input features
b. dengan metode elbow, analisa jumlah cluster yang tepat
c. gunakan K-Means clustering dan analisa hasilnya
2. Sebuah department store ingin menganalisa kelompok perilaku belanja dari pelanggannya, dengan
data set yang diberikan buatlah analisa:
a. gunakan kolom ke 2 hingga 4 sebagai input features
b. dengan dendogram diagram, analisa jumlah cluster yang tepat
c. gunakan Hierachical clustering dan analisa hasilnya
d. bandingkan hasilnya dengan menggunakan metode K-Means
3. Generate data set sebanyak 500 titik data pelatihan bola dengan label yang sesuai
a. lakukan normalisasi fitur pada proses pelatihan data,
b. gunakan DBSCAN dari library sklearn
c. buatlah untuk kasus spherical dan non-spherical data
d. Pada kasus non-spherical data, uji coba dengan metode K-Means dan bandingkan hasilnya
1. Video Pembelajaran
2. E-book
3. Link Youtube/Website rujukan
13
Bahan Tayang
Penilaian
2 JP
14
15