Tugas Besar
Tugas Besar
Disusun Oleh:
Muhammad Fadhil (15-2020-044)
Muhammad Fathir Reza Malik (15-2020-110)
M Erlangga (15-2020-075)
Puji syukur kami panjatkan kehadirat Allah Swt. yang sudah melimpahkan
rahmat, taufik, dan hidayah-Nya sehingga kami bisa menyusun tugas besar mata
kuliah Machine Learning ini dengan baik serta tepat waktu.
Oleh sebab itu, kritik serta saran yang sifatnya membangun sangat saya
harapkan guna kesempurnaan makalah ini. Kami mengucapkan terima kasih
kepada Bapak Dr. Jasman Pardede, S.Si., M.T. selaku dosen mata kuliah Machine
Learning. Kepada pihak yang sudah menolong turut dan dalam penyelesaian
makalah ini. Atas perhatian serta waktunya, kami sampaikan banyak terima kasih.
Penulis
BAB I
PENDAHULUAN
Metode Naive Bayes adalah sebuah metode statistik yang digunakan untuk
klasifikasi dan prediksi dalam bidang Machine Learning. Metode ini didasarkan pada
teorema Bayes, yang menggabungkan probabilitas kondisional dengan probabilitas prior
untuk menghasilkan probabilitas posterior. Dalam konteks klasifikasi, Naive Bayes
digunakan untuk memprediksi kelas dari suatu contoh data berdasarkan atribut-atribut
yang diamati. Metode ini mengasumsikan bahwa setiap atribut dalam data independen
secara kondisional terhadap kelasnya.
Metode KNN adalah salah satu algoritma klasifikasi dan regresi yang populer
dalam Machine Learning. Algoritma KNN dapat digunakan untuk memprediksi kelas
atau nilai dari suatu data baru berdasarkan klasifikasi data yang sudah ada dalam dataset.
Prinsip dasar KNN adalah bahwa data yang serupa cenderung berada dalam area yang
sama dalam ruang atribut. Algoritma ini bekerja dengan mencari K titik data terdekat
dari data uji yang
ingin diprediksi. KNN kemudian mengambil mayoritas kelas dari K tetangga terdekat
tersebut untuk memprediksi kelas data uji.
1.3 Tujuan
Berdasarkan rumusan masalah yang ada, maka didapatkan beberapa tujuan
sebagai berikut:
1. Mengetahui pengertian dari Machine Learning.
2. Mengetahui pengertian metode yang ada pada klasifikasi Machine Learning.
3. Mengetahui dan memahami implementasi program dan studi kasus pada
metode klasifikasi Machine Learning.
1.3 Manfaat
Berdasarkan laporan ini, manfaat yang akan didapatkan bagi para pembaca antara
lain:
1. Pemahaman tentang metode-metode klasifikasi Machine Learning.
Laporan ini memberikan pemahaman yang mendalam tentang prinsip
kerja, kelebihan, dan kelemahan masing-masing metode klasifikasi. Dengan
mempelajari laporan ini, pembaca akan dapat mengidentifikasi metode mana yang
paling sesuai untuk memecahkan masalah klasifikasi yang spesifik.
2.1. Metode
Metode yang dipilih adalah klasifikasi, klasifikasi adalah untuk mengelompokkan objek atau contoh
ke dalam kelas-kelas yang telah ditentukan sebelumnya. Tujuan dari klasifikasi adalah untuk
mengembangkan model atau algoritma yang dapat mengenali pola atau karakteristik tertentu dalam
data input dan mengkategorikan data baru ke dalam kelas yang tepat berdasarkan pembelajaran dari
data pelatihan sebelumnya. Dari banyaknya algoritma yang bisa dipilih, 4 dipilih sebagai studi
kasus:
2. KNN (M Erlangga )
Dalam hal ini, machine learning mampu menangkap data yang ada dengan perintahnya
sendiri. ML juga dapat memeriksa data yang ada dan pengetahuan yang diperoleh darinya
untuk melakukan tugas tertentu. Tugas yang dapat dilakukan ML sangat bervariasi
tergantung pada apa yang mereka pelajari.
Beberapa matematikawan seperti Adrien Marie Legendre, Thomas Bayes, dan Andrey
Markov pertama kali memperkenalkan istilah machine learning pada tahun 1920-an
dengan menjelaskan dasar-dasar machine learning dan konsepnya. ML telah banyak
berkembang sejak saat itu. Contoh aplikasi ML yang cukup terkenal adalah Deep Blue
yang diciptakan oleh IBM pada tahun 1996. Ada beberapa teknik machine learning, namun
secara umum ada dua teknik pembelajaran dasar dalam ML, yaitu supervised dan
unsupervised.
Teknik supervised learning merupakan teknik yang dapat diterapkan pada pembelajaran
mesin yang bisa menerima informasi yang sudah ada pada data dengan memberikan label
tertentu. Diharapkan teknik ini bisa memberikan target terhadap output yang dilakukan
dengan membandingkan pengalaman belajar di masa lalu.
Sedangkan teknik unsupervised learning merupakan teknik yang dapat diterapkan pada
machine learning yang digunakan pada data yang tidak memiliki informasi yang bisa
diterapkan secara langsung. Diharapkan teknik ini dapat membantu menemukan struktur
atau pola tersembunyi pada data yang tidak memiliki label.
2.3. Dataset
Dataset adalah kumpulan data yang diatur secara terstruktur. Biasanya, disajikan dalam
bentuk tabel, alias baris dan kolom. Setiap baris dan kolom biasanya mewakili variabel
tertentu. Asumsikan bahwa kolom mewakili skor total siswa sedangkan baris mewakili
kelas siswa. Dengan kata lain, salah satu fungsi dataset adalah menunjukkan hubungan
antar variabel. Terutama ketika jumlah informasi dan variabel yang diselidiki sangat
bervariasi.
Dataset yang kami gunakan adalah dataset Mall_Customers.csv. Dataset ini terdiri dari
fitur-fitur yang dapat digunakan untuk memprediksi pasien yang berisiko tinggi terkena
penyakit jantung. Dataset ini diambil dari situs Kaggle dengan judul “Mall Customer
Segmentation Data” oleh VIJAY CHOUDARY.
2.4. Pre-processing
a. Missing Value
Missing Value adalah hilangnya beberapa data yang telah diperoleh. Dalam dunia
data science, missing value erat kaitannya dalam proses perselisihan data (data
wrangling) sebelum nantinya akan dilakukan analisis dan prediksi data. Data wrangling
merupakan kegiatan penyeragaman data atau pembersihan data (cleaning data) dari data
kotor (mentah) menjadi data yang nantinya siap digunakan untuk analisis. Data kotor
(mentah) yang dimaksud adalah data yang terindikasi masih terdapat ketidakseragaman
format, muncul missing values pada data, dan masih juga ditemukan adanya tambahan
sufiks, prefiks dan lain-lain. Metode dalam menangani missing data secara umum dapat
dilakukan dengan cara berikut ini;
Secara sederhana, tujuan dari PCA adalah mereduksi dimensi atau mengurangi
jumlah atribut pada dataset tanpa mengurangi informasi. Contohnya pada sebuah dataset
harga rumah. Pada PCA setiap atribut disebut sebagai principal component. Jika terdapat
10 atribut pada dataset, berarti terdapat 10 principal component. Pada gambar di bawah
[9] terdapat histogram dari 10 principal component dan variance dari setiap principal
component.
PCA bekerja dengan menghitung variance dari tiap atribut. Variance adalah
informasi yang dimiliki sebuah atribut. Misal pada dataset rumah, atribut jumlah kamar
memiliki variance atau informasi sebesar 92% dan warna rumah memiliki
variance/informasi sebesar 4% tentang harga rumah terkait. Dari hasil perhitungan
variance, atribut warna rumah dapat dibuang dari dataset karena tidak memiliki
informasi yang cukup signifikan ketika kita ingin mempercepat pelatihan sebuah model.
a. Encoding
Encoding adalah proses mengubah pikiran menjadi komunikasi. Encoder
menggunakan ‘media’ untuk mengirim pesan, panggilan telepon, email, pesan teks,
pertemuan tatap muka, atau alat komunikasi lainnya. Tingkat pemikiran sadar yang
masuk ke pesan penyandian dapat bervariasi.
Dalam proyek pembelajaran mesin, kita biasanya berurusan dengan dataset yang
memiliki kolom kategorikal yang berbeda, di mana beberapa kolom memiliki elemen-
elemen dalam kategori variabel ordinal, misalnya kolom tingkat pendapatan dengan
elemen-elemen rendah, sedang, atau tinggi. Dalam kasus ini, kita dapat menggantikan
elemen-elemen ini dengan 1, 2, 3, di mana 1 mewakili 'rendah', 2 mewakili 'sedang', dan
3 mewakili 'tinggi'.
Melalui jenis encoding ini, kita mencoba mempertahankan makna dari elemen-
elemen tersebut di mana bobot yang lebih tinggi diberikan kepada elemen-elemen yang
memiliki prioritas lebih tinggi. Label Encoding adalah teknik yang digunakan untuk
mengubah kolom kategorikal menjadi numerik agar dapat digunakan oleh model
pembelajaran mesin yang hanya menerima data numerik. Ini merupakan tahap pra-
pemrosesan yang penting dalam sebuah proyek pembelajaran mesin.
C. Decision Tree
1. Pengertian
1. Decision Tree adalah salah satu algoritma klasifikasi yang paling populer dalam
pembelajaran mesin. Algoritma ini membangun model prediktif dalam bentuk struktur pohon
keputusan, di mana setiap simpul dalam pohon mewakili fitur, cabang-cabang mewakili aturan
pengambilan keputusan, dan daun-daun mewakili hasil klasifikasi atau label.
Decision tree adalah algoritma machine learning yang menggunakan seperangkat aturan
untuk membuat keputusan dengan struktur seperti pohon yang memodelkan kemungkinan hasil,
biaya sumber daya, utilitas dan kemungkinan konsekuensi atau resiko. Konsepnya adalah dengan
cara menyajikan algoritma dengan pernyataan bersyarat, yang meliputi cabang untuk mewakili
langkah-langkah pengambilan keputusan yang dapat mengarah pada hasil yang menguntungkan.
Dimana setiap cabang mewakili hasil untuk atribut, sedangkan jalur dari daun ke akar
mewakili aturan untuk klasifikasi. Karena itu algoritma ini disebut decision tree karena
pilihannya bercabang, membentuk struktur yang terlihat seperti pohon.Kita bisa membuat pohon
keputusan baik itu secara vertikal atau horizontal tergantung pada preferensi kita. Membaca
pohon keputusan horizontal dari kiri ke kanan dan pohon keputusan vertikal dari atas ke bawah.
2. Alasan Menggunakan Metode Decision Tree
a.Decision tree biasanya meniru kemampuan berpikir manusia saat membuat keputusan, sehingga mudah
dimengerti.
b.Logika dibalik decision tree dapat dengan mudah dipahami karena menunjukkan struktur seperti pohon.
Kelebihan :
c) Proses Data Cleaning cenderung lebih sedikit, kasus nilai yang hilang dan outlier kurang
signifikan pada data decision tree.
Kekurangan :
a) Sifat tidak stabil, ini menjadi salah satu keterbatasan dari algoritma decision tree ketika terdapat
perubahan kecil pada data dapat menghasilkan perubahan besar dalam struktur pohon keputusan
11 3 1 Won
12 3 2 Won
13 3 1 Won
14 3 2 Won
15 5 2 Won
5 diantaranya adalah data uji
1. Naïve Bayes
- Accuracy: 0.7333333333333333
- Precision: 0.8095238095238095
- Recall: 0.7333333333333333
- F1 Score: 0.6622222222222222
2. KNN
- Accuracy : 20.0%
- Precision : 5.113%
- Recall : 25.0%
- F1 Score : 8.49%
3. Decision Tree
- Accuracy : 0.26666666666666666
- Precision : 0.125
- Recall : 0.09166666666666667
- F1 Score : 0.10416666666666667
Berdasarkan analisis di atas, model terbaik untuk dataset ini adalah Naive Bayes karena
memberikan hasil yang sangat baik dengan nilai akurasi, precision, recall, dan F1 score yang
hampir sempurna (Mendekati 1.0). Model ini bisa digunakan untuk memprediksi target
variabel dengan tingkat keberhasilan yang tinggi.