0% menganggap dokumen ini bermanfaat (0 suara)
15 tayangan20 halaman

Tugas Besar

Dokumen ini adalah tugas besar mata kuliah Machine Learning yang membahas implementasi metode klasifikasi, termasuk Decision Tree, Naive Bayes, dan K-Nearest Neighbor. Tujuan laporan ini adalah untuk memberikan pemahaman tentang metode klasifikasi, implementasinya, serta perbandingan kinerja antara metode yang berbeda. Selain itu, dokumen ini juga mencakup aspek-aspek penting dalam pengolahan data seperti pre-processing dan pengurangan dimensi.

Diunggah oleh

fatir reza
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
15 tayangan20 halaman

Tugas Besar

Dokumen ini adalah tugas besar mata kuliah Machine Learning yang membahas implementasi metode klasifikasi, termasuk Decision Tree, Naive Bayes, dan K-Nearest Neighbor. Tujuan laporan ini adalah untuk memberikan pemahaman tentang metode klasifikasi, implementasinya, serta perbandingan kinerja antara metode yang berbeda. Selain itu, dokumen ini juga mencakup aspek-aspek penting dalam pengolahan data seperti pre-processing dan pengurangan dimensi.

Diunggah oleh

fatir reza
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 20

TUGAS BESAR

Diajukan untuk memenuhi tugas mata kuliah Machine Learning

Disusun Oleh:
Muhammad Fadhil (15-2020-044)
Muhammad Fathir Reza Malik (15-2020-110)
M Erlangga (15-2020-075)

PROGRAM STUDI INFORMATIKA


FAKULTAS TEKNOLOGI
INDUSTRI INSTITUT TEKNOLOGI
NASIONAL BANDUNG
2023
KATA PENGANTAR

Puji syukur kami panjatkan kehadirat Allah Swt. yang sudah melimpahkan
rahmat, taufik, dan hidayah-Nya sehingga kami bisa menyusun tugas besar mata
kuliah Machine Learning ini dengan baik serta tepat waktu.

Tugas ini kami buat untuk memberikan pembahasan implementasi metode


Machine Learning dalam mengolah sebuah kumpulan data. Kami menyadari jika
masih banyak kekurangan dalam menyusun makalah ini.

Oleh sebab itu, kritik serta saran yang sifatnya membangun sangat saya
harapkan guna kesempurnaan makalah ini. Kami mengucapkan terima kasih
kepada Bapak Dr. Jasman Pardede, S.Si., M.T. selaku dosen mata kuliah Machine
Learning. Kepada pihak yang sudah menolong turut dan dalam penyelesaian
makalah ini. Atas perhatian serta waktunya, kami sampaikan banyak terima kasih.

Bandung, 1 Juni 2023

Penulis
BAB I
PENDAHULUAN

1.1 Latar Belakang


Machine Learning (ML) telah menjadi topik yang sangat populer dan penting
dalam beberapa dekade terakhir karena kemampuannya untuk mengatasi masalah yang
sulit atau rumit, termasuk pengenalan pola, prediksi, klasifikasi, dan pengambilan
keputusan. Teknik-teknik Machine Learning telah diterapkan dalam berbagai bidang
seperti pengenalan wajah, deteksi penipuan kartu kredit, rekomendasi produk, diagnosa
medis, dan masih banyak lagi. Salah satu metode yang kami gunakan dalam laporan ini
adalah klasifikasi, yang berfokus pada empat metode klasifikasi.

Metode Decision Tree adalah sebuah model prediktif yang menggambarkan


pengambilan keputusan atau pengklasifikasian data dengan cara menggambarkan struktur
berbentuk pohon. Model ini menggabungkan serangkaian aturan atau keputusan yang
diambil berdasarkan fitur-fitur atau atribut-atribut dari data untuk mencapai prediksi atau
klasifikasi yang akurat.

Metode Naive Bayes adalah sebuah metode statistik yang digunakan untuk
klasifikasi dan prediksi dalam bidang Machine Learning. Metode ini didasarkan pada
teorema Bayes, yang menggabungkan probabilitas kondisional dengan probabilitas prior
untuk menghasilkan probabilitas posterior. Dalam konteks klasifikasi, Naive Bayes
digunakan untuk memprediksi kelas dari suatu contoh data berdasarkan atribut-atribut
yang diamati. Metode ini mengasumsikan bahwa setiap atribut dalam data independen
secara kondisional terhadap kelasnya.

Metode KNN adalah salah satu algoritma klasifikasi dan regresi yang populer
dalam Machine Learning. Algoritma KNN dapat digunakan untuk memprediksi kelas
atau nilai dari suatu data baru berdasarkan klasifikasi data yang sudah ada dalam dataset.
Prinsip dasar KNN adalah bahwa data yang serupa cenderung berada dalam area yang
sama dalam ruang atribut. Algoritma ini bekerja dengan mencari K titik data terdekat
dari data uji yang
ingin diprediksi. KNN kemudian mengambil mayoritas kelas dari K tetangga terdekat
tersebut untuk memprediksi kelas data uji.

1.2. Rumusan Masalah


Adapun perumusan masalah yang ditemukan dalam implementasi 4 metode
Machine Learning yaitu:
1. Apa itu Machine Learning?
2. Apa itu metode klasifikasi Naïve Bayes?
3. Bagaimana implementasi program dan studi kasus metode klasifikasi
Naïve Bayes?
4. Apa itu metode klasifikasi K-Nearest Neighborhood?
5. Bagaimana implementasi program dan studi kasus metode klasifikasi
K-Nearest Neighborhood?
6. Apa itu metode klasifikasi Decision Tree?
7. Bagaimana implementasi program dan studi kasus metode klasifikasi
Decision Tree?

1.3 Tujuan
Berdasarkan rumusan masalah yang ada, maka didapatkan beberapa tujuan
sebagai berikut:
1. Mengetahui pengertian dari Machine Learning.
2. Mengetahui pengertian metode yang ada pada klasifikasi Machine Learning.
3. Mengetahui dan memahami implementasi program dan studi kasus pada
metode klasifikasi Machine Learning.
1.3 Manfaat
Berdasarkan laporan ini, manfaat yang akan didapatkan bagi para pembaca antara
lain:
1. Pemahaman tentang metode-metode klasifikasi Machine Learning.
Laporan ini memberikan pemahaman yang mendalam tentang prinsip
kerja, kelebihan, dan kelemahan masing-masing metode klasifikasi. Dengan
mempelajari laporan ini, pembaca akan dapat mengidentifikasi metode mana yang
paling sesuai untuk memecahkan masalah klasifikasi yang spesifik.

2. Pemilihan metode yang tepat.


Dengan membahas empat metode klasifikasi utama, laporan ini membantu
pembaca memahami kapan dan bagaimana menerapkan metode yang sesuai
dalam konteks yang berbeda. Pembaca akan mampu mempertimbangkan
karakteristik dataset mereka, tujuan klasifikasi, dan kebutuhan bisnis saat memilih
metode yang paling efektif.

3. Perbandingan kinerja metode.


Laporan ini juga dapat memberikan pemahaman tentang perbandingan
kinerja antara empat metode klasifikasi yang dibahas. Informasi ini sangat
berharga bagi pembaca yang ingin memilih metode dengan kinerja terbaik dalam
mengklasifikasikan data mereka. Perbandingan ini akan membantu pembaca
membuat keputusan yang lebih informasional dan berbasis bukti.
BAB II
LANDASAN TEORI

2.1. Metode
Metode yang dipilih adalah klasifikasi, klasifikasi adalah untuk mengelompokkan objek atau contoh
ke dalam kelas-kelas yang telah ditentukan sebelumnya. Tujuan dari klasifikasi adalah untuk
mengembangkan model atau algoritma yang dapat mengenali pola atau karakteristik tertentu dalam
data input dan mengkategorikan data baru ke dalam kelas yang tepat berdasarkan pembelajaran dari
data pelatihan sebelumnya. Dari banyaknya algoritma yang bisa dipilih, 4 dipilih sebagai studi
kasus:

1. Decision tree ( Muhammad Fathir Reza Malik)

2. KNN (M Erlangga )

3. Naives Bayes (Muhammad Fadhil)

2.2. Machine Learning


Teknologi machine learning (ML) adalah mesin yang dirancang untuk belajar sendiri
tanpa instruksi pengguna. Pembelajaran mesin mengacu pada disiplin ilmu lain seperti
statistik, matematika, dan data mining memungkinkan mesin belajar dengan menganalisis
data tanpa perlu pemrograman atau kontrol.

Dalam hal ini, machine learning mampu menangkap data yang ada dengan perintahnya
sendiri. ML juga dapat memeriksa data yang ada dan pengetahuan yang diperoleh darinya
untuk melakukan tugas tertentu. Tugas yang dapat dilakukan ML sangat bervariasi
tergantung pada apa yang mereka pelajari.

Beberapa matematikawan seperti Adrien Marie Legendre, Thomas Bayes, dan Andrey
Markov pertama kali memperkenalkan istilah machine learning pada tahun 1920-an
dengan menjelaskan dasar-dasar machine learning dan konsepnya. ML telah banyak
berkembang sejak saat itu. Contoh aplikasi ML yang cukup terkenal adalah Deep Blue
yang diciptakan oleh IBM pada tahun 1996. Ada beberapa teknik machine learning, namun
secara umum ada dua teknik pembelajaran dasar dalam ML, yaitu supervised dan
unsupervised.

Teknik supervised learning merupakan teknik yang dapat diterapkan pada pembelajaran
mesin yang bisa menerima informasi yang sudah ada pada data dengan memberikan label
tertentu. Diharapkan teknik ini bisa memberikan target terhadap output yang dilakukan
dengan membandingkan pengalaman belajar di masa lalu.

Sedangkan teknik unsupervised learning merupakan teknik yang dapat diterapkan pada
machine learning yang digunakan pada data yang tidak memiliki informasi yang bisa
diterapkan secara langsung. Diharapkan teknik ini dapat membantu menemukan struktur
atau pola tersembunyi pada data yang tidak memiliki label.

2.3. Dataset
Dataset adalah kumpulan data yang diatur secara terstruktur. Biasanya, disajikan dalam
bentuk tabel, alias baris dan kolom. Setiap baris dan kolom biasanya mewakili variabel
tertentu. Asumsikan bahwa kolom mewakili skor total siswa sedangkan baris mewakili
kelas siswa. Dengan kata lain, salah satu fungsi dataset adalah menunjukkan hubungan
antar variabel. Terutama ketika jumlah informasi dan variabel yang diselidiki sangat
bervariasi.

Dataset yang kami gunakan adalah dataset Mall_Customers.csv. Dataset ini terdiri dari
fitur-fitur yang dapat digunakan untuk memprediksi pasien yang berisiko tinggi terkena
penyakit jantung. Dataset ini diambil dari situs Kaggle dengan judul “Mall Customer
Segmentation Data” oleh VIJAY CHOUDARY.

2.4. Pre-processing
a. Missing Value
Missing Value adalah hilangnya beberapa data yang telah diperoleh. Dalam dunia
data science, missing value erat kaitannya dalam proses perselisihan data (data
wrangling) sebelum nantinya akan dilakukan analisis dan prediksi data. Data wrangling
merupakan kegiatan penyeragaman data atau pembersihan data (cleaning data) dari data
kotor (mentah) menjadi data yang nantinya siap digunakan untuk analisis. Data kotor
(mentah) yang dimaksud adalah data yang terindikasi masih terdapat ketidakseragaman
format, muncul missing values pada data, dan masih juga ditemukan adanya tambahan
sufiks, prefiks dan lain-lain. Metode dalam menangani missing data secara umum dapat
dilakukan dengan cara berikut ini;

1) Mengabaikan dan membuang missing data


Contoh metode yang sering digunakan pada kategori ini adalah metode
Listwise deletion dan Pairwise deletion.
a) Estimasi parameter
Contohnya algoritma Expectation-Maximization (EM Algorithm) yang
digunakan untuk mengestimasi parameter dari missing data.
b) Imputasi
Proses pengisian atau penggantian nilai-nilai yang hilang (missing values) pada
sekumpulan data (dataset) dengan nilai-nilai yang mungkin (plausible values)
berdasarkan informasi yang didapatkan pada dataset tersebut.
b. Reduksi Dimensi
Secara umum, reduksi data adalah proses mengubah data yang disimpan menjadi
pola, fokus, kategori, atau tema tertentu setelah data dikumpulkan. Informasi yang
dikumpulkan di lokasi dan dicatat dalam berbagai catatan disusun dan dipilih. Reduksi
data juga dapat diartikan sebagai proses pemilihan data, memperhatikan penyederhanaan
data, abstraksi data, dan transformasi data mentah yang dihasilkan dari berbagai catatan
tertulis selama penelitian lapangan.
Dalam hal ini reduksi data dilakukan pada saat proses pengumpulan data masih
berjalan. Pada langkah reduksi data ini juga terdapat coding, summarization dan juga
proses pembuatan section atau bagian. Selain itu, reduksi data juga dapat diartikan
sebagai bentuk analisis yang menajamkan, mengkategorikan, dan mengarahkan. Ada
beberapa teknik untuk memperkecil dimensi. Ada beberapa teknik dalam pengurangan
dimensi. Salah satu metode pengurangan dimensi yang terkenal adalah Principal
Component Analysis atau sering disebut PCA.

Secara sederhana, tujuan dari PCA adalah mereduksi dimensi atau mengurangi
jumlah atribut pada dataset tanpa mengurangi informasi. Contohnya pada sebuah dataset
harga rumah. Pada PCA setiap atribut disebut sebagai principal component. Jika terdapat
10 atribut pada dataset, berarti terdapat 10 principal component. Pada gambar di bawah
[9] terdapat histogram dari 10 principal component dan variance dari setiap principal
component.
PCA bekerja dengan menghitung variance dari tiap atribut. Variance adalah
informasi yang dimiliki sebuah atribut. Misal pada dataset rumah, atribut jumlah kamar
memiliki variance atau informasi sebesar 92% dan warna rumah memiliki
variance/informasi sebesar 4% tentang harga rumah terkait. Dari hasil perhitungan
variance, atribut warna rumah dapat dibuang dari dataset karena tidak memiliki
informasi yang cukup signifikan ketika kita ingin mempercepat pelatihan sebuah model.
a. Encoding
Encoding adalah proses mengubah pikiran menjadi komunikasi. Encoder
menggunakan ‘media’ untuk mengirim pesan, panggilan telepon, email, pesan teks,
pertemuan tatap muka, atau alat komunikasi lainnya. Tingkat pemikiran sadar yang
masuk ke pesan penyandian dapat bervariasi.

Pembuat enkode juga harus memperhitungkan ‘gangguan’ yang mungkin


mengganggu pesan mereka, seperti pesan lain, gangguan, atau pengaruh. Audiens
kemudian menerjemahkan atau menafsirkan, pesan untuk diri mereka sendiri yang
disebut dengan decoding.

Dalam proyek pembelajaran mesin, kita biasanya berurusan dengan dataset yang
memiliki kolom kategorikal yang berbeda, di mana beberapa kolom memiliki elemen-
elemen dalam kategori variabel ordinal, misalnya kolom tingkat pendapatan dengan
elemen-elemen rendah, sedang, atau tinggi. Dalam kasus ini, kita dapat menggantikan
elemen-elemen ini dengan 1, 2, 3, di mana 1 mewakili 'rendah', 2 mewakili 'sedang', dan
3 mewakili 'tinggi'.

Melalui jenis encoding ini, kita mencoba mempertahankan makna dari elemen-
elemen tersebut di mana bobot yang lebih tinggi diberikan kepada elemen-elemen yang
memiliki prioritas lebih tinggi. Label Encoding adalah teknik yang digunakan untuk
mengubah kolom kategorikal menjadi numerik agar dapat digunakan oleh model
pembelajaran mesin yang hanya menerima data numerik. Ini merupakan tahap pra-
pemrosesan yang penting dalam sebuah proyek pembelajaran mesin.

2.4 Metode Klasifikasi


Dalam menentukan algoritma yang sesuai untuk model yang dapat melakukan
klasifikasi penyakit jantung, digunakan 4 metode/algoritma sebagai perbandingan yaitu
Naive Bayes,Decision Tree, K-Nearest Neighborhood.
a. Naïve Bayes
Naive bayes merupakan metode pengklasifikasian paling populer digunakan
dengan tingkat keakuratan yang baik. Berbeda dengan metode pengklasifikasian
dengan logistic regression ordinal maupun nominal, pada algoritma naive bayes
pengklasifikasian tidak membutuhkan adanya pemodelan maupun uji statistik.
Naive bayes merupakan metode pengklasifikasian berdasarkan probabilitas
sederhana dan dirancang agar dapat dipergunakan dengan asumsi antar variabel
penjelas saling bebas (independen). Pada algoritma ini pembelajaran lebih ditekankan
pada pengestimasian probabilitas. Keuntungan algoritma naive bayes adalah tingkat
nilai error yang didapat lebih rendah ketika dataset berjumlah besar, selain itu akurasi
naive bayes dan kecepatannya lebih tinggi pada saat diaplikasikan ke dalam dataset
yang jumlahnya lebih besar.
b.K-Nearest Neighborhood
Algoritma K-Nearest Neighbor (KNN) adalah sebuah metode klasifikasi terhadap
sekumpulan data berdasarkan pembelajaran data yang sudah terklasifikasikan sebelumya.
Termasuk dalam supervised learning, dimana hasil query instance yang baru
diklasifikasikan berdasarkan mayoritas kedekatan jarak dari kategori yang ada dalam
KNN. Tujuan dari algoritma ini adalah untuk mengklasifikasikan obyek baru berdasarkan
atribut dan sample-sample dari training data.

Algoritma K-Nearest Neighbor (KNN) bersifat non-parametric dan lazy learning.


Metode yang bersifat non-parametric memiliki makna bahwa metode tersebut tidak
membuat asumsi apa pun tentang distribusi data yang mendasarinya. Dengan kata lain,
tidak ada jumlah parameter atau estimasi parameter yang tetap dalam model, terlepas data
tersebut berukuran kecil ataupun besar.
Algoritma non-parametric seperti KNN menggunakan sejumlah parameter yang `
fleksibel, dan jumlah parameter seringkali bertambah seiring data yang semakin banyak.
Algoritma non-parametric secara komputasi lebih lambat, tetapi membuat lebih sedikit
asumsi tentang data. Algoritma KNN juga bersifat lazy learning, yang artinya tidak
menggunakan titik data training untuk membuat model. Singkatnya pada algoritma KNN
tidak ada fase training, kalaupun ada juga sangat minim.

C. Decision Tree
1. Pengertian
1. Decision Tree adalah salah satu algoritma klasifikasi yang paling populer dalam
pembelajaran mesin. Algoritma ini membangun model prediktif dalam bentuk struktur pohon
keputusan, di mana setiap simpul dalam pohon mewakili fitur, cabang-cabang mewakili aturan
pengambilan keputusan, dan daun-daun mewakili hasil klasifikasi atau label.

Decision tree adalah algoritma machine learning yang menggunakan seperangkat aturan
untuk membuat keputusan dengan struktur seperti pohon yang memodelkan kemungkinan hasil,
biaya sumber daya, utilitas dan kemungkinan konsekuensi atau resiko. Konsepnya adalah dengan
cara menyajikan algoritma dengan pernyataan bersyarat, yang meliputi cabang untuk mewakili
langkah-langkah pengambilan keputusan yang dapat mengarah pada hasil yang menguntungkan.

Dimana setiap cabang mewakili hasil untuk atribut, sedangkan jalur dari daun ke akar
mewakili aturan untuk klasifikasi. Karena itu algoritma ini disebut decision tree karena
pilihannya bercabang, membentuk struktur yang terlihat seperti pohon.Kita bisa membuat pohon
keputusan baik itu secara vertikal atau horizontal tergantung pada preferensi kita. Membaca
pohon keputusan horizontal dari kiri ke kanan dan pohon keputusan vertikal dari atas ke bawah.
2. Alasan Menggunakan Metode Decision Tree

a.Decision tree biasanya meniru kemampuan berpikir manusia saat membuat keputusan, sehingga mudah
dimengerti.

b.Logika dibalik decision tree dapat dengan mudah dipahami karena menunjukkan struktur seperti pohon.

3. Kelebihan Dan Kekurangan Decision Tree

Kelebihan :

a) Mudah dibaca dan ditafsirkan tanpa perlu pengetahuan statistik

b) Mudah disiapkan tanpa harus menghitung dengan perhitungan yang rumit

c) Proses Data Cleaning cenderung lebih sedikit, kasus nilai yang hilang dan outlier kurang
signifikan pada data decision tree.

Kekurangan :

a) Sifat tidak stabil, ini menjadi salah satu keterbatasan dari algoritma decision tree ketika terdapat
perubahan kecil pada data dapat menghasilkan perubahan besar dalam struktur pohon keputusan

b) Kurang efektif dalam memprediksi hasil dari variabel kontinu.


BAB III
PENGUJIAN

3.1 . Studi Kasus


1. Naïve Bayes
Dataset yang digunakan sebanyak 10
2. KNN
Dataset yang digunakan sebanyak 15
No. Position Innings Result
1 4 2 Won
2 3 2 Won
3 3 2 Won
4 3 1 Won
5 4 1 Won
Lost
6 4 1 (D/L)
7 4 2 Won
8 4 2 Won
9 6 2 Lost
10 4 2 Won
10 diantaranya adalah data latih

11 3 1 Won
12 3 2 Won
13 3 1 Won
14 3 2 Won
15 5 2 Won
5 diantaranya adalah data uji

(3 & 1) (3 & 2) (5 & 2)


euclidean euclidean euclidean
1,732050
8 1 1 1 1 1
1,414213
6 1 0 1 2 1
1,414213
6 1 0 1 2 1
1,41421
0 1 #NUM! 1 4 1
1 1 #NUM! 1 #NUM! 1
1 0 #NUM! 0 #NUM! 0
1,732050
8 1 1 1 1 1
1,732050
8 1 1 1 1 1
3,316624
8 0 3 0 1 0
1,732050
8 1 1 1 1 1
Data diatas adalah data yang telah dihitung dari data uji dan data latih menggunakan
euclidean distance
3.Decision Tree
3.2 IMPLEMENTASI PROGRAM
1. Naïve Bayes
2. KNN
3.Decision Tree
BAB IV
HASIL PENGUJIAN
4.1 Hasil
Dari hasil analisa confusion matrix dan metrik evaluasi yang diberikan,berikut adalah
analisa komprehensif terkait performa model dengan algoritma-algoritma yang berbeda:

1. Naïve Bayes
- Accuracy: 0.7333333333333333
- Precision: 0.8095238095238095
- Recall: 0.7333333333333333
- F1 Score: 0.6622222222222222

2. KNN
- Accuracy : 20.0%
- Precision : 5.113%
- Recall : 25.0%
- F1 Score : 8.49%

3. Decision Tree
- Accuracy : 0.26666666666666666
- Precision : 0.125
- Recall : 0.09166666666666667
- F1 Score : 0.10416666666666667

Berdasarkan analisis di atas, model terbaik untuk dataset ini adalah Naive Bayes karena
memberikan hasil yang sangat baik dengan nilai akurasi, precision, recall, dan F1 score yang
hampir sempurna (Mendekati 1.0). Model ini bisa digunakan untuk memprediksi target
variabel dengan tingkat keberhasilan yang tinggi.

Anda mungkin juga menyukai