0% menganggap dokumen ini bermanfaat (0 suara)

161 tayangan

Modul Mahasiswa Week 2 - Classification

Kita akan mencoba beberapa nilai k dan melihat hasilnya. Misalnya k=3, 5, 7. Selanjutnya kita membuat model KNN dengan k=3 Kemudian kita dapat melihat prediksi model KNN dengan k=3 terhadap data testing. 8 Matakuliah Big Data & Data Analytics - 2022 B. Evaluasi model KNN 1. Confusion Matrix dengan k=3 2. Mencoba nilai k yang berbeda, misalnya k=5 3

Diunggah oleh

MUHAMMAD FARHANSYAH MONDARI

Hak Cipta

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

161 tayangan

Modul Mahasiswa Week 2 - Classification

Diunggah oleh

MUHAMMAD FARHANSYAH MONDARI

Hak Cipta

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 16

(MODUL 2)

PRAKTIKUM WEEK-2
CLASSIFICATION ANALYSIS
WITH PYTHON

Big Data & Data Analytics

Updated Modul: 10 October 2022

By Team Teaching SCBD Laboratory 2022
(Rr Asmarani Rahmadina Ayuvinda, Siska Putri Denanti)
Chief of SCBD laboratory: Dr. Andry Alamsyah
Coordinator of Laboratory : Tri Widarmanti S.MB., MM

Social Computing & Big Data Analytics Laboratory Faculty of Economics & Business, Telkom University
2022
Matakuliah Big Data & Data Analytics - 2022

MODUL 2 : CLASSIFICATION ANALYSIS WITH PYTHON ............................................................................. 2
TUJUAN PRAKTIKUM 2..................................................................................................................................... 2
1. TIPE DATA YANG HARUS DIKETAHUI DALAM PEMROGRAMAN ................................................... 2
2. KLASIFIKASI ................................................................................................................................................. 2
3. TRAIN DATA DAN TEST DATA ................................................................................................................. 3
PRAKTIKUM KLASIFIKASI DENGAN MODEL DECISION TREE ................................................................... 4
A. Membuat Model Decision Tree ........................................................................................................................ 6
B. Evaluasi Model Decision Tree ......................................................................................................................... 7
PRAKTIKUM KLASIFIKASI DENGAN MODEL K-NEAREST NEIGHBOR..................................................... 8
A. Membuat model KNN ...................................................................................................................................... 8
B. Evaluasi model KNN........................................................................................................................................ 9
PRAKTIKUM KLASIFIKASI DENGAN MODEL NAÏVE BAIYES................................................................... 12
A. Membuat model Naïve Bayes ........................................................................................................................ 12
B. Evaluasi model Naïve Bayes .......................................................................................................................... 12
EVALUASI PERFORMA MODEL ........................................................................................................................ 14
Membandingkan ROC Curve masing-masing model .......................................................................................... 14
TUGAS .................................................................................................................................................................... 15

1
Matakuliah Big Data & Data Analytics - 2022

MODUL 2 : CLASSIFICATION ANALYSIS WITH PYTHON

TUJUAN PRAKTIKUM 2
Pada praktikum ke 2 Mata Kuliah Big Data dan Data Analytics, kita akan menggunakan Google
Collaboration (online browser-based platform) dan bahasa pemrograman Python untuk praktek
mengenai Klasifikasi. (Decision tree, KNN, dan Naïve Bayes).

1. TIPE DATA YANG HARUS DIKETAHUI DALAM PEMROGRAMAN

Tipe Data Contoh Penjelasan
Boolean True atau False Menyatakan benar True yang bernilai 1,
atau salah False yang bernilai 0
String "Ini adalah kelas Big Data Teks yang merupakan gabungan huruf,
2021" angka, whitespace (spasi), dan berbagai
karakter
Integer -9,-100,98,1880, 4 Menyatakan bilangan bulat
Float 2.09, 3.33, -100.76 Menyatakan bilangan yang mempunyai
koma
List ['a,b,c', 123] Berurutan dan juga changeable ( bisa
diubah)
Tuple ('a, b, c'), 123) Berurutan dan juga unchangeable (tak
bisa diubah)
Dictionary {'kota': 'bandung', 'id':003} Setiap anggotanya tersusun atasdua
atribut yaitu key dan value.

2. KLASIFIKASI
Klasifikasi adalah proses untuk menempatkan suatu objek ke dalam suatu kategori/kelas yang sudah
didefinisikan sebelumnya berdasarkan model tertentu. Klasifikasi dalam Data Miningadalah satu fungsi
yang berguna untuk mengelompokkan item-item di suatu dataset ke dalam beberapa kategori atau
target. Pengklasifikasian dapat digunakan untuk memprediksi suatu item di dataset masuk ke dalam
target kelas yang mana berdasarkan nilai atribut-atribut yang dimilikinya.

2
Matakuliah Big Data & Data Analytics - 2022

Model klasifikasi yang akan digunakan pada praktikum kali ini yaitu:
1. Decision Tree
2. K-Nearest Neighbor Classifier
3. Naïve Bayes

3. TRAIN DATA DAN TEST DATA

Sebelum masuk ke modelling data dan analisis, dataset perlu dibagi menjadi 2 kategori:
1. Train Data digunakan untuk melatih algoritma. Proporsi lebih banyak daripada Test Data.
Semakin banyak data yang di training, kelak semakin bagus juga model yang dihasilkan.
2. Test Data dipakai untuk mengetahui performa algoritma yang sudah dilatih sebelumnya ketika
menemukan data baru yang belum pernah dilihat sebelumnya.

3
Matakuliah Big Data & Data Analytics - 2022

PRAKTIKUM KLASIFIKASI DENGAN MODEL DECISION

TREE
Praktikum kali ini akan menggunakan tools Google Colab. Google Colab adalah coding environment
bahasa pemrograman Python dengan format "notebook" yang bisa berbasis cloud dan gratis. Dataset yang
digunakan adalah riwayat kredit nasabah bank. Pada praktikum kali ini akan melakukan pengklasifikasian
dan memprediksi apakah riwayat kredit nasabah tergolong risiko tinggi (bad) dan rendah (good). Selain
itu, di akhir praktikum akan ada evaluasi model yang membandingkan 3 performa model yang dibuat.
1. Install library

2. Import library python yang akan digunakan

3. Ambil dan open dataset yang berisi Tabel credit_data (credit_data.csv). Cara untuk mengambil
data adalah mount drive terlebih dahulu.

4. Memuat dataset yang akan digunakan menggunakan library pandas dengan function read_csv
(karena file kita extensionnya csv)

5. Melihat informasi descriptive statistics

4
Matakuliah Big Data & Data Analytics - 2022

6. Menampilkan visualisasi dataset

7. Mencari dan menangani missing values (tahap preprocessing)

8. Import module

9. Merubah data menjadi data kategorik. Encoding merupakan proses konversi informasi dari suatu
sumber (objek) menjadi data. OneHotEncoder digunakan ketika fiturnya nominal (tidak memiliki
urutan apapun), fitur kategorikal akan membuat variabel baru. Setiap kategori dipetakan dengan
variabel biner yang berisi 0 atau 1

10. Memilih feature & target

5
Matakuliah Big Data & Data Analytics - 2022

11. Split data menjadi data training dan data testing, dalam praktikum kali ini proporsi Train Data dan
Test Data adalah 70:30. Setelah itu menampilkan data training dan testing

A. Membuat Model Decision Tree

1. Import library yang akan digunakan untuk modelling

2. Modelling Decision Tree dan Predict Data

3. Menampilkan Visualisasi Decision Tree

6
Matakuliah Big Data & Data Analytics - 2022

B. Evaluasi Model Decision Tree

1. Confusion Matrix

2. !pip untuk install library ke runtime python nya

3. Import scikit plot untuk menampilkan visualisasi confusion matrix

4. Melihat nilai akurasi

5. Import package visualisasi dan melihat visualisasi kurva ROC (Receiver Operating
Characteristic). ROC yaitu untuk mengukur kinerja algoritma.

Diskusi: Interpretasikan hasil model Decision Tree Anda dengan singkat dan padat

7
Matakuliah Big Data & Data Analytics - 2022

PRAKTIKUM KLASIFIKASI DENGAN MODEL K-NEAREST

NEIGHBOR
KNN adalah algoritma yang berfungsi untuk melakukan klasifikasi suatu data berdasarkan data
pembelajaran (train data sets), yang diambil dari k tetangga terdekatnya (nearest neighbors). Dengan
k merupakan banyaknya tetangga terdekat.

A. Membuat model KNN

Selanjutnya kita akan membuat model KNN ini dimulai dari import modul menggunakan
KNeighborsClassifier

Pada tahapan kali ini untuk membuat prediksi KNN menggunakan Scikit-Learn. Tidak ada
patokan nilai ideal untuk k, namun pada perhitungan kali ini menggunakan k=50

Hasil array didapatkan dengan memprediksi data feature test sebanyak 180 data testing. Data –
data tersebut dikonversi menjadi biner 0 dan 1

8
Matakuliah Big Data & Data Analytics - 2022

B. Evaluasi model KNN

Membuat model evaluasi dengan Confusion Matrix. CF dapat menunjukkan data berdasarkan
dimensinya seperti gambar dibawah ini

Scikit-plot adalah paket python yang dapat membantu memvisualisasikan data, model. Scikit-
plot adalah upaya sederhana untuk memberikan kesempatan untuk menghasilkan grafik dan plot
yang cepat dan indah dengan boilerplate sesedikit mungkin. Hasil dari code di atas sebagai
berikut:

9
Matakuliah Big Data & Data Analytics - 2022

Code diatas akan menghasilkan nilai :

● Accuracy menunjukkan berapa persen orang yang benar diprediksi mendapat pinjaman dan
tidak mendapatkan pinjaman dari total keseluruhan orang yang mengajukan pinjaman
Akurasi = (TP + TN ) / (TP+FP+FN+TN)

● Precision merupakan rasio prediksi benar positif dibandingkan dengan keseluruhan hasil yang
diprediksi positif. Menunjukkan berapa persen orang yang mendapatkan pinjaman dari total
keseluruhan orang yang mendapatkan pinjaman.
Precision = (TP) / (TP+FP)

● Recall merupakan rasio prediksi benar positif dibandingkan dengan keseluruhan data yang
benar positif.
Recall = (TP) / (TP + FN)

● F1-Score merupakan perbandingan rata-rata presisi dan recall yang dibobotkan.

F1-Score = 2 * (Recall*Precission) / (Recall + Precision)

● Cohen's Kappa Score Fungsi ini menghitung kappa Cohen, skor yang menyatakan tingkat
kesepakatan antara dua annotator pada masalah klasifikasi.

10
Matakuliah Big Data & Data Analytics - 2022

Semakin tinggi True Positive Rate dan semakin kecil False Positive Rate maka thresholdnya
semakin bagus.

Diskusi: Interpretasikan hasil model KNN Anda dengan singkat dan padat

11
Matakuliah Big Data & Data Analytics - 2022

PRAKTIKUM KLASIFIKASI DENGAN MODEL NAÏVE

BAIYES
Pengklasifikasian Naïve Bayes adalah keluarga dari klasifikasi probabilistik sederhana yang
berdasarkan pada penerapan teorema Bayes dengan asumsi independensi yang kuat antara fitur.
Dengan Naive Bayes adalah teknik sederhana untuk membangun klasifikasi dengan model yang
menetapkan label kelas ke contoh masalah, direpresentasikan sebagai vektor nilai fitur, di mana
label kelas diambil dari beberapa himpunan hingga. Klasifikasi ini bertujuan untuk memecahkan
masalah klasifikasi pada kelas tertentu. Dimana pola tersebut dapat digunakan untuk
memperkirakan nasabah yang risiko kredit tinggi. Prediksi ini digunakan untuk membantu dalam
memprediksi apakah seseorang memiliki risiko kredit yang baik (tinggi) atau tidak (rendah).

A. Membuat model Naïve Bayes

Selanjutnya kita akan membuat model naive bayes ini dimulai dari import modul menggunakan
Gaussian NB, dimana Gaussian NB digunakan saat cara kerja Naive Bayes untuk fitur
berkelanjutan.

B. Evaluasi model Naïve Bayes

1. Seperti dalam KNN, cara evaluasi model dalam naive bayes juga hampir mirip. Confusion
matrix dalam model naïve bayes menghasilkan array 64, 25, 33 dan 58. Confusion matrix
dapat menunjukkan data berdasarkan dimensinya.

Scikit plot digunakan untuk menampilkan confusion matrix. Pada confusion matrix memiliki 2
variabel, true class dan predicted class. Dimana “true class merepresentasikan hasil kenyataan dari
dataset” sedangkan “predicted class merepresentasikan hasil prediksi model naive bayes”.
12
Matakuliah Big Data & Data Analytics - 2022

2. Melihat nilai akurasi

3. Import package visualisasi dan melihat visualisasi kurva ROC (Receiver Operating
Characteristic). ROC yaitu untuk mengukur kinerja algoritma

Diskusi: Interpretasikan hasil model Naïve Bayes Anda dengan singkat dan padat

13
Matakuliah Big Data & Data Analytics - 2022

EVALUASI PERFORMA MODEL

Dengan membandingkan performansi antara model decision tree, knn dan naive bayes. untuk
melakukan perbandingan kita menggunakan fungsi print untuk accuracy, precision, recall and
F1-Score.

Membandingkan ROC Curve masing-masing model

Analisis Hasil:
1. Dari 3 model yang telah dibuat diatas, mana model yang paling baik? Jelaskan!
2. Selain analisis data kredit, masalah bisnis apa saja yang dapat diselesaikan dengan metode
Machine Learning Klasifikasi?

14
TUGAS
1. Silahkan buat kelompok beranggotakan 3-4 orang.
2. Gunakan data yang sudah tersedia pada folder dropbox yang akan dibagikan. Kelompok
ganjil memakai dataset credit_1 dan kelompok genap memakai dataset credit_2
3. Pengumpulan maksimal 2 hari sebelum pelajaran Big Data minggu berikutnya.
4. Kelompok tercepat akan mendapat poin tambahan
5. Dilarang copy paste hasil pekerjaan kelompok lain
6. Tugas dikumpulkan melalui dropbox asisten lab masing-masing dengan format zip rar
(kumpulkan script.ipynb dan presentasi format pptx/ppsx/ pdf) dengan subjek file:
Kelas_Nama Anggota 1_ anggota 2_Pertemuan2

Deskripsi Tugas
Berdasarkan data yang telah diolah, Buat analisis model klasifikasi (Decision tree, K-NN, Naïve
bayes)
a. Pada Decision Tree: ceritakanlah hasilnya
b. Tunjukan Akurasi dari masing masing model klasifikasi
c. Bandingkan mana yang lebih baik, dengan menggunakan komparasi dengan memperlihatkan
gambar kurva ROC

Format Tugas
1. Creative Presentation
2. File Notebook Python (.ipynb)
a. Analisis Model (50%)
b. Kerapihan dalam menulis kode (30%)
c. Desain dan waktu pengumpulan tugas (20%)

Anda mungkin juga menyukai

SOAL UAS TA 2019-2020 GENAP Data Science
100% (1)
SOAL UAS TA 2019-2020 GENAP Data Science
2 halaman
04 Ekosistem Sains Data
Belum ada peringkat
04 Ekosistem Sains Data
24 halaman
2.1 Big Data Stack
Belum ada peringkat
2.1 Big Data Stack
12 halaman
Panduan Praktikum Data Mining Menggunakan Python 2020
100% (1)
Panduan Praktikum Data Mining Menggunakan Python 2020
63 halaman
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Dari Everand
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Risal
4/5 (16)
1 - Slide Big Data - Materi 1
Belum ada peringkat
1 - Slide Big Data - Materi 1
30 halaman
Data Mining - Tahapan Proses Data Mining
100% (2)
Data Mining - Tahapan Proses Data Mining
4 halaman
Pertemuan 1 - Pengantar Data Mining
Belum ada peringkat
Pertemuan 1 - Pengantar Data Mining
56 halaman
Resume Data Science
Belum ada peringkat
Resume Data Science
6 halaman
Modul 7 - PPT - ClusteringV2
Belum ada peringkat
Modul 7 - PPT - ClusteringV2
45 halaman
Crisp-DM Dan Naive Bayes
Belum ada peringkat
Crisp-DM Dan Naive Bayes
20 halaman
About Software WEKA
Belum ada peringkat
About Software WEKA
18 halaman
TP1 - Dian Rahmad Dermawan
100% (1)
TP1 - Dian Rahmad Dermawan
6 halaman
MODUL 7 Text Analytics PDF
Belum ada peringkat
MODUL 7 Text Analytics PDF
7 halaman
Tugas 1 Data Mining
Belum ada peringkat
Tugas 1 Data Mining
3 halaman
Materi 4 - Data Modeling
Belum ada peringkat
Materi 4 - Data Modeling
24 halaman
Uas Data Mining
Belum ada peringkat
Uas Data Mining
14 halaman
Pengenalan Data Mining
100% (1)
Pengenalan Data Mining
71 halaman
Clustering Kmeans
Belum ada peringkat
Clustering Kmeans
44 halaman
Modul Praktik Perancangan Big Data - Ridwan Ramadhan - 2291476560
Belum ada peringkat
Modul Praktik Perancangan Big Data - Ridwan Ramadhan - 2291476560
46 halaman
Mengenal RapidMiner
75% (4)
Mengenal RapidMiner
51 halaman
Uas Data Mining
Belum ada peringkat
Uas Data Mining
1 halaman
Modul 2 Pengantar Data Science Definisi Data Sains
Belum ada peringkat
Modul 2 Pengantar Data Science Definisi Data Sains
29 halaman
Peran Utama DM
Belum ada peringkat
Peran Utama DM
18 halaman
PPT-Data Mining-Pertemuan 2
Belum ada peringkat
PPT-Data Mining-Pertemuan 2
44 halaman
B6 Buku Big Data (Informasi Dan Kasus)
Belum ada peringkat
B6 Buku Big Data (Informasi Dan Kasus)
96 halaman
Kelompok 4 Algoritma
Belum ada peringkat
Kelompok 4 Algoritma
107 halaman
Tugas Akhir Data Mining
Belum ada peringkat
Tugas Akhir Data Mining
63 halaman
Implementasi Metode Smoote Dan Backpro Untuk Prediksi Churn Perusahaan Telekomunikasi
Belum ada peringkat
Implementasi Metode Smoote Dan Backpro Untuk Prediksi Churn Perusahaan Telekomunikasi
17 halaman
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
Belum ada peringkat
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
32 halaman
Kul 3 - Heuristic Search
Belum ada peringkat
Kul 3 - Heuristic Search
23 halaman
Extreme Learning Machine
Belum ada peringkat
Extreme Learning Machine
7 halaman
DM - P5 - Preprocessing Data (Lanjutan)
Belum ada peringkat
DM - P5 - Preprocessing Data (Lanjutan)
41 halaman
Data Science
Belum ada peringkat
Data Science
79 halaman
Ujian TipeA 3KA10 PaniSaputri 17118665
Belum ada peringkat
Ujian TipeA 3KA10 PaniSaputri 17118665
7 halaman
Data Resource Management
Belum ada peringkat
Data Resource Management
10 halaman
Tugas 3 Data Mining
Belum ada peringkat
Tugas 3 Data Mining
1 halaman
TP2 Dian Rahmad Dermawan
Belum ada peringkat
TP2 Dian Rahmad Dermawan
6 halaman
Buku Data Mining Dan Aplikasinya
Belum ada peringkat
Buku Data Mining Dan Aplikasinya
432 halaman
Big Data Pertemuan 3
Belum ada peringkat
Big Data Pertemuan 3
6 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
9. Modul Praktikum Big Data - Orange Data Mining Image Analytics (2)
Belum ada peringkat
9. Modul Praktikum Big Data - Orange Data Mining Image Analytics (2)
10 halaman
Teknik Pencarian
Belum ada peringkat
Teknik Pencarian
37 halaman
Data Preparation
Belum ada peringkat
Data Preparation
42 halaman
Eksplorasi Data (EDA)
Belum ada peringkat
Eksplorasi Data (EDA)
45 halaman
Tugas Makalah Business Understanding
Belum ada peringkat
Tugas Makalah Business Understanding
16 halaman
M6-KB4. Materi Ajar Framework Big Data
Belum ada peringkat
M6-KB4. Materi Ajar Framework Big Data
44 halaman
Materi DBSCAN
Belum ada peringkat
Materi DBSCAN
36 halaman
Sistem Pakar Forward Chaining
Belum ada peringkat
Sistem Pakar Forward Chaining
1 halaman
Numpy Dan Contoh
Belum ada peringkat
Numpy Dan Contoh
4 halaman
Pengolahan Datamining Menggunakan Tool Orange Dan Python
Belum ada peringkat
Pengolahan Datamining Menggunakan Tool Orange Dan Python
6 halaman
Data Warehouse OLAP
Belum ada peringkat
Data Warehouse OLAP
18 halaman
Analisis Faktor-Faktor Yang Mempengaruhi Kepuasan Pelanggan Online
Belum ada peringkat
Analisis Faktor-Faktor Yang Mempengaruhi Kepuasan Pelanggan Online
19 halaman
Modul 4 Android-Mysql Dan Json
Belum ada peringkat
Modul 4 Android-Mysql Dan Json
25 halaman
Metode Klasifikasi Dan Clustering Dalam Data Mining
100% (1)
Metode Klasifikasi Dan Clustering Dalam Data Mining
7 halaman
14-Modul DW - Pentaho Lanjut
Belum ada peringkat
14-Modul DW - Pentaho Lanjut
18 halaman
Kelompok 5 Praktikum Modul 2 PPT MB4408
Belum ada peringkat
Kelompok 5 Praktikum Modul 2 PPT MB4408
32 halaman
Klasifikasi in Spark (Regresi Logistik)
Belum ada peringkat
Klasifikasi in Spark (Regresi Logistik)
5 halaman
Data Kelompok 10
Belum ada peringkat
Data Kelompok 10
22 halaman
UAS Data Mining- Akbar- 12110001
Belum ada peringkat
UAS Data Mining- Akbar- 12110001
7 halaman